你好,游客 登錄
背景:
閱讀新聞

2019年六合图库马经300k:Lucene和Nutch簡介

[日期:2014-03-26] 來源:CSDN  作者: [字體: ]

六合图库118万众图库 www.xorsm.icu   Lucene

  簡介

  Lucene是apache軟件基金會4 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。

  優點

  索引文件格式獨立于應用平臺。Lucene定義了一套以8位字節為基礎的索引文件格式,使得兼容系統或者不同平臺的應用能夠共享建立的索引文件。

  在傳統全文檢索引擎的倒排索引的基礎上,實現了分塊索引,能夠針對新的文件建立小文件索引,提升索引速度。然后通過與原有索引的合并,達到優化的目的。

  設計了獨立于語言和文件格式的文本分析接口,索引器通過接受Token流完成索引文件的創立,用戶擴展新的語言和文件格式,只需要實現文本分析的接口。

  已經默認實現了一套強大的查詢引擎,用戶無需自己編寫代碼即可使系統獲得強大的查詢能力,Lucene的查詢實現中默認實現了布爾操作、模糊查詢(Fuzzy Search[11])、分組查詢等等。

  導入jar包

  7個包需要導入:analysis,document,index,queryParser,search,store,util

  Nutch

  簡介

  Nutch 是一個開源Java實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

  組成

  爬蟲Crawler和查詢searcher。Crawler主要用于從網絡上抓取網頁并為這些網頁建立索引。Searcher主要利用這些索引檢索用戶的查找關鍵詞來產生查找結果。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。

  Crawler和Searcher兩部分盡量分開的目的主要是為了使兩部分可以分布式配置在硬件平臺上,例如將Crawler和Searcher分別放在兩個主機上,這樣可以提升性能。

  爬蟲crawler

  Crawler的重點在兩個方面,Crawler的工作流程和涉及的數據文件的格式和含義。數據文件主要包括三類,分別是web database,一系列的segment加上index,三者的物理文件分別存儲在爬行結果目錄下的db目錄下webdb子文件夾內,segments文件夾和index文件夾。那么三者分別存儲的信息是什么呢?

  一次爬行會產生很多個segment,每個segment內存儲的是爬蟲Crawler在單獨一次抓取循環中抓到的網頁以及這些網頁的索引。Crawler爬行時會根據WebDB中的link關系按照一定的爬行策略生成每次抓取循環所需的fetchlist,然后Fetcher通過fetchlist中的URLs抓取這些網頁并索引,然后將其存入segment。Segment是有時限的,當這些網頁被Crawler重新抓取后,先前抓取產生的segment就作廢了。在存儲中。Segment文件夾是以產生時間命名的,方便我們刪除作廢的segments以節省存儲空間。

  Index是Crawler抓取的所有網頁的索引,它是通過對所有單個segment中的索引進行合并處理所得的。Nutch利用Lucene技術進行索引,所以Lucene中對索引進行操作的接口對Nutch中的index同樣有效。但是需要注意的是,Lucene中的segment和Nutch中的不同,Lucene中的segment是索引index的一部分,但是Nutch中的segment只是WebDB中各個部分網頁的內容和索引,最后通過其生成的index跟這些segment已經毫無關系了。

  Web database,也叫WebDB,其中存儲的是爬蟲所抓取網頁之間的鏈接結構信息,它只在爬蟲Crawler工作中使用而和Searcher的工作沒有任何關系。WebDB內存儲了兩種實體的信息:page和link。Page實體通過描述網絡上一個網頁的特征信息來表征一個實際的網頁,因為網頁有很多個需要描述,WebDB中通過網頁的URL和網頁內容的MD5兩種索引方法對這些網頁實體進行了索引。Page實體描述的網頁特征主要包括網頁內的link數目,抓取此網頁的時間等相關抓取信息,對此網頁的重要度評分等。同樣的,Link實體描述的是兩個page實體之間的鏈接關系。WebDB構成了一個所抓取網頁的鏈接結構圖,這個圖中Page實體是圖的結點,而Link實體則代表圖的邊。

推薦 打印 | 錄入:Cstor | 閱讀:
相關新聞      
本文評論   
評論聲明
  • 尊重網上道德,遵守中華人民共和國的各項有關法律法規
  • 承擔一切因您的行為而直接或間接導致的民事或刑事法律責任
  • 本站管理人員有權保留或刪除其管轄留言中的任意內容
  • 本站有權在網站內轉載或引用您的評論
  • 參與本評論即表明您已經閱讀并接受上述條款