Lucene搜索引擎開發(fā)權(quán)威經(jīng)典

出版時(shí)間:2008-10  出版社:中國鐵道出版社  作者:于天恩  頁數(shù):629  字?jǐn)?shù):939000  
Tag標(biāo)簽:無  

內(nèi)容概要

這本書基于Lucene的當(dāng)前最新版本(2.1)精解了Lucene搜索引擎的相關(guān)知識(shí),從基礎(chǔ)知識(shí)到應(yīng)用開發(fā),精練簡潔,恰到好處    本書共包括16章,分為6部分。第1部分Lucene基礎(chǔ)。介紹了Lucene的基礎(chǔ)知識(shí),包括Lucene的歷史和發(fā)展情況、使用Lucene創(chuàng)建索引和執(zhí)行搜索的基本方法以及中文分詞的應(yīng)用,最后做了兩個(gè)應(yīng)用項(xiàng)目。第2部分:數(shù)據(jù)解析。介紹解析不同格式數(shù)據(jù)(如Word、PDF等)的方法,包括常用的數(shù)據(jù)解析組件、Lucene自身的數(shù)據(jù)解析機(jī)制和Lius類庫。第3部分:索引的高級(jí)知識(shí)。介紹了 Lucene建立索引的過程,索引的查看和刪除,索引的同步,索引的合并和優(yōu)化等內(nèi)容。第4部分:搜索的高級(jí)知識(shí)。介紹使用不同的Query對(duì)象構(gòu)建搜索請(qǐng)求,使用QueryParser解析用戶的搜索請(qǐng)求,搜索結(jié)果的過濾和排序等內(nèi)容。第5部分:Lucene應(yīng)用實(shí)例。應(yīng)用本節(jié)介紹的所有知識(shí)構(gòu)建一個(gè)桌面搜索引擎和一個(gè)Web搜索引擎。這部分作為對(duì)前面所有內(nèi)容的總結(jié)。第6部分:Nutch搜索引擎框架。介紹了基于Lucene的完整搜索引擎Nutch。    本書適合從Lucene初學(xué)者到高級(jí)開發(fā)人員之間的一切Lucene愛好者。

作者簡介

于天恩,現(xiàn)任某大型軟件開發(fā)公司技術(shù)總監(jiān),高級(jí)軟件工程師,精通主流軟件編程技術(shù)(100多種),具有大量軟件項(xiàng)目開發(fā)經(jīng)驗(yàn)。主持開發(fā)過大中型企業(yè)網(wǎng)站,短信服務(wù)系統(tǒng),辦公自動(dòng)化系統(tǒng)(OA),CRM系統(tǒng)等。
  已經(jīng)出版的作品:《PHP精解案例教程》、《做自己的搜索引擎——搜

書籍目錄

第1部分 Lucene基礎(chǔ)(第1~5章)  第1章 Lucene簡介  1.1 認(rèn)識(shí)Lucene     1.1.1  Lucene是什么     1.1.2  Lucene的作者     1.1.3  Lucene的歷史     1.l.4  Lucene的現(xiàn)在   1.2  Lucene體驗(yàn)實(shí)例     1.2.1 下載Lucene     1.2.2 編寫輔助糞     1.2.3 最簡單的搜索引擎     1.2.4 索引器的開發(fā)     1.2.5 索引器的運(yùn)行     1.2.6 搜索器的開發(fā)      1.2.7 搜索器的運(yùn)行    小結(jié) 第2章 創(chuàng)建索引    2.1 創(chuàng)建索引的基本方式     2.1.1 理解創(chuàng)建索引的過程     2.1.2 創(chuàng)建Field     2.1.3 創(chuàng)建Document     2.1.4 創(chuàng)建Index Writer   2.2 創(chuàng)建索引實(shí)例     2.2.1 簡單索引     2.2.2 復(fù)雜一點(diǎn)的索引     2.2.3 為文件創(chuàng)建索引     2.2.4 為某一目錄下的所有文件創(chuàng)建索引   小結(jié) 第3章 執(zhí)行搜索   3.1 執(zhí)行搜索的基本方式     3.1.1 創(chuàng)建搜索器對(duì)象:IndexSearcher     3.1.2 封裝搜索條件:使用Term和Query對(duì)象     3.1.3 執(zhí)行搜索     3.1.4 提取搜索結(jié)果:了解Hits對(duì)象     3.1.5 提取搜索結(jié)果:了解Document對(duì)象     3.1.6 提取搜索結(jié)果了解Field對(duì)象  3.2 執(zhí)行搜索實(shí)例     3.2.1 簡單搜索     3.2.2 分詞問題   小結(jié) 第4章 中文分詞  4.1 說說分詞     4.1.1 分詞的方法     4.1.2 做分詞器   4.2  Lucene的分詞器     4.2.1 二分法分詞器     4.2.2  Lucene自帶的中文分詞器     4.2.3  NGram分詞器的原理和用法     4.2.4  JE分詞器的原理和用法     4.2.5  IK分詞器的原理和用法     4.2.6 其他分詞器  小結(jié)  ……第2部分 數(shù)據(jù)解析(第6~8章)第3部分 索引的高級(jí)知識(shí)(第9~10章)第4部分 搜索的高級(jí)知識(shí)(第11~12章)第5部分 lucene應(yīng)用實(shí)例(第13~14章)第6部分 Nutch搜索引擎框架(第15~16章)

章節(jié)摘錄

  第1部分 Lucene基礎(chǔ)(第1~5章)  作為本書的第一部分,筆者在這里使用五章的篇幅介紹了Lucene的基礎(chǔ)知識(shí)。包括Lucene的歷史和發(fā)展情況、使用Lucene創(chuàng)建索引和執(zhí)行搜索的基本方法以及中文分詞的應(yīng)用,最后做了兩個(gè)應(yīng)用項(xiàng)目,來說明使用Lucene建立搜索引擎的詳細(xì)過程?! ∵@部分內(nèi)容是很淺的,只是基礎(chǔ)。學(xué)過了這部分之后,讀者就可以做一些實(shí)際的應(yīng)用項(xiàng)目了。比如:給自己的網(wǎng)站添加全文搜索引擎。

編輯推薦

  《Lucene搜索引擎開發(fā)權(quán)威經(jīng)典》基于Lucene的當(dāng)前最新版本(2.1)精解了Lucene搜索引擎的相關(guān)知識(shí),從基礎(chǔ)知識(shí)到應(yīng)用開發(fā),精煉簡潔,恰到好處?!  禠ucene搜索引擎開發(fā)權(quán)威經(jīng)典》包含了必要的理論,但以實(shí)踐為主。所講的理論都不是紙上談兵,都是可以立即付諸實(shí)踐進(jìn)行工程應(yīng)用,代碼可以直接拿來用?! ?,不見得要寫得深透。書的好壞要由書面向的讀者群來評(píng)價(jià)。《Lucene搜索引擎開發(fā)權(quán)威經(jīng)典》適合從Lucene初學(xué)者到高級(jí)開發(fā)人員之間的一切Lucene愛好者。  內(nèi)容精練實(shí)用,《Lucene搜索引擎開發(fā)權(quán)威經(jīng)典》中所列代碼可以搭建一座中型搜索平臺(tái),完整實(shí)例再現(xiàn),讓讀者緊跟作者構(gòu)建思路,Lucene搜索引擎技術(shù)完美演繹。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    Lucene搜索引擎開發(fā)權(quán)威經(jīng)典 PDF格式下載


用戶評(píng)論 (總計(jì)6條)

 
 

  •   《搜索引擎權(quán)威經(jīng)典》一書約630頁厚,售價(jià)為88元,買了一本試試,總算沒有白花書費(fèi)。該書的主要優(yōu)缺點(diǎn)如下:

    優(yōu)點(diǎn):
    1)lucene部分寫的比較細(xì)致,容易讀懂。例程結(jié)構(gòu)清晰、錯(cuò)誤較少,有一定重用的價(jià)值,多數(shù)情況不作或只稍為修改就可以運(yùn)行。
    2)對(duì)PDF、WORD、EXCEL、XML、HTML等文件的解析較好。
    3)光盤中附帶了運(yùn)行l(wèi)ucene的一些插件。光盤沒有附帶的,還可以在書中推薦的網(wǎng)址下載。沒有軟件版本不匹配的問題。

    缺點(diǎn):
    1)說了很多重復(fù)的話,用了很多重復(fù)的代碼。很多程序只是修改了2~3行代碼,連程序的名字都沒有換。
    2)使用CMD,在DOS界面下調(diào)試運(yùn)行程序十分不便,建議改用Eclipse/MyEclipse。
    3)Nutch部分只有區(qū)區(qū)20余頁,到總頁碼的5%,而且介紹沒有Nutch和Lucene的聯(lián)系。似乎,有點(diǎn)不負(fù)責(zé)任。

    看完覺得寫的虎頭蛇尾 過于羅嗦,談不上什么“權(quán)威”,只不過適合那些需要容易上手并迅速深入lucene的人。
  •   寫的很好,中國人自己寫的好書
  •   從當(dāng)當(dāng)買了這么多書,這是我買得最失望的一本書,作者純粹就是想湊字?jǐn)?shù)賺稿費(fèi),看完什么東西也學(xué)不到,還不如看lucene源代碼來得實(shí)在,也沒有一些網(wǎng)站上對(duì)lucene分析得好,總的來說很讓人失望的一本書。
  •   很失望,不好,代碼連最基本的java格式都不是,是c的排版格式,而且很多地方都是java所不推薦的編程方式,重復(fù)的代碼一堆,來撐篇幅,不少實(shí)例圖也是錯(cuò)誤的,張冠李戴,不值得買。
  •   唉,這是我讀過的最會(huì)堆砌的書了,非常遺憾看到這樣的技術(shù)書籍,極不推薦購買
  •   從來沒見過這么濫竽充數(shù)的技術(shù)書籍。虧作者還好意思顯擺。他那點(diǎn)積累太淺薄了。
 

250萬本中文圖書簡介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7