走進(jìn)搜索引擎

出版時(shí)間:2011-5  出版社:電子工業(yè)出版社  作者:潘雪峰,花貴春,梁斌 編著  頁數(shù):300  
Tag標(biāo)簽:無  

前言

  作者序  本書第1版出版到現(xiàn)在已經(jīng)3年了。在這段不長(zhǎng)的時(shí)光里,搜索引擎技術(shù)有了進(jìn)一步的發(fā)展。其中比較突出的是,隨著數(shù)據(jù)規(guī)模進(jìn)一步增大,為提升用戶體驗(yàn),搜索引擎性能進(jìn)一步優(yōu)化;在更廣泛的用戶參與下,增強(qiáng)了基于用戶行為進(jìn)行效果改進(jìn)的能力。這也使得本書有了改版以適應(yīng)這些重大變化的必要?! 』诖?,本書第2版增加了搜索引擎性能調(diào)優(yōu)、搜索引擎日志分析,以及基于學(xué)習(xí)進(jìn)行排序優(yōu)化三方面的內(nèi)容,希望能讓讀者跟上搜索技術(shù)的發(fā)展潮流,在這一領(lǐng)域的前沿真切地感受到它的勃勃生機(jī)。  當(dāng)前,搜索技術(shù)已經(jīng)不再局限于搜索引擎本身,它所建立的一套駕馭互聯(lián)網(wǎng)級(jí)別海量數(shù)據(jù)的架構(gòu)和理念正日益擴(kuò)展到整個(gè)信息技術(shù)領(lǐng)域。而隨著世界的日益信息化、數(shù)字化、網(wǎng)絡(luò)化,這些理念的深遠(yuǎn)影響還會(huì)進(jìn)一步顯現(xiàn)。這又將是一次新的科技浪潮。  時(shí)光流逝,卻有如輪回。信息技術(shù)產(chǎn)業(yè),甚至整個(gè)科技界,正是在這樣的浪潮更迭中不斷進(jìn)步。從AT&T 的有線電話到IBM 的大型機(jī),到Apple的PC機(jī),到Intel的CPU,到Motorola的無線通信,到Microsoft的操作系統(tǒng),到Cisco的路由器,到Google的搜索引擎,概莫能外。一次次浪潮,一個(gè)個(gè)產(chǎn)業(yè)巨擎,終將隨自己的時(shí)代而去,但它們所帶來的影響卻將投射在人類文明的歷史上,永不消逝?! ≈劣谒阉鞯睦顺本烤箤⒊掷m(xù)多長(zhǎng)時(shí)間,在整個(gè)IT史上留下怎樣的一筆,只有時(shí)間才能告訴人們答案。此時(shí)此刻,置身其中,讓我們打開書本,接受浪潮之巔的洗禮,走進(jìn)搜索引擎?! £P(guān)于本書作者  作者潘雪峰,畢業(yè)于中國科學(xué)院計(jì)算技術(shù)研究所,工學(xué)博士。研究興趣包括多媒體內(nèi)容分析、機(jī)器學(xué)習(xí)和互聯(lián)網(wǎng)數(shù)據(jù)挖掘,現(xiàn)從事搜索引擎領(lǐng)域相關(guān)工作?! ∽髡呋ㄙF春,目前在清華大學(xué)信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室攻讀博士學(xué)位,研究興趣包括機(jī)器學(xué)習(xí)及其在搜索領(lǐng)域的應(yīng)用。  作者梁斌,目前在清華大學(xué)信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室攻讀博士學(xué)位,研究興趣包括大規(guī)模數(shù)據(jù)處理、搜索引擎和軟件工程等。  致謝  作者們首先要特別感謝他們的妻子,感謝她們?cè)诜泵Φ墓ぷ骱蛯W(xué)習(xí)之余,包攬了家里家外大大小小的事務(wù),還在作者們有所懈怠的時(shí)候,從精神上給予莫大的支持和鼓勵(lì)。正是她們無私的支持,才使本書得以面世?! 「兄x電子工業(yè)出版社計(jì)算機(jī)圖書出版分社孫學(xué)瑛女士,她是推動(dòng)本書完成的最為關(guān)鍵性的人物。她參與了此書創(chuàng)作的全過程,為筆者提供了有關(guān)圖書市場(chǎng)的寶貴信息,使得本書更加面向讀者?! 「兄x本書參考文獻(xiàn)的作者們、搜索引擎研究界的學(xué)者們,以及為此書提出寶貴技術(shù)意見的業(yè)界同行,正是你們杰出的成就和無私的幫助,才使得本書有了寫作的基礎(chǔ)和必要?! ∮捎谧髡咚接邢蓿又阉黝I(lǐng)域的發(fā)展日新月異,書中不足及錯(cuò)誤之處在所難免,敬請(qǐng)專家和讀者給予批評(píng)指正。  潘雪峰、花貴春、梁斌  2011年2月

內(nèi)容概要

  
本書由搜索引擎開發(fā)研究領(lǐng)域三位年輕的博士生精心編寫,作者們希望將自己對(duì)搜索引擎的理解和實(shí)際應(yīng)用相結(jié)合,讓未接觸過搜索引擎原理和方法的讀者也能輕松讀懂該書的大部分內(nèi)容。
本書在第1版的基礎(chǔ)上,刪除了搜索引擎歷史等章節(jié),并對(duì)錯(cuò)誤和不足進(jìn)行了修訂和補(bǔ)充,同時(shí)增加了潘雪峰編寫的第6章“搜索引擎日志分析”,花貴春編寫的第7章“排序?qū)W習(xí)(LearningtoRank)”和梁斌編寫的第8章“搜索引擎的性能調(diào)優(yōu)”三個(gè)主要章節(jié),變更的內(nèi)容約占第1版的一半。
讀者對(duì)象:本書作為搜索引擎原理與技術(shù)的入門書籍,面向那些有志從事搜索引擎行業(yè)的青年學(xué)生、需要完整理解并優(yōu)化搜索引擎的專業(yè)技術(shù)人員、搜索引擎的營(yíng)銷人員,以及網(wǎng)站的負(fù)責(zé)人等。本書是從事搜索引擎開發(fā)的工程技術(shù)人員難得的參考書,也可作為大中專院校相關(guān)專業(yè)的教學(xué)輔導(dǎo)書.

書籍目錄

第1章 引言1
 1.1 搜索引擎概述2
 1.1.1 目錄式搜索引擎2
 1.1.2 全文搜索引擎3
 1.1.3 元搜索引擎(Meta-Search Engine)3
 1.2 搜索引擎的主要需求3
 1.2.1 快4
 1.2.2 全4
 1.2.3 準(zhǔn)4
 1.2.4 穩(wěn)5
 1.2.5 省5
 1.3 搜索引擎的4大系統(tǒng)6
 1.3.1 搜索引擎的體系結(jié)構(gòu)6
第2章 搜索引擎的下載系統(tǒng)8
 2.1 爬蟲的發(fā)展歷史9
 2.1.1 世界上第1個(gè)爬蟲9
 2.1.2 爬蟲的發(fā)展歷程9
 2.2 萬維網(wǎng)及其網(wǎng)頁分析9
 2.2.1 蝴蝶結(jié)型的萬維網(wǎng)10
 2.2.2 萬維網(wǎng)的直徑12
 2.2.3 萬維網(wǎng)的規(guī)模及變化特征12
 2.2.4 網(wǎng)頁的特征13
 2.3 有關(guān)爬蟲的基本概念13
 2.3.1 爬蟲13
 2.3.2 種子站點(diǎn)14
 2.3.3 URL14
 2.3.4 Backlinks14
 2.4 網(wǎng)頁抓取原理14
 2.4.1 telnet和wget14
 2.4.2 從種子站點(diǎn)開始逐層抓取15
 2.4.3 不重復(fù)抓取?略19
 2.4.4 網(wǎng)頁抓取優(yōu)先策略25
 2.4.5 網(wǎng)頁重訪策略26
 2.4.6 Robots協(xié)議30
 2.4.7 其他應(yīng)該注意的禮貌性問題31
 2.4.8 重要性網(wǎng)頁優(yōu)先抓取策略32
 2.4.9 抓取提速策略(合作抓取策略)34
 2.5 網(wǎng)頁庫38
 2.6 下載系統(tǒng)回顧及未來發(fā)展41
 參考文獻(xiàn)42
第3章 搜索引擎的分析系統(tǒng)44
 3.1 知識(shí)準(zhǔn)備45
 3.1.1 HTML語言45
 3.1.2 錨文本(anchor text)45
 3.1.3 半結(jié)構(gòu)化數(shù)據(jù)(semi-structured data)45
 3.2 信息抽取及網(wǎng)頁信息結(jié)構(gòu)化45
 3.2.1 網(wǎng)頁結(jié)構(gòu)化的目標(biāo)46
 3.2.2 建立HTML標(biāo)簽樹48
 3.2.3 通過投票方法得到正文52
 3.2.4 網(wǎng)頁結(jié)構(gòu)化過程回顧55
 3.3 網(wǎng)頁查重56
 3.3.1 網(wǎng)頁查重技術(shù)發(fā)展歷史56
 3.3.2 網(wǎng)頁查重實(shí)現(xiàn)方法58
?3.4 中文分詞61
 3.4.1 什么是中文分詞61
 3.4.2 通過字典實(shí)現(xiàn)分詞61
 3.4.3 基于統(tǒng)計(jì)的分詞方法65
 3.5 PageRank67
 3.5.1 PageRank的來由68
 3.5.2 PageRank的基本想法68
 3.5.3 PageRank的計(jì)算公式69
 3.5.4 PageRank的計(jì)算方法73
 3.6 分析系統(tǒng)結(jié)構(gòu)圖76
 參考文獻(xiàn)77
第4章 搜索引擎的索引系統(tǒng)79
 4.1 知識(shí)準(zhǔn)備80
 4.1.1 信息80
 4.1.2 索引80
 4.1.3 倒排索引、倒排表、臨時(shí)倒排文件、最終倒排文件80
 4.1.4 其他概念81
 4.2 全文檢索81
 4.3 文檔編號(hào)82
 4.3.1 編號(hào)的本質(zhì)82
 4.3.2 文檔編號(hào)的方法83
 4.3.3 游程編碼84
 4.4 倒排索引87
 4.4.1 經(jīng)典的倒排索引87
 4.4.2 正排索引(前向索?)88
 4.4.3 倒排索引90
 4.5 數(shù)據(jù)規(guī)模的估計(jì)92
 4.5.1 齊普夫法則92
 4.5.2 布爾檢索模型下的索引規(guī)模估計(jì)94
 4.6 涉及存儲(chǔ)規(guī)模的一些計(jì)算97
 4.6.1 正排表與倒排表的合并97
 4.6.2 多個(gè)臨時(shí)倒排文件的歸并100
 4.6.3 倒排索引分布式存儲(chǔ)103
 4.6.4 倒排文件緩存106
 4.6.5 倒排索引詞典統(tǒng)計(jì)信息的計(jì)算106
 4.7 倒排索引文件的創(chuàng)建過程107
 4.7.1 創(chuàng)建倒排表107
 4.7.2 計(jì)算統(tǒng)計(jì)信息109
 參考文獻(xiàn)110
第5章 搜索引擎的查詢系統(tǒng)112
 5.1 知識(shí)準(zhǔn)備113
 5.1.1 什么是信息熵113
 5.1.2 檢索和查詢的區(qū)別115
 5.1.3 檢索詞和查詢?cè)~的區(qū)別115
 5.1.4 自動(dòng)文本摘要(Automatic Text Summarization)116
 5.2 網(wǎng)頁信息檢索116
 5.2.1 早期的檢索模型116
 5.2.2 向量空間模型(Vector Space Models)118
 5.2.3 關(guān)鍵詞權(quán)重的量化方法TF/IDF122
 5.2.4 搜索引擎采用的檢索模型125
 5.2.5 多文檔列表求交計(jì)算127
 5.2.6 檢索結(jié)果排序132
 5.2.7 堆排序132
 5.3 中文自動(dòng)摘要137
 5.3.1 自動(dòng)摘要的發(fā)展歷史137
 5.3.2 自動(dòng)摘要的含義和實(shí)現(xiàn)137
 5.4 生成搜索結(jié)果頁142
 5.4.1 生成搜索結(jié)果頁142
 5.5 搜索結(jié)果頁的緩存144
 5.6 推測(cè)用戶查詢意圖145
 5.6.1 查詢分類146
 5.6.2 推測(cè)信息類、事物類的查詢意圖147
 5.7 查詢系統(tǒng)的當(dāng)前熱點(diǎn)和發(fā)展方向147
 5.7.1 查詢系統(tǒng)的當(dāng)前熱點(diǎn)148
 5.7.2 查詢系統(tǒng)的發(fā)展方向148
 參考文獻(xiàn)149
第6章 搜索引擎日志分析150
 6.1 簡(jiǎn)介151
 6.1.1 人機(jī)交互的記錄—?日志151
 6.1.2 分析搜索引擎日志的意義153
 6.1.3 本章的主要內(nèi)容154
 6.2 知識(shí)準(zhǔn)備155
 6.2.1 二分圖模型(Bipartite Model)155
 6.2.2 圖模型(graphical model)156
 6.2.3 LDA(Latent Dirichlet Allocation)模型158
 6.2.4 隨機(jī)游走 (Random Walk)159
 6.2.5 小結(jié)160
 6.3 查詢?nèi)罩痉治?61
 6.3.1 查詢?nèi)罩镜膬?nèi)容161
?6.3.2 查詢?cè)~頻統(tǒng)計(jì)162
 6.3.3 查詢串提示(Suggestion)163
 6.3.4 命名實(shí)體(Named Entity)類別識(shí)別165
 6.3.5 小結(jié)167
 6.4 點(diǎn)擊日志分析167
 6.4.1 點(diǎn)擊日志的內(nèi)容168
 6.4.2 查詢串提示(Suggestion)再分析169
 6.4.3 查詢和結(jié)果類別屬性傳遞170
 6.4.4 搜索結(jié)果相似性度量171
 6.4.5 查詢結(jié)果排序172
 6.4.6 點(diǎn)擊數(shù)據(jù)的稀?性174
 6.4.7 小結(jié)176
 6.5 隱私問題177
 6.5.1 日志的兩面性177
 6.5.2 日志的安全使用179
 6.5.3 小結(jié)179
 6.6 本章總結(jié)180
 參考文獻(xiàn)180
第7章 排序?qū)W習(xí)(Learning to Rank)183
 7.1 排序概述184
 7.2 傳統(tǒng)的排序模型186
 7.2.1 查詢相關(guān)的排序模型186
 7.2.2 查詢無關(guān)的排序模型188
 7.3 排序?qū)W習(xí)簡(jiǎn)介以及研究現(xiàn)狀190
 7.3.1 排序?qū)W習(xí)簡(jiǎn)介190
 7.3.2 排序?qū)W習(xí)問題的研究現(xiàn)狀191
 7.4 排序?qū)W習(xí)模型的應(yīng)用實(shí)例192
 7.5 排序?qū)W習(xí)方法的框架194
 7.5.1 參數(shù)設(shè)置194
 7.5.2 排序?qū)W習(xí)方法的框架195
 7.6 評(píng)測(cè)數(shù)據(jù)集196
 7.6.1 LETOR數(shù)據(jù)集196
 7.6.2 Microsoft Learning to Rank數(shù)據(jù)集197
 7.6.3 Yahoo Webscope數(shù)據(jù)集198
 7.7 排序?qū)W習(xí)模型簡(jiǎn)介198
 7.7.1 實(shí)例199
 7.7.2 Pointwise方法199
 7.7.3 Pairwise方法204
 7.7.4 Listwise方法207
 7.7.5 3種排序方法的對(duì)比210
 7.8 排序?qū)W習(xí)模型性能比較211
 7.8.1 評(píng)測(cè)方法211
 7.8.2 排序模型性能的比較215
 7.9 排序?qū)W習(xí)的研究方向217
 7.9.1 標(biāo)準(zhǔn)標(biāo)注的自動(dòng)構(gòu)建217
 7.9.2 排序特征217
 7.9.3 半監(jiān)督學(xué)習(xí)/主動(dòng)學(xué)習(xí)218
 7.9.4 查詢相關(guān)的排序模型218
 7.9.5 利用用戶行為特征218
 7.10 總結(jié)219
 參考文獻(xiàn)219
第8章 搜索引擎的性能調(diào)優(yōu)223
 8.1 系統(tǒng)調(diào)優(yōu)概述224
 8.2 瓶頸識(shí)別225
 8.3 涉及CPU的優(yōu)化方法226
 8.3.1 上下文切換問題(context switching)227
 8.3.2 中斷和輪詢228
 8.3.3 CPU的Affinity問題229
 8.3.4 流水線問題229
 8.4 涉及內(nèi)存的優(yōu)化方法235
 8.4.1 概述235
 8.4.2 對(duì)換區(qū)236
 8.4.3 cache line240
 8.4.4 false sharing問題245
 8.4.5 內(nèi)存的鎖問題247
 8.4.6 內(nèi)存庫的使用257
 8.5 涉及磁盤的優(yōu)化方法262
 8.5.1 磁盤IO的調(diào)度262
 8.5.2 其他常見磁盤參數(shù)調(diào)優(yōu)264
 8.5.3 磁盤讀寫方式265
 8.5.4 文件緩存問題267
 8.5.5 5分鐘法則269
 8.6 涉及網(wǎng)絡(luò)的優(yōu)化方法271
 8.6.1 搜索首頁,結(jié)果頁提速方法271
 8.6.2 Web server的架構(gòu)選擇274
參考文獻(xiàn)284

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    走進(jìn)搜索引擎 PDF格式下載


用戶評(píng)論 (總計(jì)49條)

 
 

  •   非常不錯(cuò),詳細(xì)的介紹了搜索引擎的原理。
  •   好書啊,比較經(jīng)典的一本書,搜索引擎必備
  •   本書是搜索引擎方面一本很好的參考資料。
  •   確實(shí)是本好書,需要自己做搜索引擎的好好看??!
  •   這本書我覺得非常好,對(duì)于學(xué)網(wǎng)絡(luò)優(yōu)化的朋友來說是非常不錯(cuò)的
  •   書包裝好,內(nèi)容還沒看。
  •   粗略翻了一下,內(nèi)容介紹比較全面,而且印刷的效果比較好,紙張也比較好,推薦
  •   講的很基礎(chǔ),喜歡
  •   非常的不錯(cuò),學(xué)習(xí)
  •   買了幾本,還沒看,印刷還不錯(cuò),質(zhì)量也行
  •   速度很快,昨天下單的,今天到了~!謝謝哈。
  •   還可以 看看后才能知道如何
  •   讓我開了眼界
  •   言間意賅,講的很好
  •   書不錯(cuò),發(fā)貨及時(shí)。給力。。。。
  •   很不錯(cuò)~!
  •   同事推薦的書籍,書還沒讀,不過評(píng)價(jià)挺不錯(cuò)的不過今天收到貨,感覺書本的紙質(zhì)一般,甚至有點(diǎn)粗糙,沒有以前購買的《SEO實(shí)戰(zhàn)密碼》等書籍的紙質(zhì)那么平滑,所以打個(gè)4分
  •   本書比較基礎(chǔ)!
  •   非常好的入門級(jí)讀物!
  •   內(nèi)容很概括,適合整體把握
  •   內(nèi)容不算很新,不過圖表較多,看起來比較舒服。
  •   還沒到呢!不過看情況應(yīng)該不錯(cuò)
  •   講的很透很清晰 結(jié)構(gòu)也很合理
  •   不錯(cuò),有時(shí)間看第二遍
  •   在當(dāng)當(dāng)網(wǎng)買書便宜,方便,幫別人買的,應(yīng)該不錯(cuò)的。
  •   不錯(cuò) 感覺很有深度
  •   先鋒之作
  •   看了兩章,理論偏多,實(shí)例少。
  •   不是很厚 言簡(jiǎn)意賅 個(gè)人覺得挺不錯(cuò)的
  •   很專業(yè)的一本書,沒有興趣看。
  •   學(xué)習(xí)搜索引擎,是一本較基礎(chǔ)的書籍。
  •   學(xué)google搜索語法的就沒必要看這本書了,去看別的吧。這書挺適合學(xué)習(xí)搜索引擎的構(gòu)造。
  •   適合新手看,做SEM或者SEO的,如果要在這方面有所建樹,搜索引擎的基本原理還是必須的但是新手表示,很多東西都看不懂啊...搜索引擎果然高深
  •   適合專業(yè)人士閱讀,內(nèi)容涉及到數(shù)學(xué)方面知識(shí)較多,非計(jì)算機(jī)專業(yè)或者數(shù)學(xué)基礎(chǔ)不好看的話有點(diǎn)吃力,呵呵!對(duì)于搜索引擎的介紹較詳細(xì)了
  •   如果你還沒有入門,建議看看,如果你基本知道搜索引擎分哪些模塊,建議買別的。。
  •   書中對(duì)搜索引擎講解的很全面,很詳細(xì),內(nèi)容淺顯易懂,適合搜索引擎入門
  •   這本書理論性很強(qiáng),沒有工科背景的我看起來灰常的吃力,要是更簡(jiǎn)單易懂一點(diǎn)就好了!
  •   國內(nèi)的人寫書就是這樣,八股,看完了完全不知道如何去實(shí)現(xiàn),什么時(shí)候?qū)懙南瘛都w智慧編程》那種風(fēng)格就好了
  •   這書入門還可以。講的深入的東西比較少 .
  •   一些關(guān)鍵性的內(nèi)容似乎在刻意回避,有待提高!
  •   本書,簡(jiǎn)單易懂,適合初學(xué)者。很不錯(cuò)。
  •   對(duì)于從事seo的人員而言,這本書的確不錯(cuò),可以很清楚的了解到搜索引擎一些詳細(xì)的原理,非常不錯(cuò)!
  •   不好、不好、不好、不好、不好、不好、
  •   搜索學(xué)習(xí)必備書籍
  •   走進(jìn)搜索
  •   很適合想了解搜索的入門級(jí)別看
  •   特別好的好書
  •   物美價(jià)廉,先贊一個(gè)。5分
  •   走進(jìn)搜索引擎
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7