搜索引擎基礎(chǔ)教程

出版時(shí)間:2010-7  出版社:清華大學(xué)出版社  作者:袁津生,李群  頁(yè)數(shù):320  
Tag標(biāo)簽:無  

內(nèi)容概要

本書從教學(xué)的角度出發(fā),對(duì)搜索引擎的原理及開發(fā)技術(shù)進(jìn)行了全面的介紹,內(nèi)容包括搜索引擎的基本原理、網(wǎng)頁(yè)抓取技術(shù)、信息預(yù)處理技術(shù)、信息索引技術(shù)、信息查詢技術(shù)和多媒體信息檢索技術(shù)。另外,本書還對(duì)搜索引擎開發(fā)技術(shù)進(jìn)行了詳細(xì)的討論。  本書適合高等院校計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)及相關(guān)專業(yè)的高年級(jí)學(xué)生和研究生閱讀參考,也適合相關(guān)領(lǐng)域的工程技術(shù)人員參閱。

書籍目錄

第1章 搜索引擎概述 1.1 搜索引擎的概念、原理及歷史與發(fā)展  1.1.1 搜索引擎的概念  1.1.2 搜索引擎的原理 1.2 搜索引擎的歷史與發(fā)展趨勢(shì)  1.2.1 搜索引擎的發(fā)展史  1.2.2 搜索引擎的發(fā)展趨勢(shì) 1.3 搜索引擎的分類  1.3.1 全文搜索引擎  1.3.2 目錄索引搜索引擎  1.3.3 元搜索引擎  1.3.4 分布式搜索引擎 1.4 搜索引擎的關(guān)鍵技術(shù)  1.4.1 信息收集和存儲(chǔ)技術(shù)  1.4.2 信息預(yù)處理技術(shù)  1.4.3 信息索引技術(shù) 1.5 主要搜索引擎介紹  1.5.1 谷歌搜索  1.5.2 雅虎搜索  1.5.3 百度搜索  1.5.4 北大天網(wǎng)搜索 1.6 小結(jié) 思考題第2章 搜索引擎基礎(chǔ) 2.1 搜索引擎的體系結(jié)構(gòu)  2.1.1 搜索器  2.1.2 索引器  2.1.3 檢索器  2.1.4 用戶接口 2.2 搜索引擎的工作原理  2.2.1 網(wǎng)頁(yè)搜集  2.2.2 網(wǎng)頁(yè)處理  2.2.3 查詢服務(wù) 2.3 搜索引擎的數(shù)據(jù)結(jié)構(gòu)  2.3.1 存儲(chǔ)結(jié)構(gòu)  2.3.2 信息庫(kù)  2.3.3 文本索引  2.3.4 詞典  2.3.5 采樣表  2.3.6 前向索引  2.3.7 后向索引 2.4 元搜索引擎  2.4.1 元搜索引擎的基本構(gòu)成  2.4.2 元搜索引擎的分類  2.4.3 常用元搜索引擎介紹  2.4.4 元搜索引擎的特點(diǎn)  2.4.5 主要技術(shù)指標(biāo) 2.5 個(gè)性化搜索引擎  2.5.1 系統(tǒng)模塊及其功能  2.5.2 個(gè)性化搜索引擎的關(guān)鍵技術(shù) 2.6 智能搜索引擎  2.6.1 智能搜索引擎特征  2.6.2 智能搜索引擎主要技術(shù) 2.7 小結(jié) 思考題第3章 網(wǎng)頁(yè)抓取技術(shù) 3.1 搜索引擎爬蟲  3.1.1 網(wǎng)絡(luò)爬蟲工作原理  3.1.2 開源網(wǎng)絡(luò)爬蟲簡(jiǎn)介  3.1.3 網(wǎng)頁(yè)信息的抓取 3.2 搜索引擎爬蟲的關(guān)鍵技術(shù)  3.2.1 網(wǎng)頁(yè)抓取優(yōu)先策略  3.2.2 深度優(yōu)先策略  3.2.3 廣度優(yōu)先策略  3.2.4 最佳優(yōu)先策略  3.2.5 不重復(fù)抓取策略  3.2.6 網(wǎng)頁(yè)重訪策略  3.2.7 網(wǎng)頁(yè)抓取提速策略  3.2.8 Robots協(xié)議 3.3 小結(jié) 思考題第4章 網(wǎng)頁(yè)信息預(yù)處理技術(shù)第5章 信息索引技術(shù)第6章 信息查詢與評(píng)價(jià)技術(shù)第7章 多媒體信息檢索技術(shù)第8章 搭建基于Lucene的搜索引擎第9章 搭建基于Nutch的搜索引擎參考文獻(xiàn)

章節(jié)摘錄

插圖:在抓取過程中,可以使用多個(gè)爬蟲來合作抓取,這樣可以進(jìn)一步降低每個(gè)爬蟲的用于記錄歷史抓取情況的哈希表大小。如果有n個(gè)爬蟲,則可將哈希表繼續(xù)壓縮到原有大小的行分之一。如果n個(gè)爬蟲分別運(yùn)行在不同的機(jī)器上,那么每個(gè)機(jī)器被哈希表占用的內(nèi)存用量將非常少;通常保持抓取歷史記錄所需要的內(nèi)存在百兆字節(jié)左右是恰當(dāng)?shù)?。通過不重復(fù)抓取的方法初步解決了死循環(huán)的問題,即抓過的不再抓。然而實(shí)際操作中還有這樣的一個(gè)問題,如果任意兩個(gè)網(wǎng)頁(yè)存在鏈接,則鏈接它們的最短路徑值為17。這樣,爬蟲無論用何種遍歷方法都不能保證一定會(huì)按照最佳路徑抓取每一個(gè)網(wǎng)頁(yè),因?yàn)槿魏我粋€(gè)網(wǎng)頁(yè)都可能從多個(gè)種子站點(diǎn)開始廣度優(yōu)先被遍歷到。為了防止爬蟲無限制的廣度優(yōu)先抓取,必須在某個(gè)深度上進(jìn)行限制。到達(dá)這個(gè)深度后就應(yīng)該停止抓取,這個(gè)深度的取值就是萬維網(wǎng)直徑長(zhǎng)度。當(dāng)在最大深度上停止時(shí),那些深度過大的未抓網(wǎng)頁(yè),總是期望可以從其他種子站點(diǎn)更加經(jīng)濟(jì)地到達(dá)。例如,種子站點(diǎn)B和C在抓取到深度為17的時(shí)候,立即停止抓取,把抓取剩余網(wǎng)頁(yè)的機(jī)會(huì)留給從種子站點(diǎn)A出發(fā)的進(jìn)行抓取工作的爬蟲。此外,深度優(yōu)先策略和廣度優(yōu)先策略的組合可以有效地保證抓取過程中的封閉性。即在抓取過程(遍歷路徑)中總是在抓取相同域名下的網(wǎng)頁(yè),而很少出現(xiàn)其他域名下的網(wǎng)頁(yè)。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    搜索引擎基礎(chǔ)教程 PDF格式下載


用戶評(píng)論 (總計(jì)8條)

 
 

  •   是老師要求的教材,幫同學(xué)帶的,一共買了七本,有一本封面和前幾頁(yè)壓損的有點(diǎn)嚴(yán)重,還有一本封底有點(diǎn)壓損。書是用盒子裝的,壓損的并不是最外面的書。
  •   紙張還可以,并不是傳說中那么不堪,最重要是速度快,而且快遞不錯(cuò),還少收了我一毛錢~!
  •   買來寫畢業(yè)設(shè)計(jì)論文的 應(yīng)該有點(diǎn)用
  •   比較簡(jiǎn)單,語言一般
  •   想了解的人可以看看
  •   內(nèi)容還行,但可操作性一般。
  •   為什么這本書的目錄與《搜索引擎技術(shù)基礎(chǔ)》一模一樣?求解釋。
  •   負(fù)責(zé)任的說,這本書寫的較差從內(nèi)容上來說,對(duì)于搜索引擎的核心東西介紹的是一筆帶過,說點(diǎn)概念;對(duì)于非核心的東西,長(zhǎng)篇大論,有點(diǎn)湊字?jǐn)?shù)的感覺,講的大部分是概念羅列;好不容易涉及到點(diǎn)比較有價(jià)值的算法,例如書中的KMP,后綴樹,后綴數(shù)組,講的真是不負(fù)責(zé)任啊,我真是覺得出書是一種嚴(yán)肅的事兒,要么不講,要么就講明白,對(duì)讀者負(fù)責(zé);我讀了這本書,也看了另一本《搜索引擎技術(shù)基礎(chǔ)》,我推薦后者,這本書我真心感覺很差
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7