出版時(shí)間:2008-4 出版社:水利水電出版社 作者:袁津生 等編著 頁數(shù):278
Tag標(biāo)簽:無
內(nèi)容概要
隨著搜索引擎技術(shù)的發(fā)展和不斷完善,越來越多的人開始對搜索引擎原理和技術(shù)進(jìn)行研究,越來越多的人喜歡上了搜索引擎。 本書從教學(xué)的角度出發(fā),全面地闡述了搜索引擎的技術(shù)和信息檢索技術(shù),包括:搜索引擎的基本原理與技術(shù)、搜索引擎的數(shù)據(jù)結(jié)構(gòu)和搜索引擎的爬蟲、信息獲取與信息檢索技術(shù)、分類與聚類技術(shù)以及Web信息檢索技術(shù)。 本書適合高等院校計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)及相關(guān)專業(yè)的高年級學(xué)生和研究生閱讀參考,也適合相關(guān)領(lǐng)域的工程技術(shù)人員參閱。
書籍目錄
前言第1章 搜索引擎概述 1.1 搜索引擎的概念 1.2 搜索引擎的發(fā)展史 1.3 搜索引擎的分類 1.4 搜索引擎的信息檢索模型 1.5 建立搜索引擎的關(guān)鍵技術(shù) 1.6 中文搜索引擎的發(fā)展趨勢 1.7 主要搜索引擎介紹 1.7.1 谷歌(Google)搜索 1.7.2 雅虎(Yahoo)搜索 1.7.3 百度(Baidu)搜索 1.7.4 天網(wǎng)搜索 1.8 小結(jié) 思考題第2章 搜索引擎的工作原理 2.1 搜索引擎的基本結(jié)構(gòu)及工作原理 2.2 網(wǎng)頁的搜集 2.3 網(wǎng)頁內(nèi)容的提取 2.4 查詢服務(wù) 2.5 小結(jié) 思考題第3章 信息檢索的模型 3.1 經(jīng)典模型 3.1.1 布爾模型 3.1.2 向量模型 3.1.3 概率模型 3.2 代數(shù)模型 3.2.1 廣義向量空間模型 3.2.2 神經(jīng)網(wǎng)絡(luò)模型 3.3 其他概率模型 3.3.1 貝葉斯網(wǎng)絡(luò) 3.3.2 推理網(wǎng)絡(luò)模型 3.3.3 信任度網(wǎng)絡(luò)模型 3.4 小結(jié) 思考題第4章 文本操作 4.1 文本預(yù)處理 4.1.1 文本的詞法分析 4.1.2 中文分詞技術(shù) 4.1.3 無用詞匯的刪除 4.1.4 詞干提取技術(shù) 4.1.5 索引詞條的選擇 4.1.6 詞典 4.2 文本聚類 4.2.1 文本聚類算法 4.2.2 文本聚類中的相關(guān)概念 4.2.3 特征空間的降維處理 4.3 文本壓縮 4.3.1 基本概念 4.3.2 統(tǒng)計(jì)方法 4.3.3 字典方法 4.3.4 倒排文檔壓縮 4.4 小結(jié) 思考題第5章 文本信息檢索技術(shù) 5.1 順排文檔檢索 5.1.1 表展開法 5.1.2 邏輯樹展開法 5.1.3 其他順排文檔檢索算法 5.2 倒排文檔檢索 5.2.1 倒排文檔的檢索 5.2.2 倒排文檔的建立 5.2.3 逆波蘭表達(dá)式 5.2.4 檢索指令表的生成 5.2.5 檢索實(shí)施 5.3 布爾檢索 5.4 加權(quán)檢索 5.4.1 檢索詞加權(quán)檢索 5.4.2 詞頻加權(quán)檢索 5.4.3 標(biāo)引加權(quán)檢索 5.5 全文檢索 5.5.1 全文檢索的技術(shù)指標(biāo) 5.5.2 全文檢索的實(shí)現(xiàn) 5.5.3 全文檢索效率的提高 5.6 超文本檢索 5.6.1 超文本技術(shù)概述 5.6.2 超文本的功能及結(jié)構(gòu) 5.6.3 超文本檢索的優(yōu)缺點(diǎn) 5.7 分布式信息檢索 5.7.1 分布式檢索的查詢協(xié)議 5.7.2 分布式檢索系統(tǒng)的結(jié)構(gòu) 5.7.3 分布式信息檢索模式 5.7.4 分布式檢索資源選擇 5.8 分布式數(shù)據(jù)庫查詢技術(shù) 5.8.1 分布式數(shù)據(jù)庫的基本概念 5.8.2 利用C#實(shí)現(xiàn)分布式數(shù)據(jù)庫查詢 5.8.3 基于.NET Remoting的查詢技術(shù) 5.8.4 基于DCOM的分布式查詢技術(shù) 5.8.5 基于JDBC的查詢技術(shù) 5.8.6 基于Servlet的查詢技術(shù) 5.8.7 基于CORBA的查詢技術(shù) 5.8.8 基于Agent的查詢技術(shù) 5.9 小結(jié) 思考題第6章 信息檢索評價(jià) 6.1 相關(guān)性 6.1.1 相關(guān)性的特征 6.1.2 相關(guān)性研究類別 6.1.3 相關(guān)性模型 6.2 信息檢索性能評價(jià) 6.2.1 信息檢索系統(tǒng)的有效性 6.2.2 評價(jià)指標(biāo) 6.2.3 Web檢索系統(tǒng)性能評價(jià) 6.3 信息檢索領(lǐng)域的相關(guān)組織和會(huì)議 6.4 小結(jié) 思考題第7章 文本分類與聚類 7.1 分類與聚類介紹 7.1.1 文本分類 7.1.2 文本聚類 7.1.3 文本分類的算法 7.1.4 文本聚類的算法 7.1.5 自動(dòng)分類與自動(dòng)聚類 7.1.6 文本分類的評測方法與指標(biāo) 7.1.7 文本聚類的評測方法與指標(biāo) 7.2 常用文本分類方法 7.2.1 文本分類的問題 7.2.2 kNN分類算法 7.2.3 NB分類算法 7.2.4 決策樹分類算法 7.2.5 Rocchio分類算法 7.2.6 支持向量機(jī)分類算法 7.2.7 特征選擇分類算法. 7.2.8 文本分類系統(tǒng)的實(shí)現(xiàn) 7.3 常用文本聚類方法 7.3.1 層次聚類算法 7.3.2 分割聚類算法 7.3.3 基于密度的聚類算法 7.3.4 基于網(wǎng)格的聚類算法 7.3.5 基于模型的聚類算法 7.4 小結(jié) 思考題第8章 Web信息檢索技術(shù) 8.1 Web信息處理的基本技術(shù) 8.1.1 Web信息的基本特點(diǎn) 8.1.2 Web信息的表現(xiàn)方式 8.1.3 Web信息系統(tǒng)結(jié)構(gòu) 8.1.4 網(wǎng)絡(luò)信息資源的組織與管理 8.2 Web數(shù)據(jù)挖掘 8.2.1 Web挖掘流程 8.2.2 Web挖掘的分類及現(xiàn)狀 8.2.3 Web數(shù)據(jù)挖掘和Web信息檢索的區(qū)別 8.3 Web信息檢索的關(guān)鍵技術(shù) 8.3.1 文檔搜集 8.3.2 文檔預(yù)處理 8.3.3 索引數(shù)據(jù)庫的建立 8.3.4 相似度計(jì)算與排序方法 8.4 搜索引擎的基本結(jié)構(gòu) 8.4.1 搜索引擎的結(jié)構(gòu)分類 8.4.2 網(wǎng)頁收集模塊 8.4.3 網(wǎng)頁索引模塊 8.4.4 查詢模塊 8.4.5 用戶界面 8.4.6 搜索引擎的主要指標(biāo)及分析 8.5 搜索引擎的數(shù)據(jù)結(jié)構(gòu) 8.5.1 存儲(chǔ)結(jié)構(gòu) 8.5.2 信息庫 8.5.3 文本索引 8.5.4 詞典 8.5.5 采樣表 8.5.6 前向索引 8.5.7 后向索引 8.6 搜索引擎爬蟲 8.6.1 網(wǎng)絡(luò)爬蟲 8.6.2 深度優(yōu)先策略 8.6.3 廣度優(yōu)先策略 8.6.4 不重復(fù)抓取策略 8.6.5 網(wǎng)頁抓取優(yōu)先策略 8.6.6 網(wǎng)頁重訪策略 8.6.7 網(wǎng)頁抓取提速策略 8.6.8 Robots協(xié)議 8.6.9 網(wǎng)頁內(nèi)容提取技術(shù) 8.7 元搜索引擎 8.7.1 元搜索引擎的基本構(gòu)成 8.7.2 常用元搜索引擎介紹及其分類 8.7.3 與獨(dú)立搜索引擎的比較 8.7.4 主要技術(shù)指標(biāo)及分析 8.8 小結(jié) 思考題第9章 搜索引擎開發(fā)技術(shù) 9.1 實(shí)例簡介 9.1.1 搜索引擎的體系結(jié)構(gòu) 9.1.2 網(wǎng)頁搜集 9.1.3 網(wǎng)頁預(yù)處理 9.1.4 查詢服務(wù) 9.2 環(huán)境搭建與配置 9.2.1 idk 1.6的安裝與配置 9.2.2 eclipse的安裝與配置 9.2.3 Tomcat的安裝與配置 9.2.4 Heritrix的安裝與配置 9.3 網(wǎng)頁搜集的實(shí)現(xiàn) 9.3.1 擴(kuò)展Heritrix 9.3.2 抓取網(wǎng)頁 9.4 預(yù)處理的實(shí)現(xiàn) 9.4.1 原始網(wǎng)頁的處理 9.4.2 建立索引——Lucene 9.5 提供查詢服務(wù) 9.5.1 搜索引擎架構(gòu)設(shè)計(jì) 9.5.2 后臺設(shè)計(jì)和實(shí)現(xiàn) 9.5.3 頁面設(shè)計(jì)和實(shí)現(xiàn) 9.5.4 部署到Tomcat 9.6 小結(jié) 實(shí)驗(yàn)參考文獻(xiàn)
章節(jié)摘錄
第7章 搜索引擎概述Internet上的信息量之大、范圍之廣、用戶之多都比以往任何時(shí)候表現(xiàn)得突出,然而如何從浩瀚的信息海洋中得到所需要的信息就顯得更加重要。網(wǎng)絡(luò)搜索引擎的出現(xiàn)從某種程度上解決了這個(gè)問題,它是目前比較有效的網(wǎng)上信息獲取方法,多數(shù)網(wǎng)上用戶使用搜索引擎來獲得所需的信息。據(jù)CNNIC的統(tǒng)計(jì),用搜索引擎搜索僅次于電子郵件的應(yīng)用。目前,網(wǎng)上比較有影響的搜索工具中,中文的有:Google、百度(Baidu)、北大天網(wǎng)、愛問(iask)、雅虎(Yahoo)、搜狗(Sogou)等搜索引擎;英文的有:Yahoo、AltaVista、Excite、Infoseek、Lycos、Aol等。另外還有專用搜索引擎,例如,專門搜索歌曲和音樂的;專門搜索電子郵件地址、電話與地址和公眾信息的;專門搜索各種文件的FTP搜索引擎等。本章主要介紹搜索引擎的概念、搜索引擎的發(fā)展史、搜索引擎的分類以及一些著名的搜索引擎。1.1 搜索引擎的概念搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫,真正意義上的搜索引擎,通常指的是收集了Internet上幾千萬到幾十億個(gè)網(wǎng)頁并對網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低依次排列?,F(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁的鏈接的URL、Anchor Text,甚至鏈接周圍的文字。所以,有時(shí)候,即使某個(gè)網(wǎng)頁A中并沒有某個(gè)詞,比如“信息檢索”,但如果有網(wǎng)頁B中有鏈接“信息檢索”指向這個(gè)網(wǎng)頁A,那么用戶搜索“信息檢索”時(shí)也能找到網(wǎng)頁A。而且,如果有越多網(wǎng)頁的“信息檢索”鏈接指向網(wǎng)頁A,那么網(wǎng)頁A在用戶搜索“信息檢索”時(shí)也會(huì)被認(rèn)為更相關(guān),排序也會(huì)越靠前。搜索引擎的原理可以分為四步:從Internet網(wǎng)上抓取網(wǎng)頁、建立索引數(shù)據(jù)庫、在索引數(shù)據(jù)庫中搜索排序、對搜索結(jié)果進(jìn)行處理和排序。(1)從Internet上抓取網(wǎng)頁。利用能夠從Internet上自動(dòng)收集網(wǎng)頁的Spider系統(tǒng)程序,自動(dòng)訪問Internet,并沿著任何網(wǎng)頁中的所有URL爬到其他網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。(2)建立索引數(shù)據(jù)庫。由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其他網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜的計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈接中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
編輯推薦
《21世紀(jì)高等學(xué)校精品教材?搜索引擎與信息檢索教程》是“21世紀(jì)高等學(xué)校精品教材”之一,全書共分9個(gè)章節(jié),較為系統(tǒng)地闡述搜索引擎和信息檢索研究領(lǐng)域所涉及的相關(guān)內(nèi)容,具體內(nèi)容包括搜索引擎的工作原理、信息檢索的模型、文本操作、文本信息檢索技術(shù)、信息檢索評價(jià)等,其目的就是幫助讀者對搜索引擎技術(shù)有一個(gè)全面的了解和提高,同時(shí)為更加深入地學(xué)習(xí)和研究搜索引擎打下良好的基礎(chǔ)。該書可供各大專院校作為教材使用,也可供從事相關(guān)工作的人員作為參考用書使用。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載