出版時間:2005-4 出版社:科學出版社發(fā)行部 作者:李曉明 頁數(shù):247
Tag標簽:無
內(nèi)容概要
本書系統(tǒng)地介紹了互聯(lián)網(wǎng)搜索引擎的工作原理、實現(xiàn)技術(shù)及其系統(tǒng)構(gòu)建方案。全書分三篇共13章內(nèi)容,從基本工作原理概述,到一個小型簡單搜索引擎具體細節(jié)的實現(xiàn),進而詳細討論了大規(guī)模分布式搜索引擎系統(tǒng)的設(shè)計要點及其關(guān)鍵技術(shù);最后介紹了面向主題和個性化的web信息服務,闡述了中文網(wǎng)頁自動分類等技術(shù)及其應用。本書層次分明,由淺入深;既有深入的理論分析,也有大量的實驗數(shù)據(jù),具有學習和實用雙重意義。 本書可作為高等院校計算機科學與技術(shù)、信息管理與信息系統(tǒng)、電子商務等專業(yè)的研究生或高年級本科生的教學參考書和技術(shù)資料,對廣大從事網(wǎng)絡(luò)技術(shù)、Web站點的管理、數(shù)字圖書館、Web挖掘等研究和應用開發(fā)的科技人員也有很高的參考價值。
作者簡介
李曉明:天網(wǎng)搜索引擎領(lǐng)域負責人
閆宏飛 王繼民:天網(wǎng)搜索引擎項目負責人
書籍目錄
前言第一章 引論 第一節(jié) 搜索引擎的概念 第二節(jié) 搜索引擎的發(fā)展歷史 第三節(jié) 一些著名的搜索引擎上篇 Web搜索引擎基本原理和技術(shù) 第二章 Web搜索引擎工作原理和體系結(jié)構(gòu) 第一節(jié) 基本要求 第二節(jié) 網(wǎng)頁搜集 第三節(jié) 預處理 第四節(jié) 查詢服務 第五節(jié) 體系結(jié)構(gòu) 第三章 Web信息的搜集 第一節(jié) 引言 一、超文本傳輸協(xié)議 二、一個小型搜索引擎系統(tǒng) 第二節(jié) 網(wǎng)頁搜集 一、定義LJRL類和Page類 二、與服務器建立連接 三、發(fā)送請求和接收數(shù)據(jù) 四、網(wǎng)頁信息存儲的天網(wǎng)格式 第三節(jié) 多道搜集程序并行工作 一、多線程并發(fā)工作 二、控制對一個站點并發(fā)搜集線程的數(shù)目 第四節(jié) 如何避免網(wǎng)頁的重復搜集 一、記錄未訪問、已訪問IJRL和網(wǎng)頁內(nèi)容摘要信息 二、域名與IP的對應問題 第五節(jié) 如何首先搜集重要的網(wǎng)頁 第六節(jié) 搜集信息的類型 第七節(jié) 本章 小結(jié) 第四章 對搜集信息的預處理 第一節(jié) 信息預處理的系統(tǒng)結(jié)構(gòu)- 第二節(jié) 索引網(wǎng)頁庫 第三節(jié) 中文自動分詞 第四節(jié) 分析網(wǎng)頁和建立倒排文件 第五節(jié) 本章 小結(jié) 第五章 信息查詢服務 第一節(jié) 查詢服務的系統(tǒng)結(jié)構(gòu) 第二節(jié) 檢索的定義 第三節(jié) 查詢服務的實現(xiàn) 一、結(jié)果集合的形成 二、查詢結(jié)果顯示 第四節(jié) 本章 小結(jié)中篇 對質(zhì)量和性能的追求 第六章 可擴展搜集子系統(tǒng) 第一節(jié) 天網(wǎng)系統(tǒng)概述和集中式搜集系統(tǒng)結(jié)構(gòu) 一、天網(wǎng)系統(tǒng)結(jié)構(gòu) 二、集中式搜集系統(tǒng) 第二節(jié) 利用并行處理技術(shù)高效搜集網(wǎng)頁的一種方案 一、節(jié) 點間URL的劃分策略 二、關(guān)于性能的討論 三、性能測試和評價 四、系統(tǒng)的動態(tài)可配置性設(shè)計 第三節(jié) 本章 小結(jié) 第七章 網(wǎng)頁凈化與消重 第一節(jié) 網(wǎng)頁凈化與元數(shù)據(jù)提取 一、引言 二、D0cview模型 三、網(wǎng)頁的表示 四、提取Docview模型要素的方法 五、模型應用及實驗研究 第二節(jié) 網(wǎng)頁消重算法 一、消重算法…… 第八章 高性能檢索子系統(tǒng) 第九章 用戶行為的特征及緩存的應用 第十章 相關(guān)排序與系統(tǒng)質(zhì)量評估下篇 面向主題和個性化的Wed信息服務 第十一章 中文網(wǎng)頁自動分類技術(shù) 第十二章 搜索引擎?zhèn)€性化查詢服務 第十三章 面向主題的信息搜集與應用參考文獻附錄 術(shù)語后記
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載