大規(guī)模分布式內容檢索技術

出版時間:2011-5  出版社:科學出版社  作者:陳漢華,金?!≈?nbsp; 頁數(shù):295  
Tag標簽:無  

內容概要

  大規(guī)模分布式內容檢索是近年來分布式系統(tǒng)方向的一個熱點研究領域。陳漢華,金海的這本《大規(guī)模分布式內容檢索技術》全面地闡述了各種體系結構的分布式大規(guī)模內容檢索系統(tǒng)的關鍵技術和核心理論,并對各項技術和理論的來龍去脈進行了詳細深入的分析。
  本書通過豐富的文獻資料和研究成果,從研究者的視角對大規(guī)模分布式內容檢索技術進行了深入剖析,是分布式處理系統(tǒng)領域的學術專著?!洞笠?guī)模分布式內容檢索技術》可供高等院校計算機科學與技術相關專業(yè)的高年級本科生、研究生、教師、研究人員及工程技術人員閱讀參考,也可作為相關專業(yè)的研究生教材。

書籍目錄


前言
第1章 緒論
1.1 對等網絡概述
1.2 基于對等模式的大規(guī)模分布式文本內容檢索
1.3 大規(guī)模分布式文本內容檢索研究面臨的挑戰(zhàn)
1.4 大規(guī)模分布式文本內容檢索技術分類
1.4.1 基于結構化分布式哈希表的分布式全局倒排索引
1.4.2 基于非結構化對等網絡的聯(lián)邦式搜索網絡
1.4.3 混合對等網絡搜索引擎
1.5 本書內容
參考文獻
第2章 分布式哈希表及單關鍵字全局索引
2.1 分布式哈希表
2.1.1 Chord:基于二分查找的環(huán)狀對等結構
2.1.2 CAN:基于多維空間劃分的對等結構
2.1.3 Pastry:基于多分查找的前綴匹配對等結構
2.1.4 Tapestry:基于多分查找的對等結構
2.2 現(xiàn)有分布式哈希表算法的比較
2.3 利用分布式哈希表構建單關鍵字全局索引
2.3.1 eSearch:基于分布式哈希表的水平索引
2.3.2 Minerva:在查詢中挖掘關聯(lián)關鍵字
2.3.3 局限性
參考文獻
第3章 布隆濾波
3.1 哈希編碼的時間/空間權衡
3.1.1 一種經典的哈希編碼方法
3.1.2 兩種存在誤判率的哈希編碼方法
3.1.3 計算因子
3.1.4 三種哈希編碼方法的數(shù)學分析
3.1.5 時空性能比較
3.2 布隆濾波的基本理論
3.2.1 布隆濾波概念
3.2.2 位向量長度的下界
3.2.3 布隆濾波與集合運算
3.3 布隆濾波的擴展形式
3.3.1 計數(shù)布隆濾波
3.3.2 壓縮布隆濾波
3.3.3 動態(tài)布隆濾波
3.4 布隆濾波的應用
3.4.1 早期應用
3.4.2 分布式緩存
3.4.3 P2P網絡
3.4.4 資源路由
3.4.5 數(shù)據(jù)包路由
3.4.6 基礎設施測量
參考文獻
第4章 基于分布式哈希表單關鍵字索引的搜索
4.1 結構化對等網多關鍵字檢索面臨的挑戰(zhàn)
4.2 Top-k查詢策略
4.2.1 倒排索引
4.2.2 Top-k裁剪算法
4.2.3 性能評估
4.3 PWEB系統(tǒng)
4.3.1 PWEB網絡結構
4.3.2 多關鍵字搜索通信開銷優(yōu)化策略
4.3.3 擴展性算法
4.3.4 分布式交集運算執(zhí)行順序優(yōu)化策略
4.3.5 搜集關鍵字全局統(tǒng)計信息
4.3.6 模擬仿真方法
4.3.7 性能評估
4.4 小結
參考文獻
第5章 多關鍵字全局索引及搜索
5.1 分布式關鍵字集索引面臨的挑戰(zhàn)
5.2 文本檢索中的關鍵字權重方法
5.2.1 關鍵字權重模型TF×IDF
5.2.2 理解逆文檔頻率
5.2.3 用逆向總關鍵字頻率替換逆文檔頻率的嘗試
5.2.4 詞頻在相關權重模型中的探索
5.3 HDK:基于高區(qū)分關鍵字集的索引技術
5.3.1 關鍵字集倒排索引
5.3.2 高區(qū)分關鍵字集索引
5.3.3 基于高區(qū)分關鍵字集索引的搜索
5.3.4 擴展性分析
5.3.5 性能評估
5.4 TSS:基于關鍵字集索引的P2P搜索系統(tǒng)
5.4.1 TSS系統(tǒng)結構
5.4.2 分布式關鍵字集索引
5.4.3 模擬測試方法
5.4.4 性能評估
參考文獻
第6章 基于復制的聯(lián)邦式對等搜索策略
6.1 理論分析
6.1.1 模型建立
6.1.2 均勻復制策略和比例復制策略
6.1.3 平方根復制策略
6.1.4 混合復制策略
6.1.5 分布式復制算法的實現(xiàn)
6.2 基于隨機游走的隨機復制策略
6.2.1 生日悖論和理論下界
6.2.2 隨機游走復制策略和搜索協(xié)議
6.2.3 性能評估
6.3 BubbleStorm:基于隨機多圖的概率窮盡搜索策略
6.3.1 副本數(shù)量的確定
6.3.2 網絡大小的測量
6.3.3 隨機多圖與隨機采樣
6.3.4 洪泛和隨機游走的完美結合
6.3.5 系統(tǒng)分析
6.3.6 性能評估
6.4 BloomCast:基于輕量級分布式哈希表的隨機采樣
6.4.1 BloomCast網絡結構
6.4.2 網絡結點數(shù)量估計
6.4.3 隨機結點采樣
6.4.4 基于布隆濾波的復制算法
6.4.5 多關鍵字搜索
6.4.6 性能評估
6.5 PlanetP:基于全局摘要索引的復制策略
6.5.1 全局目錄索引復制
6.5.2 結點排序模型
6.5.3 查詢處理算法
6.5.4 性能評估
參考文獻
第7章 基于內容路由的聯(lián)邦式搜索策略
7.1 基于語言模型的路由選擇
7.1.1 聯(lián)邦式搜索引擎的兩層結構
7.1.2 語言模型
7.1.3 相對熵
7.1.4 搜索算法
7.1.5 性能評估
7.2 基于語義小世界模型的聯(lián)邦式對等搜索
7.2.1 語義空間和向量
7.2.2 構造語義小世界
7.2.3 降低語義小世界的維度
7.2.4 基于語義小世界的搜索
7.2.5 性能評估
7.3 基于興趣局部性的路由
7.3.1 興趣局部性
7.3.2 基于興趣局部性的拓撲和路由
7.3.3 性能評估
7.4 SemreX系統(tǒng)
7.4.1 SemreX系統(tǒng)模型
7.4.2 語義覆蓋網
7.4.3 基于語義覆蓋網的查詢搜索算法
7.4.4 性能評估
參考文獻
第8章 混合式對等搜索策略
8.1 混合對等搜索面臨的挑戰(zhàn)
8.2 基于預先探測的混合策略
8.2.1 Boon Thau Loo的Gnutella實驗
8.2.2 SimplelHbrid混合P2P搜索策略
8.2.3 性能評估
8.3 基于Gossip的混合搜索選擇
8.3.1 收集全局統(tǒng)計信息
8.3.2 使用全局信息進行搜索選擇
8.3.3 洪泛閾值的調節(jié)
8.3.4 性能評估
8.4 難度感知的混合式搜索策略
8.4.1 很多復本≠很多結點
8.4.2 QRank設計
8.4.3 用QRank進行混合查詢
8.4.4 自適應混合查詢
8.4.5 QRank仿真器設計
8.4.6 性能評估
參考文獻
第9章 大規(guī)模在線社會網絡搜索
9.1 大規(guī)模在線社會網絡搜索面臨的挑戰(zhàn)
9.2 在線社會網絡系統(tǒng)研究現(xiàn)狀
9.3 流行在線社會網絡的數(shù)據(jù)劃分與定位
9.4 大規(guī)模在線社會網絡內容搜索關鍵技術
9.4.1 流式文本摘要技術
9.4.2 基于摘要索引的排序算法
9.4.3 多跳鄰居摘要聚合技術
9.4.4 基于社區(qū)局部性降低摘要索引開銷
參考文獻

章節(jié)摘錄

第1章  緒論隨著網絡技術的迅猛發(fā)展和網絡應用的迅速普及,互聯(lián)網日益形成一個巨大的分布式信息庫?;ヂ?lián)網應用產生的超大規(guī)模信息對現(xiàn)有的網絡數(shù)據(jù)管理基礎設施提出了新的更為嚴峻的挑戰(zhàn)。互聯(lián)網信息庫的無限擴張性和與生俱來的分布式特性使非集中式的數(shù)據(jù)管理和共享機制成為近年來的研究熱點[1]。大規(guī)模分布式內容檢索研究具有重要的學術價值和應用價值。對等計算技術是分布式系統(tǒng)和計算機網絡結合的產物,它在網絡協(xié)議的應用層打破了傳統(tǒng)的客戶機 /服務器(C/S)模式,以自主、平等的原則將處于網絡邊緣的計算、存儲 、通信 、信息等各種資源有效地共享起來,形成協(xié)作網絡[2,3]。自誕生以來的短短幾年時間里,對等文件共享應用,如 Gnutella[4] 、KaZaA[5]、BitTor-rent[6]等都取得了極大的成功,并占據(jù)了當前互聯(lián)網一半以上的網絡流量。對等模式因其可擴展性 、魯棒性和動態(tài)自適應性等優(yōu)點,在大規(guī)?;ヂ?lián)網應用的數(shù)據(jù)管理和搜索領域日益展現(xiàn)出巨大的潛力。近年來,基于對等模式的大規(guī)模分布式數(shù)據(jù)管理和內容搜索系統(tǒng)如雨后春筍般涌現(xiàn)出來[7-13]。本書將圍繞大規(guī)模分布式內容檢索應用展開,全面系統(tǒng)地闡述大規(guī)模分布式內容檢索系統(tǒng)的關鍵理論和支撐技術。

編輯推薦

陳漢華,金海的這本《大規(guī)模分布式內容檢索技術》圍繞大規(guī)模分布式內容檢索技術展開,通過結合對等網絡的概念、結構、資源描述和組織、資源定位和路由選擇、結果融合及排序方法等,從結構化對等網絡、無結構對等網絡、和混合式對等網絡各自的特點出發(fā),全面系統(tǒng)的闡述了各種環(huán)境下進行分布式大規(guī)模內容檢索的策略。包括:基于結構化DHT的分布式全局倒排索引和文本檢索策略;聯(lián)邦式對等搜索策略;混合對等搜索策略。在每一類方法的討論中作者結合自己的研究實踐對已有工作的來龍去脈進行了詳細深入地分析。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    大規(guī)模分布式內容檢索技術 PDF格式下載


用戶評論 (總計2條)

 
 

  •   大規(guī)模分布式內容檢索技術,應用前景廣泛
  •   內容好,總結了各種檢索策略??!
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7