搜索引擎效果評測

出版時間:2012-5  出版社:高等教育出版社  作者:何靖,李曉明  頁數(shù):142  字數(shù):180000  
Tag標簽:無  

內容概要

  《搜索引擎效果評測:基于用戶點擊日志分析的方法與技術》主要介紹評估搜索引擎質量的方法與技術。評估搜索引擎質量的技術通常可分為三類:基于Cranfield范式的評測方法、基于用戶研究的評價方法和基于用戶隱反饋的評價方法。其中,基于隱反饋的評價方法因其自動性和準確性,得到學術界和工業(yè)界越來越多研究者的關注。在用戶隱反饋中,最容易獲取、使用最廣泛的是用戶的點擊行為,它們可以被搜索引擎自動收集起來,進而被深入分析。《搜索引擎效果評測:基于用戶點擊日志分析的方法與技術》著重介紹基于用戶點擊日志分析的搜索引擎評價方法。
  《搜索引擎效果評測:基于用戶點擊日志分析的方法與技術》雖然為學術專著,但文風流暢,語句通俗易懂,在一些難點上一般都給予了必要的鋪墊,因而不僅適合已在搜索引擎領域從事研究和開發(fā)的技術人員參閱,還適合作為希望進入該領域研究生的入門教材,也可以作為現(xiàn)代信息檢索技術課程的教學參考書。

作者簡介

  何靖,2011年畢業(yè)于北京大學計算機科學技術系,獲博士學位,曾在美國伊利諾伊大學香檳分校計算機系進行為期一年的學術訪問,現(xiàn)在加拿大蒙特利爾大學計算機系從事博士后研究。從2004年開始從事搜索引擎相關領域的工作,主要研究方向是搜索引擎的評價方法和搜索引擎日志挖掘技術。曾參加核高基項目和多個國家自然科學基金項目的研究工作,并在SIGIR,CIKM,AIRS等搜索引擎相關的學術會議上交流多篇學術論文。
  李曉明,北京大學計算機科學技術系教授,網絡與信息系統(tǒng)研究所所長。從1999年開始從事與搜索引擎有關的研究與教學工作,主持開發(fā)了互聯(lián)網信息搜索引擎--“天網搜索”,出版了《搜索引擎:原理、技術與系統(tǒng)》(科學出版社,2005)。2001年,提出了收集存儲并系統(tǒng)研究中國網頁歷史信息的理念,發(fā)起并主持建設了“中國網絡信息博物館”。出版《計算機網絡與互聯(lián)網》(機械工業(yè)出版社,2009)和《計算機系統(tǒng)平臺》(清華大學出版社,2009)教材,譯著《萬維網的定律》(北京大學出版社,2009)和《網絡、群體與市場》(清華大學出版社,2011年)。

書籍目錄

第1章 搜索引擎評價技術
1.1 目標、角度和方法
1.2 符號定義
1.3 Cranfield范式評價方法
1.4 評測指標
1.4.1 二值相關性指標
1.4.2 多值相關性指標
1.4.3 偏好性指標
1.4.4 分數(shù)綜合方法
  1.4.5 系統(tǒng)比較
1.4.6 指標分析
1.5 評測集
1.6 不完整的評測集
1.6.1 文檔池方法
1.6.2 抽樣方法
1.6.3 最小標注集方法
1.7 相關性之外的考慮
1.7.1 多樣性和新穎性
1.7.2 評測方法
1.7.3 多樣性指標
1.7.4 新穎性指標
1.7.5 歸一化因子:一個NP難問題
1.8 Cranfield評測方法遇到的困難
1.9 用戶研究
1.9.1 用戶研究的指標
1.9.2 用戶研究的順序性
1.9.3 用戶研究和Cranfield范式:比較和關聯(lián)
1.10 搜索引擎的效率
1.10.1 在線指標和離線指標
 ……
第2章 搜索引擎用戶隱反饋建模
第3章 搜索引擎結果歸并一比較方法
第4章 基于用戶點擊模型的搜索引擎評價方法
第5章 有效時間比:一種新的搜索引擎評價指標
附錄 一個基于歸并比較的元搜索系統(tǒng)
參考文獻

章節(jié)摘錄

版權頁:   插圖:   1.4 評測指標 本節(jié)介紹Cranfield評測范式中常用的一些評測指標,它們雖然大都產生于Cranfield范式的框架中,但其中許多也適用于其他的評測方法(例如本書重點介紹的用戶隱反饋方法)。應該注意的是,由于搜索引擎與傳統(tǒng)信息檢索系統(tǒng)的應用環(huán)境有顯著差別,以前提出的一些指標不一定很適合搜索引擎。這種認識成為本書第5章所體現(xiàn)工作的出發(fā)點,在那里,我們提出了一個新的搜索引擎評價指標:有效時間比(Effective Time Ratio,ETR)。 讀者可以認識到,一個搜索引擎的好壞最終取決于總體用戶體驗,任何評測指標都是對用戶體驗的近似。指標的好壞對應這種近似程度的高低。由于搜索引擎應用環(huán)境的復雜,用戶的需求多樣且表達方式有限,很難講某一指標就是最好的。常??梢哉f的只是某一指標更適合什么情形。這也是在信息檢索領域不斷有人提出新指標的原因之一。在理解指標局限性的同時,也應該看到指標的意義。從20世紀90年代中期萬維網興起開始,近20年過去了,最初的一些搜索引擎有些已經不存在,目前最受用戶歡迎的搜索引擎也都是后來才出現(xiàn)的,實現(xiàn)了后來居上的目標。同時,現(xiàn)在也有一些新的搜索引擎實現(xiàn)了新的超越。廣大互聯(lián)網用戶在搜索引擎之間的遷移是搜索引擎質量對比的最好風向標。然而,這種遷移是需要時間的,一個有雄心的搜索引擎不是要在投入市場后等待遷移,而是應該在投入市場前預測是否會發(fā)生所希望的用戶遷移。按照一定的指標來對系統(tǒng)進行評估,就是進行上述預測的重要基礎。 下面,首先介紹用于評測系統(tǒng)在單個信息需求上檢索效果表現(xiàn)的指標。根據對相關性‘函數(shù)定義方式的不同,這些指標可以分成三類:二值相關性指標、多值相關性指標以及偏好類指標(這些指標的一個比較完整的列表和分類體系,也可以參考Demartini等人的工作)。其次,討論把單個信息需求的分數(shù)在多個信息需求上綜合的方法,并討論如何根據兩個系統(tǒng)各自的綜合性分數(shù)比較它們檢索效果的優(yōu)劣。最后,討論這些指標之間的關系。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    搜索引擎效果評測 PDF格式下載


用戶評論 (總計1條)

 
 

  •   內部很好,但有那么點貴!
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7