出版時(shí)間:2012-5 出版社:高等教育出版社 作者:何靖,李曉明 頁(yè)數(shù):142 字?jǐn)?shù):180000
Tag標(biāo)簽:無(wú)
內(nèi)容概要
《搜索引擎效果評(píng)測(cè):基于用戶點(diǎn)擊日志分析的方法與技術(shù)》主要介紹評(píng)估搜索引擎質(zhì)量的方法與技術(shù)。評(píng)估搜索引擎質(zhì)量的技術(shù)通??煞譃槿悾夯贑ranfield范式的評(píng)測(cè)方法、基于用戶研究的評(píng)價(jià)方法和基于用戶隱反饋的評(píng)價(jià)方法。其中,基于隱反饋的評(píng)價(jià)方法因其自動(dòng)性和準(zhǔn)確性,得到學(xué)術(shù)界和工業(yè)界越來(lái)越多研究者的關(guān)注。在用戶隱反饋中,最容易獲取、使用最廣泛的是用戶的點(diǎn)擊行為,它們可以被搜索引擎自動(dòng)收集起來(lái),進(jìn)而被深入分析。《搜索引擎效果評(píng)測(cè):基于用戶點(diǎn)擊日志分析的方法與技術(shù)》著重介紹基于用戶點(diǎn)擊日志分析的搜索引擎評(píng)價(jià)方法。
《搜索引擎效果評(píng)測(cè):基于用戶點(diǎn)擊日志分析的方法與技術(shù)》雖然為學(xué)術(shù)專著,但文風(fēng)流暢,語(yǔ)句通俗易懂,在一些難點(diǎn)上一般都給予了必要的鋪墊,因而不僅適合已在搜索引擎領(lǐng)域從事研究和開發(fā)的技術(shù)人員參閱,還適合作為希望進(jìn)入該領(lǐng)域研究生的入門教材,也可以作為現(xiàn)代信息檢索技術(shù)課程的教學(xué)參考書。
作者簡(jiǎn)介
何靖,2011年畢業(yè)于北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系,獲博士學(xué)位,曾在美國(guó)伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系進(jìn)行為期一年的學(xué)術(shù)訪問(wèn),現(xiàn)在加拿大蒙特利爾大學(xué)計(jì)算機(jī)系從事博士后研究。從2004年開始從事搜索引擎相關(guān)領(lǐng)域的工作,主要研究方向是搜索引擎的評(píng)價(jià)方法和搜索引擎日志挖掘技術(shù)。曾參加核高基項(xiàng)目和多個(gè)國(guó)家自然科學(xué)基金項(xiàng)目的研究工作,并在SIGIR,CIKM,AIRS等搜索引擎相關(guān)的學(xué)術(shù)會(huì)議上交流多篇學(xué)術(shù)論文。
李曉明,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系教授,網(wǎng)絡(luò)與信息系統(tǒng)研究所所長(zhǎng)。從1999年開始從事與搜索引擎有關(guān)的研究與教學(xué)工作,主持開發(fā)了互聯(lián)網(wǎng)信息搜索引擎--“天網(wǎng)搜索”,出版了《搜索引擎:原理、技術(shù)與系統(tǒng)》(科學(xué)出版社,2005)。2001年,提出了收集存儲(chǔ)并系統(tǒng)研究中國(guó)網(wǎng)頁(yè)歷史信息的理念,發(fā)起并主持建設(shè)了“中國(guó)網(wǎng)絡(luò)信息博物館”。出版《計(jì)算機(jī)網(wǎng)絡(luò)與互聯(lián)網(wǎng)》(機(jī)械工業(yè)出版社,2009)和《計(jì)算機(jī)系統(tǒng)平臺(tái)》(清華大學(xué)出版社,2009)教材,譯著《萬(wàn)維網(wǎng)的定律》(北京大學(xué)出版社,2009)和《網(wǎng)絡(luò)、群體與市場(chǎng)》(清華大學(xué)出版社,2011年)。
書籍目錄
第1章 搜索引擎評(píng)價(jià)技術(shù)
1.1 目標(biāo)、角度和方法
1.2 符號(hào)定義
1.3 Cranfield范式評(píng)價(jià)方法
1.4 評(píng)測(cè)指標(biāo)
1.4.1 二值相關(guān)性指標(biāo)
1.4.2 多值相關(guān)性指標(biāo)
1.4.3 偏好性指標(biāo)
1.4.4 分?jǐn)?shù)綜合方法
1.4.5 系統(tǒng)比較
1.4.6 指標(biāo)分析
1.5 評(píng)測(cè)集
1.6 不完整的評(píng)測(cè)集
1.6.1 文檔池方法
1.6.2 抽樣方法
1.6.3 最小標(biāo)注集方法
1.7 相關(guān)性之外的考慮
1.7.1 多樣性和新穎性
1.7.2 評(píng)測(cè)方法
1.7.3 多樣性指標(biāo)
1.7.4 新穎性指標(biāo)
1.7.5 歸一化因子:一個(gè)NP難問(wèn)題
1.8 Cranfield評(píng)測(cè)方法遇到的困難
1.9 用戶研究
1.9.1 用戶研究的指標(biāo)
1.9.2 用戶研究的順序性
1.9.3 用戶研究和Cranfield范式:比較和關(guān)聯(lián)
1.10 搜索引擎的效率
1.10.1 在線指標(biāo)和離線指標(biāo)
……
第2章 搜索引擎用戶隱反饋建模
第3章 搜索引擎結(jié)果歸并一比較方法
第4章 基于用戶點(diǎn)擊模型的搜索引擎評(píng)價(jià)方法
第5章 有效時(shí)間比:一種新的搜索引擎評(píng)價(jià)指標(biāo)
附錄 一個(gè)基于歸并比較的元搜索系統(tǒng)
參考文獻(xiàn)
章節(jié)摘錄
版權(quán)頁(yè): 插圖: 1.4 評(píng)測(cè)指標(biāo) 本節(jié)介紹Cranfield評(píng)測(cè)范式中常用的一些評(píng)測(cè)指標(biāo),它們雖然大都產(chǎn)生于Cranfield范式的框架中,但其中許多也適用于其他的評(píng)測(cè)方法(例如本書重點(diǎn)介紹的用戶隱反饋方法)。應(yīng)該注意的是,由于搜索引擎與傳統(tǒng)信息檢索系統(tǒng)的應(yīng)用環(huán)境有顯著差別,以前提出的一些指標(biāo)不一定很適合搜索引擎。這種認(rèn)識(shí)成為本書第5章所體現(xiàn)工作的出發(fā)點(diǎn),在那里,我們提出了一個(gè)新的搜索引擎評(píng)價(jià)指標(biāo):有效時(shí)間比(Effective Time Ratio,ETR)。 讀者可以認(rèn)識(shí)到,一個(gè)搜索引擎的好壞最終取決于總體用戶體驗(yàn),任何評(píng)測(cè)指標(biāo)都是對(duì)用戶體驗(yàn)的近似。指標(biāo)的好壞對(duì)應(yīng)這種近似程度的高低。由于搜索引擎應(yīng)用環(huán)境的復(fù)雜,用戶的需求多樣且表達(dá)方式有限,很難講某一指標(biāo)就是最好的。常??梢哉f(shuō)的只是某一指標(biāo)更適合什么情形。這也是在信息檢索領(lǐng)域不斷有人提出新指標(biāo)的原因之一。在理解指標(biāo)局限性的同時(shí),也應(yīng)該看到指標(biāo)的意義。從20世紀(jì)90年代中期萬(wàn)維網(wǎng)興起開始,近20年過(guò)去了,最初的一些搜索引擎有些已經(jīng)不存在,目前最受用戶歡迎的搜索引擎也都是后來(lái)才出現(xiàn)的,實(shí)現(xiàn)了后來(lái)居上的目標(biāo)。同時(shí),現(xiàn)在也有一些新的搜索引擎實(shí)現(xiàn)了新的超越。廣大互聯(lián)網(wǎng)用戶在搜索引擎之間的遷移是搜索引擎質(zhì)量對(duì)比的最好風(fēng)向標(biāo)。然而,這種遷移是需要時(shí)間的,一個(gè)有雄心的搜索引擎不是要在投入市場(chǎng)后等待遷移,而是應(yīng)該在投入市場(chǎng)前預(yù)測(cè)是否會(huì)發(fā)生所希望的用戶遷移。按照一定的指標(biāo)來(lái)對(duì)系統(tǒng)進(jìn)行評(píng)估,就是進(jìn)行上述預(yù)測(cè)的重要基礎(chǔ)。 下面,首先介紹用于評(píng)測(cè)系統(tǒng)在單個(gè)信息需求上檢索效果表現(xiàn)的指標(biāo)。根據(jù)對(duì)相關(guān)性‘函數(shù)定義方式的不同,這些指標(biāo)可以分成三類:二值相關(guān)性指標(biāo)、多值相關(guān)性指標(biāo)以及偏好類指標(biāo)(這些指標(biāo)的一個(gè)比較完整的列表和分類體系,也可以參考Demartini等人的工作)。其次,討論把單個(gè)信息需求的分?jǐn)?shù)在多個(gè)信息需求上綜合的方法,并討論如何根據(jù)兩個(gè)系統(tǒng)各自的綜合性分?jǐn)?shù)比較它們檢索效果的優(yōu)劣。最后,討論這些指標(biāo)之間的關(guān)系。
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載