出版時間:2009-8 出版社:科學(xué)出版社 作者:陸建江,張亞非,徐偉光,苗壯 編著 頁數(shù):240
Tag標(biāo)簽:無
前言
面對海量信息,信息的精確檢索就像大海撈針一樣困難。智能檢索技術(shù)吸取多個學(xué)科的研究成果,力圖通過對文本、圖像和視頻信息的智能處理,實現(xiàn)信息的精確檢索。本書系統(tǒng)地闡述了文本、圖像和視頻檢索的理論方法和實現(xiàn)技術(shù),并重點突出了本領(lǐng)域的最新研究成果。本書涵蓋智能檢索技術(shù)的主要內(nèi)容,全書共分14章:第1~4章介紹文本的智能檢索技術(shù),包括文本檢索技術(shù)、文本自動分詞、概念語義空間、基于本體的文本檢索技術(shù)等;第5~10章介紹圖像的智能檢索技術(shù),包括MPEG一7標(biāo)準(zhǔn)中圖像的視覺特征、圖像的局部特征、基于視覺特征的圖像檢索技術(shù)、基于語義的圖像檢索技術(shù)、Web圖像的檢索技術(shù)等;第11~14章介紹視頻的智能檢索技術(shù),包括視頻的結(jié)構(gòu)化技術(shù)、語音識別技術(shù)、視頻的標(biāo)注技術(shù)等。本書的成果是集體智慧的結(jié)晶,由陸建江、張亞非、徐偉光和苗壯負(fù)責(zé)撰稿。另外,感謝趙天忠、李陽、肖琪、謝正輝、周波、李冉、李言輝、康達(dá)周、王進(jìn)鵬、王家寶、田豫龍等同學(xué)為本書撰寫工作付出的辛勤工作,這些同學(xué)參與了全書的校對工作,在此深表感謝。全書每一章的內(nèi)容組織和細(xì)節(jié)都經(jīng)過多次討論和修改才定稿,力求深入淺出,讓讀者輕松掌握相關(guān)的知識。盡管每一節(jié)、每一句、每篇參考文獻(xiàn),甚至每個標(biāo)點我們都精心檢查,但難免還存在一些缺點和遺漏,殷切希望廣大讀者批評指正。希望本書的出版能夠?qū)χ悄軝z索技術(shù)相關(guān)領(lǐng)域的研究人員有所裨益,并希望通過閱讀本書,讀者能夠很快進(jìn)行相關(guān)領(lǐng)域的研究工作。
內(nèi)容概要
面對海量信息,信息的精確檢索就像大海撈針一樣困難。智能檢索技術(shù)吸取多個學(xué)科的研究成果,力圖通過對文本、圖像和視頻信息的智能處理,實現(xiàn)信息的精確檢索。本書系統(tǒng)地闡述了文本、圖像和視頻檢索的理論方法和實現(xiàn)技術(shù),并重點突出了本領(lǐng)域的最新研究成果。 本書可作為高等院校計算機科學(xué)與技術(shù)、模式識別與智能系統(tǒng)等學(xué)科方向高年級本科生和研究生的教材,也可作為相關(guān)領(lǐng)域?qū)W生的參考書。
書籍目錄
《智能科學(xué)技術(shù)著作叢書》序前言第1章 文本檢索技術(shù) 1.1 基于索引的檢索技術(shù) 1.2 文本提取 1.3 文本預(yù)處理 1.3.1 停用詞刪除 1.3.2 詞干提取 1.3.3 索引詞選擇 1.3.4 建立詞典 1.4 索引 1.5 文本檢索模型 1.5.1 布爾模型 1.5.2 向量空間模型 1.5.3 概率論模型 1.5.4 PageRank模型 1.6 分布式搜索引擎 1.6.1 分布式元搜索引擎 1.6.2 散列式分布搜索引擎 1.6.3 局部遍歷型搜索引擎 1.6.4 P2P分布式搜索引擎 參考文獻(xiàn)第2章 文本自動分詞 2.1 基于字符串匹配的正向最大匹配算法 2.2 基于簡碼匹配的Hash分詞算法 2.2.1 簡碼匹配方式 2.2.2 Hash分詞算法 2.2.3 消歧融入切分過程 2.2.4 基于簡碼的Hash算法 2.2.5 平均匹配次數(shù)的理論分析 2.2.6 分詞測試及結(jié)果 2.3 基于統(tǒng)計的分詞方法 參考文獻(xiàn)第3章 概念語義空間 3.1 基于奇異值分解的潛在語義索引方法 3.2 基于非負(fù)矩陣分解的潛在語義索引方法 3.2.1 NMF問題的提出 3.2.2 目標(biāo)函數(shù) 3.2.3 NMF方法的迭代規(guī)則 3.2.4 NMF的非唯一性 3.2.5 基于NMF的概念語義生成 3.2.6 其他NMF方法 3.3 NMF方法與SVD方法的比較 3.3.1 問題本質(zhì) 3.3.2 概念語義向量的特點 3.3.3 概念語義向量的解釋 3.3.4 NMF方法與SVD方法敏感性的比較 3.3.5 NMF方法與SVD方法檢索性能的比較 參考文獻(xiàn)第4章 基于本體的文本檢索技術(shù) 4.1 本體定義 4.2 描述邏輯 4.2.1 描述邏輯ALC 4.2.2 描述邏輯ALC的構(gòu)造子擴展 4.3 本體語言 4.3.1 可擴展標(biāo)記語言XML 4.3.2 資源描述框架RDF 4.3.3 本體語言O(shè)WL 4.4 基于本體的文本檢索技術(shù) 4.4.1 本體構(gòu)建 4.4.2 語義標(biāo)注 4.4.3 語義查詢 參考文獻(xiàn)第5章 基于內(nèi)容的圖像檢索第6章 MPEG-7標(biāo)準(zhǔn)中國像的視覺特征第7章 圖像的局部特征第8章 基于視覺特征的圖像檢索技術(shù)第9章 基于語義的圖像檢索技術(shù)第10章 Web圖像的檢索技術(shù)第11章 基于內(nèi)容的視頻檢索技術(shù)第12章 視頻的結(jié)構(gòu)化技術(shù)第13章 語音識別技術(shù)第14章 視頻的標(biāo)注技術(shù)
章節(jié)摘錄
第1章 文本檢索技術(shù)1.3 文本預(yù)處理1.3.1 停用詞刪除我們知道如果一個詞在某個文本中多次出現(xiàn),那么這個詞就很有可能與文本的主題密切相關(guān)。然而如果一個詞在多個文本中出現(xiàn),而且頻率過高,那么它對文本的區(qū)別能力就非常低。一般地,在文檔庫的文本中出現(xiàn)頻率超過80%的詞對檢索過程根本起不到作用。這部分詞被稱為停用詞(stopword)。在選擇構(gòu)建索引的詞時,停用詞需要被過濾,以提高索引效率。一般地,冠詞、介詞、連詞等都是停用詞,實際檢索系統(tǒng)都會設(shè)置一個停用詞表。刪除停用詞可以大大縮小索引空間的大小,一般可以縮小40%左右。刪除停用詞的缺點是可能會影響檢索系統(tǒng)的查準(zhǔn)率,有的文本檢索系統(tǒng)為了克服這一缺點采用全文索引,并不剔除停用詞,對所有的詞都建立索引。1.3.2 詞干提取詞干提取是為了解決英文檢索中存在的問題而采取的操作。詞于是指將詞的詞綴(前綴和后綴)刪除后剩下的部分。例如單詞“compete”是它的變形“competes”、“competitor”、“competition”、“competin9”和“competed”的詞干。在英文檢索中,如果用戶輸入的詞是信息庫中某個相關(guān)文本中詞的一種變形,詞的變形可以是該詞的復(fù)數(shù)、動名詞或者過去分詞形式等,那么這些相關(guān)文本將被視作與查詢無關(guān)的文本,這將大大影響召回率。為解決這個問題,在構(gòu)建索引時,用詞干來代替詞干的所有變形。詞干提取不僅在很大程度上提高召回率,改善信息檢索的性能,同時由于詞干的眾多變形都由詞干代替,用于構(gòu)建索引的詞數(shù)量也大大減少,索引空間也進(jìn)一步縮小。目前,詞干提取技術(shù)可以分為:詞綴刪除、表格查詢、后續(xù)變形、N-連字。詞綴刪除技術(shù)比較直觀、簡單、有效。在詞綴刪除中,最重要的就是對詞中后綴的刪除,因為大多數(shù)詞的變形是通過后綴來實現(xiàn)的。目前已經(jīng)有多種關(guān)于詞綴刪除的算法,其中,Porter算法以其簡單性和有效性而得到廣泛應(yīng)用。表格查詢技術(shù)通過在表格中查找某個詞的詞干來實現(xiàn),表格中的信息依賴于整個語言中詞的詞干,因此通常需要相當(dāng)大的存儲空問來存放表格,這就制約了表格查詢技術(shù)的應(yīng)用。后續(xù)變形技術(shù)主要是通過結(jié)構(gòu)化語言的知識來確定詞素的邊界,這種技術(shù)比詞綴刪除技術(shù)復(fù)雜。N-連字技術(shù)判斷單詞中的字母是否連在一起,這一過程實際上是詞條聚類的過程。
編輯推薦
《智能檢索技術(shù)》特點:智能檢索技術(shù)是國內(nèi)外學(xué)術(shù)界研究的熱點,《智能檢索技術(shù)》吸取計算機科學(xué)與技術(shù)、模式識別與智能系統(tǒng)等多個學(xué)科的研究成果,系統(tǒng)地闡述了文本、圖像和視頻檢索的理論方法和實現(xiàn)技術(shù),并重點突出語義檢索技術(shù)的最新研究成果。
圖書封面
圖書標(biāo)簽Tags
無
評論、評分、閱讀與下載