文本挖掘中若干關(guān)鍵問題研究

出版時(shí)間:2008-12  出版社:中國(guó)科學(xué)技術(shù)大學(xué)出版社  作者:陸旭  頁(yè)數(shù):117  
Tag標(biāo)簽:無(wú)  

內(nèi)容概要

本書介紹了文本分類和偏最小二乘回歸,提出了基于變量投影重要性指標(biāo)的文本分類特征選擇方法,論述了偏最小二乘Logistic文本分類模型,闡述了CHTC層次文本分類模型的研究工作,本書可供相關(guān)領(lǐng)域科研工作者、大學(xué)高年級(jí)學(xué)生和研究生閱讀。

書籍目錄

前言第1章 導(dǎo)論  1.1 研究背景  1.2 文本分類綜述  1.3 本書的內(nèi)容結(jié)構(gòu)  1.4 本書的創(chuàng)新工作第2章 文本分類概述  2.1 文本分類的數(shù)學(xué)定義  2.2 文本分類任務(wù)的特點(diǎn)  2.3 文本分類系統(tǒng)的組成  2.4 文檔預(yù)處理  2.5 文檔的表示  2.6 常用文本分類模型  2.7 文本分類器學(xué)習(xí)、測(cè)試和評(píng)價(jià)第3章 偏最小二乘回歸方法的基本理論  3.1 偏最小二乘回歸的發(fā)展歷史  3.2 偏最小二乘回歸的基本原理  3.3 偏最小二乘回歸的基本思想  3.4 數(shù)學(xué)原理  3.5 偏最小二乘回歸的理論算法  3.6 成分?jǐn)?shù)的確定第4章 基于變量投影重要性指標(biāo)的特征選擇方法研究  4.1 維數(shù)約簡(jiǎn)技術(shù)  4.2 符號(hào)約定  4.3 常用的特征選擇方法  4.4 常用的特征抽取方法  4.5 基于變量投影重要性指標(biāo)的特征選擇方法  4.6 實(shí)驗(yàn)結(jié)果和分析第5章 偏最小二乘Logistic文本分類模型研究  5.1 Logistic回歸模型  5.2 偏最小二乘Logistic回歸模型  5.3 偏最小二乘Logistic文本分類模型  5.4 實(shí)驗(yàn)結(jié)果和分析第6章 GHTC層次文本分類模型研究  6.1 層次分類概述  6.2 層次特征選擇  6.3 GHTC層次文本分類模型  6.4 實(shí)驗(yàn)結(jié)果和分析第7章 總結(jié)與展望  7.1 總結(jié)  7.2 研究展望附錄1 REUTERS-21578前10個(gè)常見類和前10個(gè)稀有類的前20個(gè)特征VIP值附錄2 復(fù)旦文本分類語(yǔ)料庫(kù)部分類別的前20個(gè)特征VIP值附錄3 OHSUMED語(yǔ)料庫(kù)層次結(jié)構(gòu)附錄4 20 Newsgroups語(yǔ)料庫(kù)各節(jié)點(diǎn)各特征維數(shù)的微平均F1值和宏平均F1值變化情況參考文獻(xiàn)后記

章節(jié)摘錄

  第2章 文本分類概述  2.5 文檔的表示  2.5.1 文檔的特征  對(duì)文檔進(jìn)行預(yù)處理以后,需要根據(jù)文本分類模型對(duì)文檔進(jìn)行相應(yīng)的特征表示,從文檔的組成來看,它是字符串的集合,一般來說,文檔的特征項(xiàng)應(yīng)該具有以下特點(diǎn):特征項(xiàng)是能夠?qū)ξ臋n進(jìn)行充分表示的語(yǔ)言單位;文檔在特征項(xiàng)集合上的分布具有較為明顯的統(tǒng)計(jì)規(guī)律;特征項(xiàng)分離比較容易實(shí)現(xiàn),計(jì)算復(fù)雜度不太大,在文本分類中,按照文檔特征的粒度來劃分,常用的特征單位有詞、詞組、N—Gram(N元)項(xiàng)和概念等,中文有時(shí)也把詞性作為文檔的特征,  1.詞  在信息檢索領(lǐng)域,詞(Word)是使用最為普遍的文檔特征,英語(yǔ)、法語(yǔ)和德語(yǔ)等西方語(yǔ)言通常采用空格或標(biāo)點(diǎn)符號(hào)將詞隔開,具有天然的分隔符,所以詞的獲取簡(jiǎn)單,中文、日文和韓文等東方語(yǔ)言,句子之間有分隔符,但詞與詞之間沒有分隔符,所以需要分詞來得到詞。

編輯推薦

《文本挖掘中若干關(guān)鍵問題研究》:自動(dòng)文本分類是將自然文本文件根據(jù)內(nèi)容自動(dòng)分為預(yù)先定義的一個(gè)或幾個(gè)類別的過程,基于統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)的文本分類技術(shù)已經(jīng)成為主流技術(shù),《文本挖掘中若干關(guān)鍵問題研究》對(duì)基于統(tǒng)計(jì)學(xué)習(xí)的文本分類及其相關(guān)技術(shù)進(jìn)行了研究,為解決文本分類的稀疏性和高維性問題,基于偏最小二乘理論,提出一種新的維數(shù)約簡(jiǎn)算法,從提高文本分類性能和準(zhǔn)確性出發(fā),運(yùn)用偏最小二乘的最新理論成果,提出了一種能較好提取潛在語(yǔ)義的新文本分類模型,對(duì)于數(shù)量龐大的文檔類別,傳統(tǒng)的平坦文本分類的性能受到很大的制約,層次文本分類是一種有效的解決方法,由此提出了一種新的層次文本分類模型。

圖書封面

圖書標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載


    文本挖掘中若干關(guān)鍵問題研究 PDF格式下載


用戶評(píng)論 (總計(jì)6條)

 
 

  •   還不錯(cuò),就是送貨稍微晚了點(diǎn)
  •   送貨速度真快。該書已瀏覽,有收獲再來說。
  •   這本書整體還可以,畢竟是博士論文。但文中有一些符號(hào)作者沒有介紹,如文中有一處關(guān)于主成分分析的介紹,但后來又說PCA,PCA是什么意思?雖然有這方面背景的一看就知道什么意思,但是對(duì)于初學(xué)者則不知,PCA從何處來。如果作者將分詞部分介紹的更詳細(xì)點(diǎn)就好了。雖然這不是博士論文必須的,但是你在出書,出書和出論文,還是有區(qū)別的,作者可以做一下論文和書的文本分類。這僅僅是個(gè)人的看法,僅供參考。如有錯(cuò)誤請(qǐng)指正。
  •   書的質(zhì)量和內(nèi)容都還不錯(cuò),絕對(duì)值這個(gè)價(jià)錢。內(nèi)容還未進(jìn)行深入研究,很充實(shí),應(yīng)該很不錯(cuò)。
  •   還可以,入門學(xué)習(xí)用,類似書不多。
  •   介紹文本挖掘的基礎(chǔ)入門書籍
 

250萬(wàn)本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7