Web數(shù)據(jù)挖掘

出版時(shí)間:2013-1  出版社:清華大學(xué)出版社  作者:劉兵  頁(yè)數(shù):434  譯者:俞勇  
Tag標(biāo)簽:無(wú)  

內(nèi)容概要

  過(guò)去幾十年里,Web的迅速發(fā)展使其成為世界上規(guī)模最大的公共數(shù)據(jù)源。Web挖掘的目標(biāo)是從Web超鏈接、網(wǎng)頁(yè)內(nèi)容和使用日志中探尋有用的信息?!  妒澜缰?jì)算機(jī)教材精選:Web數(shù)據(jù)挖掘(第2版)》旨在闡述Web數(shù)據(jù)挖掘的概念及其核心算法,使讀者獲得相對(duì)完整的關(guān)于Web數(shù)據(jù)挖掘的算法和技術(shù)知識(shí)。本書不僅介紹了搜索、頁(yè)面爬取和資源探索以及鏈接分析等傳統(tǒng)的Web挖掘主題,而且還介紹了結(jié)構(gòu)化數(shù)據(jù)的抽取、信息整合、觀點(diǎn)挖掘和Web使用挖掘等內(nèi)容,這些內(nèi)容在已有書籍中沒有提及過(guò),但它們?cè)赪eb數(shù)據(jù)挖掘中卻占有非常重要的地位。全書分為兩大部分:第一部分包括第2章到第5章,介紹數(shù)據(jù)挖掘的基礎(chǔ),第二部分包括第6章到第12章,介紹Web相關(guān)的挖掘任務(wù)。從本書自第1版出版之后,很多領(lǐng)域已經(jīng)有了重大的進(jìn)展。新版大部分的章節(jié)都已經(jīng)添加了新的材料來(lái)反應(yīng)這些進(jìn)展,主要的改動(dòng)在第11章和第12章中,這兩章已經(jīng)被重新撰寫并做了重要的擴(kuò)展。  《世界著名計(jì)算機(jī)教材精選:Web數(shù)據(jù)挖掘(第2版)》不僅可作為本科生的教科書,也是在Web數(shù)據(jù)挖掘和相關(guān)領(lǐng)域研讀博士學(xué)位的研究生的重要參考用書,同時(shí)對(duì)Web挖掘研究人員和實(shí)踐人員獲取知識(shí)、信息、甚至是創(chuàng)新想法也很有幫助。

作者簡(jiǎn)介

作者:(美國(guó))劉兵 譯者:俞勇

書籍目錄

第1章 概述 1.1 什么是萬(wàn)維網(wǎng) 1.2 萬(wàn)維網(wǎng)和互聯(lián)網(wǎng)的歷史簡(jiǎn)述 1.3 Web數(shù)據(jù)挖掘 1.3.1 什么是數(shù)據(jù)挖掘 1.3.2 什么是Web數(shù)據(jù)挖掘 1.4 各章概要 1.5 如何閱讀本書 文獻(xiàn)評(píng)注 參考文獻(xiàn) 第1部分 數(shù)據(jù)挖掘基礎(chǔ) 第2章 關(guān)聯(lián)規(guī)則和序列模式 2.1 關(guān)聯(lián)規(guī)則的基本概念 2.2 Apriori算法 2.2.1 頻繁項(xiàng)目集生成 2.2.2 關(guān)聯(lián)規(guī)則生成 2.3 關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)格式 2.4 多最小支持度的關(guān)聯(lián)規(guī)則挖掘 2.4.1 擴(kuò)展模型 2.4.2挖掘算法 2.4.3 規(guī)則生成 2.5 分類關(guān)聯(lián)規(guī)則挖掘 2.5.1 問題描述 2.5.2 挖掘算法 2.5.3 多最小支持度分類關(guān)聯(lián)規(guī)則挖掘 2.6 序列模式的基本概念 2.7 基于GSP挖掘序列模式 2.7.1 GSP算法 2.7.2 多最小支持度挖掘 2.8基于PrefixSpan算法的序列模式挖掘 2.8.1 PrefixSpan算法 2.8.2 多最小支持度挖掘 2.9 從序列模式中產(chǎn)生規(guī)則 2.9.1 序列規(guī)則 2.9.2 標(biāo)簽序列規(guī)則 2.9.3 分類序列規(guī)則 文獻(xiàn)評(píng)注 參考文獻(xiàn) 第3章 監(jiān)督學(xué)習(xí) 3.1 基本概念 3.2 決策樹歸納 3.2.1 學(xué)習(xí)算法 3.2.2 混雜度函數(shù) 3.2.3 處理連續(xù)屬性 3.2.4其他一些問題 3.3評(píng)估分類器 3.3.1 評(píng)估方法 3.3.2 查準(zhǔn)率、查全率、F—score和平衡點(diǎn)(Breakeven Point) 3.3.3 受試者工作特征曲線 3.3.4 提升曲線 3.4 規(guī)則歸納 3.4.1 順序化覆蓋 3.4.2 規(guī)則學(xué)習(xí):Learn—One—Rule函數(shù) 3.4.3 討論 3.5 基于關(guān)聯(lián)規(guī)則的分類 3.5.1 使用類關(guān)聯(lián)規(guī)則進(jìn)行分類 3.5.2 使用類關(guān)聯(lián)規(guī)則作為分類屬性 3.5.3 使用古典的關(guān)聯(lián)規(guī)則分類 3.6 樸素貝葉斯分類 3.7 樸素貝葉斯文本分類 3.7.1 概率框架 3.7.2 樸素貝葉斯模型 3.7.3 討論 3.8 支持向量機(jī) 3.8.1 線性支持向量機(jī):可分的情況 3.8.2 線性支持向量機(jī):數(shù)據(jù)不可分的情況 3.8.3 非線性支持向量機(jī):核方法 總結(jié)  3.9 k—近鄰學(xué)習(xí) 3.10分類器的集成 3.10.1 Bagging 3.10.2 Boosting 文獻(xiàn)評(píng)注 參考文獻(xiàn) 第4章 無(wú)監(jiān)督學(xué)習(xí) 4.1 基本概念 4.2 k—均值聚類 4.2.1 k—均值算法 4.2.2 k—均值算法的硬盤版本 4.2.3 優(yōu)勢(shì)和劣勢(shì) 4.3 聚類的表示 4.3.1 聚類的一般表示方法 4.3.2 任意形狀的聚類 4.4 層次聚類 4.4.1 單連結(jié)方法 4.4.2全連結(jié)方法 4.4.3 平均連結(jié)方法 4.4.4優(yōu)勢(shì)和劣勢(shì) 4.5 距離函數(shù) 4.5.1 數(shù)字屬性 4.5.2 布爾屬性和名詞性屬性 4.5.3 文本文檔 4.6數(shù)據(jù)標(biāo)準(zhǔn)化 4.7 混合屬性的處理 4.8 采用哪種聚類算法 4.9聚類的評(píng)估 4.10 發(fā)現(xiàn)數(shù)據(jù)區(qū)域和數(shù)據(jù)空洞 文獻(xiàn)評(píng)注 參考文獻(xiàn) 第5章 部分監(jiān)督學(xué)習(xí) 5.1 從已標(biāo)注數(shù)據(jù)和無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí) 5.1.1 使用樸素貝葉斯分類器的EM算法 5.1.2 Co—Training 5.1.3 自學(xué)習(xí) 5.1.4 直推式支持向量機(jī) 5.1.5 基于圖的方法 5.1.6 討論 5.2 從正例和無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí) 5.2.1 PU學(xué)習(xí)的應(yīng)用 5.2.2 理論基礎(chǔ) 5.2.3 建立分類器:兩步方法 5.2.4建立分類器:偏置SVM 5.2.5建立分類器:概率估計(jì) 5.2.6 討論 …… 第2部分 Web挖掘

章節(jié)摘錄

版權(quán)頁(yè):   插圖:   5.2.1 PU學(xué)習(xí)的應(yīng)用 由于人們?cè)诖蠖鄶?shù)情況下僅僅對(duì)某個(gè)特定類別的網(wǎng)頁(yè)或文本文檔感興趣,所以在網(wǎng)頁(yè)和文本文檔的檢索中PU學(xué)習(xí)問題經(jīng)常出現(xiàn)。例如,某些人可能只對(duì)與旅游相關(guān)的網(wǎng)頁(yè)(正例網(wǎng)頁(yè))有興趣,這時(shí)所有其他網(wǎng)頁(yè)都可以被看成是反例網(wǎng)頁(yè)。下面讓我們通過(guò)一個(gè)具體的例子來(lái)看看PU學(xué)習(xí)應(yīng)用的真實(shí)場(chǎng)景。 例1:我們想要建立一個(gè)關(guān)于數(shù)據(jù)挖掘研究的論文庫(kù)。首先,我們可以從一些數(shù)據(jù)挖掘的會(huì)議或者期刊上選取一些論文作為初始的論文集。然后,我們希望從一些在線的關(guān)于數(shù)據(jù)庫(kù)和人工智能領(lǐng)域的會(huì)議和期刊中尋找關(guān)于數(shù)據(jù)挖掘的論文。在這些領(lǐng)域的會(huì)議和期刊論文中都包含有一些數(shù)據(jù)挖掘的論文。同樣它們也包含很多其他研究領(lǐng)域的論文。問題就成了怎樣從這些會(huì)議和期刊論文中抽取數(shù)據(jù)挖掘的論文,即怎樣在沒有進(jìn)行任何反例文檔標(biāo)注的情況下把這些文章分類成數(shù)據(jù)挖掘論文和非數(shù)據(jù)挖掘論文。 在實(shí)際應(yīng)用中,正例文檔對(duì)于那些已經(jīng)從事某項(xiàng)特定工作很長(zhǎng)時(shí)間的人來(lái)說(shuō)是很容易得到的,因?yàn)樗麄冊(cè)诠ぷ鬟^(guò)程中可能會(huì)積累很多相關(guān)文檔。即使一開始沒有正例文檔的話,直接從Web或者其他資源中收集一些正例文檔是相對(duì)容易的。這樣人們就可以在沒有任何反例標(biāo)注的情況下,通過(guò)使用這個(gè)初始正例集從其他一些數(shù)據(jù)來(lái)源中去發(fā)現(xiàn)相同類別的文檔。PU學(xué)習(xí)在以下這些情況下十分有用: (1)從多個(gè)無(wú)標(biāo)注集中學(xué)習(xí):在一些應(yīng)用中,人們需要從大量文檔集中發(fā)現(xiàn)正例文檔。例如,我們希望分辨那些銷售打印機(jī)的網(wǎng)頁(yè)。首先,我們可以很容易從某個(gè)在線交易網(wǎng)站中獲得一些正例網(wǎng)頁(yè),如amazon.com。然后我們希望從其他一些交易網(wǎng)站中找到打印機(jī)網(wǎng)頁(yè)。為此,我們需要一一爬下每個(gè)網(wǎng)站的內(nèi)容,然后使用PU學(xué)習(xí)算法從每個(gè)網(wǎng)站中抽出打印機(jī)網(wǎng)頁(yè)。我們不需要對(duì)任何網(wǎng)站中的反例網(wǎng)頁(yè)進(jìn)行人工標(biāo)注。 盡管為一個(gè)網(wǎng)站標(biāo)注一些反例網(wǎng)頁(yè)并不是太難,但是如果要對(duì)每個(gè)網(wǎng)站都進(jìn)行標(biāo)注的話就很困難了。由于站點(diǎn)S1中的反例網(wǎng)頁(yè)可能與站點(diǎn)S,中的反例網(wǎng)頁(yè)十分不同,所以基于S2中的反例網(wǎng)頁(yè)學(xué)習(xí)得到的分類器可能不能用于對(duì)站點(diǎn)S2的網(wǎng)頁(yè)分類。這個(gè)原因在于,盡管兩個(gè)站點(diǎn)都銷售打印機(jī),但是它們出售的其他產(chǎn)品可能大相徑庭。因此使用從S1上學(xué)習(xí)得到的分類器對(duì)S2中的網(wǎng)頁(yè)分類可能會(huì)違背機(jī)器學(xué)習(xí)的基本假設(shè):訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)符合相同的數(shù)據(jù)分布。從而,我們可能會(huì)得到很差的分類精度。

編輯推薦

《世界著名計(jì)算機(jī)教材精選:Web數(shù)據(jù)挖掘(第2版)》不僅可作為本科生的教科書,也是在Web數(shù)據(jù)挖掘和相關(guān)領(lǐng)域研讀博士學(xué)位的研究生的重要參考用書,同時(shí)對(duì)Web挖掘研究人員和實(shí)踐人員獲取知識(shí)、信息、甚至是創(chuàng)新想法也很有幫助。

圖書封面

圖書標(biāo)簽Tags

無(wú)

評(píng)論、評(píng)分、閱讀與下載


    Web數(shù)據(jù)挖掘 PDF格式下載


用戶評(píng)論 (總計(jì)8條)

 
 

  •   講得很基礎(chǔ),也很詳細(xì),適合數(shù)據(jù)挖掘入門
  •   這本書很好,值得研究生以上的使用,理論性強(qiáng),適合研究和探索,推薦給大家!
  •   很不錯(cuò)的一本書,對(duì)于計(jì)算機(jī)專業(yè)的我,很實(shí)用,也很適用
  •   這本書目前還沒進(jìn)一步的去讀,只是簡(jiǎn)單的看了一點(diǎn)。目前在讀另一本 Data Mining: Concepts and Techniques 。web數(shù)據(jù)挖掘是老師推薦的,等剛看完再看吧。
  •   買本書的作者應(yīng)該都是想看后面章節(jié)的知識(shí),前面的章節(jié)講的也不錯(cuò),雖然其他的書上其實(shí)都講的差不多了,還是值得推薦
  •   挺好的 對(duì)于有基礎(chǔ)的讀者 比較合適
  •   書質(zhì)量很不錯(cuò)了~ 對(duì)自己有幫助
  •   一看就是正版,也是新書
 

250萬(wàn)本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7