出版時(shí)間:2012-7 出版社:浙江大學(xué)出版社 作者:潘有能 頁數(shù):152 字?jǐn)?shù):196000
內(nèi)容概要
潘有能編著的《XML挖掘》內(nèi)容分為8章,第1章先對(duì)XML和數(shù)據(jù)挖掘技術(shù)作簡(jiǎn)要介紹。在對(duì)XML文檔進(jìn)行挖掘之前,需要先進(jìn)行文檔解析及文檔標(biāo)記消歧,即為第2章的內(nèi)容。第3章和第4章分別介紹XML挖掘的兩項(xiàng)主要功能:聚類與分類。和HTML中的超鏈接一樣,XML文檔之間也具有鏈接性,第5章介紹利用鏈接挖掘XML文檔間結(jié)構(gòu)的方法。針對(duì)XML文檔的查詢、檢索以及信息提取有利于用戶準(zhǔn)確、快速、有效地利用XML文檔,本書的第6章即討論XML查詢與信息提取技術(shù);第7章和第8章則介紹基于XML數(shù)據(jù)挖掘建模、知識(shí)表示以及Web日志挖掘。
作者簡(jiǎn)介
潘有能,男,浙江大學(xué)副教授潘,湖南醴陵人。浙江大學(xué)公共管理學(xué)院信息資源管理系副教授。1995年考入南京大學(xué)信息管理系,先后獲文學(xué)學(xué)士和管理學(xué)博士學(xué)位。2004年到浙江大學(xué)任教。在核心期刊上發(fā)表論文十余篇,參加多項(xiàng)國家自然科學(xué)基金和省部級(jí)項(xiàng)目。本科生課程:社科信息檢索、信息存儲(chǔ)與保護(hù)技術(shù)、信息處理技術(shù)、電子政務(wù)導(dǎo)論、電子政務(wù)實(shí)務(wù)、管理信息系統(tǒng)、電子政務(wù)、網(wǎng)頁設(shè)計(jì)與制作、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘研究生課程:信息檢索技術(shù)、數(shù)據(jù)挖掘技術(shù)編輯本段研究項(xiàng)目 ?基于XML的Web日志挖掘研究 浙江大學(xué)“曙光”項(xiàng)目2005-04-01 ?基于本體論的語義Web研究 浙江省教育廳2005-07-01編輯本段主要論文 ?XML文檔自動(dòng)聚類研究 情報(bào)學(xué)報(bào)2006-04-24 ?基于標(biāo)記樹的XML文檔自動(dòng)分類研究 情報(bào)學(xué)報(bào)2007-7-24[2] ?圖書館學(xué)學(xué)科知識(shí)地圖的構(gòu)建 大學(xué)圖書館學(xué)報(bào)2007-7-1 ?web信息技術(shù)教程 編著或教材知識(shí)產(chǎn)權(quán)出版社2007-07-01 潘有能、葉鷹
書籍目錄
第1章 XML與數(shù)據(jù)挖掘概述
1.1 XML
1.2 數(shù)據(jù)挖掘概述
第2章 XML數(shù)據(jù)預(yù)處理
2.1 XML文檔解析
2.2 XML文檔標(biāo)記語義消歧
第3章 XML聚類
3.1 XML聚類概述
3.2 XML文檔相似度計(jì)算
3.3 XML文檔聚類
第4章 XML分類
4.1 相關(guān)定義
4.2 權(quán)重計(jì)算
4.3 相似性計(jì)算
4.4 XML文檔分類
第5章 XML文檔間結(jié)構(gòu)挖掘
5.1 XML鏈接
5.2 Web結(jié)構(gòu)挖掘算法
5.3 基于XML鏈接的文檔間結(jié)構(gòu)挖掘
第6章 XML查詢與信息提取
6.1 XML查詢語言
6.2 特征提取
6.3 主題提取
6.4 自動(dòng)摘要
第7章 基于XML的數(shù)據(jù)挖掘建模和知識(shí)表示
7.1 基于XML的數(shù)據(jù)挖掘建模
7.2 基于XML的知識(shí)表示
第8章 基于XML的Web使用挖掘
8.1 基于XML的Web使用挖掘體系結(jié)構(gòu)
8.2 XGMML
8.3 LOGML文檔的結(jié)構(gòu)
8.4 LOGML文檔的生成
8.5 基于LOGML的數(shù)據(jù)挖掘
附錄一:基于語義的XML文檔相似度計(jì)算源程序
附錄二:XML文檔聚類算法源程序
參考文獻(xiàn)
章節(jié)摘錄
版權(quán)頁: 插圖: (1)有時(shí)候聚類結(jié)果是次優(yōu)解,因?yàn)樵诰垲惖某跏茧A段需要指定簇的初始聚類中心或者均值,當(dāng)選擇的初始中心或均值比較接近實(shí)際質(zhì)心或中心點(diǎn)時(shí)會(huì)大大地減少迭代的次數(shù),而且可以得到理想的聚類結(jié)果。但如果初始聚類點(diǎn)選擇不好,這兩種算法又都是一種爬山算法,就會(huì)很容易得到次優(yōu)解。 (2)k值的確定,聚類算法在運(yùn)行前需要事先指定劃分聚類的簇的數(shù)目,因?yàn)榫垲愃惴ㄊ菬o監(jiān)督的聚類,并不能了解數(shù)據(jù)本身特征和整體實(shí)際分布情況,因此無法給出一個(gè)比較理想的聚類數(shù)目。 (3)這兩種算法只適用于球狀這種特定形狀的數(shù)據(jù),不適合非球狀簇。 (4)k—means算法對(duì)噪聲和離群點(diǎn)的數(shù)據(jù)是敏感的,因?yàn)樯倭康倪@類數(shù)據(jù)能夠?qū)诞a(chǎn)生極大的影響。k一中心點(diǎn)算法雖然可以減少噪聲數(shù)據(jù)和離群點(diǎn)的干擾,但算法復(fù)雜度比較高,因?yàn)楦麓氐闹行狞c(diǎn)代價(jià)比更新簇的均值的代價(jià)大的多。 在利用基于劃分的聚類算法對(duì)XML文檔進(jìn)行聚類時(shí),一般采用k—medoids聚類算法,因?yàn)閄ML文檔是一個(gè)個(gè)離散的對(duì)象,當(dāng)采用k—means算法時(shí),均值并能反映整個(gè)簇的實(shí)際情況。另外由于k—medoids算法具有劃分算法簡(jiǎn)單、執(zhí)行時(shí)間快的優(yōu)點(diǎn),在XML文檔聚類中獲得了廣泛的應(yīng)用。 3.1.2層次聚類算法 層次聚類算法是將數(shù)據(jù)對(duì)象組成一棵聚類樹的過程,根據(jù)生成聚類樹的過程是合并還是分裂,可以將層次聚類算法分為兩種,一種是凝聚層次聚類(AGNES),另一種是分裂層次聚類(DIANA),如圖3.3和圖3.4所示。凝聚層次聚類算法大體過程:首先將每個(gè)對(duì)象都看作為一個(gè)簇,然后度量簇間的距離,根據(jù)距離的遠(yuǎn)近逐漸合并簇,直到所有的對(duì)象都在同一個(gè)簇中或者滿足終止條件。 圖3.4描述了一個(gè)凝聚層次聚類的過程,它展示出對(duì)象是如何一步步合并成一個(gè)簇的。在L=0層時(shí),a、b、c、d、e對(duì)象分別為一個(gè)簇;在L=1時(shí),簇a、簇b的相似度為0.8,大于其他簇間的相似度,所以將a、b合并為一個(gè)簇{a、b};在L=2時(shí),簇d、e間的相似度為0.6,大于其他簇間的相似度,所以將d、e合并為一個(gè)簇{d、e},以此類推直到合并為一個(gè)類簇為止。 分裂層次聚類算法恰好與凝聚層次聚類算法相反,它先將所有的對(duì)象都看成同屬于一個(gè)簇,然后將原來的簇不斷劃分成越來越小的簇,直到每個(gè)對(duì)象自成一簇,或者達(dá)到了某個(gè)終止條件。比如,達(dá)到了希望的聚類的簇的數(shù)目,或者達(dá)到了簇間相似度或距離的某個(gè)閾值。
圖書封面
評(píng)論、評(píng)分、閱讀與下載