出版時(shí)間:2010-12 出版社:浙江工商大學(xué)出版社 作者:劉君強(qiáng) 頁(yè)數(shù):176
Tag標(biāo)簽:無(wú)
內(nèi)容概要
隨著信息技術(shù)特別是網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們收集、存貯、傳輸數(shù)據(jù)的能力不斷提高。數(shù)據(jù)出現(xiàn)了爆炸性增長(zhǎng),與此形成鮮明對(duì)比的是:對(duì)決策有價(jià)值的知識(shí)卻非常匱乏。知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘技術(shù)正是在這一背景下誕生的一門(mén)新學(xué)科。數(shù)據(jù)挖掘要在實(shí)際應(yīng)用中發(fā)揮作用,高性能挖掘算法和數(shù)據(jù)挖掘軟件平臺(tái)是重要的技術(shù)基礎(chǔ)。本書(shū)以數(shù)據(jù)挖掘最基本問(wèn)題、頻繁模式與關(guān)聯(lián)規(guī)則挖掘?yàn)榍腥朦c(diǎn),研究高時(shí)間效率、高空間可伸縮性的挖掘算法和分布,異質(zhì)、海量數(shù)據(jù)的協(xié)同挖掘軟件模型,并探討了數(shù)據(jù)挖掘過(guò)程中的隱私保護(hù)問(wèn)題?! ”緯?shū)首先發(fā)現(xiàn)了基于樹(shù)表示形式的虛擬投影方法,用于按深度優(yōu)先挖掘密集型數(shù)據(jù)集;提出了稀疏型數(shù)據(jù)集表示形式及非過(guò)濾投影方法;進(jìn)_步提出了基于伺機(jī)投影的思想,設(shè)計(jì)并實(shí)現(xiàn)了基于伺機(jī)投影的全新算法OpportuneProject,對(duì)比實(shí)驗(yàn)表明,該算法挖掘各種規(guī)模與特性數(shù)據(jù)庫(kù)的效率與可伸縮性都是最佳的?! ∮捎谄鋬?nèi)在的計(jì)算復(fù)雜性,挖掘密集型數(shù)據(jù)的頻繁模式完全集非常困難,解決辦法是挖掘頻繁模式的閉合集或最大集。本書(shū)提出了一種組織閉合模式集的復(fù)合型頻繁模式樹(shù),支持搜索空間的高效剪裁,有效地平衡了樹(shù)生成與樹(shù)剪裁的代價(jià),實(shí)現(xiàn)了閉合模式集挖掘算法CROP,其效率與可伸縮性大大優(yōu)于CHARM等算法。在此基礎(chǔ)上,本書(shū)提出了閉合性剪裁和一般性剪裁相結(jié)合,并能適時(shí)前窺的最大模式挖掘算法MOP,大大優(yōu)于MaxMiner和MAFIA等算法?! ”緯?shū)進(jìn)一步提出了逆字典樹(shù)剪裁、層次標(biāo)記等新技術(shù),以及根據(jù)信息熵自動(dòng)生成與人機(jī)交互相結(jié)合來(lái)確定數(shù)值型與類(lèi)別型屬性概念層次的新方法,不僅支持逐層挖掘,而且能進(jìn)行跨層挖掘,并實(shí)現(xiàn)了多支持率剪裁,將所提出的挖掘頻繁模式完全集、閉合集的新算法推廣到無(wú)冗余關(guān)聯(lián)規(guī)則、多維多層多數(shù)據(jù)類(lèi)型關(guān)聯(lián)規(guī)則、多支持率分類(lèi)規(guī)則的挖掘問(wèn)題?! ”緯?shū)在所取得的數(shù)據(jù)挖掘算法研究成果基礎(chǔ)上,對(duì)數(shù)據(jù)挖掘軟件模型作了深入研究。首先提出了數(shù)據(jù)挖掘作業(yè)描述語(yǔ)言MDL和挖掘任務(wù)模型腳本語(yǔ)言,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)集成數(shù)據(jù)倉(cāng)庫(kù)管理功能、挖掘引擎具有一定智能、體系結(jié)構(gòu)可擴(kuò)展的數(shù)據(jù)挖掘工具。 本書(shū)在研究分布式問(wèn)題求解技術(shù)和分析移動(dòng)型智能代理技術(shù)的基礎(chǔ)上,提出了從網(wǎng)絡(luò)海量數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的協(xié)同挖掘模型。首先定義了黑板和知識(shí)源的描述語(yǔ)言以及知識(shí)交換格式,設(shè)計(jì)和實(shí)現(xiàn)了支持互聯(lián)網(wǎng)上分布式問(wèn)題求解的黑板系統(tǒng),提出了分布式網(wǎng)絡(luò)海量數(shù)據(jù)挖掘系統(tǒng)DistributedMiner。接著在分析移動(dòng)式智能代理技術(shù)的基礎(chǔ)上,設(shè)計(jì)了一種移動(dòng)式智能代理服務(wù)器,通過(guò)重構(gòu)基礎(chǔ)結(jié)構(gòu),提出了移動(dòng)式網(wǎng)絡(luò)海量數(shù)據(jù)挖掘系統(tǒng)模型MobileMiner。 最后,本書(shū)研究了挖掘事務(wù)型數(shù)據(jù)過(guò)程中的隱私保護(hù)問(wèn)題。由于事務(wù)型數(shù)據(jù)的極度稀疏性,任何單一技術(shù)難以有效發(fā)揮作用,或是導(dǎo)致過(guò)高的信息損失,或是處理結(jié)果難以解釋?zhuān)蚴羌夹g(shù)自身性能有缺陷。本書(shū)提出了集成概化技術(shù)與消隱技術(shù)來(lái)降低信息損失。然而,從技術(shù)上講,集成并非易事。本書(shū)提出了一種新穎的方法來(lái)解決效率與可伸縮性的問(wèn)題。采用此方法處理過(guò)的數(shù)據(jù)能夠應(yīng)用標(biāo)準(zhǔn)的數(shù)據(jù)挖掘工具進(jìn)行分析。
作者簡(jiǎn)介
劉君強(qiáng),男,教授,浙江省杭州市人。畢業(yè)于加拿大Simon Fraser大學(xué)獲哲學(xué)博士學(xué)位,浙江大學(xué)獲工學(xué)博士學(xué)位和管理學(xué)碩士學(xué)位,北京大學(xué)獲理學(xué)學(xué)士學(xué)位。以第一作者在ACM SIGKDD、IEEE ICDE、IEEE ICDM、PAKDD、《電子學(xué)報(bào)》、《計(jì)算機(jī)學(xué)報(bào)》、《軟件學(xué)報(bào)》、《計(jì)算機(jī)研究與發(fā)展》、《中國(guó)圖形圖象學(xué)報(bào)》、《系統(tǒng)工程理論與實(shí)踐》等發(fā)表多篇論文,承擔(dān)省部級(jí)研究課題多項(xiàng)。研究興趣涉及數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息安全、隱私保護(hù)、管理信息系統(tǒng)、軟件工程。
書(shū)籍目錄
前言摘要ABSTRACT第一章 概論第一節(jié) 數(shù)據(jù)挖掘技術(shù)的興起第二節(jié) 數(shù)據(jù)挖掘的主要問(wèn)題一、數(shù)據(jù)挖掘任務(wù)與知識(shí)類(lèi)型二、數(shù)據(jù)挖掘的過(guò)程三、數(shù)據(jù)挖掘的對(duì)象四、數(shù)據(jù)挖掘的應(yīng)用五、數(shù)據(jù)挖掘面臨的挑戰(zhàn)第三節(jié) 本書(shū)的工作第四節(jié) 本書(shū)的結(jié)構(gòu)第二章 數(shù)據(jù)挖掘技術(shù)綜述第一節(jié) 頻繁模式與關(guān)聯(lián)規(guī)則挖掘一、單層單維布爾型關(guān)聯(lián)規(guī)則挖掘與Apriori算法二、對(duì)Apriori算法的改進(jìn)三、頻繁模式與關(guān)聯(lián)規(guī)則挖掘研究的新發(fā)展第二節(jié) 閉合模式挖掘與A-Close算法一、閉合模式挖掘與A-Close算法二、其他閉合模式挖掘算法第三節(jié) 最大模式挖掘與Pincer-Search算法一、最大模式挖掘與Pincer-Search算法二、其他最大模式挖掘算法第四節(jié) 多層多維關(guān)聯(lián)規(guī)則挖掘一、多層關(guān)聯(lián)規(guī)則挖掘問(wèn)題二、多維關(guān)聯(lián)規(guī)則挖掘問(wèn)題第五節(jié) 對(duì)關(guān)聯(lián)規(guī)則挖掘的其他擴(kuò)展一、順序模式挖掘二、基于約束的關(guān)聯(lián)規(guī)則挖掘三、并行挖掘問(wèn)題四、復(fù)雜檢索問(wèn)題五、關(guān)聯(lián)規(guī)則與相關(guān)性六、其他問(wèn)題第六節(jié) 數(shù)據(jù)挖掘軟件系統(tǒng)第七節(jié) 保護(hù)隱私的數(shù)據(jù)挖掘技術(shù)一、全局概化技術(shù)二、全消隱技術(shù)三、局部概化技術(shù)四、帶寬矩陣方法五、其他相關(guān)工作第八節(jié) 數(shù)據(jù)挖掘技術(shù)的應(yīng)用一、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域二、企業(yè)營(yíng)銷(xiāo)應(yīng)用數(shù)據(jù)挖掘技術(shù)第三章 伺機(jī)投影策略的挖掘算法第一節(jié) 引言第二節(jié) 問(wèn)題的描述第三節(jié) 頻繁模式樹(shù)的構(gòu)造第四節(jié) 模式支持集的表示與投影一、稀疏型PTS的基于數(shù)組表示及其投影二、密集型PTS的基于樹(shù)表示及虛擬投影第五節(jié) 伺機(jī)投影策略與OpponuneProject算法一、伺機(jī)投影的啟發(fā)式原則二、估計(jì)TVLA和TTF的大小三、OpponuneProject算法第六節(jié) 性能評(píng)價(jià)一、數(shù)據(jù)集及其特性二、基本實(shí)驗(yàn)結(jié)果三、可伸縮性試驗(yàn)第七節(jié) 小結(jié)第四章 閉合模式與最大模式挖掘第一節(jié) 引言第二節(jié) 問(wèn)題的描述第三節(jié) 復(fù)合型頻繁模式樹(shù)及其生成一、復(fù)合型頻繁模式樹(shù)CFIST二、CFIST結(jié)點(diǎn)的合并三、CFIST的生成算法第四節(jié) CFIST的剪裁與包含關(guān)系的檢查一、高效的CFIST局部剪裁二、分枝包容關(guān)系的快速檢查三、快速雜湊法第五節(jié) CROP:挖掘閉合模式的高性能算法一、平衡CFIST生成與剪裁效率二、CROP算法第六節(jié) CROP性能測(cè)評(píng)一、CROP與CHARM效率對(duì)比二、CROP與CLOSET效率對(duì)比三、CROP與MAFIA效率對(duì)比四、可伸縮性實(shí)驗(yàn)第七節(jié) 挖掘最大頻繁模式的新算法MOP一、最大頻繁模式集及其剪裁二、MOP算法三、MOP的性能評(píng)價(jià)第八節(jié) 小結(jié)第五章 多維多層關(guān)聯(lián)規(guī)則、分類(lèi)規(guī)則與空間關(guān)聯(lián)規(guī)則第一節(jié) 關(guān)聯(lián)規(guī)則與無(wú)冗余關(guān)聯(lián)規(guī)則第二節(jié) 多層頻繁模式挖掘一、問(wèn)題的描述二、逆字典樹(shù)與多層頻繁模式三、層次標(biāo)記技術(shù)與模式支持集四、高性能多層頻繁模式挖掘算法五、性能測(cè)評(píng)第三節(jié) 多維多層多數(shù)據(jù)類(lèi)型關(guān)聯(lián)規(guī)則挖掘一、多維多層多數(shù)據(jù)類(lèi)型關(guān)聯(lián)規(guī)則挖掘問(wèn)題二、MDML-PP算法三、性能測(cè)評(píng)第四節(jié) 挖掘多支持率分類(lèi)規(guī)則一、分類(lèi)規(guī)則挖掘與TTF擴(kuò)展二、多支持率剪裁三、分類(lèi)規(guī)則及其單階段挖掘算法四、對(duì)比實(shí)驗(yàn)第五節(jié) 空間關(guān)聯(lián)規(guī)則的挖掘一、空間關(guān)聯(lián)規(guī)則二、兩階段挖掘策略三、基于輔存分而治之的方法第六節(jié) 提高挖掘算法可伸縮性的技術(shù)一、海量數(shù)據(jù)挖掘策略二、緩沖管理技術(shù)三、挖掘算法改進(jìn)及其性能分析第七節(jié) 小結(jié)第六章 智能型數(shù)據(jù)挖掘工具設(shè)計(jì)與實(shí)現(xiàn)第一節(jié) 引言第二節(jié) 數(shù)據(jù)倉(cāng)庫(kù)及其管理一、數(shù)據(jù)倉(cāng)庫(kù)模型與OLAP二、數(shù)據(jù)倉(cāng)庫(kù)的框架描述三、數(shù)據(jù)倉(cāng)庫(kù)管理器第三節(jié) 數(shù)據(jù)挖掘任務(wù)的描述、管理及執(zhí)行機(jī)制一、數(shù)據(jù)挖掘作業(yè)Job的描述二、挖掘任務(wù)模型Scenario的定義三、挖掘任務(wù)模型的管理與執(zhí)行第四節(jié) 智能型數(shù)據(jù)挖掘引擎一、算法描述庫(kù)與算法模塊二、知識(shí)庫(kù)與引擎管理器第五節(jié) SmartMiner體系結(jié)構(gòu)第六節(jié) 關(guān)鍵技術(shù)與SmartMiner原型實(shí)現(xiàn)第七節(jié) 小結(jié)第七章 網(wǎng)絡(luò)海量數(shù)據(jù)協(xié)同挖掘第一節(jié) 引言第二節(jié) 分布式黑板控制一、問(wèn)題求解的黑板系統(tǒng)二、分布式問(wèn)題求解與黑板控制第三節(jié) 形式化描述語(yǔ)言一、黑板的描述二、知識(shí)源的描述三、知識(shí)交換格式第四節(jié) 實(shí)現(xiàn)分布式黑板控制的一般智能代理一、智能代理GA的結(jié)構(gòu)設(shè)計(jì)二、智能代理軟件DBC-MA的實(shí)現(xiàn)第五節(jié) 分布式數(shù)據(jù)挖掘系統(tǒng)DistributedMiner一、分布式知識(shí)發(fā)現(xiàn)功能二、DistributedMiner的黑板設(shè)計(jì)三、挖掘平臺(tái)體系結(jié)構(gòu)四、DistributedMiner的實(shí)現(xiàn)與應(yīng)用第六節(jié) 從分布計(jì)算到移動(dòng)計(jì)算一、什么是智能代理二、智能代理的特征三、移動(dòng)型智能代理四、典型mobile agent系統(tǒng)第七節(jié) 移動(dòng)式數(shù)據(jù)挖掘系統(tǒng)模型一、移動(dòng)型智能代理服務(wù)器二、DBC-MA變型三、MobileMiner工作流程第八節(jié) 小結(jié)第八章 挖掘事務(wù)型數(shù)據(jù)過(guò)程中的隱私保護(hù)第一節(jié) 引言第二節(jié) 隱私保護(hù)與匿名化模型第三節(jié) 集成概化與消隱技術(shù)的基本方法一、割集柵格的自頂向下貪婪法搜索二、為割集尋找一個(gè)好的消隱方案三、算法描述第四節(jié) 解決效率與可伸縮性瓶頸的關(guān)鍵技術(shù)一、最小隱私威脅二、多輪次求解策略第五節(jié) 信息損失與性能的實(shí)驗(yàn)評(píng)估一、信息損失評(píng)估二、效率評(píng)估三、可伸縮性評(píng)估第六節(jié) 小結(jié)參考文獻(xiàn)后記
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
海量數(shù)據(jù)挖掘技術(shù)研究 PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版