出版時(shí)間:2013-1 出版社:清華大學(xué)出版社 作者:坎塔爾季奇 譯者:王曉海,吳志剛
Tag標(biāo)簽:無(wú)
內(nèi)容概要
隨著數(shù)據(jù)集規(guī)模和復(fù)雜度的持續(xù)上升,分析員必須利用更高級(jí)的軟件工具來(lái)執(zhí)行間接的、自動(dòng)的智能化數(shù)據(jù)分析?!稊?shù)據(jù)挖掘:概念、模型、方法和算法(第2版)》介紹了通過(guò)分析高維數(shù)據(jù)空間中的海量原始數(shù)據(jù)來(lái)提取用于決策的新信息的尖端技術(shù)和方法。
本書(shū)開(kāi)篇闡述數(shù)據(jù)挖掘原理,此后在示例的引導(dǎo)下詳細(xì)講解起源于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模糊邏輯和演化計(jì)算等學(xué)科的具有代表性的、最前沿的挖掘方法和算法。本書(shū)還著重描述如何恰當(dāng)?shù)剡x擇方法和數(shù)據(jù)分析軟件并合理地調(diào)整參數(shù)。每章末尾附有復(fù)習(xí)題。
本書(shū)主要用作計(jì)算機(jī)科學(xué)、計(jì)算機(jī)工程和計(jì)算機(jī)信息系統(tǒng)專(zhuān)業(yè)的研究生數(shù)據(jù)挖掘教材,高年級(jí)本科生或具備同等教育背景的讀者也完全可以理解本書(shū)的所有主題。
◆ 介紹支持向量機(jī)(SVM)和Kohonen映射
◆ 講解DBSCAN、BIRCH和分布式DBSCAN聚類(lèi)算法
◆ 介紹貝葉斯網(wǎng)絡(luò),討論圖形中的Betweeness和Centrality參數(shù)測(cè)量算法
◆ 分析在建立決策樹(shù)時(shí)使用的CART算法和基尼指數(shù)
◆ 介紹Bagging & Boosting集成學(xué)習(xí)方法,并詳述AdaBoost算法
◆ 討論Relief以及PageRank算法
◆ 討論文本挖掘的潛在語(yǔ)義分析(LSA),并分析如何測(cè)定文本文檔之間的語(yǔ)義相似性
◆ 講解時(shí)態(tài)、空間、Web、文本、并行和分布式數(shù)據(jù)挖掘等新主題
◆ 更詳細(xì)地講解數(shù)據(jù)挖掘技術(shù)商業(yè)、隱私、安全和法律方面的內(nèi)容
作者簡(jiǎn)介
作者:(美)坎塔爾季奇(Mehmed Kantardzic) 譯者:王曉海 吳志剛 王曉海,曾任總參某部應(yīng)用研發(fā)中心副主任、信息服務(wù)中心主任,高級(jí)工程師,長(zhǎng)期從事數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)的科研開(kāi)發(fā)工作,負(fù)責(zé)主持多個(gè)大型數(shù)據(jù)庫(kù)系統(tǒng)的開(kāi)發(fā)和維護(hù),榮獲多項(xiàng)軍隊(duì)科技進(jìn)步獎(jiǎng),享受軍隊(duì)優(yōu)秀人才崗位津貼,出版多部論(譯)著,在數(shù)據(jù)庫(kù)挖掘、數(shù)據(jù)庫(kù)應(yīng)用開(kāi)發(fā)、數(shù)據(jù)安全保護(hù)、數(shù)據(jù)恢復(fù)與數(shù)據(jù)去密等領(lǐng)域具有豐富的實(shí)踐經(jīng)驗(yàn)。已出版的論著和譯著:((Oracle Streams 11g數(shù)據(jù)復(fù)制》,2012年,清華大學(xué)出版社\《SQL Server 2000管理、開(kāi)發(fā)及應(yīng)用實(shí)例詳解》,2006年,人民郵電出版社、《空時(shí)編碼技術(shù)》,2004年,機(jī)械工業(yè)出版社、《遠(yuǎn)程通信網(wǎng)絡(luò)基礎(chǔ)》,1996年,電子工業(yè)出版社。 吳志剛,工學(xué)博士,北京郵電大學(xué)副教授,長(zhǎng)期從事網(wǎng)絡(luò)與信息安全技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等領(lǐng)域的學(xué)術(shù)與科研工作,作為負(fù)責(zé)人主持過(guò)上述領(lǐng)域多項(xiàng)國(guó)家863計(jì)劃、發(fā)改委產(chǎn)業(yè)化示范項(xiàng)目和國(guó)家級(jí)重大工程項(xiàng)目,獲得技術(shù)專(zhuān)利2項(xiàng),已在國(guó)內(nèi)外學(xué)術(shù)期刊和國(guó)際會(huì)議上發(fā)表20余篇學(xué)術(shù)論文。
書(shū)籍目錄
第1章數(shù)據(jù)挖掘的概念 1.1概述 1.2數(shù)據(jù)挖掘的起源 1.3數(shù)據(jù)挖掘過(guò)程 1.4大型數(shù)據(jù)集 1.5數(shù)據(jù)倉(cāng)庫(kù) 1.6數(shù)據(jù)挖掘的商業(yè)方面:為什么數(shù)據(jù)挖掘項(xiàng)目會(huì)失敗 1.7本書(shū)結(jié)構(gòu)安排 1.8復(fù)習(xí)題 1.9參考書(shū)目 第2章數(shù)據(jù)準(zhǔn)備 2.1原始數(shù)據(jù)的表述 2.2原始數(shù)據(jù)的特性 2.3原始數(shù)據(jù)的轉(zhuǎn)換 2.3.1標(biāo)準(zhǔn)化 2.3.2數(shù)據(jù)平整 2.3.3 差值和比率 2.4丟失數(shù)據(jù) 2.5時(shí)間相關(guān)數(shù)據(jù) 2.6異常點(diǎn)分析 2.7復(fù)習(xí)題 2.8參考書(shū)目 第3章數(shù)據(jù)歸約 3.1大型數(shù)據(jù)集的維度 3.2特征歸約 3.2.1特征選擇 3.2.2特征提取 3.3 Relief算法 3.4特征排列的熵度量 3.5主成分分析 3.6值歸約 3.7特征離散化: ChiMerge技術(shù) 3.8案例歸約 3.9復(fù)習(xí)題 3.10參考書(shū)目 第4章從數(shù)據(jù)中學(xué)習(xí) 4.1 學(xué)習(xí)機(jī)器 4.2統(tǒng)計(jì)學(xué)習(xí)原理 4.3學(xué)習(xí)方法的類(lèi)型 4.4常見(jiàn)的學(xué)習(xí)任務(wù) 4.5支持向量機(jī) 4.6 KNN:最近鄰分類(lèi)器 4.7模型選擇與泛化 4.8模型的評(píng)估 4.9 90%準(zhǔn)確的情形 4.9.1保險(xiǎn)欺詐檢測(cè) 4.9.2改進(jìn)心臟護(hù)理 4.10復(fù)習(xí)題 4.11參考書(shū)目 第5章統(tǒng)計(jì)方法 5.1統(tǒng)計(jì)推斷 5.2評(píng)測(cè)數(shù)據(jù)集的差異 5.3貝葉斯定理 5.4預(yù)測(cè)回歸 5.5方差分析 5.6對(duì)數(shù)回歸 5.7對(duì)數(shù)—線(xiàn)性模型 5.8線(xiàn)性判別分析 5.9復(fù)習(xí)題 5.10參考書(shū)目 第6章決策樹(shù)和決策規(guī)則 6.1決策樹(shù) 6.2 C4.5算法:生成決策樹(shù) 6.3未知屬性值 6.4修剪決策樹(shù) 6.5 C4.5算法:生成決策規(guī)則 6.6 CART算法和Gini指標(biāo) 6.7決策樹(shù)和決策規(guī)則的局限性 6.8復(fù)習(xí)題 6.9參考書(shū)目 第7章人工神經(jīng)網(wǎng)絡(luò) 7.1人工神經(jīng)元的模型 7.2人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 7.3 學(xué)習(xí)過(guò)程 7.4使用ANN完成的學(xué)習(xí)任務(wù) 7.4.1模式聯(lián)想 7.4.2模式識(shí)別 7.5多層感知機(jī) 7.6競(jìng)爭(zhēng)網(wǎng)絡(luò)和競(jìng)爭(zhēng)學(xué)習(xí) 7.7 SOM 7.8復(fù)習(xí)題 7.9參考書(shū)目 第8章集成學(xué)習(xí) 8.1集成學(xué)習(xí)方法論 8.2多學(xué)習(xí)器組合方案 8.3 baggin9和boostin9 8.4 AdaBoost算法 8.5復(fù)習(xí)題 8.6參考書(shū)目 第9章聚類(lèi)分析 9.1聚類(lèi)的概念 9.2相似度的度量 9.3凝聚層次聚類(lèi) 9.4分區(qū)聚類(lèi) 9.5增量聚類(lèi) 9.6 DBSCAN算法 9.7 BIRCH算法 9.8聚類(lèi)驗(yàn)證 9.9復(fù)習(xí)題 9.10參考書(shū)目 第10章關(guān)聯(lián)規(guī)則 10.1購(gòu)物籃分析 10.2 Apfiofi算法 10.3從頻繁項(xiàng)集中得到關(guān)聯(lián)規(guī)則 1 0.4提高Apfiofi算法的效率 10.5 FP增長(zhǎng)方法 10.6關(guān)聯(lián)分類(lèi)方法 10.7多維關(guān)聯(lián)規(guī)則挖掘 10.8復(fù)習(xí)題 10.9參考書(shū)目 第11章Web挖掘和文本挖掘 11.1 Web挖掘 11.2 Web內(nèi)容、結(jié)構(gòu)與使用挖掘 11.3 HITS和LOGSOM算法 11.4挖掘路徑遍歷模式 11.5 PageRank算法 11.6文本挖掘 11.7潛在語(yǔ)義分析 11.8復(fù)習(xí)題 11.9參考書(shū)目 第12章數(shù)據(jù)挖掘高級(jí)技術(shù) 12.1 圖挖掘 12.2時(shí)態(tài)數(shù)據(jù)挖掘 12.2.1時(shí)態(tài)數(shù)據(jù)表示 12.2.2序列之間的相似性度量 12.2.3時(shí)態(tài)數(shù)據(jù)模型 12.2.4數(shù)據(jù)挖掘 12.3空間數(shù)據(jù)挖掘(SDM) 12.4分布式數(shù)據(jù)挖掘(DDM) 12.5關(guān)聯(lián)并不意味著存在因果關(guān)系 12.6數(shù)據(jù)挖掘的隱私、安全及法律問(wèn)題 12.7復(fù)習(xí)題 12.8參考書(shū)目 第13章遺傳算法 13.1遺傳算法的基本原理 13.2用遺傳算法進(jìn)行優(yōu)化 13.2.1編碼方案和初始化 13.2.2適合度估計(jì) 13.2.3選擇 13.2.4交叉 13.2.5突變 13.3遺傳算法的簡(jiǎn)單例證 13.3.1表述 13.3.2初始群體 13.3.3評(píng)價(jià) 13.3.4交替 13.3.5遺傳算子 13.3.6評(píng)價(jià)(第二次迭代) 13.4圖式 13.5旅行推銷(xiāo)員問(wèn)題 13.6使用遺傳算法的機(jī)器學(xué)習(xí) 13.6.1規(guī)則交換 13.6.2規(guī)則概化 13.6.3規(guī)則特化 13.6.4規(guī)則分割 13.7遺傳算法用于聚類(lèi) 13.8復(fù)習(xí)題 13.9參考書(shū)目 第14章模糊集和模糊邏輯 14.1 模糊集 14.2模糊集的運(yùn)算 14.3擴(kuò)展原理和模糊關(guān)系 14.4模糊邏輯和模糊推理系統(tǒng) 14.5多因子評(píng)價(jià) 14.6從數(shù)據(jù)中提取模糊模型 14.7數(shù)據(jù)挖掘和模糊集 14.8 復(fù)習(xí)題 14.9參考書(shū)目 第15章可視化方法 15.1感知和可視化 15.2科學(xué)可視化和信息可視化 15.3平行坐標(biāo) 15.4放射性可視化 15.5使用自組織映射進(jìn)行可視化 15.6數(shù)據(jù)挖掘的可視化系統(tǒng) 15.7復(fù)習(xí)題 15.8參考書(shū)目 附錄A數(shù)據(jù)挖掘工具 附錄B數(shù)據(jù)挖掘應(yīng)用
章節(jié)摘錄
版權(quán)頁(yè): 插圖: 1 2.4分布式數(shù)據(jù)挖掘(DDM) 海量數(shù)據(jù)的涌現(xiàn)使得利用分布式系統(tǒng)對(duì)海量數(shù)據(jù)開(kāi)展跨地理區(qū)域的分析的需求不斷增長(zhǎng)。為海量數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn),以及潛在的科學(xué)與商業(yè)理解帶來(lái)了史無(wú)前例的發(fā)展機(jī)會(huì)。在高性能分布式計(jì)算平臺(tái)上(而不是集中式計(jì)算模型上)實(shí)現(xiàn)數(shù)據(jù)挖掘,其驅(qū)動(dòng)力來(lái)自于技術(shù)和組織兩個(gè)因素。某些情況下,集中處理方式難以實(shí)現(xiàn),因?yàn)樾枰L(zhǎng)距離傳輸將大量的T級(jí)數(shù)據(jù)。另外,集中方法違背了隱私規(guī)則,暴露了商業(yè)秘密,并帶來(lái)其他一些社會(huì)問(wèn)題。這些問(wèn)題的典型實(shí)例常見(jiàn)于醫(yī)療行業(yè),其相關(guān)數(shù)據(jù)往往存在于多個(gè)組織商業(yè)機(jī)構(gòu)中,例如制藥公司、醫(yī)院、政府實(shí)體(如美國(guó)食品和藥物管理局)和非政府組織(如慈善和公共健康組織)。每個(gè)組織都具有法律限制,例如隱私法規(guī),有關(guān)專(zhuān)利信息的公司需求會(huì)給競(jìng)爭(zhēng)對(duì)手帶來(lái)巨大的商業(yè)利益。因此既需要開(kāi)發(fā)算法、工具、服務(wù)和基礎(chǔ)結(jié)構(gòu)用于實(shí)現(xiàn)分布式跨組織的數(shù)據(jù)挖掘,同時(shí)也需要考慮隱私保護(hù)問(wèn)題。 這樣一種朝著分布式、復(fù)雜環(huán)境發(fā)展的變化擴(kuò)大了數(shù)據(jù)挖掘挑戰(zhàn)的范圍。分布式數(shù)據(jù)所帶來(lái)的新問(wèn)題明顯增加了數(shù)據(jù)挖掘過(guò)程的復(fù)雜性。通過(guò)有線(xiàn)和無(wú)線(xiàn)網(wǎng)絡(luò),許多分布式計(jì)算環(huán)境,在計(jì)算和通信方面獲得了進(jìn)展。這樣的處理環(huán)境多數(shù)都涉及包含大量數(shù)據(jù)的分布式數(shù)據(jù)源、多個(gè)計(jì)算節(jié)點(diǎn)和分布式用戶(hù)社區(qū)。對(duì)這些分布式數(shù)據(jù)源進(jìn)行監(jiān)視和分析需要新的用于分布式應(yīng)用的數(shù)據(jù)挖掘技術(shù)。DDM領(lǐng)域處理這些問(wèn)題——通過(guò)細(xì)致分析分布式源挖掘分布式數(shù)據(jù)源。除數(shù)據(jù)分布外,網(wǎng)絡(luò)的發(fā)展產(chǎn)生了大量復(fù)雜數(shù)據(jù),包括自然語(yǔ)言文本、圖像、時(shí)間序列、傳感器數(shù)據(jù)、多關(guān)系及對(duì)象數(shù)據(jù)類(lèi)型。更復(fù)雜的是,包含分布式流數(shù)據(jù)的系統(tǒng)需要增量或在線(xiàn)挖掘工具,無(wú)論何時(shí)當(dāng)?shù)讓訑?shù)據(jù)發(fā)生變化時(shí),需要完整地處理過(guò)程。由于系統(tǒng)變化頻繁,應(yīng)用于如此復(fù)雜環(huán)境的數(shù)據(jù)挖掘技術(shù)必須適應(yīng)巨大的動(dòng)態(tài)變化,否則將會(huì)對(duì)系統(tǒng)的性能帶來(lái)不良影響。對(duì)所有這些特性提供支持的DDM系統(tǒng)需要有創(chuàng)新的解決方案。 Web架構(gòu)(包含分層協(xié)議和服務(wù))提供了合理的框架用于支持DDM。新框架接受“融合通信和計(jì)算”的新趨勢(shì)。DDM接受數(shù)據(jù)可能自然地分布于不同的松耦合節(jié)點(diǎn)上的事實(shí),這些分布的數(shù)據(jù)往往是通過(guò)網(wǎng)絡(luò)連接起來(lái)的異構(gòu)數(shù)據(jù)。DDM提供用于通過(guò)分布式數(shù)據(jù)分析和使用最小數(shù)據(jù)通信建模發(fā)現(xiàn)新知識(shí)的技術(shù)。同時(shí),分布式系統(tǒng)交互需要以可靠、穩(wěn)定、可擴(kuò)展的方式實(shí)現(xiàn)。最后,系統(tǒng)必須向用戶(hù)隱藏技術(shù)方面的復(fù)雜性。 目前,能夠通過(guò)e—services處理的商品不僅僅局限于類(lèi)似電器、家具、機(jī)票等實(shí)體。Intcmet及WWW的發(fā)展包含了軟件、計(jì)算能力或有用的數(shù)據(jù)集這類(lèi)資源。這些新資源能夠通過(guò)網(wǎng)絡(luò)以服務(wù)的形式售賣(mài)或租賃給網(wǎng)絡(luò)用戶(hù)。直觀(guān)上看,數(shù)據(jù)挖掘適于作為一種e—service發(fā)布,因?yàn)樵摲椒p少了高昂的用于支持該方法的基礎(chǔ)架構(gòu)的設(shè)置和維護(hù)開(kāi)銷(xiāo)。
編輯推薦
《國(guó)外計(jì)算機(jī)科學(xué)經(jīng)典教材:數(shù)據(jù)挖掘:概念、模型、方法和算法(第2版)》主要用作計(jì)算機(jī)科學(xué)、計(jì)算機(jī)工程和計(jì)算機(jī)信息系統(tǒng)專(zhuān)業(yè)的研究生數(shù)據(jù)挖掘教材,高年級(jí)本科生或具備同等教育背景的讀者也完全可以理解《國(guó)外計(jì)算機(jī)科學(xué)經(jīng)典教材:數(shù)據(jù)挖掘:概念、模型、方法和算法(第2版)》的所有主題。
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版