出版時(shí)間:2011-1 出版社:清華大學(xué) 作者:鄭巖 頁(yè)數(shù):300
Tag標(biāo)簽:無(wú)
前言
數(shù)據(jù)倉(cāng)庫(kù)是將大量傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行抽取、清洗和轉(zhuǎn)換,并按主題進(jìn)行重新組織,可比喻為隨時(shí)間推移不斷豐富的“寶藏”;而數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用信息,挖掘的知識(shí)表示形式為概念、規(guī)則、規(guī)律和模式等,可比喻為“淘寶”。隨著Internet的迅速普及和廣泛應(yīng)用,每天都產(chǎn)生大量各種各樣的信息,但它們背后到底穩(wěn)藏著什么,這驅(qū)使人類不斷探索。工欲善其事必先利其器。在當(dāng)今信息爆炸的時(shí)代,數(shù)據(jù)挖掘堪比“利器”,讓我們面對(duì)海量數(shù)據(jù)時(shí)不再感到茫然和不知所措。隨著數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展和應(yīng)用,數(shù)據(jù)挖掘?qū)⒄宫F(xiàn)無(wú)限的生機(jī)和活力,可以輔助、部分代替甚至拓展人的智能和決策,造福人類。數(shù)據(jù)經(jīng)整合匯總為信息,信息經(jīng)挖掘抽象為知識(shí),知識(shí)是智能的基石。因此,信息化到知識(shí)化再到智能化將是人類社會(huì)發(fā)展的必然趨勢(shì)。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘正逐步滲透和深人到社會(huì)的各個(gè)領(lǐng)域,并不斷催生新的應(yīng)用。本書主要介紹數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的理論、方法、技術(shù)及其應(yīng)用。此外,用較多篇幅闡述數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘新的應(yīng)用實(shí)例。全書分為三篇。第一篇介紹數(shù)據(jù)倉(cāng)庫(kù)的起源和演變過(guò)程,闡述數(shù)據(jù)倉(cāng)庫(kù)的定義、體系結(jié)構(gòu)、組成、元數(shù)據(jù)、數(shù)據(jù)粒度和數(shù)據(jù)模型以及ETL過(guò)程,論述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)和實(shí)現(xiàn)的方法,并結(jié)合具體應(yīng)用詳細(xì)闡述了如何構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)及其主要應(yīng)用,包括OLAP和0LAM等。第二篇介紹數(shù)據(jù)挖掘的起源和發(fā)展趨勢(shì),以及數(shù)據(jù)挖掘與web挖掘的技術(shù)和方法,包括聚類分析、分類、預(yù)測(cè)和關(guān)聯(lián)分析等,詳細(xì)分析了數(shù)據(jù)挖掘在電信領(lǐng)域的具體應(yīng)用,如客戶細(xì)分、重入網(wǎng)識(shí)別和WAP日志挖掘等。第三篇討論數(shù)據(jù)、信息和知識(shí)的關(guān)系,論述知識(shí)表示的主要方法和知識(shí)管理的核心技術(shù),介紹當(dāng)前研究熱點(diǎn)——語(yǔ)義網(wǎng)和本體的核心技術(shù)和方法,分析了語(yǔ)義網(wǎng)和本體的主要應(yīng)用。
內(nèi)容概要
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用》從專業(yè)角度全面介紹了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的理論、方法、技術(shù)及其應(yīng)用,系統(tǒng)地闡述了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的產(chǎn)生、發(fā)展和應(yīng)用及其主要概念、原理和算法,并結(jié)合當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘中一些新的應(yīng)用實(shí)例進(jìn)一步加以說(shuō)明,力求學(xué)以致用?! ∪珪譃槿5谝黄榻B數(shù)據(jù)倉(cāng)庫(kù)的起源和演變過(guò)程,闡述數(shù)據(jù)倉(cāng)庫(kù)的定義、體系結(jié)構(gòu)、組成、元數(shù)據(jù)、數(shù)據(jù)粒度和數(shù)據(jù)模型以及ETL過(guò)程,論述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)和實(shí)現(xiàn)的方法。結(jié)合具體應(yīng)用詳細(xì)闡述了如何構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)及其主要應(yīng)用,包括OLAP和OLAM等。第二篇介紹數(shù)據(jù)挖掘的起源和發(fā)展趨勢(shì),以及數(shù)據(jù)挖掘與web挖掘的技術(shù)和方法,包括聚類、分類、預(yù)測(cè)和關(guān)聯(lián)分析等,詳細(xì)分析了數(shù)據(jù)挖掘在電信領(lǐng)域的具體應(yīng)用,如客戶細(xì)分、重入網(wǎng)識(shí)別和WAP日志挖掘等。第三篇討論數(shù)據(jù)、信息和知識(shí)的關(guān)系,論述知識(shí)表示的主要方法和知識(shí)管理的核心技術(shù),介紹當(dāng)前研究熱點(diǎn)——語(yǔ)義網(wǎng)和本體的核心技術(shù)和方法,分析了語(yǔ)義網(wǎng)和本體的主要應(yīng)用。 《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用》可作為計(jì)算機(jī)專業(yè)研究生或高年級(jí)本科生教材,也可以作為計(jì)算機(jī)研究和開發(fā)人員以及相關(guān)專業(yè)人士的參考資料。
書籍目錄
第1章 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)1.1 引言1.1.1 演變過(guò)程1.1.2 定義1.2 體系結(jié)構(gòu)1.2.1 兩層的體系結(jié)構(gòu)1.2.2 三層的體系結(jié)構(gòu)1.3 組成1.4 元數(shù)據(jù)1.4.1 定義和分類1.4.2 標(biāo)準(zhǔn)化1.4.3 CWM1.4.4 UMI、MOF和XML與CWM的關(guān)系1.5 數(shù)據(jù)粒度1.6 數(shù)據(jù)模型1.7 ETI1.7.1 主要流程1.7.2 數(shù)據(jù)抽取1.7.3 數(shù)據(jù)轉(zhuǎn)換1.7.4 數(shù)據(jù)加載第2章 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)和實(shí)現(xiàn)2.1 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)2.1.1 設(shè)計(jì)方法2.1.2 體系結(jié)構(gòu)設(shè)計(jì)2.1.3 數(shù)據(jù)模型設(shè)計(jì)2.2 ETL設(shè)計(jì)2.3 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)第3章 數(shù)據(jù)倉(cāng)庫(kù)實(shí)例3.1 實(shí)例一3.1.1 選擇主題3.1.2 邏輯模型設(shè)計(jì)3.1.3 物理模型設(shè)計(jì)3.1.4 ETL設(shè)計(jì)3.2 實(shí)例二3.2.1 總體結(jié)構(gòu)設(shè)計(jì)3.2.2 概念模型設(shè)計(jì)3.2.3 邏輯模型設(shè)計(jì)3.2.4 物理模型設(shè)計(jì)3.2.5 數(shù)據(jù)清洗設(shè)計(jì)3.2.6 ETL設(shè)計(jì)第4章 OLAP和OLAM4.1 OLAP4.2 OLAM4.2.1 體系結(jié)構(gòu)4.2.2 特點(diǎn)4.2.3 基于Web的OLAM第二篇 數(shù)據(jù)挖掘第5章 數(shù)據(jù)挖掘基礎(chǔ)5.1 概述5.1.1 定義5.1.2 功能5.1.3 模型5.1.4 展望5.2 實(shí)現(xiàn)5.3 工具5.3.1 概述5.3.2 比較第6章 聚類分析6.1 硬聚類6.1.1 算法種類6.1.2 相似度計(jì)算6.1.3 實(shí)現(xiàn)方法6.1.4 主要算法6.2 模糊聚類6.2.1 概述6.2.2 主要算法6.3 評(píng)價(jià)第7章 分類和預(yù)測(cè)7.1 神經(jīng)網(wǎng)絡(luò)7.2 決策樹7.3 實(shí)現(xiàn)過(guò)程第8章 關(guān)聯(lián)分析8.1 概述8.2 Apriori8.3 FP-Growth第9章 Web挖掘9.1 概述9.1.1 定義9.1.2 自然語(yǔ)言理解9.1.3 Web挖掘過(guò)程9.2 Web文檔抽取和表示9.2.1 Web文檔抽取9.2.2 Web文檔表示9.3 特征提取9.4 Web聚類9.5 Web分類9.5.1 樸素貝葉斯9.5.2 其他方法9.5.3 評(píng)價(jià)第10章 數(shù)據(jù)挖掘?qū)嵗?0.1 TOM和TOM10.2 客戶細(xì)分10.2.1 客戶生命周期10.2.2 客戶價(jià)值10.2.3 數(shù)據(jù)準(zhǔn)備10.2.4 分析過(guò)程10.2.5 結(jié)果10.3 重入網(wǎng)識(shí)別10.3.1 定義10.3.2 數(shù)據(jù)準(zhǔn)備10.3.3 分析過(guò)程10.3.4 結(jié)果10..4 WAF日志挖掘10.4.1 定義10.4.2 數(shù)據(jù)準(zhǔn)備10.4.3 分析過(guò)程10.4.4 結(jié)果第三篇 語(yǔ)義網(wǎng)和本體第11章 知識(shí)11.1 概述11.2 知識(shí)分類11.3 知識(shí)表示11.3.1 知識(shí)表不觀11.3.2 知識(shí)表示方法11.4 知識(shí)管理11.4.1 概述11.4.2 知識(shí)管理與信息管理的關(guān)系11.4.3 核心技術(shù)第12章 語(yǔ)義網(wǎng)和本體12.1 語(yǔ)義網(wǎng)12.1.1 概述12.1.2 層次結(jié)構(gòu)12.1.3 元數(shù)據(jù)12.1.4 核心技術(shù)12.1.5 開發(fā)工具Jena12.1.6 Web3.012.2 本體12.2.1 哲學(xué)本源12.2.2 定義12.2.3 建模12.2.4 分類12.2.5 構(gòu)建方法12.2.6 描述語(yǔ)言12.2.7 實(shí)例參考文獻(xiàn)
章節(jié)摘錄
插圖:進(jìn)入信息時(shí)代以來(lái),特別是近些年,數(shù)據(jù)庫(kù)規(guī)模日益擴(kuò)大,數(shù)據(jù)呈爆炸性增長(zhǎng)。圖靈獎(jiǎng)獲得者吉姆·格雷提出了一個(gè)經(jīng)驗(yàn)定律,即網(wǎng)絡(luò)環(huán)境下每18個(gè)月產(chǎn)生的數(shù)據(jù)量等于有史以來(lái)的數(shù)據(jù)量之和,僅僅依靠數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢檢索機(jī)制和統(tǒng)計(jì)分析方法,已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足實(shí)際需求,面臨著“數(shù)據(jù)爆炸,知識(shí)匱乏”的嚴(yán)峻挑戰(zhàn)。例如股票經(jīng)紀(jì)人需要從日積月累的大量股票行情變化的歷史記錄(數(shù)據(jù))中發(fā)現(xiàn)其規(guī)律以預(yù)測(cè)未來(lái)的趨勢(shì);天文學(xué)家需要從獲取的觀測(cè)數(shù)據(jù)(其規(guī)模可達(dá)數(shù)千吉字節(jié))中發(fā)現(xiàn)新的遙遠(yuǎn)天體及其運(yùn)動(dòng)規(guī)律;醫(yī)生需要從大量病人電子病歷中發(fā)現(xiàn)某種疾病的起因、癥狀等。這些數(shù)據(jù)的共同特點(diǎn)是:其一數(shù)據(jù)量巨大,一般都是GB級(jí)乃至TB級(jí);其二都以結(jié)構(gòu)化的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中,包含了大量潛在、有價(jià)值的知識(shí),有的已被發(fā)現(xiàn),有的還未被發(fā)現(xiàn)。如何有效地管理和利用數(shù)據(jù)庫(kù)中的海量數(shù)據(jù),以及如何發(fā)現(xiàn)其中潛在的知識(shí),需要一種新的、更為有效的手段對(duì)各種數(shù)據(jù)源進(jìn)行整合并挖掘以發(fā)現(xiàn)新知識(shí),更好地發(fā)揮這些數(shù)據(jù)的潛能。因此,數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)和數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)可更好地支持企業(yè)或組織決策,面向主題的、集成的、相對(duì)穩(wěn)定的、隨時(shí)間不斷變化的數(shù)據(jù)集合;數(shù)據(jù)挖掘則是使用計(jì)算機(jī)對(duì)大量數(shù)據(jù)進(jìn)行快速、有效地分析和處理,從中提取知識(shí),并以一種形式化的、可以理解的方式表達(dá),以便于決策的過(guò)程。目前,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)已經(jīng)成為計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)之一,引起了數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等領(lǐng)域?qū)<业膹V泛關(guān)注。
編輯推薦
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用》由清華大學(xué)出版社出版。
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用 PDF格式下載