出版時(shí)間:2008-2 出版社:高等教育 作者:李志剛 頁(yè)數(shù):340
前言
隨著計(jì)算方法和信息技術(shù)的不斷發(fā)展,大量數(shù)據(jù)的產(chǎn)生和收集導(dǎo)致信息爆炸。現(xiàn)代社會(huì)的競(jìng)爭(zhēng)趨勢(shì)要求對(duì)這些數(shù)據(jù)進(jìn)行實(shí)時(shí)的和深層次的分析。雖然現(xiàn)在已經(jīng)出現(xiàn)更強(qiáng)大的存儲(chǔ)系統(tǒng)和檢索系統(tǒng),但是使用者發(fā)現(xiàn)在分析所擁有的信息方面變得越來(lái)越困難。數(shù)據(jù)倉(cāng)庫(kù)提供了容納大量信息的場(chǎng)所,但它只有和數(shù)據(jù)挖掘技術(shù)相結(jié)合才能最終解決用戶的困惑,使用戶能夠從繁雜的數(shù)據(jù)中找出真正有價(jià)值的信息和知識(shí)。數(shù)據(jù)倉(cāng)庫(kù)可以加強(qiáng)企業(yè)對(duì)信息的管理能力,數(shù)據(jù)挖掘可以改善企業(yè)的經(jīng)營(yíng)狀況,使企業(yè)的決策制定過(guò)程更加科學(xué)化和快速,為企業(yè)帶來(lái)巨大的收益,增強(qiáng)企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘是20世紀(jì)90年代中期興起的決策支持新技術(shù),它們是基于大規(guī)模數(shù)據(jù)庫(kù)的決策支持系統(tǒng)的核心。數(shù)據(jù)倉(cāng)庫(kù)是區(qū)別于數(shù)據(jù)庫(kù)的一種新型數(shù)據(jù)存儲(chǔ)形式,它是面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定。數(shù)據(jù)挖掘是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的核心技術(shù),它從大量的數(shù)據(jù)中提取隱含的、人所未知的、可信而有效的知識(shí)。數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)進(jìn)行再分析,以期獲得更加深入的了解。它具有預(yù)測(cè)功能,可以通過(guò)已有數(shù)據(jù)預(yù)測(cè)發(fā)展趨勢(shì)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合,與現(xiàn)代的管理決策方法相結(jié)合,就能夠使數(shù)據(jù)倉(cāng)庫(kù)在組織機(jī)構(gòu)的經(jīng)營(yíng)管理決策中發(fā)揮巨大的作用。我國(guó)數(shù)據(jù)挖掘技術(shù)的研究始于20世紀(jì)90年代,經(jīng)過(guò)十幾年的發(fā)展,這一領(lǐng)域目前正處于蓬勃發(fā)展時(shí)期。但是由于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘技術(shù)都是數(shù)據(jù)處理與分析領(lǐng)域出現(xiàn)的新技術(shù),大部分人把目光投向基于這兩項(xiàng)技術(shù)的基礎(chǔ)理論的研究,特別是具體技術(shù)和算法的實(shí)現(xiàn),而忽略對(duì)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘理論與實(shí)踐相結(jié)合的應(yīng)用研究。因此,筆者在結(jié)合科研項(xiàng)目的基礎(chǔ)上,對(duì)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘技術(shù)進(jìn)行較系統(tǒng)的研究,并將研究成果應(yīng)用于財(cái)經(jīng)、證券投資等領(lǐng)域;同時(shí)筆者在研究過(guò)程中不斷地學(xué)習(xí),既對(duì)原有的理論和實(shí)踐進(jìn)行總結(jié),又不斷地將所學(xué)到的知識(shí)運(yùn)用到實(shí)踐中去,豐富了原有的理論。本書(shū)詳細(xì)闡述數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的基本原理,系統(tǒng)而全面地介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的概念、作用、算法以及應(yīng)用領(lǐng)域、相關(guān)學(xué)科和發(fā)展趨勢(shì),并著重討論數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在企業(yè)管理中的應(yīng)用及構(gòu)建策略。基于SQL Senrer 2005介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘工具的操作和應(yīng)用,并結(jié)合具體實(shí)例,闡述企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的實(shí)施過(guò)程。
內(nèi)容概要
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的原理及應(yīng)用》詳細(xì)闡述數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的基本原理,系統(tǒng)而全面地介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的概念、作用、算法以及應(yīng)用領(lǐng)域、相關(guān)學(xué)科和發(fā)展趨勢(shì),并著重討論數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在企業(yè)管理中的應(yīng)用及構(gòu)建策略。基于SQL Server 2005介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘工具的操作和應(yīng)用,并結(jié)合具體實(shí)例,闡述企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的實(shí)施過(guò)程。最后,以證券行業(yè)為對(duì)象提供一個(gè)數(shù)據(jù)挖掘的開(kāi)發(fā)實(shí)例。《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的原理及應(yīng)用》的指導(dǎo)思想是在系統(tǒng)闡述基本知識(shí)和基本理論的基礎(chǔ)上,強(qiáng)調(diào)實(shí)際應(yīng)用能力的培養(yǎng),充分體現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)作為解決實(shí)際問(wèn)題的方法和工具的特點(diǎn)。《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的原理及應(yīng)用》既可以作為信息系統(tǒng)、電子商務(wù)、管理科學(xué)與工程、計(jì)算機(jī)應(yīng)用、軟件工程等專(zhuān)業(yè)的本科高年級(jí)和研究生教材,又可以作為從事競(jìng)爭(zhēng)情報(bào)、信息管理、知識(shí)管理、戰(zhàn)略管理和軟科學(xué)的研究人員的參考資料。
書(shū)籍目錄
第1章 數(shù)據(jù)倉(cāng)庫(kù)概述本章主要內(nèi)容1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1.1.1 決策支持技術(shù)與數(shù)據(jù)庫(kù)技術(shù)的發(fā)展1.1.2 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別1.2 數(shù)據(jù)倉(cāng)庫(kù)的概念與特點(diǎn)1.2.1 數(shù)據(jù)倉(cāng)庫(kù)概念1.2.2 面向主題1.2.3 數(shù)據(jù)的集成性1.2.4 數(shù)據(jù)的非易失性1.2.5 數(shù)據(jù)因時(shí)而變的特點(diǎn)1.3 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵概念1.3.1 外部數(shù)據(jù)源1.3.2 數(shù)據(jù)抽取1.3.3 數(shù)據(jù)清洗1.3.4 數(shù)據(jù)轉(zhuǎn)換1.3.5 數(shù)據(jù)加載1.3.6 元數(shù)據(jù)1.3.7 數(shù)據(jù)集市1.3.8 數(shù)據(jù)粒度1.4 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.4.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)1.4.2 數(shù)據(jù)粒度與數(shù)據(jù)分割1.4.3 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式1.4.4 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加與清理1.5 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的關(guān)系1.5.1 數(shù)據(jù)集市的類(lèi)型1.5.2 數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別1.5.3 數(shù)據(jù)集市的特點(diǎn)1.6 數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)1.6.1 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的層次結(jié)構(gòu)1.6.2 數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)造模式1.7 操作數(shù)據(jù)存儲(chǔ)ODS1.7.1 操作數(shù)據(jù)存儲(chǔ)ODS的概念1.7.2 操作數(shù)據(jù)存儲(chǔ)ODS的應(yīng)用1.7.3 DB-ODS-DW三層體系結(jié)構(gòu)1.7.4 ODS/DW、ODS/DB之比較習(xí)題一第2章 聯(lián)機(jī)分析處理本章主要內(nèi)容2.1 聯(lián)機(jī)分析處理的概念2.1.1 OLAP的定義2.1.2 OLAF的相關(guān)基本概念2.1.3 OLAP與OLTP的關(guān)系及比較2.1.4 OLAP準(zhǔn)則2.2 OLAP多維數(shù)據(jù)分析2.2.1 OLAP基本分析動(dòng)作2.2.2 廣義OLAP功能2.2.3 多維數(shù)據(jù)分析實(shí)例2.3 OLAP數(shù)據(jù)組織2.3.1 多維數(shù)據(jù)組織2.3.2 關(guān)系數(shù)據(jù)組織2.3.3 兩種數(shù)據(jù)組織的比較2.3.4 HOLAP2.4 OLAP的體系結(jié)構(gòu)與展現(xiàn)方式2.4.1 OLAP體系結(jié)構(gòu)2.4.2 OLAP前端展現(xiàn)方式2.4.3 OLAP結(jié)果的展現(xiàn)方法2.5 OLAP工具及評(píng)價(jià)2.5.1 OracleOLAP工具2.5.2 OLAP服務(wù)器和工具的評(píng)價(jià)指標(biāo)2.5.3 OLAP的局限性習(xí)題二第3章 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)本章主要內(nèi)容3.1 倉(cāng)庫(kù)中數(shù)據(jù)模型概述3.1.1 數(shù)據(jù)模型的概念3.1.2 數(shù)據(jù)倉(cāng)庫(kù)模型的構(gòu)建原則3.1.3 企業(yè)數(shù)據(jù)模型3.2 概念模型設(shè)計(jì)3.2.1 企業(yè)模型的建立3.2.2 數(shù)據(jù)模型的規(guī)范化3.2.3 常見(jiàn)的概念模型3.3 邏輯模型設(shè)計(jì)3.3.1 概念模型到邏輯模型的轉(zhuǎn)換3.3.2 數(shù)據(jù)表的規(guī)范化與分割3.3.3 維度表的設(shè)計(jì)3.3.4 事實(shí)表的設(shè)計(jì)3.3.5 數(shù)據(jù)集市的設(shè)計(jì)3.4 物理模型設(shè)計(jì)3.4.1 定義數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)3.4.2 索引策略3.4.3 存儲(chǔ)分配優(yōu)化3.4.4 數(shù)據(jù)加載設(shè)計(jì)3.4.5 物理模型的設(shè)計(jì)對(duì)數(shù)據(jù)倉(cāng)庫(kù)性能的影響3.5 元數(shù)據(jù)模型3.5.1 元數(shù)據(jù)的類(lèi)型3.5.2 元數(shù)據(jù)的作用3.5.3 元數(shù)據(jù)的收集與維護(hù)3.5.4 元數(shù)據(jù)的使用3.6 粒度模型3.6.1 粒度的劃分3.6.2 粒度級(jí)別的確定習(xí)題三第4章數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃與開(kāi)發(fā)本章主要內(nèi)容4.1 數(shù)據(jù)倉(cāng)庫(kù)的投資分析4.1.1 建立數(shù)據(jù)倉(cāng)庫(kù)的必要性4.1.2 數(shù)據(jù)倉(cāng)庫(kù)的投資回報(bào)分析與風(fēng)險(xiǎn)分析4.2 數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)方法4.2.1 瀑布式開(kāi)發(fā)4.2.2 螺旋式開(kāi)發(fā)4.3 數(shù)據(jù)倉(cāng)庫(kù)的建立過(guò)程4.3.1 數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程與建立數(shù)據(jù)倉(cāng)庫(kù)的步驟4.3.2 需求分析4.3.3 數(shù)據(jù)路線4.3.4 技術(shù)路線4.3.5 應(yīng)用路線4.3.6 數(shù)據(jù)倉(cāng)庫(kù)部署4.3.7 運(yùn)行維護(hù)4.4 數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)4.4.1 數(shù)據(jù)周期4.4.2 參照完整性4.4.3 數(shù)據(jù)環(huán)境信息4.4.4 數(shù)據(jù)備份與恢復(fù)4.5 提高數(shù)據(jù)倉(cāng)庫(kù)性能4.5.1 提高I/0性能4.5.2 縮小查詢(xún)范圍4.5.3 采取并行優(yōu)化技術(shù)4.5.4 選擇適當(dāng)?shù)某跏蓟瘏?shù)4.6 數(shù)據(jù)倉(cāng)庫(kù)的安全性4.6.1 安全類(lèi)型4.6.2 安全方法4.7 分布式數(shù)據(jù)倉(cāng)庫(kù)4.7.1 分布式數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)點(diǎn)4.7.2 分布式數(shù)據(jù)倉(cāng)庫(kù)的模型建立與數(shù)據(jù)劃分4.7.3 分布式數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)策略4.7.4 分布式數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)缺陷習(xí)題四第5章數(shù)據(jù)倉(cāng)庫(kù)的工具本章主要內(nèi)容5.1 數(shù)據(jù)倉(cāng)庫(kù)工具的選擇5.1.1 數(shù)據(jù)倉(cāng)庫(kù)工具的組成5.1.2 數(shù)據(jù)倉(cāng)庫(kù)工具應(yīng)具備的主要功能5.1.3 數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展趨勢(shì)5.1.4 選取數(shù)據(jù)倉(cāng)庫(kù)工具的方法5.2 常用數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品簡(jiǎn)介5.2.1 Oracle9i5.2.2 NCRTeraData第6章 數(shù)據(jù)挖掘概述第7章 數(shù)據(jù)挖掘的算法第8章 數(shù)據(jù)挖掘新技術(shù)第9章 數(shù)據(jù)挖掘的工具及其應(yīng)用第10章 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的綜合應(yīng)用第11章 基于數(shù)據(jù)挖掘的上市公司財(cái)務(wù)危機(jī)預(yù)警應(yīng)用實(shí)例參考文獻(xiàn)
章節(jié)摘錄
插圖:在決策過(guò)程中經(jīng)常用到外部數(shù)據(jù),這些數(shù)據(jù)通常也是非結(jié)構(gòu)化的。在事務(wù)處理系統(tǒng)中,由于未能對(duì)外部數(shù)據(jù)進(jìn)行統(tǒng)一管理,用到這些數(shù)據(jù)的DSS應(yīng)用必須對(duì)其白行集成。(3)數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題由于每次分析處理時(shí)都進(jìn)行數(shù)據(jù)集成的開(kāi)銷(xiāo)太大,某些應(yīng)用僅在開(kāi)始時(shí)對(duì)所需數(shù)據(jù)進(jìn)行集成,以后就一直以這部分?jǐn)?shù)據(jù)作為分析處理的基礎(chǔ),不再與數(shù)據(jù)源發(fā)生聯(lián)系,這種方式的集成是靜態(tài)集成。但是,數(shù)據(jù)源中的數(shù)據(jù)如果在數(shù)據(jù)集成后發(fā)生變化,這些改變未能反映給決策者,這將導(dǎo)致決策者使用過(guò)時(shí)的數(shù)據(jù)。對(duì)于決策者而言,雖然并不要求實(shí)時(shí)準(zhǔn)確地知道系統(tǒng)內(nèi)的任何數(shù)據(jù)變化,但也不希望所分析的是很久以前的數(shù)據(jù)。因此,集成數(shù)據(jù)必須以一定的周期(如24小時(shí))進(jìn)行刷新,我們稱(chēng)其為動(dòng)態(tài)集成。顯然,事務(wù)處理系統(tǒng)并不具備動(dòng)態(tài)集成的能力。(4)歷史數(shù)據(jù)問(wèn)題事務(wù)處理通常只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般也只存儲(chǔ)短期數(shù)據(jù),且不同數(shù)據(jù)的保存期限也不一樣。即使有一些歷史數(shù)據(jù)保存下來(lái)了,也被束之高閣,未能得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。不對(duì)歷史數(shù)據(jù)進(jìn)行詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。(5)數(shù)據(jù)的綜合問(wèn)題在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。這主要存在兩個(gè)原因,一是細(xì)節(jié)數(shù)據(jù)的數(shù)據(jù)量太大,會(huì)嚴(yán)重影響分析數(shù)據(jù)的效率;二是過(guò)多的細(xì)節(jié)數(shù)據(jù)不利于分析人員將注意力集中在有用的信息上。因此,在進(jìn)行分析之前,往往需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合數(shù)據(jù)的過(guò)程還往往因?yàn)闀?huì)產(chǎn)生數(shù)據(jù)冗余而被加以限制。市場(chǎng)商業(yè)經(jīng)營(yíng)模式的改變以及市場(chǎng)競(jìng)爭(zhēng)日趨激烈都要求捕獲和分析事務(wù)級(jí)的業(yè)務(wù)數(shù)據(jù)。建立在事務(wù)處理環(huán)境上的分析系統(tǒng)無(wú)法達(dá)到這一要求。要提高分析數(shù)據(jù)和做出決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離,必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來(lái),按照DSS處理的需要重新組織,建立單獨(dú)的分析處理環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。表1.2 是以數(shù)據(jù)庫(kù)為代表的事務(wù)處理環(huán)境與以數(shù)據(jù)倉(cāng)庫(kù)為代表的分析處理環(huán)境的對(duì)比。
編輯推薦
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的原理及應(yīng)用》的目的旨在向讀者系統(tǒng)闡述數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的基本原理、方法和實(shí)用工具,介紹國(guó)內(nèi)外的最新研究成果。全書(shū)共有11章,第1章介紹數(shù)據(jù)倉(cāng)庫(kù)的基本概念和知識(shí);第2章介紹聯(lián)機(jī)分析處理的基本理論;第3章介紹數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)思想、方法和技巧;第4章介紹數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃與開(kāi)發(fā);第5章介紹各種數(shù)據(jù)倉(cāng)庫(kù)工具的基本功能及SQL Server 2005數(shù)據(jù)倉(cāng)庫(kù)工具的應(yīng)用;第6章介紹數(shù)據(jù)挖掘的概念和相關(guān)知識(shí);第7章介紹數(shù)據(jù)挖掘的算法;第8章介紹文本挖掘、Web挖掘等數(shù)據(jù)挖掘新技術(shù);第9章介紹數(shù)據(jù)挖掘的工具及其應(yīng)用;第10章介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的綜合應(yīng)用;第11章介紹基于數(shù)據(jù)挖掘的上市公司財(cái)務(wù)危機(jī)預(yù)警應(yīng)用實(shí)例,使讀者能結(jié)合具體應(yīng)用進(jìn)行上機(jī)操作,消化和理解所學(xué)的知識(shí)。
圖書(shū)封面
評(píng)論、評(píng)分、閱讀與下載
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的原理及應(yīng)用 PDF格式下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版