出版時間:2008-2 出版社:高等教育 作者:李志剛 頁數:340
前言
隨著計算方法和信息技術的不斷發(fā)展,大量數據的產生和收集導致信息爆炸。現代社會的競爭趨勢要求對這些數據進行實時的和深層次的分析。雖然現在已經出現更強大的存儲系統和檢索系統,但是使用者發(fā)現在分析所擁有的信息方面變得越來越困難。數據倉庫提供了容納大量信息的場所,但它只有和數據挖掘技術相結合才能最終解決用戶的困惑,使用戶能夠從繁雜的數據中找出真正有價值的信息和知識。數據倉庫可以加強企業(yè)對信息的管理能力,數據挖掘可以改善企業(yè)的經營狀況,使企業(yè)的決策制定過程更加科學化和快速,為企業(yè)帶來巨大的收益,增強企業(yè)的競爭優(yōu)勢。數據倉庫和數據挖掘是20世紀90年代中期興起的決策支持新技術,它們是基于大規(guī)模數據庫的決策支持系統的核心。數據倉庫是區(qū)別于數據庫的一種新型數據存儲形式,它是面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合,用以支持經營管理中的決策制定。數據挖掘是從數據庫中發(fā)現知識的核心技術,它從大量的數據中提取隱含的、人所未知的、可信而有效的知識。數據挖掘能夠對數據進行再分析,以期獲得更加深入的了解。它具有預測功能,可以通過已有數據預測發(fā)展趨勢。數據倉庫與數據挖掘技術相結合,與現代的管理決策方法相結合,就能夠使數據倉庫在組織機構的經營管理決策中發(fā)揮巨大的作用。我國數據挖掘技術的研究始于20世紀90年代,經過十幾年的發(fā)展,這一領域目前正處于蓬勃發(fā)展時期。但是由于數據倉庫、數據挖掘技術都是數據處理與分析領域出現的新技術,大部分人把目光投向基于這兩項技術的基礎理論的研究,特別是具體技術和算法的實現,而忽略對數據倉庫、數據挖掘理論與實踐相結合的應用研究。因此,筆者在結合科研項目的基礎上,對數據倉庫、數據挖掘技術進行較系統的研究,并將研究成果應用于財經、證券投資等領域;同時筆者在研究過程中不斷地學習,既對原有的理論和實踐進行總結,又不斷地將所學到的知識運用到實踐中去,豐富了原有的理論。本書詳細闡述數據倉庫與數據挖掘的基本原理,系統而全面地介紹數據倉庫與數據挖掘的概念、作用、算法以及應用領域、相關學科和發(fā)展趨勢,并著重討論數據倉庫和數據挖掘在企業(yè)管理中的應用及構建策略。基于SQL Senrer 2005介紹數據倉庫與數據挖掘工具的操作和應用,并結合具體實例,闡述企業(yè)數據倉庫和數據挖掘的實施過程。
內容概要
《數據倉庫與數據挖掘的原理及應用》詳細闡述數據倉庫與數據挖掘的基本原理,系統而全面地介紹數據倉庫與數據挖掘的概念、作用、算法以及應用領域、相關學科和發(fā)展趨勢,并著重討論數據倉庫和數據挖掘在企業(yè)管理中的應用及構建策略?;赟QL Server 2005介紹數據倉庫與數據挖掘工具的操作和應用,并結合具體實例,闡述企業(yè)數據倉庫和數據挖掘的實施過程。最后,以證券行業(yè)為對象提供一個數據挖掘的開發(fā)實例?!稊祿}庫與數據挖掘的原理及應用》的指導思想是在系統闡述基本知識和基本理論的基礎上,強調實際應用能力的培養(yǎng),充分體現數據倉庫和數據挖掘技術作為解決實際問題的方法和工具的特點。《數據倉庫與數據挖掘的原理及應用》既可以作為信息系統、電子商務、管理科學與工程、計算機應用、軟件工程等專業(yè)的本科高年級和研究生教材,又可以作為從事競爭情報、信息管理、知識管理、戰(zhàn)略管理和軟科學的研究人員的參考資料。
書籍目錄
第1章 數據倉庫概述本章主要內容1.1 從數據庫到數據倉庫1.1.1 決策支持技術與數據庫技術的發(fā)展1.1.2 數據倉庫與數據庫的區(qū)別1.2 數據倉庫的概念與特點1.2.1 數據倉庫概念1.2.2 面向主題1.2.3 數據的集成性1.2.4 數據的非易失性1.2.5 數據因時而變的特點1.3 數據倉庫中的關鍵概念1.3.1 外部數據源1.3.2 數據抽取1.3.3 數據清洗1.3.4 數據轉換1.3.5 數據加載1.3.6 元數據1.3.7 數據集市1.3.8 數據粒度1.4 數據倉庫的數據組織1.4.1 數據倉庫的數據組織結構1.4.2 數據粒度與數據分割1.4.3 數據倉庫的數據組織形式1.4.4 數據倉庫的數據追加與清理1.5 數據倉庫與數據集市的關系1.5.1 數據集市的類型1.5.2 數據集市與數據倉庫的區(qū)別1.5.3 數據集市的特點1.6 數據倉庫體系結構1.6.1 數據倉庫系統的層次結構1.6.2 數據倉庫的構造模式1.7 操作數據存儲ODS1.7.1 操作數據存儲ODS的概念1.7.2 操作數據存儲ODS的應用1.7.3 DB-ODS-DW三層體系結構1.7.4 ODS/DW、ODS/DB之比較習題一第2章 聯機分析處理本章主要內容2.1 聯機分析處理的概念2.1.1 OLAP的定義2.1.2 OLAF的相關基本概念2.1.3 OLAP與OLTP的關系及比較2.1.4 OLAP準則2.2 OLAP多維數據分析2.2.1 OLAP基本分析動作2.2.2 廣義OLAP功能2.2.3 多維數據分析實例2.3 OLAP數據組織2.3.1 多維數據組織2.3.2 關系數據組織2.3.3 兩種數據組織的比較2.3.4 HOLAP2.4 OLAP的體系結構與展現方式2.4.1 OLAP體系結構2.4.2 OLAP前端展現方式2.4.3 OLAP結果的展現方法2.5 OLAP工具及評價2.5.1 OracleOLAP工具2.5.2 OLAP服務器和工具的評價指標2.5.3 OLAP的局限性習題二第3章 數據倉庫設計本章主要內容3.1 倉庫中數據模型概述3.1.1 數據模型的概念3.1.2 數據倉庫模型的構建原則3.1.3 企業(yè)數據模型3.2 概念模型設計3.2.1 企業(yè)模型的建立3.2.2 數據模型的規(guī)范化3.2.3 常見的概念模型3.3 邏輯模型設計3.3.1 概念模型到邏輯模型的轉換3.3.2 數據表的規(guī)范化與分割3.3.3 維度表的設計3.3.4 事實表的設計3.3.5 數據集市的設計3.4 物理模型設計3.4.1 定義數據存儲結構3.4.2 索引策略3.4.3 存儲分配優(yōu)化3.4.4 數據加載設計3.4.5 物理模型的設計對數據倉庫性能的影響3.5 元數據模型3.5.1 元數據的類型3.5.2 元數據的作用3.5.3 元數據的收集與維護3.5.4 元數據的使用3.6 粒度模型3.6.1 粒度的劃分3.6.2 粒度級別的確定習題三第4章數據倉庫的規(guī)劃與開發(fā)本章主要內容4.1 數據倉庫的投資分析4.1.1 建立數據倉庫的必要性4.1.2 數據倉庫的投資回報分析與風險分析4.2 數據倉庫的開發(fā)方法4.2.1 瀑布式開發(fā)4.2.2 螺旋式開發(fā)4.3 數據倉庫的建立過程4.3.1 數據進入數據倉庫的過程與建立數據倉庫的步驟4.3.2 需求分析4.3.3 數據路線4.3.4 技術路線4.3.5 應用路線4.3.6 數據倉庫部署4.3.7 運行維護4.4 數據倉庫的維護4.4.1 數據周期4.4.2 參照完整性4.4.3 數據環(huán)境信息4.4.4 數據備份與恢復4.5 提高數據倉庫性能4.5.1 提高I/0性能4.5.2 縮小查詢范圍4.5.3 采取并行優(yōu)化技術4.5.4 選擇適當的初始化參數4.6 數據倉庫的安全性4.6.1 安全類型4.6.2 安全方法4.7 分布式數據倉庫4.7.1 分布式數據倉庫的優(yōu)點4.7.2 分布式數據倉庫的模型建立與數據劃分4.7.3 分布式數據倉庫的建設策略4.7.4 分布式數據倉庫的技術缺陷習題四第5章數據倉庫的工具本章主要內容5.1 數據倉庫工具的選擇5.1.1 數據倉庫工具的組成5.1.2 數據倉庫工具應具備的主要功能5.1.3 數據倉庫的發(fā)展趨勢5.1.4 選取數據倉庫工具的方法5.2 常用數據倉庫產品簡介5.2.1 Oracle9i5.2.2 NCRTeraData第6章 數據挖掘概述第7章 數據挖掘的算法第8章 數據挖掘新技術第9章 數據挖掘的工具及其應用第10章 數據倉庫與數據挖掘的綜合應用第11章 基于數據挖掘的上市公司財務危機預警應用實例參考文獻
章節(jié)摘錄
插圖:在決策過程中經常用到外部數據,這些數據通常也是非結構化的。在事務處理系統中,由于未能對外部數據進行統一管理,用到這些數據的DSS應用必須對其白行集成。(3)數據動態(tài)集成問題由于每次分析處理時都進行數據集成的開銷太大,某些應用僅在開始時對所需數據進行集成,以后就一直以這部分數據作為分析處理的基礎,不再與數據源發(fā)生聯系,這種方式的集成是靜態(tài)集成。但是,數據源中的數據如果在數據集成后發(fā)生變化,這些改變未能反映給決策者,這將導致決策者使用過時的數據。對于決策者而言,雖然并不要求實時準確地知道系統內的任何數據變化,但也不希望所分析的是很久以前的數據。因此,集成數據必須以一定的周期(如24小時)進行刷新,我們稱其為動態(tài)集成。顯然,事務處理系統并不具備動態(tài)集成的能力。(4)歷史數據問題事務處理通常只需要當前數據,在數據庫中一般也只存儲短期數據,且不同數據的保存期限也不一樣。即使有一些歷史數據保存下來了,也被束之高閣,未能得到充分利用。但對于決策分析而言,歷史數據是相當重要的,許多分析方法必須以大量的歷史數據為依托。不對歷史數據進行詳細分析,是難以把握企業(yè)的發(fā)展趨勢的。(5)數據的綜合問題在事務處理系統中積累了大量的細節(jié)數據,一般而言,DSS并不對這些細節(jié)數據進行分析。這主要存在兩個原因,一是細節(jié)數據的數據量太大,會嚴重影響分析數據的效率;二是過多的細節(jié)數據不利于分析人員將注意力集中在有用的信息上。因此,在進行分析之前,往往需要對細節(jié)數據進行不同程度的綜合。而事務處理系統不具備這種綜合能力,根據規(guī)范化理論,這種綜合數據的過程還往往因為會產生數據冗余而被加以限制。市場商業(yè)經營模式的改變以及市場競爭日趨激烈都要求捕獲和分析事務級的業(yè)務數據。建立在事務處理環(huán)境上的分析系統無法達到這一要求。要提高分析數據和做出決策的效率和有效性,分析型處理及其數據必須與操作型處理及其數據相分離,必須把分析型數據從事務處理環(huán)境中提取出來,按照DSS處理的需要重新組織,建立單獨的分析處理環(huán)境,數據倉庫正是為了構建這種新的分析處理環(huán)境而出現的一種數據存儲和組織技術。表1.2 是以數據庫為代表的事務處理環(huán)境與以數據倉庫為代表的分析處理環(huán)境的對比。
編輯推薦
《數據倉庫與數據挖掘的原理及應用》的目的旨在向讀者系統闡述數據倉庫與數據挖掘的基本原理、方法和實用工具,介紹國內外的最新研究成果。全書共有11章,第1章介紹數據倉庫的基本概念和知識;第2章介紹聯機分析處理的基本理論;第3章介紹數據倉庫的設計思想、方法和技巧;第4章介紹數據倉庫的規(guī)劃與開發(fā);第5章介紹各種數據倉庫工具的基本功能及SQL Server 2005數據倉庫工具的應用;第6章介紹數據挖掘的概念和相關知識;第7章介紹數據挖掘的算法;第8章介紹文本挖掘、Web挖掘等數據挖掘新技術;第9章介紹數據挖掘的工具及其應用;第10章介紹數據倉庫與數據挖掘的綜合應用;第11章介紹基于數據挖掘的上市公司財務危機預警應用實例,使讀者能結合具體應用進行上機操作,消化和理解所學的知識。
圖書封面
評論、評分、閱讀與下載