出版時間:2012-8 出版社:機械工業(yè)出版社 作者:(美)Jiawei Han,(加)Micheline Kamber,(加)Jian Pei 頁數:468 譯者:范明,孟小峰
Tag標簽:無
前言
前言: 社會的計算機化顯著地增強了我們產生和收集數據的能力。大量數據從我們生活的每個角落涌出。存儲的或瞬態(tài)的數據的爆炸性增長已激起對新技術和自動工具的需求,以幫助我們智能地將海量數據轉換成有用的信息和知識。這導致稱做數據挖掘的一個計算機科學前沿學科的產生,這是一個充滿希望和欣欣向榮并具有廣泛應用的學科。數據挖掘通常又稱為數據中的知識發(fā)現(xiàn)(KDD),是自動地或方便地提取代表知識的模式;這些模式隱藏在大型數據庫、數據倉庫、Web、其他大量信息庫或數據流中。 本書考察知識發(fā)現(xiàn)和數據挖掘的基本概念和技術。作為一個多學科領域,數據挖掘從多個學科汲取營養(yǎng)。這些學科包括統(tǒng)計學、機器學習、模式識別、數據庫技術、信息檢索、網絡科學、知識庫系統(tǒng)、人工智能、高性能計算和數據可視化。我們提供發(fā)現(xiàn)隱藏在大型數據集中的模式的技術,關注可行性、有用性、有效性和可伸縮性問題。因此,本書不打算作為數據庫系統(tǒng)、機器學習、統(tǒng)計學或其他某領域的導論,盡管我們確實提供了這些領域的必要背景材料,以便讀者理解它們各自在數據挖掘中的作用。本書是對數據挖掘的全面介紹。對于計算科學的學生、應用開發(fā)人員、行業(yè)專業(yè)人員以及涉及以上列舉的學科的研究人員,本書應當是有用的。 數據挖掘出現(xiàn)于20世紀80年代后期,20世紀90年代有了突飛猛進的發(fā)展,并可望在新千年繼續(xù)繁榮。本書全面展示該領域,介紹有趣的數據挖掘技術和系統(tǒng),并討論數據挖掘的應用和研究方向。寫本書的重要動機是需要建立一個學習數據挖掘的有組織的框架——由于這個快速發(fā)展領域的多學科特點,這是一項具有挑戰(zhàn)性的任務。我們希望本書有助于具有不同背景和經驗的人交換關于數據挖掘的見解,為進一步促進這個令人激動的、不斷發(fā)展的領域的成長做出貢獻。本書的組織 自本書第1版、第2版出版以來,數據挖掘領域已經取得了重大進展,開發(fā)出了許多新的數據挖掘方法、系統(tǒng)和應用,特別是對于處理包括信息網絡、圖、復雜結構和數據流,以及文本、Web、多媒體、時間序列、時間空間數據在內的新的數據類型。這種快速發(fā)展、新技術不斷涌現(xiàn)使得在一本書中涵蓋整個領域的廣泛內容非常困難。因此,我們決定與其繼續(xù)擴大本書的涵蓋面,還不如讓本書以足夠的廣度和深度涵蓋該領域的核心內容,而把復雜數據類型的處理留給另一本即將面世的書。 第3版對本書的前兩版做了全面修訂,加強和重新組織了全書的技術內容,顯著地擴充和加強處理一般數據類型挖掘的核心技術。第2版中討論特定主題的章節(jié)(例如,數據預處理、頻繁模式挖掘、分類和聚類)在這一版都被擴充,每章都分成兩章。對于這些主題,一章囊括基本概念和技術,而另一章提供高級概念和方法。 第2版關于復雜數據類型的章節(jié)(例如,流數據、序列數據、圖結構數據、社會網絡數據和多重關系數據,以及文本、Web、多媒體和時間空間數據)現(xiàn)在保留給專門介紹數據挖掘的高級課題的新書。為了支持讀者學習這些高級課題,我們把第2版的相關章節(jié)的電子版放在本書的網站上,作為第3版的配套材料。 第3版各章的簡要內容如下(重點介紹新的內容): 第1章提供關于數據挖掘的多學科領域的導論。該章討論導致需要數據挖掘的數據庫技術的發(fā)展歷程和數據挖掘應用的重要性。該章考察挖掘的數據類型,包括關系的、事務的和數據倉庫數據,以及復雜的數據類型,如時間序列、序列、數據流、時間空間數據、多媒體數據、文本數據、圖、社會網絡和Web數據。該章根據所挖掘的知識類型、所使用的技術以及目標應用的類型,對數據挖掘任務進行了一般分類。最后討論該領域的主要挑戰(zhàn)。 第2章介紹一般數據特征。該章首先討論數據對象和屬性類型,然后介紹基本統(tǒng)計數據描述的典型度量。該章概述各種類型數據的數據可視化技術。除了數值數據的可視化方法外,還介紹文本、標簽、圖和多維數據的可視化方法。第2章還介紹度量各種類型數據的相似性和相異性的方法。 第3章介紹數據預處理技術。該章首先介紹數據質量的概念,然后討論數據清理、數據集成、數據歸約、數據變換和數據離散化的方法。 第4章和第5章是數據倉庫、OLAP(聯(lián)機分析處理)和數據立方體技術的引論。第4章介紹數據倉庫和OLAP的基本概念、建模、結構、一般實現(xiàn),以及數據倉庫和其他數據泛化的關系。第5章更深入地考察數據立方體技術,詳細地研究數據立方體的計算方法,包括Star-Cubing和高維OLAP方法。該章還討論數據立方體和OLAP技術的進一步研究,如抽樣立方體、排序立方體、預測立方體、用于復雜數據挖掘查詢的多特征立方體和發(fā)現(xiàn)驅動的數據立方體的探查。 第6章和第7章介紹挖掘大型數據集中的頻繁模式、關聯(lián)和相關性的方法。第6章介紹基本概念,如購物籃分析,還有條理地提供了許多頻繁項集挖掘技術。這些涵蓋從基本Apriori算法和它的變形,到改進性能的更高級的方法,包括頻繁模式增長方法,使用數據的垂直形式的頻繁模式挖掘,挖掘閉頻繁項集和極大頻繁項集。該章還討論模式評估方法并介紹挖掘相關模式的度量。第7章介紹高級模式挖掘方法。該章討論多層和多維空間中的模式挖掘,挖掘稀有和負模式,挖掘巨型模式和高維空間數據,基于約束的模式挖掘和挖掘壓縮或近似模式。該章還介紹模式探查和應用的方法,包括頻繁模式的語義注解。 第8章和第9章介紹數據分類方法。由于分類方法的重要性和多樣性,內容被劃分成兩章。第8章介紹分類的基本概念和方法,包括決策樹歸納、貝葉斯分類和基于規(guī)則的分類。該章還討論模型評估和選擇方法,以及提高分類準確率的方法,包括組合方法和處理不平衡數據。第9章討論分類的高級方法,包括貝葉斯信念網絡、后向傳播的神經網絡技術、支持向量機、使用頻繁模式的分類、k-最鄰近分類、基于案例的推理、遺傳算法、粗糙集理論和模糊集方法。附加的主題包括多類分類、半監(jiān)督分類、主動學習和遷移學習。 聚類分析是第10章和第11章的主題。第10章介紹數據聚類的基本概念和方法,包括基本聚類分析方法的概述、劃分方法、層次方法、基于密度的方法和基于網格的方法。該章還介紹聚類評估方法。第11章討論聚類的高級方法,包括基于概率模型的聚類、聚類高維數據、聚類圖和網絡數據,以及基于約束的聚類。 第12章專門討論離群點檢測。本章介紹離群點的基本概念和離群點分析,并從各種監(jiān)督力度(監(jiān)督的、半監(jiān)督的和無監(jiān)督的)以及方法角度(統(tǒng)計學方法、基于鄰近性的方法、基于聚類的方法和基于分類的方法)討論離群點檢測方法。該章還討論挖掘情境離群點和集體離群點,以及高維數據中的離群點檢測。 最后,在第13章我們討論數據挖掘的趨勢、應用和研究前沿。我們簡略地介紹挖掘復雜數據類型,包括挖掘序列數據(例如,時間序列、符號序列和生物學序列),挖掘圖和網絡,以及挖掘空間、多媒體、文本和Web數據。這些數據挖掘方法的深入討論留給正在撰寫的數據挖掘高級課題一書。然后,該章轉向討論其他數據挖掘方法學,包括統(tǒng)計學數據挖掘、數據挖掘基礎、可視和聽覺數據挖掘,以及數據挖掘的應用。討論數據挖掘在金融數據分析、零售和電信產業(yè)、科學與工程,以及入侵檢測和預防方面的應用。該章還討論數據挖掘與推薦系統(tǒng)的聯(lián)系。由于數據挖掘出現(xiàn)在我們日常生活的方方面面,所以我們討論數據挖掘與社會,包括無處不在和無形的數據挖掘,以及隱私、安全和數據挖掘對社會的影響。我們用考察數據挖掘的發(fā)展趨勢結束本書。 書中楷體字用于強調定義的術語,而黑體字用于突出主要思想。 本書與其他數據挖掘教材相比具有一些顯著特點:它廣泛、深入地討論了數據挖掘原理。各章盡可能是自包含的,使得讀者可以按自己感興趣的次序閱讀。高級章節(jié)提供了更大的視野,感興趣的讀者可以選讀。本書提供了數據挖掘的所有主要方法,還提供了關于多維OLAP分析等數據挖掘的重要主題,這些主題在其他書中常常被忽略或很少提及。本書還維護了一個網站,其中包含大量在線資源,為教師、學生和該領域的專業(yè)人員提供支持。這些將在下面介紹。致教師 本書旨在提供數據挖掘領域的一個廣泛而深入的概覽,可以作為高年級本科生或一年級研究生的數據挖掘導論。除了講稿、教師指南和閱讀材料列表等教學資源之外,本書網站(www.cs.uiuc.edu/~hanj/bk3或www.booksite.mkp.com/datamining3e)還提供了一個樣本課程安排。 根據授課學時、學生的背景和你的興趣,你可以選取章節(jié)的子集,以不同的順序進行講授。例如,如果你只打算給學生講授數據挖掘入門導論,可以按照圖P.1的建議。注意,根據需要,必要時可以省略其中某些節(jié)或某些小節(jié)。圖P.1 入門導論課程的建議章節(jié)序列 根據學時和講授范圍,你可以有選擇地把更多的章節(jié)增加到這個基本序列中。例如,對高級分類方法更感興趣的教師可以首先增加“第9章 分類:高級方法”;對模式挖掘更感興趣的教師可以選擇包括“第7章 高級模式挖掘”;而對OLAP和數據立方體技術感興趣的教師可以增加“第4章 數據倉庫與聯(lián)機分析處理”和“第5章 數據立方體技術”。 或者,你可以選擇在兩個學期的系列課程中講授整本書,包括本書的所有章節(jié),時間允許的話,加上圖和網絡挖掘這樣的高級課題。這些高級課題可以從本書網站提供的配套材料選擇,輔以挑選的研究論文。 本書的每一章都可以用做自學材料,或者用做數據庫系統(tǒng)、機器學習、模式識別和數據智能分析等相關課程的專題。 每章后面都有一些習題,適合作為家庭作業(yè)。這些習題或者是用于測驗對內容的掌握情況的小問題,或者是需要分析思考的大問題,或者是實現(xiàn)設計。有些習題也可以用做研究討論課題。每章后面的文獻注釋可以用來查找包含正文中提供的概念和方法的來源、相關課題的深入討論和可能的擴展的研究文獻。致學生 我們希望本書將激發(fā)你對年青,但正在快速發(fā)展的數據挖掘領域的興趣。我們試圖以清晰的方式提供材料,仔細地解釋所涵蓋的主題。每一章后面都附有一個小結,總結要點。全書包含了許多圖和解釋,以便使本書更加有趣和便于閱讀。盡管本書是作為教材編寫的,但是我們也試圖把它組織成一本有用的參考書或手冊,以有助于你今后在數據挖掘方面進行深入研究和求職。 為閱讀本書,你需要知道什么? 你應當具有關于統(tǒng)計學、數據庫系統(tǒng)和機器學習的概念和術語方面的知識。然而,我們盡力提供這些基礎知識的足夠背景,以便在讀者對這些領域不太熟悉或者記憶有些淡忘時,也能夠理解本書的討論。 你應當具有一些程序設計經驗。特別是你應當能夠閱讀偽代碼,能夠理解像多維數組這樣的簡單數據結構。致專業(yè)人員 本書旨在涵蓋數據挖掘領域的廣泛主題。因此,本書是關于該主題的一本優(yōu)秀手冊。由于每一章的編寫都盡可能獨立,所以讀者可以關注自己最感興趣的課題。希望學習數據挖掘關鍵思想的應用程序員和信息服務管理人員可以使用本書。對于有興趣使用數據挖掘技術解決其業(yè)務問題的銀行、保險、醫(yī)藥和零售業(yè)的數據分析人員,本書也是有用的。此外,本書也可以作為數據挖掘領域的全面綜述,有助于研究人員提升數據挖掘技巧,擴展數據挖掘的應用范圍。 本書所提供的技術和算法是實用的,介紹的算法適合于發(fā)現(xiàn)隱藏在大型、現(xiàn)實數據集中的模式和知識,而不是挑選在小型“玩具”數據庫上運行良好的算法。本書提供的每個算法都用偽代碼解釋。偽代碼類似于程序設計語言C,但也精心加以策劃,使得不熟悉C或C++的程序員易于理解。如果你想實現(xiàn)算法,你會發(fā)現(xiàn)將我們的偽代碼轉換成選定的程序設計語言程序是一項非常簡單的任務。本書資源網站 本書網站的地址是www.cs.uiuc.edu/~hanj/bk3,另一個是Morgan Kaufmann出版社的網站www.booksite.mkp.com/datamining3e。這些網站為本書的讀者和對數據挖掘感興趣的人提供了一些附加材料,資源包括: 每章的幻燈片。提供了用微軟的PowerPoint制作的每章教案。 高級數據挖掘的配套章節(jié)。本書第2版的第8~10章涵蓋了挖掘復雜的數據類型,這超出了本書的主題,對這些高級主題感興趣的讀者可從網站上獲取。 教師手冊。本書習題的完整答案通過出版社的網站只向教師提供。 課程提綱和教學計劃。使用本書和幻燈片用于數據挖掘導論課程和高級教程的本科生和研究生,可以獲取這些資源。 帶超鏈接的輔助閱讀文獻列表。補充讀物的原創(chuàng)性文章按章組織。 到數據挖掘數據集和軟件的鏈接。我們將提供到數據挖掘數據集和某些包含有趣的數據挖掘軟件包的站點的鏈接,如到伊利諾伊大學厄巴納-尚佩恩分校IlliMine的鏈接(http://illimine.cs.uiuc.edu)。 作業(yè)、考試和課程設計樣本。一組作業(yè)、考試和課程設計樣本將在出版社的網站上向教師提供。 本書的插圖。這可能有助于你制作自己的課堂教學幻燈片。 本書目錄。PDF格式。 本書不同印次的勘誤表。歡迎讀者指出本書中的錯誤。一旦錯誤被證實,我們將更新勘誤表,并對你的貢獻致謝。 評論或建議請發(fā)往hanj@cs.uiuc.edu。我們很高興聽到你的建議。
內容概要
本書完整全面地講述數據挖掘的概念、方法、技術和最新研究進展。本書對前兩版做了全面修訂,加強和重新組織了全書的技術內容,重點論述了數據預處理、頻繁模式挖掘、分類和聚類等的內容,還全面講述了OLAP和離群點檢測,并研討了挖掘網絡、復雜數據類型以及重要應用領域。
本書是數據挖掘和知識發(fā)現(xiàn)領域內的所有教師、研究人員、開發(fā)人員和用戶都必讀的參考書,是一本適用于數據分析、數據挖掘和知識發(fā)現(xiàn)課程的優(yōu)秀教材,可以用做高年級本科生或者一年級研究生的數據挖掘導論教材。
作者簡介
Jiawei
Han(韓家煒),是伊利諾伊大學厄巴納-尚佩恩分校計算機科學系的Bliss教授。他因知識發(fā)現(xiàn)和數據挖掘研究方面的貢獻而獲得許多獎勵,包括ACM
SIGKDD創(chuàng)新獎(2004)、IEEE計算機學會技術成就獎(2005)和IEEE W.Wallace
McDowell獎(2009)。他是ACM和IEEE會士。他還擔任《ACM Transactions on Knowledge
Discovery from Data》的執(zhí)行主編(2006—2011)和許多雜志的編委,包括《IEEE Transactions
on Knowledge and Data Engineering》和《Data Mining Knowledge
Discovery》。
Micheline
Kamber,由加拿大魁北克蒙特利爾Concordia大學獲計算機科學(人工智能專業(yè))碩士學位。她曾是NSERC學者,作為研究者在McGill大學、西蒙-弗雷澤大學和瑞士工作。她的數據挖掘背景和以易于理解的形式寫作的熱情使得本書更受專業(yè)人員、教師和學生的歡迎。
Jian Pei(裴健),現(xiàn)在是西蒙-弗雷澤大學計算機科學學院教授。他在Jiawei
Han的指導下,于2002年獲西蒙-弗雷澤大學計算科學博士學位。他在數據挖掘、數據庫、Web搜索和信息檢索的主要學術論壇發(fā)表了大量文章,并積極服務于學術團體。他的文章被引用數千次,并獲多次榮譽獎。他是多種數據挖掘和數據分析雜志的助理編輯。
書籍目錄
出版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
致謝
作者簡介
第1章 引論
1.1 為什么進行數據挖掘
1.1.1 邁向信息時代
1.1.2 數據挖掘是信息技術的進化
1.2 什么是數據挖掘
1.3 可以挖掘什么類型的數據
1.3.1 數據庫數據
1.3.2 數據倉庫
1.3.3 事務數據
1.3.4 其他類型的數據
1.4 可以挖掘什么類型的模式
1.4.1 類/概念描述:特征化與區(qū)分
1.4.2 挖掘頻繁模式、關聯(lián)和相關性
1.4.3 用于預測分析的分類與回歸
1.4.4 聚類分析
1.4.5 離群點分析
1.4.6 所有模式都是有趣的嗎
1.5 使用什么技術
1.5.1 統(tǒng)計學
1.5.2 機器學習
1.5.3 數據庫系統(tǒng)與數據倉庫
1.5.4 信息檢索
1.6 面向什么類型的應用
1.6.1 商務智能
1.6.2 Web搜索引擎
1.7 數據挖掘的主要問題
1.7.1 挖掘方法
1.7.2 用戶界面
1.7.3 有效性和可伸縮性
1.7.4 數據庫類型的多樣性
1.7.5 數據挖掘與社會
1.8 小結
1.9 習題
1.10 文獻注釋
第2章 認識數據
2.1 數據對象與屬性類型
2.1.1 什么是屬性
2.1.2 標稱屬性
2.1.3 二元屬性
2.1.4 序數屬性
2.1.5 數值屬性
2.1.6 離散屬性與連續(xù)屬性
2.2 數據的基本統(tǒng)計描述
2.2.1 中心趨勢度量:均值、中位數和眾數
2.2.2 度量數據散布:極差、四分位數、方差、標準差和四分位數極差
2.2.3 數據的基本統(tǒng)計描述的圖形顯示
2.3 數據可視化
2.3.1 基于像素的可視化技術
2.3.2 幾何投影可視化技術
2.3.3 基于圖符的可視化技術
2.3.4 層次可視化技術
2.3.5 可視化復雜對象和關系
2.4 度量數據的相似性和相異性
2.4.1 數據矩陣與相異性矩陣
2.4.2 標稱屬性的鄰近性度量
2.4.3 二元屬性的鄰近性度量
2.4.4 數值屬性的相異性:閔可夫斯基距離
2.4.5 序數屬性的鄰近性度量
2.4.6 混合類型屬性的相異性
2.4.7 余弦相似性
2.5 小結
2.6 習題
2.7 文獻注釋
第3章 數據預處理
3.1 數據預處理:概述
3.1.1 數據質量:為什么要對數據預處理
3.1.2 數據預處理的主要任務
3.2 數據清理
3.2.1 缺失值
3.2.2 噪聲數據
3.2.3 數據清理作為一個過程
3.3 數據集成
3.3.1 實體識別問題
3.3.2 冗余和相關分析
3.3.3 元組重復
3.3.4 數據值沖突的檢測與處理
3.4 數據歸約
3.4.1 數據歸約策略概述
3.4.2 小波變換
3.4.3 主成分分析
3.4.4 屬性子集選擇
3.4.5 回歸和對數線性模型:參數化數據歸約
3.4.6 直方圖
3.4.7 聚類
3.4.8 抽樣
3.4.9 數據立方體聚集
3.5 數據變換與數據離散化
3.5.1 數據變換策略概述
3.5.2 通過規(guī)范化變換數據
3.5.3 通過分箱離散化
3.5.4 通過直方圖分析離散化
3.5.5 通過聚類、決策樹和相關分析離散化
3.5.6 標稱數據的概念分層產生
3.6 小結
3.7 習題
3.8 文獻注釋
第4章 數據倉庫與聯(lián)機分析處理
4.1 數據倉庫:基本概念
4.1.1 什么是數據倉庫
4.1.2 操作數據庫系統(tǒng)與數據倉庫的區(qū)別
4.1.3 為什么需要分離的數據倉庫
4.1.4 數據倉庫:一種多層體系結構
4.1.5 數據倉庫模型:企業(yè)倉庫、數據集市和虛擬倉庫
4.1.6 數據提取、變換和裝入
4.1.7 元數據庫
4.2 數據倉庫建模:數據立方體與OLAP
4.2.1 數據立方體:一種多維數據模型
4.2.2 星形、雪花形和事實星座:多維數據模型的模式
4.2.3 維:概念分層的作用
4.2.4 度量的分類和計算
4.2.5 典型的OLAP操作
4.2.6 查詢多維數據庫的星網查詢模型
4.3 數據倉庫的設計與使用
4.3.1 數據倉庫的設計的商務分析框架
4.3.2 數據倉庫的設計過程
4.3.3 數據倉庫用于信息處理
4.3.4 從聯(lián)機分析處理到多維數據挖掘
4.4 數據倉庫的實現(xiàn)
4.4.1 數據立方體的有效計算:概述
4.4.2 索引OLAP數據:位圖索引和連接索引
4.4.3 OLAP查詢的有效處理
4.4.4 OLAP服務器結構:ROLAP、MOLAP、HOLAP的比較
4.5 數據泛化:面向屬性的歸納
4.5.1 數據特征的面向屬性的歸納
4.5.2 面向屬性歸納的有效實現(xiàn)
4.5.3 類比較的面向屬性歸納
4.6 小結
4.7 習題
4.8 文獻注釋
第5章 數據立方體技術
5.1 數據立方體計算:基本概念
5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼
5.1.2 數據立方體計算的一般策略
5.2 數據立方體計算方法
5.2.1 完全立方體計算的多路數組聚集
5.2.2 BUC:從頂點方體向下計算冰山立方體
5.2.3 Star-Cubing:使用動態(tài)星樹結構計算冰山立方體
5.2.4 為快速高維OLAP預計算殼片段
5.3 使用探索立方體技術處理高級查詢
5.3.1 抽樣立方體:樣本數據上基于OLAP的挖掘
5.3.2 排序立方體:top-k查詢的有效計算
5.4 數據立方體空間的多維數據分析
5.4.1 預測立方體:立方體空間的預測挖掘
5.4.2 多特征立方體:多粒度上的復雜聚集
5.4.3 基于異常的、發(fā)現(xiàn)驅動的立方體空間探查
5.5 小結
5.6 習題
5.7 文獻注釋
第6章 挖掘頻繁模式、關聯(lián)和相關性:基本概念和方法
6.1 基本概念
6.1.1 購物籃分析:一個誘發(fā)例子
6.1.2 頻繁項集、閉項集和關聯(lián)規(guī)則
6.2 頻繁項集挖掘方法
6.2.1 Apriori算法:通過限制候選產生發(fā)現(xiàn)頻繁項集
6.2.2 由頻繁項集產生關聯(lián)規(guī)則
6.2.3 提高Apriori算法的效率
6.2.4 挖掘頻繁項集的模式增長方法
6.2.5 使用垂直數據格式挖掘頻繁項集
6.2.6 挖掘閉模式和極大模式
6.3 哪些模式是有趣的:模式評估方法
6.3.1 強規(guī)則不一定是有趣的
6.3.2 從關聯(lián)分析到相關分析
6.3.3 模式評估度量比較
6.4 小結
6.5 習題
6.6 文獻注釋
第7章 高級模式挖掘
7.1 模式挖掘:一個路線圖
7.2 多層、多維空間中的模式挖掘
7.2.1 挖掘多層關聯(lián)規(guī)則
7.2.2 挖掘多維關聯(lián)規(guī)則
7.2.3 挖掘量化關聯(lián)規(guī)則
7.2.4 挖掘稀有模式和負模式
7.3 基于約束的頻繁模式挖掘
7.3.1 關聯(lián)規(guī)則的元規(guī)則制導挖掘
7.3.2 基于約束的模式產生:模式空間剪枝和數據空間剪枝
7.4 挖掘高維數據和巨型模式
7.5 挖掘壓縮或近似模式
7.5.1 通過模式聚類挖掘壓縮模式
7.5.2 提取感知冗余的top-k模式
7.6 模式探索與應用
7.6.1 頻繁模式的語義注解
7.6.2 模式挖掘的應用
7.7 小結
7.8 習題
7.9 文獻注釋
第8章 分類:基本概念
8.1 基本概念
8.1.1 什么是分類
8.1.2 分類的一般方法
8.2 決策樹歸納
8.2.1 決策樹歸納
8.2.2 屬性選擇度量
8.2.3 樹剪枝
8.2.4 可伸縮性與決策樹歸納
8.2.5 決策樹歸納的可視化挖掘
8.3 貝葉斯分類方法
8.3.1 貝葉斯定理
8.3.2 樸素貝葉斯分類
8.4 基于規(guī)則的分類
8.4.1 使用IF-THEN規(guī)則分類
8.4.2 由決策樹提取規(guī)則
8.4.3 使用順序覆蓋算法的規(guī)則歸納
8.5 模型評估與選擇
8.5.1 評估分類器性能的度量
8.5.2 保持方法和隨機二次抽樣
8.5.3 交叉驗證
8.5.4 自助法
8.5.5 使用統(tǒng)計顯著性檢驗選擇模型
8.5.6 基于成本效益和ROC曲線比較分類器
8.6 提高分類準確率的技術
8.6.1 組合分類方法簡介
8.6.2 裝袋
8.6.3 提升和AdaBoost
8.6.4 隨機森林
8.6.5 提高類不平衡數據的分類準確率
8.7 小結
8.8 習題
8.9 文獻注釋
第9章 分類:高級方法
9.1 貝葉斯信念網絡
9.1.1 概念和機制
9.1.2 訓練貝葉斯信念網絡
9.2 用后向傳播分類
9.2.1 多層前饋神經網絡
9.2.2 定義網絡拓撲
9.2.3 后向傳播
9.2.4 黑盒內部:后向傳播和可解釋性
9.3 支持向量機
9.3.1 數據線性可分的情況
9.3.2 數據非線性可分的情況
9.4 使用頻繁模式分類
9.4.1 關聯(lián)分類
9.4.2 基于有區(qū)別力的頻繁模式分類
9.5 惰性學習法(或從近鄰學習)
9.5.1 k-最近鄰分類
9.5.2 基于案例的推理
9.6 其他分類方法
9.6.1 遺傳算法
9.6.2 粗糙集方法
9.6.3 模糊集方法
9.7 關于分類的其他問題
9.7.1 多類分類
9.7.2 半監(jiān)督分類
9.7.3 主動學習
9.7.4 遷移學習
9.8 小結
9.9 習題
9.10 文獻注釋
第10章 聚類分析:基本概念和方法
10.1 聚類分析
10.1.1 什么是聚類分析
10.1.2 對聚類分析的要求
10.1.3 基本聚類方法概述
10.2 劃分方法
10.2.1 k-均值:一種基于形心的技術
10.2.2 k-中心點:一種基于代表對象的技術
10.3 層次方法
10.3.1 凝聚的與分裂的層次聚類
10.3.2 算法方法的距離度量
10.3.3 BIRCH:使用聚類特征樹的多階段聚類
10.3.4 Chameleon:使用動態(tài)建模的多階段層次聚類
10.3.5 概率層次聚類
10.4 基于密度的方法
10.4.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類
10.4.2 OPTICS:通過點排序識別聚類結構
10.4.3 DENCLUE:基于密度分布函數的聚類
10.5 基于網格的方法
10.5.1 STING:統(tǒng)計信息網格
10.5.2 CLIQUE:一種類似于Apriori的子空間聚類方法
10.6 聚類評估
10.6.1 估計聚類趨勢
10.6.2 確定簇數
10.6.3 測定聚類質量
10.7 小結
10.8 習題
10.9 文獻注釋
第11章 高級聚類分析
11.1 基于概率模型的聚類
11.1.1 模糊簇
11.1.2 基于概率模型的聚類
11.1.3 期望最大化算法
11.2 聚類高維數據
11.2.1 聚類高維數據:問題、挑戰(zhàn)和主要方法
11.2.2 子空間聚類方法
11.2.3 雙聚類
11.2.4 維歸約方法和譜聚類
11.3 聚類圖和網絡數據
11.3.1 應用與挑戰(zhàn)
11.3.2 相似性度量
11.3.3 圖聚類方法
11.4 具有約束的聚類
11.4.1 約束的分類
11.4.2 具有約束的聚類方法
11.5 小結
11.6 習題
11.7 文獻注釋
第12章 離群點檢測
12.1 離群點和離群點分析
12.1.1 什么是離群點
12.1.2 離群點的類型
12.1.3 離群點檢測的挑戰(zhàn)
12.2 離群點檢測方法
12.2.1 監(jiān)督、半監(jiān)督和無監(jiān)督方法
12.2.2 統(tǒng)計方法、基于鄰近性的方法和基于聚類的方法
12.3 統(tǒng)計學方法
12.3.1 參數方法
12.3.2 非參數方法
12.4 基于鄰近性的方法
12.4.1 基于距離的離群點檢測和嵌套循環(huán)方法
12.4.2 基于網格的方法
12.4.3 基于密度的離群點檢測
12.5 基于聚類的方法
12.6 基于分類的方法
12.7 挖掘情境離群點和集體離群點
12.7.1 把情境離群點檢測轉換成傳統(tǒng)的離群點檢測
12.7.2 關于情境對正常行為建模
12.7.3 挖掘集體離群點
12.8 高維數據中的離群點檢測
12.8.1 擴充的傳統(tǒng)離群點檢測
12.8.2 發(fā)現(xiàn)子空間中的離群點
12.8.3 高維離群點建模
12.9 小結
12.10 習題
12.11 文獻注釋
第13章 數據挖掘的發(fā)展趨勢和研究前沿
13.1 挖掘復雜的數據類型
13.1.1 挖掘序列數據:時間序列、符號序列和生物學序列
13.1.2 挖掘圖和網絡
13.1.3 挖掘其他類型的數據
13.2 數據挖掘的其他方法
13.2.1 統(tǒng)計學數據挖掘
13.2.2 關于數據挖掘基礎的觀點
13.2.3 可視和聽覺數據挖掘
13.3 數據挖掘應用
13.3.1 金融數據分析的數據挖掘
13.3.2 零售和電信業(yè)的數據挖掘
13.3.3 科學與工程數據挖掘
13.3.4 入侵檢測和預防數據挖掘
13.3.5 數據挖掘與推薦系統(tǒng)
13.4 數據挖掘與社會
13.4.1 普適的和無形的數據挖掘
13.4.2 數據挖掘的隱私、安全和社會影響
13.5 數據挖掘的發(fā)展趨勢
13.6 小結
13.7 習題
13.8 文獻注釋
參考文獻
索引
章節(jié)摘錄
版權頁: 插圖: 第二種技術稱做廣義關系閾值控制,為廣義關系設置一個閾值。如果廣義關系中不同元組的個數超過該閾值,則應當進行進一步泛化;否則,不再進一步泛化。這樣的閾值也可以在數據挖掘系統(tǒng)中提供(通常取值范圍為10~30),或者由專家或用戶設置,并且允許調整。例如,如果用戶感到廣義關系太小,則他可以加大該閾值;這意味著下鉆。否則,為進一步泛化關系,他可以減小該閾值;這意味著上卷。 這兩種技術可以順序使用:首先使用屬性泛化閾值控制技術泛化每個屬性,然后使用關系閾值控制進一步壓縮廣義關系。無論使用哪種泛化控制技術,都應當允許用戶調整泛化閾值,以便得到有趣的概念描述。 在許多面向數據庫的歸納過程中,用戶感興趣的是在不同的抽象層得到數據的量化信息或統(tǒng)計信息。因此,在歸納過程中收集計數和其他聚集值是非常重要的。從概念上講,這可以通過采用如下辦法來實現(xiàn)。聚集函數count()與每個數據庫元組相關聯(lián)。對于初始工作關系的每個元組,它的值被初始化為1。通過刪除屬性和屬性泛化,初始關系中的元組可能被泛化,導致相同的元組分組。在這種情況下,形成一個組的所有相等元組應當合并成一個元組。
編輯推薦
·數據挖掘領域最具里程碑意義的經典著作 ·完整全面闡述該領域的重要知識和技術創(chuàng)新海報:
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載