

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、,《數據挖掘》廣東技術師范學院計科系 葉海山,2,,書 《數據挖掘概念與技術》作者: (加)JIAWEI HAN MICHELINE KAMBER 出版社: 機械工業(yè)出版社網站 1、數據倉庫之路 http://www.dwway.com/ 2、數據挖掘討論組 http://www.dmgroup.org.cn/ 3、數據挖掘研究研 http://www.dmresearch.net/,3,第1章 緒論,1.1
2、初識數據挖掘1.2 初識數據倉庫1.3 進一步理解數據挖掘 1.4 數據挖掘應用實例1.5 數據挖掘的發(fā)展趨勢,4,第1章 緒論,數據挖掘(Data mining, DM)技術是一門綜合性的技術領域,主要涉及數據庫、人工智能和數理統(tǒng)計3個技術領域。,5,第1章 緒論,1.1 初識數據挖掘1.1.1數據挖掘的產生 產生的前提:從大量數據中找出隱藏在其中的、有用的信息和規(guī)律;計算機技術和信息技術的發(fā)展使其有能力處理這樣大量的數據
3、。,6,第1章 緒論,1.1.2數據挖掘的應用價值 應用數據挖掘從大量數據中所發(fā)現的規(guī)律并不是“放置四海而皆準”的規(guī)律,而是面向某一應用的規(guī)律,具有具體的指導意義。 成功例子: 零售業(yè)的沃爾馬“啤酒與尿布”規(guī)律 Google 中國寶山鋼鐵公司1995年開始利用數據挖掘技術提高熱軋產品質量、合理配礦 中國鐵道部1998年開始利用數據挖掘技術分析春運期間的鐵路客流量,挖掘影響鐵路客運總量的關鍵因素 ……,
4、7,第1章 緒論,1.1.3數據挖掘的發(fā)展過程 八十年代人工智能(AI)研究項目失敗后,轉入實際應用時提出的。 1989年國際上第一次關于數據挖掘與知識發(fā)現的研討會在美國的底特律召開,在此次會議上第一次提出了知識發(fā)現(Knowledge Discovery in Database, KDD)一詞。 1995年,在加拿大召開了第一屆KDD和DM國際學術會議。會議對KDD做了確切的定義 。 從九十年代中后期開始,
5、KDD和DM已成為研究的熱點和焦點。,8,,,9,第1章 緒論,1.1.4 數據挖掘的定義 數據挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。 原始數據可以是結構化的也可以是半結構化的。 發(fā)現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。,10,第1章 緒論,1.2 初識數據倉庫1.2.1 數據倉庫的產生
6、1988年IBM愛爾蘭公司第一次提出了“信息倉庫”的概念。 90年代初數據倉庫的基本原理、框架架構,分析系統(tǒng)的主要原則都已經確定,主要的技術已具備,一些公司開始建立數據倉庫。 92年美國著名的信息工程學家William H.Inmon 在《Building the Data Warehouse》(《建立數據倉庫》)一書中首先系統(tǒng)的闡述了數據倉庫的思想、理論。被人們尊稱為“數據倉庫之父”。,11,第1章 緒論,1.2.2
7、數據倉庫的應用價值 傳統(tǒng)數據庫的處理方式——聯機事務處理(On Line Transaction Process,OLTP)與決策分析中的數據需求不相稱,主要表現在: 1.決策處理的系統(tǒng)響應問題 2.決策數據需求的問題 3.決策數據操作的問題 決策分析需要一個能夠不受傳統(tǒng)事務處理的約束、高效率處理決策分析數據的支持環(huán)境,這就是DW存在的價值。,12,第1章 緒論,1.2.3數據倉庫的發(fā)展過程
8、 1995年開始盛行,作為數據庫的高端擴展技術一直是一大熱點。 IBM所推崇的商業(yè)智能(BI)核心就是數據倉庫; 微軟的SQL Server 7.0 已經綁定了OLAP服務器,將數據倉庫功能集成到數據庫中,并建立了數據倉庫聯盟; Oracle公司的Oracle Express系列OLAP產品用來提供決策支持。,13,第1章 緒論,1.2.4 數據倉庫的定義W.H.Inmon的定義:數據倉庫是一個面向主題的、集
9、成的、非易失的且隨時間變化的數據集合,用來支持管理人員的決策。公認的定義:數據倉庫(Data Warehouse,DW)是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。,14,第1章 緒論,1.2.5 數據倉庫與數據挖掘的關系1.DW系統(tǒng)的數據可以作為DM的數據源 DW系統(tǒng)能夠滿足DM技術對數據環(huán)境的要求,可以直接作為DM的數據源。 2.DM的數據源不一定必須是
10、DW系統(tǒng) DM的數據源不一定必須是DW,可以是任何數據文件或格式,但必須事先進行數據預處理,處理成適合DM的數據。,15,第1章 緒論,1.3 進一步理解數據挖掘 1.3.1數據挖掘的功能(7個方面):1.概念描述:對某類對象的內涵進行描述,并概括這類對象的有關特征。(1)特征性描述——共同特征(2)區(qū)別性描述——相互區(qū)別2.關聯分析 若兩個或多個變量間存在著某種規(guī)律性,就稱為關聯。 關聯分析的目的就是找出數據中隱
11、藏的關聯網。,16,第1章 緒論,3.分類與預測(1)分類——依照所分析對象的屬性分門別類,加以定義,建立組類。(2)預測——利用歷史數據建立模型,再運用最新數據作為輸入值,獲得未來變化的趨勢或者評估給定樣本可能具有的屬性值或值的范圍。4.聚類分析 客觀地按被處理對象的特征分類,將有相同特征的對象歸為一類。5.趨勢分析 趨勢分析——時間序列分析,從相當長的時間的發(fā)展中發(fā)現規(guī)律和趨勢。,17,第1章 緒論,6.孤立點分析
12、 孤立點:數據庫中包含的一些與數據的一般行為或模型不一致的數據。7.偏差分析 偏差分析——比較分析,是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F象,18,第1章 緒論,1.3.2 數據挖掘常用技術1.聚類檢測方法 無指導的知識發(fā)現或無監(jiān)督學習,使同一個簇內的任意兩個對象之間具有較高的相似性,不同簇間的兩個對象之間具有較高的相異性。,19,第1章 緒論,2.決策樹方法 應用于分類和預測,提供了一種展示在什么條件
13、下會得到什么值這類規(guī)則的方法,一個決策樹表示一系列的問題,每個問題決定了繼續(xù)下去的問題會是什么。 適合于處理非數值型數據,需要在生成決策樹后再對決策樹進行剪枝處理,最后將決策樹轉化為規(guī)則,用于對新事例進行分類。,20,第1章 緒論,3.人工神經網絡方法 主要用于分類、聚類、特征挖掘、預測等方面。通過向一個訓練數據集學習和應用所學知識生成分類和預測的模式。 神經網絡的結構分為輸入層、輸出層和隱含層(中間層)。
14、 人工神經網絡方法:前饋式網絡、反饋式網絡和自組織網絡。,21,第1章 緒論,4.遺傳算法 模仿人工選擇培育良種的思路,從一個初始規(guī)則集合開始,迭代的通過交換對象成員產生群體(繁殖),評估并擇優(yōu)復制逐代積累計算,最終得到最有價值的知識集。 遺傳算法基本算子: 繁殖——從舊種群選擇生命力強的個體產生新種群 交叉——選擇兩個不同個體的部分進行交換,形成新個體 變異——對某些個體的某些基因進行變異,22,5.關
15、聯分析方法,適合于從關系中挖掘知識包含:(1)關聯發(fā)現算法:得到關聯規(guī)則、找出關聯組合,在關聯組合中,如果出現某一項,則另一項也會出現。(2)序列模式發(fā)現算法:發(fā)現在時間序列上,一個項目集之后的項目集是什么,即找到時間上連續(xù)的事件。(3)類似的時序發(fā)現算法:先找到一個事件順序,再推測出其他類似的事件順序。,23,第1章 緒論,6.基于記憶的推理算法 使用一個模型的已知實例(基本數據集或訓練數據集)來預測未知的實例
16、。,24,1.3.3 數據挖掘的過程,,1.確定業(yè)務對象2.數據準備:數據的選擇、數據的預處理和數據的轉換。3.數據挖掘4.結果分析及知識同化,25,典型數據挖掘系統(tǒng)的體系結構,,,,,,數據倉庫,,,,,,,,數據清洗,過濾,,,,,數據庫,,,數據庫或數據倉庫服務器,數據挖掘引擎,模式評估,圖形用戶界面,,,,,,,,,,知識庫,數據集成,26,并非所有的東西都是數據挖掘,基于數據倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數據的匯
17、總,而數據挖掘系統(tǒng)可以對數據進行多種復雜的處理。機器學習系統(tǒng),數據統(tǒng)計分析系統(tǒng)這些系統(tǒng)所處理的數據容量往往很有限。信息系統(tǒng)專注于當前數據的查詢處理,服務于日常應用。相比于上述系統(tǒng),數據挖掘系統(tǒng)關注更廣的范圍,是一個多學科的融合。,27,在何種數據上進行數據挖掘(數據源),關系數據庫RDBMS數據倉庫事務數據庫高級數據庫系統(tǒng)和信息庫空間數據庫時間數據庫和時間序列數據庫流數據多媒體數據庫面向對象數據庫和對象-關系
18、數據庫異種數據庫和歷史(legacy)數據庫文本數據庫和萬維網(WWW),28,1.關系數據庫,DBMS--相互關聯的數據集合和一套用于管理和訪問數據的軟件程序,建立數據庫結構定義、數據存儲、并發(fā)、共享、分布式訪問、保證信息存儲一致性和安全性的機制。數據庫(Database)由一系列表(Table)組成,其中Table是一個行列二維表結構。數據挖掘在DBMS中的作用用SQL可以做什么?
19、 –上個季度賣出了什么商品?–給我列出上月每個部門的總銷售量–哪個銷售員賣出的商品最多Data Mining又能做什么?–預測新顧客的信譽風險–檢查商品銷售變差的原因它是數據挖掘研究的主要數據形式,29,2.數據倉庫,從多個數據源搜集數據,存儲于一個統(tǒng)一的數據模式下,通常駐留在單一站點。特點: 面向主題的,集成的,時變的,非易失的;,30,3.事務數據庫,存儲事務信息的數據庫,由一個文件組成,其中每個記錄
20、代表一個事務。,31,空間數據庫,空間數據庫是指在關系型數據庫(DBMS)內部對地理信息進行物理存儲??臻g數據庫中存儲的海量數據包括對象的空間拓撲特征、非空間屬性特征以及對象在時間上的狀態(tài)變化。用途–森林和生態(tài)環(huán)境計劃–提供公共設施(電話、電纜、管道、污水排放)信息數據挖掘技術的應用:–回答某一區(qū)域的居民分布情況–分析氣候、交通等因素對城市居民遷移的作用,32,時間數據庫和時序數據庫,兩者都存儲與時間有關的數據時間數據庫通
21、常存放包含時間相關屬性的數據。時序數據庫存放隨時間變化的值序列(例如:股票交易) 。數據挖掘的作用,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質規(guī)律,可以發(fā)現數據對象的演變特征或對象變化趨勢。–發(fā)現對象演化特征和變化趨勢–銀行根據顧客流量調度銀行操作–股票投資決策,33,流數據,與傳統(tǒng)的數據庫技術中的靜態(tài)數據不同,流數據是連續(xù)的、有序的、變化的、快速的、大量的數據輸入的數據。主要應用場合網絡監(jiān)控網頁點擊流流媒
22、體…等等與傳統(tǒng)數據庫技術相比,流數據在存儲、查詢、訪問、實時性的要求等方面都有很大區(qū)別。,34,多媒體數據庫,多媒體數據庫實現用計算機管理龐大復雜的多媒體數據,主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現代數據庫技術一般將這些多媒體數據以二進制大對象的形式進行存儲。對于多媒體數據庫的數據挖掘,需要將存儲和檢索技術相結合。目前的主要方法包括構造多媒體數據立方體、多媒體數據庫的
23、多特征提取和基于相似性的模式匹配。,35,面向對象數據庫和對象-關系數據庫,面向對象數據庫是面向對象技術和數據庫技術結合的產物,該技術對數據以對象的形式進行存儲,并在這個基礎上實現了傳統(tǒng)數據庫的功能,包括持久性、并發(fā)控制、可恢復性、一致性和查詢數據庫的能力等。對象-關系數據庫基于對象-關系模型構造,該模型通過處理復雜對象的豐富數據類型和對象定位等功能,擴充關系模型。面向對象數據庫和對象-關系數據庫中的數據挖掘會涉及一些新的技術,比如
24、處理復雜對象結構、復雜數據類型、類和子類層次結構、構造繼承以及方法和過程等等。,36,異構數據庫和歷史遺留(legacy)數據庫,歷史遺留數據庫是隨著信息技術發(fā)展中所保留下來的一系列數據庫是十分有用的。這些數據庫可能是關系數據庫、層次數據庫、網狀數據庫、文件系統(tǒng)等等。數據挖掘必須處理各種數據庫間的轉換問題 WEB SERVICE技術的出現有利于異構數據庫數據的重新利用。,37,文本數據庫和萬維網(WWW),文本數據庫存儲的是對對象的
25、文字性描述,通常是長句和段落,如作者信息、錯誤報告等。文本數據庫的分類無結構類型(大部分的文本資料和網頁)半結構類型(XML數據)結構類型(圖書館數據)萬維網(WWW)可以被看成最大的文本數據庫非結構化、缺乏統(tǒng)一的模式前景樂觀、困難教多數據挖掘內容WEB內容檢索WEB結構檢索WEB訪問模式檢索,38,1.4 數據挖掘應用實例,1.4.1 應用領域 1.金融業(yè) 2.保險業(yè) 3.零售業(yè) 4.科學研究
26、 5.其他領域1.4.2 典型案例,39,數據挖掘在企業(yè)的應用——市場分析和管理,數據從那里來?信用卡交易, 會員卡, 商家的優(yōu)惠卷, 消費者投訴電話, 公眾生活方式研究目標市場構建一系列的“客戶群模型”,這些顧客具有相同特征: 興趣愛好, 收入水平, 消費習慣,等等確定顧客的購買模式應用1:交叉市場分析貨物銷售之間的相互聯系和相關性,以及基于這種聯系上的預測,40,,應用2:顧客分析哪類顧客購買那種商品 (聚類分析或分
27、類預測)應用3:客戶需求分析確定適合不同顧客的最佳商品預測何種因素能夠吸引新顧客應用4:提供概要信息多維度的綜合報告統(tǒng)計概要信息 (數據的集中趨勢和變化),41,數據挖掘在企業(yè)的應用——公司分析和風險管理,財務計劃現金流轉分析和預測交叉區(qū)域分析和時間序列分析(財務資金比率,趨勢分析等等)資源計劃總結和比較資源和花費競爭對競爭者和市場趨勢的監(jiān)控 將顧客按等級分組和基于等級的定價過程將定價策略應用于競爭更激烈的市
28、場中,42,數據挖掘在企業(yè)的應用——欺詐行為檢測和異常模式的發(fā)現,方法: 對欺騙行為進行聚類和建模,并進行孤立點分析應用: 保險、衛(wèi)生保健、零售業(yè)、信用卡服務、電信等汽車保險: 對相撞事件的分析 ,發(fā)掘索賠是否是欺詐行為洗錢: 發(fā)現可疑的貨幣交易行為 醫(yī)療保險職業(yè)病人, 醫(yī)生以及相關數據分析不必要的或相關的測試電信: 電話呼叫欺騙行為電話呼叫模型: 呼叫目的地,持續(xù)時間,日或周呼叫次數. 分析該模型發(fā)現與期待標準的偏差
29、零售產業(yè)分析師估計有38%的零售額下降是由于雇員的不誠實行為造成的,43,反思1:所有模式都是有趣的嗎?,數據挖掘可能產生數以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個模式是有趣的,則其滿足四個條件:它易于被人理解 ;在某種程度上,對于新的或測試數據是有效的;具有潛在效用;新穎的;模式興趣度的客觀和主觀度量客觀度量: 基于所發(fā)現模式的結構和關于它們的統(tǒng)計, 比如: 支持度Supp
30、ort、置信度Confidence等等主觀度量: 基于用戶對數據的判斷。比如:出乎意料的、新穎的、可行動的等等,44,反思2:能夠產生所有有趣模式并且僅產生有趣模式嗎?,找出所有有趣的模式: 數據挖掘算法的完全性問題數據挖掘系統(tǒng)能夠產生所有有趣的模式嗎?試探搜索 vs.窮舉搜索關聯 vs. 分類 vs. 聚類只搜索有趣的模式: 數據挖掘算法的最優(yōu)化問題數據挖掘系統(tǒng)可以僅僅發(fā)現有趣的模式嗎?方法首先生成所有模式然后過濾那些
31、無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化,45,數據挖掘系統(tǒng)的分類,數據挖掘的多學科融合的特性,決定了數據挖掘的研究將產生種類繁多的數據挖掘系統(tǒng)。根據所挖掘的數據庫分類關系數據庫,事務數據庫,流式數據,面向對象數據庫,對象關系數據庫,數據倉庫,空間數據庫,時序數據庫,文本數據庫,多媒體數據庫,異構數據庫,歷史數據庫,WWW,46,,根據挖掘的知識類型特征分析, 區(qū)分, 關聯分析, 分類聚類, 孤立點分析/演變分析, 偏差分析等等
32、.多種方法的集成和多層機挖掘根據挖掘所用的技術面向數據庫的挖掘、數據倉庫 、OLAP、機器學習、統(tǒng)計學、可視化等等.根據挖掘所用的應用金融,電信,銀行, 欺詐分析, DNA分析,股票市場, Web挖掘等等.,47,1.5 數據挖掘的發(fā)展趨勢,1.5.1 數據挖掘研究方向專門用于知識發(fā)現的形式化和標準化的數據挖掘語言;數據挖掘過程中的便于用戶理解的及人機交互的可視化方法;網絡環(huán)境下的數據挖掘技術;加強對各種非結構化數據的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論