數(shù)據(jù)挖掘中增量聚類算法的研究.pdf_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘技術(shù)領(lǐng)域中一項(xiàng)重要的數(shù)據(jù)分析技術(shù)——聚類分析技術(shù)在許多重要方面都得到了廣泛的應(yīng)用,近年來得到了廣泛的研究,并取得了較快的發(fā)展。其實(shí),聚類問題實(shí)質(zhì)上是把待處理的原始樣本數(shù)據(jù)對(duì)象通過某種相似性準(zhǔn)則函數(shù)被分為若干類,想要達(dá)到的結(jié)果就是同一組相似性盡可能高,不同組之間差異性盡可能大,然后在這些不同組之間尋找聯(lián)系,進(jìn)行進(jìn)一步的操作。目前研究的聚類分析大致可以分為:劃分聚類(Partitioning clustering)、層次聚類(Hie

2、rarchical clustering)、網(wǎng)格聚類(Grid-based clustering)、密度聚類(Density clustering)、模糊聚類(Fuzzy Clustering Algorithm)、模型聚類(Model clustering)等。
  聚類K-means方法是一種基于分割的聚類算法,由于其易于實(shí)現(xiàn),易于操作,簡(jiǎn)單高效,被廣大研究學(xué)者廣泛用于研究。但也有一些缺陷,K-means方法在選取初始中心進(jìn)行

3、聚類時(shí)采取的是隨機(jī)選取的形式,這就使得聚類結(jié)果將遵循初始中心選擇變化,因此,本文在K-means方法的基礎(chǔ)之上,針對(duì)K-means方法存在的不足之處進(jìn)行了鉆研與應(yīng)用,主要的鉆研有以下幾個(gè)方面:
  1.對(duì)于傳統(tǒng)的K-means方法進(jìn)行了探討,針對(duì)傳統(tǒng)K-means聚類算法初始聚類中心隨機(jī)選取的缺陷進(jìn)行改進(jìn),本文根據(jù)KD-樹這種高效的數(shù)據(jù)結(jié)構(gòu)對(duì)K-means方法進(jìn)行改進(jìn)提出了優(yōu)化中心選取的新方法。該方法引入KD-樹這種數(shù)據(jù)結(jié)構(gòu),將數(shù)

4、據(jù)集建立KD-樹,通過對(duì)KD-樹中矩形單元的分割、計(jì)算、排序等操作,選取出能夠表示樣本數(shù)據(jù)分布形態(tài)的k個(gè)非噪聲點(diǎn)的初始聚類中心;根據(jù)上述提出的算法,結(jié)合優(yōu)化選取的k個(gè)代表樣本數(shù)據(jù)空間分布形態(tài)的初始聚類中心和增量數(shù)據(jù)建立新的KD-樹,通過近鄰搜索將增量數(shù)據(jù)劃分到對(duì)應(yīng)的類中,完成增量數(shù)據(jù)的動(dòng)態(tài)聚類過程。
  2.傳統(tǒng)協(xié)同過濾算法應(yīng)用的樣本數(shù)據(jù)空間都會(huì)轉(zhuǎn)化為用戶-項(xiàng)目評(píng)分矩陣,但是矩陣中會(huì)出現(xiàn)“0”值或是空值,使得轉(zhuǎn)化后的評(píng)分矩陣數(shù)據(jù)稀

5、疏,本文中提出的算法機(jī)制是結(jié)合了聚類分析的技術(shù)和協(xié)同過濾的技術(shù)同時(shí)產(chǎn)生商品推薦。其中主要是在聚類分析算法中選擇了K-means方法進(jìn)行了研究與使用,K-means方法存在一個(gè)最典型的缺陷就是聚類初始階段隨機(jī)選取中心點(diǎn),本文的新方法先是利用Kruskal最小生成樹算法改進(jìn)K-means的不足,提出了一種Kruskal改進(jìn)的K-means聚類方法—KrusK-means算法。接下來在協(xié)同過濾推薦機(jī)制中同時(shí)利用KrusK-means算法對(duì)項(xiàng)目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論