

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、文本挖掘是指從文本數(shù)據中獲取可理解的、可用的知識的過程,其涉及數(shù)據挖掘、模式識別、信息檢索、自然語言處理等多個領域的內容。本文針對文本挖掘中的若干關鍵問題,例如文本分類的特征抽取、聚類分析以及查詢擴展等,展開了如下的研究: (1)基于鑒別語義分析的文本特征抽取。本文提出一個適用于高維數(shù)據的魯棒線性鑒別模型RDM(Robust linear Discriminant analysisModel)。該模型采用正則化方法提高傳統(tǒng)鑒別分
2、析模型的泛化能力,并引入能量自適應準則自動選擇正則化參數(shù),從而避免了復雜的模型參數(shù)選擇問題。在RDM基礎之上,本文提出一種鑒別語義特征抽取DSF(Discriminative Semantic Feature extraction)算法,該算法在文本的潛在語義空間內進行魯棒鑒別分析,從而抽取出最能體現(xiàn)分類信息的語義特征。文本分類實驗表明DSF算法性能優(yōu)于常用的線性鑒別分析算法,并且其性能不受潛在語義空間維度大小的影響,從而驗證了RDM的
3、魯棒性。 (2)基于局部鑒別索引的文本特征抽取。本文研究面向分類的流形建模方法,提出一個新的文本特征抽取算法一局部鑒別索引LDI(Locality Discriminating Indexing)。該算法用近鄰圖來描述語義空間中文本類內的局部鄰近結構,同時提出入侵圖的概念,并用其自適應地描述不同類別流形在局部區(qū)域內的交疊。LDI算法通過求解廣義特征值問題得到一個在增強類內流形結構緊致性的同時減少不同類流形間交疊的最優(yōu)線性子空間。
4、LDI算法成功地使用流形學習的思想來提高文本的類別可分性,文本分類實驗結果表明局部鑒別索引算法優(yōu)于其它基于流形學習的特征抽取算法。 (3)基于子類合并的文本聚類。針對傳統(tǒng)聚類算法無法發(fā)現(xiàn)復雜文本類別結構的不足,本文提出一個新的自適應子類合并ASM(Adaptive Subcluster Merging)算法。該算法首先將文本集劃分成若干個相似粒度的子類,而后根據類中心密度大于類邊緣密度的假設將部分子類合并,從而得出聚類結果。在合
5、成數(shù)據和文本數(shù)據上的聚類實驗結果表明ASM算法的聚類有效性明顯優(yōu)于最大方差聚類算法,同時也避免了基于密度聚類算法的復雜的參數(shù)選擇過程。 (4)基于局部一致和全局平滑假設的文本半監(jiān)督聚類。無監(jiān)督的聚類的結果很難與數(shù)據的真實類別結構一致。為了解決這一問題,本文提出一種基于局部一致和全局平滑LCGS(Local Consistency and Global Smoothing)的半監(jiān)督聚類算法。LCGS算法將已知的少量標注信息用一個約
6、束等式表示,將局部一致和全局平滑思想體現(xiàn)在目標函數(shù)中,從而將半監(jiān)督聚類問題轉化為一個帶約束的二次優(yōu)化問題,并最終得到一個全局最優(yōu)的聚類結果。在文本數(shù)據上的實驗表明當標注數(shù)據僅占數(shù)據總量的2%時,ICGS算法的聚類有效性就可比無監(jiān)督聚類算法高60%。 (5)融合詞語相關性與語義相似度的查詢擴展。在文本檢索系統(tǒng)中,查詢短小和查詢詞與索引詞不匹配現(xiàn)象會降低系統(tǒng)的檢索精度。為了解決這個問題,本文首先提出一種基于全局分析GA(Global
7、 Analysis)的查詢擴展算法。GA算法通過統(tǒng)計語料集中詞對的互信息和距離得到索引詞間的相關性,從而擴展出與原始查詢最為相關的詞。而后,本文將統(tǒng)計分析得出的詞語相關性與通過知識庫--《知網》得到的語義相似度融合,提出基于相關性和相似度融合RSI(Relevance and Similarity Intergrating)的擴展算法,從而確保擴展詞不僅與查詢相關并且與查詢的主旨相近。實驗結果表明GA算法的性能優(yōu)于局部偽反饋算法,而RS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本語義分析與挖掘的若干關鍵問題研究.pdf
- WEB文本挖掘中關鍵問題的研究.pdf
- 意見挖掘中若干關鍵問題研究.pdf
- 高維數(shù)據挖掘中若干關鍵問題的研究.pdf
- Web使用挖掘若干關鍵問題研究.pdf
- 基于特征的觀點挖掘中的若干關鍵問題研究.pdf
- 時間序列數(shù)據挖掘若干關鍵問題研究.pdf
- 云模型在文本挖掘應用中的關鍵問題研究.pdf
- Rijndael中若干關鍵問題的研究.pdf
- 集成學習中若干關鍵問題的研究.pdf
- 虛擬試衣中若干關鍵問題的研究.pdf
- 面向跨語言文本挖掘的集成學習關鍵問題研究.pdf
- 推薦系統(tǒng)中若干關鍵問題研究.pdf
- 生物信息數(shù)據挖掘若干關鍵問題研究與應用.pdf
- 形狀匹配中的若干關鍵問題研究.pdf
- 物流系統(tǒng)中若干關鍵問題的研究.pdf
- MIMO系統(tǒng)中若干關鍵問題的研究.pdf
- 文本挖掘的若干關鍵算法研究.pdf
- 語義檢索中若干關鍵問題的研究.pdf
- WEB文本情感分類中關鍵問題的研究.pdf
評論
0/150
提交評論