Web主題信息檢索中的語義檢索技術研究及應用.pdf_第1頁
已閱讀1頁,還剩85頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯網的不斷壯大,WEB已成為當今最大的信息載體,是人們獲取信息的主要來源。信息檢索技術作為人們獲取信息的最主要的手段之一已得到了迅速的發(fā)展,但日益增長的網絡信息資源,使得人們準確檢索的需求并不能得到很好的滿足,同時,WEB信息也無法被自動處理和有效利用。其中,最主要的原因在于:過大的資源基數使得通用檢索系統(tǒng)返回的信息廣而不精,且主題漂移現象頻繁出現,用戶將浪費較多的時間和精力來獲取有用信息;另一方面,語義孤島現象,即網絡信息異構、

2、服務異構以及人機理解的差別使得檢索系統(tǒng)的有效召回率和召回精度都大打折扣。
   作為語義網核心的本體技術承擔著語義表達的重要責任,通過本體支持語義,支持人機之間的交流,從而實現機器智能,為Web的發(fā)展帶來了新的契機。本體在主題搜索引擎中的應用,必將對信息檢索系統(tǒng)的易用性和效率產生極大的改進,從而最大程度迎合用戶的檢索需求?;诖?本文設計并構建了一個基于本體的主題信息檢索原型系統(tǒng),力求一定程度上提高信息的有效利用率和檢索系統(tǒng)的效

3、率。主要研究內容和創(chuàng)新有如下幾個方面:
   ①構建了一個計算機技術領域中文本體。在現有本體理論、構建方法和技術的基礎上,綜合應用需求,對傳統(tǒng)的本體建模方法進行了改進和完善。一方面,為確保概念的質量,本文綜合篩選科研文獻關鍵詞、分類主題詞表和一些通用知識庫中的概念;另一方面,以應用需求為導向,明確本體構建目的,一定程度上減少了細節(jié)的干擾?;诖?論文設計并半自動構造了一個計算機技術領域的中文本體,并進行了相關查詢實驗,為進一步基

4、于本體的語義信息檢索應用研究做鋪墊。
   ②基于本體的查詢擴展實現?;陉P鍵詞匹配的通用搜索引擎無法應付語義孤島現象,因此,我們采用概念匹配,即對其進行語義擴展,以求解決相關、相似的信息由于主題詞表達方式的不同而無法被系統(tǒng)檢索和返回。本文的查詢擴展主要是基于概念間的關聯程度。鑒于兩個概念之間的關聯度不僅與其概念之間定義的內在關系(包括公有屬性等)有關,還與其在本體樹中的分布距離相關,也即由結構內和結構外兩因素主導,前者簡稱為相

5、關度,后者為相似度。本文在現有相似度算法研究基礎之上,綜合需求,對最終概念關聯算法進行了改進,并以此設計和實現了一個適合本文原型系統(tǒng)的擴展算法。
   ③基于本體的主題信息檢索原型系統(tǒng)的設計與構建。包括本體查詢子系統(tǒng)和Web主題語義檢索系統(tǒng)兩大模塊。一方面,為了方便用戶對領域概念和知識系統(tǒng)進行了解和隨時查詢,同時也為規(guī)范主題信息檢索系統(tǒng)中查詢的概念表述,論文設計并構建了一個簡單的本體查詢子系統(tǒng),查詢內容有本體概念、屬性以及關系等

6、,并以本體樹的形式對本體進行整體表述。另一方面,在已研究實現的領域本體、概念相似度計算以及查詢擴展模塊的基礎上,論文設計并成功實現了一個web主題語義檢索系統(tǒng),以期改進通用搜索引擎的效率。
   為了驗證改進算法的有效性以及檢索系統(tǒng)的效率,文章最后進行了對比實驗,實驗結果表明,基于本體的主題查詢系統(tǒng)能很好的擴展并返回查詢相關信息,一定程度上提高了基于關鍵詞匹配檢索系統(tǒng)的召回精度和召回率。
   關鍵詞:語義網;本體;主題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論