基于擴展語義消歧的生物醫(yī)學命名實體標準化.pdf_第1頁
已閱讀1頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著生物醫(yī)學文獻數量的急劇增長,海量的生物醫(yī)學信息成為制約生物醫(yī)學研究者研究的重要因素。一方面,生物醫(yī)學研究人員很難迅速查找蘊藏在這些浩如煙海的生物醫(yī)學文獻中的具有價值的信息,因此也幾乎不可能通過人工的方式及時更新知識。與此同時,生物醫(yī)學領域具有十分豐富的在線和離線知識資源。生物醫(yī)學研究人員可以利用這些知識資源作為輔助,通過對已有知識資源進行科學的表示并依此來學習新文獻中的知識,從而來進一步更新和完善這些生物醫(yī)學知識資源,進而達到輔助生

2、物醫(yī)學研究人員研究工作的目的。構建這些知識資源的過程往往需要耗費大量的人力物力財力,同時也受到知識資源構建人員學術背景等主觀因素的制約。于是研究人員迫切需要一種自動的方法來解決文獻急劇增長和無法及時更新知識這對矛盾。生物醫(yī)學命名實體標準化正由此應運而生。
   生物醫(yī)學命名實體標準化是生物醫(yī)學文本挖掘研究中重要的基礎環(huán)節(jié),它不僅與生物醫(yī)學命名實體識別研究緊密聯系,而且對后續(xù)實體關系抽取以及假設發(fā)現具有十分重要的意義。眾所周知,基

3、因和蛋白質是最重要的生物醫(yī)學命名實體,它們對于生物醫(yī)學研究人員的研究具有十分重要的價值。因此,生物醫(yī)學命名實體標準化研究的重點細化為基因提及標準化研究?;蛱峒皹藴驶闹饕蝿帐亲R別出生物醫(yī)學文獻中提及的基因和蛋白質以及正確建立這些基因提及與標準生物醫(yī)學數據庫中的標識符之間的映射關系。通過這種方式可以降低構造相關知識資源的成本。因此,生物醫(yī)學命名實體標準化具有很高的應用價值。
   本文首先介紹了生物醫(yī)學文本挖掘領域中的基因提及

4、標準化研究的概況。其次把如何利用知識資源對基因提及進行消歧作為研究范疇。從利用相關反饋知識對消歧問題進行初步嘗試入手,深入調研本領域相關文獻,最終形成本文的核心方法。
   本文基于擴展語義輪廓消歧的標準化方法主要由四個部分組成:
   第一部分是對原始的生物醫(yī)學摘要文本進行預處理,利用現有的命名實體識別系統(tǒng)對處理后的摘要文本進行識別。與此同時,把BioCreative II組織者提供的字典與數據庫資源中的基因提及同義字

5、信息進行合并,從而構建字典。最后對生成的字典進行規(guī)范化處理,使其盡量消除由名稱拼寫差別造成的誤差。
   第二部分是構造候選基因提及標識符列表。這部分主要的功能是把識別出來的基因提及通過搜索匹配的方法與生物學數據庫中的標識符進行對應,其中具有歧義的基因提及由下一步消歧方法來確定一個唯一的數據庫標識符。
   第三部分采用基于信息檢索的擴展語義信息來進行消歧,并將這種信息轉化為特征向量。最后,采用基于wikipedia的后

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論