機器學習算法在生物信息學中的應用.pdf_第1頁
已閱讀1頁,還剩84頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、20世紀后期,人類和其他生物物種基因組學的研究飛速發(fā)展,生物信息的增長驚人,生物科學技術(shù)極大地豐富了生物科學的數(shù)據(jù)資源。數(shù)據(jù)資源的急劇膨脹迫使人們尋求一種強有力的工具,運用新的技術(shù)手段對復雜的海量生物信息進行儲存、管理、分析和研究,組織這些數(shù)據(jù),以利于儲存、加工和進一步利用,有效管理、準確解讀、充分使用這些信息。 本文的工作就是應用機器學習方法來對生物信息數(shù)據(jù)進行分析,處理。本文的主體工作分為三個部分: 1.用集成學習算

2、法研究蛋白質(zhì)亞細胞定位預測。蛋白質(zhì)的亞細胞位置,是蛋白質(zhì)的一個重要性質(zhì),能夠表明蛋白質(zhì)在細胞中的功能。預報蛋白質(zhì)亞細胞位置,在基因注釋和藥物設計工作中,都扮演了很重要的角色。本文用基于序列氨基酸組成成分進行蛋白質(zhì)序列特征編碼,選用了AdaBoost與Bagging這兩種最重要的集成學習算法來對訓練數(shù)據(jù)集進行建模。在建模過程中,分別嘗試了用4種不同的弱分類器來訓練樣本,并用基于交叉驗證法的建模結(jié)果來對建模參數(shù)進行優(yōu)化。結(jié)果表明:用AdaB

3、oost隨機森林算法作為弱分類器時有最好的建模結(jié)果,交叉驗證預報正確率為76.51%;Bagging用最近鄰算法作為弱分類器時有最好的建模結(jié)果74.21%。用獨立測試樣本集對訓練好的預報模型進行驗證,AdaBoost與Bagging的最大預報正確率分別為80.75%和80.90%,優(yōu)于SVM方法所得結(jié)果(SVM的訓練模型交叉驗證預報正確率為76.46%,獨立測試樣本集預報正確率為76.98%)。 2.用支持向量機回歸算法(SVR

4、)對1-苯基-2氫-四氫三嗪-3-酮同系物進行QSAR研究。1-苯基-2氫-四氫三嗪-3-酮同系物可用作5-脂抗氧化酶抑制劑。本工作中用來自文獻的12個拓撲指數(shù)與Hyperchem計算得到的17個物理化學參數(shù)作為初始分子描述符,然后用基于SVR留一交叉驗證法進行變量篩選,最終得到8個分子描述符用于建立預報模型。該模型的留一交叉驗證法的RMSE(最小殘差平方和)為0.2834,作為對比,多元線性回歸算法(MIR)、偏最小二乘法(PLS)、

5、人工神經(jīng)網(wǎng)絡(ANN)的RMSE分別為0.4301、0.4379、0.4039;SVM與MLR、PLS、ANN的獨立測試集驗證結(jié)果的RMSE分別為0.2834、0.3316、0.3470和0.3581。 3.提出了一種基于MVC架構(gòu)的服務器設計途徑,建立了基于已得模型的在線預報服務器。建立生物信息學預報模型的目的是為了提供對生物信息中的未知對象進行預報的工具,使得預測結(jié)果能夠為他人所用。為了更好的達到這個目的,將研究得到的預報模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論