

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,Web已經(jīng)成為一個(gè)巨大的數(shù)據(jù)源,擁有海量數(shù)據(jù)。如何高效、全面、準(zhǔn)確的集成Web上有價(jià)值的信息,為市場(chǎng)情報(bào)分析、搜索引擎、智能問(wèn)答等系統(tǒng)提供數(shù)據(jù)支持,豐富市場(chǎng)情報(bào)分析和智能問(wèn)答等系統(tǒng)的知識(shí)庫(kù),幫助完善分析推理的結(jié)果,使搜索引擎返回更加精準(zhǔn)的檢索數(shù)據(jù),成為數(shù)據(jù)集成、信息檢索、自然語(yǔ)言理解等領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。要集成Web數(shù)據(jù),首要問(wèn)題是如何將Web上的無(wú)結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)通過(guò)信息抽取技術(shù)轉(zhuǎn)變?yōu)橛?jì)算機(jī)可讀的結(jié)構(gòu)化數(shù)
2、據(jù)。
Web數(shù)據(jù)具有大規(guī)模、異構(gòu)性、自治性、分布式等特點(diǎn),現(xiàn)有的信息抽取技術(shù)無(wú)法同時(shí)滿(mǎn)足高效、全面和準(zhǔn)確的數(shù)據(jù)集成需求。一方面,在面對(duì)大規(guī)模、分布式的Web數(shù)據(jù)時(shí),現(xiàn)有的信息抽取技術(shù)旨在高效的抽取Web上的命名實(shí)體、實(shí)體關(guān)系和實(shí)體屬性(數(shù)據(jù)對(duì)象),但是抽取方法受抽取對(duì)象領(lǐng)域的限制,抽取結(jié)果較為簡(jiǎn)單,信息內(nèi)容不夠豐富;另一方面,面對(duì)異構(gòu)性、自治性強(qiáng)的無(wú)結(jié)構(gòu)化Web數(shù)據(jù),現(xiàn)有的信息抽取技術(shù)旨在抽取結(jié)果的準(zhǔn)確性,抽取效率不能滿(mǎn)足大規(guī)
3、模信息抽取的需要。
本文致力于研究Web信息抽取技術(shù),目標(biāo)在于在保障抽取結(jié)果準(zhǔn)確率的前提下,面向大規(guī)模、異構(gòu)性的Web數(shù)據(jù),充分挖掘Web上的有價(jià)值信息,豐富信息抽取的內(nèi)容。Web上存存大量描述實(shí)體行為活動(dòng)的數(shù)據(jù),現(xiàn)有的信息抽取技術(shù)未能詳細(xì)刻畫(huà)和抽取實(shí)體活動(dòng)這一類(lèi)特殊信息;面對(duì)大規(guī)模Web數(shù)據(jù),現(xiàn)有的關(guān)系抽取技術(shù)主要以二元關(guān)系為抽取對(duì)象,并未考慮二元關(guān)系的時(shí)效性,從而導(dǎo)致關(guān)系實(shí)例的可用性較差。
本文針對(duì)現(xiàn)有Web信息
4、抽取技術(shù)未能充分利用Web上有價(jià)值的數(shù)據(jù),抽取結(jié)果內(nèi)容不夠豐富,可用性差的問(wèn)題展開(kāi)研究,主要上作和貢獻(xiàn)概括如下:
1.提出一種基于SVM和擴(kuò)展條什隨機(jī)場(chǎng)的Web實(shí)體活動(dòng)抽取方法,能夠面向多領(lǐng)域,準(zhǔn)確的從Web數(shù)據(jù)源抽取實(shí)體活動(dòng)這一未被利用的數(shù)據(jù)類(lèi)型。
Web實(shí)體活動(dòng)是指存在于Web上描述實(shí)體行為活動(dòng)的數(shù)據(jù),傳統(tǒng)信息抽取技術(shù)較少單獨(dú)考慮這一特殊的數(shù)據(jù)類(lèi)型。本文首先對(duì)Web實(shí)體活動(dòng)進(jìn)行了詳細(xì)刻畫(huà),基于格語(yǔ)法提出了實(shí)體活動(dòng)
5、的形式化定義,并提出一種基于SVM和擴(kuò)展條件隨機(jī)場(chǎng)的Web實(shí)體活動(dòng)抽取方法,能夠從Web上準(zhǔn)確的抽取實(shí)體的活動(dòng)信息。首先,為了避免人工標(biāo)注訓(xùn)練數(shù)據(jù)的繁重工作,提出一種基于啟發(fā)式規(guī)則的訓(xùn)練數(shù)據(jù)生成算法,將語(yǔ)義角色標(biāo)注的訓(xùn)練數(shù)據(jù)集轉(zhuǎn)化為適合Web實(shí)體活動(dòng)抽取的訓(xùn)練數(shù)據(jù)集,分別訓(xùn)練支持向量機(jī)分類(lèi)器和擴(kuò)展條件隨機(jī)場(chǎng)。在抽取過(guò)程中,通過(guò)分類(lèi)器獲得包含實(shí)體活動(dòng)的有效語(yǔ)句,然后利用擴(kuò)展條件隨機(jī)場(chǎng)對(duì)傳統(tǒng)條件隨機(jī)場(chǎng)中不能夠利用的標(biāo)簽頻率特征和關(guān)系特征建模
6、,標(biāo)注自然語(yǔ)句中的待抽取信息,提高標(biāo)注的準(zhǔn)確率。通過(guò)多領(lǐng)域的實(shí)驗(yàn)證明,該抽取方法能夠較好的適用于Web實(shí)體活動(dòng)抽取。
2.提出了一種白舉式Web實(shí)體關(guān)系時(shí)效信息抽取方法,有效解決了傳統(tǒng)關(guān)系抽取中時(shí)間維度缺失的問(wèn)題,豐富抽取內(nèi)容,增強(qiáng)抽取結(jié)果的可用性。
傳統(tǒng)關(guān)系抽取主要以二元關(guān)系抽取為研究對(duì)象,但是現(xiàn)有抽取技術(shù)都是在假定關(guān)系實(shí)例時(shí)間無(wú)關(guān)性的基礎(chǔ)上進(jìn)行的,導(dǎo)致了抽取結(jié)果的時(shí)間維度缺失、可以性差。針對(duì)以上問(wèn)題,本文提出了一
7、種自舉式的Web實(shí)體關(guān)系實(shí)效信息抽取方法,該方法能夠抽取給定關(guān)系類(lèi)型下所有關(guān)系實(shí)例以及關(guān)系實(shí)例對(duì)應(yīng)的時(shí)效信息。方法中,首先對(duì)待抽取的3元關(guān)系:二元關(guān)系中的2個(gè)實(shí)體以及關(guān)系的時(shí)效信息,進(jìn)行重新建模,通過(guò)將實(shí)體關(guān)系視作一個(gè)事實(shí)維度形成新的二元關(guān)系,最后利用經(jīng)典的白舉式二元關(guān)系抽取方泫進(jìn)行關(guān)系實(shí)例和時(shí)效信息的抽取。相比傳統(tǒng)的白舉式抽取過(guò)程,本文引入馬爾科大邏輯網(wǎng),用于弱化規(guī)則和模板的硬性約束,提高抽取的召回率;通過(guò)引入L1范數(shù)模型選擇高質(zhì)量模
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 地名本體實(shí)體與關(guān)系抽取研究.pdf
- 電子病歷實(shí)體關(guān)系抽取研究.pdf
- 跨語(yǔ)言實(shí)體關(guān)系抽取研究.pdf
- 信息抽取中實(shí)體關(guān)系識(shí)別研究.pdf
- 音樂(lè)領(lǐng)域全局實(shí)體關(guān)系抽取研究.pdf
- 半監(jiān)督中文實(shí)體關(guān)系抽取研究.pdf
- 基于本體的實(shí)體關(guān)系抽取與檢索.pdf
- 開(kāi)放式中文實(shí)體關(guān)系抽取研究.pdf
- 基于KSVM的中文實(shí)體關(guān)系抽取研究.pdf
- 基于SVM的中文實(shí)體關(guān)系抽取研究.pdf
- 命名實(shí)體間語(yǔ)義關(guān)系抽取研究.pdf
- 音樂(lè)領(lǐng)域中文實(shí)體關(guān)系抽取研究.pdf
- Web實(shí)體間關(guān)系發(fā)現(xiàn).pdf
- 中文開(kāi)放式實(shí)體關(guān)系抽取研究與實(shí)現(xiàn).pdf
- 實(shí)體關(guān)系自動(dòng)抽取技術(shù)的比較研究.pdf
- 中文電子病歷實(shí)體關(guān)系抽取研究.pdf
- 命名實(shí)體識(shí)別及其關(guān)系抽取.pdf
- 面向金融文本的實(shí)體識(shí)別與關(guān)系抽取研究.pdf
- 中文文本實(shí)體關(guān)系抽取方法研究.pdf
- 實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論