

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、“人文計算”是一個將現(xiàn)代信息技術融入到傳統(tǒng)人文社會科學研究中的交叉研究領域。隨著“互聯(lián)網+”概念的興起,數字化浪潮持續(xù)推進,“人文計算”已成為情報學、語言學和中文信息處理領域的重要研究課題。近幾年來,情報語言學界更是涌現(xiàn)了一批古籍數字化、古漢語文獻語料庫資源建設等人文計算領域的新項目。當前,現(xiàn)代漢語相關的信息處理研究已經深入到篇章層面,但古代漢語相關的信息處理大多仍停留在字處理的階段,因而,對古代漢語詞匯級層面的相關知識進行探索,對于我
2、們完善現(xiàn)有的古漢語信息處理研究體系具有十分重要的現(xiàn)實意義。本文中的上古文獻指的是先秦時期的古漢語文獻,在研究過程中,運用了語料庫、人文計算、機器統(tǒng)計模型、復雜網絡等領域的相關知識,開展了古漢語文獻詞匯級層面的知識挖掘工作。
本文的總體研究目標就是融合數字人文的思想開展先秦古漢語詞匯級層面的知識挖掘研究,運用情報語言學領域內的多種研究方法,探尋上古文獻語料庫中蘊含的有用知識,研究結果一方面可以幫助人們探索漢語言的發(fā)展歷史和規(guī)律,
3、另一方面為古漢語信息處理以及情報知識發(fā)現(xiàn)服務。
本文的研究都是基于由25部具有代表性的先秦古文獻所構建的上古漢語語料庫開展的,主要研究內容包括如下三個部分:一是進行上古文獻的古漢語語料庫構建標注研究,這部分首先介紹了這25部先秦古文獻的基本情況,接著分別介紹了古漢語語料庫、古漢語分詞、古漢語詞性標注以及命名實體識別的相關知識,最后選取語料庫中的部分上古文獻進行了簡單的字詞分布統(tǒng)計,并對其中的內部規(guī)律作了分析;二是基于條件隨機場
4、模型與古漢語語言規(guī)則相結合的方法進行古漢語的分詞及詞性訓練模型研究,這部分首先詳細介紹了條件隨機場模型的相關知識以及如何對古漢語語料進行預處理、如何選取特征模板,然后針對上古漢語語料庫設計了基于條件隨機場模型的封閉性測試及開放性測試兩組對比實驗,在這兩組對比實驗的基礎上又開展了子實驗,最終顯示,封閉性測試得到的調和平均數(F)的數值在99%左右,開放性測試得到的調和平均數(F)的數值在90%左右,兩組實驗都取得了比較理想的效果;三是運用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 出土上古文獻的神話傳說研究.pdf
- 古文獻中所見山西方言歷史詞匯研究.pdf
- 安徽考古文獻
- 《左傳》征引古文獻研究.pdf
- 婦科腫瘤中醫(yī)古文獻整理及特色療法挖掘研究.pdf
- 基于中醫(yī)古文獻挖掘治療前列腺腫瘤相關用藥規(guī)律.pdf
- 考古文獻《詩經》異文辨析.pdf
- 古文獻植物名實考略.pdf
- 中國古文獻學獎學金
- 中國古文獻獎學金評獎條例
- 避諱及避諱對古文獻的影響.pdf
- 古文獻植物名實考略_8154.pdf
- 咽胃合病的古文獻及臨床調查研究.pdf
- 中醫(yī)藥古文獻檢索系統(tǒng)研究.pdf
- 中醫(yī)古文獻皮膚癌的用藥規(guī)律及外治法的研究.pdf
- 古文獻文字圖像分割與差異性比對算法研究.pdf
- 七上古文基礎知識期末復習
- 帕金森病患者便秘的古文獻整理及臨床研究.pdf
- 滿都海夫人事跡蒙古文獻考
- 七上古文基礎知識期末復習(2)
評論
0/150
提交評論