統(tǒng)計(jì)機(jī)器翻譯綜述_第1頁(yè)
已閱讀1頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)機(jī)器翻譯綜述統(tǒng)計(jì)機(jī)器翻譯綜述1劉群2(北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所北京100871)(中國(guó)科學(xué)院計(jì)算技術(shù)研究所北京100080)摘要:摘要:本文綜述了基于信源信道思想和基于最大熵思想的統(tǒng)計(jì)機(jī)器翻譯方法并介紹了統(tǒng)計(jì)機(jī)器翻譯的評(píng)測(cè)方法?;谛旁葱诺赖姆椒▽⒎g概率表示為一個(gè)語(yǔ)言模型和一個(gè)翻譯模型。而基于最大熵的方法則是利用一系列實(shí)數(shù)值特征函數(shù)的線性組合來(lái)求解最優(yōu)的譯文。基于最大熵的統(tǒng)計(jì)機(jī)器翻譯方法比基于信源信道的方法更具有一般性,后者可以看

2、做前者的一個(gè)特例。關(guān)鍵詞:關(guān)鍵詞:統(tǒng)計(jì)機(jī)器翻譯信源信道模型最大熵方法中圖分類號(hào):中圖分類號(hào):TP391SurveyonStatisticalMachineTranslationLIUQun(InstituteofComputationalLinguisticsPekingUniversityBeijing100871)(InstituteofComputingTechnologyChineseAcademyofSciencesBeiji

3、ng100080)Email:ract:ThepapergivesasurveyonthreeapproachesofstatisticalmachinetranslationtheevaluationmethodsusedinSMT.Thebasicideaofparallelgrammarbasedapproachistobuildparallelgrammarsfsourcetargetlanguageswhichconfmthe

4、sameprobabilisticdistribution.Inthesourcechannelapproachthetranslationprobabilityisexpressedasalanguagemodelatranslationmodel.Inthemaximumentropyapproachtheoptimaltranslationissearchedaccdingtoalinearcombinationofaseries

5、ofrealvaluedfeaturefunctions.Thesourcechannelapproachcanberegardasaspecialcaseofmaximumentropyapproach.Keywds:StatisticalMachineTranslationSourceChannelModelMaximumEntropyMethod1本文工作受國(guó)家重點(diǎn)基礎(chǔ)研究計(jì)劃(973)支持,項(xiàng)目編號(hào)是G19980305074和G

6、1998030510。2劉群,男,1966年生,中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員,同時(shí)在北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所攻讀在職博士學(xué)位,研究方向是自然語(yǔ)言處理和機(jī)器翻譯。根據(jù)Bayes公式可推導(dǎo)得到:)|()(maxargTSPTPTT?這個(gè)公式在Brown等人的文章[4]中稱為統(tǒng)計(jì)機(jī)器翻譯的基本方程式統(tǒng)計(jì)機(jī)器翻譯的基本方程式(FundamentalEquationofStatisticalMachineTranslation)。在這個(gè)公式中

7、,P(T)是目標(biāo)語(yǔ)言的文本T出現(xiàn)的概率,稱為語(yǔ)言模型語(yǔ)言模型。P(S|T)是由目標(biāo)語(yǔ)言文本T翻譯成源語(yǔ)言文本S的概率,稱為翻譯模型譯模型。語(yǔ)言模型只與目標(biāo)語(yǔ)言相關(guān),與源語(yǔ)言無(wú)關(guān),反映的是一個(gè)句子在目標(biāo)語(yǔ)言中出現(xiàn)的可能性,實(shí)際上就是該句子在句法語(yǔ)義等方面的合理程度;翻譯模型與源語(yǔ)言和目標(biāo)語(yǔ)言都有關(guān)系,反映的是兩個(gè)句子互為翻譯的可能性。也許有人會(huì)問(wèn),為什么不直接使用P(T|S),而要使用P(T)P(S|T)這樣一個(gè)更加復(fù)雜的公式來(lái)估計(jì)譯文的

8、概率呢?其原因在于,如果直接使用P(T|S)來(lái)選擇合適的T,那么得到的T很可能是不符合譯文語(yǔ)法的(illfmed),而語(yǔ)言模型P(T)就可以保證得到的譯文盡可能的符合語(yǔ)法。這樣,機(jī)器翻譯問(wèn)題被分解為三個(gè)問(wèn)題:1.語(yǔ)言模型Pr(t)的參數(shù)估計(jì);2.翻譯模型Pr(s|t)的參數(shù)估計(jì);3.搜索問(wèn)題:尋找最優(yōu)的譯文;從1980年代末開始到1990年代中期,IBM的機(jī)器翻譯研究小組在統(tǒng)計(jì)機(jī)器翻譯的思想指導(dǎo)下進(jìn)行了一系列的研究工作[452]并實(shí)現(xiàn)了

9、一個(gè)法語(yǔ)到英語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。對(duì)于語(yǔ)言模型Pr(t),他們嘗試了采用n語(yǔ)法、鏈語(yǔ)法等語(yǔ)法模型。鏈語(yǔ)法模型比n元語(yǔ)法模型的優(yōu)點(diǎn)在于可以處理長(zhǎng)距離的依賴關(guān)系。下面我們著重介紹翻譯模型。2.1.2IBM統(tǒng)計(jì)翻譯模型統(tǒng)計(jì)翻譯模型對(duì)于翻譯模型Pr(f|e),IBM公司提出了5種復(fù)雜程度遞增的數(shù)學(xué)模型[5],簡(jiǎn)稱為IBMModel1~5。模型1僅考慮詞與詞互譯的概率t(fj|ei)。模型2考慮了單詞在翻譯過(guò)程中位置的變化,引入了參數(shù)Pr(aj|j

10、ml),m和l分別是目標(biāo)語(yǔ)和源語(yǔ)句子的長(zhǎng)度,j是目標(biāo)語(yǔ)單詞的位置,aj是其對(duì)應(yīng)的源語(yǔ)單詞的位置。模型3考慮了一個(gè)單詞翻譯成多個(gè)單詞的情形,引入了產(chǎn)出概率φ(n|ei),表示單詞ei翻譯成n個(gè)目標(biāo)語(yǔ)單詞的概率。模型4在對(duì)齊時(shí)不僅僅考慮詞的位置變化,同時(shí)考慮了該位置上的單詞(基于類的模型,自動(dòng)將源語(yǔ)言和目標(biāo)語(yǔ)言單詞劃分到50個(gè)類中)。模型5是對(duì)模型4的修正,消除了模型4中的缺陷(deficiency),避免對(duì)一些不可能出現(xiàn)的對(duì)齊給出非零的概

11、率。在模型1和2中,首先預(yù)測(cè)源語(yǔ)言句子長(zhǎng)度,假設(shè)所有長(zhǎng)度都具有相同的可能性。然后,對(duì)于源語(yǔ)言句子中的每個(gè)位置,猜測(cè)其與目標(biāo)語(yǔ)言單詞的對(duì)應(yīng)關(guān)系,以及該位置上的源語(yǔ)言單詞。在模型345中,首先,對(duì)于每個(gè)目標(biāo)語(yǔ)言單詞,選擇對(duì)應(yīng)的源語(yǔ)言單詞個(gè)數(shù),然后再確定這些單詞,最后,判斷這些源語(yǔ)言單詞的具體位置。這些模型的主要區(qū)別在于計(jì)算源語(yǔ)言單詞和目標(biāo)語(yǔ)言單詞之間的連接(Connection)的概率的方式不同。模型1最簡(jiǎn)單,只考慮詞與詞之間互譯的概率,不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論