語音識(shí)別中區(qū)分性訓(xùn)練算法研究.pdf_第1頁
已閱讀1頁,還剩127頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聲學(xué)模型訓(xùn)練作為語音識(shí)別中的一個(gè)重要組成部分,一直以來都是研究者關(guān)注的重點(diǎn)。傳統(tǒng)的訓(xùn)練算法,例如最大似然估計(jì)(MLE)準(zhǔn)則,由于在訓(xùn)練時(shí)沒有考慮到模型之間的相互影響,因此性能往往不甚理想。與之相對(duì)應(yīng),區(qū)分性訓(xùn)練算法充分考慮了各個(gè)類之間的邊界信息,因此性能相對(duì)較好。本文將基于大詞匯量連續(xù)語音識(shí)別平臺(tái),圍繞聲學(xué)模型區(qū)分性訓(xùn)練技術(shù)展開研究,具體工作和創(chuàng)新主要包括以下幾個(gè)方面:
   1.對(duì)聲學(xué)模型訓(xùn)練算法進(jìn)行了深入研究
  

2、本文主要研究了基于生成性準(zhǔn)則的最大似然估計(jì)訓(xùn)練算法和基于區(qū)分性準(zhǔn)則的最大互信息估計(jì)(MMIE)訓(xùn)練算法以及最小音素錯(cuò)誤(MPE)訓(xùn)練算法,并著重針對(duì)最小音素錯(cuò)誤訓(xùn)練算法展開了相關(guān)的研究,并利用HTK工具搭建了各訓(xùn)練算法的實(shí)現(xiàn)平臺(tái)。
   2.提出一種提高生成模型區(qū)分性的訓(xùn)練算法
   最大似然估計(jì)準(zhǔn)則實(shí)現(xiàn)比較簡(jiǎn)單,可以借助經(jīng)典的EM算法,但是由于沒有考慮到不同模型之間的相互影響,因此生成的模型往往并不是最優(yōu)的。本文提出一

3、種簡(jiǎn)單的模型加權(quán)算法來提高生成模型的區(qū)分性,通過比較兩組模型的類問方差和類內(nèi)方差的大小來確定模型加權(quán)的權(quán)值。具體來說,針對(duì)語音識(shí)別,我們認(rèn)為每一個(gè)識(shí)別基元對(duì)應(yīng)一個(gè)類,不同的識(shí)別單元可以看作為不同的類,并且每一類都對(duì)應(yīng)著自己的模型,即各自的HMM模型。在每個(gè)模型同一級(jí)狀態(tài)上進(jìn)行模型類內(nèi)方差和類間方差的比較,模型的類間方差越大,類內(nèi)方差越小,區(qū)分性就越好,在模型加權(quán)組合中所占的權(quán)重就越大。實(shí)驗(yàn)表明,該算法可以顯著提高生成模型的識(shí)別性能。

4、r>   3.提出基于模型組合的區(qū)分性訓(xùn)練的改進(jìn)算法
   生成性模型側(cè)重于模型內(nèi)部的描述,而區(qū)分性模型側(cè)重于模型邊界的描述??傮w上講,區(qū)分性模型的識(shí)別性能優(yōu)于生成性模型,但是對(duì)具體模型來說這個(gè)結(jié)論并不一定成立,在實(shí)際中二者各有優(yōu)勢(shì),如果將二者結(jié)合可望得到更好的效果。
   本文提出了幾種將生成模型與區(qū)分性模型進(jìn)行組合的算法。與前面提到的生成模型上的加權(quán)算法有所不同,由于區(qū)分性模型本身的分辨性能已經(jīng)比較好,如果從整個(gè)空

5、間計(jì)算模型間的參數(shù)值可能無法代表模型實(shí)際的混淆程度。因此我們首先提出一種混淆集的概念,得到每個(gè)模型最容易被混淆的集合,然后在各自的混淆集上計(jì)算模型的混淆參數(shù),使得模型對(duì)應(yīng)的權(quán)重計(jì)算更加有效。最后在混淆集的基礎(chǔ)上提出兩種模型組合算法,并應(yīng)用于生成模型與區(qū)分性模型的組合以及區(qū)分性模型與區(qū)分性模型的組合。
   此外本文還提出了一種基于模型混淆程度進(jìn)行模型加權(quán)的算法,同時(shí)將該算法擴(kuò)展到多混合分量的情況。實(shí)驗(yàn)表明,這些算法可以得到比較好

6、的性能。
   4.提出模型動(dòng)態(tài)混合分量分解算法
   語音識(shí)別中,聲學(xué)模型的每一個(gè)狀態(tài)都是一個(gè)高斯混合模型,一般認(rèn)為,只要合理的選擇模型高斯混合分量的數(shù)目和分布,就可以任意逼近實(shí)際的分布。但是高斯分量數(shù)目的設(shè)計(jì)是一個(gè)比較繁瑣的問題,為了提高模型的描述能力,需要較多的高斯分量,但較多的高斯分量會(huì)導(dǎo)致對(duì)訓(xùn)練語料的大量需求。因此在實(shí)際中高斯分量的數(shù)目必須折中選擇。
   本文在MPE區(qū)分性訓(xùn)練算法基礎(chǔ)上提出一種模型動(dòng)

7、態(tài)混合分量分解的算法。本算法的依據(jù)尋找可以提高整個(gè)模型空間上區(qū)分性能力的模型進(jìn)行混合分量分解。根據(jù)這樣的思想,提出了幾種不同的模型分解準(zhǔn)則,主要利用模型訓(xùn)練過程中的區(qū)分性統(tǒng)計(jì)信息并結(jié)合音素識(shí)別正確率進(jìn)行模型的描述。實(shí)現(xiàn)時(shí)在MPE訓(xùn)練中生成的Lattice上計(jì)算音素正確率和音素混淆情況對(duì)應(yīng)的統(tǒng)計(jì)量,利用這些統(tǒng)計(jì)量反映模型的描述能力,進(jìn)行模型混合分量的分解,從而增加模型的區(qū)分性能力。該算法不需要引入額外的計(jì)算量,在MPE的訓(xùn)練過程中可以直接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論