基于深度學(xué)習(xí)的圖像語義標(biāo)注與描述研究.pdf_第1頁
已閱讀1頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著信息科學(xué)技術(shù)的高速發(fā)展,伴隨而來的是多樣的媒體數(shù)據(jù)飛速增長,這得益于數(shù)字設(shè)備的普及和存儲技術(shù)的發(fā)展。面對大量無標(biāo)簽數(shù)據(jù)的產(chǎn)生,如文本、音頻、圖像及視頻等,如何管理和使用這些無標(biāo)注數(shù)據(jù),儼然成為一個亟需解決的問題。當(dāng)前的圖像語義標(biāo)注技術(shù)可以有效地對圖像進行標(biāo)注,這不僅能夠幫助人們管理大量的無標(biāo)記圖像,還能夠讓機器更智能的理解圖像,所以圖像語義標(biāo)注是一項非常有意義的研究工作。
  所謂圖像理解技術(shù),其核心技術(shù)是在圖像處理分析基礎(chǔ)上

2、,結(jié)合計算機視覺和自然語言處理等相關(guān)理論,進而分析、理解圖像內(nèi)容,并以文本語義信息的形式反饋給人類。因此圖像理解技術(shù)的完成不僅需要圖像標(biāo)注,還需要圖像描述。圖像標(biāo)注的任務(wù)是以圖像為對象,語義信息為載體,研究圖像中有何物體以及物體之間的聯(lián)系。圖像描述的任務(wù)是以自然語言處理技術(shù)分析并產(chǎn)生標(biāo)注詞,進而將生成的標(biāo)注詞組合為自然語言的描述語句。近年來,圖像描述得到了研究界的極大興趣,同圖像標(biāo)注工作一樣,它們都具有廣闊的應(yīng)用前景。
  論文以

3、圖像語義標(biāo)注為研究主線,以多媒體數(shù)據(jù)中的圖像作為研究對象,以圖像描述為應(yīng)用擴展,按照特征提取表示-語義映射模型構(gòu)建-分析理解語義的研究思路,重點研究圖像標(biāo)注中的目標(biāo)識別和語義分析問題,其中包括特征學(xué)習(xí)、多標(biāo)簽分類、語義關(guān)聯(lián)性分析和單詞語句序列生成等技術(shù)?;谝陨涎芯浚疚牡闹饕ぷ饔?
  為了縮減不同模態(tài)數(shù)據(jù)間的語義鴻溝,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutional Neural Network,CNN)和

4、集成的分類器鏈(Ensembles of Classifier Chains,ECC)的圖像多標(biāo)注混合架構(gòu)CNN-ECC。該模型框架主要由生成式特征學(xué)習(xí)和判別式語義學(xué)習(xí)兩階段構(gòu)成。第一步利用改進的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像多示例融合的高級視覺特征。第二步基于獲取的視覺特征與圖像的語義標(biāo)簽集訓(xùn)練集成的分類器鏈,集成的分類器鏈不僅能夠?qū)W習(xí)到視覺特征包含的語義信息,還能夠充分挖掘語義標(biāo)簽間的關(guān)聯(lián)性,使得生成的標(biāo)簽間具有更強的關(guān)聯(lián)性,從而避免產(chǎn)生冗余

5、的標(biāo)簽。最終利用訓(xùn)練得到的模型對未知的圖像進行自動語義標(biāo)注。
  圖像標(biāo)注為圖像描述工作奠定了基礎(chǔ),為了將圖像生成的標(biāo)注詞組裝成自然語言的語句描述,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和雙向長短期記憶單元(Double Long-short Term Memory,DLSTM)的圖像描述模型CNN-DLSTM。該模型框架由視覺模型和語言模型兩部分組成。首先視覺模型用于學(xué)習(xí)圖

6、像視覺內(nèi)容概念,生成圖像關(guān)鍵語義詞。其次語言模型基于人工的描述序列學(xué)習(xí)詞法與語法,結(jié)合視覺概念詞和相應(yīng)的語法生成對應(yīng)的語言描述,完成圖像描述任務(wù)。為了使模型生成的語句更加類人化,最后CNN-DLSTM還引入了一個生成描述質(zhì)量的置信評估模型,選擇性輸出得分更高的圖像描述語句。
  圖像的內(nèi)容不僅復(fù)雜而抽象,而且在語義概念上也存在模糊和多義性等特點。因而本文在圖像標(biāo)注的特征學(xué)習(xí)、語義學(xué)習(xí)等關(guān)鍵工作上做出改進,實現(xiàn)圖像自動標(biāo)注,改善了圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論