數(shù)據(jù)備份系統(tǒng)中數(shù)據(jù)去重技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩124頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著社會信息化的發(fā)展和數(shù)據(jù)量的暴增,數(shù)據(jù)備份系統(tǒng)中所要處理的備份和恢復(fù)的數(shù)據(jù)越來越多,數(shù)據(jù)去重技術(shù)已作為一種數(shù)據(jù)無損壓縮技術(shù)廣泛應(yīng)用在數(shù)據(jù)備份系統(tǒng)中。不過,雖然數(shù)據(jù)去重技術(shù)能大幅度壓縮數(shù)據(jù)量,提高存儲空間和網(wǎng)絡(luò)帶寬利用率,但數(shù)據(jù)去重作為一門新興的數(shù)據(jù)壓縮技術(shù),目前還面臨著諸多問題和挑戰(zhàn)。如在云備份服務(wù)中,現(xiàn)有的源端去重方法無法大幅度減少數(shù)據(jù)備份和恢復(fù)時間,滿足人們對備份服務(wù)的需求;另外,現(xiàn)有的數(shù)據(jù)去重方法由于需要刪除多個文件之間共享的重

2、復(fù)數(shù)據(jù)塊,會導(dǎo)致備份系統(tǒng)中存儲許多數(shù)據(jù)碎片,影響數(shù)據(jù)備份和去重性能。
  在云備份系統(tǒng)中,受低帶寬廣域網(wǎng)絡(luò)的限制,數(shù)據(jù)備份速度非常慢。對于大部分用戶來說,數(shù)據(jù)備份速度過慢將直接影響正常的業(yè)務(wù)運營。針對此問題,本文提出基于文件語義的多層次源端去重方法( Semantic-Aware Multi-Tiered Source De-duplication Framework, SAM),減少數(shù)據(jù)備份時間。在 SAM提出之前,現(xiàn)有云備份主

3、要采用基于源端的全局數(shù)據(jù)塊級去重和局部數(shù)據(jù)塊級去重方法在客戶端對重復(fù)數(shù)據(jù)進行刪除,減少廣域網(wǎng)絡(luò)上傳輸?shù)膫浞輸?shù)據(jù)量。前者主要在全局范圍內(nèi)刪除各用戶之間產(chǎn)生的重復(fù)數(shù)據(jù),所需要的數(shù)據(jù)去重時間較長;而后者雖然僅刪除同一個用戶所產(chǎn)生的重復(fù)數(shù)據(jù),數(shù)據(jù)去重時間較短,但能獲得重復(fù)數(shù)據(jù)刪除率較低,需要較長的數(shù)據(jù)傳輸時間。經(jīng)分析,這兩種方法各有所長,但都無法大幅度減少數(shù)據(jù)備份時間,緩解數(shù)據(jù)備份過程中遇到的數(shù)據(jù)傳輸瓶頸。SAM結(jié)合這兩種方法的優(yōu)勢,提出了將基

4、于源端的全局文件級去重和局部數(shù)據(jù)塊級去重進行結(jié)合的方法,同時在全局文件級和局部數(shù)據(jù)塊級的去重過程中挖掘諸多文件語義信息,縮減重復(fù)數(shù)據(jù)的查找范圍,加快重復(fù)數(shù)據(jù)的查找過程。經(jīng)理論分析和試驗數(shù)據(jù)分析,與現(xiàn)有的兩種源端去重方法相比,SAM能較好地權(quán)衡所獲得的重復(fù)數(shù)據(jù)刪除率以及所引入的去重時間開銷,可以大幅度減少數(shù)據(jù)備份時間。
  不過,現(xiàn)有的源端去重方法,包括SAM,都僅關(guān)注云備份中的數(shù)據(jù)備份時間,而對數(shù)據(jù)恢復(fù)時間的關(guān)注卻很少。雖然這些源

5、端去重方法都能好地滿足大部分用戶的需求,但對可靠性要求很高的企業(yè)用來說,數(shù)據(jù)恢復(fù)時間至關(guān)重要。當(dāng)數(shù)據(jù)受損時,數(shù)據(jù)恢復(fù)時間的長短直接關(guān)系到經(jīng)濟利益損失的多少。針對此問題,本文提出基于因果關(guān)系的數(shù)據(jù)去重方法(Causality-based Deduplication Performance Booster, CABdedupe),不僅可以減少數(shù)據(jù)備份時間,也可以減少數(shù)據(jù)恢復(fù)時間。經(jīng)觀察分析,重復(fù)數(shù)據(jù)不僅存在于數(shù)據(jù)備份過程中,也存在于數(shù)據(jù)恢復(fù)

6、過程中,且這些重復(fù)數(shù)據(jù)的存在與文件之間的因果關(guān)系息息相關(guān)。CABDedupe通過監(jiān)控文件系統(tǒng)調(diào)用,捕捉文件之間的這些因果關(guān)系信息,不僅可以消除數(shù)據(jù)備份過程中的重復(fù)數(shù)據(jù),也可以消除數(shù)據(jù)恢復(fù)過程中的重復(fù)數(shù)據(jù),同時加速數(shù)據(jù)備份和恢復(fù)過程。另外,CABDedupe是一個輔助備份系統(tǒng)進行數(shù)據(jù)去重的中間件,CABDedupe的失效只會使部分重復(fù)數(shù)據(jù)無法被刪除,降低CABDedupe對數(shù)據(jù)備份和恢復(fù)性能的優(yōu)化效果,而不會影響備份系統(tǒng)中日常的數(shù)據(jù)備份和

7、恢復(fù)功能。
  無論使用何種數(shù)據(jù)去重方法,由于需要對多個文件或數(shù)據(jù)流之間的重復(fù)數(shù)據(jù)塊進行刪除,數(shù)據(jù)去重都會使備份系統(tǒng)存儲很多數(shù)據(jù)碎片。并且隨著備份系統(tǒng)所存儲的備份數(shù)據(jù)量的增多,這些數(shù)據(jù)碎片會越來越多,嚴重影響數(shù)據(jù)備份和數(shù)據(jù)去重性能。針對此問題,本文通過建立分析模型和實驗統(tǒng)計數(shù)據(jù),詳細分析了數(shù)據(jù)碎片給數(shù)據(jù)冗余局部性以及數(shù)據(jù)去重性能所帶來的負面影響,并提出通過減少數(shù)據(jù)碎片來提高數(shù)據(jù)去重性能的方法 De-Frag。De-Frag的核心思

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論