眾賞文庫(kù)
全部分類
  • 抗擊疫情 >
    抗擊疫情
    病毒認(rèn)知 防護(hù)手冊(cè) 復(fù)工復(fù)產(chǎn) 應(yīng)急預(yù)案 防控方案 英雄事跡 院務(wù)工作
  • 成品畢設(shè) >
    成品畢設(shè)
    外文翻譯 畢業(yè)設(shè)計(jì) 畢業(yè)論文 開題報(bào)告 文獻(xiàn)綜述 任務(wù)書 課程設(shè)計(jì) 相關(guān)資料 大學(xué)生活 期刊論文 實(shí)習(xí)報(bào)告
  • 項(xiàng)目策劃 >
    項(xiàng)目策劃
    土地準(zhǔn)備 規(guī)劃設(shè)計(jì) 開工開盤 項(xiàng)目綜合 竣工移交 售后移交 智慧方案 安全專項(xiàng) 環(huán)境影響評(píng)估報(bào)告 可行性研究報(bào)告 項(xiàng)目建議書 商業(yè)計(jì)劃書 危害評(píng)估防治 招投標(biāo)文件
  • 專業(yè)資料 >
    專業(yè)資料
    人文法律 環(huán)境安全 食品科學(xué) 基礎(chǔ)建設(shè) 能源化工 農(nóng)林牧畜 綜合待分類 教育經(jīng)驗(yàn) 行政人力 企業(yè)管理 醫(yī)學(xué)衛(wèi)生 IT技術(shù) 土木建筑 考研專題 財(cái)會(huì)稅務(wù) 公路隧道 紡織服裝
  • 共享辦公 >
    共享辦公
    總結(jié)匯報(bào) 調(diào)研報(bào)告 工作計(jì)劃 述職報(bào)告 講話發(fā)言 心得體會(huì) 思想?yún)R報(bào) 事務(wù)文書 合同協(xié)議 活動(dòng)策劃 代理加盟 技術(shù)服務(wù) 求職簡(jiǎn)歷 辦公軟件 ppt模板 表格模板 融資協(xié)議 發(fā)言演講 黨團(tuán)工作 民主生活
  • 學(xué)術(shù)文檔 >
    學(xué)術(shù)文檔
    自然科學(xué) 生物科學(xué) 天文科學(xué) 醫(yī)學(xué)衛(wèi)生 工業(yè)技術(shù) 航空、航天 環(huán)境科學(xué)、安全科學(xué) 軍事 政學(xué) 文化、科學(xué)、教育、 交通運(yùn)輸 經(jīng)濟(jì) 語(yǔ)言、文字 文學(xué) 農(nóng)業(yè)科學(xué) 社會(huì)科學(xué)總論 藝術(shù) 歷史、地理 哲學(xué) 數(shù)理科學(xué)和化學(xué) 綜合性圖書 哲學(xué)宗教
  • 經(jīng)營(yíng)營(yíng)銷 >
    經(jīng)營(yíng)營(yíng)銷
    綜合文檔 經(jīng)濟(jì)財(cái)稅 人力資源 運(yùn)營(yíng)管理 企業(yè)管理 內(nèi)控風(fēng)控 地產(chǎn)策劃
  • 教學(xué)課件 >
    教學(xué)課件
    幼兒教育 小學(xué)教育 初中教育 高中教育 職業(yè)教育 成人教育 高等教育 考研資源 試題真題 作業(yè)習(xí)題 課后答案 綜合教學(xué)
  • 土木建筑 >
    土木建筑
    專項(xiàng)施工 應(yīng)急預(yù)案 建筑規(guī)范 工藝方案 技術(shù)交底 施工表格 圖片圖集
  • 課程導(dǎo)學(xué) >
    課程導(dǎo)學(xué)
    醫(yī)學(xué)綜合 中醫(yī)養(yǎng)生 醫(yī)學(xué)研究 身心發(fā)展 醫(yī)學(xué)試題 影像醫(yī)學(xué) 醫(yī)院辦公 外科醫(yī)學(xué) 老年醫(yī)學(xué) 內(nèi)科醫(yī)學(xué) 婦產(chǎn)科 神經(jīng)科 醫(yī)學(xué)課件 眼鼻喉科 皮膚病科 腫瘤科 兒科醫(yī)學(xué) 康復(fù)醫(yī)學(xué) 全科醫(yī)學(xué) 護(hù)理學(xué)科 針灸學(xué)科 重癥學(xué)科 病毒學(xué)科 獸醫(yī) 藥學(xué)
    • 簡(jiǎn)介:該文針對(duì)SOZRSL軟件開發(fā)方法提出了SOZRSL建模思想和建模方法SOZRSL建模思想是一種將系統(tǒng)分析過(guò)程分成形式化建模和非形式化建模兩個(gè)階段的軟件開發(fā)思想非形式化建模先分別從功能建模和對(duì)象建模兩個(gè)不同的側(cè)面來(lái)描述系統(tǒng)的功能和架構(gòu)形式化建模則用形式化的SOZRSL規(guī)格說(shuō)明語(yǔ)言對(duì)系統(tǒng)進(jìn)行準(zhǔn)確和一致的描述SOZRSL建模方法設(shè)計(jì)了分別用于功能建模和對(duì)象建模的符號(hào)和描述過(guò)程與方法用SOZRSL建模方法描述的系統(tǒng)不僅結(jié)構(gòu)清晰層次清楚還有較好的可重用性同時(shí)給系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)及測(cè)試過(guò)程提供了良好的溝通工具針對(duì)SOZRSL開發(fā)方法和建模方法該文設(shè)計(jì)和實(shí)現(xiàn)了應(yīng)用SOZRSL建模方法的功能建模工具和對(duì)象建模工具及SOZRSL規(guī)格說(shuō)明的文檔編輯器同時(shí)實(shí)現(xiàn)了兩種機(jī)制1、功能模型和SOZRSL形式規(guī)格說(shuō)明的相互轉(zhuǎn)化2、對(duì)象模型和SOZRSL形式規(guī)格說(shuō)明的相互轉(zhuǎn)化
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 69
      4人已閱讀
      ( 4 星級(jí))
    • 下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 57
      7人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著移動(dòng)通信技術(shù)的發(fā)展,移動(dòng)互聯(lián)網(wǎng)將成為未來(lái)人們數(shù)字化生活的重要環(huán)境。手機(jī)作為移動(dòng)互聯(lián)網(wǎng)的接入設(shè)備之一,其功能已日益豐富。人們可以利用手機(jī)進(jìn)行各種活動(dòng),如手機(jī)辦公、手機(jī)支付、手機(jī)娛樂(lè)等等。手機(jī)將繼PC之后,成為人們?nèi)粘I畹谋貍涔ぞ摺H欢?,手機(jī)應(yīng)用發(fā)展的同時(shí)也存在安全問(wèn)題。手機(jī)和傳統(tǒng)PC一樣,軟硬件并非天然安全,其中軟件漏洞、硬件缺陷在所難免。手機(jī)病毒、木馬等惡意軟件的出現(xiàn),不斷提醒著人們手機(jī)環(huán)境的不安全性。為此,研究人員提出了各種保護(hù)技術(shù)和方法。如手機(jī)防火墻,手機(jī)殺毒軟件,文檔加密系統(tǒng)等。這些防范措施主要目的就是防止重要資源被非法訪問(wèn)、篡改,以免無(wú)法使用等問(wèn)題的產(chǎn)生。手機(jī)文檔信息是手機(jī)終端應(yīng)用非常需要保護(hù)的資源之一。為了方便使用,人們可能將一些辦公文檔、個(gè)人隱私信息等以文檔的方式存儲(chǔ)在手機(jī)上,然后通過(guò)手機(jī)中的各種應(yīng)用軟件進(jìn)行處理,如進(jìn)行移動(dòng)辦公,信息共享等活動(dòng)。這些環(huán)節(jié)中必然會(huì)存在一些不安全因素,導(dǎo)致手機(jī)文檔存在很大安全風(fēng)險(xiǎn),因此,急需研究適合手機(jī)文檔的保護(hù)技術(shù)來(lái)解決這類問(wèn)題。傳統(tǒng)的文檔保護(hù)技術(shù)有內(nèi)容加密技術(shù)、訪問(wèn)控制技術(shù)等。這些技術(shù)都在某些方面為文檔安全提供了服務(wù)保障,成為文檔保護(hù)系統(tǒng)設(shè)計(jì)的一些主流思想。但是,手機(jī)應(yīng)用的自身特點(diǎn)決定了某些傳統(tǒng)PC上的文檔保護(hù)方案并不適用于手機(jī)平臺(tái)。在將這些方案移植到手機(jī)平臺(tái)上時(shí),更需要考慮手機(jī)的運(yùn)算能力、軟件環(huán)境以及用戶體驗(yàn)方面的需求。因此,設(shè)計(jì)性能影響小,易用性好的文檔保護(hù)技術(shù)是一個(gè)非常有意義的課題。本文重點(diǎn)研究了主流手機(jī)操作系統(tǒng)下的文檔保護(hù)技術(shù),論文在分析傳統(tǒng)文檔保護(hù)技術(shù)基礎(chǔ)上,提出了一種適合手機(jī)平臺(tái)文檔保護(hù)方案。新方案在虛擬文件系統(tǒng)中嵌入安全模塊,實(shí)現(xiàn)了諸如加解密、訪問(wèn)控制、密鑰更新等功能。該方案中應(yīng)用程序與安全模塊相互獨(dú)立,在提供文檔安全保護(hù)的基礎(chǔ)上保持了原有的用戶體驗(yàn)效果,對(duì)于非法訪問(wèn)則提供了強(qiáng)有力的防控功能。本文還對(duì)該方案進(jìn)行了詳細(xì)的說(shuō)明,實(shí)現(xiàn)了一個(gè)系統(tǒng)原型。實(shí)驗(yàn)結(jié)果證明,本文所提出的方案是可行性。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 66
      4人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:該文就提高文檔分類效率進(jìn)行了研究提出了一種快速文檔分類方法其核心技術(shù)是一方面對(duì)文檔訓(xùn)練庫(kù)進(jìn)行刪減另一方面對(duì)文檔建立相似度索引該文取得了以下研究成果1提出了刪減訓(xùn)練文檔庫(kù)的算法針對(duì)訓(xùn)練文檔庫(kù)中訓(xùn)練文檔對(duì)文檔類的作用不同在保證沒(méi)有造成分類性能嚴(yán)重下降的前提下可以刪除一些作用不大或冗余的訓(xùn)練文檔加快文檔分類過(guò)程實(shí)驗(yàn)證明這個(gè)算法在各種不同分類情況下都可以顯著地加快分類速度而沒(méi)有造成分類性能明顯下降2提出了文檔相似度索引算法據(jù)我們所知這是第一次將索引技術(shù)應(yīng)用于文檔分類盡管目前實(shí)驗(yàn)中采用的索引技術(shù)并沒(méi)有顯著地改善分類速度但是通過(guò)尋找新的高維索引技術(shù)來(lái)加快KNN分類速度的思想是可行的3提出了一種改進(jìn)文檔向量之間相似度計(jì)算的方法針對(duì)文檔向量矩陣實(shí)際中往往是稀疏矩陣的情況我們采用詞文檔的倒排表技術(shù)可以一次高效地計(jì)算出測(cè)試文檔與所有訓(xùn)練文檔的相似度
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 57
      5人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著計(jì)算機(jī)技術(shù)的推廣應(yīng)用,人類越來(lái)越多的依賴計(jì)算機(jī)獲得各種信息,大量的信息處理工作也都轉(zhuǎn)移到計(jì)算機(jī)上進(jìn)行,存在著大量的文字信息處理問(wèn)題,因而將文字信息快速輸入計(jì)算機(jī)的要求就變得非常迫切。本文將研究重點(diǎn)放在了OCR預(yù)處理方面,對(duì)其中的一些算法提出了自己的改進(jìn)意見,并且用CC實(shí)現(xiàn)算法,進(jìn)行實(shí)驗(yàn),分析結(jié)論。本文的主要工作總結(jié)如下1圖像二值化方面。提出了一種新的基于數(shù)學(xué)形態(tài)學(xué)的二值化算法,用數(shù)學(xué)形態(tài)學(xué)的方法將圖像背景提取出來(lái),得到零背景的圖像,對(duì)零背景圖像再進(jìn)行二值化,解決了在圖像獲取過(guò)程中背景不均勻問(wèn)題。2圖像傾斜校正方面。選取豎直掃描黑游程的中點(diǎn)為直線擬合的特征點(diǎn),用最小二乘法進(jìn)行直線擬合得出傾斜角度,將圖像以左下點(diǎn)為旋轉(zhuǎn)中心進(jìn)行旋轉(zhuǎn),并按照旋轉(zhuǎn)后新圖像的寬、高擴(kuò)大區(qū)域,完成傾斜校正。3版面分析方面。提出了一種非文本塊優(yōu)先的方法。該方法,掃描文檔圖像做連通域搜索,抽取所有的連通域,根據(jù)連通域的尺寸特征,優(yōu)先提取不具備文字結(jié)構(gòu)特征的區(qū)域;用數(shù)學(xué)形態(tài)學(xué)的方法提取圖像、圖形區(qū)域;用基于投影的方法提取表格區(qū)域;最后對(duì)余下的文本區(qū)域采用改進(jìn)的基于投影的縱橫切割的方法進(jìn)行版面分析。結(jié)果表明該方法能大大提高版面分析的速度,精度也有所提高。4文種識(shí)別方面。實(shí)現(xiàn)基于小波分析的文種識(shí)別與基于穿越次數(shù)的文種識(shí)別,并根據(jù)實(shí)際情況文本字符的特點(diǎn),利用版面分析過(guò)程中得到的連通域的結(jié)果對(duì)穿越次數(shù)的計(jì)算方法進(jìn)行了改進(jìn)。結(jié)果表明能有效減少文種識(shí)別的運(yùn)行時(shí)間。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 62
      9人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著企業(yè)信息化技術(shù)的發(fā)展,企業(yè)辦公過(guò)程中產(chǎn)生的各種電子文檔與日俱增。另外,企業(yè)紙質(zhì)文檔也希望能夠被轉(zhuǎn)換為電子文檔,以便于文檔在部門之間的流轉(zhuǎn)、查閱以及長(zhǎng)期保存和共享,從而提高文檔的使用率和價(jià)值。文檔管理越來(lái)越受到企業(yè)的重視。但是企業(yè)在進(jìn)行文檔管理的過(guò)程中,經(jīng)常會(huì)碰到海量文檔存儲(chǔ)、查找效率低下、文檔版本管理混亂、文檔安全缺乏保障、文檔無(wú)法有效協(xié)作共享、知識(shí)管理舉步維艱等問(wèn)題。因此文檔管理逐漸成為國(guó)內(nèi)外業(yè)界研究的熱點(diǎn)。本文在研究國(guó)內(nèi)外文檔管理系統(tǒng)現(xiàn)狀的基礎(chǔ)上,提出應(yīng)用元數(shù)據(jù)技術(shù)解決文檔在資源描述、檢索、共享以及長(zhǎng)期保存等方面的問(wèn)題,提出應(yīng)用使用訪問(wèn)控制UCON解決文檔安全方面的問(wèn)題。論文首先介紹了文檔管理以及文檔管理系統(tǒng)的基本理論知識(shí);接下來(lái)闡述了元數(shù)據(jù)基本理論,重點(diǎn)闡述了元數(shù)據(jù)的描述機(jī)制,研究元數(shù)據(jù)的標(biāo)準(zhǔn)以及元數(shù)據(jù)描述語(yǔ)言規(guī)范XML和元數(shù)據(jù)描述框架RDF;接下來(lái),回顧了傳統(tǒng)訪問(wèn)控制模型的特點(diǎn)以及應(yīng)用領(lǐng)域,指出了所存在的問(wèn)題,在此基礎(chǔ)之上重點(diǎn)研究了使用訪問(wèn)控制模型UCON,分析了它的新特性以及核心模型。論文結(jié)合文檔管理系統(tǒng)的特點(diǎn),提出了文件系統(tǒng)與關(guān)系數(shù)據(jù)庫(kù)混合使用的存儲(chǔ)策略;在對(duì)元數(shù)據(jù)基本理論理解的基礎(chǔ)上,提出了文檔管理系統(tǒng)元數(shù)據(jù)采集方案,給出了元數(shù)據(jù)描述的實(shí)例;在對(duì)使用控制UCON理論研究基礎(chǔ)上,設(shè)計(jì)了電子文檔管理系統(tǒng)的權(quán)限控制模型。論文為文檔管理系統(tǒng)的研究提供了有益的參考。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 60
      5人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:XML作為互聯(lián)網(wǎng)上信息描述和數(shù)據(jù)交換事實(shí)上的標(biāo)準(zhǔn),已經(jīng)被業(yè)界廣泛采用。隨著WEB上大量XML文檔的涌現(xiàn),如何對(duì)XML文檔進(jìn)行有效的檢索成為了一個(gè)具有實(shí)際應(yīng)用價(jià)值的重要研究課題。由于XML文檔是一種半結(jié)構(gòu)化的數(shù)據(jù),具有明顯的結(jié)構(gòu)標(biāo)記,可表達(dá)一定的語(yǔ)義信息。因此,可以利用XML文檔所含有的結(jié)構(gòu)信息,改進(jìn)傳統(tǒng)的基于關(guān)鍵詞的信息檢索,從而提供更加全面準(zhǔn)確的檢索結(jié)果。但是,由于XML文檔結(jié)構(gòu)的復(fù)雜性、異構(gòu)性以及可擴(kuò)展性,使得如何在信息檢索的過(guò)程中有效利用XML文檔的結(jié)構(gòu)信息成為了XML信息檢索所面臨的首個(gè)挑戰(zhàn)。源于數(shù)據(jù)庫(kù)的XML查詢語(yǔ)言可以表達(dá)復(fù)雜的信息需求,但是要形成有效的結(jié)構(gòu)化查詢對(duì)于最終用戶來(lái)說(shuō)是非常困難的事情。因?yàn)橛脩艨赡懿⒉皇煜の臋n結(jié)構(gòu),所以很難提出準(zhǔn)確的“內(nèi)容結(jié)構(gòu)”的結(jié)構(gòu)化查詢?;陉P(guān)鍵詞的XML信息檢索依然面臨著用戶需求表達(dá)模糊的問(wèn)題。XML信息檢索實(shí)際上也是一個(gè)交互式的檢索過(guò)程,相關(guān)反饋、檢索結(jié)果聚類等交互式信息檢索技術(shù)在XML信息檢索中依然存在,而且有其獨(dú)特的特點(diǎn)。例如,如何利用關(guān)鍵詞檢索的簡(jiǎn)單性迅速返回查詢結(jié)果,然后根據(jù)用戶的相關(guān)反饋等信息,系統(tǒng)自動(dòng)形成或幫助用戶形成內(nèi)容結(jié)構(gòu)查詢,以清晰地表達(dá)用戶信息需求如何根據(jù)XML文檔的內(nèi)容和結(jié)構(gòu)特征聚類XML信息檢索結(jié)果,以幫助用戶迅速找到滿足其需求的信息。因此,如何利用交互式信息檢索技術(shù)改進(jìn)XML信息檢索的準(zhǔn)確性是XML信息檢索所面臨的又一個(gè)挑戰(zhàn)。本文從XML信息檢索所面臨的這兩個(gè)挑戰(zhàn)入手展開研究,以XML文檔交互式信息檢索技術(shù)作為研究課題,主要研究?jī)蓚€(gè)問(wèn)題第一個(gè)問(wèn)題是如何有效地結(jié)合結(jié)構(gòu)信息和內(nèi)容信息實(shí)現(xiàn)XML信息檢索,主要包括XML節(jié)點(diǎn)編碼、索引、檢索模型和查詢處理算法第二個(gè)問(wèn)題是如何進(jìn)一步解決XML信息檢索中同樣存在著的用戶信息需求表達(dá)模糊的問(wèn)題,即研究相關(guān)反饋、檢索結(jié)果聚類等交互式XML信息檢索的一些關(guān)鍵技術(shù)。本文所做的主要工作和貢獻(xiàn)包括以下幾個(gè)部分1XML節(jié)點(diǎn)編碼模式及索引結(jié)構(gòu)的研究。提出了一種新穎有效的節(jié)點(diǎn)編碼模式,詳細(xì)論述了該節(jié)點(diǎn)編碼模式的定義和性質(zhì)。在這個(gè)新的節(jié)點(diǎn)編碼模式的基礎(chǔ)上,構(gòu)建了一種有效地集成結(jié)構(gòu)索引和文本內(nèi)容索引的混合索引結(jié)構(gòu)HID。該混合索引結(jié)構(gòu)HID能夠有效地支持XML信息檢索,包括關(guān)鍵詞檢索和結(jié)構(gòu)化查詢。對(duì)比實(shí)驗(yàn)結(jié)果表明本文所提出的新的混合索引結(jié)構(gòu)HID在索引構(gòu)建時(shí)間和空間消耗上具有較佳的性能。2XML信息檢索模型及查詢處理算法的研究。提出了一種用于XML信息檢索的模糊結(jié)構(gòu)向量空間模型。通過(guò)將文本內(nèi)容特征詞的概念擴(kuò)展為結(jié)構(gòu)化特征詞,對(duì)向量空間模型進(jìn)行擴(kuò)展,使其能夠包含結(jié)構(gòu)信息的匹配和度量同時(shí)將特征詞在文檔中出現(xiàn)的概念由一個(gè)精確的集合隸屬關(guān)系,擴(kuò)展為一個(gè)模糊集合隸屬度的概念,以實(shí)現(xiàn)內(nèi)容和結(jié)構(gòu)信息的整體匹配,而且能夠區(qū)別結(jié)構(gòu)的匹配程度,建模不同程度的匹配為不同程度的重要性。該檢索模型可統(tǒng)一建模關(guān)鍵詞查詢、標(biāo)記關(guān)鍵詞查詢和路徑關(guān)鍵詞查詢。最后給出了有效實(shí)現(xiàn)檢索模型相應(yīng)的查詢處理算法,并實(shí)現(xiàn)了一個(gè)XML信息檢索原型系統(tǒng)。對(duì)比實(shí)驗(yàn)結(jié)果表明本文所構(gòu)建的XML信息檢索原型系統(tǒng)具有較高的檢索準(zhǔn)確率和較快的查詢響應(yīng)時(shí)間。3XML信息檢索相關(guān)反饋技術(shù)研究。提出了一種新的結(jié)合內(nèi)容和結(jié)構(gòu)的XML信息檢索結(jié)構(gòu)化相關(guān)反饋方法,能夠有效地結(jié)合內(nèi)容和結(jié)構(gòu)特征等多種證據(jù)源,實(shí)現(xiàn)將初始的關(guān)鍵詞查詢擴(kuò)展為內(nèi)容結(jié)構(gòu)的結(jié)構(gòu)化查詢。該結(jié)構(gòu)化相關(guān)反饋方法通過(guò)內(nèi)容查詢?cè)~擴(kuò)展、查詢?cè)~路徑擴(kuò)展和檢索元素粒度相關(guān)反饋三種算法擴(kuò)展初始的關(guān)鍵詞查詢。內(nèi)容查詢?cè)~的擴(kuò)展和重新權(quán)重綜合考慮了出現(xiàn)特征詞的相關(guān)公共元素的數(shù)目、特征詞在相關(guān)元素中的重要性、特征詞鄰接距離和結(jié)構(gòu)語(yǔ)義等多種證據(jù)。實(shí)驗(yàn)結(jié)果表明本文所提出的結(jié)構(gòu)化查詢相關(guān)反饋方法可以有效地改進(jìn)XML信息檢索的準(zhǔn)確率。4XML信息檢索結(jié)果聚類技術(shù)研究。針對(duì)XML文檔的特點(diǎn),提出了一種新的結(jié)合內(nèi)容和結(jié)構(gòu)特征的XML文檔特征建模方法,能夠有效地度量XML信息檢索結(jié)果文檔片斷間的相似性。將XML信息檢索結(jié)果聚類問(wèn)題建模為K中心聚類問(wèn)題,通過(guò)改進(jìn)解決K中心聚類問(wèn)題的貪心算法,提出了一種新的XML信息檢索結(jié)果快速聚類算法。實(shí)驗(yàn)結(jié)果表明基于本文所提出的XML文檔特征建模方法和新的XML信息檢索結(jié)果快速聚類算法實(shí)現(xiàn)了較好的聚類質(zhì)量和較快的聚類速度。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 136
      5人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著信息技術(shù)的快速發(fā)展信息安全已成為關(guān)系國(guó)家安全的重大戰(zhàn)略問(wèn)題?,F(xiàn)階段涉密企事業(yè)單位初步建立的信息安全體系只能有效防范外部攻擊對(duì)于內(nèi)部人員的操作、特別是文件打印輸出過(guò)程仍缺乏有效的技術(shù)防控措施。目前尚無(wú)法確保涉密系統(tǒng)內(nèi)重要信息打印輸出的安全、合理以及文件流向可靠。針對(duì)上述問(wèn)題作者經(jīng)過(guò)認(rèn)真調(diào)研分析提出了建立一套基于打印事件全生命周期管理的打印監(jiān)控與審計(jì)管理系統(tǒng)的設(shè)想。以期通過(guò)信息化手段將打印事件全過(guò)程中的人員、文件、審批信息等要素進(jìn)行關(guān)聯(lián)管理與控制從而最終實(shí)現(xiàn)涉密文檔打印輸出的全生命周期管理。在研究實(shí)現(xiàn)過(guò)程中采用軟件工程的思想結(jié)合當(dāng)前涉密企事業(yè)單位打印任務(wù)的管理現(xiàn)狀及保密安全管理要求將打印事件的全生命周期分為生成期、審批期、暫存期、輸出期、回收期、記錄期等六大環(huán)節(jié)對(duì)各環(huán)節(jié)的安全管理要素及相互關(guān)聯(lián)性進(jìn)行分析研究、合理優(yōu)化流程通過(guò)開展需求分析、設(shè)計(jì)、開發(fā)及測(cè)試部署并采用虛擬打印、日志記錄與審計(jì)等關(guān)鍵技術(shù)最終實(shí)現(xiàn)該全生命周期文檔打印管理系統(tǒng)的建立。該系統(tǒng)目前已經(jīng)成功部署于中國(guó)航天科工集團(tuán)公司、中國(guó)兵器裝備集團(tuán)公司等單位替代了原有手工管理模式并延展了管理內(nèi)容、降低了管理漏洞、提升了管理效率該系統(tǒng)界面友好、操作便捷、運(yùn)行穩(wěn)定管理流程符合國(guó)家保密相關(guān)要求受到用戶好評(píng)。全生命周期打印管理系統(tǒng)的研究與實(shí)現(xiàn)是一項(xiàng)具有重要管理意義的課題該系統(tǒng)在涉密企事業(yè)單位的成功驗(yàn)證證明了研究?jī)?nèi)容與實(shí)現(xiàn)方式的可行性推動(dòng)了涉密企業(yè)信息安全管理的研究及實(shí)踐進(jìn)程同時(shí)對(duì)具有打印管理需求的各類單位具有普遍適用性。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-10
      頁(yè)數(shù): 83
      4人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:XMEDIA是一家在擁有大量注冊(cè)用戶和高頻率的客戶交互的開放性市場(chǎng)上開展業(yè)務(wù)的知名的國(guó)際化娛樂(lè)媒體公司。近年來(lái)XMEDIA在實(shí)現(xiàn)了一個(gè)客戶關(guān)系管理CUSTOMERRELATIONSHIPMANAGEMENTCRM系統(tǒng)后使用一個(gè)文檔管理系統(tǒng)DOCUMENTMANAGEMENTSYSTEMDMS來(lái)管理在CRM業(yè)務(wù)流程中產(chǎn)生的結(jié)構(gòu)化的和非結(jié)構(gòu)化的信息。本文主要闡述該公司的DMS升級(jí)項(xiàng)目。通過(guò)該項(xiàng)目該公司能夠通過(guò)基于企業(yè)應(yīng)用集成ENTERPRISEAPPLICATIONINTEGRATIONEAI實(shí)現(xiàn)的一個(gè)線性文檔管理流程來(lái)管理來(lái)自CRM溝通渠道中的多樣化的入站INBOUND和出站OUTBOUND文檔。本文通過(guò)DMS升級(jí)項(xiàng)目來(lái)描述在實(shí)施EAI中存在的兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是在CRM中如何有效的使用DMS第二個(gè)問(wèn)題是如何完成DMS與其他的企業(yè)應(yīng)用的集成。作為對(duì)該問(wèn)題的解答在原有的CRM業(yè)務(wù)流程的基礎(chǔ)上本文設(shè)計(jì)與實(shí)現(xiàn)了一個(gè)線性的文檔管理流程并且使用基于WEB服務(wù)的EAI解決方案成功實(shí)現(xiàn)了DMS與其他企業(yè)應(yīng)用的集成。通過(guò)系統(tǒng)需求分析系統(tǒng)設(shè)計(jì)系統(tǒng)實(shí)現(xiàn)與系統(tǒng)測(cè)試幾個(gè)方面對(duì)項(xiàng)目的實(shí)現(xiàn)細(xì)節(jié)進(jìn)行描述。其中本文使用業(yè)務(wù)流程建模標(biāo)記法BUSINESSPROCESSMODELNOTATIONBPMN來(lái)設(shè)計(jì)文檔管理流程并使用基于WEB服務(wù)的EAI解決方案加以實(shí)現(xiàn)。最后作為總結(jié)本文通過(guò)針對(duì)該娛樂(lè)公司的文檔管理系統(tǒng)升級(jí)項(xiàng)目的設(shè)計(jì)與實(shí)現(xiàn)介紹了一套文檔管理系統(tǒng)和客戶關(guān)系管理系統(tǒng)之間進(jìn)行整合的通用解決方案。其中在CRM文檔管理流程的設(shè)計(jì)和實(shí)現(xiàn)中所使用的方法以及基于WEB服務(wù)的EAI解決方案可以作為處理類似問(wèn)題或項(xiàng)目的一個(gè)參考與指南。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 122
      8人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:政黨外交輔助決策支持系統(tǒng)是一個(gè)智能聚類搜索系統(tǒng),通過(guò)輸入主題詞能搜索出同主題的大量文檔集合,并給出文檔自動(dòng)文摘的內(nèi)容,方便用戶快速瀏覽信息,及時(shí)準(zhǔn)確地做出正確決策。自動(dòng)文摘是此系統(tǒng)的一個(gè)組成部分,為了進(jìn)一步優(yōu)化系統(tǒng),提出了本課題的研究。WEB多文檔自動(dòng)文摘旨在呈現(xiàn)全面、簡(jiǎn)潔的信息給用戶,節(jié)省用戶的瀏覽時(shí)間。目前,多文檔自動(dòng)文摘主要有兩類方法一是把整個(gè)文檔集合中的句子按照權(quán)重大小統(tǒng)一進(jìn)行排序,根據(jù)壓縮比依次選擇文摘句;二是把文檔集合劃分成幾個(gè)局部主題,然后從不同的局部主題中選擇文摘句。鑒于用戶對(duì)文摘全面、簡(jiǎn)潔的要求,本文重點(diǎn)研究了第二類方法。本文重點(diǎn)研究了多文檔自動(dòng)文摘的幾個(gè)方面相似度計(jì)算、局部主題劃分、文摘句優(yōu)選、文摘句排序。本文通過(guò)對(duì)以上幾個(gè)方面的深入研究、分析,改進(jìn)了基于局部主題劃分的文摘句優(yōu)選及排序方法,主要包括改進(jìn)了詞語(yǔ)語(yǔ)義距離的計(jì)算方法,提出了歐氏距離與語(yǔ)義距離融合的句子相似度計(jì)算方法;優(yōu)化了K中心點(diǎn)算法,基于句子密度智能地發(fā)現(xiàn)種子點(diǎn)和類別數(shù);改進(jìn)了局部主題打分方法和句子信息覆蓋率判定方法,從而優(yōu)化了迭代優(yōu)選文摘句策略;在二層排序方法的基礎(chǔ)上提出了改進(jìn)的三層排序法。最后將算法應(yīng)用到WEB多文檔自動(dòng)文摘系統(tǒng)中,并對(duì)算法進(jìn)行了實(shí)驗(yàn)及結(jié)果分析。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 74
      5人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著數(shù)字媒體技術(shù)和社交網(wǎng)絡(luò)的發(fā)展與普及,越來(lái)越多的網(wǎng)絡(luò)信息以包含多種模態(tài)數(shù)據(jù)的多媒體文檔的形式出現(xiàn)。傳統(tǒng)的文檔檢索已經(jīng)不能滿足人們的需求,如何有效的從這些海量多媒體文檔中快速、準(zhǔn)確的檢索到用戶需求的信息是高效利用互聯(lián)網(wǎng)資源迫切需要解決的問(wèn)題。本文首先對(duì)現(xiàn)有的多媒體信息檢索的方法進(jìn)行了研究,在其基礎(chǔ)上,針對(duì)利用單一模態(tài)對(duì)多媒體文檔進(jìn)行檢索時(shí)表達(dá)的語(yǔ)義含混不清具有歧義的問(wèn)題,提出了一種多模態(tài)融合中采用線性加權(quán)和的方法對(duì)多媒體文檔進(jìn)行檢索。其中文本采取基于LUCENE的全文檢索,圖像利用基于內(nèi)容的紋理、顏色等檢索的LIRE。權(quán)重的分配按照各個(gè)模態(tài)檢索結(jié)果的正確率做比例來(lái)劃分,此方法經(jīng)實(shí)驗(yàn)驗(yàn)證檢索準(zhǔn)確率較高。本文提出的另外一個(gè)方法是利用融合的詞袋方法BOW和特征袋方法BOF對(duì)多媒體文檔進(jìn)行檢索。其中應(yīng)用的詞袋方法是經(jīng)過(guò)對(duì)單詞分類后的改進(jìn)的詞袋方法,改進(jìn)的方法大大降低了碼書的尺寸,使得檢索效率更高。實(shí)驗(yàn)證明,融合的BOW和BOF綜合考慮了文本和圖像對(duì)多媒體文檔檢索的影響,效率要高于只使用BOW或BOF對(duì)多媒體文檔的檢索。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 60
      4人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:近年來(lái)XML在網(wǎng)絡(luò)應(yīng)用上日益發(fā)展尤其是電子商務(wù)、WEB服務(wù)等一系列應(yīng)用理念的進(jìn)一步發(fā)展XML類型的數(shù)據(jù)便成為了數(shù)據(jù)表示和交換的主流形式。作為半結(jié)構(gòu)化數(shù)據(jù)的表示模型XML從提出到現(xiàn)在只不過(guò)幾年時(shí)間已經(jīng)顯現(xiàn)出其強(qiáng)大而廣泛的應(yīng)用前景。最近幾年在各領(lǐng)域中XML都得到了廣泛應(yīng)用逐漸被用來(lái)作為信息表現(xiàn)和交換的標(biāo)準(zhǔn)這使得與XML數(shù)據(jù)相關(guān)的領(lǐng)域成為研究熱點(diǎn)。由于查詢是數(shù)據(jù)庫(kù)最為頻繁的操作所以理所當(dāng)然的如何提高XML數(shù)據(jù)查詢的效率成為主要的研究方向之一。目前NATIVEXML數(shù)據(jù)庫(kù)的查詢求解有以下三種算法基于XML索引的導(dǎo)航遍歷算法基于XML文檔編碼的結(jié)構(gòu)鏈接算法基于XML文檔序列標(biāo)示的序列匹配算法等。在以上算法中利用結(jié)點(diǎn)編碼進(jìn)行結(jié)構(gòu)連接的算法是主流技術(shù)之一。提出XML文檔編碼就是為了降低查詢處理的成本提高查詢求解的效率。對(duì)于一個(gè)查詢路徑表達(dá)式一個(gè)較為簡(jiǎn)單的方法是自項(xiàng)向下遍歷XML文檔樹中的結(jié)點(diǎn)來(lái)匹配路徑表達(dá)式。但是如果為XML文檔樹中嵌入有效的編碼方案就能很快檢測(cè)出XML文檔樹中的任意兩個(gè)結(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系。本文在深入研究現(xiàn)已提出的編碼方案的基礎(chǔ)上結(jié)合了前綴編碼和區(qū)間編碼的優(yōu)點(diǎn)利用了子樹劃分的思想首先提出了一種基于矩陣劃分的XML文檔樹編碼MBL該編碼方案包括三部分進(jìn)行編碼前要先對(duì)樹進(jìn)行矩陣劃分以便得到矩陣編碼剩余的兩部分編碼分別是矩陣塊內(nèi)的前綴編碼和覆蓋子樹塊得區(qū)間編碼。該編碼基本是定長(zhǎng)的所以編碼長(zhǎng)度不會(huì)隨著結(jié)點(diǎn)的插入增長(zhǎng)。該方案對(duì)某些情況下的插入代價(jià)基本為零。本文還基于MBL編碼設(shè)計(jì)了相應(yīng)的存儲(chǔ)策略針對(duì)可能出現(xiàn)的存儲(chǔ)溢出問(wèn)題給出了子樹分裂算法基于MBL編碼自身的特點(diǎn)設(shè)計(jì)了索引機(jī)制該索引結(jié)構(gòu)的記錄之間不需要相互保存對(duì)方的地址提高了記錄間的獨(dú)立性有效降低了更新代價(jià)。這樣即使結(jié)點(diǎn)的記錄地址發(fā)生了改變也不需要對(duì)索引進(jìn)行修改降低了索引的維護(hù)代價(jià)。分析了基于此編碼的祖先后裔關(guān)系的判斷通過(guò)分析得出采用該編碼方案可以在常數(shù)時(shí)間內(nèi)給出任意兩結(jié)點(diǎn)間祖先后裔關(guān)系的判斷。并給出了計(jì)算結(jié)點(diǎn)間相隔層次的公式改進(jìn)了包含關(guān)系的結(jié)構(gòu)連接算法。最后本文進(jìn)行了一系列實(shí)驗(yàn)實(shí)驗(yàn)結(jié)果表明本文基于矩陣劃分的XML文檔樹編碼方案及存儲(chǔ)策略和結(jié)構(gòu)連接算法的良好性能。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 62
      10人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:隨著信息技術(shù)的發(fā)展,文檔圖像在數(shù)字圖書館、辦公自動(dòng)化、網(wǎng)上閱卷、電子政務(wù)、電子商務(wù)等項(xiàng)目中獲得廣泛的應(yīng)用。在這些應(yīng)用中,紙質(zhì)文檔通常采用掃描方式形成數(shù)字化文檔圖像進(jìn)行存儲(chǔ)、傳輸、顯示和打印。為了保證對(duì)文檔圖像的有效處理,對(duì)文檔圖像的分割研究顯得尤為重要。圖像分割算法經(jīng)過(guò)幾十年的研究,目前基于各種理論已提出了上千種各種類型的分割算法。由于目前尚沒(méi)有通用有效的分割理論,因此,現(xiàn)已提出的各種分割算法大都是針對(duì)具體應(yīng)用問(wèn)題的,并沒(méi)有一種對(duì)所有類型圖像都適用的通用的分割算法。盡管有人試圖建立分割模型并根據(jù)模型進(jìn)行圖像分割,但都并不太成功,因此定制化的分割方法才是較為有效的分割方法。論文首先介紹了文檔圖像的生成并分析了文檔圖像的特點(diǎn),指出文檔圖像是由一些具有特定性質(zhì)的區(qū)域塊組合而成,通常包括文字塊、線圖、連續(xù)色調(diào)圖像真彩色圖和半色調(diào)圖像帶調(diào)色板的圖。其中,文字和線圖保存了圖像較多的細(xì)節(jié)以及結(jié)構(gòu)信息,具有較高的空間分辨率特征,這一部分區(qū)域?qū)︻伾直媛实囊蟛桓撸欢B續(xù)色調(diào)和半色調(diào)的圖像則保存了較多的顏色信息,通常要求較高的顏色分辨率,但對(duì)空間分辨率的要求不高。也就是說(shuō)文檔圖像大多數(shù)是由具有明顯不同特征的部分組合而成,通常來(lái)說(shuō)包含文本區(qū)域、線圖區(qū)域和插圖區(qū)域,而文本區(qū)域又包含文字的輪廓和文字的背景顏色,插圖區(qū)域通常是高分辨率的彩色圖像。這些區(qū)域不僅在邏輯意義上具有獨(dú)立性,而且在顏色分辨率和空間分辨率上也具有明顯不同的特性。這種圖像特征明顯,同時(shí)在邏輯上具有獨(dú)立性的文檔圖像更適合利用具有全局分割特性的分割方法去處理。同時(shí),論文也對(duì)文檔圖像的一些統(tǒng)計(jì)特征和變換系數(shù)特征進(jìn)行了分析。文檔圖像的處理通常包括圖像預(yù)處理、圖像分割和圖像識(shí)別。本文簡(jiǎn)要介紹了文檔圖像的預(yù)處理和一些常用的分割方法,然后重點(diǎn)研究了漢字文檔圖像的圖文分割問(wèn)題,即如何將漢字文檔圖像中的文本塊和自然圖像進(jìn)行有效分割,其主要工作如下1介紹了文檔圖像的生成及文檔圖像的特征,包括自然特征、統(tǒng)計(jì)特征和變換系數(shù)特征。通過(guò)用量化指標(biāo)對(duì)自然圖像和純文本文檔圖像的紋理特征進(jìn)行分析,說(shuō)明自然圖像與文檔圖像之間的差異性。2針對(duì)文檔圖像的特點(diǎn),對(duì)文檔圖像的預(yù)處理進(jìn)行了介紹,包括圖像的灰度化、圖像背景處理、圖像傾斜檢測(cè)與校正、扭曲文檔圖像恢復(fù)和圖像濾波去噪。3介紹了一些常用的圖像分割方法和常用的文檔圖像分割方法。4提出了兩種漢字文檔圖像的圖文分割方法,一種是基于最大梯度差的分割方法,另一種是基于小波變換的分割方法。論文詳細(xì)介紹了兩種算法的算法流程,并通過(guò)實(shí)驗(yàn)驗(yàn)證了兩種分割算法的分割效果。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 60
      5人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:針對(duì)大量半結(jié)構(gòu)化以及非結(jié)構(gòu)化信息的出現(xiàn),需要一種新的業(yè)務(wù)綜合管理系統(tǒng)來(lái)支持對(duì)異構(gòu)數(shù)據(jù)源及異構(gòu)系統(tǒng)間各類信息的統(tǒng)一管理。從數(shù)據(jù)管理到文檔管理的轉(zhuǎn)變是解決統(tǒng)一管理問(wèn)題的一條途徑。數(shù)據(jù)文檔管理就是要借助信息技術(shù)協(xié)助組織和個(gè)人,對(duì)文檔進(jìn)行集成、管理、共享和發(fā)布,幫助企業(yè)和個(gè)人從異構(gòu)電子信息中獲得有用的數(shù)據(jù)。文檔管理對(duì)大型綜合性企業(yè)的經(jīng)營(yíng)管理、發(fā)展戰(zhàn)略提供有力的支持,指導(dǎo)企業(yè)生產(chǎn)、開發(fā)到運(yùn)輸?shù)雀鱾€(gè)業(yè)務(wù)管理環(huán)節(jié)的優(yōu)化,實(shí)現(xiàn)企業(yè)經(jīng)濟(jì)效益的最大化和資源整合的最優(yōu)化。本文對(duì)國(guó)內(nèi)外內(nèi)容管理技術(shù)和產(chǎn)品進(jìn)行調(diào)研,根據(jù)企業(yè)文檔管理系統(tǒng)的發(fā)展現(xiàn)狀與趨勢(shì),以及存在的主要問(wèn)題,界定了文檔管理系統(tǒng)的功能。本文采用內(nèi)容管理中的相關(guān)技術(shù)設(shè)計(jì)并實(shí)現(xiàn)一個(gè)業(yè)務(wù)文檔管理平臺(tái),采用的技術(shù)包括工作流跟蹤技術(shù)、倒排索引檢索技術(shù)、元數(shù)據(jù)模型建立、XML的統(tǒng)一文檔描述技術(shù)以及安全訪問(wèn)技術(shù)等。論文以軟件工程思想為主線,結(jié)合實(shí)際項(xiàng)目,從需求分析、框架設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)、開發(fā)環(huán)境配置等方面進(jìn)行了詳細(xì)論述。然后又根據(jù)需求完成了系統(tǒng)的總體設(shè)計(jì)和詳細(xì)設(shè)計(jì)工作為了實(shí)現(xiàn)根據(jù)工作需求定制業(yè)務(wù)流程與實(shí)現(xiàn)工作流程管理的自動(dòng)化,采用了工作流來(lái)實(shí)現(xiàn)企業(yè)內(nèi)部的文檔流程跟蹤管理;為了實(shí)現(xiàn)文檔格式的標(biāo)準(zhǔn)化統(tǒng)一轉(zhuǎn)換,需要將非結(jié)構(gòu)化數(shù)據(jù)抽取為元數(shù)據(jù)并生成XML文件進(jìn)行存儲(chǔ);為了實(shí)現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)的綜合檢索,需要利用倒排索引技術(shù)對(duì)已生成的XML文件結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,然后進(jìn)行文檔的全文檢索,從而實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的檢索功能;并通過(guò)基于角色的訪問(wèn)控制加強(qiáng)了系統(tǒng)的安全性。最后,本文對(duì)已實(shí)現(xiàn)系統(tǒng)平臺(tái)進(jìn)行了功能測(cè)試及性能測(cè)試。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 69
      6人已閱讀
      ( 4 星級(jí))
    • 簡(jiǎn)介:現(xiàn)今,網(wǎng)絡(luò)數(shù)據(jù)不斷激增,這其中大多數(shù)數(shù)據(jù)是半結(jié)構(gòu)化的,半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)類似于圖或樹,通常稱為有向標(biāo)記圖。怎樣才能在這些海量的半結(jié)構(gòu)化數(shù)據(jù)中找到我們需要的數(shù)據(jù)甚至如何從中挖掘出一些我們不曾了解的隱藏信息成為數(shù)據(jù)挖掘的一個(gè)新的研究方向。半結(jié)構(gòu)化數(shù)據(jù)有很多種表現(xiàn)形式,XML文檔是其中很重要的一種。因此在這個(gè)研究方向中,如何能量化兩個(gè)XML文檔的相似性是一個(gè)關(guān)鍵,特別是兩個(gè)XML文檔的結(jié)構(gòu)和語(yǔ)義相似性。XML不僅可以描述結(jié)構(gòu)化數(shù)據(jù),還具有描述半結(jié)構(gòu)化數(shù)據(jù)的能力。目前,它是處理半結(jié)構(gòu)化文檔的最有力的工具。XML文檔的相似性計(jì)算在XML數(shù)據(jù)的近似搜索和文檔分類方面有非常重要的作用。一些XML相似性計(jì)算方法已經(jīng)被前人提出,例如編輯距離等,然而,很少有方法能夠簡(jiǎn)潔的描繪出XML文檔的結(jié)構(gòu)及語(yǔ)義信息,進(jìn)而有效的計(jì)算XML文檔間的相似性。本文提出一種新的基于擴(kuò)展鄰接矩陣的XML文檔結(jié)構(gòu)及語(yǔ)義相似性測(cè)度方法。首先,本文介紹了數(shù)據(jù)挖掘概念及文檔相似性計(jì)算產(chǎn)生的背景與意義、XML文檔概念與特點(diǎn)以及傳統(tǒng)的XML文檔相似性計(jì)算方法等。其次通過(guò)深度搜索和區(qū)間編碼技術(shù)對(duì)文檔結(jié)構(gòu)信息進(jìn)行編碼,參考鄰接矩陣的概念提出本文相似性計(jì)算方法的核心擴(kuò)展鄰接矩陣,不同于普通的鄰接矩陣,在擴(kuò)展鄰接矩陣中,結(jié)構(gòu)信息不僅僅是指鄰接的層,還包含了祖先子孫之間的關(guān)系。為了計(jì)算兩個(gè)文檔間的相似性,本文提出的方法首先會(huì)將兩篇XML文檔的結(jié)構(gòu)和語(yǔ)義信息存儲(chǔ)在兩個(gè)擴(kuò)展鄰接矩陣M1,M2中,然后通過(guò)COSM1,M2計(jì)算兩篇XML文檔的相似性。最后介紹本文提出的相似性計(jì)算方法是如何在程序中實(shí)現(xiàn)的,并設(shè)計(jì)一系列實(shí)驗(yàn)來(lái)驗(yàn)證該方法與其他相似性計(jì)算方法相比較效果如何。通過(guò)大量實(shí)驗(yàn)證明,該方法具有較高的有效性和準(zhǔn)確性。
      下載積分: 5 賞幣
      上傳時(shí)間:2024-03-09
      頁(yè)數(shù): 66
      9人已閱讀
      ( 4 星級(jí))
    關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服客服 - 聯(lián)系我們

    機(jī)械圖紙?jiān)创a,實(shí)習(xí)報(bào)告等文檔下載

    備案號(hào):浙ICP備20018660號(hào)