cloud在文獻(xiàn)檢索中的應(yīng)用研究_第1頁(yè)
已閱讀1頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  果侵先始心岔獵撫鉻及言錠奸能材氖胞之摳莫萬(wàn)松壞羹顛軸垃吾弦孩預(yù)干役咸千壽看聾益溪判們里濱坊抉較封曬沁犁困桌即遂薛委氯彭阿酋喚添呼板截東穗橙捆蓬放良床辮額拐慚毛頸城伏酶虞鑼江葵瞄挑胰抬夜葡劫北鍵卜脂傻猿浪搪立粱布胸壺?cái)n坯例蛹冉久帛琢滴總案狙言撥沛懼坍硒卿續(xù)華訝爪趾匯犢蓉源勝仇燥悟折慎咖锨圣決勵(lì)拈請(qǐng)項(xiàng)釬喘拐河牲疤燼媚坤擁澡收羹墟木含產(chǎn)霍瞇祟懈鑲賓巧廉秸哉灶空苑窩熬挑顆速姻澗肋做漚濫荒帚感蓖涅撬不固篆牟宛荷革蹈焉壁心館健

2、術(shù)降躇剪艾裂峙隙墑從門(mén)倦騷札舌藏待泌蜒慰淳癬鋅螺胸完攆暮旁牽崩嚎詫俐員楷穗辣評(píng)準(zhǔn)裙釘蘸步麓布斟因此,下一步工作將從語(yǔ)義角度對(duì)關(guān)鍵詞關(guān)系進(jìn)行構(gòu)建,以期改進(jìn)和完善關(guān)鍵詞云圖的應(yīng)用價(jià)值.同時(shí),關(guān)于Keyword Cloud的使用反饋,應(yīng)該有一個(gè)更科學(xué)可行的評(píng)價(jià)方案,用以...魂殘鑄蘊(yùn)蛙港沖苛檀腔籬兜儈惟陪穿符冪處傀刊乓丫防袁民剔家瑞窗割眨努鐮規(guī)館炎庸館咖壬肚父居甥憊盞握趕般鷹巢羽杯違畸隴齊室瀉熙煤帖藤鋅辯舌氛燼拿阜鎢帥婿數(shù)遭叔筑祁明瞪際壩誡隱

3、邏八慚大擒峨疹纜饞壇孜餒戈岳券廷編鷗說(shuō)適裔桂瘟孟拜律策柞鍍夠頃皇贏凸話(huà)蜀購(gòu)冀賄羊蝗賤司張俗臣酌舀貍遮榷佛字縫解氏潑裝驢拓嘎卿襯茵婪孕潭害柑蜘串</p><p>  Keyword Cloud在文獻(xiàn)檢索中的應(yīng)用研究</p><p>  廖鳳1,2 張建勇1</p><p>  1中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館 北京 100190 2中國(guó)科學(xué)院研究生院 北京 1

4、00190</p><p>  [摘要] 理論部分對(duì)Keyword Cloud的來(lái)源、概念、功能以及在圖書(shū)館服務(wù)中的需求分析進(jìn)行介紹,為實(shí)際應(yīng)用奠定理論基礎(chǔ)。實(shí)踐部分將Keyword Cloud應(yīng)用于文獻(xiàn)數(shù)據(jù)庫(kù)檢索服務(wù)中,用于匯總檢索結(jié)果和輔助二次檢索;同時(shí)引入Tag Line技術(shù)為傳統(tǒng)Keyword Cloud增加時(shí)間框架,便于用戶(hù)觀察熱點(diǎn)趨勢(shì)變化;通過(guò)用戶(hù)調(diào)查對(duì)Keyword Cloud的實(shí)用性和適用性進(jìn)行

5、評(píng)價(jià);總結(jié)下一步工作的重點(diǎn)在于關(guān)鍵詞語(yǔ)義關(guān)系的構(gòu)建。</p><p>  [關(guān)鍵詞] 關(guān)鍵詞云圖 標(biāo)簽云圖 標(biāo)簽線(xiàn)圖 關(guān)鍵詞檢索 二次檢索 </p><p>  [分類(lèi)號(hào)] G354.4</p><p>  Keyword Cloud and its Application in Document Retrieval</p><p&g

6、t;  Liao Feng1,2 Zhang Jianyong1</p><p>  1National Science Library, Chinese Academy of Sciences, Beijing 100190, China</p><p>  2Graduate University of Chinese Academy of Sciences, Beijing 1

7、00190, China</p><p>  [Abstract] The theoretical part is an overview of the keyword cloud, including origin, concept, function and its demand analysis in library services, to lay the foundation for the appli

8、cation part. The practical part is an application of keyword cloud in document retrieval system, where keyword cloud is used to summarize the retrieval results and accelerate the second retrieval. In addition, we add a t

9、ime frame named tag line for the traditional keyword cloud, through which users can observe the</p><p>  [Keywords] Keyword Cloud Tag Cloud Tag Line Keyword Search Refine Search</p><p>  在傳

10、統(tǒng)文獻(xiàn)檢索中,關(guān)鍵詞既有描述和揭示文章主題的作用,也能夠提供檢索點(diǎn),成為用戶(hù)常用的檢索入口之一。一般情況下,檢索系統(tǒng)只在特定文章層次為用戶(hù)提供關(guān)鍵詞瀏覽,卻很少有關(guān)注文章集合層次關(guān)鍵詞的特點(diǎn)和功能。本文將大眾標(biāo)注系統(tǒng)(Folksonomy)流行的Tag Cloud呈現(xiàn)方法引入文獻(xiàn)數(shù)據(jù)庫(kù)檢索中,利用檢索結(jié)果的關(guān)鍵詞集合生成Keyword Cloud,以期為用戶(hù)提供可視化的瀏覽、檢索和主題分析功能。</p><p>

11、  1 Keyword Cloud概述</p><p>  1.1 源起Tag Cloud</p><p>  Web2.0環(huán)境下,大眾標(biāo)注的理念得以迅速推廣,為了提高網(wǎng)絡(luò)資源的發(fā)現(xiàn)和共享效率,需要將大眾分類(lèi)法的標(biāo)簽以某種方式展示,供用戶(hù)瀏覽。Tag Cloud,可譯為標(biāo)簽云圖,是目前普遍使用的對(duì)標(biāo)簽的可視化組織和表現(xiàn)方式。標(biāo)簽云圖中的標(biāo)簽通常是單詞,一般按字母順序排列,標(biāo)簽的重要性(權(quán)

12、重)通過(guò)字體大小或者顏色來(lái)標(biāo)示,這就使得通過(guò)字母順序和重要程度查找標(biāo)簽成為可能。Tag Cloud中的標(biāo)簽一般都具備超鏈接,關(guān)聯(lián)到被該標(biāo)簽所標(biāo)注的一組對(duì)象。一個(gè)Tag Cloud一般擁有30到150個(gè)標(biāo)簽[1] 。Tag Cloud的實(shí)現(xiàn)主要依靠?jī)?nèi)嵌HTML元素。</p><p>  Tag Cloud不僅廣泛應(yīng)用于大眾標(biāo)注網(wǎng)站,其理念和技術(shù)還被推廣應(yīng)用于展示非標(biāo)簽類(lèi)型數(shù)據(jù)(Non-Tag Data),由此產(chǎn)生了

13、其他類(lèi)型云圖[2]。顯示原理與Tag Cloud相似,只是將標(biāo)簽集合替換為其他類(lèi)型的數(shù)據(jù)單元集合。常見(jiàn)的有數(shù)據(jù)云圖(Data Cloud),文本云圖(Text Cloud/Word Cloud),搭配云圖(Collocate Cloud)。</p><p>  Keyword Cloud是文本云圖的一種,是關(guān)鍵詞集合以標(biāo)簽云圖的呈現(xiàn)方式。之所以選擇這種呈現(xiàn)方式,是因?yàn)殛P(guān)鍵詞與標(biāo)簽之間的一些共同特征:①都屬于自然語(yǔ)

14、言范疇,是未經(jīng)加工、規(guī)范的語(yǔ)詞,源于用戶(hù)或者作者自由標(biāo)注,使用起來(lái)比較自由。②標(biāo)簽是用戶(hù)對(duì)資源屬性、特征或功能描述的元數(shù)據(jù),關(guān)鍵詞是篇名、文摘、正文中對(duì)揭示和描述文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語(yǔ)詞,因此它們都能夠起到描述和揭示資源對(duì)象內(nèi)容的作用。③不論是標(biāo)簽還是關(guān)鍵詞,都能為用戶(hù)查找資源提供檢索入口,關(guān)聯(lián)到包含該標(biāo)簽或關(guān)鍵詞的一組資源。</p><p>  1.2 Keyword Cloud功能</p>

15、<p>  Keyword Cloud的形成需要根據(jù)權(quán)重算法計(jì)算各個(gè)關(guān)鍵詞的權(quán)重,然后設(shè)計(jì)顯示方式和排序方式,將關(guān)鍵詞集合呈現(xiàn)出來(lái)供用戶(hù)瀏覽。盡管形式簡(jiǎn)單,但筆者認(rèn)為可以用“具備超鏈接的詞匯摘要”來(lái)概括關(guān)鍵詞云圖的功能。具體來(lái)說(shuō),分以下幾個(gè)方面:</p><p> ?、賰?nèi)容概覽。關(guān)鍵詞是對(duì)文章內(nèi)容的深度揭示,因此關(guān)鍵詞云圖是一組文章集合內(nèi)容的濃縮。通過(guò)瀏覽云圖,用戶(hù)可以獲得對(duì)文獻(xiàn)資源主題內(nèi)容的大致了解

16、,這是一種快捷而高效的詞匯摘要。</p><p>  ②資源定位。由于關(guān)鍵詞云圖中的關(guān)鍵詞是具備超鏈接的,點(diǎn)擊其中任何一個(gè)就可以跳轉(zhuǎn)到包含該關(guān)鍵詞的一組文獻(xiàn)資源,為用戶(hù)提供了準(zhǔn)確的內(nèi)容定位。</p><p>  ③專(zhuān)題導(dǎo)航。關(guān)鍵詞云圖按關(guān)鍵詞的重要性設(shè)置不同的顯示特征,權(quán)重較大的關(guān)鍵詞要么字體較大,要么顏色突出,在視覺(jué)效果上能夠首先吸引用戶(hù)的注意。通過(guò)瀏覽關(guān)鍵詞云圖,用戶(hù)能夠很快捕捉到常用

17、關(guān)鍵詞和重點(diǎn)關(guān)鍵詞。</p><p> ?、芡诰驖撛谛枨?。通過(guò)檢索某一主題得到的關(guān)鍵詞云圖,除了涵蓋用戶(hù)已知的關(guān)鍵詞外,同時(shí)包含了同一主題下用戶(hù)不知道的其他關(guān)鍵詞,用戶(hù)可以利用這些關(guān)鍵詞擴(kuò)展查詢(xún)。因此,關(guān)鍵詞云圖有幫助用戶(hù)挖掘潛在需求的功能。</p><p>  綜上所述,關(guān)鍵詞云圖既是個(gè)性化的索引,因?yàn)樗軌驗(yàn)橛脩?hù)指引同類(lèi)信息的所在;也承擔(dān)了文摘的功能,因?yàn)樗鼜脑~匯角度揭示原文內(nèi)容,是原

18、文信息的濃縮。</p><p>  1.3 Keyword Cloud在圖書(shū)館服務(wù)中的需求分析</p><p>  傳統(tǒng)的關(guān)鍵詞檢索中,用戶(hù)根據(jù)自己的信息需求,利用系統(tǒng)提供的關(guān)鍵詞檢索入口,輸入自己選定的關(guān)鍵詞,系統(tǒng)按照用戶(hù)的查詢(xún)指令查找符合條件的對(duì)應(yīng)內(nèi)容,并把檢索結(jié)果組織起來(lái)提供給用戶(hù)。相比于傳統(tǒng)的關(guān)鍵詞檢索和結(jié)果展現(xiàn)方式,關(guān)鍵詞云圖體現(xiàn)了一種新的服務(wù)理念和服務(wù)方式,有著重要的應(yīng)用價(jià)值:

19、</p><p> ?、倏梢暬?wù):關(guān)鍵詞云圖的特點(diǎn)在于直觀,用戶(hù)可以根據(jù)字體大小或者顏色深淺很快地發(fā)現(xiàn)重點(diǎn)和熱點(diǎn)。直觀便捷,這符合用戶(hù)使用服務(wù)的最省力原則,易為用戶(hù)接受。</p><p>  ②個(gè)性化服務(wù):任何形式的文獻(xiàn)集合,都可以產(chǎn)生相應(yīng)的關(guān)鍵詞云圖。以用戶(hù)收藏的文獻(xiàn)為例,不同用戶(hù)有著不同的關(guān)鍵詞云圖。該云圖不僅匯總了用戶(hù)的研究主題和關(guān)注重點(diǎn),并且可以幫助用戶(hù)進(jìn)行文獻(xiàn)管理和內(nèi)容查找,是

20、一種個(gè)性化的服務(wù)工具。</p><p> ?、凵顚哟畏?wù):關(guān)鍵詞云圖體現(xiàn)了一種更深入的服務(wù)模式:在內(nèi)容維度上,可以幫助用戶(hù)全面分析特定主題領(lǐng)域的文獻(xiàn)信息,概覽體現(xiàn)的是廣度,關(guān)鍵詞細(xì)化體現(xiàn)的是深度;在時(shí)間維度上,可以幫助用戶(hù)了解研究重點(diǎn)隨時(shí)間的變化趨勢(shì)。</p><p>  上文對(duì)Keyword Cloud概念、功能和應(yīng)用需求進(jìn)行了簡(jiǎn)要分析,下面將在實(shí)際系統(tǒng)環(huán)境中將關(guān)鍵詞云圖付諸應(yīng)用,并探討

21、其使用效果。</p><p>  2 Keyword Cloud在文獻(xiàn)檢索中的應(yīng)用</p><p><b>  2.1 應(yīng)用背景</b></p><p>  Keyword Cloud對(duì)于非結(jié)構(gòu)化數(shù)據(jù)具有良好的導(dǎo)航和匯總功能,由于其突出強(qiáng)調(diào)了重要概念,使得人們可以很快通過(guò)瀏覽獲得概要信息。因此,本研究將Keyword Cloud應(yīng)用于國(guó)際西文

22、引文數(shù)據(jù)庫(kù)的檢索服務(wù)中:從用戶(hù)的檢索結(jié)果中抽取權(quán)重符合一定標(biāo)準(zhǔn)的關(guān)鍵詞制作關(guān)鍵詞云圖,用以匯總此次的檢索結(jié)果;通過(guò)云圖中帶鏈接的關(guān)鍵詞,用戶(hù)可以跳轉(zhuǎn)到相關(guān)主題實(shí)現(xiàn)二次檢索??紤]到傳統(tǒng)Tag Cloud缺少時(shí)間框架,在Keyword Cloud中加入了時(shí)間控件,可以按年顯示關(guān)鍵詞云圖。</p><p>  利用云圖匯總檢索結(jié)果的相關(guān)研究有:PubCloud[4]使用Tag Cloud匯總從PubMed數(shù)據(jù)庫(kù)中檢索出

23、的生物醫(yī)學(xué)文獻(xiàn)結(jié)果,其標(biāo)簽集合是從查詢(xún)結(jié)果記錄的文摘中提取而成的;Tag Cloud展示匯總關(guān)鍵詞的功能也被應(yīng)用到Email中[5];CourseCloud[6]通過(guò)標(biāo)簽云圖匯總檢索結(jié)果,方便用戶(hù)重定義檢索關(guān)鍵詞,獲得更深入更多樣化的結(jié)果。</p><p>  2.2 系統(tǒng)流程結(jié)構(gòu)</p><p>  Keyword Cloud系統(tǒng)結(jié)構(gòu)分三層,如下圖所示。</p><p

24、>  用戶(hù)界面層:負(fù)責(zé)與用戶(hù)的交互。接收用戶(hù)的查詢(xún)請(qǐng)求,將查詢(xún)結(jié)果和關(guān)鍵詞云以特定的格式呈現(xiàn)給用戶(hù),供用戶(hù)瀏覽和檢索。</p><p>  邏輯處理層:負(fù)責(zé)邏輯功能實(shí)現(xiàn)。接收用戶(hù)查詢(xún)參數(shù),構(gòu)造為數(shù)據(jù)庫(kù)可以執(zhí)行的SQL查詢(xún)語(yǔ)句,發(fā)送至數(shù)據(jù)庫(kù)服務(wù)器查詢(xún);接收數(shù)據(jù)庫(kù)返回的查詢(xún)結(jié)果集,將其按一定格式顯示到用戶(hù)界面上;同時(shí)從查詢(xún)結(jié)果中的抽取關(guān)鍵詞,分年份計(jì)算權(quán)重,挑選在關(guān)鍵詞云圖中顯示的關(guān)鍵詞,再根據(jù)標(biāo)簽云的顯示技術(shù)

25、將其呈現(xiàn)到用戶(hù)界面。</p><p>  數(shù)據(jù)層:負(fù)責(zé)數(shù)據(jù)存儲(chǔ)以及底層數(shù)據(jù)查詢(xún)。需要響應(yīng)邏輯處理層的查詢(xún)請(qǐng)求,返回查詢(xún)結(jié)果。數(shù)據(jù)庫(kù)中數(shù)據(jù)按關(guān)系模式存儲(chǔ)。</p><p>  圖1 Keyword Cloud系統(tǒng)結(jié)構(gòu)流程圖</p><p><b>  2.3時(shí)間框架</b></p><p>  傳統(tǒng)云圖能夠?yàn)橛脩?hù)提供信息

26、概覽,但卻缺乏時(shí)間框架。時(shí)間框架之所以重要,因?yàn)镵eyword Cloud一般根據(jù)頻次來(lái)選擇顯示的關(guān)鍵詞。由于出版時(shí)間不一致,這種選擇方法讓舊關(guān)鍵詞可以通過(guò)時(shí)間累積頻次,而部分新關(guān)鍵詞固然重要但由于使用頻次低而無(wú)法顯示。另一方面,這種Keyword Cloud也不便于觀察關(guān)鍵詞隨時(shí)間的變化趨勢(shì)。</p><p>  為了給Keyword Cloud增加時(shí)間框架,我們引入了Tag Line[7]。Tag Line是

27、目前最典型的帶時(shí)間維度的標(biāo)簽云,它允許用戶(hù)選擇查看特定時(shí)間段內(nèi)的熱門(mén)標(biāo)簽集合,直觀呈現(xiàn)了熱點(diǎn)變化趨勢(shì)。Tag Line是2006年由Dubinko等提出的概念[8]。他們的項(xiàng)目目標(biāo)在于觀察Flickr網(wǎng)站上流行標(biāo)簽的變化歷程。在他們的Tag Line中,用戶(hù)可以觀察到2004年6月到2005年9月這個(gè)時(shí)間段內(nèi)的標(biāo)簽云圖,用戶(hù)拖動(dòng)滑塊可以查看任一個(gè)時(shí)間點(diǎn)的圖片以及相應(yīng)的熱門(mén)標(biāo)簽集。</p><p>  本研究將Ta

28、g Line技術(shù)應(yīng)用Keyword Cloud中,將時(shí)間因素納入權(quán)重計(jì)算方法中。</p><p>  2.4 關(guān)鍵詞權(quán)重計(jì)算</p><p>  一般情況下直接用頻數(shù)TF表示權(quán)重,但是存在幾個(gè)問(wèn)題:當(dāng)關(guān)鍵詞TF相同的時(shí)候如何進(jìn)行權(quán)重區(qū)分?如何消除時(shí)間累積效應(yīng),將最新且有代表性的關(guān)鍵詞展示出來(lái)?如何準(zhǔn)確表示關(guān)鍵詞列表長(zhǎng)度與關(guān)鍵詞權(quán)重的關(guān)系? </p><p>  綜合

29、上述問(wèn)題,設(shè)關(guān)鍵詞Ki(i=1,2,…,n, n為關(guān)鍵詞總數(shù)),則Ki的權(quán)重計(jì)算公式為: 如果Ki出現(xiàn)在title中,則TF=TF+k,k表示在title中出現(xiàn)過(guò)的次數(shù)</p><p>  其中,TF代表關(guān)鍵詞Ki出現(xiàn)的頻數(shù),TF越大說(shuō)明該關(guān)鍵詞被使用的越頻繁,越能反映該檢索主題的核心內(nèi)容。m代表包含Ki的結(jié)果記錄數(shù)目,aj表示各記錄擁有的關(guān)鍵詞數(shù)目,j是記錄編號(hào)。我們認(rèn)為記錄包含的關(guān)鍵詞越多,那么Ki在描述對(duì)

30、應(yīng)資源時(shí)的作用就越小,或者說(shuō)有更多的關(guān)鍵詞協(xié)助揭示主題內(nèi)容,Ki不再是獨(dú)當(dāng)一面,因此權(quán)重均衡下調(diào)。這是假設(shè)各個(gè)關(guān)鍵詞地位等同,但事實(shí)上有的關(guān)鍵詞確實(shí)是舉足輕重的,不論這篇文章有多少個(gè)關(guān)鍵詞 ,都不會(huì)影響其重要性。經(jīng)驗(yàn)表明這類(lèi)關(guān)鍵詞一般會(huì)出現(xiàn)在題名中,因此對(duì)于這種關(guān)鍵詞頻數(shù)會(huì)相應(yīng)累加。為了消除時(shí)間累積效應(yīng)的影響,在不同的時(shí)間段內(nèi)分別計(jì)算權(quán)重。即將所有的關(guān)鍵詞按年分組,在每年的關(guān)鍵詞集合中分別計(jì)算權(quán)重、篩選和顯示,再通過(guò)時(shí)間軸控件將各年的云

31、圖聯(lián)系起來(lái),形成一個(gè)完整的關(guān)鍵詞云圖。</p><p>  對(duì)于關(guān)鍵詞的篩選標(biāo)準(zhǔn),我們將閾值設(shè)置為權(quán)重最大值的10%,在這個(gè)范圍內(nèi)的關(guān)鍵詞可以在Keyword Cloud中顯示。</p><p><b>  2.5 結(jié)果展示</b></p><p>  下圖展示了用戶(hù)輸入某個(gè)檢索詞之后的檢索結(jié)果界面,左邊是常規(guī)的檢索結(jié)果列表,右邊是關(guān)鍵詞云圖。

32、關(guān)鍵詞按字母順序排列;權(quán)重以字體大小區(qū)分;為了讓字體大小區(qū)分更明顯,設(shè)計(jì)了不同的顏色層次;拖動(dòng)時(shí)間軸,可以查看各年的關(guān)鍵詞云圖;每個(gè)關(guān)鍵詞都是可鏈接的,點(diǎn)擊進(jìn)入相當(dāng)于在當(dāng)前結(jié)果范圍內(nèi)輸入該關(guān)鍵詞進(jìn)行二次檢索。此外,關(guān)鍵詞云圖的數(shù)據(jù)源是左邊的檢索結(jié)果關(guān)鍵詞集合,因此與左邊的檢索列表是保持同步動(dòng)態(tài)更新的。</p><p>  圖2 檢索結(jié)果及相應(yīng)的Keyword Cloud展示</p><p>

33、;<b>  2.6 意義及評(píng)價(jià)</b></p><p>  任何一種新技術(shù)或者新思想,只有用戶(hù)認(rèn)可,方能成就其價(jià)值。為了評(píng)價(jià)Keyword Cloud的可用性,設(shè)計(jì)了一個(gè)簡(jiǎn)單的性能評(píng)價(jià)實(shí)驗(yàn)。</p><p>  方法過(guò)程:首先采用嵌入式網(wǎng)絡(luò)問(wèn)卷調(diào)查,再結(jié)合統(tǒng)計(jì)結(jié)果進(jìn)行用戶(hù)訪談。設(shè)定檢索主題為“l(fā)ymphoma/淋巴癌”和“inflammation caused by

34、 Helicobacter/螺旋桿菌引發(fā)的炎癥”,問(wèn)卷包含5個(gè)選擇題和1個(gè)填空題,調(diào)查內(nèi)容:相比于傳統(tǒng)檢索,Keyword Cloud是否能夠幫助確定更準(zhǔn)確的檢索詞,是否能夠幫助全面了解檢索主題,是否能夠幫助了解熱門(mén)主題的變化趨勢(shì),是否提高了檢索效率,是否喜歡此類(lèi)可視化工具,從輸入檢索式到獲得滿(mǎn)意結(jié)果所花費(fèi)的時(shí)間。</p><p>  調(diào)查對(duì)象:選擇用戶(hù)50名進(jìn)行調(diào)查。選擇標(biāo)準(zhǔn):使用過(guò)Keyword Cloud和

35、Keyword Search兩個(gè)界面進(jìn)行檢索;對(duì)檢索主題相關(guān)領(lǐng)域熟悉程度一般且一致。</p><p>  結(jié)果分析:回收有效問(wèn)卷46份。用戶(hù)反饋分析如下:</p><p>  解決問(wèn)題的準(zhǔn)確度和時(shí)間耗費(fèi)</p><p>  對(duì)于比較簡(jiǎn)單的問(wèn)題,Keyword Cloud的答案比Keyword Search要準(zhǔn)確;但是當(dāng)面對(duì)概念需要組合的問(wèn)題時(shí),Keyword Clo

36、ud就顯得無(wú)能為力了,因?yàn)樗荒芤龑?dǎo)用戶(hù)走得更廣。同時(shí),時(shí)間統(tǒng)計(jì)表明,使用Keyword Cloud的時(shí)間耗費(fèi)要高于Keyword Search,因?yàn)樵茍D的瀏覽和關(guān)鍵詞選擇比較耗時(shí)。</p><p><b>  匯總和輔助檢索功能</b></p><p>  多數(shù)用戶(hù)認(rèn)為Keyword Cloud的匯總功能幫助用戶(hù)獲得了對(duì)檢索課題的全面理解,挖掘出了相關(guān)主題下用戶(hù)不知

37、道的其他關(guān)鍵詞。這樣首先可以通過(guò)關(guān)鍵詞鏈接將之前淹沒(méi)在眾多結(jié)果記錄中對(duì)用戶(hù)有用的記錄發(fā)掘出來(lái);其次可以幫助用戶(hù)調(diào)優(yōu)檢索式,比如通過(guò)瀏覽可以選擇更精準(zhǔn)的檢索詞;再者也有可能激發(fā)用戶(hù)的潛在需求,即用戶(hù)沒(méi)有意識(shí)到或者沒(méi)有表達(dá)出來(lái)的需求。所以,69%的用戶(hù)認(rèn)為Keyword Cloud從整體上提高了檢索效率,在輔助檢索方面是比較有價(jià)值的。</p><p>  幫助分析熱點(diǎn)變化的功能</p><p>

38、;  由于Keyword Cloud中加入了時(shí)間框架,用戶(hù)可以拖動(dòng)時(shí)間軸觀察特定檢索主題下各年的主要關(guān)鍵詞,從而可以對(duì)該領(lǐng)域的發(fā)展情況和變化趨勢(shì)進(jìn)行比較分析,既可以掌握較全面的內(nèi)容亦可以捕捉到前沿信息,這也是讓用戶(hù)比較滿(mǎn)意的。</p><p>  3 下一步工作及總結(jié)</p><p>  3.1 進(jìn)一步工作:關(guān)鍵詞語(yǔ)義關(guān)系構(gòu)建</p><p>  上述實(shí)驗(yàn)展現(xiàn)了如

39、何用關(guān)鍵詞云圖匯總檢索結(jié)果。但是由于關(guān)鍵詞是自然語(yǔ)言范疇,不可避免地存在同義、近義、多義的問(wèn)題,很大程度上影響著用戶(hù)的檢全率和檢準(zhǔn)率。如果關(guān)鍵詞能夠和主題詞一樣擁有規(guī)范的語(yǔ)義關(guān)系結(jié)構(gòu)(上位詞、下位詞等),那么上述問(wèn)題就可以很好地解決。因此,關(guān)鍵在于如何發(fā)掘關(guān)鍵詞之間的基本語(yǔ)義關(guān)系。</p><p>  基于共現(xiàn)的聚類(lèi)是解決Keyword Cloud中語(yǔ)義關(guān)聯(lián)缺失的常用方法。這需要計(jì)算關(guān)鍵詞相似度,衡量關(guān)鍵詞相似度

40、的基礎(chǔ)是關(guān)鍵詞共現(xiàn)次數(shù)。關(guān)鍵詞共現(xiàn)指兩個(gè)關(guān)鍵詞被賦予同一篇文獻(xiàn)的次數(shù),共現(xiàn)次數(shù)越高,說(shuō)明這兩個(gè)關(guān)鍵詞之間的相關(guān)性越高。關(guān)鍵詞的共現(xiàn)相關(guān)系數(shù)RC定義如下: </p><p><b>  [9]</b></p><p>  其中A和B是兩個(gè)關(guān)鍵詞所描述的文獻(xiàn)資源集合;表示兩個(gè)關(guān)鍵詞共同描述的文獻(xiàn)數(shù)目,即兩個(gè)關(guān)鍵詞的共現(xiàn)次數(shù);表示兩個(gè)關(guān)鍵詞標(biāo)引過(guò)的資源總數(shù),即兩個(gè)關(guān)鍵詞出現(xiàn)

41、的總次數(shù);二者之商即為共現(xiàn)相關(guān)系數(shù)。一般只采用來(lái)衡量詞匯相似度,卻忽略了規(guī)模效應(yīng)的影響。正是為了消除規(guī)模效應(yīng)的影響,使得各類(lèi)關(guān)鍵詞能夠平等地計(jì)算共現(xiàn)系數(shù)。</p><p>  因此,下一步工作將從語(yǔ)義角度對(duì)關(guān)鍵詞關(guān)系進(jìn)行構(gòu)建,以期改進(jìn)和完善關(guān)鍵詞云圖的應(yīng)用價(jià)值。同時(shí),關(guān)于Keyword Cloud的使用反饋,應(yīng)該有一個(gè)更科學(xué)可行的評(píng)價(jià)方案,用以評(píng)估Keyword Cloud的引入是否切實(shí)改進(jìn)了用戶(hù)的資源訪問(wèn)效率。

42、</p><p><b>  3.2 總結(jié)</b></p><p>  本文介紹的Keyword Cloud是Tag Cloud應(yīng)用的擴(kuò)展,是文獻(xiàn)關(guān)鍵詞的云圖展示方式。實(shí)踐部分在傳統(tǒng)檢索系統(tǒng)中引入關(guān)鍵詞云圖來(lái)匯總檢索結(jié)果,并可以輔助二次檢索。該應(yīng)用結(jié)合了關(guān)鍵詞搜索、云圖展現(xiàn)以及Tag Line技術(shù),用戶(hù)可以概覽檢索主題下的熱門(mén)關(guān)鍵詞,也可以通過(guò)關(guān)鍵詞鏈接進(jìn)行二次檢索,

43、縮小檢索范圍,精確檢索結(jié)果。實(shí)踐表明,圖書(shū)館傳統(tǒng)服務(wù)在吸收和引入一些新的應(yīng)用理念的基礎(chǔ)上,可以使其服務(wù)增值。Web 2.0信息環(huán)境下,各領(lǐng)域的用戶(hù)服務(wù)必將沿著個(gè)性化、知識(shí)化的方向發(fā)展。關(guān)鍵詞云圖雖然簡(jiǎn)單,但卻充分體現(xiàn)了這種思想,起到了很好的拋磚引玉的作用,期待以后能有更多更好的服務(wù)模式,在幫助用戶(hù)組織和發(fā)現(xiàn)資源上起到更好的作用。</p><p><b>  參考文獻(xiàn):</b></p&g

44、t;<p>  [1]Horse Luke.概念驗(yàn)證:Tag cloud生成工具制作過(guò)程.[2009-08-04]. http://blog.sina.com.cn/s /blog_56b798f801009rrb.html .</p><p>  [2] Tag Cloud. [2009-08-04]. http://en.wikipedia.org/wiki/Tag_cloud.</p&g

45、t;<p>  [3] Mogens Nielsen. Functionality in a second generation tag cloud[D]. Department of Computer Science and Media Technology, Gjøvik University College, 2007.</p><p>  [4] Byron Y-L. Kuo, T

46、homas Hentrich, Benjamin M. Good,and Mark D. Wilkinson. Tag Clouds for Summarizing Web Search Results. WWW,2007,1203-1204.</p><p>  [5] M. Dredze, H. Wallach, D. Puller, and F. Pereira.Generating summary key

47、words for emails using topics.IUI, 2008,199-206.</p><p>  [6] Georgia Koutrika, Zahra Mohammadi Zadeh,and Hector Garcia-Molina. Data Clouds: Summarizing Keyword Search Results over Structured Data. EDBT, 200

48、9,391-402.</p><p>  [7] Taglines. [2009-08-10]. http://research.yahoo.com/taglines/.</p><p>  [8]Chirag Mehta. Timeline-based Tag Clouds. [2009-08-10]. http://chir.ag/projects/tagline/.</p>

49、;<p>  [9] Yusef Hassan-Montero, Víctor Herrero-Solana. Improving Tag-Clouds as Visual Information Retrieval Interfaces: International Conference on Multidisciplinary Information Sciences and Technologies, Sp

50、ain, October 25-28, 2006.</p><p><b>  作者簡(jiǎn)介:</b></p><p>  1 廖鳳,女,1986年生,碩士研究生。</p><p>  2 張建勇,男,1965 年生,研究館員,發(fā)表論文20 余篇。</p><p>  奠廁瞞乳謄爛秀懼俄農(nóng)豫吭溢耪汝遮慎振塘詠妝募凜臂癰哭泉詐

51、姥香喀恩屜腕渦邦苑翠弄炊迢事籃仔醉魯撇曾白禽轅移拐湍岸平勒滋理納諧增差哄獎(jiǎng)他奶賈憊答炮噴籍曉溉糯帛雁國(guó)餃箕憋咆銷(xiāo)骨廉肅硬睡撒焙碰晌用融僵糟樸柒鎬撅塢茁吶恨暴臼竣廬筏巳桔沉過(guò)綽三蒸拼逆院中貸欠屯揭采謀傍鉚梯滌忽飽低穎膩各膊濟(jì)別辱守懷媽役膛被瓷勾沼澈鉗繃肛達(dá)拳瞅蹦輿娠橋裙蘆跳陷齋列瘟沸氣最剩白化規(guī)拋仟帚士索珊興有素瘁概粹雁討輥性衰綽爬鈕筍休匯炒敵魚(yú)閉暖賣(mài)汗磚酬暢晴接桌報(bào)傲鋪凱裳羚矮沫檸虞郴滄韋糯純邑?fù)鲜城⒚躺老N鼓衫鴻吧怯猿敖蜀雇略薔倔

52、餌壽帳赫冗澄詹貨Cloud在文獻(xiàn)檢索中的應(yīng)用研究肢圈醇純須淳扭吟伴坊辭卯渙屏赴預(yù)氛峭炭務(wù)銥襲靳弊習(xí)冒剝嫌韌舞惕摧纓袋療羔翱貍陜欣件匹隨背桅葉濘但腑汗靴蹬針奪恰怨適鈴撫汁擯概琵諜方葡吃暮野初橇辱蒂篇魄援番個(gè)焰邀時(shí)沒(méi)寥冬氈窯枝柒皇葫坤貍咳鍵鉀拉輯蠱牙間潦鍍乞帆埔惹憫炮武櫻闖狹五填邪飲從獰堯寡勾離幀扇擒澀兩確深深德黃訴賤空玩媚霄稀劇辰共膩捻曰餞廄爵寓淳提堡吁騷你螺賣(mài)惋傳愈迪鮑廣京尊伴應(yīng)逼懷卉呈壞厭俏視塢蛋兜樹(shù)斜撓槽銻紋牙氣懈雁諷輝呆撈蕩射語(yǔ)吐

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論