面向眾創(chuàng)的網絡信息抽取研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、眾創(chuàng)模式是順應創(chuàng)新2.0時代用戶創(chuàng)新、協(xié)同創(chuàng)新、大眾創(chuàng)新、開放創(chuàng)新趨勢,通過專業(yè)化服務、資本化途徑及市場化機制構建的便利化、低成本、開放式、全要素的新型創(chuàng)業(yè)服務平臺的統(tǒng)稱。目前眾創(chuàng)空間僅僅是起步階段,無論哪種商業(yè)模式都需要眾創(chuàng)信息作為支撐。發(fā)展眾創(chuàng)空間要充分借助社會力量,有效利用高校和科研院所、國家自主創(chuàng)新示范區(qū)、應用創(chuàng)新園區(qū)、國家高新區(qū)的有利條件,為創(chuàng)業(yè)者提供良好的資源共享空間、網絡空間、工作空間和社交空間。
  本文依托于中國

2、科學技術信息研究所“基于位置的眾創(chuàng)信息推薦系統(tǒng)軟件實施項目”中的“基于地理位置的創(chuàng)業(yè)資源定位與精準匹配關鍵技術平臺”子項目,研究并實現(xiàn)了項目中的“眾創(chuàng)資源和眾創(chuàng)信息”子模塊。本項目主要以眾創(chuàng)類網頁為基礎,抽取與眾創(chuàng)相關信息,為創(chuàng)客、企業(yè)提供便捷的創(chuàng)業(yè)信息服務。為了實現(xiàn)抽取與眾創(chuàng)相關信息,本文主要完成了以下工作:
  1.綜述和分析Web信息抽取相關技術
  綜述Web信息抽取及相關技術方法,主要內容包括相關概念的介紹,專業(yè)術

3、語的解釋說明,還包括對各種技術的分類,優(yōu)缺點的分析等。
  2.面向眾創(chuàng)的網頁爬取
  為了方便信息抽取,先爬取與眾創(chuàng)相關的網頁并下載到本地存儲。然后取URL優(yōu)先級隊列頭部的URL,下載URL指向的網頁,判斷網頁是否和主題(眾創(chuàng))相關,若相關則保存所下載網頁,接著提取網頁中的相關URL并計算優(yōu)先級,將URL根據(jù)優(yōu)先級存儲到優(yōu)先級隊列中繼續(xù)爬取。
  3.面向眾創(chuàng)的網頁分類
  本文主要研究與眾創(chuàng)孵化器、眾創(chuàng)活動、

4、眾創(chuàng)新聞、眾創(chuàng)項目相關信息,而爬蟲爬取過程沒有對眾創(chuàng)類型網頁進行詳細劃分。為了提高抽取的準確率,本文需要對網頁進行分類。1.根據(jù)已標注類別的網頁提取特征詞,訓練已分類的樣本網頁??紤]到每種類型的網頁都有各自的特點,提取特征詞時引入了網頁結構特征來提高分類準確率。2.對需要分類的網頁進行處理,清洗網頁上的無關項,例如廣告,然后將網頁轉換成文本。3.根據(jù)特征詞將每個網頁構造成一個特征向量。構造特征向量的同時也加入了網頁的特征標簽作為特征詞。

5、4.根據(jù)完成訓練的貝葉斯分類器對網頁進行分類。
  4.面向眾創(chuàng)的網頁信息抽取
  本文分析了眾創(chuàng)新聞類、眾創(chuàng)孵化器類、眾創(chuàng)活動類、眾創(chuàng)項目類網頁的各自特點,設計了解決每種類型網頁信息抽取的方案:1.對網頁進行無關項清洗。
  2.根據(jù)網頁中的HTML的組織形式,利用Jsoup工具包生成一棵DOM樹。3.通過規(guī)則庫中標簽組合的形式對Web網頁信息定位,其中規(guī)則庫通過人工總結生成。如從規(guī)則庫中取出div[class=co

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論