欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法

文檔序號(hào):6385614閱讀:750來源:國(guó)知局
專利名稱:一種面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法
技術(shù)領(lǐng)域
本發(fā)明是一種面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法,涉及到主題爬蟲采集策略改進(jìn)和網(wǎng)頁(yè)內(nèi)容抽取分類等相關(guān)技術(shù)。
背景技術(shù)
隨著網(wǎng)頁(yè)信息迅速的增長(zhǎng),目前網(wǎng)頁(yè)總量已經(jīng)超過35億,并且每天以一百萬速度在增加,這就會(huì)造成通用搜索引擎索引的網(wǎng)頁(yè)信息時(shí)效性差,很難滿足不同專業(yè)用戶的需求,Internet的迅速發(fā)展對(duì)WEB信息的搜索提出了巨大的挑戰(zhàn)。所以面對(duì)領(lǐng)域的垂直搜索引擎就應(yīng)運(yùn)而生?;谥黝}網(wǎng)絡(luò)爬蟲的搜索引擎(即第4代搜索引擎)已經(jīng)成為當(dāng)前搜索引擎的熱點(diǎn)研究方向。垂直搜索引擎專注某一特定的領(lǐng)域,使信息處理量大大降低,可以讓搜索引擎在實(shí)時(shí)處理、主題識(shí)別過濾,主題搜索方面有著強(qiáng)大的功能。相對(duì)于通用搜索引擎強(qiáng)調(diào)“大而廣”的覆蓋面,主題搜索的目標(biāo)是盡力做到“專、精、深”。但是面向某一領(lǐng)域的網(wǎng)頁(yè)信息還是大量的,不可能全部都獲取.即使可以全部獲取,按照調(diào)查表明,用戶也不會(huì)全部瀏覽,這就需要一定的抓取策略和有效地分類盡可能抓取重要性高的網(wǎng)頁(yè),并方便的提供給用戶檢索。同時(shí),因?yàn)椴煌念I(lǐng)域數(shù)據(jù)結(jié)構(gòu)也有很大的差異性,所以在具體設(shè)計(jì)領(lǐng)域的網(wǎng)絡(luò)信息搜索方法時(shí)應(yīng)該具有針對(duì)性,更好的符合領(lǐng)域的特點(diǎn)。

發(fā)明內(nèi)容
本發(fā)明的目的是根據(jù)現(xiàn)有的網(wǎng)絡(luò)發(fā)展現(xiàn)狀,提出了一種面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法,通過對(duì)鏈接和內(nèi)容分析編寫蜘蛛采集策略提高主題相關(guān)性,并將采集的網(wǎng)頁(yè)進(jìn)行內(nèi)容抽取并分類,建立索引存儲(chǔ)在數(shù)據(jù)庫(kù)中,為將來的用戶檢索提供領(lǐng)域數(shù)據(jù)源。為了實(shí)現(xiàn)上述的目的,本發(fā)明的技術(shù)方案如下本發(fā)明提出的面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法步驟是首先咨詢領(lǐng)域?qū)<业囊庖?,歸納總結(jié)出領(lǐng)域網(wǎng)站集合,然后通過網(wǎng)絡(luò)蜘蛛收集一些典型的網(wǎng)頁(yè)構(gòu)成訓(xùn)練文檔集合,通過上述領(lǐng)域網(wǎng)站集人工識(shí)別出相關(guān)性和非相關(guān)性,利用機(jī)器學(xué)習(xí)的方法根據(jù)領(lǐng)域特點(diǎn),結(jié)合專家意見建立能夠充分代表領(lǐng)域特點(diǎn)的語(yǔ)料庫(kù),在訓(xùn)練集合上建模得到網(wǎng)頁(yè)自動(dòng)分類器,編寫網(wǎng)絡(luò)信息采集策略,通過鏈接和內(nèi)容的分析指導(dǎo)蜘蛛采集領(lǐng)域相關(guān)性高的目標(biāo)網(wǎng)頁(yè),利用網(wǎng)頁(yè)分析器獲取抽取網(wǎng)頁(yè)的領(lǐng)域相關(guān)信息,并建立倒排索引存放到數(shù)據(jù)庫(kù)中。具體步驟包括了三大模塊網(wǎng)頁(yè)采集蜘蛛模塊,分類器訓(xùn)練模塊和數(shù)據(jù)索引模塊,流程見

圖1:上述網(wǎng)頁(yè)采集蜘蛛模塊和數(shù)據(jù)庫(kù)數(shù)據(jù)索引模塊的功能是得到領(lǐng)域相關(guān)性高的網(wǎng)頁(yè)內(nèi)容,并建立倒排索引表存放到數(shù)據(jù)庫(kù)中,為將來的用戶檢索提供領(lǐng)域知識(shí)源,相應(yīng)的流程見圖2:具體步驟如下(I)把領(lǐng)域?qū)<姨峁┑木W(wǎng)站集作為蜘蛛搜索的起始網(wǎng)頁(yè),并存放到初始爬行隊(duì)列中;蜘蛛讀取初始URL,然后開始采集網(wǎng)頁(yè),并抽取其中新的URL存放到隊(duì)列中,根據(jù)蜘蛛設(shè)定的采集深度循環(huán)采集,直到觸發(fā)停止條件或者達(dá)到深度要求停止采集;(2)采集條件的設(shè)定主要是通過搜索策略算法,根據(jù)鏈接分析和內(nèi)容分析雙重約束條件設(shè)定來增加相關(guān)性;在蜘蛛采集網(wǎng)頁(yè)時(shí),首先根據(jù)鏈接分析進(jìn)行預(yù)測(cè),判定PAGERANK值高低,值高的網(wǎng)頁(yè)具有更高的優(yōu)先權(quán),優(yōu)先下載這類的網(wǎng)頁(yè);具體的參數(shù)說明如下u是被研究的網(wǎng)頁(yè),Vi是鏈接u的網(wǎng)頁(yè),是網(wǎng)頁(yè)V向外鏈接的網(wǎng)頁(yè)個(gè)數(shù),r是沒有直接鏈接u的網(wǎng)頁(yè),但是它有可能指向圖中的任何的一個(gè)網(wǎng)頁(yè),共N個(gè),所以其貢獻(xiàn)度為PR (r)/N,d是阻尼系數(shù)(O < d < I,合理的取值是O. 75 O. 9,文獻(xiàn)中經(jīng)常使用的是O. 85)。網(wǎng)頁(yè)u的PR值可以由鏈接到它的網(wǎng)頁(yè)的PageRank值和Web圖中匯點(diǎn)的PageRank值表示,公式如下
權(quán)利要求
1.一種面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法,其特征在于首先咨詢領(lǐng)域?qū)<业囊庖?,歸納總結(jié)領(lǐng)域網(wǎng)站集;再通過網(wǎng)絡(luò)蜘蛛收集一些典型的網(wǎng)頁(yè)構(gòu)成訓(xùn)練文檔集合,通過上述領(lǐng)域網(wǎng)站集人工識(shí)別出相關(guān)性和非相關(guān)性;然后根據(jù)專家意見建立能夠充分代表該領(lǐng)域的名詞庫(kù),根據(jù)領(lǐng)域名詞庫(kù)定義,利用網(wǎng)頁(yè)分析器獲取網(wǎng)頁(yè)中該領(lǐng)域的相關(guān)信息;接著根據(jù)領(lǐng)域特點(diǎn)并利用機(jī)器學(xué)習(xí)的方法,在訓(xùn)練集合上建模得到網(wǎng)頁(yè)自動(dòng)分類器;再接著編寫網(wǎng)絡(luò)信息采集策略,通過鏈接和內(nèi)容的分析指導(dǎo)蜘蛛采集充足的領(lǐng)域相關(guān)性高的目標(biāo)網(wǎng)頁(yè),并利用分類器進(jìn)行判別分類;最后將抽取出來的領(lǐng)域信息存放到數(shù)據(jù)庫(kù)中,為將來用戶檢索提供領(lǐng)域數(shù)據(jù)源;具體步驟包括了三大模塊網(wǎng)頁(yè)采集蜘蛛模塊,分類器訓(xùn)練模塊和數(shù)據(jù)索引模塊。
2.根據(jù)權(quán)利要求1所述的面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法,其特征在于所述的分類器訓(xùn)練模塊功能可以得到自動(dòng)判別采集來的網(wǎng)頁(yè)的領(lǐng)域主題相關(guān)性,具體步驟如下(1)根據(jù)領(lǐng)域網(wǎng)站集,通過蜘蛛從中采集一些網(wǎng)頁(yè)作為訓(xùn)練網(wǎng)頁(yè),同時(shí)也采集一定數(shù)量的有代表性的網(wǎng)頁(yè)作為測(cè)試網(wǎng)頁(yè);(2)采用人工標(biāo)注方式,標(biāo)注領(lǐng)域相關(guān)性的和非相關(guān)性的網(wǎng)頁(yè);(3)對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,根據(jù)DOM模型抽取的網(wǎng)頁(yè)內(nèi)容信息,采用TF/IDF算法計(jì)算特征項(xiàng)權(quán)重,來獲取更高的領(lǐng)域相關(guān)度,建立向量空間模型進(jìn)行文本表示;具體操作包括采用 GBK網(wǎng)頁(yè)編碼方式,利用URL判重器去除以前出現(xiàn)的URL,消除HTML代碼中的不規(guī)范標(biāo)記, 噪聲過濾和除去網(wǎng)頁(yè)上非相關(guān)內(nèi)容,然后進(jìn)行中文分詞,根據(jù)建立的停用詞表去除停用詞, 并建立文檔向量;(4)抽取的關(guān)鍵詞作為特征項(xiàng),并生成屬性集,合并訓(xùn)練集中所有網(wǎng)頁(yè)的關(guān)鍵詞生成屬性集,該屬性集包含訓(xùn)練集中所有網(wǎng)頁(yè)的關(guān)鍵詞,并且去除了其中重復(fù)的,然后利用該屬性集對(duì)網(wǎng)頁(yè)進(jìn)行分詞并建立文檔向量模型,在訓(xùn)練集上訓(xùn)練分類器進(jìn)行分類,并在測(cè)試集上測(cè)試分類器性能;(5)將標(biāo)注信息點(diǎn)的網(wǎng)頁(yè)和分類器參數(shù)以及文檔向量設(shè)置參數(shù)存儲(chǔ)在訓(xùn)練樣本數(shù)據(jù)庫(kù)。
3.根據(jù)權(quán)利要求1所述的面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法,其特征在于網(wǎng)頁(yè)采集蜘蛛模塊和數(shù)據(jù)索引模塊的功能可以通過網(wǎng)頁(yè)采集蜘蛛模塊采集來的網(wǎng)頁(yè),利用數(shù)據(jù)索引模塊建立索引,得到基于倒排表的全文索引庫(kù),作為將來用戶的查詢檢索的數(shù)據(jù)庫(kù),具體步驟如下(1)把領(lǐng)域?qū)<姨峁┑木W(wǎng)站集作為蜘蛛搜索的起始網(wǎng)頁(yè),并存放到初始爬行隊(duì)列中; 蜘蛛讀取初始URL,然后開始采集網(wǎng)頁(yè),并抽取其中新的URL存放到隊(duì)列中,根據(jù)蜘蛛設(shè)定的采集深度循環(huán)采集,直到觸發(fā)停止條件或者達(dá)到深度要求停止采集;(2)采集條件的設(shè)定主要是通過搜索策略算法,根據(jù)鏈接分析和內(nèi)容分析雙重約束條件設(shè)定來增加相關(guān)性;在蜘蛛采集網(wǎng)頁(yè)時(shí),首先根據(jù)鏈接分析進(jìn)行預(yù)測(cè),判定PAGERANK值高低,來對(duì)待定的URL排序,值高的網(wǎng)頁(yè)鏈接具有更高的優(yōu)先權(quán),優(yōu)先下載這類的網(wǎng)頁(yè);(3)網(wǎng)頁(yè)預(yù)處理,根據(jù)DOM模型抽取的網(wǎng)頁(yè)內(nèi)容信息,采用TF/IDF算法提取特征項(xiàng),來獲取更高的領(lǐng)域相關(guān)度;建立向量空間模型進(jìn)行文本表示;具體操作包括采用GBK網(wǎng)頁(yè)編碼方式,利用URL判重器去除以前出現(xiàn)的URL,消除HTML代碼中的不規(guī)范標(biāo)記,噪聲過濾和除去網(wǎng)頁(yè)上非相關(guān)內(nèi)容,然后進(jìn)行中文分詞,根據(jù)建立的停用詞表去除停用詞,并建立文檔向量;(4)利用分類器模塊建立SVM分類模型,把抽取的關(guān)鍵詞作為特征項(xiàng),對(duì)建立的文檔向量進(jìn)行判別分類;根據(jù)分類結(jié)果進(jìn)行領(lǐng)域主題相關(guān)性過濾;(5)建立全文索引庫(kù),構(gòu)建`基于倒排表的全文索引庫(kù),保存通過算法分類的領(lǐng)域相關(guān)度高的網(wǎng)頁(yè)。
全文摘要
本發(fā)明提供了一種面向領(lǐng)域的網(wǎng)絡(luò)信息搜索方法,可以將數(shù)據(jù)信息統(tǒng)一在同一平臺(tái),搜索多數(shù)據(jù)源的信息,支持多種數(shù)據(jù)格式,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。該網(wǎng)絡(luò)信息采集方法步驟如下領(lǐng)域?qū)<抑付I(lǐng)域網(wǎng)站集,同時(shí)根據(jù)領(lǐng)域特點(diǎn)提出關(guān)鍵詞,建立領(lǐng)域關(guān)鍵詞庫(kù);根據(jù)鏈接和內(nèi)容分析編寫信息采集策略,然后在領(lǐng)域網(wǎng)站采集目標(biāo)網(wǎng)頁(yè);將采集的網(wǎng)頁(yè)信息進(jìn)行抽取過濾分類,并建立數(shù)據(jù)庫(kù),根據(jù)倒排索引進(jìn)行信息存儲(chǔ)。具體操作包含以下三個(gè)模塊網(wǎng)頁(yè)采集蜘蛛模塊,分類器訓(xùn)練模塊和數(shù)據(jù)索引模塊。本發(fā)明具有較高的適應(yīng)性和主題相關(guān)性,以此為核心的垂直搜索引擎具有較高的查全率和查準(zhǔn)率。
文檔編號(hào)G06F17/30GK103049542SQ20121057669
公開日2013年4月17日 申請(qǐng)日期2012年12月27日 優(yōu)先權(quán)日2012年12月27日
發(fā)明者張健, 馮飛, 胡亮, 齊林, 張小栓, 徐曉莉, 邢曉輝, 魏宗洋, 王楠, 甘露, 劉菁 申請(qǐng)人:北京信息科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
南郑县| 商河县| 南京市| 辽中县| 澜沧| 台江县| 佳木斯市| 鄂尔多斯市| 和田县| 襄垣县| 板桥市| 绍兴市| 光山县| 常熟市| 雷山县| 中牟县| 托克逊县| 信丰县| 三江| 永福县| 巴南区| 西畴县| 大新县| 阜南县| 涪陵区| 鄢陵县| 泗水县| 华坪县| 鱼台县| 平原县| 上思县| 内乡县| 新丰县| 贵定县| 鹿泉市| 会同县| 延川县| 中宁县| 恩施市| 穆棱市| 治县。|