欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Web信息采集系統(tǒng)的制作方法

文檔序號:6431321閱讀:226來源:國知局
專利名稱:Web信息采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。
背景技術(shù)
隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著人們的生活。而在網(wǎng)上發(fā)展最為迅猛WWW技術(shù)已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式。然而,Web信息的急速膨脹,在給人們提供豐富的資源的同時,又使人們對它們的有效使用方面面臨一個巨大的挑戰(zhàn)。

發(fā)明內(nèi)容
針對這一情況,本發(fā)明發(fā)明了一種Web信息米集系統(tǒng),該系統(tǒng)包括URL處理器、協(xié) 議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配
URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序;
所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。本發(fā)明發(fā)明的Web信息采集系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。


圖I為本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖如圖I所示,該系統(tǒng)包括URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
權(quán)利要求
1.Web信息采集系統(tǒng),其特征在于,包括 URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫; 所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ; 所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括 HTTP、FTP、Gopher 以及 BBS ; 所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測; 所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換; 所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引; 所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
全文摘要
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。該系統(tǒng)包括用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL的URL處理器;用于通過各種Web協(xié)議完成數(shù)據(jù)的采集的協(xié)議處理器;用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測的重復(fù)內(nèi)容檢測器;用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換的URL提取器;用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息的Meta信息獲取器;以及用于對文本內(nèi)容建立索引的語義信息解析器;和用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要的數(shù)據(jù)庫。該系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。
文檔編號G06F17/30GK102955795SQ201110243359
公開日2013年3月6日 申請日期2011年8月24日 優(yōu)先權(quán)日2011年8月24日
發(fā)明者丁力 申請人:句容今太科技園有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
志丹县| 酉阳| 郑州市| 同仁县| 盐源县| 英吉沙县| 甘肃省| 象州县| 弥渡县| 左贡县| 大姚县| 廉江市| 施甸县| 保靖县| 三明市| 成武县| 蚌埠市| 屏东县| 吴川市| 建始县| 卢湾区| 德化县| 安龙县| 凉山| 华阴市| 丽江市| 翁牛特旗| 北流市| 壤塘县| 休宁县| 宁海县| 平凉市| 云龙县| 子洲县| 海城市| 普宁市| 涟源市| 武穴市| 双牌县| 福安市| 嘉黎县|