欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁內(nèi)容的提取方法和系統(tǒng)與流程

文檔序號:11286411閱讀:451來源:國知局
網(wǎng)頁內(nèi)容的提取方法和系統(tǒng)與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)頁內(nèi)容的提取方法和系統(tǒng)。



背景技術(shù):

在智能語義知識圖譜項目等互聯(lián)網(wǎng)技術(shù)領(lǐng)域中,經(jīng)常需要對采集的內(nèi)容進(jìn)行過濾、篩選或者敏感內(nèi)容攔截等操作,再提取經(jīng)過過濾、篩選或者攔截處理之后的內(nèi)容,以保證用戶所獲取的網(wǎng)頁內(nèi)容的質(zhì)量。

傳統(tǒng)方案中,在對網(wǎng)頁內(nèi)容進(jìn)行提取時,需要采用人工過濾的方式對采集到的內(nèi)容進(jìn)行甄別,以剔除相應(yīng)網(wǎng)頁中的廣告內(nèi)容、重復(fù)內(nèi)容、有敏感信息內(nèi)容等等,這樣容易導(dǎo)致網(wǎng)頁內(nèi)容的提取效率低。



技術(shù)實現(xiàn)要素:

基于此,有必要針對傳統(tǒng)方案容易導(dǎo)致網(wǎng)頁內(nèi)容的提取效率低的技術(shù)問題,提供一種網(wǎng)頁內(nèi)容的提取方法和系統(tǒng)。

一種網(wǎng)頁內(nèi)容的提取方法,包括:

從預(yù)設(shè)的待爬取隊列中讀取目標(biāo)統(tǒng)一資源定位符,下載目標(biāo)統(tǒng)一資源定位符對應(yīng)的目標(biāo)網(wǎng)頁;

根據(jù)用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取目標(biāo)區(qū)域內(nèi)容;

根據(jù)預(yù)設(shè)的過濾規(guī)則對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,剔除過濾內(nèi)容,得到區(qū)域更新內(nèi)容;

利用所述區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,保存在數(shù)據(jù)庫中;

在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,并獲取所述目標(biāo)網(wǎng)頁的頁面內(nèi)容。

一種網(wǎng)頁內(nèi)容的提取系統(tǒng),包括:

讀取模塊,用于從預(yù)設(shè)的待爬取隊列中讀取目標(biāo)統(tǒng)一資源定位符,下載目標(biāo)統(tǒng)一資源定位符對應(yīng)的目標(biāo)網(wǎng)頁;

第一提取模塊,用于根據(jù)用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取目標(biāo)區(qū)域內(nèi)容;

剔除模塊,用于根據(jù)預(yù)設(shè)的過濾規(guī)則對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,剔除過濾內(nèi)容,得到區(qū)域更新內(nèi)容;

更新模塊,用于利用所述區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,保存在數(shù)據(jù)庫中;

第二提取模塊,用于在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,并獲取所述目標(biāo)網(wǎng)頁的頁面內(nèi)容。

上述網(wǎng)頁內(nèi)容的提取方法和系統(tǒng),可以從預(yù)設(shè)的待爬取隊列中讀取目標(biāo)統(tǒng)一資源定位符,下載目標(biāo)統(tǒng)一資源定位符對應(yīng)的目標(biāo)網(wǎng)頁,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取目標(biāo)區(qū)域內(nèi)容,對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,剔除過濾內(nèi)容,以更新上述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,將其保存在相應(yīng)的數(shù)據(jù)庫中;并在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,實現(xiàn)上述目標(biāo)網(wǎng)頁頁面內(nèi)容的獲取,在剔除上述目標(biāo)區(qū)域內(nèi)容中廣告內(nèi)容、重復(fù)內(nèi)容、有敏感信息內(nèi)容等過濾內(nèi)容的基礎(chǔ)上,可以保證對相應(yīng)網(wǎng)頁內(nèi)容的提取效率。

附圖說明

圖1為一個實施例的網(wǎng)頁內(nèi)容的提取方法流程圖;

圖2為一個實施例的網(wǎng)頁內(nèi)容的提取系統(tǒng)結(jié)構(gòu)示意圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明的網(wǎng)頁內(nèi)容的提取方法和系統(tǒng)的具體實施方式作詳細(xì)描述。

參考圖1,圖1所示為一個實施例的網(wǎng)頁內(nèi)容的提取方法流程圖,包括如下步驟:

s10,從預(yù)設(shè)的待爬取隊列(待爬取url隊列)中讀取目標(biāo)統(tǒng)一資源定位符(url,uniformresourcelocator),下載目標(biāo)統(tǒng)一資源定位符對應(yīng)的目標(biāo)網(wǎng)頁;

在計算機(jī)等智能設(shè)備讀取到用戶輸入的url時,可以將上述url存入預(yù)設(shè)的待爬取隊列;這樣,上述待爬取隊列內(nèi)存放若干個用戶預(yù)備訪問的url。這時,可以從上述待爬取隊列中選擇一個url,將其確定為目標(biāo)url。可選地,上述目標(biāo)url可以確定為待爬取隊列中的首個url。若上述待爬取隊列中所存放的url具有重要性標(biāo)識符,則可以將其中重要性程度最高的url確定為目標(biāo)url。

s20,根據(jù)用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取目標(biāo)區(qū)域內(nèi)容;

上述步驟中,可以從目標(biāo)url中讀取目標(biāo)網(wǎng)頁上的目標(biāo)區(qū)域。還可以在用戶輸入url之后,繼續(xù)讀取用戶針對該url所輸入的目標(biāo)區(qū)域標(biāo)識參數(shù)(如區(qū)域名稱或者區(qū)域坐標(biāo)范圍等),根據(jù)上述目標(biāo)區(qū)域標(biāo)識參數(shù)確定用戶在該url對應(yīng)的網(wǎng)頁上所選擇的目標(biāo)區(qū)域。

s30,根據(jù)預(yù)設(shè)的過濾規(guī)則對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,剔除過濾內(nèi)容,得到區(qū)域更新內(nèi)容;

上述過濾規(guī)則可以包括廣告過濾規(guī)則、重復(fù)內(nèi)容過濾規(guī)則、和/或敏感信息過濾規(guī)則等,其可以根據(jù)目標(biāo)url的相關(guān)特征以及相應(yīng)用戶的訪問需求預(yù)先設(shè)置。根據(jù)上述過濾規(guī)則對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,得到區(qū)域更新內(nèi)容,使上述區(qū)域更新內(nèi)容中不包括重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容(存在敏感信息的內(nèi)容)。

s40,利用所述區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,保存在數(shù)據(jù)庫中;

根據(jù)區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,使目標(biāo)網(wǎng)頁中目標(biāo)區(qū)域的內(nèi)容不包括重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容,在將上述目標(biāo)網(wǎng)頁保存在本地的數(shù)據(jù)庫中后,用戶在上述目標(biāo)url對應(yīng)的網(wǎng)頁沒有在服務(wù)器端被重新編輯之前,對上述目標(biāo)url進(jìn)行訪問,所獲取的網(wǎng)頁內(nèi)容便為對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理后的網(wǎng)頁內(nèi)容。

s50,在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,并獲取所述目標(biāo)網(wǎng)頁的頁面內(nèi)容。

上述步驟在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,便可以根據(jù)上述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,獲取相應(yīng)目標(biāo)網(wǎng)頁的頁面內(nèi)容,這樣便能快速從本地的數(shù)據(jù)庫中提取對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理后的網(wǎng)頁內(nèi)容供用戶訪問。

本實施例提供的網(wǎng)頁內(nèi)容的提取方法,可以從預(yù)設(shè)的待爬取隊列中讀取目標(biāo)統(tǒng)一資源定位符,下載目標(biāo)統(tǒng)一資源定位符對應(yīng)的目標(biāo)網(wǎng)頁,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取目標(biāo)區(qū)域內(nèi)容,對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,剔除過濾內(nèi)容,以更新上述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,將其保存在相應(yīng)的數(shù)據(jù)庫中;并在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,實現(xiàn)上述目標(biāo)網(wǎng)頁頁面內(nèi)容的獲取,在剔除上述目標(biāo)區(qū)域內(nèi)容中廣告內(nèi)容、重復(fù)內(nèi)容、有敏感信息內(nèi)容等過濾內(nèi)容的基礎(chǔ)上,可以保證對相應(yīng)網(wǎng)頁內(nèi)容的提取效率。

在一個實施例中,上述從預(yù)設(shè)的待爬取隊列中讀取目標(biāo)統(tǒng)一資源定位符的過程可以包括:

讀取用戶輸入的統(tǒng)一資源定位符,將所述統(tǒng)一資源定位符存入待爬取隊列;

從所述待爬取隊列存儲的統(tǒng)一資源定位符中選取目標(biāo)統(tǒng)一資源定位符。

用戶在本地輸入url之后,上述url首先存入上述待爬取隊列,這樣,url在上述待爬取隊列可以被確定為目標(biāo)url,在確定為目標(biāo)url后,便可以對其目標(biāo)區(qū)域的目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理,更新相應(yīng)的網(wǎng)頁內(nèi)容,使用戶可以從保存更新后的目標(biāo)網(wǎng)頁的數(shù)據(jù)庫中快速對過濾處理后的網(wǎng)頁內(nèi)容進(jìn)行訪問。

可選地,在讀取用戶輸入的統(tǒng)一資源定位符之前,可以預(yù)先設(shè)置待爬取隊列,以及已爬取隊列。上述待爬取隊列用于存儲需要對其網(wǎng)頁內(nèi)容進(jìn)行過濾處理的url,上述已爬取隊列用于存儲已對相應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行過濾處理后的url??蛇x的,若已爬取隊列中存放的某個url為時效性要求較高的url,則在一定時間后,可以將該url移動至待爬取隊列,使其在待爬取隊列中重新被確定為目標(biāo)url,以對其網(wǎng)頁內(nèi)容重新進(jìn)行過濾處理。

作為一個實施例,上述從所述待爬取隊列存儲的統(tǒng)一資源定位符中選取目標(biāo)統(tǒng)一資源定位符的過程之后,還可以包括:

讀取用戶分別針對各個統(tǒng)一資源定位符輸入的區(qū)域標(biāo)識參數(shù),在所述待爬取隊列建立所述統(tǒng)一資源定位符與區(qū)域標(biāo)識參數(shù)的對應(yīng)關(guān)系;

在選取目標(biāo)統(tǒng)一資源定位符時,獲取所述目標(biāo)統(tǒng)一資源定位符對應(yīng)的區(qū)域標(biāo)識參數(shù),根據(jù)所述區(qū)域標(biāo)識參數(shù)確定用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域。

本實施例可以讀取用戶分別針對各個統(tǒng)一資源定位符輸入的區(qū)域標(biāo)識參數(shù)(如區(qū)域名稱或者區(qū)域坐標(biāo)范圍等參數(shù)),并在所述待爬取隊列建立所述統(tǒng)一資源定位符與區(qū)域標(biāo)識參數(shù)的對應(yīng)關(guān)系,以便在選取目標(biāo)統(tǒng)一資源定位符時,獲取所述目標(biāo)統(tǒng)一資源定位符對應(yīng)的區(qū)域標(biāo)識參數(shù),從而可以根據(jù)所述區(qū)域標(biāo)識參數(shù)確定用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域,以保證所選擇的目標(biāo)區(qū)域的準(zhǔn)確性。

在一個實施例中,上述根據(jù)預(yù)設(shè)的過濾規(guī)則對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾的過程可以包括:

在所述目標(biāo)內(nèi)容中識別重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容,將識別得到的重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容確定為過濾內(nèi)容。

作為一個實施例,上述在所述目標(biāo)內(nèi)容中識別重復(fù)內(nèi)容的過程包括:

在所述目標(biāo)內(nèi)容中,將任意相鄰兩個標(biāo)點符號之間的內(nèi)容確定為目標(biāo)字段,在所述目標(biāo)字段中識別多組相同的重復(fù)字段;將各組重復(fù)字段中除第一個字段以外的各個字段確定為重復(fù)內(nèi)容。

上述重復(fù)字段為文字完全相同的字段(包括字?jǐn)?shù),相同字詞在字段中的位置等等)。

本實施例可以對目標(biāo)內(nèi)容中各組相同的重復(fù)字段進(jìn)行識別,將各組重復(fù)字段中除第一個字段以外的各個字段確定為重復(fù)內(nèi)容,即僅在目標(biāo)內(nèi)容中保留各組重復(fù)字段中的一個字段,以避免該字段在上述目標(biāo)內(nèi)容中重復(fù)出現(xiàn),可以使上述目標(biāo)內(nèi)容更為簡潔,提高后續(xù)用戶對該目標(biāo)內(nèi)容進(jìn)行訪問時的信息獲取效率。

作為一個實施例,上述在所述目標(biāo)內(nèi)容中識別廣告內(nèi)容和/或敏感內(nèi)容的過程包括:

在所述目標(biāo)內(nèi)容中根據(jù)預(yù)設(shè)的廣告字詞庫識別廣告字段,將所述廣告字段所在的語句確定為廣告內(nèi)容;

和/或,

在所述目標(biāo)內(nèi)容中根據(jù)預(yù)設(shè)的敏感字詞庫識別敏感字段,將所述敏感字段所在的語句確定為敏感內(nèi)容。

上述廣告字詞庫可以根據(jù)常見的商家名、廣告術(shù)語以及相關(guān)宣傳鏈接建立。通常情況下,上述廣告字詞庫可以包括商家名、宣傳頻率較高的商品名以及購物鏈接等等。若目標(biāo)內(nèi)容中的某個字段與上述廣告字詞庫中存儲的某一字詞或者網(wǎng)絡(luò)鏈接完全一致,則可以將目標(biāo)內(nèi)容中的該字段確定為廣告字段,那么包括上述廣告字段的語句極有可能為廣告內(nèi)容,將上述廣告內(nèi)容進(jìn)行過濾(剔除)后,可以避免該廣告內(nèi)容對相應(yīng)目標(biāo)內(nèi)容造成的干擾。

上述敏感字詞庫可以根據(jù)相應(yīng)url所處環(huán)境中的相關(guān)規(guī)定以及上述url針對的用戶群特征確定。通常情況下,上述敏感字詞庫可以包括被禁止出現(xiàn)的字詞,以及出現(xiàn)之后可能使上述url所針對的用戶明顯不適的字詞。上述敏感字詞庫可以根據(jù)相關(guān)規(guī)定以及用戶需求進(jìn)行更新,具體地,可以將敏感字詞庫記錄的字詞進(jìn)行移除,也可以向上述敏感字詞庫添加新的字詞。若目標(biāo)內(nèi)容中的某個字段與上述敏感字詞庫中存儲的某一字詞完全一致,則可以將目標(biāo)內(nèi)容中的該字段確定為敏感字段,那么包括上述敏感字段的語句極有可能為包括敏感信息的敏感內(nèi)容,將上述敏感內(nèi)容進(jìn)行過濾后,可以避免該敏感內(nèi)容對相應(yīng)目標(biāo)內(nèi)容造成的干擾。

在一個實施例中,上述在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,并獲取所述目標(biāo)網(wǎng)頁的頁面內(nèi)容的過程之后,還可以包括:

將當(dāng)前的目標(biāo)統(tǒng)一資源定位符從所述待爬取隊列移動至已爬取隊列,并從所述待爬取隊列存儲的統(tǒng)一資源定位符中重新選取目標(biāo)統(tǒng)一資源定位符。

本實施例在對當(dāng)前的目標(biāo)url對應(yīng)的目標(biāo)網(wǎng)頁中目標(biāo)區(qū)域內(nèi)的目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理,將目標(biāo)區(qū)域進(jìn)行過濾處理后的目標(biāo)網(wǎng)頁保存在數(shù)據(jù)庫中后,將當(dāng)前的目標(biāo)url從所述待爬取隊列移動至已爬取隊列,表面該url對于的網(wǎng)頁內(nèi)容已經(jīng)進(jìn)行過濾;再繼續(xù)從待爬取隊列存儲的url中重新選取其他url作為目標(biāo)url,以對下載重新選取后的目標(biāo)url對應(yīng)的目標(biāo)網(wǎng)頁,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取相應(yīng)目標(biāo)區(qū)域?qū)?yīng)的目標(biāo)區(qū)域內(nèi)容,對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,得到區(qū)域更新內(nèi)容,再利用區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,保存在數(shù)據(jù)庫中,以便在接收到用戶對新的目標(biāo)url的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,并獲取所述目標(biāo)網(wǎng)頁的頁面內(nèi)容;再將上述目標(biāo)url存入已讀取隊列,重新從待讀取隊列中選取目標(biāo)url。以此循環(huán)執(zhí)行在對當(dāng)前的目標(biāo)url對應(yīng)的網(wǎng)頁內(nèi)容完成過濾處理后,將其移動至已讀取隊列,重新從待讀取隊列中選取目標(biāo)url,對上述目標(biāo)url對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行過濾處理的過程,直至對上述待爬取隊列中的所有url對應(yīng)的網(wǎng)頁內(nèi)容實現(xiàn)過濾處理。

作為一個實施例,上述網(wǎng)頁內(nèi)容的提取方法,還可以包括:

識別所述已爬取隊列中各個統(tǒng)一資源定位符對應(yīng)的網(wǎng)頁內(nèi)容在設(shè)定時間段被編輯的頻率;

獲取被編輯頻率大于頻率閾值的網(wǎng)頁內(nèi)容所對應(yīng)的統(tǒng)一資源定位符,得到高頻更新資源定位符(高頻更新url);

將所述高頻更新資源定位符從所述已爬取隊列移動至待爬取隊列。

上述設(shè)定時間段可以根據(jù)相應(yīng)及時性要求高的網(wǎng)頁(如時事新聞網(wǎng)頁等)的更新特征進(jìn)行確定,如確定為某一天或者當(dāng)前時刻的前5個小時等時間段。上述頻率閾值可以根據(jù)及時性要求高的網(wǎng)頁的相關(guān)更新特征進(jìn)行確定,比如設(shè)置為5或者4等值。

某url對應(yīng)的網(wǎng)頁內(nèi)容在設(shè)定時間段被編輯的頻率大于頻率閾值,表明該url對于的網(wǎng)頁內(nèi)容在相應(yīng)服務(wù)器端被編輯的頻率較高(相應(yīng)的及時性要求高),在對該url對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行過濾處理后,其網(wǎng)頁內(nèi)容有可能在服務(wù)器端被相關(guān)工作人員重新編輯,此時需要對重新編輯之后的網(wǎng)頁內(nèi)容再次進(jìn)行過濾處理,以保證上述過濾處理的有效性。

本實施例將已爬取隊列中,網(wǎng)頁內(nèi)容被編輯的頻率較高,即及時性要求高的高頻更新url移動至待爬取隊列,使上述高頻更新url重新在待爬取隊列中被確定為目標(biāo)url,對其對應(yīng)的網(wǎng)頁內(nèi)容重新信息過濾處理,可以進(jìn)一步保證對網(wǎng)頁內(nèi)容進(jìn)行過濾處理的效果,從而提高了網(wǎng)頁內(nèi)容的提取效果。

參考圖2所示,圖2所示為一個實施例的網(wǎng)頁內(nèi)容的提取系統(tǒng)結(jié)構(gòu)示意圖,包括:

讀取模塊10,用于從預(yù)設(shè)的待爬取隊列中讀取目標(biāo)統(tǒng)一資源定位符,下載目標(biāo)統(tǒng)一資源定位符對應(yīng)的目標(biāo)網(wǎng)頁;

在計算機(jī)等智能設(shè)備讀取到用戶輸入的url時,可以將上述url存入預(yù)設(shè)的待爬取隊列;這樣,上述待爬取隊列內(nèi)存放若干個用戶預(yù)備訪問的url。這時,可以從上述待爬取隊列中選擇一個url,將其確定為目標(biāo)url??蛇x地,上述目標(biāo)url可以確定為待爬取隊列中的首個url。若上述待爬取隊列中所存放的url具有重要性標(biāo)識符,則可以將其中重要性程度最高的url確定為目標(biāo)url。

第一提取模塊20,用于根據(jù)用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取目標(biāo)區(qū)域內(nèi)容;

上述第一提取模塊中,可以從目標(biāo)url中讀取目標(biāo)網(wǎng)頁上的目標(biāo)區(qū)域。還可以在用戶輸入url之后,繼續(xù)讀取用戶針對該url所輸入的目標(biāo)區(qū)域標(biāo)識參數(shù)(如區(qū)域名稱或者區(qū)域坐標(biāo)范圍等),根據(jù)上述目標(biāo)區(qū)域標(biāo)識參數(shù)確定用戶在該url對應(yīng)的網(wǎng)頁上所選擇的目標(biāo)區(qū)域。

剔除模塊30,用于根據(jù)預(yù)設(shè)的過濾規(guī)則對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,剔除過濾內(nèi)容,得到區(qū)域更新內(nèi)容;

上述過濾規(guī)則可以包括廣告過濾規(guī)則、重復(fù)內(nèi)容過濾規(guī)則、和/或敏感信息過濾規(guī)則等,其可以根據(jù)目標(biāo)url的相關(guān)特征以及相應(yīng)用戶的訪問需求預(yù)先設(shè)置。根據(jù)上述過濾規(guī)則對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,得到區(qū)域更新內(nèi)容,使上述區(qū)域更新內(nèi)容中不包括重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容(存在敏感信息的內(nèi)容)。

更新模塊40,用于利用所述區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,保存在數(shù)據(jù)庫中;

根據(jù)區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,使目標(biāo)網(wǎng)頁中目標(biāo)區(qū)域的內(nèi)容不包括重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容,在將上述目標(biāo)網(wǎng)頁保存在本地的數(shù)據(jù)庫中后,用戶在上述目標(biāo)url對應(yīng)的網(wǎng)頁沒有在服務(wù)器端被重新編輯之前,對上述目標(biāo)url進(jìn)行訪問,所獲取的網(wǎng)頁內(nèi)容便為對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理后的網(wǎng)頁內(nèi)容。

第二提取模塊50,用于在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,并獲取所述目標(biāo)網(wǎng)頁的頁面內(nèi)容。

上述第二提取模塊中,在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,便可以根據(jù)上述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,獲取相應(yīng)目標(biāo)網(wǎng)頁的頁面內(nèi)容,這樣便能快速從本地的數(shù)據(jù)庫中提取對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理后的網(wǎng)頁內(nèi)容供用戶訪問。

本實施例提供的網(wǎng)頁內(nèi)容的提取系統(tǒng),可以從預(yù)設(shè)的待爬取隊列中讀取目標(biāo)統(tǒng)一資源定位符,下載目標(biāo)統(tǒng)一資源定位符對應(yīng)的目標(biāo)網(wǎng)頁,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取目標(biāo)區(qū)域內(nèi)容,對所述目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,剔除過濾內(nèi)容,以更新上述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,將其保存在相應(yīng)的數(shù)據(jù)庫中;并在接收到用戶對所述目標(biāo)統(tǒng)一資源定位符的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,實現(xiàn)上述目標(biāo)網(wǎng)頁頁面內(nèi)容的獲取,在剔除上述目標(biāo)區(qū)域內(nèi)容中廣告內(nèi)容、重復(fù)內(nèi)容、有敏感信息內(nèi)容的基礎(chǔ)上,可以保證對相應(yīng)網(wǎng)頁內(nèi)容的提取效率。

在一個實施例中,上述讀取模塊進(jìn)一步用于:

讀取用戶輸入的統(tǒng)一資源定位符,將所述統(tǒng)一資源定位符存入待爬取隊列;

從所述待爬取隊列存儲的統(tǒng)一資源定位符中選取目標(biāo)統(tǒng)一資源定位符。

用戶在本地輸入url之后,上述url首先存入上述待爬取隊列,這樣,url在上述待爬取隊列可以被確定為目標(biāo)url,在確定為目標(biāo)url后,便可以對其目標(biāo)區(qū)域的目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理,更新相應(yīng)的網(wǎng)頁內(nèi)容,使用戶可以從保存更新后的目標(biāo)網(wǎng)頁的數(shù)據(jù)庫中快速對過濾處理后的網(wǎng)頁內(nèi)容進(jìn)行訪問。

可選地,在讀取用戶輸入的統(tǒng)一資源定位符之前,可以預(yù)先設(shè)置待爬取隊列,以及已爬取隊列。上述待爬取隊列用于存儲需要對其網(wǎng)頁內(nèi)容進(jìn)行過濾處理的url,上述已爬取隊列用于存儲已對相應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行過濾處理后的url。可選的,若已爬取隊列中存放的某個url為時效性要求較高的url,則在一定時間后,可以將該url移動至待爬取隊列,使其在待爬取隊列中重新被確定為目標(biāo)url,以對其網(wǎng)頁內(nèi)容重新進(jìn)行過濾處理。

作為一個實施例,上述讀取模塊進(jìn)一步用于:

讀取用戶分別針對各個統(tǒng)一資源定位符輸入的區(qū)域標(biāo)識參數(shù),在所述待爬取隊列建立所述統(tǒng)一資源定位符與區(qū)域標(biāo)識參數(shù)的對應(yīng)關(guān)系;

在選取目標(biāo)統(tǒng)一資源定位符時,獲取所述目標(biāo)統(tǒng)一資源定位符對應(yīng)的區(qū)域標(biāo)識參數(shù),根據(jù)所述區(qū)域標(biāo)識參數(shù)確定用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域。

本實施例可以讀取用戶分別針對各個統(tǒng)一資源定位符輸入的區(qū)域標(biāo)識參數(shù)(如區(qū)域名稱或者區(qū)域坐標(biāo)范圍等參數(shù)),并在所述待爬取隊列建立所述統(tǒng)一資源定位符與區(qū)域標(biāo)識參數(shù)的對應(yīng)關(guān)系,以便在選取目標(biāo)統(tǒng)一資源定位符時,獲取所述目標(biāo)統(tǒng)一資源定位符對應(yīng)的區(qū)域標(biāo)識參數(shù),從而可以根據(jù)所述區(qū)域標(biāo)識參數(shù)確定用戶在所述目標(biāo)網(wǎng)頁上選擇的目標(biāo)區(qū)域,以保證所選擇的目標(biāo)區(qū)域的準(zhǔn)確性。

在一個實施例中,上述剔除模塊可以進(jìn)一步用于:

在所述目標(biāo)內(nèi)容中識別重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容,將識別得到的重復(fù)內(nèi)容、廣告內(nèi)容和/或敏感內(nèi)容確定為過濾內(nèi)容。

作為一個實施例,上述剔除模塊可以進(jìn)一步用于:

在所述目標(biāo)內(nèi)容中,將任意相鄰兩個標(biāo)點符號之間的內(nèi)容確定為目標(biāo)字段,在所述目標(biāo)字段中識別多組相同的重復(fù)字段;將各組重復(fù)字段中除第一個字段以外的各個字段確定為重復(fù)內(nèi)容。

上述重復(fù)字段為文字完全相同的字段(包括字?jǐn)?shù),相同字詞在字段中的位置等等)。

本實施例可以對目標(biāo)內(nèi)容中各組相同的重復(fù)字段進(jìn)行識別,將各組重復(fù)字段中除第一個字段以外的各個字段確定為重復(fù)內(nèi)容,即僅在目標(biāo)內(nèi)容中保留各組重復(fù)字段中的一個字段,以避免該字段在上述目標(biāo)內(nèi)容中重復(fù)出現(xiàn),可以使上述目標(biāo)內(nèi)容更為簡潔,提高后續(xù)用戶對該目標(biāo)內(nèi)容進(jìn)行訪問時的信息獲取效率。

作為一個實施例,上述剔除模塊可以進(jìn)一步用于:

在所述目標(biāo)內(nèi)容中根據(jù)預(yù)設(shè)的廣告字詞庫識別廣告字段,將所述廣告字段所在的語句確定為廣告內(nèi)容;

和/或,

在所述目標(biāo)內(nèi)容中根據(jù)預(yù)設(shè)的敏感字詞庫識別敏感字段,將所述敏感字段所在的語句確定為敏感內(nèi)容。

上述廣告字詞庫可以根據(jù)常見的商家名、廣告術(shù)語以及相關(guān)宣傳鏈接建立。通常情況下,上述廣告字詞庫可以包括商家名、宣傳頻率較高的商品名以及購物鏈接等等。若目標(biāo)內(nèi)容中的某個字段與上述廣告字詞庫中存儲的某一字詞或者網(wǎng)絡(luò)鏈接完全一致,則可以將目標(biāo)內(nèi)容中的該字段確定為廣告字段,那么包括上述廣告字段的語句極有可能為廣告內(nèi)容,將上述廣告內(nèi)容進(jìn)行過濾(剔除)后,可以避免該廣告內(nèi)容對相應(yīng)目標(biāo)內(nèi)容造成的干擾。

上述敏感字詞庫可以根據(jù)相應(yīng)url所處環(huán)境中的相關(guān)規(guī)定以及上述url針對的用戶群特征確定。通常情況下,上述敏感字詞庫可以包括被禁止出現(xiàn)的字詞,以及出現(xiàn)之后可能使上述url所針對的用戶明顯不適的字詞。上述敏感字詞庫可以根據(jù)相關(guān)規(guī)定以及用戶需求進(jìn)行更新,具體地,可以將敏感字詞庫記錄的字詞進(jìn)行移除,也可以向上述敏感字詞庫添加新的字詞。若目標(biāo)內(nèi)容中的某個字段與上述敏感字詞庫中存儲的某一字詞完全一致,則可以將目標(biāo)內(nèi)容中的該字段確定為敏感字段,那么包括上述敏感字段的語句極有可能為包括敏感信息的敏感內(nèi)容,將上述敏感內(nèi)容進(jìn)行過濾后,可以避免該敏感內(nèi)容對相應(yīng)目標(biāo)內(nèi)容造成的干擾。

在一個實施例中,上述網(wǎng)頁內(nèi)容的提取系統(tǒng),還可以包括:

第一移動模塊,用于將當(dāng)前的目標(biāo)統(tǒng)一資源定位符從所述待爬取隊列移動至已爬取隊列,并從所述待爬取隊列存儲的統(tǒng)一資源定位符中重新選取目標(biāo)統(tǒng)一資源定位符。

本實施例在對當(dāng)前的目標(biāo)url對應(yīng)的目標(biāo)網(wǎng)頁中目標(biāo)區(qū)域內(nèi)的目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾處理,將目標(biāo)區(qū)域進(jìn)行過濾處理后的目標(biāo)網(wǎng)頁保存在數(shù)據(jù)庫中后,將當(dāng)前的目標(biāo)url從所述待爬取隊列移動至已爬取隊列,表面該url對于的網(wǎng)頁內(nèi)容已經(jīng)進(jìn)行過濾;再繼續(xù)從待爬取隊列存儲的url中重新選取其他url作為目標(biāo)url,以對下載重新選取后的目標(biāo)url對應(yīng)的目標(biāo)網(wǎng)頁,從目標(biāo)網(wǎng)頁顯示內(nèi)容中提取相應(yīng)目標(biāo)區(qū)域?qū)?yīng)的目標(biāo)區(qū)域內(nèi)容,對目標(biāo)區(qū)域內(nèi)容進(jìn)行過濾,得到區(qū)域更新內(nèi)容,再利用區(qū)域更新內(nèi)容更新所述目標(biāo)區(qū)域的目標(biāo)網(wǎng)頁,保存在數(shù)據(jù)庫中,以便在接收到用戶對新的目標(biāo)url的訪問請求時,根據(jù)所述訪問請求從所述數(shù)據(jù)庫中提取更新后的目標(biāo)網(wǎng)頁,并獲取所述目標(biāo)網(wǎng)頁的頁面內(nèi)容;再將上述目標(biāo)url存入已讀取隊列,重新從待讀取隊列中選取目標(biāo)url。以此循環(huán)執(zhí)行在對當(dāng)前的目標(biāo)url對應(yīng)的網(wǎng)頁內(nèi)容完成過濾處理后,將其移動至已讀取隊列,重新從待讀取隊列中選取目標(biāo)url,對上述目標(biāo)url對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行過濾處理的過程,直至對上述待爬取隊列中的所有url對應(yīng)的網(wǎng)頁內(nèi)容實現(xiàn)過濾處理。

作為一個實施例,上述網(wǎng)頁內(nèi)容的提取系統(tǒng),還可以包括:

識別模塊,用于識別所述已爬取隊列中各個統(tǒng)一資源定位符對應(yīng)的網(wǎng)頁內(nèi)容在設(shè)定時間段被編輯的頻率;

獲取模塊,用于獲取被編輯頻率大于頻率閾值的網(wǎng)頁內(nèi)容所對應(yīng)的統(tǒng)一資源定位符,得到高頻更新資源定位符;

第二移動模塊,用于將所述高頻更新資源定位符從所述已爬取隊列移動至待爬取隊列。

上述設(shè)定時間段可以根據(jù)相應(yīng)及時性要求高的網(wǎng)頁(如時事新聞網(wǎng)頁等)的更新特征進(jìn)行確定,如確定為某一天或者當(dāng)前時刻的前5個小時等時間段。上述頻率閾值可以根據(jù)及時性要求高的網(wǎng)頁的相關(guān)更新特征進(jìn)行確定,比如設(shè)置為5或者4等值。

某url對應(yīng)的網(wǎng)頁內(nèi)容在設(shè)定時間段被編輯的頻率大于頻率閾值,表明該url對于的網(wǎng)頁內(nèi)容在相應(yīng)服務(wù)器端被編輯的頻率較高(相應(yīng)的及時性要求高),在對該url對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行過濾處理后,其網(wǎng)頁內(nèi)容有可能在服務(wù)器端被相關(guān)工作人員重新編輯,此時需要對重新編輯之后的網(wǎng)頁內(nèi)容再次進(jìn)行過濾處理,以保證上述過濾處理的有效性。

本實施例將已爬取隊列中,網(wǎng)頁內(nèi)容被編輯的頻率較高,即及時性要求高的高頻更新url移動至待爬取隊列,使上述高頻更新url重新在待爬取隊列中被確定為目標(biāo)url,對其對應(yīng)的網(wǎng)頁內(nèi)容重新信息過濾處理,可以進(jìn)一步保證對網(wǎng)頁內(nèi)容進(jìn)行過濾處理的效果,從而提高了網(wǎng)頁內(nèi)容的提取效果。

本發(fā)明提供的網(wǎng)頁內(nèi)容的提取系統(tǒng)與本發(fā)明提供的網(wǎng)頁內(nèi)容的提取方法一一對應(yīng),在所述網(wǎng)頁內(nèi)容的提取方法的實施例闡述的技術(shù)特征及其有益效果均適用于網(wǎng)頁內(nèi)容的提取系統(tǒng)的實施例中,特此聲明。

以上所述實施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對上述實施例中的各個技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。

以上所述實施例僅表達(dá)了本發(fā)明的幾種實施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阿克苏市| 巴林左旗| 三穗县| 高青县| 延川县| 全南县| 贵定县| 井冈山市| 乐业县| 永吉县| 华亭县| 房产| 阳西县| 财经| 洞头县| 西昌市| 锡林浩特市| 满洲里市| 新竹市| 丹东市| 织金县| 同德县| 通海县| 海南省| 阿城市| 岳西县| 太康县| 富平县| 泰和县| 林州市| 扶风县| 塔城市| 陵川县| 德兴市| 始兴县| 遂平县| 渭源县| 府谷县| 于田县| 太湖县| 长子县|