專利名稱:一種視頻下載服務(wù)網(wǎng)站的識別、評估方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)通信領(lǐng)域,尤其涉及一種視頻下載服務(wù)網(wǎng)站的識別、評估方法及 系統(tǒng)。
背景技術(shù):
目前,隨著多媒體技術(shù)的發(fā)展,越來越多的網(wǎng)站開始提供視頻下載服務(wù),由于多媒 體具有攜帶海量信息、版權(quán)特征明顯、健康度對社會影響廣泛等特點(diǎn),如何自動識別出網(wǎng)絡(luò) 中提供視頻下載服務(wù)的網(wǎng)站、跟蹤該網(wǎng)站更新的內(nèi)容,并對相應(yīng)網(wǎng)站的健康度進(jìn)行評估,對 于保護(hù)多媒體版權(quán)和構(gòu)建健康網(wǎng)絡(luò)等都有著重要意義。在現(xiàn)有的網(wǎng)絡(luò)信息處理領(lǐng)域中,已有較為成熟的信息抽取和內(nèi)容主題識別技術(shù), 所述的信息抽取技術(shù)主要包括自適應(yīng)的網(wǎng)頁元數(shù)據(jù)抽取方法,結(jié)合加權(quán)樹匹配與抽取模 式的聚合;模板生成網(wǎng)頁的數(shù)據(jù)自動抽取方法,利用檢測出的模板自動地從實(shí)例網(wǎng)頁中抽 取數(shù)據(jù);以及基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,用于實(shí)現(xiàn)快速自動抽取互聯(lián)網(wǎng)結(jié)構(gòu) 化數(shù)據(jù)。所述的內(nèi)容主題識別技術(shù)主要是基于統(tǒng)計(jì)的方法、基于知識的方法或結(jié)合兩者混 合的方法。具體來說,基于統(tǒng)計(jì)的方法主要是利用特征項(xiàng)的頻率、位置特征的共現(xiàn)信息等, 其中沒有利用額外的知識庫,例如機(jī)器可讀詞典等;基于知識的方法主要依賴于句法/語 義分析器,采用的知識庫包括腳步機(jī)器可讀詞典等,其中沒有利用任何語料庫統(tǒng)計(jì)技術(shù);而 兩者結(jié)合的方法可以綜合表現(xiàn)出兩者的優(yōu)勢。但在現(xiàn)有技術(shù)方案中,信息抽取技術(shù)和內(nèi)容主題識別技術(shù)是相互獨(dú)立工作的,現(xiàn) 有技術(shù)中也缺乏一個有效專用的對視頻下載服務(wù)網(wǎng)站進(jìn)行識別和評估的方法。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種視頻下載服務(wù)網(wǎng)站的識別、評估方法及系統(tǒng),能夠準(zhǔn)確 的識別出提供視頻下載服務(wù)的網(wǎng)站,跟蹤其最近更新的視頻信息,并對該網(wǎng)站的健康性、合 法性進(jìn)行有效的評估,從而能夠構(gòu)建更為健康、安全的網(wǎng)絡(luò)體系。本發(fā)明實(shí)施例提供了一種視頻下載服務(wù)網(wǎng)站的識別、評估方法,所述方法包括獲取需要處理的目標(biāo)網(wǎng)站首頁的統(tǒng)一資源定位符URL列表,并調(diào)用網(wǎng)頁采集模塊 在規(guī)則數(shù)據(jù)庫所制定的采集規(guī)則的指導(dǎo)下,根據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站的 網(wǎng)頁;通過關(guān)聯(lián)分析和深度URL探測來分析所采集到的目標(biāo)網(wǎng)站網(wǎng)頁,識別是否為提供 視頻下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的視頻信息數(shù)據(jù)庫中;若識別該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初次訪問,則利用所述視頻信息數(shù)據(jù)庫中 的視頻信息對所述網(wǎng)站進(jìn)行相關(guān)度分析,完成對該網(wǎng)站的評估;利用預(yù)先制定的信息抽取規(guī)則來抽取所述目標(biāo)網(wǎng)站網(wǎng)頁視頻的相關(guān)信息,并將其 存儲到所述視頻信息數(shù)據(jù)庫中,同時更新所述規(guī)則數(shù)據(jù)庫。
本發(fā)明還提供了一種視頻下載服務(wù)網(wǎng)站的識別、評估系統(tǒng),所述系統(tǒng)包括網(wǎng)頁采集模塊,用于獲取需要處理的目標(biāo)網(wǎng)站首頁的統(tǒng)一資源定位符URL列表, 并根據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站的網(wǎng)頁;識別模塊,用于通過關(guān)聯(lián)分析和深度URL探測來分析所采集到的目標(biāo)網(wǎng)站網(wǎng)頁, 識別是否為提供視頻下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的視頻信 息數(shù)據(jù)庫中;評估模塊,用于在所述識別模塊識別該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初次訪問, 利用所述視頻信息數(shù)據(jù)庫中的視頻信息對所述網(wǎng)站進(jìn)行關(guān)鍵詞匹配,完成對該網(wǎng)站的評 估;信息抽取模塊,用于利用預(yù)先制定的信息抽取規(guī)則來抽取所述目標(biāo)網(wǎng)站網(wǎng)頁視頻 的相關(guān)信息,并將其存儲到所述視頻信息數(shù)據(jù)庫中。由上述所提供的技術(shù)方案可以看出,首先獲取需要處理的目標(biāo)網(wǎng)站首頁的統(tǒng)一資 源定位符URL列表,并調(diào)用網(wǎng)頁采集模塊根據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站的網(wǎng) 頁;通過關(guān)聯(lián)分析和深度URL探測來分析所采集到的目標(biāo)網(wǎng)站網(wǎng)頁,識別是否為提供視頻 下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的視頻信息數(shù)據(jù)庫中;若識別 該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初次訪問,則利用所述視頻信息數(shù)據(jù)庫中的視頻信息對所 述網(wǎng)站進(jìn)行相關(guān)度分析,完成對該網(wǎng)站的評估;利用預(yù)先制定的信息抽取規(guī)則來抽取所述 目標(biāo)網(wǎng)站網(wǎng)頁視頻的相關(guān)信息,并將其存儲到所述視頻信息數(shù)據(jù)庫中。通過以上技術(shù)方案, 就能夠準(zhǔn)確的識別出提供視頻下載服務(wù)的網(wǎng)站,跟蹤其最近更新的視頻信息,并對該網(wǎng)站 的健康性、合法性進(jìn)行有效的評估,從而能夠構(gòu)建更為健康、安全的網(wǎng)絡(luò)體系。
圖1為本發(fā)明實(shí)施例所提供視頻下載服務(wù)網(wǎng)站的識別、評估方法的流程示意圖;圖2為本發(fā)明實(shí)施例所提供視頻下載服務(wù)網(wǎng)站的識別、評估系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例提供了一種視頻下載服務(wù)網(wǎng)站的識別、評估方法及系統(tǒng),能夠準(zhǔn)確 的識別出提供視頻下載服務(wù)的網(wǎng)站,跟蹤其最近更新的視頻信息,并對該網(wǎng)站的健康性、合 法性進(jìn)行有效的評估,從而能夠構(gòu)建更為健康、安全的網(wǎng)絡(luò)體系。為更好的描述本發(fā)明實(shí)施方式,現(xiàn)結(jié)合附圖對本發(fā)明的具體實(shí)施例進(jìn)行說明,如 圖1所示為本發(fā)明實(shí)施例所提供視頻下載服務(wù)網(wǎng)站的識別、評估方法的流程示意圖,圖中 包括步驟11 獲取需要處理的目標(biāo)網(wǎng)站首頁的URL列表,即首頁地址列表。在該步驟中,首先獲取需要處理的目標(biāo)網(wǎng)站首頁URL列表文件。在具體實(shí)現(xiàn)過程 中,還可以進(jìn)一步初始化系統(tǒng)各模塊的閾值和視頻信息數(shù)據(jù)庫中的視頻標(biāo)題、評估關(guān)鍵詞 數(shù)據(jù)庫等。步驟12 調(diào)用網(wǎng)頁采集模塊,根據(jù)規(guī)則數(shù)據(jù)庫中的采集規(guī)則采集所述目標(biāo)網(wǎng)站的 網(wǎng)頁。在該步驟中,在獲取到需要處理的目標(biāo)網(wǎng)站首頁URL列表文件之后,就可以調(diào)用網(wǎng)頁采集模塊在規(guī)則數(shù)據(jù)庫所制定的采集規(guī)則的指導(dǎo)下,根據(jù)所獲取的URL列表來采集所 述目標(biāo)網(wǎng)站的網(wǎng)頁。在具體實(shí)現(xiàn)過程中,所述規(guī)則數(shù)據(jù)庫所制定的采集規(guī)則具體為視頻服務(wù)頁面的 URL特征,用于協(xié)助所述網(wǎng)頁采集模塊維護(hù)相應(yīng)的URL列表。所述網(wǎng)頁采集模塊根據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站網(wǎng)頁的具體過程 如下所示,當(dāng)然本領(lǐng)域技術(shù)人員還能夠根據(jù)下述方案提出其他修改或變化,這些修改或變 化均應(yīng)包含在本發(fā)明的包含范圍之內(nèi)首先,訪問目標(biāo)網(wǎng)站首頁,設(shè)定當(dāng)前首頁的深度值為0,其本身為父URL節(jié)點(diǎn)。然后,獲取所述首頁中指向站內(nèi)(即同域名)的所有網(wǎng)頁地址,為方便說明,記其 中任一網(wǎng)頁地址為URk,下標(biāo)表示深度值為1,標(biāo)記為所述首頁的子URL節(jié)點(diǎn),并存入隊(duì)列 中。若預(yù)先制定的視頻服務(wù)版塊的定位規(guī)則非空,則將所述定位規(guī)則所對應(yīng)的視頻服 務(wù)版塊的URL集合加入到隊(duì)列的尾部,并設(shè)置其深度值為0,且其本身為父URL節(jié)點(diǎn);這里, 所述預(yù)先制定的視頻服務(wù)版塊的定位規(guī)則包括一系列URL集合,用來定位當(dāng)前網(wǎng)站的視頻 服務(wù)版塊;其中,每個版塊包括多個視頻服務(wù)子頁面,用于協(xié)助所述網(wǎng)頁采集模塊維護(hù)相應(yīng) 的URL列表。記當(dāng)前訪問的深度為i,網(wǎng)頁地址為URL”若預(yù)先制定的網(wǎng)頁采集規(guī)則非空,則根 據(jù)所述網(wǎng)頁采集規(guī)則調(diào)整所述URL列表,將當(dāng)前訪問網(wǎng)頁中包含所述URL特征的所有網(wǎng)頁 地址(即由深度為i+1的網(wǎng)頁地址URLi+1組成)優(yōu)先加入到隊(duì)列尾部,否則將所有的URLi+1 按獲取順序加入到隊(duì)列尾部。再依次從隊(duì)列首部取出深度值為i的網(wǎng)頁地址URLp下載相應(yīng)的頁面,獲取該頁面 中指向站內(nèi)的所有網(wǎng)頁地址URLi+1 (深度值為i+1),構(gòu)建由對應(yīng)頁面及其父節(jié)點(diǎn)與子節(jié)點(diǎn) 組成的鏈表〈URL^,URLp URLi+1>。若有m個(m < = i)為視頻服務(wù)頁面,且非首頁子節(jié)點(diǎn),則標(biāo)記父節(jié)點(diǎn)URL"(深 度值為i_l的網(wǎng)頁地址)的視頻權(quán)系數(shù)為m,即〈URLg,m>,表示網(wǎng)頁地址為URL"的網(wǎng)頁 中包含m個視頻服務(wù)頁面URL。循環(huán)訪問直至到達(dá)預(yù)先指定的深度閾值,并存儲所有視頻權(quán)系數(shù)m大于預(yù)先指定 閾值的URL列表到所述視頻服務(wù)版塊定位規(guī)則中。步驟13 識別是否為提供視頻下載服務(wù)的網(wǎng)站。在該步驟中,具體可以通過關(guān)聯(lián)分析和深度URL探測來分析所采集到的目標(biāo)網(wǎng)站 網(wǎng)頁,識別是否為提供視頻下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的 視頻信息數(shù)據(jù)庫中。舉例來說,識別是否為提供視頻下載服務(wù)的網(wǎng)站的具體過程如下所示,當(dāng)然本領(lǐng) 域技術(shù)人員還能夠根據(jù)下述方案提出其他修改或變化,這些修改或變化均應(yīng)包含在本發(fā)明 的包含范圍之內(nèi)首先,利用關(guān)聯(lián)分析器,輸入在評估關(guān)鍵詞數(shù)據(jù)庫中所設(shè)定的健康類關(guān)鍵詞,進(jìn)行 所述目標(biāo)網(wǎng)站網(wǎng)頁與視頻下載服務(wù)主題關(guān)聯(lián)度的分析處理,若滿足預(yù)先制定的閾值條件, 則繼續(xù)進(jìn)行后繼的處理。然后通過調(diào)用深度URL探測器,識別視頻下載地址的URL并對其進(jìn)行深度URL探測,若探測得到所述目標(biāo)網(wǎng)站網(wǎng)頁存在與視頻下載相關(guān)的關(guān)鍵字段,則標(biāo)記所述目標(biāo)網(wǎng)站 網(wǎng)頁為提供視頻下載服務(wù)的頁面。再將解析獲取的下載文件名(不含擴(kuò)展名)作為視頻標(biāo)題存儲至預(yù)先建立的視頻 信息數(shù)據(jù)庫中,并更新所述視頻最近發(fā)現(xiàn)的時間。另外,在利用關(guān)聯(lián)分析器的過程中,若關(guān)聯(lián)分析器輸入為視頻信息數(shù)據(jù)庫的評估 關(guān)鍵詞數(shù)據(jù)庫中的健康類關(guān)鍵詞,則其功能為統(tǒng)計(jì)分析目標(biāo)頁面所含信息與視頻主題的關(guān) 聯(lián)度,識別出可能提供視頻服務(wù)的頁面;若輸入視頻信息數(shù)據(jù)庫的評估關(guān)鍵詞數(shù)據(jù)庫中的 不良類關(guān)鍵詞,則其功能為統(tǒng)計(jì)分析目標(biāo)頁面所含信息與不良信息的關(guān)聯(lián)度,識別出可能 提供不良視頻下載服務(wù)的頁面,具體來說包括1)調(diào)用輸入的所述評估關(guān)鍵詞數(shù)據(jù)庫,根據(jù)關(guān)鍵詞出現(xiàn)頻度Fp賦予關(guān)鍵詞&不 同權(quán)值 2)用關(guān)鍵詞分別匹配目標(biāo)頁面,若目標(biāo)頁面出現(xiàn)關(guān)鍵詞Kj,則記錄% ;3)統(tǒng)計(jì)頁面包含的所有關(guān)鍵詞所對應(yīng)的權(quán)值和,即E Wp若在指定閾值范圍內(nèi)Vmin <Effj< V_,其中Vmin、V_分別為根據(jù)經(jīng)驗(yàn)預(yù)先指定的最小最大常數(shù)閾值,則判定該頁面 分析成功,否則結(jié)束。另外,深度URL探測器用于對URL進(jìn)行深度探測,甄別出真實(shí)下載地址,探測視頻 相關(guān)信息如視頻標(biāo)題、視頻格式等,具體可包含以下步驟a)獲取分析對象,包括頁面內(nèi)所有URL,視頻摘要信息的XML文檔元素路徑xpath 內(nèi)URL對應(yīng)子頁面內(nèi)的所有URL ;b)若存在 URL 包含“thunder//”、“flashget//”、“ed2k//”、"be://”等等類似 關(guān)鍵字段,則判定URL為一類下載地址,調(diào)用相應(yīng)下載工具解析該URL (或者利用base64編 解碼將其轉(zhuǎn)換成其他類下載地址后解析)來獲取視頻標(biāo)題等信息,若探測成功,則結(jié)束;否 則執(zhí)行c ;c)若存在 URL 包含“down”、"tid”、“aid”、“attachment”、“ torrent”等等類似關(guān) 鍵字段,則判定URL為二類下載地址,將其存儲至隊(duì)列中,順序取出并發(fā)起連接請求,解析 HTTP響應(yīng)消息的報(bào)頭域,獲取Content-Disposition中的filename鍵值,若發(fā)現(xiàn)鍵值包含 “.torrent"則讀取URL對應(yīng)torrent種子文件,則執(zhí)行d ;否則嘗試隊(duì)列所有成員,若仍未 發(fā)現(xiàn),則執(zhí)行e;d)解析種子文件內(nèi)容,利用視頻常見擴(kuò)展名如“.rmvb”、avi ”、“. mkv”、“. wmv”
等等定位下載文件名,截取英文冒號“”和擴(kuò)展名之間部分,獲取視頻標(biāo)題等信息,探測成 功,則結(jié)束;e)若存在URL包含“hash”,且域名指向站外,則判定URL為三類下載地址,調(diào)用IE 瀏覽器的COM(通信對象模型)接口打開網(wǎng)站并定位種子下載的提交表單,定位提交按鈕并 模擬點(diǎn)擊,讀取torrent種子文件,返回上一步; f)若存在 URL 包含".avi,,、“ mkv,,、“ rmvb,,、“ ftp //,,等等類似關(guān)鍵字段,則判
定URL為四類下載地址,截取最后一個位置分隔符“/”之后部分(不含分隔符與擴(kuò)展名), 獲取視頻標(biāo)題等信息,探測成功,則結(jié)束; g)若仍未獲取視頻標(biāo)題信息,則獲取頁面標(biāo)題TITLE,若包含目標(biāo)站點(diǎn)名稱,則除 去站點(diǎn)名部分;若包含空格符,則由空格符將TITLE截成多段,從左至右合并分段直至字符串長超過TITLE長一半,將此合并部分作為視頻標(biāo)題。通過上述的過程,就可以甄別出真實(shí)下載地址,探測視頻相關(guān)信息如視頻標(biāo)題、視 頻格式等視頻信息。另外,在本發(fā)明實(shí)施例中,一類下載地址為關(guān)聯(lián)P2P下載軟件如迅雷、快車等的下 載地址,可由P2P軟件解析并完成下載任務(wù);二類下載地址為種子下載地址,地址對應(yīng)為位 于目標(biāo)網(wǎng)站后臺服務(wù)器上的種子文件;三類下載地址也為種子下載地址,區(qū)別所述二類下 載地址的是地址對應(yīng)為第三方網(wǎng)站服務(wù)器上的種子文件;四類下載地址為視頻文件下載地 址,地址對應(yīng)為位于目標(biāo)網(wǎng)站或者第三方網(wǎng)站后臺服務(wù)器上的視頻文件。步驟14 若識別該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初次訪問,則對目標(biāo)網(wǎng)站進(jìn)行評 估。在該步驟中,具體可以先判斷評估觸發(fā)器是否觸發(fā),若觸發(fā)則認(rèn)為該網(wǎng)站為視頻 下載服務(wù)網(wǎng)站,然后再進(jìn)入后續(xù)處理;否則若在網(wǎng)頁采集模塊到達(dá)指定深度或者URL數(shù)時 仍未觸發(fā),則認(rèn)為該網(wǎng)站不提供視頻下載服務(wù),則結(jié)束對該網(wǎng)站的后續(xù)處理過程。若認(rèn)為該網(wǎng)站為視頻下載服務(wù)網(wǎng)站,則再進(jìn)一步判斷目標(biāo)網(wǎng)站是否為初次訪問, 若為初次訪問,則進(jìn)入后續(xù)處理,對目標(biāo)網(wǎng)站進(jìn)行評估。在具體實(shí)現(xiàn)過程中,可以利用所述視頻信息數(shù)據(jù)庫中的視頻信息對所述網(wǎng)站進(jìn)行 相關(guān)度分析,完成對該網(wǎng)站的評估,具體過程包括利用關(guān)聯(lián)分析器,輸入在評估關(guān)鍵詞數(shù)據(jù)庫中所設(shè)定的不良類關(guān)鍵詞,識別出提 供不良視頻下載服務(wù)的頁面;利用隨機(jī)相關(guān)匹配模塊,檢測所述目標(biāo)網(wǎng)站所提供下載的視 頻與所述視頻信息數(shù)據(jù)庫中歷史站點(diǎn)視頻的相關(guān)度,并返回相匹配的視頻標(biāo)題數(shù);利用綜 合判定模塊,根據(jù)所述關(guān)聯(lián)分析器和所述隨機(jī)相關(guān)匹配模塊所返回的結(jié)果來綜合判定所述 目標(biāo)網(wǎng)站的性質(zhì),完成對該網(wǎng)站的評估。舉例來說,本發(fā)明實(shí)施例中的隨機(jī)相關(guān)匹配模塊,用來統(tǒng)計(jì)目標(biāo)網(wǎng)站提供下載的 視頻與已有數(shù)據(jù)庫中的健康/不良類視頻匹配數(shù)量,為了提高匹配速度和效率,匹配時僅 考慮與所述新站點(diǎn)視頻標(biāo)題的所述視頻最近發(fā)現(xiàn)時間相差不超過時間閾值T (如一周或者 一個月)的所述歷史站點(diǎn)視頻標(biāo)題,具體包含以下執(zhí)行步驟 a)初始化健康視頻標(biāo)題匹配數(shù)AM = 0,不良視頻標(biāo)題匹配數(shù)BM = 0 ;b)隨機(jī)抽取N條(如10至100條)所述新站點(diǎn)視頻標(biāo)題,調(diào)用開源的字符串相關(guān) 度分析算法,c)分別依次將其與所述歷史站點(diǎn)視頻標(biāo)題(健康類)進(jìn)行相關(guān)度判斷,若二者相 關(guān)則該條匹配成功,AM++ ;d)分別依次將其與所述歷史站點(diǎn)視頻標(biāo)題(不良類)進(jìn)行相關(guān)度判斷,若二者相 關(guān)則該條匹配成功,BM++ ;e)返回 AM 值,BM 值。本發(fā)明實(shí)施例中的綜合判定模塊,根據(jù)關(guān)聯(lián)分析器和隨機(jī)相關(guān)匹配模塊返回的結(jié) 果來對網(wǎng)站進(jìn)行評估,具體包含以下步驟a)首先若觸發(fā)器觸發(fā),則判斷該網(wǎng)站為提供視頻下載服務(wù)網(wǎng)站,則定義等級為0 ;b)等級為0時,對于輸入為不良類評估關(guān)鍵詞數(shù)據(jù)庫的關(guān)聯(lián)分析器,取各頁面所 有關(guān)鍵詞所對應(yīng)的權(quán)值和的最大值,即W = Max { E Wj,若W大于指定閾值,則判斷該網(wǎng)站為可能提供不良視頻下載服務(wù)網(wǎng)站,則定義等級升為1 ;c)等級大于等于0時,若隨機(jī)相關(guān)匹配模塊返回的AM值大于指定閾值,則判斷該 網(wǎng)站為提供不良視頻下載服務(wù)網(wǎng)站,則定義等級升為2 ;d)等級大于等于0時,若隨機(jī)相關(guān)匹配模塊返回的BM值大于指定閾值,則判斷該 網(wǎng)站為提供不良視頻下載服務(wù)網(wǎng)站,則定義等級升為3 ;e)重新標(biāo)記該站點(diǎn)為歷史站點(diǎn),新站點(diǎn)視頻信息數(shù)據(jù)庫將對應(yīng)重標(biāo)記為所述歷史 站點(diǎn)視頻信息數(shù)據(jù)庫,若等級為0,則標(biāo)記為健康類,若等級為2或3,則標(biāo)記為不良類。步驟15 抽取所述目標(biāo)網(wǎng)站中視頻的相關(guān)信息,更新視頻信息數(shù)據(jù)庫和規(guī)則數(shù)據(jù)庫。在該步驟中,所述預(yù)先制定的信息抽取規(guī)則為視頻信息所在的XML文檔元素路徑 xpath,用于指導(dǎo)視頻信息的抽取。在具體實(shí)現(xiàn)過程中,用于信息抽取的信息抽取模塊可以包括xpath生成器、抽取 器和校驗(yàn)器,具體可以包含下列處理過程首先,若所述目標(biāo)網(wǎng)站對應(yīng)的信息抽取規(guī)則為空,則調(diào)用XML文檔元素路徑xpath 生成器,生成視頻摘要信息所在xpath,同時添加該xpath到預(yù)先制定的信息抽取規(guī)則,更 新所述規(guī)則數(shù)據(jù)庫;然后調(diào)用抽取器,按所述預(yù)先制定的信息抽取規(guī)則對所述目標(biāo)網(wǎng)站的頁面進(jìn)行視 頻摘要信息抽取。再調(diào)用校驗(yàn)器,校驗(yàn)所述抽取器所抽取的信息,若校驗(yàn)通過,則保存抽取的視頻摘 要信息和下載地址至所述視頻信息數(shù)據(jù)庫;否則,繼續(xù)進(jìn)行視頻摘要信息抽取。本發(fā)明實(shí) 施例中的校驗(yàn)器可用于校驗(yàn)所述抽取器抽取的視頻摘要信息,若抽取信息過短(小于50字 節(jié))或者與視頻主題的關(guān)聯(lián)度不在指定閾值范圍內(nèi),則校驗(yàn)不通過,否則稱其為通過校驗(yàn)。另外,若所有預(yù)先制定的信息抽取規(guī)則訪問完畢時仍無信息通過校驗(yàn),則調(diào)用所 述xpath生成器獲取視頻摘要信息所在xpath,并抽取相應(yīng)的視頻摘要信息,再利用所述校 驗(yàn)器進(jìn)行校驗(yàn),若校驗(yàn)不通過則放棄抽取過程并結(jié)束;否則添加該xpath至所述預(yù)先制定 的信息抽取規(guī)則中,更新所述規(guī)則數(shù)據(jù)庫。下面以一個具體的例子來詳細(xì)描述xpath生成器是如何生成視頻摘要信息所在 xpath的,本領(lǐng)域技術(shù)人員應(yīng)理解以下所述僅僅是示意性的例子,并不限制本發(fā)明的范圍利用開源程序D0M4J將頁面源文件轉(zhuǎn)換成D0M,清洗頁面除去如字體等僅用于顯 示的無關(guān)節(jié)點(diǎn),調(diào)用健康類評估關(guān)鍵詞數(shù)據(jù)庫,為敘述方便設(shè)數(shù)據(jù)庫為四個詞“譯名、片名、 年代、導(dǎo)演”;然后分別得到如“譯名、片名、年代、導(dǎo)演”關(guān)鍵詞對應(yīng)的xpath,統(tǒng)計(jì)分析所有 xpath,取路徑最大公共部分的父節(jié)點(diǎn),如下/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]/FONT[1]/text ()[26]/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]/FONT[1]/text () [30]/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]/FONT[1]/text () [32]/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/DIV[3]/DIV[3]/FONT[3]/text ()[30]其中最大公共部分獲取方法為將/ /中視為一個節(jié)點(diǎn),統(tǒng)計(jì)各路徑相同位置節(jié) 點(diǎn)出現(xiàn)頻率,若節(jié)點(diǎn)出現(xiàn)頻率大于關(guān)鍵詞數(shù)量一半以上,則取出,否則無節(jié)點(diǎn)滿足條件在該 處停止。故取出公共部分直到F0NT[1],再取父節(jié)點(diǎn)DIV[3],則得到路徑/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]該路徑下所有text節(jié)點(diǎn)內(nèi)容即為所需信息,即成功生成視頻摘要信息所在 xpatho這樣,通過以上技術(shù)方案的實(shí)施,就可以準(zhǔn)確的識別出提供視頻下載服務(wù)的網(wǎng)站, 跟蹤其最近更新的視頻信息,并對該網(wǎng)站的健康性、合法性進(jìn)行有效的評估,從而能夠構(gòu)建 更為健康、安全的網(wǎng)絡(luò)體系。本發(fā)明實(shí)施例還提供了一種視頻下載服務(wù)網(wǎng)站的識別、評估系統(tǒng),如圖2所示為 本發(fā)明實(shí)施例所提供系統(tǒng)的結(jié)構(gòu)示意圖,所述系統(tǒng)包括網(wǎng)頁采集模塊201,用于獲取需要處理的目標(biāo)網(wǎng)站首頁的URL列表,并根據(jù)所獲取 的URL列表來采集所述目標(biāo)網(wǎng)站的網(wǎng)頁;識別模塊202,用于通過關(guān)聯(lián)分析和深度URL探測來分析所采集到的目標(biāo)網(wǎng)站網(wǎng) 頁,識別是否為提供視頻下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的視 頻信息數(shù)據(jù)庫中;評估模塊203,用于在所述識別模塊202識別該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初 次訪問,利用所述視頻信息數(shù)據(jù)庫中的視頻信息對所述網(wǎng)站進(jìn)行相關(guān)度分析,完成對該網(wǎng) 站的評估;信息抽取模塊204,用于利用預(yù)先制定的信息抽取規(guī)則來抽取所述目標(biāo)網(wǎng)站網(wǎng)頁 視頻的相關(guān)信息,并將其存儲到所述視頻信息數(shù)據(jù)庫中。所述系統(tǒng)還可包括系統(tǒng)調(diào)度模塊205,用于調(diào)度系統(tǒng)的運(yùn)行,協(xié)調(diào)所述系統(tǒng)各個模塊的操作;規(guī)則數(shù)據(jù)庫206,用于指導(dǎo)所述網(wǎng)頁采集模塊201、所述信息抽取模塊204和所述 識別模塊202的運(yùn)作;視頻信息數(shù)據(jù)庫207,用于存儲利用所述信息抽取模塊204所獲取到的視頻相關(guān) 信息,實(shí)現(xiàn)內(nèi)容跟蹤,并指導(dǎo)所述評估模塊203完成對網(wǎng)站的評估。另外,所述視頻信息數(shù)據(jù)庫207中還可包括新站點(diǎn)視頻信息數(shù)據(jù)庫2071,用來描述初次訪問的新站點(diǎn),具體包括視頻摘要信 息、視頻標(biāo)題、視頻最近發(fā)現(xiàn)時間和視頻服務(wù)頁面URL ;歷史站點(diǎn)視頻信息數(shù)據(jù)庫2072,分為健康和不良兩種類型,用來描述歷史訪問站 點(diǎn),具體包括視頻摘要信息、視頻標(biāo)題、視頻最近發(fā)現(xiàn)時間、視頻服務(wù)頁面URL ;評估關(guān)鍵詞數(shù)據(jù)庫2073,分為健康和不良兩種類型,用來輔助識別視頻下載服務(wù) 網(wǎng)站,以及評估目標(biāo)網(wǎng)站的健康度;其中,所述評估關(guān)鍵詞數(shù)據(jù)庫的初始化可采用手工生 成,或由所述歷史站點(diǎn)視頻信息數(shù)據(jù)庫來生成與更新。值得注意的是,上述系統(tǒng)實(shí)施例中,所包括的各個模塊只是按照功能邏輯進(jìn)行劃 分的,但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能模塊的具體
11名稱也只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護(hù)范圍。綜上所述,本發(fā)明具體實(shí)施例可以準(zhǔn)確的識別出提供視頻下載服務(wù)的網(wǎng)站,跟蹤 其最近更新的視頻信息,并對該網(wǎng)站的健康性、合法性進(jìn)行有效的評估,從而能夠構(gòu)建更為 健康、安全的網(wǎng)絡(luò)體系。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范 圍為準(zhǔn)。
權(quán)利要求
一種視頻下載服務(wù)網(wǎng)站的識別、評估方法,其特征在于,所述方法包括獲取需要處理的目標(biāo)網(wǎng)站首頁的統(tǒng)一資源定位符URL列表,并調(diào)用網(wǎng)頁采集模塊在規(guī)則數(shù)據(jù)庫所制定的采集規(guī)則的指導(dǎo)下,根據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站的網(wǎng)頁;通過關(guān)聯(lián)分析和深度URL探測來分析所采集到的目標(biāo)網(wǎng)站網(wǎng)頁,識別是否為提供視頻下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的視頻信息數(shù)據(jù)庫中;若識別該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初次訪問,則利用所述視頻信息數(shù)據(jù)庫中的視頻信息對所述網(wǎng)站進(jìn)行相關(guān)度分析,完成對該網(wǎng)站的評估;利用預(yù)先制定的信息抽取規(guī)則來抽取所述目標(biāo)網(wǎng)站網(wǎng)頁視頻的相關(guān)信息,并將其存儲到所述視頻信息數(shù)據(jù)庫中,同時更新所述規(guī)則數(shù)據(jù)庫。
2.如權(quán)利要求1所述的方法,其特征在于,所述調(diào)用網(wǎng)頁采集模塊在規(guī)則數(shù)據(jù)庫所制 定的采集規(guī)則的指導(dǎo)下,根據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站的網(wǎng)頁,具體過程為訪問目標(biāo)網(wǎng)站首頁,設(shè)定當(dāng)前首頁的深度值為0,其父URL節(jié)點(diǎn)為本身; 獲取所述首頁中指向站內(nèi)的所有URL1,標(biāo)記為所述首頁的子URL節(jié)點(diǎn),深度值為1,并 存入隊(duì)列中;若預(yù)先制定的視頻服務(wù)版塊的定位規(guī)則非空,則將所述定位規(guī)則所對應(yīng)的視頻服務(wù)版 塊的URL集合加入到隊(duì)列的尾部,并設(shè)置其深度值為0,且其本身為父URL節(jié)點(diǎn);若預(yù)先制定的網(wǎng)頁采集規(guī)則非空,則根據(jù)所述網(wǎng)頁采集規(guī)則調(diào)整所述URL列表,將包 含所述URL特征的URLi+1優(yōu)先加入到隊(duì)列尾部,否則將所有的URLi+1按獲取順序加入到隊(duì)列 尾部,其中,所述URL特征為URL字符串中去除數(shù)字與哈希HASH碼后的剩余部分;依次從隊(duì)列首部取出URLi,設(shè)定其深度值為i,并下載相應(yīng)的頁面,獲取該頁面中指向 站內(nèi)的所有URLi+1,標(biāo)記深度值為i+Ι,構(gòu)建由對應(yīng)頁面及其父節(jié)點(diǎn)與子節(jié)點(diǎn)組成的鏈表 <URLi_1, URLi, URLi+1> ;若有m個(m<= i)為視頻服務(wù)頁面,且為非首頁子節(jié)點(diǎn),則標(biāo)記父節(jié)點(diǎn)URL"的視頻 權(quán)系數(shù)為m,即〈肌…!!!〉;循環(huán)訪問直至到達(dá)預(yù)先指定的深度閾值,并存儲所有視頻權(quán)系數(shù)m大于預(yù)先指定閾值 的URL列表到所述視頻服務(wù)版塊定位規(guī)則中。
3.如權(quán)利要求1所述的方法,其特征在于,所述通過關(guān)聯(lián)分析和深度URL探測來分析所 采集到的目標(biāo)網(wǎng)站網(wǎng)頁,識別是否為提供視頻下載服務(wù)的網(wǎng)站,具體包括利用關(guān)聯(lián)分析器,輸入在評估關(guān)鍵詞數(shù)據(jù)庫中所設(shè)定的健康類關(guān)鍵詞,進(jìn)行所述目標(biāo) 網(wǎng)站網(wǎng)頁與視頻下載服務(wù)主題關(guān)聯(lián)度的分析處理,若滿足預(yù)先制定的閾值條件,則繼續(xù)進(jìn) 行后繼的處理;通過調(diào)用深度URL探測器,識別視頻下載地址的URL并對其進(jìn)行深度URL探測,若探測 得到所述目標(biāo)網(wǎng)站網(wǎng)頁存在與視頻下載相關(guān)的關(guān)鍵字段,則標(biāo)記所述目標(biāo)網(wǎng)站網(wǎng)頁為提供 視頻下載服務(wù)的頁面。
4.如權(quán)利要求1所述的方法,其特征在于,所述利用所述視頻信息數(shù)據(jù)庫中的視頻信 息對所述網(wǎng)站進(jìn)行相關(guān)度分析,完成對該網(wǎng)站的評估,具體包括利用關(guān)聯(lián)分析器,輸入在評估關(guān)鍵詞數(shù)據(jù)庫中所設(shè)定的不良類關(guān)鍵詞,識別出提供不 良視頻下載服務(wù)的頁面;利用隨機(jī)相關(guān)匹配模塊,檢測所述目標(biāo)網(wǎng)站所提供下載的視頻與所述視頻信息數(shù)據(jù)庫 中歷史站點(diǎn)視頻的相關(guān)度,并返回相匹配的視頻標(biāo)題數(shù);利用綜合判定模塊,根據(jù)所述關(guān)聯(lián)分析器和所述隨機(jī)相關(guān)匹配模塊所返回的結(jié)果來綜 合判定所述目標(biāo)網(wǎng)站的性質(zhì),完成對該網(wǎng)站的評估。
5.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述關(guān)聯(lián)分析器和所述隨機(jī)相 關(guān)匹配模塊所返回的結(jié)果來綜合判定所述目標(biāo)網(wǎng)站的性質(zhì),完成對該網(wǎng)站的評估,具體包 括若判斷該網(wǎng)站為提供視頻下載服務(wù)的網(wǎng)站,則定義等級為O ;當(dāng)?shù)燃墳镺時,輸入在評估關(guān)鍵詞數(shù)據(jù)庫中所設(shè)定的不良類關(guān)鍵詞,若識別出該網(wǎng)站 為提供不良視頻下載服務(wù)的網(wǎng)站,則定義等級升為1 ;當(dāng)?shù)燃壌笥诘扔贠時,若所述隨機(jī)相關(guān)匹配模塊返回的健康視頻標(biāo)題數(shù)大于預(yù)先指定 的閾值,則進(jìn)一步判斷該網(wǎng)站為提供不良視頻下載服務(wù)的網(wǎng)站,定義等級升為2 ;并且當(dāng)所 述隨機(jī)相關(guān)匹配模塊返回的不良視頻標(biāo)題數(shù)大于預(yù)先指定的另一閾值,則進(jìn)一步判斷該網(wǎng) 站為提供不良視頻下載服務(wù)網(wǎng)站,定義等級升為3。
6.如權(quán)利要求1所述的方法,其特征在于,所述利用預(yù)先制定的信息抽取規(guī)則來抽取 所述目標(biāo)網(wǎng)站網(wǎng)頁視頻的相關(guān)信息,并將其存儲到所述視頻信息數(shù)據(jù)庫中,同時更新所述 規(guī)則數(shù)據(jù)庫,具體包括若所述目標(biāo)網(wǎng)站對應(yīng)的信息抽取規(guī)則為空,則調(diào)用XML文檔元素路徑xpath生成器,生 成視頻摘要信息所在xpath,同時添加該xpath到預(yù)先制定的信息抽取規(guī)則,更新所述規(guī)則 數(shù)據(jù)庫;調(diào)用抽取器,按所述預(yù)先制定的信息抽取規(guī)則對所述目標(biāo)網(wǎng)站的頁面進(jìn)行視頻摘要信 息抽??;調(diào)用校驗(yàn)器,校驗(yàn)所述抽取器所抽取的信息,若校驗(yàn)通過,則保存抽取的視頻摘要信息 和下載地址至所述視頻信息數(shù)據(jù)庫;否則,繼續(xù)進(jìn)行視頻摘要信息抽??;若所有預(yù)先制定的信息抽取規(guī)則訪問完畢時仍無信息通過校驗(yàn),則調(diào)用所述xpath生 成器獲取視頻摘要信息所在xpath,并抽取相應(yīng)的視頻摘要信息,再利用所述校驗(yàn)器進(jìn)行校 驗(yàn),若校驗(yàn)不通過則放棄抽取過程并結(jié)束;否則添加該xpath至所述預(yù)先制定的信息抽取 規(guī)則中,更新所述規(guī)則數(shù)據(jù)庫。
7.如權(quán)利要求2所述的方法,其特征在于,所述網(wǎng)頁采集模塊中包括的網(wǎng)頁采集規(guī)則,具體為視頻服務(wù)頁面的URL特征,用于協(xié) 助所述網(wǎng)頁采集模塊維護(hù)相應(yīng)的URL列表;所述預(yù)先制定的信息抽取規(guī)則為視頻信息所在的XML文檔元素路徑xpath,用于指導(dǎo) 視頻信息的抽??;所述預(yù)先制定的視頻服務(wù)版塊的定位規(guī)則包括一系列URL集合,用來定位當(dāng)前網(wǎng)站的 視頻服務(wù)版塊;其中,每個版塊包括多個視頻服務(wù)子頁面,用于協(xié)助所述網(wǎng)頁采集模塊維護(hù) 相應(yīng)的URL列表。
8.一種視頻下載服務(wù)網(wǎng)站的識別、評估系統(tǒng),其特征在于,所述系統(tǒng)包括網(wǎng)頁采集模塊,用于獲取需要處理的目標(biāo)網(wǎng)站首頁的統(tǒng)一資源定位符URL列表,并根 據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站的網(wǎng)頁;識別模塊,用于通過關(guān)聯(lián)分析和深度URL探測來分析所采集到的目標(biāo)網(wǎng)站網(wǎng)頁,識別 是否為提供視頻下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的視頻信息數(shù) 據(jù)庫中;評估模塊,用于在所述識別模塊識別該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初次訪問,利用 所述視頻信息數(shù)據(jù)庫中的視頻信息對所述網(wǎng)站進(jìn)行相關(guān)度分析,完成對該網(wǎng)站的評估;信息抽取模塊,用于利用預(yù)先制定的信息抽取規(guī)則來抽取所述目標(biāo)網(wǎng)站網(wǎng)頁視頻的相 關(guān)信息,并將其存儲到所述視頻信息數(shù)據(jù)庫中。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 系統(tǒng)調(diào)度模塊,用于調(diào)度系統(tǒng)的運(yùn)行,協(xié)調(diào)所述系統(tǒng)各個模塊的操作;規(guī)則數(shù)據(jù)庫,包括網(wǎng)頁采集規(guī)則,信息抽取規(guī)則和視頻服務(wù)板塊定位規(guī)則,用于指導(dǎo)所 述網(wǎng)頁采集模塊、所述信息抽取模塊和所述識別模塊的運(yùn)作;視頻信息數(shù)據(jù)庫,用于存儲利用所述信息抽取模塊所獲取到的視頻相關(guān)信息,實(shí)現(xiàn)內(nèi) 容跟蹤,并指導(dǎo)所述評估模塊完成對網(wǎng)站的評估。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述視頻信息數(shù)據(jù)庫中包括新站點(diǎn)視頻信息數(shù)據(jù)庫,用來描述初次訪問的新站點(diǎn),具體包括視頻摘要信息、視頻標(biāo) 題、視頻最近發(fā)現(xiàn)時間和視頻服務(wù)頁面URL ;歷史站點(diǎn)視頻信息數(shù)據(jù)庫,分為健康和不良兩種類型,用來描述歷史訪問站點(diǎn),具體包 括視頻摘要信息、視頻標(biāo)題、視頻最近發(fā)現(xiàn)時間、視頻服務(wù)頁面URL ;評估關(guān)鍵詞數(shù)據(jù)庫,分為健康和不良兩種類型,用來輔助識別視頻下載服務(wù)網(wǎng)站,以及 評估目標(biāo)網(wǎng)站的健康度;其中,所述評估關(guān)鍵詞數(shù)據(jù)庫的初始化可采用手工生成,或由所述 歷史站點(diǎn)視頻信息數(shù)據(jù)庫來生成與更新。
全文摘要
本發(fā)明實(shí)施例提供了一種視頻下載服務(wù)網(wǎng)站的識別、評估方法及系統(tǒng),首先獲取需要處理的目標(biāo)網(wǎng)站首頁的URL列表,并調(diào)用網(wǎng)頁采集模塊在規(guī)則數(shù)據(jù)庫所制定的采集規(guī)則的指導(dǎo)下,根據(jù)所獲取的URL列表來采集所述目標(biāo)網(wǎng)站的網(wǎng)頁;然后識別是否為提供視頻下載服務(wù)的網(wǎng)站,同時將識別出的視頻信息更新到預(yù)先建立的視頻信息數(shù)據(jù)庫中;若識別該網(wǎng)站為視頻下載服務(wù)網(wǎng)站且為初次訪問,則對該網(wǎng)站的評估;然后再抽取所述目標(biāo)網(wǎng)站網(wǎng)頁視頻的相關(guān)信息,并將其存儲到所述視頻信息數(shù)據(jù)庫中,用來反饋指導(dǎo)網(wǎng)站識別和評估,同時更新規(guī)則數(shù)據(jù)庫。這樣就能夠準(zhǔn)確的識別出提供視頻下載服務(wù)的網(wǎng)站,跟蹤其最近更新的視頻信息,并對該網(wǎng)站的健康性、合法性進(jìn)行有效的評估,從而能夠構(gòu)建更為健康、安全的網(wǎng)絡(luò)體系。
文檔編號G06Q30/00GK101853300SQ20101018679
公開日2010年10月6日 申請日期2010年5月26日 優(yōu)先權(quán)日2010年5月26日
發(fā)明者劉銳, 易榮峰, 朱明 申請人:中國科學(xué)技術(shù)大學(xué)