欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種識別網(wǎng)頁類型的系統(tǒng)和方法

文檔序號:6509828閱讀:308來源:國知局
一種識別網(wǎng)頁類型的系統(tǒng)和方法
【專利摘要】本發(fā)明涉及網(wǎng)絡(luò)信息檢索與挖掘領(lǐng)域,特別涉及一種識別網(wǎng)頁類型的系統(tǒng)和方法。包括以下步驟:預(yù)先定義啟發(fā)式規(guī)則并生成啟發(fā)式規(guī)則列表;從訓(xùn)練網(wǎng)頁中提取預(yù)定特征并形成標(biāo)準(zhǔn)化的特征向量,對所述標(biāo)準(zhǔn)化的特征向量進(jìn)行兩次優(yōu)化形成精簡的特征集合,構(gòu)建分類器和特征抽取器,并通過分類器生成分類模型;基于待識別網(wǎng)頁的URL和源代碼,在所述啟發(fā)式規(guī)則列表中執(zhí)行規(guī)則匹配;匹配成功則輸出待識別網(wǎng)頁的網(wǎng)頁類型;不成功則利用分類器對待識別網(wǎng)頁執(zhí)行網(wǎng)頁類型分類。本發(fā)明的識別網(wǎng)頁類型的系統(tǒng)和方法,使用靈活方便,識別速度快、識別精度高,而且在對跨語種的網(wǎng)頁進(jìn)行識別時不需做大的改動,識別效率高,具有較高的實際利用價值。
【專利說明】一種識別網(wǎng)頁類型的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息檢索與挖掘領(lǐng)域,特別涉及一種識別網(wǎng)頁類型的系統(tǒng)和方法?!颈尘凹夹g(shù)】
[0002]隨著網(wǎng)絡(luò)信息的增加,通過搜索引擎有時很難檢索到用戶想要的信息文檔,同時如何向用戶表達(dá)搜索引擎的搜索結(jié)果也引起越來越多的關(guān)注。傳統(tǒng)的搜索系統(tǒng)多數(shù)返回一個大量的、能夠匹配用戶查詢的網(wǎng)頁文檔集合。然而,搜索引擎處理結(jié)果文檔的高召回率和低精度使得尋找對用戶有用的信息越來越困難。近幾年來,研究學(xué)者對于文檔根據(jù)主題分類的方法進(jìn)行了大量的研究,并取得了很好的成效。但是,盡管文檔能夠成功的根據(jù)主題進(jìn)行分類,每個主題之內(nèi)還有的大量不同的網(wǎng)頁風(fēng)格類型,例如根據(jù)主題“NBA比賽”進(jìn)行分類,分類結(jié)果的文檔里既有主頁,新聞網(wǎng)頁,圖片頁面等等。然而,有些用戶只想看關(guān)于“NBA比賽”的新聞頁面,或者只想看關(guān)于“NBA比賽”的論壇頁面……因此,除了主題,文件的風(fēng)格或者類型可以認(rèn)為是表達(dá)文檔的第二種視圖,也成為滿足搜索引擎用戶對網(wǎng)頁進(jìn)行分類的另一個標(biāo)準(zhǔn)準(zhǔn)則。
[0003]另外,以網(wǎng)頁類型為標(biāo)準(zhǔn)對網(wǎng)頁進(jìn)行分類在網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)上也有很好的應(yīng)用效果。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)逐漸取代了報紙、廣播、電視等傳統(tǒng)信息媒體,成為人們生活中必不可少的一種新媒體,承擔(dān)著快速傳遞、傳播信息的角色,無論是國內(nèi)還是國際上的事件,都會以超快的速度發(fā)布到網(wǎng)絡(luò)上,網(wǎng)友也通過網(wǎng)絡(luò)發(fā)表言論表達(dá)對某個公眾事件、熱點、焦點問題的看法、觀點、意見與見解,從而形成網(wǎng)絡(luò)輿論。網(wǎng)絡(luò)輿情以其空前的快捷傳播速度,成為表達(dá)社會輿論的聚集地。對于政府等部門來講,網(wǎng)絡(luò)輿情對于民生、民意的及時監(jiān)控、引導(dǎo)對維護(hù)國家長治久安的發(fā)展和社會的和諧穩(wěn)定具有重大的意義;對于負(fù)面的輿情言論,需要進(jìn)行及時有效的引導(dǎo)與化解,從而消除對社會安全的威脅,維護(hù)社會的穩(wěn)定發(fā)展。目前,網(wǎng)絡(luò)輿情的四大主要載體是新聞(news)、論壇(bbs)、博客(blog)和微博(Weibo)0網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)是在一定的時間空間范圍內(nèi),為某個社會事件的產(chǎn)生、發(fā)展以及群眾在網(wǎng)絡(luò)上對該事件持有的觀點、態(tài)度集合而進(jìn)行監(jiān)測的系統(tǒng)。它主要是通過采集系統(tǒng)對互聯(lián)網(wǎng)上的海量信息實時的進(jìn)行采集,之后對網(wǎng)頁進(jìn)行主體內(nèi)容的信息抽取,最后對信息進(jìn)行智能化的分析和處理,從而實現(xiàn)輿情熱點的識別、主題跟蹤、敏感話題的挖掘、輿情趨勢的分析、輿情預(yù)警以及傾向性分析等功能。輿情載體主要是通過對新聞、論壇、博客的正文網(wǎng)頁進(jìn)行采集與信息抽取?,F(xiàn)有的網(wǎng)頁信息抽取技術(shù)多種多樣,然而由于新聞、論壇、博客正文網(wǎng)頁的結(jié)構(gòu)各有特點,互不相同,因此沒有一個完美的算法能夠適用所有的網(wǎng)絡(luò)輿情載體,因此在處理不同類型的輿情載體時,分別選擇各自適合其特點的算法,從而保證信息抽取的準(zhǔn)確度,滿足監(jiān)測系統(tǒng)對數(shù)據(jù)的準(zhǔn)確處理。因此,對輿情載體的類型的準(zhǔn)確識別至關(guān)重要,目前部分的輿情系統(tǒng)都采用人工的方式對網(wǎng)頁的類型進(jìn)行匹配識別,然而隨著網(wǎng)站數(shù)量的增加、網(wǎng)頁入口網(wǎng)址url (Uniform Resource Locator,統(tǒng)一資源定位符)也經(jīng)常發(fā)生變化,在處理數(shù)以幾百萬計的網(wǎng)站時,人工處理的方式顯得效率極低,因此對網(wǎng)頁類型的自動識別也顯得尤為重要。
[0004]近幾年來,網(wǎng)頁文檔風(fēng)格類型的自動識別引起越來越多的關(guān)注。對于自動識別風(fēng)格類型的研究已經(jīng)擁有了不小的成效,許世明的“一種基于預(yù)分類的高效SVM中文網(wǎng)頁分類器”中認(rèn)為網(wǎng)頁標(biāo)題、關(guān)鍵字等部分對分類結(jié)果有較高權(quán)重,提出了以預(yù)先設(shè)置的關(guān)鍵詞表和標(biāo)題內(nèi)容為依據(jù)預(yù)先分類的方法,但是該方式使用的網(wǎng)頁特征不夠全面。鄭德權(quán)的“blog網(wǎng)頁分類與識別技術(shù)研究”通過分析blog網(wǎng)頁的特點,提出了根據(jù)網(wǎng)頁結(jié)構(gòu)、關(guān)鍵字計算相似度的方法識別博客網(wǎng)頁,但是需要人工參與建立標(biāo)準(zhǔn)blog網(wǎng)頁集,從實際工程應(yīng)用的角度來講效率相對較低。張程的“基于dom樹結(jié)構(gòu)的blog網(wǎng)頁自動識別”提出了針對含有時間戳的dom (document object model)樹進(jìn)行模式匹配的博客網(wǎng)頁自動識別算法。Lei Dong 的“An Examination of Genre Attributes for Web Page Classification,,重點研究了網(wǎng)頁中的文本內(nèi)容、Form類型和功能性的標(biāo)簽等特征,提出了新聞和電子購物等類型網(wǎng)頁的自動識別技術(shù)。胡學(xué)鋼的“新聞網(wǎng)頁自動識別的相關(guān)特征研究”提出綜合利用網(wǎng)頁url特征、結(jié)構(gòu)特征和內(nèi)容中高頻詞作為新聞網(wǎng)頁的識別特征。楊宇航的“blog研究”提出根據(jù)網(wǎng)頁頭部的日期、關(guān)鍵字及一些其它的特征對博客網(wǎng)頁進(jìn)行識別。Tomoyuki的“Automatically Collecting, Monitoring, and Mining Japanese Weblogs” 提出將大部分博客網(wǎng)頁都有的一個按序排列的日歷作為識別博客網(wǎng)頁的主要特征。這些方法都根據(jù)不同的應(yīng)用背景考慮到了網(wǎng)頁部分方面的特征或者考慮到了某種類型網(wǎng)頁獨有的特征,雖然都取得了較好的分類效果,但識別的網(wǎng)頁類型局限于特定類型的網(wǎng)頁,在實際的工程應(yīng)用中無法滿足對網(wǎng)頁載體的類型識別的要求,而且隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,部分特征的失效可能導(dǎo)致整個識別過程的失效,如blog網(wǎng)頁的日歷在部分網(wǎng)站中已經(jīng)不存在。
[0005]此外,題為“判斷網(wǎng)頁類型的方法和裝置”的專利CN101872347A是先通過url規(guī)則列表進(jìn)行匹配,如果匹配不成功的話,再抽取網(wǎng)頁的url日期特征、meta、rss feed、atom feed特征、正文特征、鏈接特征、錨文本,及重復(fù)模式出現(xiàn)的次數(shù);該方法綜合考慮了規(guī)則識別方案和基于統(tǒng)計學(xué)習(xí)的方法,但考慮的tag特征、正文特征、結(jié)構(gòu)特征等不夠全面和完善,meta、rss feed、atom feed等特征并不是對區(qū)分任何的網(wǎng)頁類型都起作用。而且,規(guī)則識別的方案在識別部分網(wǎng)頁類型如區(qū)分bbs列表頁“http://bbS.tianya.cn/list-no04-l.shtml” 和 bbs 正文頁“http://bbs.tianya.cn/post-no04-2300663-l.shtml ”、區(qū)分微博網(wǎng)頁 “http://sd.sina.com.cn/news/shenbian/2013-06-24/11382535.html” 和新聞網(wǎng)頁 “http://sd.sina.com.cn/news/sdyw/2013-06-24/070827368.html” 的時候,站點信息“bbs.tianya.cn”和“sd.sina.com.cn”在規(guī)則匹配識別方案中起不到識別的作用,需要進(jìn)行分類識別。規(guī)則匹配識別方案的成功識別只有在每個網(wǎng)站想要區(qū)分的幾個網(wǎng)頁類型所在的每個版塊的網(wǎng)頁都做訓(xùn)練樣本進(jìn)行分類識別之后對規(guī)則列表進(jìn)行更新的情況下,才有意義;并且一旦要區(qū)分的網(wǎng)頁類型增加或者更改,發(fā)生了變化,規(guī)則列表需要全部重新訓(xùn)練更新。面對實際工程中數(shù)百萬個網(wǎng)站上億的版塊來說,方法可行性比較低,維護(hù)代價也大。所以,如果規(guī)則匹配識別方案在訓(xùn)練集不夠廣泛全面的情況下就對網(wǎng)頁類型進(jìn)行識別,會起不到任何的作用或者出現(xiàn)不可逆轉(zhuǎn)的識別錯誤的情況。
[0006]另外,題為“一種確定網(wǎng)頁類型的方法和裝置”的專利CN103020067A提出了通過獲取搜索日志中待識別網(wǎng)頁被點擊時所對應(yīng)的所有query的各η元詞組(n-gram)構(gòu)成的特征向量及確定向量之間的相關(guān)性進(jìn)行識別的;與本發(fā)明不同的是,兩者識別的實際應(yīng)用場景、知識背景不同,不同的應(yīng)用場景,需要提供不同的背景知識作輔助和支持來實現(xiàn)。本發(fā)明是在只有網(wǎng)頁的url和網(wǎng)頁正文的情況下進(jìn)行的,所以兩者所走的技術(shù)路線也不同。
[0007]從實際工程應(yīng)用的角度來講,無論是用戶通過搜索引擎檢索用戶所感興趣的特定類型的某個主題的網(wǎng)頁,還是通過網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)進(jìn)行某種感興趣的操作,對檢索結(jié)果的準(zhǔn)確度和實時性都要求非常高。迄今為止,識別網(wǎng)頁類型或者識別特定網(wǎng)頁類型的方法無非是基于人工設(shè)定的啟發(fā)式規(guī)則特征,或者是基于統(tǒng)計的機(jī)器學(xué)習(xí)方法,在特定應(yīng)用場景提供相應(yīng)背景知識的情況下都可以產(chǎn)生較好的效果?;趩l(fā)式的規(guī)則方法是基于人工設(shè)定的具有區(qū)分效果的規(guī)則進(jìn)行識別的,雖然在速度上略勝一籌,但是往往精度不夠高,普及性也不高;基于分類的機(jī)器學(xué)習(xí)的方法,是在大量的訓(xùn)練樣本統(tǒng)計的基礎(chǔ)上進(jìn)行的,在特征選擇恰當(dāng)、分類器選擇合適的時候,精度和速度都能達(dá)到預(yù)期的效果。分類器的分類精度很大一部分程度取決于特征的好壞,目前進(jìn)行網(wǎng)頁類型識別的特征主要包含網(wǎng)頁url特征和網(wǎng)頁內(nèi)容本身一些基本的特征(如標(biāo)簽(tag)特征),部分國外文獻(xiàn)在處理英文網(wǎng)頁時,也借鑒了對純文本進(jìn)行自然語言分析處理提取特征的方法,雖然效果不錯,但是基于進(jìn)行分詞、詞性、語法等分析的涉及自然語言處理的方法往往受語種的限制,例如分詞、詞性、語法、語義分析,中英文方法完全不同(英文不需要分詞),中文更復(fù)雜一些,在應(yīng)用于跨語言的網(wǎng)頁時,算法需要改動的部分較大,且在效率上相對來講也低一些。

【發(fā)明內(nèi)容】

[0008]本發(fā)明所要解決的技術(shù)問題是提供一種識別網(wǎng)頁類型的系統(tǒng)和方法,解決了現(xiàn)有技術(shù)中基于啟發(fā)式規(guī)則進(jìn)行網(wǎng)頁類型識別效果較差、分類器的特征選取不合適、尤其在對跨語言的網(wǎng)頁進(jìn)行識別時需要做較大改動且效率較低的問題。
[0009]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種識別網(wǎng)頁類型的方法,包括以下步驟:
[0010](I)對特定的一種或多種網(wǎng)頁類型預(yù)先定義啟發(fā)式規(guī)則并生成啟發(fā)式規(guī)則列表,所述任一啟發(fā)式規(guī)則對應(yīng)唯一的網(wǎng)頁類型;
[0011](2)選取訓(xùn)練網(wǎng)頁,從訓(xùn)練網(wǎng)頁中提取預(yù)先定義的預(yù)定特征并形成標(biāo)準(zhǔn)化的特征向量,對所述標(biāo)準(zhǔn)化的特征向量進(jìn)行兩次優(yōu)化形成精簡的特征集合,并基于所述精簡的特征集合構(gòu)建分類器和特征抽取器,所述分類器通過所述精簡的特征集合生成用于確定待識別網(wǎng)頁網(wǎng)頁類型的分類模型;所述特征抽取器根據(jù)所述精簡的特征集合設(shè)定了對待識別網(wǎng)頁抽取的設(shè)定特征;
[0012](3)基于待識別網(wǎng)頁的統(tǒng)一資源定位符(URL)和源代碼,在所述啟發(fā)式規(guī)則列表中執(zhí)行規(guī)則匹配,若所述識別網(wǎng)頁的URL和源代碼符合所述啟發(fā)式規(guī)則定義的條件,則規(guī)則匹配成功,進(jìn)入步驟(4);否則,進(jìn)入步驟(5);
[0013](4)根據(jù)匹配的規(guī)則輸出待識別網(wǎng)頁的網(wǎng)頁類型;
[0014](5)將待識別網(wǎng)頁的URL和源代碼輸入到所述特征抽取器中,所述特征抽取器抽取待識別網(wǎng)頁的設(shè)定特征,所述分類器根據(jù)抽取到的所述設(shè)定特征和所述分類模型,對待識別網(wǎng)頁執(zhí)行網(wǎng)頁類型分類,輸出待識別網(wǎng)頁的網(wǎng)頁類型。
[0015]一種識別網(wǎng)頁類型的系統(tǒng),包括:
[0016]規(guī)則存儲器,所述規(guī)則存儲器用于存儲所述啟發(fā)式規(guī)則列表;[0017]規(guī)則匹配器,所述規(guī)則匹配器用于基于待識別網(wǎng)頁的統(tǒng)一資源定位符(URL)和源代碼,在所述規(guī)則列表中執(zhí)行規(guī)則匹配,若所述識別網(wǎng)頁的URL和源代碼符合所述啟發(fā)式規(guī)則定義的條件,則規(guī)則匹配成功,且根據(jù)成功匹配的規(guī)則輸出待識別網(wǎng)頁的網(wǎng)頁類型;
[0018]特征處理器,所述特征處理器用于從訓(xùn)練網(wǎng)頁中提取預(yù)先定義的預(yù)定特征并形成標(biāo)準(zhǔn)化的特征向量,對所述標(biāo)準(zhǔn)化的特征向量進(jìn)行兩次優(yōu)化形成精簡的特征集合,并基于所述精簡的特征集合構(gòu)建分類器和特征抽取器;
[0019]特征抽取器,所述特征抽取器用于當(dāng)規(guī)則匹配器所執(zhí)行的規(guī)則匹配不成功時,根據(jù)所述精簡的特征集合從待識別網(wǎng)頁中抽取所述設(shè)定特征;
[0020]分類器,所述分類器用于生成分類模型并根據(jù)所述分類模型和所述特征抽取器抽取的所述設(shè)定特征,輸出待識別網(wǎng)頁的網(wǎng)頁類型。
[0021]本發(fā)明采用啟發(fā)式規(guī)則匹配器和分類器相互配合使用的方法,啟發(fā)式規(guī)則匹配器采用人工定義的啟發(fā)式規(guī)則來確定網(wǎng)頁的類型,在對網(wǎng)頁類型特征很明顯或者符合特定規(guī)律的網(wǎng)頁進(jìn)行規(guī)則匹配時,速度快且識別精度高,同時可以針對不同的網(wǎng)頁類型隨時更改啟發(fā)式規(guī)則的內(nèi)容,靈活性很大;對特征不明顯或者沒有特定規(guī)律的網(wǎng)頁進(jìn)行識別時,可以直接采用機(jī)器學(xué)習(xí)的分類器方法進(jìn)行識別。本發(fā)明全面的包含了 6種類型特征,每種類型特征又進(jìn)行了具體特征值的定義,特征值的設(shè)定使得抽取的過程只需要對網(wǎng)頁的節(jié)點進(jìn)行一次遍歷,保證了抽取的速度;而且用戶可以自行定義與修改采用的具體特征和特征值,靈活性大;且大部分特征類型的定義都不涉及到語種問題,適用于跨語言的環(huán)境;同時通過兩個環(huán)節(jié)的特征優(yōu)化得到最終較優(yōu)的特征集合,保證了抽取的質(zhì)量。因此,無論是識別速度還是識別精度,還是涉及跨語種的問題,本發(fā)明的識別系統(tǒng)和方法都可以滿足實際的工程需求。
【專利附圖】

【附圖說明】
[0022]圖1為本發(fā)明識別網(wǎng)頁類型的方法的流程示意圖;
[0023]圖2為本發(fā)明提取訓(xùn)練網(wǎng)頁的預(yù)定特征的流程示意圖圖;
[0024]圖3為本發(fā)明對特征向量進(jìn)行優(yōu)化并構(gòu)建分類器的流程示意圖;
[0025]圖4為本發(fā)明通過分類器對待識別網(wǎng)頁進(jìn)行網(wǎng)頁分類的流程示意圖;
[0026]圖5為本發(fā)明識別網(wǎng)頁類型的系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0027]以下結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0028]圖1為本實施例的識別網(wǎng)頁類型的方法的流程示意圖,如圖1所示,包括以下步驟:
[0029]基于在特定應(yīng)用場景擁有特定背景知識的情況下,對特定的一種或多種網(wǎng)頁類型預(yù)先定義啟發(fā)式規(guī)則并生成啟發(fā)式規(guī)則列表,所述啟發(fā)式規(guī)則列表存儲在規(guī)則存儲器中,所述任一啟發(fā)式規(guī)則對應(yīng)唯一的網(wǎng)頁類型。所述啟發(fā)式規(guī)則的內(nèi)容針對不同網(wǎng)頁類型有不同的定義,且規(guī)則的定義需完全符合該類型網(wǎng)頁的特征,假若存在歧義,則去掉該規(guī)則;如果所有網(wǎng)頁類型都沒有完全符合該網(wǎng)頁類型的無歧義的啟發(fā)式規(guī)則,則不用啟發(fā)式規(guī)則方法識別,直接將待識別的網(wǎng)頁進(jìn)行機(jī)器學(xué)習(xí)方法的識別。
[0030]選取訓(xùn)練網(wǎng)頁,通過特征處理器從訓(xùn)練網(wǎng)頁中提取預(yù)先定義的預(yù)定特征并形成標(biāo)準(zhǔn)化的特征向量,對所述標(biāo)準(zhǔn)化的特征向量進(jìn)行兩次優(yōu)化形成精簡的特征集合,并基于所述精簡的特征集合構(gòu)建分類器和特征抽取器;所述分類器通過所述精簡的特征集合生成用于確定待識別網(wǎng)頁網(wǎng)頁類型的分類模型;所述特征抽取器根據(jù)所述精簡的特征集合設(shè)定了對待識別網(wǎng)頁抽取的設(shè)定特征;
[0031]在本實施例中,所述預(yù)定特征為從訓(xùn)練網(wǎng)頁和待識別網(wǎng)頁的統(tǒng)一資源定位符(URL)的字符串中提取的URL特征和/或從網(wǎng)頁源代碼對應(yīng)的dom樹的節(jié)點中提取的網(wǎng)頁特征,具體請見圖2.[0032]通過規(guī)則匹配器將待識別的網(wǎng)頁的URL和源代碼與用戶預(yù)先定義的啟發(fā)式規(guī)則列表進(jìn)行規(guī)則的匹配,若所述識別網(wǎng)頁的URL和源代碼符合所述啟發(fā)式規(guī)則定義的條件,則規(guī)則匹配成功,且根據(jù)匹配的規(guī)則輸出待識別網(wǎng)頁的網(wǎng)頁類型。
[0033]如果所有網(wǎng)頁類型都沒有完全符合該網(wǎng)頁類型的無歧義的啟發(fā)式規(guī)則,則將待識別網(wǎng)頁的URL和源代碼輸入到所述特征抽取器中,所述特征抽取器從待識別網(wǎng)頁的URL和網(wǎng)頁源代碼中提取所述設(shè)定特征,然后分類器根據(jù)所述分類模型和所述設(shè)定特征,對待識別網(wǎng)頁執(zhí)行網(wǎng)頁類型分類,輸出待識別網(wǎng)頁的網(wǎng)頁類型。
[0034]圖2為本實施例中特征處理器抽取訓(xùn)練網(wǎng)頁的預(yù)定特征并形成特征向量的流程示意圖,如果沒有特別說明,本實施例各個特征的特征值的定義都是以識別新聞、論壇、博客正文網(wǎng)頁為例,在實際工程應(yīng)用中,使用哪些特征及特征的特征值要根據(jù)實際的背景知識和要識別的網(wǎng)頁類型進(jìn)行人為的設(shè)定與改動。包括以下步驟:
[0035]步驟S210:選取訓(xùn)練網(wǎng)頁,從訓(xùn)練網(wǎng)頁的URL字符串提取所述URL特征;若所述URL以“/”結(jié)尾,則所述URL字符串為URL中的介于開頭“http://”和末尾“/”之間的字符串;若所述URL不以“/”結(jié)尾,則所述URL字符串為URL中開頭“http://”以后的所有字符
串O
[0036]優(yōu)選的,所述URL特征包括下述中的任意一個或多個:
[0037]URL深度值:URL深度值為URL字符串中“/”的數(shù)量值加上I ;
[0038]URL句點數(shù)量值:URL句點數(shù)量值為URL第一個“/”之前的字符串中”的數(shù)量值;
[0039]URL日期特征值:用于表示URL字符串中是否有符合日期正則表達(dá)式的日期字符串。新聞?wù)木W(wǎng)頁url中幾個常用的日期正則表達(dá)式如下:
[0040]{ “ [0-9] {4} - [0-9] {2} - [0-9] {2} ”,“ [0-9] {4} [0-9] {2} [0-9] {2} ”,“ [0-9]{4}-[0-9]{2}/[0-9]{2}〃,“[0-9] {4}-[0-9]⑵”,“ [0—9]⑷[0—9]⑵ ”,“[0_9]{4}/[0-9] {2} - [0-9] {2} ”,“ [0-9] {4} / [0-9] {2} [0-9] {2} ”,“ [0-9] {4} / [0-9] {2} / [0-9]⑵”,“[0-9] {4}/[0-9]⑵”,“[0-9] {4} _ [0-9] {2}/[0-9] {2}”}
[0041]其時間元語即時間的原型分另Ij是{YYYY-MM-DD, YYYYMMDD, YYYY-MM/DD, YYYY-MM, YYYYMM, YYYY/MM-DD, YYYY/MMDD, YYYY/MM/DD, YYYY/MM, YYYY_MM/DD},其中YYYY為四位數(shù)年份,如1999,YY代表兩位數(shù)年份,如03,麗為2位數(shù)月份,如05,DD為兩位數(shù)日期,如31 ;時間元語和正則表達(dá)式可根據(jù)實際總結(jié)情況進(jìn)行增減;查找url字符串中是否有符合上述正則表達(dá)式的日期字符串,如果有,將年月日分別抽取出來并判斷年月日是否具有合法性,如果不合法,則繼續(xù)尋找下一個符合日期正則的字符串并重復(fù)該過程;如果存在合法的日期字符串,則該特征值設(shè)置為1,如果找不到合法的日期字符串,則將該特征值設(shè)置為O。
[0042]URL類型特征詞的頻數(shù),所述URL類型特征詞為預(yù)先定義的用于表示網(wǎng)頁類型的特征詞,所述URL類型特征詞以區(qū)分新聞?wù)木W(wǎng)頁、論壇正文網(wǎng)頁、博客正文網(wǎng)頁、除此之外的其他類型網(wǎng)頁的四種網(wǎng)頁類型特征詞為例,具體包括新聞url類型特征詞、論壇url類型特征詞、博客url類型特征詞和第四類url類型特征詞;
[0043]優(yōu)選的,所述新聞url 類型特征詞包括:“story”、“article”、“content”、“news”和 / 或“xinwen” ;所述論壇 url 類型特征詞包括:“detail”、“thread_”、“viewthread”、“read-”、“tid”、“forum”、“l(fā)untan”、“bbs”、“tieba”、“guba”、”shequ”、“tiezi”、“huitie”、“post”和/或“showtopic” ;所述博客url類型特征詞包括:“blog”、“static”和/或“boke”;所述第四類 url 類型特征詞包括:“node”、“main”、“l(fā)ist”、“index”、“more”、“ category”、“item”、“default,,、“ brief,,、“ cat id”、“spec ia,,、“ data”、“club,,、“ group,,、“rss”、“board”、“formb logger”、“profi le”、“ I ink”,“search”、“l(fā)ogin”、“front,,、“class”、“forum-”、“channel”、“fid” 和 / 或“tag,,。
[0044]URL類型特征詞的得分?jǐn)?shù)值,由于url類型特征詞在url中的所處的位置即深度也對類型的識別有影響,因此本發(fā)明對url類型特征詞進(jìn)行了打分,所述URL類型特征詞的得分函數(shù)為:
【權(quán)利要求】
1.一種識別網(wǎng)頁類型的方法,包括以下步驟: (1)對特定的一種或多種網(wǎng)頁類型預(yù)先定義啟發(fā)式規(guī)則并生成啟發(fā)式規(guī)則列表,所述任一啟發(fā)式規(guī)則對應(yīng)唯一的網(wǎng)頁類型; (2)選取訓(xùn)練網(wǎng)頁,從訓(xùn)練網(wǎng)頁中提取預(yù)先定義的預(yù)定特征并形成標(biāo)準(zhǔn)化的特征向量,對所述標(biāo)準(zhǔn)化的特征向量進(jìn)行兩次優(yōu)化形成精簡的特征集合,并基于所述精簡的特征集合構(gòu)建分類器和特征抽取器,所述分類器通過所述精簡的特征集合生成用于確定待識別網(wǎng)頁網(wǎng)頁類型的分類模型;所述特征抽取器根據(jù)所述精簡的特征集合設(shè)定了對待識別網(wǎng)頁抽取的設(shè)定特征; (3)基于待識別網(wǎng)頁的統(tǒng)一資源定位符(URL)和源代碼,在所述啟發(fā)式規(guī)則列表中執(zhí)行規(guī)則匹配,若所述識別網(wǎng)頁的URL和源代碼符合所述啟發(fā)式規(guī)則定義的條件,則規(guī)則匹配成功,進(jìn)入步驟(4);否則,進(jìn)入步驟(5); (4)根據(jù)匹配的規(guī)則輸出待識別網(wǎng)頁的網(wǎng)頁類型; (5)將待識別網(wǎng)頁的URL和源代碼輸入到所述特征抽取器中,所述特征抽取器抽取待識別網(wǎng)頁的設(shè)定特征,所述分類器根據(jù)抽取到的所述設(shè)定特征和所述分類模型,對待識別網(wǎng)頁執(zhí)行網(wǎng)頁類型分類,輸出待識別網(wǎng)頁的網(wǎng)頁類型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述預(yù)定特征包括從網(wǎng)頁的URL字符串中提取的URL特征和/或從網(wǎng)頁源代碼對應(yīng)的文件對象模型(dom)樹的節(jié)點中提取的網(wǎng)頁特征,所述網(wǎng)頁包括訓(xùn)練網(wǎng)頁和待識別網(wǎng)頁。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于:若所述URL以“/”結(jié)尾,則所述URL字符串為URL中的介于開頭“http://”和末尾“/”之間的字符串;若所述URL不以“/”結(jié)尾,則所述URL字符串為URL中開頭“http://”以后的所有字符串。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于:所述URL特征包括下述中的任意一個或多個: URL深度值,所述URL深度值為URL字符串中“/”的數(shù)量值加上I ; URL句點數(shù)量值,所述URL句點數(shù)量值為URL第一個“/”之前的字符串中”的數(shù)量值; URL日期特征值,所述日期特征值用于表示URL字符串中是否有符合日期正則表達(dá)式的日期字符串,若存在所述日期字符串且所述日期字符串表示的日期合法,則所述日期特征值設(shè)為“ I” ;否則,所述日期特征值設(shè)為“O” ; URL類型特征詞的頻數(shù),所述URL類型特征詞為預(yù)先定義的用于表示網(wǎng)頁類型的特征詞;和/或 URL類型特征詞的得分?jǐn)?shù)值,所述URL類型特征詞的得分函數(shù)為:
Ji1 2 X2 X
Y v XlogC 1 )

PlDx(DH) bDx(D+\).f£)本 t
Score(i) = I 2 X /h , , 2 x /h 、,

yX loaf)
t^Dx(D+\) Dx(D+\)
^ I,ifl>=l 其中,i為第i個url類型特征詞,D為url的總深度,j為第j層深度,
5.根據(jù)權(quán)利要求4所述的方法,其特征在于:所述URL類型特征詞為用于確定網(wǎng)頁類型的類型特征詞。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于:所述網(wǎng)頁特征包括文本高頻詞特征、結(jié)構(gòu)特征、標(biāo)簽特征、鏈接特征和/或語法特征,所述語法特征包括標(biāo)點符號特征和句子特征; 所述文本高頻詞特征為網(wǎng)頁源代碼對應(yīng)的文件對象模型(dom)樹的文本節(jié)點中與網(wǎng)頁類型相關(guān)的高頻特征詞出現(xiàn)的頻數(shù),所述高頻特征詞為用于確定網(wǎng)頁類型的各個文本高頻特征詞; 所述結(jié)構(gòu)特征為“head”子樹中“title”和“meta”兩種標(biāo)簽節(jié)點的content屬性所包含的結(jié)構(gòu)類型特征詞的個數(shù)以及標(biāo)志字體大小的“hi”、“h2”、“h3”三個標(biāo)簽在整個dom樹中出現(xiàn)的頻數(shù),所述結(jié)構(gòu)類型特征詞為用于確定網(wǎng)頁類型的各個結(jié)構(gòu)類型特征詞; 所述標(biāo)簽特征為預(yù)設(shè)的50個常用的標(biāo)簽占所述網(wǎng)頁總標(biāo)簽的百分比; 所述鏈接特征為url鏈接的屬性值中包含每類url類型特征詞的url的個數(shù)或百分t匕,所述屬性值包括“a”、“Iink”標(biāo)簽的href屬性的屬性值和/或“img”標(biāo)簽的src屬性的屬性值; 所述標(biāo)點符號特征為dom樹的文本節(jié)點中,中英文標(biāo)點符號出現(xiàn)的頻數(shù); 所述句子特征包括dom樹的文本節(jié)點中每個中英文句子標(biāo)點符號出現(xiàn)的頻數(shù)、每種句子標(biāo)點符號出現(xiàn)的頻率、所有句子的總數(shù)量和/或每個句子平均字節(jié)數(shù)量。
7.根據(jù)權(quán)利要求1~6任一所述的方法,提取所述訓(xùn)練網(wǎng)頁的預(yù)定特征并形成特征向量包括以下步驟: 選取訓(xùn)練網(wǎng)頁,從訓(xùn)練網(wǎng)頁的URL字符串提取所述URL特征; 讀取所述訓(xùn)練網(wǎng)頁的源代碼,并將所述源代碼轉(zhuǎn)化為dom樹; 依次遍歷dom樹中的節(jié)點,生成所述訓(xùn)練網(wǎng)頁的網(wǎng)頁特征,所述網(wǎng)頁特征包括所述文本高頻詞特征、結(jié)構(gòu)特征、標(biāo)簽特征、鏈接特征和/或語法特征; 重復(fù)上述過程,對所有的訓(xùn)練網(wǎng)頁進(jìn)行URL特征和網(wǎng)頁特征提取,分別得到以下特征向量:URL特征向量、高頻詞文本向量、標(biāo)簽向量、鏈接向量、結(jié)構(gòu)向量和/或語法向量。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于:生成文本高頻詞特征和/或語法特征時,遍歷的文本節(jié)點不包含不可見節(jié)點和/或父節(jié)點為以下標(biāo)簽節(jié)點的文本節(jié)點:“script”、“style,,、“ob ject,,、“ i frame,,、“textarea,,、“ noser ipt,,、“noembed ”、“marquee”、“ frame,,、“frameset”、“noframes”、“form”、“input”、“button” , “select”、“option”、“l(fā)abel,,、“fieldset'“applet”、“optgroup”、“l(fā)egend”、“isindex” 和 / 或“param,,。
9.根據(jù)權(quán)利要求7所述的方法,對所述特征向量進(jìn)行優(yōu)化并構(gòu)建分類器包括以下步驟: 對所述URL特征向量和網(wǎng)頁特征向量分別進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化的各個特征向量; 采用支持向量機(jī)遞歸的特征刪除方法(SVM_RFE)對各個標(biāo)準(zhǔn)化的特征向量去掉影響分類精度的冗余特征和噪音特征,進(jìn)行第一次特征優(yōu)化,得到較優(yōu)的特征向量; 將所述較優(yōu)的特征向量構(gòu)成一個特征集合,對所述特征集合整體進(jìn)行第二次特征優(yōu)化生成精簡的特征集合,根據(jù)所述精簡的特征集合構(gòu)建分類器和特征抽取器,所述特征抽取器設(shè)定了待識別的網(wǎng)頁所要抽取的設(shè)定特征和每個特征的標(biāo)準(zhǔn)化參數(shù)值,所述設(shè)定特征為所述精簡的特征集合的所有特征; 將所述精簡的特征集合輸入到分類器中得到所述分類模型。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于:所述標(biāo)準(zhǔn)化公式為
11.根據(jù)權(quán)利要求9所述的方法,其特征在于:所述標(biāo)準(zhǔn)化參數(shù)值包括所述精簡的特征集合中每個特征的最大值、最小值和均值。
12.根據(jù)權(quán)利要求9所述的方法,其特征在于:通過分類器對待識別網(wǎng)頁進(jìn)行網(wǎng)頁分類包括以下步驟: 將待識別網(wǎng)頁的URL和源代碼輸入到所述特征抽取器; 所述特征抽取器對待識別 網(wǎng)頁抽取所述設(shè)定特征,并根據(jù)所述標(biāo)準(zhǔn)化參數(shù)對所述設(shè)定特征進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化的特征集合,并輸入到分類器中; 分類器根據(jù)標(biāo)準(zhǔn)化的特征集合和所述分類模型,對待識別網(wǎng)頁進(jìn)行網(wǎng)頁類型分類,輸出待識別網(wǎng)頁的網(wǎng)頁類型。
13.一種識別網(wǎng)頁類型的系統(tǒng),包括: 規(guī)則存儲器,所述規(guī)則存儲器用于存儲所述啟發(fā)式規(guī)則列表; 規(guī)則匹配器,所述規(guī)則匹配器用于基于待識別網(wǎng)頁的統(tǒng)一資源定位符(URL)和源代碼,在所述規(guī)則列表中執(zhí)行規(guī)則匹配,若所述識別網(wǎng)頁的URL和源代碼符合所述啟發(fā)式規(guī)則定義的條件,則規(guī)則匹配成功,且根據(jù)成功匹配的規(guī)則輸出待識別網(wǎng)頁的網(wǎng)頁類型; 特征處理器,所述特征處理器用于從訓(xùn)練網(wǎng)頁中提取預(yù)先定義的預(yù)定特征并形成標(biāo)準(zhǔn)化的特征向量,對所述標(biāo)準(zhǔn)化的特征向量進(jìn)行兩次優(yōu)化形成精簡的特征集合,并基于所述精簡的特征集合構(gòu)建分類器和特征抽取器; 特征抽取器,所述特征抽取器用于當(dāng)規(guī)則匹配器所執(zhí)行的規(guī)則匹配不成功時,根據(jù)所述精簡的特征集合從待識別網(wǎng)頁中抽取所述設(shè)定特征; 分類器,所述分類器用于生成分類模型并根據(jù)所述分類模型和所述特征抽取器抽取的所述設(shè)定特征,輸出待識別網(wǎng)頁的網(wǎng)頁類型。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于:所述特征處理器進(jìn)一步包括: URL特征提取單元,用于從訓(xùn)練網(wǎng)頁的URL字符串提取所述URL特征,生成URL特征向量; 網(wǎng)頁特征提取單元,用于讀取所述訓(xùn)練網(wǎng)頁的源代碼,將所述源代碼轉(zhuǎn)化為dom樹;并依次遍歷dom樹中的節(jié)點,提取所述訓(xùn)練網(wǎng)頁的網(wǎng)頁特征,并生成網(wǎng)頁特征向量,所述網(wǎng)頁特征包括所述文本高頻詞特征、結(jié)構(gòu)特征、標(biāo)簽特征、鏈接特征和/或語法特征; 特征優(yōu)化單元,用于 對所述訓(xùn)練網(wǎng)頁的URL特征向量和所述網(wǎng)頁特征向量進(jìn)行標(biāo)準(zhǔn)化處理得到標(biāo)準(zhǔn)化的特征向量,并對所述標(biāo)準(zhǔn)化的特征向量進(jìn)行兩次優(yōu)化生成精簡的特征集合; 特征存儲單元,用于存儲所述精簡的特征集合的所有特征和每個特征的標(biāo)準(zhǔn)化參數(shù)值; 構(gòu)建單元,用于根據(jù)所述精簡的特征集合構(gòu)建特征抽取器和分類器。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于:所述特征優(yōu)化單元包括第一級特征優(yōu)化單元和第二級特征優(yōu)化單元,所述第一級優(yōu)化單元用于采用SVM_RFE方法對各個標(biāo)準(zhǔn)化的特征向量進(jìn)行第一次特征優(yōu)化,去掉影響分類精度的冗余特征和噪音特征,得到較優(yōu)的特征向量;所述第二級優(yōu)化單元用于對所述各個較優(yōu)的特征向量構(gòu)成的特征集合整體進(jìn)行第二次特征優(yōu)化,生成精簡的特征集合。
16.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于:所述特征抽取器還用于根據(jù)所述特征存儲單元存儲的每個特征的標(biāo)準(zhǔn)化參數(shù)值,對抽取的待識別網(wǎng)頁的設(shè)定特征進(jìn)行標(biāo)準(zhǔn)化處理。
【文檔編號】G06F17/30GK103544210SQ201310391961
【公開日】2014年1月29日 申請日期:2013年9月2日 優(yōu)先權(quán)日:2013年9月2日
【發(fā)明者】李海燕, 王海洋, 劉大偉, 劉瑋, 余智華, 隋雪青 申請人:煙臺中科網(wǎng)絡(luò)技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
若尔盖县| 元江| 昆明市| 台安县| 陆河县| 南木林县| 桃源县| 临安市| 河西区| 黔江区| 石柱| 武义县| 武夷山市| 保靖县| 黑河市| 民丰县| 承德县| 师宗县| 乌苏市| 汉川市| 江川县| 东方市| 视频| 邛崃市| 永安市| 桂林市| 双流县| 新民市| 和田县| 宁陕县| 奇台县| 岳普湖县| 东丽区| 隆安县| 姜堰市| 囊谦县| 顺平县| 肃北| 邓州市| 霍林郭勒市| 沈阳市|