欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁類型識別方法和系統(tǒng)與流程

文檔序號:11868067閱讀:197來源:國知局
一種網(wǎng)頁類型識別方法和系統(tǒng)與流程
本發(fā)明實施方式涉及互聯(lián)網(wǎng)應用技術(shù)領域,更具體地,涉及一種網(wǎng)頁類型識別方法和系統(tǒng)。

背景技術(shù):
隨著計算機技術(shù)和網(wǎng)絡技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)(Internet)在人們的日常生活、學習和工作中發(fā)揮的作用也越來越大。據(jù)中國互聯(lián)網(wǎng)絡信息中心公布的最新互聯(lián)網(wǎng)發(fā)展調(diào)查報告顯示,中國互聯(lián)網(wǎng)網(wǎng)民數(shù)達到5.13億,2010年中國網(wǎng)頁有600億,而全球網(wǎng)頁則至少有1萬億。互聯(lián)網(wǎng)上眾多網(wǎng)頁包含的信息紛繁復雜,如何將這些網(wǎng)頁準確歸類以便于后續(xù)工作是一個嚴峻的挑戰(zhàn)。比如:在網(wǎng)頁廣告方面,展示與網(wǎng)頁類型相關的廣告將會大大提升用戶點擊率。另外,近兩年隨著移動互聯(lián)網(wǎng)的發(fā)展,移動閱讀的需求呈井噴狀,新聞無疑是用戶最為關注的類型之一,如果能識別出新聞網(wǎng)頁,也可以給移動閱讀應用提供更干凈的數(shù)據(jù),同時還可以給頁面抽取提供相應幫助。目前,在現(xiàn)有技術(shù)中通常采用樸素貝葉斯的文本分類方法來識別文本內(nèi)容,主要包括:標注訓練樣本,利用文本詞作為特征,通過統(tǒng)計的方法來估計文本的類別,等等。首先,目前現(xiàn)有技術(shù)中主要是按照網(wǎng)頁內(nèi)容進行分類,而僅僅根據(jù)網(wǎng)頁內(nèi)容進行分類的話,分類準確度并不高。其次,與互聯(lián)網(wǎng)上的網(wǎng)頁相比,文本分類的數(shù)據(jù)源由于過于簡單而不實用。

技術(shù)實現(xiàn)要素:
本發(fā)明實施方式提出一種網(wǎng)頁類型識別方法,以提高網(wǎng)頁分類準確度。本發(fā)明實施方式還提出一種網(wǎng)頁類型識別系統(tǒng),以提高網(wǎng)頁分類準確度。本發(fā)明實施方式的具體方案如下:一種網(wǎng)頁類型識別方法,該方法包括:根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的內(nèi)容類型傾向值;提取該網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)特征;利用所述內(nèi)容類型傾向值和所述網(wǎng)頁結(jié)構(gòu)特征識別所述網(wǎng)頁的類型。一種網(wǎng)頁類型識別系統(tǒng),該系統(tǒng)包括內(nèi)容類型傾向值計算單元、結(jié)構(gòu)特征提取單元和類型識別單元,其中:內(nèi)容類型傾向值計算單元,用于根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的內(nèi)容類型傾向值;結(jié)構(gòu)特征提取單元,用于提取該網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)特征;類型識別單元,用于利用所述內(nèi)容類型傾向值和所述網(wǎng)頁結(jié)構(gòu)特征識別所述網(wǎng)頁的類型。從上述技術(shù)方案可以看出,在本發(fā)明實施方式中,根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的內(nèi)容類型傾向值;提取該網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)特征;再利用內(nèi)容類型傾向值和網(wǎng)頁結(jié)構(gòu)特征識別所述網(wǎng)頁的類型。由此可見,應用本發(fā)明實施方式之后,首先針對網(wǎng)頁進行兩個維度的分類:一個是基于文本內(nèi)容的維度,另一個是基于網(wǎng)頁結(jié)構(gòu)的維度;最后根據(jù)這兩個維度的分類結(jié)果,組合確定出網(wǎng)頁的類別。因此本發(fā)明實施方式不僅考慮了網(wǎng)頁的文本內(nèi)容維度,還考慮了網(wǎng)頁結(jié)構(gòu)維度來對網(wǎng)頁進行分類,綜合考慮了這兩個維度來對網(wǎng)頁進行分類,因此分類的準確度更高。附圖說明圖1為根據(jù)本發(fā)明實施方式的網(wǎng)頁類型識別方法流程圖;圖2為根據(jù)本發(fā)明實施方式的網(wǎng)頁類型識別方法示范性流程圖;圖3為根據(jù)本發(fā)明實施方式的網(wǎng)頁類型識別系統(tǒng)結(jié)構(gòu)圖。具體實施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明作進一步的詳細描述。在本發(fā)明實施方式中,針對網(wǎng)頁進行兩個維度的分類。一個是基于文本內(nèi)容的維度,另一個是基于網(wǎng)頁結(jié)構(gòu)的維度。然后,根據(jù)這兩個維度的分類結(jié)果,組合確定出網(wǎng)頁的類別。圖1為根據(jù)本發(fā)明實施方式的網(wǎng)頁類型識別方法流程圖。如圖1所示,該方法包括:步驟101:根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的內(nèi)容類型傾向值。在這里,涉及基于文本內(nèi)容的維度對網(wǎng)頁類型進行初步分類。根據(jù)文本內(nèi)容分類主要涉及利用統(tǒng)計機器學習分類算法,通過訓練樣本和特征來計算出某個頁面為特定類型(比如新聞類型)的概率。具體地,可以首先利用詞典對網(wǎng)頁的文本內(nèi)容進行分詞,并計算分詞特征的權(quán)重以形成特征向量,然后再根據(jù)預先設置的網(wǎng)頁內(nèi)容分類器計算該特征向量的內(nèi)容類型傾向值,其中計算出的內(nèi)容類型傾向值可以作為對應于該種網(wǎng)頁內(nèi)容分類器所代表網(wǎng)頁類型的概率。除了正文信息之外,網(wǎng)頁頁面通常含有很多其它的無關內(nèi)容。通過實驗發(fā)現(xiàn),僅利用網(wǎng)頁中的所有句子作為分類數(shù)據(jù)源,可有效去除標簽、鏈接、廣告等噪音,使得分類效果更佳。因此,在一個實施方式中,在利用詞典對網(wǎng)頁的文本內(nèi)容進行分詞之前,可以從文本內(nèi)容中濾去整句長度小于預定值的句子,以增強分類效果。而且,為了減少人工標數(shù)據(jù)帶來的成本,可以嘗試利用各種網(wǎng)站(比如,一些新聞網(wǎng)站)作為入口去抓取數(shù)據(jù),并通過簡單人工審核,共得到大量的(比如數(shù)千條)新聞數(shù)據(jù),然后利用詞作為分類特征,并結(jié)合特征選擇等算法進行降維。在另一個實施方式中,分類器可以利用邏輯回歸(LogisticRegression)分類算法計算特征向量的內(nèi)容類型傾向值。邏輯回歸是一種線性分類器,計算速度很快,比較適合實時分類的應用場景。在一個實施方式中,具體可以利用詞頻-反文檔頻率(TF-IDF)加權(quán)算法來計算分詞特征的權(quán)重。TF-IDF加權(quán)算法是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。在TF-IDF加權(quán)算法中,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了TF-IDF以外,因特網(wǎng)上的搜尋引擎還會使用基于連結(jié)分析的評級方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。步驟102:提取該網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)特征。在這里,涉及基于文本內(nèi)容的維度對網(wǎng)頁類型進行初步分類。具體地,可以先對網(wǎng)頁建文檔對象模型(DOM)樹,然后通過遍歷DOM樹提取一些網(wǎng)頁結(jié)構(gòu)特征,以作為結(jié)構(gòu)分類的依據(jù)。根據(jù)W3CDOM規(guī)范,DOM是一種與瀏覽器、平臺、語言無關的接口,使得用戶可以訪問頁面其他的標準組件。DOM解決了網(wǎng)景(Netscape)的Javascript和微軟(Microsoft)的Jscript之間的沖突,給予web設計師和開發(fā)者一個標準的方法,以便于訪問站點中的數(shù)據(jù)、腳本和表現(xiàn)層對像。DOM是以層次結(jié)構(gòu)組織的節(jié)點或信息片斷的集合。這個層次結(jié)構(gòu)允許開發(fā)人員在樹中導航尋找特定信息。分析該結(jié)構(gòu)通常需要加載整個文檔和構(gòu)造層次結(jié)構(gòu),然后才能做任何工作。由于它是基于信息層次的,因而DOM被認為是基于樹或基于對象的。比如:遍歷DOM樹而提取的網(wǎng)頁結(jié)構(gòu)特征可以包括:1)URL特征。比如URL末尾為index.html等,則基本上可以判定為索引頁。如果URL含有“content”或日期,則為內(nèi)容頁的可能性較大。2)文字鏈接比。計算網(wǎng)頁里面的文本(PureText)長度和鏈接文本(Anchor)長度的比值。3)最大文本長度。計算網(wǎng)頁里最長的一段文本長度。作為內(nèi)容頁的一個長度限界值。4)最長連續(xù)文本比率。即集中的文本長度占網(wǎng)頁總文本長度的比值。一般來講,內(nèi)容頁的正文信息主要集中在一塊,而比如專題頁等,雖然其文本長度長,但分布相對分散。5)二級導航信息;6)網(wǎng)頁標題,等等。以上雖然詳細羅列了一些具體的網(wǎng)頁結(jié)構(gòu)特征,本領域技術(shù)人員可以意識到,實際上所采用的網(wǎng)頁結(jié)構(gòu)特征并不局限于此,而且本發(fā)明實施方式的保護范圍也不局限于此。步驟103:利用內(nèi)容類型傾向值和網(wǎng)頁結(jié)構(gòu)特征識別網(wǎng)頁的類型。在這里,基于步驟101計算出的內(nèi)容類型傾向值和步驟102提取出的網(wǎng)頁結(jié)構(gòu)特征,可以通過各種預先設置的許多判斷準則來確定各特征的閾值以及組合策略,最終得出該頁面的類型。比如:當步驟101中根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的新聞類型傾向值時,則判斷準則具體可以包括:1)當新聞類型傾向值大于預先設置的新聞類型第一閾值時,直接判定網(wǎng)頁的類型為新聞。例如,假設新聞類型傾向值的取值范圍為0-100,計算出的新聞類型傾向值為90,而新聞類型第一閾值為85。此時,由于計算出的新聞類型傾向值大于新聞類型第一閾值,因此可以認為該網(wǎng)頁與新聞高度相關,此時可以不考慮網(wǎng)頁結(jié)構(gòu)特征而直接判定該網(wǎng)頁的類型為新聞。2)當新聞類型傾向值大于預先設置的新聞類型第二閾值,且網(wǎng)頁結(jié)構(gòu)特征中包含新聞類信息時,判定所述網(wǎng)頁的類型為新聞,其中新聞類型第一閾值大于新聞類型第二閾值。例如,假設新聞類型傾向值的取值范圍為0-100,計算出的新聞類型傾向值為70,且新聞類型第一閾值為85,新聞類型第二閾值為60。此時,由于計算出的新聞類型傾向值小于新聞類型第一閾值,因此不能直接認定該網(wǎng)頁為新聞類型,但是由于計算出的新聞類型傾向值大于新聞類型第二閾值,則可以認為該網(wǎng)頁與新聞類型相關,因此需要結(jié)合計算出的新聞類型傾向值和網(wǎng)頁結(jié)構(gòu)特征來綜合判定該網(wǎng)頁是否為新聞類型。此時,當網(wǎng)頁結(jié)構(gòu)特征中同時還包含新聞類信息時(比如網(wǎng)頁標題中含有“新聞”),則可以判定該網(wǎng)頁的類型為新聞。當計算出的新聞類型傾向值小于新聞類型第二閾值,則可以直接認定該網(wǎng)頁與新聞類型不相關。在本發(fā)明實施方式中,針對新聞類型的網(wǎng)頁,最終的識別準確率可以達到95%以上,而召回率在80%以上。以上雖然以新聞類型為實例對本發(fā)明實施方式進行了詳細描述,本領域技術(shù)人員可以意識到,基于上述詳細教導,本發(fā)明實施方式實際上可以適用的網(wǎng)頁類型并不僅僅包括新聞類型,而是可以包括知識問答類型、論壇討論區(qū)類型或在線交易網(wǎng)頁類型等多種類型。在上述方法流程中,針對步驟101和步驟102的執(zhí)行順序要求并無嚴格要求。實際上,步驟101和步驟102可以同時進行,也可以先執(zhí)行步驟101,再執(zhí)行步驟102,或者執(zhí)行完步驟102后再執(zhí)行步驟101。而且,基于上述流程識別出網(wǎng)頁類型之后,可以結(jié)合識別出的網(wǎng)頁類型執(zhí)行許多種應用。比如:可以基于所識別的網(wǎng)頁類型,計算該網(wǎng)頁的廣告相關度;也可以基于所識別的網(wǎng)頁類型,針對該網(wǎng)頁執(zhí)行個性化新聞推薦;還可以基于所識別的網(wǎng)頁類型,從該網(wǎng)頁中抽取網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù);或基于所識別的網(wǎng)頁類型,針對該網(wǎng)頁執(zhí)行閱讀類應用的數(shù)據(jù)篩選,等等?;谏鲜鲈敿毞治觯旅嬉澡b別網(wǎng)頁是否為新聞類型為實例對本發(fā)明的示范性流程進行說明。圖2為根據(jù)本發(fā)明實施方式的網(wǎng)頁類型識別方法示范性流程圖。如圖2所示,針對網(wǎng)頁的操作有兩個分支。左邊分支包括步驟201、步驟202和步驟203,右邊分支包括步驟204和步驟205。兩個分支匯總于步驟206。其中左邊分支包括:步驟201:執(zhí)行數(shù)據(jù)過濾。為了為防止網(wǎng)頁噪音,只提取網(wǎng)頁里的一些長句作為文本,此處可以從文本內(nèi)容中濾去整句長度小于預定值的句子,以增強分類效果。步驟202:利用特征集合詞典對文本進行分詞,然后計算各個分詞特征的權(quán)重(利用特征集合和諸如TF-IDF的特征權(quán)重計算方法),形成一個特征向量。步驟203:將特征向量作為分類器的輸入,得到一個輸出值(取值范圍為0-100分),即新聞內(nèi)容類型傾向值,用于表示其內(nèi)容為新聞的傾向程度。其中可以由訓練樣本和特征、由邏輯回歸算法預先得到該分類器。右邊分支包括:步驟204:建DOM樹。包括:利用網(wǎng)頁的HTML標簽建立DOM樹,并包含各標簽屬性等信息。步驟205:基于DOM樹提取結(jié)構(gòu)類型特征,比如二級導航、文字鏈接比等。左右分支匯總在步驟206:組合判定。利用步驟203的輸出和步驟205的輸出,利用預先設定策略進行最優(yōu)判斷是否為新聞內(nèi)容頁?;谏鲜鲈敿氄撌?,本發(fā)明實施方式還提出了一種網(wǎng)頁類型識別系統(tǒng)。圖3為根據(jù)本發(fā)明實施方式的網(wǎng)頁類型識別系統(tǒng)結(jié)構(gòu)圖。如圖3所示,該系統(tǒng)包括:內(nèi)容類型傾向值計算單元301、結(jié)構(gòu)特征提取單元302和類型識別單元303。其中:內(nèi)容類型傾向值計算單元301,用于根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的內(nèi)容類型傾向值;結(jié)構(gòu)特征提取單元302,用于提取該網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)特征;類型識別單元303,用于利用所述內(nèi)容類型傾向值和所述網(wǎng)頁結(jié)構(gòu)特征識別所述網(wǎng)頁的類型。在一個實施方式中,該系統(tǒng)進一步包括類型處理單元(圖中沒有示出)。類型處理單元,用于執(zhí)行以下步驟中的至少一個:基于所識別的網(wǎng)頁類型,計算該網(wǎng)頁的廣告相關度;基于所識別的網(wǎng)頁類型,針對該網(wǎng)頁執(zhí)行個性化新聞推薦;基于所識別的網(wǎng)頁類型,從該網(wǎng)頁中抽取網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù);或基于所識別的網(wǎng)頁類型,針對該網(wǎng)頁執(zhí)行閱讀類應用的數(shù)據(jù)篩選。具體地,內(nèi)容類型傾向值計算單元301,用于利用詞典對網(wǎng)頁的文本內(nèi)容進行分詞,并計算分詞特征的權(quán)重以形成特征向量;并根據(jù)預先設置的網(wǎng)頁內(nèi)容分類器計算該特征向量的內(nèi)容類型傾向值。優(yōu)選地,內(nèi)容類型傾向值計算單元301,進一步用于在利用詞典對網(wǎng)頁的文本內(nèi)容進行分詞之前,從所述文本內(nèi)容中濾去整句長度小于預定值的句子。具體地,結(jié)構(gòu)特征提取單元302,用于建立該網(wǎng)頁的文檔對象模型DOM樹,并從所述DOM樹中提取網(wǎng)頁結(jié)構(gòu)特征。在一個實施方式中,內(nèi)容類型傾向值計算單元301,用于根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的新聞類型傾向值;此時類型識別單元302用于執(zhí)行以下步驟中的至少一個:當新聞類型傾向值大于預先設置的新聞類型第一閾值時,直接判定網(wǎng)頁的類型為新聞;或當新聞類型傾向值大于預先設置的新聞類型第二閾值,且所述網(wǎng)頁結(jié)構(gòu)特征中包含新聞類信息時,判定網(wǎng)頁的類型為新聞;其中新聞類型第一閾值大于新聞類型第二閾值。同樣地,本發(fā)明實施方式中的網(wǎng)頁類型識別系統(tǒng)所適用的網(wǎng)頁類型并不僅僅包括新聞類型,而是可以包括知識問答類型、論壇討論區(qū)類型或在線交易網(wǎng)頁類型,等等。綜上所述,在本發(fā)明實施方式中,根據(jù)網(wǎng)頁的文本內(nèi)容計算該網(wǎng)頁的內(nèi)容類型傾向值;提取該網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)特征;再利用內(nèi)容類型傾向值和網(wǎng)頁結(jié)構(gòu)特征識別所述網(wǎng)頁的類型。由此可見,應用本發(fā)明實施方式之后,針對網(wǎng)頁進行兩個維度的分類。一個是基于文本內(nèi)容的維度,另一個是基于網(wǎng)頁結(jié)構(gòu)的維度,最后根據(jù)這兩個維度的分類結(jié)果,組合確定出網(wǎng)頁的類別。因此本發(fā)明實施方式不僅考慮了文本內(nèi)容維度,還考慮了網(wǎng)頁結(jié)構(gòu)維度來對網(wǎng)頁進行分類,通過綜合考慮這兩個維度來對網(wǎng)頁進行分類,因此分類的準確度更高。而且,在本發(fā)明實施方式中,通過數(shù)據(jù)過濾,可有效去除網(wǎng)頁中與識別類型無關的標簽、鏈接、廣告等噪音,使得分類效果更佳。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
台南市| 广汉市| 墨玉县| 天镇县| 灵宝市| 札达县| 霞浦县| 榆中县| 垣曲县| 轮台县| 城步| 奈曼旗| 盐池县| 老河口市| 黑龙江省| 阿克陶县| 中西区| 阜新市| 广平县| 自治县| 陆丰市| 罗甸县| 晋江市| 大英县| 青铜峡市| 麻栗坡县| 阿坝| 五家渠市| 泾源县| 许昌县| 逊克县| 化德县| 富顺县| 岱山县| 方山县| 邵东县| 依兰县| 横山县| 泰宁县| 留坝县| 石首市|