專利名稱:識別網(wǎng)頁節(jié)點類型的方法和裝置的制作方法
識 及網(wǎng)頁的處理,尤其涉及識別網(wǎng)頁節(jié)點類型的方法和裝置
背景技術:
當前,互聯(lián)網(wǎng)已經(jīng)成為我們一個重要的信息源,網(wǎng)頁作為互聯(lián)網(wǎng)信息的重要載體, 承載著不計其數(shù)的有用信息,這些信息的時效性強、領域廣泛,是眾多研究不可多得的基礎資源。如自然語言處理的眾多研究都依賴于對大量數(shù)據(jù)的分析,像機器翻譯、文本聚類、文本分類等。然而,要從網(wǎng)頁上準確地獲得這些信息卻不是那么容易,因為網(wǎng)頁上的信息鑲嵌在HTML的 復雜結(jié)構中,同時網(wǎng)頁中還包含有眾多的噪音信息,如導航欄、廣告、各種復雜的嵌入結(jié)構等等,從這些噪音信息中準確地發(fā)現(xiàn)網(wǎng)頁的主體內(nèi)容成為一個急需解決的問題。 另外,網(wǎng)頁的內(nèi)容提取還是眾多網(wǎng)絡相關應用的重要基礎,如網(wǎng)頁檢索、網(wǎng)頁自動摘要、網(wǎng)頁分類等。為此,高質(zhì)量的自動網(wǎng)頁內(nèi)容提取越來越為研究人員所重視。目前,針對網(wǎng)頁內(nèi)容提取的研究主要有兩類方法,一類是通過寫規(guī)則或模板的方法來進行網(wǎng)頁內(nèi)容提取,這類方法中又分為兩種,一種是通過設計的語言人工寫規(guī)則,一種是通過一些網(wǎng)頁樣例來自動學習模板或規(guī)則。這類方法的一個主要的缺點就是對網(wǎng)頁的頁面結(jié)構要求比較嚴格,針對某一網(wǎng)頁或某一類型的網(wǎng)頁書寫或?qū)W習到的模板只適用于特定網(wǎng)頁,如果網(wǎng)頁結(jié)構稍有改變就會失敗。而且人工書寫規(guī)則或模板費時費力。另一類方法是基于網(wǎng)頁的HTML DOM(文檔對象模型)樹結(jié)構的一些方法,這類方法中或?qū)OM樹的每個節(jié)點定義啟發(fā)式規(guī)則來提取出文本節(jié)點,或通過DOM樹自動來學習規(guī)則。這類方法的缺點在于對網(wǎng)頁內(nèi)容中鏈接比較多的情況下,常常發(fā)生主體內(nèi)容中部分句子缺失的情況。而且,自動學習到的規(guī)則在實際應用中匹配失敗的情況也經(jīng)常發(fā)生。另外,上述兩類方法一個共同的不足之處在于,只是把他們認為是內(nèi)容的部分提取出來一并輸出給用戶,并不能細致的區(qū)分出提取出來的文本中各部分的類別,例如哪部分是標題、作者、時間、主體內(nèi)容等, 而這些類別信息對于一些引用來說有著重要的指導作用。
發(fā)明內(nèi)容
在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。根據(jù)本申請的實施方式,將網(wǎng)頁轉(zhuǎn)換為網(wǎng)頁節(jié)點的序列,并利用適于序列化對象的分類器對所述序列中的網(wǎng)頁節(jié)點進行分類,從而獲得網(wǎng)頁節(jié)點的候選類型。從而能夠識別網(wǎng)頁節(jié)點的類型,有助于網(wǎng)頁內(nèi)容的抽取。
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。在附圖中,相同的或?qū)募夹g特征或部件將采用相同或?qū)母綀D標記來表示。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中
圖1為能夠用于實現(xiàn)本發(fā)明的各實施例的計算設備的例子的示意圖;圖2為根據(jù)本發(fā)明一種實施方式的識別網(wǎng)頁節(jié)點類型的方法的流程圖;圖3為根據(jù)本發(fā)明另一種實施方式的識別網(wǎng)頁節(jié)點類型的方法的流程圖;圖4為圖3中去除噪聲節(jié)點的步驟的一種具體實施方式
的流程圖;圖5到圖8為根據(jù)本發(fā)明的各種實施方式的識別網(wǎng)頁節(jié)點類型的裝置的示意框圖。
具體實施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內(nèi)容的本領域技術人員來說,這種開發(fā)工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關的裝置結(jié)構和/或處理步驟,而省略了與本發(fā)明關系不大的其他細節(jié)。首先看圖1,圖示了能夠用于實現(xiàn)本發(fā)明的各種實施方式包括識別網(wǎng)頁節(jié)點類型的方法和裝置的計算設備100的例子的結(jié)構示意圖。在圖1中,中央處理單元(CPU) 101根據(jù)只讀存儲器(ROM) 102中存儲的程序或從存儲部分108加載到隨機存取存儲器(RAM) 103的程序執(zhí)行各種處理。在RAM 103中,也根據(jù)需要存儲當CPU 101執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 10UR0M 102和RAM 103經(jīng)由總線104彼此連接。輸入/輸出接口 105也連接到總線104。下述部件連接到輸入/輸出接口 105 輸入部分106,包括鍵盤、鼠標等等;輸出部分107,包括顯示器,比如陰極射線管(CRT)顯示器、液晶顯示器(LCD)等等,和揚聲器等等; 存儲部分108,包括硬盤等等;和通信部分109,包括網(wǎng)絡接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分109經(jīng)由網(wǎng)絡比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器110也連接到輸入/輸出接口 105。可拆卸介質(zhì)111比如磁盤、 光盤、磁光盤、半導體存儲器等等根據(jù)需要被安裝在驅(qū)動器110上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分108中??梢詮木W(wǎng)絡比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)111向計算設備中安裝程序。本領域的技術人員應當理解,這種存儲介質(zhì)不局限于圖1所示的其中存儲有程序、與設備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)111??刹鹦督橘|(zhì)111的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器。或者,存儲介質(zhì)可以是 ROM 102、存儲部分108中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發(fā)給用戶。第一實施方式網(wǎng)頁內(nèi)容是二維分布的。基于此,一些相關方面的研究,如Zhu,J.,Nie, Ζ.,Wen, J. -R. , Zhang, B.,以及 Ma, W. -Y.的 Simultaneous Record Detection and Attribute Labeling in Web Data Extraction(網(wǎng)頁數(shù)據(jù)抽取中的同步記錄檢測和屬性標注), KDD,06,以及 Zhu, J.,Nie, Z.,Wen, J. -R.,Zhang, B.,以及 Ma, W. -Y.的 2D Conditional Random Fields for Web Information Extraction(用于網(wǎng)頁信息抽取的二維條件隨機場),Proc. of ICML,2005,使用層級條件隨機場(Conditional Random Fields, CRF)模型或者二維CRF模型來對網(wǎng)頁內(nèi)容中的不同部分分類。上述兩篇文獻通過這里的引用全文結(jié)合到本申請文件中。而根據(jù)本發(fā)明提出的實施方式,仍然采用經(jīng)典的、成熟的適于序列化對象的分類方法和分類器對網(wǎng)頁內(nèi)容的不同部分(下面稱為網(wǎng)頁節(jié)點)進行分類。為此,如圖2所示, 需要首先對網(wǎng)頁202進行網(wǎng)頁轉(zhuǎn)換(步驟204),以得到網(wǎng)頁節(jié)點的序列206。然后,對所得到的網(wǎng)頁節(jié)點序列206,用適于序列化對象的分類器對所述序列中的網(wǎng)頁節(jié)點進行分類 (步驟208),從而獲得網(wǎng)頁節(jié)點的候選類型210,例如“標題”、“作者”、“時間”、“內(nèi)容”、“評論”、“廣告”、“其它”,等等。這里,網(wǎng)頁轉(zhuǎn)換的步驟204可以用多種方法實現(xiàn),只要把網(wǎng)頁內(nèi)容的各個部分形成一個線性序列即可。例如,可以通過遍歷從網(wǎng)頁得到的文檔對象模型(Document Object Model)樹而形成DOM樹節(jié)點(即網(wǎng)頁節(jié)點)的一維序列。另外,還可以依據(jù)網(wǎng)頁的空間布局信息來形成網(wǎng)頁節(jié)點的一維序列。對于遍歷DOM樹的方式來說,由于內(nèi)容往往是葉節(jié)點或者接近葉節(jié)點,因此,也可以僅僅通過遍歷DOM樹選取葉節(jié)點或者葉節(jié)點附近的節(jié)點構成網(wǎng)頁節(jié)點序列,例如可以設置為對葉節(jié)點及其以上預定層的節(jié)點進行序列化。這樣,可以減少處理的節(jié)點數(shù),加速處理,同時起到了一定的消除噪聲節(jié)點的作用。對于分類步驟208,適于序列化對象的分類器有很多。典型的如線性鏈CRF模型, 由 Lafferty, J.,McCallum, A.,& Pereira, F.在 Conditional random fields Probabilistic models for segmenting and labeling sequence data(條件隨機場用于切分和標注序列數(shù)據(jù)的概率模型),Proc. ICML(2001)中提出。該文獻通過這里的引用全文結(jié)合到本申請文件中。當然也可以利用其他任何分類器,例如最大熵馬爾科夫模型(Maximum Entropy Markov Model),支持向量機(Support Vector Machine)等。第二實施方式根據(jù)本實施方式,可以在對網(wǎng)頁節(jié)點序列進行分類之前先對節(jié)點進行粗過濾,以去除明顯的噪聲節(jié)點,從而提高分類時的效率。顯然,這個去除噪聲節(jié)點的步驟可以對網(wǎng)頁轉(zhuǎn)換(步驟204)之后獲得的網(wǎng)頁節(jié)點序列(步驟206)進行(未圖示),也可以直接對網(wǎng)頁轉(zhuǎn)換(步驟204)之前的網(wǎng)頁(202)也就是尚未序列化的DOM樹中的節(jié)點進行(未圖示)。圖3所示的情況是去除噪聲節(jié)點(步驟212)與網(wǎng)頁轉(zhuǎn)換(步驟204)同時進行的情況,即在序列化的同時消除噪聲節(jié)點。這兩個步驟甚至完全可以結(jié)合在一起(未圖示),即在遍歷的同時對遍歷到的節(jié)點進行過濾,如果是噪聲節(jié)點則舍棄,如果不是噪聲節(jié)點則納入網(wǎng)頁節(jié)點序列當中,最后得到已經(jīng)消除了噪聲節(jié)點的網(wǎng)頁節(jié)點序列。
根據(jù)具體應用場景,對噪聲節(jié)點的過濾可以采用各種各樣的標準來判斷是否噪聲節(jié)點。而本申請人發(fā)現(xiàn),相對于要獲取的文本內(nèi)容而言,噪聲主要在于各種鏈接(例如廣告)和表單等。因此,本申請人提出利用取決于下述因素中的至少一個的指標來去除噪聲節(jié)點節(jié)點內(nèi)的字符數(shù);節(jié)點內(nèi)的鏈接個數(shù);表單節(jié)點中的字符數(shù)。這些指標可以是節(jié)點內(nèi)字符數(shù)、節(jié)點內(nèi)鏈接個數(shù)、表單節(jié)點中的字符數(shù)本身,也可以是基于這幾個因素衍生的其他指標,例如比值。圖3就圖示了一個利用所述指標來濾除噪聲節(jié)點的具體示例。如圖3所示,分別設置了網(wǎng)頁節(jié)點內(nèi)字符數(shù)閾值Tl、網(wǎng)頁節(jié)點內(nèi)鏈接數(shù)第一閾值 T2、網(wǎng)頁節(jié)點內(nèi)鏈接數(shù)第二閾值T4、表單字符比(節(jié)點內(nèi)字符數(shù)與節(jié)點內(nèi)所有表單節(jié)點字符數(shù)之比)閾值T3以及字符鏈接比(節(jié)點內(nèi)字符數(shù)與節(jié)點內(nèi)鏈接數(shù)之比)閾值T5。請注意,這里的所謂“節(jié)點內(nèi)”,是指當前節(jié)點及其所有子節(jié)點。當網(wǎng)頁節(jié)點402內(nèi)字符數(shù)超過閾值Tl時(步驟404),進一步判斷節(jié)點內(nèi)鏈接數(shù)是否大于閾值T4 (T4例如為0)(步驟412), 若否,即節(jié)點內(nèi)鏈接數(shù)很少或者沒有(T4 = 0時),則可判定網(wǎng)頁節(jié)點為文本節(jié)點(步驟 422);若是,則進一步判斷字符鏈接比是否小于閾值Τ5,若否,則判斷網(wǎng)頁節(jié)點為文本節(jié)點 (步驟422);若是,則判斷網(wǎng)頁節(jié)點為鏈接文本節(jié)點(步驟424),即內(nèi)容文本中含有鏈接。 同時,如果節(jié)點內(nèi)鏈接數(shù)大于0但是小于閾值Τ2(步驟410),而節(jié)點內(nèi)字符鏈接比小于閾值Τ5(步驟420),則也判定節(jié)點為鏈接文本節(jié)點(步驟424)。另外,如果節(jié)點內(nèi)鏈接數(shù)大于閾值Τ2(步驟406),則判定節(jié)點為鏈接節(jié)點(步驟414)。最后,如果節(jié)點內(nèi)的表單字符比大于閾值Τ3,則判定節(jié)點為表單節(jié)點(步驟416)。這樣,就可以將鏈接節(jié)點和表單節(jié)點作為噪聲節(jié)點濾除,而將文本節(jié)點和鏈接文本節(jié)點作為內(nèi)容節(jié)點順序輸出而形成線性網(wǎng)頁節(jié)點序列。這樣,在轉(zhuǎn)換為網(wǎng)頁節(jié)點序列的同時濾除了噪聲節(jié)點,提高了網(wǎng)頁轉(zhuǎn)換和噪聲濾除的效率,并有利于分類步驟的準確分類。第三實施方式對于第一、第二實施方式中的分類步驟208,可以采用任何分類器,使用任何特征。 在第三實施方式中,本申請人提出了更加適合網(wǎng)頁節(jié)點類型識別的特征,并尤其適于使用 CRF模型。具體來說,在本實施方式中,申請人提出可以提取網(wǎng)頁節(jié)點的下述特征中的至少一個來對網(wǎng)頁節(jié)點進行分類反映網(wǎng)頁節(jié)點中的字符數(shù)量的量化特征(Quantity feature),反映節(jié)點中的字符類型的符號特征(Sign feature)以及反映節(jié)點的版面布局的 Κ 1 # Π: (Layout feature)。每類特征分別可以包含多種特征,下表即為一個示例
權利要求
1.一種識別網(wǎng)頁節(jié)點類型的方法,包括 將網(wǎng)頁轉(zhuǎn)換為網(wǎng)頁節(jié)點的序列;利用適于序列化對象的分類器對所述序列中的網(wǎng)頁節(jié)點進行分類,獲得網(wǎng)頁節(jié)點的候選類型。
2.如權利要求1所述的方法,其中,將所述網(wǎng)頁轉(zhuǎn)換為網(wǎng)頁節(jié)點的序列包括通過遍歷從所述網(wǎng)頁得到的文檔對象模型樹來將所述網(wǎng)頁轉(zhuǎn)換為網(wǎng)頁節(jié)點的序列。
3.如權利要求1所述的方法,在對所述序列中的網(wǎng)頁節(jié)點進行分類之前還包括去除噪聲節(jié)點。
4.如權利要求3所述的方法,其中,去除噪聲節(jié)點包括基于取決于下述因素中的至少一個的指標來去除噪聲節(jié)點節(jié)點內(nèi)的字符數(shù);節(jié)點內(nèi)的鏈接個數(shù);表單節(jié)點中的字符數(shù)。
5.一種識別網(wǎng)頁節(jié)點類型的裝置,包括網(wǎng)頁轉(zhuǎn)換器,將網(wǎng)頁轉(zhuǎn)換為網(wǎng)頁節(jié)點的序列;適于序列化對象的分類器,對所述序列中的網(wǎng)頁節(jié)點進行分類,獲得網(wǎng)頁節(jié)點的候選類型。
6.如權利要求5所述的裝置,其中,所述網(wǎng)頁轉(zhuǎn)換器被配置為通過遍歷從所述網(wǎng)頁得到的文檔對象模型樹來將所述網(wǎng)頁轉(zhuǎn)換為網(wǎng)頁節(jié)點的序列。
7.如權利要求5所述的裝置,還包括節(jié)點過濾器,在對所述序列中的網(wǎng)頁節(jié)點進行分類之前去除噪聲節(jié)點。
8.如權利要求7所述的裝置,其中,所述節(jié)點過濾器被配置為基于取決于下述因素中的至少一個的指標來去除噪聲節(jié)點節(jié)點內(nèi)的字符數(shù);節(jié)點內(nèi)的鏈接個數(shù);表單節(jié)點中的字符數(shù)。
9.如權利要求5-8之一所述的裝置,其中,所述分類器被配置為通過提取網(wǎng)頁節(jié)點的下述特征中的至少一個來對網(wǎng)頁節(jié)點進行分類反映網(wǎng)頁節(jié)點中的字符數(shù)量的量化特征, 反映節(jié)點中的字符類型的符號特征以及反映節(jié)點的版面布局的版面特征。
10.如權利要求9所述的裝置,其中,所述分類器使用條件隨機場算法、最大熵馬爾科夫模型或者支持向量機。
全文摘要
本發(fā)明涉及一種識別網(wǎng)頁節(jié)點類型的方法和裝置。其中,將網(wǎng)頁轉(zhuǎn)換為網(wǎng)頁節(jié)點的序列,并利用適于序列化對象的分類器對所述序列中的網(wǎng)頁節(jié)點進行分類,從而獲得網(wǎng)頁節(jié)點的候選類型。根據(jù)本發(fā)明的實施方式,能夠識別網(wǎng)頁節(jié)點的類型,從而有助于網(wǎng)頁內(nèi)容的抽取。
文檔編號G06F17/30GK102375829SQ201010254598
公開日2012年3月14日 申請日期2010年8月13日 優(yōu)先權日2010年8月13日
發(fā)明者于浩, 付雷, 夏迎炬, 孟遙 申請人:富士通株式會社