基于最大文本密度的網(wǎng)頁正文抽取方法【專利摘要】本發(fā)明涉及一種基于最大文本密度的網(wǎng)頁正文提取方法,其具體步驟如下:步驟一、網(wǎng)頁預(yù)處理:處理字符編碼、網(wǎng)頁規(guī)范化;步驟二、將網(wǎng)頁解析成一棵DOM樹,并根據(jù)特定標(biāo)簽,將網(wǎng)頁中的“標(biāo)簽文本塊”抽取出來;步驟三,計算最大文本密度;步驟四,抽取正文;待所有標(biāo)簽文本塊都處理完畢后,按照計算出的文本密度進行排序,選取文本密度值最大的標(biāo)簽,此標(biāo)簽及其嵌套的子標(biāo)簽的內(nèi)容即是正文文本塊,去標(biāo)簽之后得到正文文本。本發(fā)明是基于統(tǒng)計的使用最大文本密度的網(wǎng)頁正文提取算法,其算法復(fù)雜度低,具有普適性,而且對于結(jié)構(gòu)復(fù)雜的網(wǎng)頁也有不錯的效果?!緦@f明】基于最大文本密度的網(wǎng)頁正文抽取方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及基于互聯(lián)網(wǎng)的信息處理,為網(wǎng)絡(luò)信息抽取及應(yīng)用?!?br>背景技術(shù):
】[0002]隨著時代的發(fā)展,萬維網(wǎng)已經(jīng)成為人們獲取信息的一個重要來源。用戶通常使用瀏覽器直接查看網(wǎng)頁,此外,還有許多基于互聯(lián)網(wǎng)的信息處理工作(如信息搜索、數(shù)據(jù)挖掘、機器翻譯等),也是以網(wǎng)頁的信息內(nèi)容為基礎(chǔ)數(shù)據(jù)來進行開展的。但是,現(xiàn)在互聯(lián)網(wǎng)上的網(wǎng)頁的正文信息經(jīng)常被廣告鏈接、導(dǎo)航條、版權(quán)信息等“網(wǎng)頁噪音”所包圍。如何準(zhǔn)確、高效地提取網(wǎng)頁的正文信息已經(jīng)成為當(dāng)前網(wǎng)絡(luò)信息抽取及應(yīng)用的一個重要課題,具有很高的應(yīng)用價值和實踐意義。[0003]目前,關(guān)于網(wǎng)頁正文提取的方法主要可以分為基于統(tǒng)計、基于DOM結(jié)構(gòu)、基于網(wǎng)頁分塊以及基于模版等方法。[0004]基于統(tǒng)計的網(wǎng)頁正文抽取方法,通過尋找包含中文字符數(shù)量最大的節(jié)點,來提取網(wǎng)頁正文,實現(xiàn)簡單,而且不需要樣本學(xué)習(xí),能大大提高正文抽取的速度。基于DOM的Web抽取技術(shù),是將網(wǎng)頁中某些具有意義的特定標(biāo)簽提取出來,將HTML文檔表示成一個DOM樹的結(jié)構(gòu),再根據(jù)這些特定標(biāo)簽來提取出樹中有效的節(jié)點數(shù)據(jù)?;诰W(wǎng)頁分塊的方法是將呈現(xiàn)給用戶的Web頁面劃分成幾個語義塊,分析每個塊在這個頁面的重要程度,來找出網(wǎng)頁的正文內(nèi)容?;谀0娴姆椒ㄊ且环N傳統(tǒng)的網(wǎng)頁抽取方法,這種方法使用包裝器或網(wǎng)頁模版規(guī)則將符合規(guī)則的信息從網(wǎng)頁信息源中提取出來。[0005]針對搜索引擎需要自動生成網(wǎng)頁摘要的功能要求,面對互聯(lián)網(wǎng)中多樣化、復(fù)雜化、非規(guī)范化的網(wǎng)頁構(gòu)成形式,需要一個具有通用性的網(wǎng)頁正文提取算法。而已有的上述方法不能夠很好的適應(yīng)這種環(huán)境要求?;诮y(tǒng)計的方法具有一定的普遍性,但現(xiàn)有的方法準(zhǔn)確率有限?;贒OM結(jié)構(gòu)和基于網(wǎng)頁分塊的方法主要是對HTML標(biāo)簽進行分析,而現(xiàn)在網(wǎng)頁趨于復(fù)雜化和非規(guī)范化,簡單地通過HTML語義來解讀網(wǎng)頁內(nèi)容在很多情況下不適用?;谀0娴姆椒ㄖ荒茚槍δ骋活愄囟ǜ袷叫畔⒃?,而構(gòu)建它所需的信息模式識別知識的獲取是一個費時費力的工作,目前互聯(lián)網(wǎng)網(wǎng)頁越來越多樣化和可定制化,這種方法不具備通用性?!?br/>發(fā)明內(nèi)容】[0006]網(wǎng)頁是由各式各樣的文本構(gòu)成的,按網(wǎng)頁標(biāo)記劃分,有內(nèi)容文本、腳本文本、錨文本、標(biāo)簽文本等;而內(nèi)容文本中,從作用上來看,網(wǎng)頁上的文字主要有兩種:正文內(nèi)容、無關(guān)內(nèi)容。正文內(nèi)容:用戶瀏覽一個頁面所要獲取的主要信息。無關(guān)內(nèi)容:經(jīng)常用于標(biāo)識網(wǎng)站功能的詞語,與網(wǎng)頁正文內(nèi)容無關(guān),如“版權(quán)”、“聲明”、“搜索”、“首頁”、“幫助”等。一般我們認(rèn)為導(dǎo)航條上的文字、相關(guān)鏈接上的文字都屬于無關(guān)文字。這些不同類型的文本組合在一起,構(gòu)成了內(nèi)容豐富的網(wǎng)頁,而將這些文字區(qū)別開來,分析它們在標(biāo)簽文本塊中的比例,就形成了文本密度值。發(fā)現(xiàn),文本密度值對網(wǎng)頁正文的提取具有重要意義,利用它們,可以有效地消除網(wǎng)頁噪音,精確地識別出正文文本。[0007]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,更加精準(zhǔn)的提取網(wǎng)頁正文。通過對大量的網(wǎng)頁代碼的觀察發(fā)現(xiàn),正文文本中往往只包含少量的HTML代碼,而噪聲文本往往包含大量的超鏈接,或者是被各種HTML標(biāo)簽分割。根據(jù)這種特性,本文提出一種根據(jù)文本密度來提取網(wǎng)頁正文段的思想。[0008]本發(fā)明技術(shù)方案表征為:一種基于最大文本密度的網(wǎng)頁正文提取方法,其具體步驟如下:步驟一、網(wǎng)頁預(yù)處理:(I)處理字符編碼設(shè)定編碼方式GBK(包含簡體中文和繁體中文)、BG2312(簡體中文)、BIG-5(繁體中文)、UTF-8,UTF-16、UNICODE。在HTML文檔里,編碼方式是這樣定義的:<html>〈head〉<metacontent=’text/html’;charset=’GBK’>〈/head〉</html>charset屬性定義了網(wǎng)頁的編碼方式。為了防止網(wǎng)頁出現(xiàn)亂碼,在網(wǎng)頁預(yù)處理階段,將獲取的網(wǎng)頁文件的默認(rèn)編碼轉(zhuǎn)為UTF-8字符編碼,如果不能從網(wǎng)頁中獲取相關(guān)編碼信息,就對其進行強制轉(zhuǎn)換為UTF-8字符編碼。[0009](2)網(wǎng)頁規(guī)范化根據(jù)HTML文檔的基本語法要求,確保關(guān)閉打開的標(biāo)簽、所有的屬性值必須用雙引號括起來、完成特殊字符的轉(zhuǎn)義三種情況。[0010]步驟二、將網(wǎng)頁解析成一棵DOM樹,并根據(jù)特定標(biāo)簽,將網(wǎng)頁中的“標(biāo)簽文本塊”抽取出來。[0011](I)定義I(標(biāo)簽文本塊)在網(wǎng)頁的DOM樹中,容器標(biāo)簽如<div>、〈table〉、<tr>、<td>、<th>、<ul>、<li>、<dl>、<dt>、<dd>、等之間的文本內(nèi)容(不包含標(biāo)簽本身)成為一個“標(biāo)簽文本塊”,標(biāo)簽文本塊之間可嵌套,即一個標(biāo)簽文本塊內(nèi)可包含若干個子標(biāo)簽文本塊。把含有正文內(nèi)容的標(biāo)簽文本塊稱為正文文本塊,將不含有正文內(nèi)容的標(biāo)簽文本塊稱為噪音文本塊。[0012](2)刪除網(wǎng)頁中與正文抽取不相關(guān)的信息經(jīng)過對大量網(wǎng)頁的分析后,發(fā)現(xiàn)網(wǎng)頁的正文部分往往位于<div>、〈table〉或者〈tbody〉、〈P〉等此類標(biāo)記中,因此,刪除網(wǎng)頁中與正文抽取不相關(guān)的信息如:注釋、JavaScript代碼等等,以便下一步的提取工作。[0013](3)對每個標(biāo)簽文本塊進行分析,判斷其是否屬于正文內(nèi)容文本塊。[0014]定義2(文本密度值):在一個標(biāo)簽文本塊中,其中的文本在整個標(biāo)簽文本塊的長度(包括標(biāo)簽)所占的比值。判斷正文文本塊的算法中涉及到的文本密度Density,對于一個標(biāo)簽文本塊A來說,它的計算公式可表示為:【權(quán)利要求】1.一種基于最大文本密度的網(wǎng)頁正文提取方法,其具體步驟如下:步驟一、網(wǎng)頁預(yù)處理:處理字符編碼設(shè)定編碼方式GBK、BG2312、BIG-5、UTF-8、UTF-16、UNICODE;在HTML文檔里,編碼方式是這樣定義的:【文檔編號】G06F17/30GK103714176SQ201410007832【公開日】2014年4月9日申請日期:2014年1月8日優(yōu)先權(quán)日:2014年1月8日【發(fā)明者】蔣昌俊,陳閎中,閆春鋼,丁志軍,王鵬偉,何源,夏琳娟申請人:同濟大學(xué)