正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法及裝置,屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】。所述方法包括:根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn)得到數(shù)個(gè)分塊節(jié)點(diǎn);從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù);顯示網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。,網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)至少包括標(biāo)題、正文信息和正文。本發(fā)明通過采用上述方案能夠提供一種高效的提取并顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的技術(shù)方案。
【專利說明】正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別涉及一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法及裝置。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,如WWW網(wǎng)頁之類的網(wǎng)頁主要為個(gè)人計(jì)算機(jī)(Personal Computer ;PC)端的瀏覽器設(shè)計(jì)。隨著技術(shù)的發(fā)展及商業(yè)的驅(qū)動(dòng),近年來網(wǎng)頁越來越復(fù)雜,包含的內(nèi)容也越來越多,比如網(wǎng)頁中可以包含導(dǎo)航、文本、鏈接、廣告、JS等等各種復(fù)雜的內(nèi)容。
[0003]伴隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展以及如手機(jī)之類的移動(dòng)設(shè)備的普及使用,用戶可以隨時(shí)隨地的使用移動(dòng)設(shè)備上網(wǎng),因此,用戶在如手機(jī)之類的移動(dòng)設(shè)備上直接瀏覽網(wǎng)頁的需求越來越大。
[0004]在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:由于復(fù)雜的網(wǎng)頁的頁面通常無法直接被移動(dòng)設(shè)備的瀏覽器所支持,再加上移動(dòng)網(wǎng)絡(luò)以及移動(dòng)設(shè)備屏幕受限等客觀條件,為在移動(dòng)設(shè)備上顯示網(wǎng)頁帶來了一定的困難,使得用戶通常無法在移動(dòng)設(shè)備的瀏覽器上看到網(wǎng)頁的正文相關(guān)的信息。因此,現(xiàn)有技術(shù)中亟需提供一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方案,以能夠從網(wǎng)頁中提取并顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),從而能夠?qū)崿F(xiàn)在移動(dòng)設(shè)備的瀏覽器上顯示網(wǎng)頁中的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0005]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法及裝置、移動(dòng)設(shè)備。所述技術(shù)方案如下:
[0006]一方面,本發(fā)明實(shí)施例提供了一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法,所述方法包括:
[0007]根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);所述候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)所述網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;
[0008]濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn);
[0009]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文;
[0010]顯示所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
[0011]可選地,如上所述的方法中,根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn)之后,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之前,還包括:
[0012]當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中的所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為非候選分塊節(jié)點(diǎn)時(shí),將所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)整合為所述候選分塊節(jié)點(diǎn)的子節(jié)點(diǎn);和/或
[0013]當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中還包括有與所述候選分塊節(jié)點(diǎn)不相鄰的非候選分塊節(jié)點(diǎn)時(shí),將所述不相鄰的非候選分塊節(jié)點(diǎn)打包為所述候選分塊節(jié)點(diǎn)。
[0014]可選地,如上所述的方法中,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn),包括:
[0015]對(duì)于所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中的每個(gè)候選分塊節(jié)點(diǎn),判斷所述候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與所述候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例是否大于等于第一預(yù)設(shè)閾值;當(dāng)大于等于時(shí)將所述候選分塊節(jié)點(diǎn)作為所述分塊節(jié)點(diǎn),共得到所述數(shù)個(gè)分塊節(jié)點(diǎn);否則當(dāng)小于時(shí),濾除所述候選分塊節(jié)點(diǎn)。
[0016]可選地,如上所述的方法中,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,還包括:
[0017]對(duì)于所述數(shù)個(gè)分塊節(jié)點(diǎn)中的每個(gè)分塊節(jié)點(diǎn),刪除所述分塊節(jié)點(diǎn)中與所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)無關(guān)的子節(jié)點(diǎn)。
[0018]可選地,如上所述的方法中,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,還包括:
[0019]根據(jù)所述數(shù)個(gè)分塊節(jié)點(diǎn)在所述網(wǎng)頁的文檔對(duì)象模型樹中的位置,標(biāo)識(shí)所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系;
[0020]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)包括:結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
[0021]可選地,如上所述的方法中,結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),包括:
[0022]遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊;
[0023]結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文信息塊;
[0024]結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊。
[0025]可選地,如上所述的方法中,遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊,包括:
[0026]遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包含有Hn標(biāo)簽的塊;
[0027]判斷包含有Hn標(biāo)簽的塊中是否包括有所述網(wǎng)頁的頁面標(biāo)題;當(dāng)包含有Hn標(biāo)簽的塊中包括有所述網(wǎng)頁的頁面標(biāo)題時(shí),將包含有Hn標(biāo)簽的塊作為標(biāo)題塊。
[0028]可選地,如上所述的方法中,結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文信息塊,包括:
[0029]結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之后的預(yù)設(shè)距離范圍內(nèi)的子孫節(jié)點(diǎn)中獲取包含有正文信息參數(shù)的正文信息塊,所述正文信息參數(shù)包括發(fā)表時(shí)間、來源和作者;
[0030]結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊,包括:
[0031]結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊和所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取正文塊。
[0032]可選地,如上所述的方法中,所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中還包括二級(jí)導(dǎo)航塊、字體選擇塊、翻頁塊、相關(guān)文章塊、微薄分享塊、版權(quán)聲明塊和回復(fù)塊中的至少一種;
[0033]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),還包括如下至少一種:
[0034]結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之前的父輩節(jié)點(diǎn)中獲取包含有特定資符>且不包含句子的所述二級(jí)導(dǎo)航塊;
[0035]結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中位于所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取包含有字體選擇信息的所述字體選擇塊;
[0036]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有頁面指示信息的所述翻頁塊,所述頁面指示信息包括上一頁、下一頁和連續(xù)數(shù)字串中的至少一種;
[0037]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊,并當(dāng)所述鏈接標(biāo)題與所述網(wǎng)頁的頁面標(biāo)題的相似度大于等于第二預(yù)設(shè)閾值,且所述鏈接統(tǒng)一資源定位符與所述網(wǎng)頁的統(tǒng)一資源定位符的相似度大于等于第三預(yù)設(shè)閾值時(shí),確定所述包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊為所述相關(guān)文章塊;
[0038]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有微薄分享特征信息的所述微薄分享塊;
[0039]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有版權(quán)聲明特征信息的所述版權(quán)聲明塊;和
[0040]從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有回復(fù)特征信息的所述回復(fù)塊。
[0041]另一方面,本發(fā)明實(shí)施例提供了一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,所述裝置包括:
[0042]分塊處理模塊,用于根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);所述候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)所述網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;
[0043]濾除模塊,用于濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn);
[0044]數(shù)據(jù)提取模塊,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文;
[0045]顯示模塊,用于顯示所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
[0046]可選地,如上所述的裝置中,還包括:整合模塊,用于在所述分塊處理模塊根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn)之后,在所述濾除模塊濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之前,當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中的所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為非候選分塊節(jié)點(diǎn)時(shí),將所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)整合為所述候選分塊節(jié)點(diǎn)的子節(jié)點(diǎn);和/或打包模塊,用于當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中還包括有與所述候選分塊節(jié)點(diǎn)不相鄰的非候選分塊節(jié)點(diǎn)時(shí),將所述不相鄰的非候選分塊節(jié)點(diǎn)打包為所述候選分塊節(jié)點(diǎn)。
[0047]可選地,如上所述的裝置中,濾除模塊,具體用于對(duì)于所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中的每個(gè)候選分塊節(jié)點(diǎn),判斷所述候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與所述候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例是否大于等于第一預(yù)設(shè)閾值;當(dāng)大于等于時(shí)將所述候選分塊節(jié)點(diǎn)作為所述分塊節(jié)點(diǎn),共得到所述數(shù)個(gè)分塊節(jié)點(diǎn);否則當(dāng)小于時(shí),濾除所述候選分塊節(jié)點(diǎn)。
[0048]可選地,如上所述的裝置中,還包括:刪除模塊,用于在所述濾除模塊濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,所述數(shù)據(jù)提取模塊從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,對(duì)于所述數(shù)個(gè)分塊節(jié)點(diǎn)中的每個(gè)分塊節(jié)點(diǎn),刪除所述分塊節(jié)點(diǎn)中與所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)無關(guān)的子節(jié)點(diǎn)。
[0049]可選地,如上所述的裝置中,還包括標(biāo)識(shí)模塊;
[0050]所述標(biāo)識(shí)模塊,用于在所述濾除模塊濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,所述數(shù)據(jù)提取模塊從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,根據(jù)所述數(shù)個(gè)分塊節(jié)點(diǎn)在所述網(wǎng)頁的文檔對(duì)象模型樹中的位置,標(biāo)識(shí)所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系;
[0051]所述數(shù)據(jù)提取模塊,具體用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù);
[0052]可選地,如上所述的裝置中,所述數(shù)據(jù)提取模塊,包括:
[0053]標(biāo)題塊提取單元,用于遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊;
[0054]正文信息塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文信息塊;
[0055]正文塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊。
[0056]可選地,如上所述的裝置中,所述標(biāo)題塊提取單元,具體用于遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包含有Hn標(biāo)簽的塊;并判斷包含有Hn標(biāo)簽的塊中是否包括有所述網(wǎng)頁的頁面標(biāo)題;當(dāng)包含有Hn標(biāo)簽的塊中包括有所述網(wǎng)頁的頁面標(biāo)題時(shí),將包含有Hn標(biāo)簽的塊作為標(biāo)題塊。
[0057]可選地,如上所述的裝置中,所述正文信息塊提取單元,具體用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之后的預(yù)設(shè)距離范圍內(nèi)的子孫節(jié)點(diǎn)中獲取包含有正文信息參數(shù)的正文信息塊,所述正文信息參數(shù)包括發(fā)表時(shí)間、來源和作者;
[0058]所述正文塊提取單元,具體用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊和所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取正文塊。
[0059]可選地,如上所述的裝置中,所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中還包括二級(jí)導(dǎo)航塊、字體選擇塊、翻頁塊、相關(guān)文章塊、微薄分享塊、版權(quán)聲明塊和回復(fù)塊中的至少一種;
[0060]所述數(shù)據(jù)提取模塊,還包括如下至少一個(gè)單元:
[0061]二級(jí)導(dǎo)航塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之前的父輩節(jié)點(diǎn)中獲取包含有特定資符>且不包含句子的所述二級(jí)導(dǎo)航塊;
[0062]字體選擇塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中位于所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取包含有字體選擇信息的所述字體選擇塊;
[0063]翻頁塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有頁面指示信息的所述翻頁塊,所述頁面指示信息包括上一頁、下一頁和連續(xù)數(shù)字串中的至少一種;
[0064]相關(guān)文章塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊,并當(dāng)所述鏈接標(biāo)題與所述網(wǎng)頁的頁面標(biāo)題的相似度大于等于第二預(yù)設(shè)閾值,且所述鏈接統(tǒng)一資源定位符與所述網(wǎng)頁的統(tǒng)一資源定位符的相似度大于等于第三預(yù)設(shè)閾值時(shí),確定所述包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊為所述相關(guān)文章塊;
[0065]微薄分享塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有微薄分享特征信息的所述微薄分享塊;
[0066]版權(quán)聲明塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有版權(quán)聲明特征信息的所述版權(quán)聲明塊;和
[0067]回復(fù)塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有回復(fù)特征信息的所述回復(fù)塊。
[0068]本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
[0069]通過根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);該候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn);從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),本發(fā)明實(shí)施例中網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文;并顯示網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明實(shí)施例通過采用上述技術(shù)方案,能夠彌補(bǔ)現(xiàn)有技術(shù)的不足,提供一種從網(wǎng)頁中提取并顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的高效的技術(shù)方案。而且本發(fā)明實(shí)施例的技術(shù)方案,能夠適合任何網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的提取和顯示,在有效提取正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的同時(shí),避免提取廣告模塊,從而實(shí)現(xiàn)過濾正文中部分廣告的功能。再者本發(fā)明實(shí)施例的技術(shù)方案還能夠在提取出正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之后,并顯示該正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),能夠?yàn)橛脩籼峁┮环N清爽的閱讀體驗(yàn),以滿足移動(dòng)設(shè)備用戶的需求。
【專利附圖】
【附圖說明】
[0070]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0071]圖1為本發(fā)明實(shí)施例一提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法流程圖;
[0072]圖2為現(xiàn)有技術(shù)中的一個(gè)Wffff網(wǎng)頁;
[0073]圖3A-圖3C分別為對(duì)圖2所示的WWW網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理后的網(wǎng)頁;
[0074]圖4為本發(fā)明實(shí)施例二提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖;
[0075]圖5為本發(fā)明實(shí)施例三提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】[0076]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0077]實(shí)施例一
[0078]圖1為本發(fā)明實(shí)施例一提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法流程圖。如圖1所示,本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法的執(zhí)行主體具體可以為一正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置。本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法,具體可以包括如下步驟:
[0079]100、根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型(Document ObjectModel ;D0M)樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);
[0080]本實(shí)施例中候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;例如現(xiàn)有技術(shù)中存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽可以為DIV標(biāo)簽或者TABLE標(biāo)簽,此時(shí)對(duì)應(yīng)的用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型可以稱為DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)。但是隨著技術(shù)的發(fā)展,將來還有可能采用其他類型的節(jié)點(diǎn)存儲(chǔ)網(wǎng)頁的正文,因此本發(fā)明實(shí)施例中用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型包括但不限制于僅包括DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)。
[0081]101、濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn);
[0082]102、從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù);
[0083]103、顯示網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
[0084]本實(shí)施例的網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文。
[0085]本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法,通過根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的DOM樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);該候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn);從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),本實(shí)施例中網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文;并顯示網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。本實(shí)施例通過采用上述技術(shù)方案,能夠彌補(bǔ)現(xiàn)有技術(shù)的不足,提供一種從網(wǎng)頁中提取并顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的高效的技術(shù)方案。而且本實(shí)施例的技術(shù)方案,能夠適合任何網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的提取和顯示,在有效提取正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的同時(shí),避免提取廣告塊,從而實(shí)現(xiàn)過濾正文中部分廣告的功能。再者本實(shí)施例的技術(shù)方案還能夠在提取出正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之后,,并顯示該正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),能夠?yàn)橛脩籼峁┮环N清爽的閱讀體驗(yàn),以滿足移動(dòng)設(shè)備用戶的需求。
[0086]需要說明的是,現(xiàn)有技術(shù)中還提供有一種利用包裝器(Wrapper)來抽取網(wǎng)頁中感興趣的內(nèi)容。它根據(jù)一定的信息模式識(shí)別知識(shí)從特定的信息源中抽取相關(guān)內(nèi)容,并以特定形式表示。但是由于網(wǎng)頁結(jié)構(gòu)的復(fù)雜性及不規(guī)范性,一個(gè)包裝器的實(shí)現(xiàn)一般只能針對(duì)一個(gè)信息源即一個(gè)網(wǎng)頁,另外獲取信息模式識(shí)別知識(shí)也是一個(gè)費(fèi)時(shí)和人工的過程。與該現(xiàn)有技術(shù)相比,本實(shí)施例的技術(shù)方案能夠適用于所有網(wǎng)頁,不需要對(duì)不同的網(wǎng)頁設(shè)置不同的包裝器,能夠有效地節(jié)省包裝器的使用以及維護(hù)成本。
[0087]可選地,在上述圖1所示實(shí)施例的基礎(chǔ)上,其中的步驟100 “對(duì)網(wǎng)頁的DOM樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn)”之后,步驟101 “濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)”之前,還可以包括如下步驟(I)和/或(2):
[0088](I)當(dāng)網(wǎng)頁的DOM樹中的候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為非候選分塊節(jié)點(diǎn)時(shí),將候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)整合為候選分塊節(jié)點(diǎn)的子節(jié)點(diǎn);本實(shí)施例中的非候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型之外的其他節(jié)點(diǎn)類型;
[0089]本實(shí)施例中網(wǎng)頁的DOM與網(wǎng)頁的超文本標(biāo)記語言(HyperText Markup Language ;HTML)標(biāo)簽相對(duì)應(yīng),DOM樹中的每個(gè)節(jié)點(diǎn)與HTML標(biāo)簽中的一個(gè)標(biāo)簽對(duì)應(yīng),DOM與HTML標(biāo)簽兩者采用不同的方式來表示網(wǎng)頁的內(nèi)容。為便于描述下述實(shí)施例均以候選分塊節(jié)點(diǎn)為DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)為例描述本發(fā)明的技術(shù)方案。
[0090]本發(fā)明實(shí)施例中的相鄰節(jié)點(diǎn)即指的是屬于同一父節(jié)點(diǎn)的兄弟節(jié)點(diǎn)。此處的候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)即指的是與該候選節(jié)點(diǎn)屬于同一父節(jié)點(diǎn)節(jié)點(diǎn)、與該候選節(jié)點(diǎn)可以稱之為兄弟節(jié)點(diǎn)的一些節(jié)點(diǎn)。
[0091]仍以候選分塊節(jié)點(diǎn)為DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)為例,由于步驟(I)已經(jīng)將網(wǎng)頁的DOM樹中的DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)劃分出來,但是,由于DOM樹中還會(huì)存在除DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)之外的其他節(jié)點(diǎn),例如DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)的相鄰節(jié)點(diǎn)類型可以為P節(jié)點(diǎn)、OBJECT節(jié)點(diǎn)或者SCRIPT節(jié)點(diǎn)等等其他類型的節(jié)點(diǎn),此時(shí)可以將DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)的相鄰節(jié)點(diǎn)整合至DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)中,作為DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)的子節(jié)點(diǎn)。
[0092](2)當(dāng)網(wǎng)頁的DOM樹中還包括有與候選分塊節(jié)點(diǎn)不相鄰的非候選分塊節(jié)點(diǎn)時(shí),將不相鄰的非候選分塊節(jié)點(diǎn)打包為候選分塊節(jié)點(diǎn)。
[0093]該步驟(2)用于當(dāng)網(wǎng)頁的DOM樹中還存在不與DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)相鄰的其他類型的節(jié)點(diǎn),如P節(jié)點(diǎn)、OBJECT節(jié)點(diǎn)或者SCRIPT節(jié)點(diǎn)。此時(shí)可以將其他類型的節(jié)點(diǎn)打包為候選分塊節(jié)點(diǎn)的類型,即用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型如DIV節(jié)點(diǎn)或者TABLE節(jié)點(diǎn)。
[0094]經(jīng)上述分塊處理之后,將DOM樹處理為僅包括DIV節(jié)點(diǎn)和/或者TABLE節(jié)點(diǎn)。當(dāng)分塊處理之后的DOM樹中包括兩類用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型,如既包括DIV節(jié)點(diǎn),又包括TABLE節(jié)點(diǎn),此時(shí)可以定義兩類節(jié)點(diǎn)中一類為主標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn),在后續(xù)步驟中標(biāo)識(shí)數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系可以參考主標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)進(jìn)行。例如可以取兩類節(jié)點(diǎn)中節(jié)點(diǎn)數(shù)目較多的一類作為主標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)。
[0095]進(jìn)一步可選地,在上述圖1所示實(shí)施例的基礎(chǔ)上,其中步驟101 “濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)”,具體可以包括:對(duì)于數(shù)個(gè)候選分塊節(jié)點(diǎn)中的每個(gè)候選分塊節(jié)點(diǎn),判斷候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例是否大于等于第一預(yù)設(shè)閾值;當(dāng)大于等于時(shí)將候選分塊節(jié)點(diǎn)作為分塊節(jié)點(diǎn),共得到數(shù)個(gè)分塊節(jié)點(diǎn);否則當(dāng)小于時(shí),濾除候選分塊節(jié)點(diǎn)。
[0096]本實(shí)施例中,當(dāng)候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例小于第一預(yù)設(shè)閾值時(shí),可以認(rèn)為該候選分塊節(jié)點(diǎn)用于存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值,此時(shí)可以濾除該候選分塊節(jié)點(diǎn);否則當(dāng)候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例大于等于第一預(yù)設(shè)閾值時(shí),可以認(rèn)為該候選分塊節(jié)點(diǎn)用于存儲(chǔ)網(wǎng)頁的正文的概率大于等于預(yù)設(shè)概率閾值,此時(shí)可以濾除該候選分塊節(jié)點(diǎn)。本實(shí)施例中的預(yù)設(shè)概率閾值即對(duì)應(yīng)候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例等于第一預(yù)設(shè)閾值的情況。本實(shí)施例中的第一預(yù)設(shè)閾值可以根據(jù)實(shí)際情況從0-1中選取,例如可以取0.65。
[0097]例如上述步驟101在實(shí)現(xiàn)的時(shí)候,可以先對(duì)數(shù)個(gè)候選分塊節(jié)點(diǎn)中位于DOM樹的最底層的候選分塊節(jié)點(diǎn)進(jìn)行處理,將DOM樹中最底層的候選分塊節(jié)點(diǎn)取出放入一個(gè)隊(duì)列中,按照上述操作進(jìn)行濾除處理,對(duì)這一層處理完畢,向DOM樹的頂層方向再取出一層候選分塊節(jié)點(diǎn)進(jìn)行濾除操作,這樣按照由DOM底層向頂層的方向逐層處理,在同一層可以按照從左到右的順序依次處理,直到對(duì)所有候選分塊節(jié)點(diǎn)進(jìn)行處理,可以對(duì)數(shù)個(gè)候選分塊節(jié)點(diǎn)進(jìn)行濾除操作得到數(shù)個(gè)分塊節(jié)點(diǎn)。
[0098]可選地,在上述圖1所示實(shí)施例的基礎(chǔ)上,其中步驟101 “濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)”之后,步驟102 “從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)”之前,其方法還包括:,本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法還可以包括:對(duì)于數(shù)個(gè)分塊節(jié)點(diǎn)中的每個(gè)分塊節(jié)點(diǎn),刪除分塊節(jié)點(diǎn)中與網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)無關(guān)的子節(jié)點(diǎn)。例如對(duì)于如DIV節(jié)點(diǎn)中還包括=SCRIPT節(jié)點(diǎn)和OBJECT節(jié)點(diǎn)之類的子節(jié)點(diǎn),根據(jù)現(xiàn)有技術(shù)可以知道這些節(jié)點(diǎn)與網(wǎng)頁的正文的結(jié)構(gòu)化數(shù)據(jù)無關(guān),此時(shí)可以直接將這些子節(jié)點(diǎn)刪除。經(jīng)過上述步驟100和101的處理,這些子節(jié)點(diǎn)應(yīng)該位于分塊節(jié)點(diǎn)之中,該步驟直接將這些無關(guān)子節(jié)點(diǎn)刪除,可以減少分塊節(jié)點(diǎn)的內(nèi)容,提高后續(xù)抽取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的效率。
[0099]進(jìn)一步可選地,在上述圖1所示實(shí)施例的基礎(chǔ)上,其中步驟101 “濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)”之后,102 “從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)”之前,其方法還包括:根據(jù)數(shù)個(gè)分塊節(jié)點(diǎn)在所述網(wǎng)頁的文檔對(duì)象模型樹中的位置,標(biāo)識(shí)數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系;例如可以根據(jù)數(shù)個(gè)分塊節(jié)點(diǎn)在網(wǎng)頁的DOM樹中的深度以及各分塊節(jié)點(diǎn)之間的關(guān)系(如父子關(guān)系或者兄弟關(guān)系等等),可以按照DOM樹中從頂?shù)降椎捻樞驅(qū)?shù)個(gè)分塊節(jié)點(diǎn)進(jìn)行排序,并標(biāo)識(shí)數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系。例如數(shù)據(jù)分塊節(jié)點(diǎn)中的分塊節(jié)點(diǎn)A和分塊節(jié)點(diǎn)B,若在DOM樹中,分塊節(jié)點(diǎn)B為分塊節(jié)點(diǎn)A的一個(gè)子孫節(jié)點(diǎn),但是在數(shù)據(jù)分塊節(jié)點(diǎn)中不存在DOM樹中屬于分塊節(jié)點(diǎn)A的子孫節(jié)點(diǎn),同時(shí)又屬于分塊節(jié)點(diǎn)B的父輩節(jié)點(diǎn)的其他節(jié)點(diǎn),此時(shí)在數(shù)個(gè)分塊節(jié)點(diǎn)中,將分塊節(jié)點(diǎn)B標(biāo)識(shí)為分塊節(jié)點(diǎn)A的子節(jié)點(diǎn)。
[0100]此時(shí)對(duì)應(yīng)的步驟102 “從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)”具體可以包括:“結(jié)合數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)”。該步驟具體可以包括:
[0101](a)遍歷數(shù)個(gè)分塊節(jié)點(diǎn),從數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊;
[0102]例如,具體可以包括:遍歷數(shù)個(gè)分塊節(jié)點(diǎn),從數(shù)個(gè)分塊節(jié)點(diǎn)中提取包含有Hn標(biāo)簽的塊;判斷包含有Hn標(biāo)簽的塊中是否包括有網(wǎng)頁的頁面標(biāo)題;當(dāng)包含有Hn標(biāo)簽的塊中包括有網(wǎng)頁的頁面標(biāo)題時(shí),將包含有Hn標(biāo)簽的塊作為標(biāo)題塊。
[0103](b)結(jié)合數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文信息塊;
[0104]例如,具體可以包括:結(jié)合數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中標(biāo)題塊之后的子孫節(jié)點(diǎn)中預(yù)設(shè)距離范圍內(nèi)的子孫節(jié)點(diǎn)中獲取包含有正文信息參數(shù)的正文信息塊,正文信息參數(shù)包括發(fā)表時(shí)間、來源和作者。
[0105](c)結(jié)合數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊。
[0106]例如,具體可以包括:結(jié)合數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中標(biāo)題塊和正文信息塊之后的子孫節(jié)點(diǎn)中獲取正文塊。
[0107]其中正文塊包含的正文內(nèi)容較多的時(shí)候,正文塊可以有多個(gè),當(dāng)有多個(gè)正文塊的時(shí)候,多個(gè)正文塊可以位于一個(gè)分塊節(jié)點(diǎn)中,也可以位于多個(gè)分塊節(jié)點(diǎn)中。
[0108]需要說明的是,根據(jù)移動(dòng)設(shè)備的用戶的需求不同,本發(fā)明實(shí)施例中的網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中還包括二級(jí)導(dǎo)航塊、字體選擇塊、翻頁塊、相關(guān)文章塊、微薄分享塊、版權(quán)聲明塊和回復(fù)塊中的至少一種。具體地,上述這些塊具體都位于某一個(gè)或者多個(gè)分塊節(jié)點(diǎn)中。
[0109]此時(shí)對(duì)應(yīng)的步驟102 “從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)”,還包括如下至少一種:
[0110](i)結(jié)合數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中標(biāo)題塊之前的父輩節(jié)點(diǎn)中獲取包含有特定資符>且不包含句子的二級(jí)導(dǎo)航塊;
[0111](ii)結(jié)合數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中位于正文信息塊之后的子孫節(jié)點(diǎn)中獲取包含有字體選擇信息的字體選擇塊;
[0112](iii)從數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有頁面指示信息的翻頁塊,頁面指示信息包括上一頁、下一頁和連續(xù)數(shù)字串中的至少一種;
[0113](iv)從數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊,并當(dāng)鏈接標(biāo)題與網(wǎng)頁的頁面標(biāo)題的相似度大于等于第二預(yù)設(shè)閾值,且鏈接統(tǒng)一資源定位符(Uniform Resource Locator ;URL)與網(wǎng)頁的URL的相似度大于等于第三預(yù)設(shè)閾值時(shí),確定包括有鏈接標(biāo)題和鏈接URL的塊為相關(guān)文章塊;
[0114](V)從數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有微薄分享特征信息的微薄分享塊;
[0115](Vi)從數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有版權(quán)聲明特征信息的版權(quán)聲明塊;和
[0116](Vii)從數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有回復(fù)特征信息的回復(fù)塊。
[0117]上述這些塊都有一定的特征信息,詳細(xì)可以參考相關(guān)現(xiàn)有技術(shù),在此不再贅述。
[0118]且上述各個(gè)塊都有一定的位置信息,還可以利用各個(gè)塊的位置信息對(duì)已提取的塊進(jìn)行驗(yàn)證,當(dāng)驗(yàn)證確定已提取的塊有誤,可以采用上述方式進(jìn)行重新提取。
[0119]上述所有可選技術(shù)方案可以采用可以結(jié)合的方式任意結(jié)合構(gòu)成本發(fā)明實(shí)施例的可選實(shí)施例,在此不再一一舉例說明。
[0120]上述實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法,能夠彌補(bǔ)現(xiàn)有技術(shù)的不足,提供一種從網(wǎng)頁中提取并顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的高效的技術(shù)方案。而且本實(shí)施例的技術(shù)方案,能夠適合任何網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的提取和顯示,在有效提取正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的同時(shí),避免提取廣告模塊,從而實(shí)現(xiàn)過濾正文中部分廣告的功能。再者本實(shí)施例的技術(shù)方案還能夠在提取出正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之后,并顯示該正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),能夠?yàn)橛脩籼峁┮环N清爽的閱讀體驗(yàn),以滿足移動(dòng)設(shè)備用戶的需求。
[0121]上述實(shí)施例的步驟100-102實(shí)現(xiàn)正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的提取,步驟103實(shí)現(xiàn)正文相關(guān)的結(jié)構(gòu)樹數(shù)據(jù)的顯示。上述實(shí)施例的各方法步驟的全部或部分步驟可以通過軟件程序來實(shí)現(xiàn),或者也可以通過軟件程序指令相關(guān)的硬件來完成。
[0122]例如圖2為現(xiàn)有技術(shù)中的一個(gè)WWW網(wǎng)頁。根據(jù)上述本發(fā)明實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法對(duì)圖2所示的WWW網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理,可以得到如圖3A-圖3C所示為對(duì)圖2所示的網(wǎng)頁進(jìn)行正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)處理后的顯示的網(wǎng)頁。
[0123]如圖2和圖3A,圖3B和圖3C所示,可以知道,采用上述實(shí)施例的技術(shù)方案能夠在提取出正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之后,可以對(duì)網(wǎng)頁進(jìn)行重排版并顯示,能夠?yàn)橛脩籼峁┮环N清爽的閱讀體驗(yàn),以滿足移動(dòng)設(shè)備用戶的需求。
[0124]根據(jù)上述實(shí)施例的記載,上述實(shí)施例中各步驟可以在移動(dòng)設(shè)備的瀏覽器上來實(shí)現(xiàn),其中實(shí)現(xiàn)正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)提取的各步驟可以通過一個(gè)加載在瀏覽器上的插件或者工具來實(shí)現(xiàn),顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的功能可以在瀏覽器上來實(shí)現(xiàn)。
[0125]實(shí)施例二
[0126]圖4為本發(fā)明實(shí)施例二提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖。如圖4所示,本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,具體可以包括:分塊處理模塊
10、濾除模塊11、數(shù)據(jù)提取模塊12和顯示模塊13。
[0127]其中分塊處理模塊10用于根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的DOM樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);該候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;濾除模塊11與分塊處理模塊10連接,濾除模塊11用于濾除分塊處理模塊10處理得到的數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)數(shù)據(jù)提取模塊12與濾除模塊11連接,數(shù)據(jù)提取模塊12用于從濾除模塊11處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),該網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文;顯示模塊13與數(shù)據(jù)提取模塊12連接,顯示模塊13用于顯示數(shù)據(jù)提取模塊12提取的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
[0128]本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,通過采用上述模塊實(shí)現(xiàn)正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)機(jī)制相同,詳細(xì)亦可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。
[0129]本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,通過采用上述模塊實(shí)現(xiàn)通過根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的DOM樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);該候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型;濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn);從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),本實(shí)施例中網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文;并顯示網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。本實(shí)施例通過采用上述技術(shù)方案,能夠彌補(bǔ)現(xiàn)有技術(shù)的不足,提供一種從網(wǎng)頁中提取并顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的高效的技術(shù)方案。而且本實(shí)施例的技術(shù)方案,能夠適合任何網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的提取和顯示,在有效提取正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的同時(shí),避免提取廣告塊,從而實(shí)現(xiàn)過濾正文中部分廣告的功能。再者本實(shí)施例的技術(shù)方案還能夠在提取出正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之后,并顯示該正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),能夠?yàn)橛脩籼峁┮环N清爽的閱讀體驗(yàn),以滿足移動(dòng)設(shè)備用戶的需求。
[0130]實(shí)施例三[0131]圖5為本發(fā)明實(shí)施例三提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理的結(jié)構(gòu)示意圖。圖5所示實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置在上述圖4所示實(shí)施例的基礎(chǔ)上,還可以包括如下技術(shù)方案。
[0132]如圖5所示,本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置中,還包括整合模塊14和/或打包模塊15,圖5所示實(shí)施例以包括整合模塊14和打包模塊15為例。
[0133]其中整合模塊14可以與分塊處理模塊10和濾除模塊11連接;整合模塊14用于在分塊處理模塊10根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn)之后,在濾除模塊11濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之前,當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中的所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為非候選分塊節(jié)點(diǎn)時(shí),將候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)整合為候選分塊節(jié)點(diǎn)的子節(jié)點(diǎn)。濾除模塊11用于濾除整合模塊14處理得到的數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)。
[0134]打包模塊15可以與整合模塊14連接,打包模塊15用于在整合模塊14處理后,當(dāng)網(wǎng)頁的DOM樹中還包括有與候選分塊節(jié)點(diǎn)不相鄰的非候選分塊節(jié)點(diǎn)時(shí),將不相鄰的非候選分塊節(jié)點(diǎn)打包為候選分塊節(jié)點(diǎn)。
[0135]實(shí)際引用中,當(dāng)不包括整合模塊14的時(shí)候,打包模塊15可以分別與分塊處理模塊10和濾除模塊11連接。此時(shí),濾除模塊11用于濾除打包模塊15處理得到的數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)。
[0136]可選地,本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置中的濾除模塊11具體用于對(duì)于數(shù)個(gè)候選分塊節(jié)點(diǎn)中的每個(gè)候選分塊節(jié)點(diǎn),判斷候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例是否大于等于第一預(yù)設(shè)閾值;當(dāng)大于等于時(shí)將候選分塊節(jié)點(diǎn)作為分塊節(jié)點(diǎn),共得到數(shù)個(gè)分塊節(jié)點(diǎn);否則當(dāng)小于時(shí),濾除候選分塊節(jié)點(diǎn)。進(jìn)一步可選地,本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置中還可以包括刪除模塊16。該刪除模塊16與濾除模塊11連接,刪除模塊16用于在濾除模塊11濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,數(shù)據(jù)提取模塊13從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,對(duì)于濾除模塊11處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中的每個(gè)分塊節(jié)點(diǎn),刪除分塊節(jié)點(diǎn)中與網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)無關(guān)的子節(jié)點(diǎn)。此時(shí)對(duì)應(yīng)的數(shù)據(jù)提取模塊12可以與刪除模塊16連接,數(shù)據(jù)提取模塊12從刪除模塊16處理后的數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
[0137]進(jìn)一步可選地,本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置中的;標(biāo)識(shí)模塊17與濾除模塊11連接,標(biāo)識(shí)模塊17用于在濾除模塊11濾除數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,數(shù)據(jù)提取模塊13從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,根據(jù)濾除模塊11濾除得到的數(shù)個(gè)分塊節(jié)點(diǎn)在網(wǎng)頁的DOM樹中的位置,標(biāo)識(shí)數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系。如圖5所示,當(dāng)本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置中包括刪除模塊16時(shí),標(biāo)識(shí)模塊17可以與刪除模塊16連接,用于根據(jù)刪除模塊16刪除處理后得到的數(shù)個(gè)分塊節(jié)點(diǎn)在網(wǎng)頁的DOM樹中的位置,標(biāo)識(shí)數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系。[0138]數(shù)據(jù)提取模塊12具體可以與標(biāo)識(shí)模塊17連接,用于結(jié)合標(biāo)識(shí)模塊17標(biāo)識(shí)的數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從數(shù)個(gè)分塊節(jié)點(diǎn)中提取網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。如圖5所示,數(shù)據(jù)提取模塊12具體可以包括標(biāo)題塊提取單元121、正文信息塊提取單元122和正文塊提取單元123。
[0139]其中標(biāo)題塊提取單元121與刪除模塊16連接,標(biāo)題塊提取單元121用于遍歷濾刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn),從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊;正文信息塊提取單元122分別與刪除模塊16和標(biāo)識(shí)模塊17連接,正文信息塊提取單元122用于結(jié)合標(biāo)識(shí)模塊17標(biāo)識(shí)的數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文信息塊;正文塊提取單元123分別與刪除模塊16和標(biāo)識(shí)模塊17連接,正文塊提取單元123用于結(jié)合標(biāo)識(shí)模塊17標(biāo)識(shí)的數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊。
[0140]進(jìn)一步可選地,標(biāo)題塊提取單元121具體用于遍歷刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn),從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取包含有Hn標(biāo)簽的塊;并判斷包含有Hn標(biāo)簽的塊中是否包括有網(wǎng)頁的頁面標(biāo)題;當(dāng)包含有Hn標(biāo)簽的塊中包括有網(wǎng)頁的頁面標(biāo)題時(shí),將包含有Hn標(biāo)簽的塊作為標(biāo)題塊。
[0141]進(jìn)一步可選地,正文信息塊提取單元122具體還可以與標(biāo)題塊提取單元121連接,正文信息塊提取單元122具體用于結(jié)合標(biāo)識(shí)模塊17標(biāo)識(shí)的數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中標(biāo)題塊提取單元121提取的標(biāo)題塊之后的預(yù)設(shè)距離范圍內(nèi)的子孫節(jié)點(diǎn)中獲取包含有正文信息參數(shù)的正文信息塊,該正文信息參數(shù)包括發(fā)表時(shí)間、來源和作者。
[0142]進(jìn)一步可選地,正文塊提取單元123具體還可以與標(biāo)題塊提取單元121和正文信息塊提取單元122連接,正文塊提取單元123具體用于結(jié)合標(biāo)識(shí)模塊17標(biāo)識(shí)的數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中標(biāo)題塊提取單元121提取的標(biāo)題塊和正文信息塊提取單元122提取的正文信息塊之后的子孫節(jié)點(diǎn)中獲取正文塊。
[0143]此時(shí)對(duì)應(yīng)的,標(biāo)題塊提取單元121、正文信息塊提取單元122和正文塊提取單元123還分別與顯示模塊13連接,顯示模塊13用于顯示標(biāo)題塊提取單元121提取的標(biāo)題快、正文信息塊提取單元122提取的正文信息塊和正文塊提取單元123和正文塊。
[0144]進(jìn)一步可選地,本實(shí)施例中的網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中還包括二級(jí)導(dǎo)航塊、字體選擇塊、翻頁塊、相關(guān)文章塊、微薄分享塊、版權(quán)聲明塊和回復(fù)塊中的至少一種;
[0145]此時(shí)對(duì)應(yīng)的數(shù)據(jù)提取模塊12還包括如下至少一個(gè)單元(圖5未示出):
[0146]二級(jí)導(dǎo)航塊提取單元,用于結(jié)合標(biāo)識(shí)模塊17處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中標(biāo)題塊之前的父輩節(jié)點(diǎn)中獲取包含有特定資符>且不包含句子的二級(jí)導(dǎo)航塊;
[0147]字體選擇塊提取單元,用于結(jié)合標(biāo)識(shí)模塊17處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中位于正文信息塊之后的子孫節(jié)點(diǎn)中獲取包含有字體選擇信息的字體選擇塊;
[0148]翻頁塊提取單元,用于從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有頁面指示信息的翻頁塊,頁面指示信息包括上一頁、下一頁和連續(xù)數(shù)字串中的至少一種;
[0149]相關(guān)文章塊提取單元,用于從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有鏈接標(biāo)題和鏈接URL的塊,并當(dāng)鏈接標(biāo)題與網(wǎng)頁的頁面標(biāo)題的相似度大于等于第二預(yù)設(shè)閾值,且鏈接URL與網(wǎng)頁的URL的相似度大于等于第三預(yù)設(shè)閾值時(shí),確定包括有鏈接標(biāo)題和鏈接URL的塊為相關(guān)文章塊;
[0150]微薄分享塊提取單元,用于從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有微薄分享特征信息的微薄分享塊;
[0151]版權(quán)聲明塊提取單元,用于從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有版權(quán)聲明特征信息的版權(quán)聲明塊;和
[0152]回復(fù)塊提取單元,用于從刪除模塊16處理得到的數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有回復(fù)特征信息的回復(fù)塊。
[0153]本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,通過采用上述模塊實(shí)現(xiàn)正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)機(jī)制相同,詳細(xì)亦可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。
[0154]本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,以包括上述所有可選技術(shù)方案為例介紹本發(fā)明的技術(shù)方案,實(shí)際應(yīng)用中,上述所有可選技術(shù)方案可以采用任意可結(jié)合的方式任意結(jié)合構(gòu)成本發(fā)明的一種可選實(shí)施例,在此不再一一舉例、
[0155]本實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,通過采用上述模塊實(shí)現(xiàn)的技術(shù)方案,能夠彌補(bǔ)現(xiàn)有技術(shù)的不足,提供一種從網(wǎng)頁中提取并顯示正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的高效的技術(shù)方案。而且本實(shí)施例的技術(shù)方案,能夠適合任何網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的提取和顯示,在有效提取正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的同時(shí),避免提取廣告塊,從而實(shí)現(xiàn)過濾正文中部分廣告的功能。再者本實(shí)施例的技術(shù)方案還能夠在提取出正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之后,并顯示該正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),能夠?yàn)橛脩籼峁┮环N清爽的閱讀體驗(yàn),以滿足移動(dòng)設(shè)備用戶的需求。
[0156]本發(fā)明實(shí)施例還可以提供一種移動(dòng)設(shè)備,在該移動(dòng)設(shè)備上設(shè)置有如上述圖4或者圖5所示實(shí)施例的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置。詳細(xì)可以參考上述實(shí)施例的記載,在此不再贅述。
[0157]需要說明的是:上述實(shí)施例提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置在數(shù)據(jù)提取時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置與正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。
[0158]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0159]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
[0160]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理方法,其特征在于,所述方法包括: 根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);所述候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)所述網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型; 濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn); 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文; 顯示所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn)之后,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之前,所述方法還包括: 當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中的所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為非候選分塊節(jié)點(diǎn)時(shí),將所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)整合為所述候選分塊節(jié)點(diǎn)的子節(jié)點(diǎn);和/或 當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中還包括有與所述候選分塊節(jié)點(diǎn)不相鄰的非候選分塊節(jié)點(diǎn)時(shí),將所述不相鄰的非候選分塊節(jié)點(diǎn)打包為所述候選分塊節(jié)點(diǎn)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn),包括: 對(duì)于所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中的每個(gè)候選分塊節(jié)點(diǎn),判斷所述候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與所述候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例是否大于等于第一預(yù)設(shè)閾值;當(dāng)大于等于時(shí)將所述候選分塊節(jié)點(diǎn)作為所述分塊節(jié)點(diǎn),共得到所述數(shù)個(gè)分塊節(jié)點(diǎn);否則當(dāng)小于時(shí),濾除所述候選分塊節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,所述方法還包括: 對(duì)于所述數(shù)個(gè)分塊節(jié)點(diǎn)中的每個(gè)分塊節(jié)點(diǎn),刪除所述分塊節(jié)點(diǎn)中與所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)無關(guān)的子節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1-4任一所述的方法,其特征在于,濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,所述方法還包括: 根據(jù)所述數(shù)個(gè)分塊節(jié)點(diǎn)在所述網(wǎng)頁的文檔對(duì)象模型樹中的位置,標(biāo)識(shí)所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系; 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)包括:結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),包括: 遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊; 結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文信息塊;結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊,包括: 遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包含有Hn標(biāo)簽的塊; 判斷包含有Hn標(biāo)簽的塊中是否包括有所述網(wǎng)頁的頁面標(biāo)題;當(dāng)包含有Hn標(biāo)簽的塊中包括有所述網(wǎng)頁的頁面標(biāo)題時(shí),將包含有Hn標(biāo)簽的塊作為標(biāo)題塊。
8.根據(jù)權(quán)利要求5所述的方法,其特征在于,結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文信息塊,包括: 結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之后的預(yù)設(shè)距離范圍內(nèi)的子孫節(jié)點(diǎn)中獲取包含有正文信息參數(shù)的正文信息塊,所述正文信息參數(shù)包括發(fā)表時(shí)間、來源和作者; 結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊,包括: 結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊和所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取正文塊。
9.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中還包括二級(jí)導(dǎo)航塊、字體選擇塊、翻頁塊、相關(guān)文章塊、微薄分享塊、版權(quán)聲明塊和回復(fù)塊中的至少一種; 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中 提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),還包括如下至少一種: 結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之前的父輩節(jié)點(diǎn)中獲取包含有特定資符>且不包含句子的所述二級(jí)導(dǎo)航塊; 結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中位于所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取包含有字體選擇信息的所述字體選擇塊; 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有頁面指示信息的所述翻頁塊,所述頁面指示信息包括上一頁、下一頁和連續(xù)數(shù)字串中的至少一種; 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊,并當(dāng)所述鏈接標(biāo)題與所述網(wǎng)頁的頁面標(biāo)題的相似度大于等于第二預(yù)設(shè)閾值,且所述鏈接統(tǒng)一資源定位符與所述網(wǎng)頁的統(tǒng)一資源定位符的相似度大于等于第三預(yù)設(shè)閾值時(shí),確定所述包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊為所述相關(guān)文章塊; 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有微薄分享特征信息的所述微薄分享塊; 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有版權(quán)聲明特征信息的所述版權(quán)聲明塊;和 從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有回復(fù)特征信息的所述回復(fù)塊。
10.一種正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)的處理裝置,其特征在于,所述裝置包括: 分塊處理模塊,用于根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn);所述候選分塊節(jié)點(diǎn)的類型為用于存儲(chǔ)所述網(wǎng)頁的正文的標(biāo)簽對(duì)應(yīng)的節(jié)點(diǎn)類型; 濾除模塊,用于濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn); 數(shù)據(jù)提取模塊,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù),所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中至少包括標(biāo)題、正文信息和正文; 顯示模塊,用于顯示所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,還包括: 整合模塊,用于在所述分塊處理模塊根據(jù)預(yù)設(shè)的候選分塊節(jié)點(diǎn)的類型對(duì)網(wǎng)頁的文檔對(duì)象模型樹中的節(jié)點(diǎn)進(jìn)行分塊處理,得到數(shù)個(gè)候選分塊節(jié)點(diǎn)之后,在所述濾除模塊濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之前,當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中的所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)為非候選分塊節(jié)點(diǎn)時(shí),將所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)整合為所述候選分塊節(jié)點(diǎn)的子節(jié)點(diǎn);和/或打包模塊,用于當(dāng)所述網(wǎng)頁的文檔對(duì)象模型樹中還包括有與所述候選分塊節(jié)點(diǎn)不相鄰的非候選分塊節(jié)點(diǎn)時(shí),將所述不相鄰的非候選分塊節(jié)點(diǎn)打包為所述候選分塊節(jié)點(diǎn)。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,濾除模塊,具體用于對(duì)于所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中的每個(gè)候選分塊節(jié)點(diǎn),判斷所述候選分塊節(jié)點(diǎn)對(duì)應(yīng)的文本長度與所述候選分塊節(jié)點(diǎn)的相鄰節(jié)點(diǎn)對(duì)應(yīng)的文本長度之和與所述候選分塊節(jié)點(diǎn)的父節(jié)點(diǎn)對(duì)應(yīng)的文本長度的比例是否大于等于第一預(yù)設(shè)閾值;當(dāng)大于等于時(shí)將所述候選分塊節(jié)點(diǎn)作為所述分塊節(jié)點(diǎn),共得到所述數(shù)個(gè)分塊節(jié)點(diǎn);否則當(dāng)小于時(shí),濾除所述候選分塊節(jié)點(diǎn)。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括: 刪除模塊,用于在所述濾除模塊濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,所述數(shù)據(jù)提取模塊從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,對(duì)于所述數(shù)個(gè)分塊節(jié)點(diǎn)中的每個(gè)分塊節(jié)點(diǎn),刪除所述分塊節(jié)點(diǎn)中與所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)無關(guān)的子節(jié)點(diǎn)。
14.根據(jù)權(quán)利要求10-13任一所述的裝置,其特征在于,所述裝置還包括標(biāo)識(shí)模塊; 所述標(biāo)識(shí)模塊,用于在所述濾除模塊濾除所述數(shù)個(gè)候選分塊節(jié)點(diǎn)中存儲(chǔ)所述網(wǎng)頁的正文的概率小于預(yù)設(shè)概率閾值候選分塊節(jié)點(diǎn),得到數(shù)個(gè)分塊節(jié)點(diǎn)之后,所述數(shù)據(jù)提取模塊從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)之前,根據(jù)所述數(shù)個(gè)分塊節(jié)點(diǎn)在所述網(wǎng)頁的文檔對(duì)象模型樹中的位置,標(biāo)識(shí)所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系; 所述數(shù)據(jù)提取模塊,具體用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述數(shù)據(jù)提取模塊,包括: 標(biāo)題塊提取單元,用于遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取標(biāo)題塊; 正文信息塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文?目息塊; 正文塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取正文塊。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述標(biāo)題塊提取單元,具體用于遍歷所述數(shù)個(gè)分塊節(jié)點(diǎn),從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包含有Hn標(biāo)簽的塊;并判斷包含有Hn標(biāo)簽的塊中是否包括有所述網(wǎng)頁的頁面標(biāo)題;當(dāng)包含有Hn標(biāo)簽的塊中包括有所述網(wǎng)頁的頁面標(biāo)題時(shí),將包含有Hn標(biāo)簽的塊作為標(biāo)題塊。
17.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述正文信息塊提取單元,具體用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之后的預(yù)設(shè)距離范圍內(nèi)的子孫節(jié)點(diǎn)中獲取包含有正文信息參數(shù)的正文信息塊,所述正文信息參數(shù)包括發(fā)表時(shí)間、來源和作者; 所述正文塊提取單元,具體用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊和所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取正文塊。
18.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述網(wǎng)頁的正文相關(guān)的結(jié)構(gòu)化數(shù)據(jù)中還包括二級(jí)導(dǎo)航塊、字體選擇塊、翻頁塊、相關(guān)文章塊、微薄分享塊、版權(quán)聲明塊和回復(fù)塊中的至少一種; 所述數(shù)據(jù)提取模塊,還包括如下至少一個(gè)單元: 二級(jí)導(dǎo)航塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中所述標(biāo)題塊之前的父輩節(jié)點(diǎn)中獲取包含有特定資符>且不包含句子的所述二級(jí)導(dǎo)航塊; 字體選擇塊提取單元,用于結(jié)合所述數(shù)個(gè)分塊節(jié)點(diǎn)的父子關(guān)系,從所述數(shù)個(gè)分塊節(jié)點(diǎn)中位于所述正文信息塊之后的子孫節(jié)點(diǎn)中獲取包含有字體選擇信息的所述字體選擇塊; 翻頁塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有頁面指示信息的所述翻頁塊,所述頁面指示信息包括上一頁、下一頁和連續(xù)數(shù)字串中的至少一種; 相關(guān)文章塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊,并當(dāng)所述鏈接標(biāo)題與所述網(wǎng)頁的頁面標(biāo)題的相似度大于等于第二預(yù)設(shè)閾值,且所述鏈接統(tǒng)一資源定位符與所述網(wǎng)頁的統(tǒng)一資源定位符的相似度大于等于第三預(yù)設(shè)閾值時(shí),確定所述包括有鏈接標(biāo)題和鏈接統(tǒng)一資源定位符的塊為所述相關(guān)文章塊; 微薄分享塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有微薄分享特征信息的所述微薄分享塊; 版權(quán)聲明塊提取單元,用于從 所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有版權(quán)聲明特征信息的所述版權(quán)聲明塊;和 回復(fù)塊提取單元,用于從所述數(shù)個(gè)分塊節(jié)點(diǎn)中提取包括有回復(fù)特征信息的所述回復(fù)塊。
【文檔編號(hào)】G06F17/30GK103491116SQ201210192678
【公開日】2014年1月1日 申請(qǐng)日期:2012年6月12日 優(yōu)先權(quán)日:2012年6月12日
【發(fā)明者】蔡兵, 徐羽, 彭默 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司