專利名稱:一種抽取網(wǎng)頁信息塊的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,特別涉及一種抽取網(wǎng)頁信息塊的方法及裝置。
背景技術(shù):
對(duì)于新聞網(wǎng)頁、小說網(wǎng)頁和博客網(wǎng)頁,這些網(wǎng)頁中包括對(duì)用戶有價(jià)值的關(guān)鍵信息,如新聞?wù)摹⑿≌f正文和博客正文,還包括對(duì)用戶無用的信息,如廣告等無用信息;如果在返給用戶的網(wǎng)頁中只包括關(guān)鍵信息,不僅方便用戶瀏覽,還減少網(wǎng)絡(luò)資源的占用。目前可以從網(wǎng)頁中抽取包括關(guān)鍵信息的信息塊,將抽取的信息塊封裝成新網(wǎng)頁;接下來以新聞網(wǎng)頁為例對(duì)該方案進(jìn)行說明:一個(gè)新聞網(wǎng)頁一般包括頁頂導(dǎo)航、二級(jí)導(dǎo)航、正文標(biāo)題、正文信息、正文、交互塊和鏈接信息塊等信息塊,對(duì)用戶有價(jià)值的信息塊包括二級(jí)導(dǎo)航、正文標(biāo)題、正文信息和正文;對(duì)于一個(gè)新聞網(wǎng)頁,首先將該新聞網(wǎng)頁包括的信息劃分為多個(gè)信息塊,確定該新聞網(wǎng)頁的D0M(Document Object Model,文檔對(duì)象模型)樹結(jié)構(gòu),根據(jù)技術(shù)人員事先制作該DOM樹結(jié)構(gòu)包括的信息模板確定劃分的每個(gè)信息塊的名稱,然后抽取名稱為二級(jí)導(dǎo)航、正文標(biāo)題、正文信息和正文分別對(duì)應(yīng)的信息塊,并將抽取的四個(gè)信息塊封裝成新的新聞網(wǎng)頁。其中,需要說明的是:技術(shù)人員事先對(duì)大量的網(wǎng)頁進(jìn)行歸類,將屬于同一 DOM樹結(jié)構(gòu)的網(wǎng)頁歸為一類,然后對(duì)屬于同一 DOM樹結(jié)構(gòu)的網(wǎng)頁進(jìn)行分析并制作出該DOM樹結(jié)構(gòu)包括的一個(gè)或多個(gè)信息塊模板。在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:不同網(wǎng)站的網(wǎng)頁的DOM樹結(jié)構(gòu)都有所不同使得DOM樹種類繁多,如此對(duì)屬于每個(gè)DOM樹結(jié)構(gòu)的網(wǎng)頁進(jìn)行歸類,根據(jù)屬于每個(gè)DOM樹結(jié)構(gòu)的網(wǎng)頁制作出每個(gè)DOM樹結(jié)構(gòu)包括的信息塊模板,需要投入大量的人力;網(wǎng)站有可能進(jìn)行網(wǎng)頁改版,一旦網(wǎng)頁改版,網(wǎng)頁采用的DOM樹結(jié)構(gòu)也隨之改變,如此就需要再制作改變之后的DOM樹包括的信息塊模板,維護(hù)量巨大。
發(fā)明內(nèi)容
為了減少人力投入和維護(hù)量,本發(fā)明提供了抽取網(wǎng)頁信息塊的方法及裝置。所述技術(shù)方案如下:一種抽取網(wǎng)頁信息塊的方法,所述方法包括:獲取網(wǎng)頁所包括的多個(gè)特征的特征值,所述網(wǎng)頁包括多個(gè)信息塊;根據(jù)獲取的所述多個(gè)特征值確定所述每個(gè)信息塊的類別,所述多個(gè)信息塊分別與多個(gè)類別一一對(duì)應(yīng),所述多個(gè)類別包括頁頂導(dǎo)航、二級(jí)導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;從所述網(wǎng)頁中選定至少一個(gè)信息塊以進(jìn)行顯示。獲取網(wǎng)頁所包括的多個(gè)特征的特征值,包括:
將所述網(wǎng)頁具有的特征的特征值設(shè)置為第一特征值,將所述網(wǎng)頁不具有的特征的特征值設(shè)置為第二特征值。所述根據(jù)獲取的所述多個(gè)特征值確定所述每個(gè)信息塊的類別包括:計(jì)算每個(gè)信息塊屬于每個(gè)類別的概率,并將對(duì)應(yīng)概率最大的類別定義為該信息塊的類別。所述計(jì)算每個(gè)信息塊屬于每個(gè)類別的概率包括:針對(duì)任一個(gè)類別C,根據(jù)所述類別C包括的樣本總數(shù)Ctotal和每個(gè)類別包括的樣本總數(shù)Total計(jì)算出所述類別C的類別概率
權(quán)利要求
1.一種抽取網(wǎng)頁信息塊的方法,其特征在于,所述方法包括: 獲取網(wǎng)頁所包括的多個(gè)特征的特征值,所述網(wǎng)頁包括多個(gè)信息塊; 根據(jù)獲取的所述多個(gè)特征值確定所述每個(gè)信息塊的類別,所述多個(gè)信息塊分別與多個(gè)類別一一對(duì)應(yīng),所述多個(gè)類別包括頁頂導(dǎo)航、二級(jí)導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者; 從所述網(wǎng)頁中選定至少一個(gè)信息塊以進(jìn)行顯示。
2.如權(quán)利要求1所述的方法,其特征在于,獲取網(wǎng)頁所包括的多個(gè)特征的特征值,包括: 將所述網(wǎng)頁具有的特征的特征值設(shè)置為第一特征值,將所述網(wǎng)頁不具有的特征的特征值設(shè)置為第二特征值。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)獲取的所述多個(gè)特征值確定所述每個(gè)信息塊的類別包括:計(jì)算每個(gè)信息塊屬于每個(gè)類別的概率,并將對(duì)應(yīng)概率最大的類別定義為該信息塊的類別。
4.如權(quán)利要求3所述的方法,其特征在于,所述計(jì)算每個(gè)信息塊屬于每個(gè)類別的概率包括: 針對(duì)任一個(gè)類別C,根據(jù)所述類別C包括的樣本總數(shù)Ctotal和每個(gè)類別包括的樣本總數(shù)Total計(jì)算出所述類別C的類別概率P
5.一種抽取網(wǎng)頁信息塊的裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取網(wǎng)頁所包括的多個(gè)特征的特征值,所述網(wǎng)頁包括多個(gè)信息塊;確定模塊,用于根據(jù)獲取的所述多個(gè)特征值確定所述每個(gè)信息塊的類別,所述多個(gè)信息塊分別與多個(gè)類別一一對(duì)應(yīng),所述多個(gè)類別包括頁頂導(dǎo)航、二級(jí)導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊; 選定模塊,用于從所述網(wǎng)頁中選定至少一個(gè)信息塊以進(jìn)行顯示。
6.如權(quán)利要求5所述的裝置,其特征在于, 所述獲取模塊,具體用于將所述網(wǎng)頁具有的特征的特征值設(shè)置為第一特征值,將所述網(wǎng)頁不具有的特征的特征值設(shè)置為第二特征值。
7.如權(quán)利要求6所述的裝置,其特征在于,所述確定模塊包括: 計(jì)算單元,用于計(jì)算所述信息塊屬于每個(gè)類別的概率; 定義單元,用于將對(duì)應(yīng)概率最大的類別定義為該信息塊的類別。
8.如權(quán)利要求7所述的裝置,其特征在于,所述計(jì)算單元, 第一計(jì)算子單元,用于針對(duì)任一個(gè)類別C,根據(jù)所述類別C包括的樣本總數(shù)Ctotal和每個(gè)類別包括的樣本總數(shù)Total計(jì)算出所述類別的類別概率
全文摘要
本發(fā)明公開了一種抽取網(wǎng)頁信息塊的方法及裝置,屬于計(jì)算機(jī)領(lǐng)域。所述方法包括獲取網(wǎng)頁所包括的多個(gè)特征的特征值,所述網(wǎng)頁包括多個(gè)信息塊;根據(jù)獲取的所述多個(gè)特征值確定所述每個(gè)信息塊的類別,所述多個(gè)信息塊分別與多個(gè)類別一一對(duì)應(yīng),所述多個(gè)類別包括頁頂導(dǎo)航、二級(jí)導(dǎo)航、正文標(biāo)題、正文信息、正文、小說標(biāo)題、小說正文信息、小說正文、小說導(dǎo)航、博客導(dǎo)航、博客標(biāo)題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;從所述網(wǎng)頁中選定至少一個(gè)信息塊以進(jìn)行顯示。所述裝置包括獲取模塊、確定模塊和選定模塊。本發(fā)明能夠減少人力投入和維護(hù)量。
文檔編號(hào)G06F17/30GK103198075SQ20121000465
公開日2013年7月10日 申請(qǐng)日期2012年1月9日 優(yōu)先權(quán)日2012年1月9日
發(fā)明者徐羽, 彭默, 蔡兵 申請(qǐng)人:騰訊科技(深圳)有限公司