欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對網(wǎng)頁進行版式分類的方法和裝置與流程

文檔序號:11293549閱讀:308來源:國知局
一種對網(wǎng)頁進行版式分類的方法和裝置與流程
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),特別涉及一種對網(wǎng)頁進行版式分類的方法和裝置。

背景技術(shù):
目前,針對Web網(wǎng)頁,主要存在兩種分類方式,一種是內(nèi)容分類,另一種是版式分類。其中,內(nèi)容分類是以頁面正文內(nèi)容的不同作為分類角度,可分為新聞頁和問答頁等;版式分類是以頁面主體結(jié)構(gòu)框架的不同作為分類角度,可分為博客頁和論壇頁等。對于內(nèi)容分類,目前的研究已經(jīng)比較成熟,但對于版式分類的研究則稍顯不足。在實際應(yīng)用中,版式分類的結(jié)果可用于建立網(wǎng)頁模型,并可為頁面信息抽取提供參考信息,還可用于搜索引擎結(jié)果的類別區(qū)分等,具有重要意義?,F(xiàn)有技術(shù)中,主要通過名單加典型的統(tǒng)一資源定位符(URL,UniformResourceLocator)特征的方式來實現(xiàn)版式分類,具體實現(xiàn)包括:針對任一Web網(wǎng)頁X,首先利用名單來對其URL進行匹配,所述名單中可包括一系列不同的域名以及分別對應(yīng)的版式類別等,如名單中的一個域名為hi.baidu.com,對應(yīng)的版式類別為博客頁,那么,如果Web網(wǎng)頁X的URL中包括“hi.baidu.com”,則可確定出Web網(wǎng)頁X所屬的版式類別為博客頁;如果利用名單無法確定出Web網(wǎng)頁X所屬的版式類別,則可進一步利用一些典型的URL特征來進行確定,如Web網(wǎng)頁X的URL中包括“bbs”,則可確定出Web網(wǎng)頁X所屬的版式類別為論壇頁。但是,上述方式在實際應(yīng)用中會存在一定的問題:由于名單中能夠覆蓋的域名非常有限,而且很多Web網(wǎng)頁的URL中不會存在如“bbs”等典型的URL特征,因此將會導(dǎo)致很多的Web網(wǎng)頁無法被正確分類。

技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種對網(wǎng)頁進行版式分類的方法和裝置,能夠提高分類結(jié)果的準確性。為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:一種對網(wǎng)頁進行版式分類的方法,當需要對任一Web網(wǎng)頁進行分類時,進行以下處理:獲取所述Web網(wǎng)頁中能夠體現(xiàn)頁面版式特征的信息;根據(jù)獲取到的信息確定所述Web網(wǎng)頁分別屬于預(yù)先設(shè)定的N個不同版式類別的概率,N為大于1的正整數(shù);將取值最大的概率對應(yīng)的版式類別作為所述Web網(wǎng)頁所屬的版式類別。一種對網(wǎng)頁進行版式分類的裝置,包括:第一處理模塊,用于當需要對任一Web網(wǎng)頁進行分類時,進行以下處理:獲取所述Web網(wǎng)頁中能夠體現(xiàn)頁面版式特征的信息,并發(fā)送給第二處理模塊;所述第二處理模塊,用于根據(jù)獲取到的信息確定所述Web網(wǎng)頁分別屬于預(yù)先設(shè)定的N個不同版式類別的概率,N為大于1的正整數(shù);將取值最大的概率對應(yīng)的版式類別作為所述Web網(wǎng)頁所屬的版式類別??梢?,采用本發(fā)明所述方案,對于任一Web網(wǎng)頁,可根據(jù)獲取到的體現(xiàn)該Web網(wǎng)頁的頁面版式特征的信息確定該Web網(wǎng)頁分別屬于不同的版式類別的概率,并將取值最大的概率對應(yīng)的版式類別作為該Web網(wǎng)頁所屬的版式類別。相比于現(xiàn)有技術(shù),本發(fā)明所述方案無需依賴于名單和典型的URL特征,對任意的Web網(wǎng)頁均適用,從而可較好地提高分類結(jié)果的準確性。而且,本發(fā)明所述方案實現(xiàn)起來簡單方便,便于普及和推廣。附圖說明圖1為本發(fā)明對網(wǎng)頁進行版式分類的方法實施例的流程圖。圖2為本發(fā)明對網(wǎng)頁進行版式分類的過程示意圖。圖3為本發(fā)明所述兩級版式分類方式示意圖。圖4為本發(fā)明對網(wǎng)頁進行版式分類的裝置實施例的組成結(jié)構(gòu)示意圖。具體實施方式針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明中提出一種改進后的對網(wǎng)頁進行版式分類的方案。為使本發(fā)明的技術(shù)方案更加清楚、明白,以下參照附圖并舉實施例,對本發(fā)明所述方案作進一步地詳細說明。圖1為本發(fā)明對網(wǎng)頁進行版式分類的方法實施例的流程圖。當需要對任一Web網(wǎng)頁進行分類時,分別按照圖1所示流程進行處理。步驟11:獲取Web網(wǎng)頁X中能夠體現(xiàn)頁面版式特征的信息。為便于表述,用Web網(wǎng)頁X來代表任一Web網(wǎng)頁。本步驟中,可首先建立Web網(wǎng)頁X的文本對象模型(DOM,DocumentObjectModel)樹;之后,根據(jù)所建立的DOM樹提取出Web網(wǎng)頁X中的內(nèi)容源信息以及結(jié)構(gòu)特征信息。其中,內(nèi)容源信息可包括:標簽和短文本;結(jié)構(gòu)特征信息可包括:URL、二級導(dǎo)航和標題。通常來說,頁面版式特征不會體現(xiàn)在長文本,如正文和句子中,因此,可只提取Web網(wǎng)頁X中的短文本和標簽等,將其作為內(nèi)容源信息,并提取Web網(wǎng)頁X的URL、Web網(wǎng)頁X中的二級導(dǎo)航以及標題等作為結(jié)構(gòu)特征信息,標題即指Web網(wǎng)頁X的網(wǎng)頁標題,短文本是指網(wǎng)頁超文本標記語言(HTML,HypertextMarkupLanguage)源文件中不包含標點且文本長度有限的字符串,一般用于描述網(wǎng)頁的若干提示信息。如何建立DOM樹以及如何提取內(nèi)容源信息和結(jié)構(gòu)特征信息可以參考現(xiàn)有技術(shù),在此不贅述...
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
东乡县| 大庆市| 财经| 左贡县| 高州市| 清远市| 文成县| 富宁县| 九江市| 宜宾县| 搜索| 长岭县| 蒙山县| 泸西县| 祥云县| 沿河| 平罗县| 安康市| 金山区| 马鞍山市| 招远市| 华容县| 兰考县| 特克斯县| 虎林市| 岳池县| 姚安县| 邯郸县| 临洮县| 阜平县| 紫阳县| 宁远县| 商水县| 乡宁县| 阿城市| 广德县| 开封县| 壶关县| 开封市| 依安县| 固镇县|