一種提取網頁正文內容的方法及系統(tǒng)的制作方法

文檔序號：9304608閱讀：310來源：國知局

一種提取網頁正文內容的方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及計算機應用和信息抽取領域，特別是一種提取網頁正文內容的方法及系統(tǒng)。
【背景技術】
[0002]名詞解釋:
HTML:Hyper Text Markup Language，超文本標記語言；
PHP:Hypertext Preprocessor，超文本預處理語言；
SSI:Server Side Include，服務器端嵌入;
SHTML:使用SSI的HTML文件擴展名；
JS腳本:全稱為javascript，是一種由Netscape的LiveScript發(fā)展而來的腳本語言，主要目的是為了解決服務器終端語言遺留的速度問題；
CSS樣式:層疊樣式表，一種用來表現(xiàn)HTML (標準通用標記語言的一個應用)或XML (標準通用標記語言的一個子集)等文件樣式的計算機語言；
meta標簽:在網頁的HTML源代碼中，位于頭部，用來描述一個HTML網頁文檔的屬性，例如作者、日期、關鍵詞、網頁描述等。
[0003]UL/L1:UL、LI是使用CSS布局頁面時常用的元素。
[0004]隨著互聯(lián)網及其技術的迅猛發(fā)展，網絡上的信息呈爆炸式增長。網絡已經成為人類有史以來最為龐大的數(shù)據庫，而網頁已經成為Internet上最重要的信息資源。很多基于互聯(lián)網的信息處理工作例如信息搜索、數(shù)據挖掘、機器翻譯等，是以純文本格式的信息內容為基礎數(shù)據開展的而一般做輿情分析、文本挖掘，都會涉及到網頁正文內容提取。對于分析、挖掘而言，有價值的信息是正文部分，大多數(shù)情況下，為了便于分析，需要將網頁中和正文不相關的部分剔除。但是，在目前的互聯(lián)網環(huán)境下，HTML是當前WEB上數(shù)據存在的主要格式，而HTML著重于數(shù)據的表現(xiàn)，HTML標簽不帶有語義，缺乏對數(shù)據的描述。將一個HTML形式的信息轉換成有利用價值的文本格式信息，方便后續(xù)的信息處理，是極為關鍵的技術問題。一個web網頁中的內容除了包括與主題有關的正文信息以外，還存在一些與主題無關的導航鏈接、廣告鏈接和版權聲明等噪音信息，這些噪音增加了正文內容的自動抽取難度。
[0005]目前，關于網頁正文提取從大方向上主要可分為基于包裝器的方法、網頁視覺特征分塊的方法兩類。一、基于包裝器的方法:利用包裝器提取網頁正文是一種提出較早，也較為流行的方法，例如網頁模板抽取方法。它的原理是通過構建包裝器或網頁模板規(guī)則，將符合規(guī)則的信息從網頁信息源中提取出來。但是該方法只能針對某一類特定格式信息源，而構建它所需的信息模式識別知識的獲取是一個費時費力的工作，在目前的互聯(lián)網網頁越來越多樣化和可定制化的趨勢下，使用模板解析網頁正文往往不能適應新網頁的正文抽取，需要人工干預，工作量大，代價很高，這種方法不通用。二、網頁視覺特征分塊方法:在視覺上，一個HTML網頁的頁面可以劃分為若干個區(qū)域，同一個區(qū)域內包含相近的內容，我們把一個區(qū)域稱為一個內容塊，然后對內容塊進行取舍抽取正文內容。這些內容塊中，有的包含了正文內容，而有的則包含著噪音內容，例如廣告等。但是這種方法，由于視覺特征的復雜性，很難有一個通用的規(guī)則集。除此之外，該算法還需要保存大量的視覺信息，其處理性能隨著頁面的復雜度急劇下降，面對日益復雜的頁面，處理效果往往不能令人滿意。
[0006]總的來說，現(xiàn)有的方法要么算法流程過于簡單，只能針對特定標簽的網頁風格進行內容提取，工作量大，效率不高；要么算法復雜度過高，對復雜多變的網頁，處理效果不理雄
V QjN O

【發(fā)明內容】

[0007]為了解決上述的技術問題，本發(fā)明的目的是提供一種提取網頁正文內容的方法，本發(fā)明的目的是提供一種提取網頁正文內容的系統(tǒng)。
[0008]本發(fā)明解決其技術問題所采用的技術方案是:
一種提取網頁正文內容的方法，包括:
51、加載待分析網頁的HTML源碼，同時加載預設對比網頁的HTML源碼；
52、按行比較待分析網頁和預設對比網頁的HTML源碼的相同性；
53、根據相同性對比結果，判斷待分析網頁是否為列表導航網頁類型，若是，則結束，反之，執(zhí)行步驟S4 ；
54、對待分析網頁的HTML源碼進行正文內容抽取。
[0009]進一步，所述步驟S2，包括:
521、分別去除待分析網頁和預設對比網頁的HTML源碼中與正文無關的信息；
522、依次對比待分析網頁和預設對比網頁的HTML源碼的每一行，并標記每行的對比結果屬性為相同或不同；
523、根據每行的對比結果屬性，對待分析網頁的HTML源碼進行遍歷，形成包含對比結果屬性的數(shù)組。
[0010]進一步，所述步驟S21中所述與正文無關的信息包括JS腳本、CSS樣式、meta標簽、注釋以及列表型標簽。
[0011]進一步，所述步驟S23，其具體為:
以待分析網頁的HTML源碼的行數(shù)為基準，根據每行的對比結果屬性，對待分析網頁的HTML源碼進行遍歷，先遍歷每一個不同行，再遍歷每一個相同行，進而形成包含對比結果屬性的數(shù)組。
[0012]進一步，所述步驟S3所述根據相同性對比結果，判斷待分析網頁是否為列表導航網頁類型的步驟，其具體為:
獲取待分析網頁的HTML源碼的不同行的遍歷內容并去除其中的超鏈接標簽后，判斷剩余內容中的中文字數(shù)是否大于預設的最大中文字數(shù)閾值，若是，則判斷待分析網頁為內容類型頁面，反之，判斷待分析網頁為列表導航網頁類型。
[0013]進一步，所述步驟S4，包括:
541、根據相同性對比結果，依序分別將待分析網頁的HTML源碼中的連續(xù)不同行生成文本信息塊，獲得文本信息塊數(shù)組；
542、分別對每個文本信息塊進行分析并抽取內容信息塊；
543、依序合并內容信息塊，并添加段落標記，形成正文內容。
[0014]進一步，所述步驟S42，其具體為:
對每個文本信息塊，判斷是否存在某一行的標點符號的數(shù)量大于1，或者含有段落標簽、表格標簽或圖像標簽，且該行與其下一行的標點符號的總數(shù)量大于3、中文總字數(shù)大于10或其下一行含有段落標簽或圖像標簽，則將該行到文本信息塊的尾部的內容作為內容信息塊。
[0015]本發(fā)明解決其技術問題所采用的另一技術方案是:
一種提取網頁正文內容的系統(tǒng)，包括:
加載模塊，用于加載待分析網頁的HTML源碼，同時加載預設對比網頁的HTML源碼；行對比模塊，用于按行比較待分析網頁和預設對比網頁的HTML源碼的相同性；
判斷模塊，用于根據相同性對比結果，判斷待分析網頁是否為列表導航網頁類型，若是，則結束，反之，執(zhí)行抽取模塊；
抽取模塊，用于對待分析網頁的HTML源碼進行正文內容抽取。
[0016]進一步，所述行對比模塊，包括:
第一子模塊，用于分別去除待分析網頁和預設對比網頁的HTML源碼中與正文無關的信息；
第二子模塊，用于依次對比待分析網頁和預設對比網頁的HTML源碼的每一行，并標記每行的對比結果屬性為相同或不同；
第三子模塊，用于根據每行的對比結果屬性，對待分析網頁的HTML源碼進行遍歷，形成包含對比結果屬性的數(shù)組。
[0017]進一步，所述抽取模塊，包括:
第四子模塊，用于根據相同性對比結果，依序分別將待分析網頁的HTML源碼中的連續(xù)不同行生成文本信息塊，獲得文本信息塊數(shù)組；
第五子模塊，用于分別對每個文本信息塊進行分析并抽取內容信息塊；
第六子模塊，用于依序合并內容信息塊，并添加段落標記，形成正文內容。
[0018]本發(fā)明的有益效果是:本發(fā)明的一種提取網頁正文內容的方法，包括:S1、加載待分析網頁的HTML源碼，同時加載預設對比網頁的HTML源碼；S2、按行比較待分析網頁和預設對比網頁的HTML源碼的相同性

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：吳遠輝;
技術所有人：廣州市萬隆證券咨詢顧問有限公司;
我是此專利的發(fā)明人

上一篇：一種圖片排序方法及移動終端的制作方法
上一篇：一種照片分類方法及終端的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網頁正文提取方法相關技術

網頁正文提取相關技術

網頁正文提取算法相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種提取網頁正文內容的方法及系統(tǒng)的制作方法