欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種提取網頁正文內容的方法及系統(tǒng)的制作方法

文檔序號:9304608閱讀:310來源:國知局
一種提取網頁正文內容的方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及計算機應用和信息抽取領域,特別是一種提取網頁正文內容的方法及系統(tǒng)。
【背景技術】
[0002]名詞解釋:
HTML:Hyper Text Markup Language,超文本標記語言;
PHP:Hypertext Preprocessor,超文本預處理語言;
SSI:Server Side Include,服務器端嵌入;
SHTML:使用SSI的HTML文件擴展名;
JS腳本:全稱為javascript,是一種由Netscape的LiveScript發(fā)展而來的腳本語言,主要目的是為了解決服務器終端語言遺留的速度問題;
CSS樣式:層疊樣式表,一種用來表現(xiàn)HTML (標準通用標記語言的一個應用)或XML (標準通用標記語言的一個子集)等文件樣式的計算機語言;
meta標簽:在網頁的HTML源代碼中,位于頭部,用來描述一個HTML網頁文檔的屬性,例如作者、日期、關鍵詞、網頁描述等。
[0003]UL/L1:UL、LI是使用CSS布局頁面時常用的元素。
[0004]隨著互聯(lián)網及其技術的迅猛發(fā)展,網絡上的信息呈爆炸式增長。網絡已經成為人類有史以來最為龐大的數(shù)據庫,而網頁已經成為Internet上最重要的信息資源。很多基于互聯(lián)網的信息處理工作例如信息搜索、數(shù)據挖掘、機器翻譯等,是以純文本格式的信息內容為基礎數(shù)據開展的而一般做輿情分析、文本挖掘,都會涉及到網頁正文內容提取。對于分析、挖掘而言,有價值的信息是正文部分,大多數(shù)情況下,為了便于分析,需要將網頁中和正文不相關的部分剔除。但是,在目前的互聯(lián)網環(huán)境下,HTML是當前WEB上數(shù)據存在的主要格式,而HTML著重于數(shù)據的表現(xiàn),HTML標簽不帶有語義,缺乏對數(shù)據的描述。將一個HTML形式的信息轉換成有利用價值的文本格式信息,方便后續(xù)的信息處理,是極為關鍵的技術問題。一個web網頁中的內容除了包括與主題有關的正文信息以外,還存在一些與主題無關的導航鏈接、廣告鏈接和版權聲明等噪音信息,這些噪音增加了正文內容的自動抽取難度。
[0005]目前,關于網頁正文提取從大方向上主要可分為基于包裝器的方法、網頁視覺特征分塊的方法兩類。一、基于包裝器的方法:利用包裝器提取網頁正文是一種提出較早,也較為流行的方法,例如網頁模板抽取方法。它的原理是通過構建包裝器或網頁模板規(guī)則,將符合規(guī)則的信息從網頁信息源中提取出來。但是該方法只能針對某一類特定格式信息源,而構建它所需的信息模式識別知識的獲取是一個費時費力的工作,在目前的互聯(lián)網網頁越來越多樣化和可定制化的趨勢下,使用模板解析網頁正文往往不能適應新網頁的正文抽取,需要人工干預,工作量大,代價很高,這種方法不通用。二、網頁視覺特征分塊方法:在視覺上,一個HTML網頁的頁面可以劃分為若干個區(qū)域,同一個區(qū)域內包含相近的內容,我們把一個區(qū)域稱為一個內容塊,然后對內容塊進行取舍抽取正文內容。這些內容塊中,有的包含了正文內容,而有的則包含著噪音內容,例如廣告等。但是這種方法,由于視覺特征的復雜性,很難有一個通用的規(guī)則集。除此之外,該算法還需要保存大量的視覺信息,其處理性能隨著頁面的復雜度急劇下降,面對日益復雜的頁面,處理效果往往不能令人滿意。
[0006]總的來說,現(xiàn)有的方法要么算法流程過于簡單,只能針對特定標簽的網頁風格進行內容提取,工作量大,效率不高;要么算法復雜度過高,對復雜多變的網頁,處理效果不理雄
V QjN O

【發(fā)明內容】

[0007]為了解決上述的技術問題,本發(fā)明的目的是提供一種提取網頁正文內容的方法,本發(fā)明的目的是提供一種提取網頁正文內容的系統(tǒng)。
[0008]本發(fā)明解決其技術問題所采用的技術方案是:
一種提取網頁正文內容的方法,包括:
51、加載待分析網頁的HTML源碼,同時加載預設對比網頁的HTML源碼;
52、按行比較待分析網頁和預設對比網頁的HTML源碼的相同性;
53、根據相同性對比結果,判斷待分析網頁是否為列表導航網頁類型,若是,則結束,反之,執(zhí)行步驟S4 ;
54、對待分析網頁的HTML源碼進行正文內容抽取。
[0009]進一步,所述步驟S2,包括:
521、分別去除待分析網頁和預設對比網頁的HTML源碼中與正文無關的信息;
522、依次對比待分析網頁和預設對比網頁的HTML源碼的每一行,并標記每行的對比結果屬性為相同或不同;
523、根據每行的對比結果屬性,對待分析網頁的HTML源碼進行遍歷,形成包含對比結果屬性的數(shù)組。
[0010]進一步,所述步驟S21中所述與正文無關的信息包括JS腳本、CSS樣式、meta標簽、注釋以及列表型標簽。
[0011]進一步,所述步驟S23,其具體為:
以待分析網頁的HTML源碼的行數(shù)為基準,根據每行的對比結果屬性,對待分析網頁的HTML源碼進行遍歷,先遍歷每一個不同行,再遍歷每一個相同行,進而形成包含對比結果屬性的數(shù)組。
[0012]進一步,所述步驟S3所述根據相同性對比結果,判斷待分析網頁是否為列表導航網頁類型的步驟,其具體為:
獲取待分析網頁的HTML源碼的不同行的遍歷內容并去除其中的超鏈接標簽后,判斷剩余內容中的中文字數(shù)是否大于預設的最大中文字數(shù)閾值,若是,則判斷待分析網頁為內容類型頁面,反之,判斷待分析網頁為列表導航網頁類型。
[0013]進一步,所述步驟S4,包括:
541、根據相同性對比結果,依序分別將待分析網頁的HTML源碼中的連續(xù)不同行生成文本信息塊,獲得文本信息塊數(shù)組;
542、分別對每個文本信息塊進行分析并抽取內容信息塊;
543、依序合并內容信息塊,并添加段落標記,形成正文內容。
[0014]進一步,所述步驟S42,其具體為:
對每個文本信息塊,判斷是否存在某一行的標點符號的數(shù)量大于1,或者含有段落標簽、表格標簽或圖像標簽,且該行與其下一行的標點符號的總數(shù)量大于3、中文總字數(shù)大于10或其下一行含有段落標簽或圖像標簽,則將該行到文本信息塊的尾部的內容作為內容信息塊。
[0015]本發(fā)明解決其技術問題所采用的另一技術方案是:
一種提取網頁正文內容的系統(tǒng),包括:
加載模塊,用于加載待分析網頁的HTML源碼,同時加載預設對比網頁的HTML源碼; 行對比模塊,用于按行比較待分析網頁和預設對比網頁的HTML源碼的相同性;
判斷模塊,用于根據相同性對比結果,判斷待分析網頁是否為列表導航網頁類型,若是,則結束,反之,執(zhí)行抽取模塊;
抽取模塊,用于對待分析網頁的HTML源碼進行正文內容抽取。
[0016]進一步,所述行對比模塊,包括:
第一子模塊,用于分別去除待分析網頁和預設對比網頁的HTML源碼中與正文無關的信息;
第二子模塊,用于依次對比待分析網頁和預設對比網頁的HTML源碼的每一行,并標記每行的對比結果屬性為相同或不同;
第三子模塊,用于根據每行的對比結果屬性,對待分析網頁的HTML源碼進行遍歷,形成包含對比結果屬性的數(shù)組。
[0017]進一步,所述抽取模塊,包括:
第四子模塊,用于根據相同性對比結果,依序分別將待分析網頁的HTML源碼中的連續(xù)不同行生成文本信息塊,獲得文本信息塊數(shù)組;
第五子模塊,用于分別對每個文本信息塊進行分析并抽取內容信息塊;
第六子模塊,用于依序合并內容信息塊,并添加段落標記,形成正文內容。
[0018]本發(fā)明的有益效果是:本發(fā)明的一種提取網頁正文內容的方法,包括:S1、加載待分析網頁的HTML源碼,同時加載預設對比網頁的HTML源碼;S2、按行比較待分析網頁和預設對比網頁的HTML源碼的相同性
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
石渠县| 东港市| 遂平县| 孟村| 视频| 承德县| 禄劝| 郁南县| 丰县| 龙泉市| 泸溪县| 静宁县| 资溪县| 达孜县| 裕民县| 乐山市| 松阳县| 斗六市| 云龙县| 广州市| 嘉义县| 秦安县| 象山县| 吴忠市| 本溪市| 丰县| 建湖县| 长汀县| 公安县| 和静县| 兴海县| 增城市| 白山市| 泊头市| 哈巴河县| 嘉义县| 永昌县| 黎城县| 淄博市| 邓州市| 上栗县|