欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

新聞網(wǎng)頁要素自動提取方法

文檔序號:6372938閱讀:248來源:國知局

專利名稱::新聞網(wǎng)頁要素自動提取方法
技術(shù)領(lǐng)域
:本發(fā)明涉及互聯(lián)網(wǎng)信息分析技術(shù),特別涉及一種新聞網(wǎng)頁要素自動提取方法。
背景技術(shù)
:近年來,隨著互聯(lián)網(wǎng)的大規(guī)模普及,人們越來越多地從網(wǎng)絡(luò)媒體獲取有用信息。網(wǎng)絡(luò)信息具有高時效性,很多重大新聞事件都是首先在網(wǎng)絡(luò)上擴(kuò)散開來。所以說,分析網(wǎng)絡(luò)信息,特別是新聞信息,能夠幫助我們很好地把握社會發(fā)展脈搏、及時發(fā)現(xiàn)局部異常、維護(hù)社會的和諧穩(wěn)定?;ヂ?lián)網(wǎng)上的新聞浩如煙海,如果采用人工方法進(jìn)行分析,一方面跟不上新聞的更新速度,另一方面容易出現(xiàn)紕漏,所以通常要借助計算機(jī)進(jìn)行分析。給定某個新聞網(wǎng)頁,要想了解其中的信息并加以分析,首先要做的就是自動提取新聞標(biāo)題、發(fā)布時間、消息來源、新聞?wù)倪@4大新聞要素如圖I所示。已有新聞要素提取方法大多只把關(guān)注點(diǎn)放在新聞標(biāo)題與正文上,主要有以下三種方法I、正則表達(dá)式正則表達(dá)式是一個由特定語法規(guī)則生成的字符串,用來描述或匹配符合某種句法規(guī)范的語句。如果新聞網(wǎng)頁是由同一個模板生成的,我們可以將正文區(qū)域的代碼模式表示為一個正則表達(dá)式,請參見圖2,其為利用正則表達(dá)式的方法提取新聞要素的示意圖。對每一個新的輸入網(wǎng)頁都可以用這唯一的表達(dá)式提取其內(nèi)容。這種方法簡單方便、針對性強(qiáng),一次寫就,無限運(yùn)行。但是,正則表達(dá)式方法的缺陷是網(wǎng)頁代碼模式人工歸納過程很復(fù)雜,針對一個模板寫成的正則表達(dá)式只適用于此模板,對于其他格式的網(wǎng)頁束手無策,即便是原模板,如果在正文中增加嵌套或略加修改,也可能導(dǎo)致內(nèi)容提取失敗。2、封裝器正則表達(dá)式的方法需要人工編寫且只能和網(wǎng)頁模板一一對應(yīng)。此后人們嘗試探尋多模板網(wǎng)頁綜合模型的自動推導(dǎo)方法。N.Kushmerick于1997年首次提出了一個名為WIEN的算法實(shí)現(xiàn)該想法,并將最終模型稱為封裝器。在這里封裝器表示一種流程,針對于某種新的信息源,可以利用已有的模板數(shù)據(jù)和網(wǎng)頁經(jīng)驗(yàn)知識進(jìn)行類似人工智能的歸納和自動推導(dǎo)。推導(dǎo)結(jié)果可以應(yīng)用在新的信息源的信息自動提取中。雖然封裝器提取方法部分解決了正則表達(dá)式方法低效、應(yīng)用面窄的缺點(diǎn),但始終沒有擺脫原方法的本質(zhì),即歸納代價高、本質(zhì)上沒有擺脫對模板的依賴。綜上所述,現(xiàn)有的新聞要素提取方法存在對模版過于依賴、通用性差,且模版代碼歸納復(fù)雜的問題。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種新聞網(wǎng)頁要素自動提取方法,以解決現(xiàn)有的新聞要素提取方法存在對模版過于依賴、通用性差,且模版代碼歸納復(fù)雜的問題。本發(fā)明提出一種新聞網(wǎng)頁要素自動提取方法,包括以下步驟(I)提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞血.ZN(2)對網(wǎng)頁源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞?,以及利用所述關(guān)鍵詞詞典檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源和新聞?wù)?。進(jìn)一步的,步驟(I)之前還包括(10)對網(wǎng)頁源碼進(jìn)行預(yù)處理,去除腳本代碼。進(jìn)一步的,步驟(I)還包括(11)對提取出的網(wǎng)頁標(biāo)題與網(wǎng)頁元信息進(jìn)行分詞并去除停用詞。進(jìn)一步的,步驟(2)中還包括(21)對文字節(jié)點(diǎn)進(jìn)行過濾,并將過濾出的文字節(jié)點(diǎn)排除在檢測范圍之外。進(jìn)一步的,步驟(21)中,根據(jù)文字節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽對文字節(jié)點(diǎn)進(jìn)行過濾,包括(211)過濾掉無父節(jié)點(diǎn)的文字節(jié)點(diǎn);(212)過濾掉父節(jié)點(diǎn)標(biāo)簽不屬于<div>、〈paragraph>、〈tablecolumn>、〈heading〉、〈span〉當(dāng)中一個的文字節(jié)點(diǎn);(213)過濾掉父節(jié)點(diǎn)的標(biāo)簽為<div>,而樣式設(shè)置為“隱藏”的文字節(jié)點(diǎn);(214)當(dāng)新聞標(biāo)題與發(fā)布時間已被檢測到之后,過濾掉父節(jié)點(diǎn)的標(biāo)簽為〈heading〉的文字節(jié)點(diǎn);(215)過濾掉父節(jié)點(diǎn)的標(biāo)簽為〈span〉或<div>,而文本長度小于正文段落平均長度的文字節(jié)點(diǎn)。進(jìn)一步的,步驟(21)中,根據(jù)文本內(nèi)容對文字節(jié)點(diǎn)進(jìn)行過濾,包括(216)過濾掉包含版權(quán)聲明信息的文字節(jié)點(diǎn);(217)過濾掉含有“分享”和/或“評論”和/或“微博”的文字信息的文字節(jié)點(diǎn)。進(jìn)一步的,步驟(2)中,檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源時包括(22)當(dāng)屬于網(wǎng)頁標(biāo)題的一文字節(jié)點(diǎn),該文字節(jié)點(diǎn)的文本長度不小于網(wǎng)頁標(biāo)題中文本長度的三分之一,或任一文字節(jié)點(diǎn)的文本與網(wǎng)頁標(biāo)題的文本相似度不小于預(yù)設(shè)閾值,則提取該文字節(jié)點(diǎn)的文本內(nèi)容為新聞標(biāo)題,且此后不再進(jìn)行新聞標(biāo)題的檢測;(23)將文字節(jié)點(diǎn)的內(nèi)容與時間格式進(jìn)行匹配,并將匹配成功的文字節(jié)點(diǎn)的內(nèi)容提取為發(fā)布時間,且此后不再進(jìn)行發(fā)布時間的檢測;(24)當(dāng)一文字節(jié)點(diǎn)的內(nèi)容包含“來源”或“作者”的文字信息,則將該文字節(jié)點(diǎn)的內(nèi)容提取為消息來源,且此后不再進(jìn)行消息來源的檢測。進(jìn)一步的,步驟(2)中,檢測并提取新聞?wù)臅r包括(25)建立高命中集,保存對關(guān)鍵詞詞典命中數(shù)高的文字節(jié)點(diǎn);(26)采用聚類方式對高命中集進(jìn)行提純,取最長連續(xù)節(jié)點(diǎn)集合作為提純集;(27)找出提純集中的最小公共父節(jié)點(diǎn);(28)遍歷以最小公共父節(jié)點(diǎn)為根節(jié)點(diǎn)的文檔樹,并獲取新聞?wù)?。進(jìn)一步的,步驟(25)之后,還包括(251)建立疑似集,保存對關(guān)鍵詞詞典命中數(shù)不足,或文本長度大于一個預(yù)設(shè)值的文字節(jié)點(diǎn);(252)比較高命中集與疑似集的信息量;(253)若高命中集的信息量小于疑似集的信息量,則降低選入高命中集的命中數(shù)閾值,重新遍歷網(wǎng)頁源碼中的文字節(jié)點(diǎn),并重新建立高命中集;(254)若高命中集的信息量小于疑似集的信息量,則進(jìn)入步驟(26)。進(jìn)一步的,步驟(28)包括(281)若文字節(jié)點(diǎn)與新聞標(biāo)題、發(fā)布時間、消息來源的節(jié)點(diǎn)相同,則將該文字節(jié)點(diǎn)作為新聞?wù)牡钠鹗迹?282)若文字節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽是鏈接類型,且其向上的節(jié)點(diǎn)均不是列表類型,提取該文字節(jié)點(diǎn)的內(nèi)容加入新聞?wù)模?283)若文字節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽屬于<div>、〈paragraph〉、〈tablecolumn〉、〈heading〉、〈span〉當(dāng)中的一個,提取該文字節(jié)點(diǎn)內(nèi)容加入新聞?wù)?。相對于現(xiàn)有技術(shù),本發(fā)明的有益效果是本發(fā)明從對中文新聞網(wǎng)頁進(jìn)行統(tǒng)計分析入手,綜合機(jī)器學(xué)習(xí)方法、正則表達(dá)式法的優(yōu)勢,提出了精確提取新聞標(biāo)題、發(fā)布時間、消息來源、新聞?wù)乃囊氐囊徽鬃詣踊鞒?。本發(fā)明不會對特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。圖I為一個新聞網(wǎng)頁四個要素的示意圖;圖2為利用正則表達(dá)式的方法提取新聞要素的示意圖;圖3為本發(fā)明實(shí)施例的一種新聞網(wǎng)頁要素自動提取方法流程圖;圖4為根據(jù)圖I中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息形成的詞袋模型示意圖;圖5為本發(fā)明實(shí)施例較為詳盡的另一種新聞網(wǎng)頁要素自動提取方法流程圖;圖6為一種新聞網(wǎng)頁結(jié)構(gòu)特征示意圖;圖7為本發(fā)明主動學(xué)習(xí)方法學(xué)習(xí)未知來源的流程框架圖。具體實(shí)施例方式以下結(jié)合附圖具體說明本發(fā)明。請參見圖3,其為本發(fā)明實(shí)施例的一種新聞網(wǎng)頁要素自動提取方法流程圖,其包括以下步驟S31,提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞典。網(wǎng)頁標(biāo)題是對一個網(wǎng)頁的高度概括,在瀏覽一個網(wǎng)頁時,在瀏覽器頂端的顯示條出現(xiàn)的信息就是“網(wǎng)頁標(biāo)題”。在網(wǎng)頁源碼(HTML代碼)中,網(wǎng)頁標(biāo)題位于〈head〉…〈/head〉標(biāo)簽之間,其形式為網(wǎng)絡(luò)營銷教學(xué)網(wǎng)站〈/title〉,其中“網(wǎng)絡(luò)營銷教學(xué)網(wǎng)站”就是“網(wǎng)頁標(biāo)題”。網(wǎng)頁元信息包含在<meta>標(biāo)簽中,以鍵值對的形式提供與文檔相關(guān)的信息,主要用作搜索引擎的索引參照。元信息中,description是網(wǎng)頁內(nèi)容的描述信息,keywords是網(wǎng)頁內(nèi)容的關(guān)鍵詞,通過這兩個信息可以很好地了解新聞內(nèi)容。提取出網(wǎng)頁標(biāo)題與網(wǎng)頁元信息之后,本發(fā)明優(yōu)選采用詞袋模型提取有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞,并形成關(guān)鍵詞詞典。詞袋模型是文本挖掘中的一個概念,它不考慮詞語的順序、修飾關(guān)系,僅將文本段落看成是詞語的集合。以圖I的新聞頁面為例,根據(jù)其網(wǎng)頁標(biāo)題與網(wǎng)頁元信息可以形成的詞袋模型如圖4所示。在詞袋模型的基礎(chǔ)上,本發(fā)明可以進(jìn)一步將文本段落表示成向量,之后借助向量的距離、內(nèi)積等運(yùn)算來計算文本段落之間的內(nèi)容相似程度。如果僅考慮詞語是否出現(xiàn)并以向量距離作為相似度度量,相似度計算可以簡化為統(tǒng)計詞袋間公共詞條數(shù)目。當(dāng)然,文本的相似度計算除離散向量距離外,還有Cosine距離、歐氏距離、城市距離等。S32,對網(wǎng)頁源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞?,以及利用所述關(guān)鍵詞詞典檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源和新聞?wù)?。本發(fā)明所述的文字節(jié)點(diǎn)是指文檔對象模型中的節(jié)點(diǎn)。文檔對象模型(DocumentObjectModel,簡稱D0M),它是一種應(yīng)用程序接口,可以用來動態(tài)訪問HTML、XML等類型的文檔。本發(fā)明中主要用到HTMLD0M,它以樹狀結(jié)構(gòu)表示文檔,并定義了訪問與操作文檔中元素的方法。為進(jìn)一步理解本發(fā)明的技術(shù)方案,下面以一詳盡的實(shí)施例來具體說明本發(fā)明,請參見圖5,其為本發(fā)明實(shí)施例較為詳盡的另一種新聞網(wǎng)頁要素自動提取方法流程圖,其包括以下步驟S501,對網(wǎng)頁源碼進(jìn)行預(yù)處理,去除腳本(JS)代碼,以免其中包含的動態(tài)加載內(nèi)容干擾正文位置的判斷。S502,提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞典。提取出網(wǎng)頁標(biāo)題與網(wǎng)頁元信息之后,本發(fā)明優(yōu)選采用詞袋模型提取有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞,并形成關(guān)鍵詞詞典。詞袋模型如圖4所示,但詞袋中的詞并不都是需要的,有一些詞在新聞網(wǎng)頁中出現(xiàn)的極為頻繁,但它們對新聞內(nèi)容的表達(dá)沒有太大的幫助,比如“目前”、“所以”、“據(jù)了解”等詞,在本發(fā)明中稱之為停用詞(stopwords)。因此可以在初步形成關(guān)鍵詞詞典后,再將這些可能會干擾文本內(nèi)容相似度判斷的停用詞去除,以使運(yùn)算更為簡潔。S503,建立高命中集和疑似集。高命中集和疑似集分別用來在遍歷過程中,保存對關(guān)鍵詞詞典命中數(shù)高(意味著內(nèi)容相似度高)的文字節(jié)點(diǎn)以及命中數(shù)不足但節(jié)點(diǎn)文本足夠長的文字節(jié)點(diǎn),目的是為了發(fā)掘疑似正文進(jìn)而確定正文范圍。此后,解析網(wǎng)頁結(jié)構(gòu),開始遍歷其中的文字節(jié)點(diǎn)。S504,在遍歷過程的同時進(jìn)行對文字節(jié)點(diǎn)過濾,并將過濾出的文字節(jié)點(diǎn)排除在檢測范圍之外。本發(fā)明優(yōu)選采用兩種規(guī)則對文字節(jié)點(diǎn)進(jìn)行過濾①根據(jù)文字節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽對文字節(jié)點(diǎn)進(jìn)行過濾,包括.過濾掉無父節(jié)點(diǎn)的文字節(jié)點(diǎn);.過濾掉父節(jié)點(diǎn)標(biāo)簽不屬于<div>、〈paragraph〉、〈tablecolumn〉、〈heading〉、〈span〉當(dāng)中一個的文字節(jié)點(diǎn);.過濾掉父節(jié)點(diǎn)的標(biāo)簽為<div>,而樣式設(shè)置為“隱藏”的文字節(jié)點(diǎn);.當(dāng)新聞標(biāo)題與發(fā)布時間已被檢測到之后,過濾掉父節(jié)點(diǎn)的標(biāo)簽為〈heading〉的文字節(jié)點(diǎn);.過濾掉父節(jié)點(diǎn)的標(biāo)簽為〈span〉或<div>,而文本長度小于正文段落平均長度的文字節(jié)點(diǎn),所述正文段落平均長度是基于大量〈span〉或<div>標(biāo)簽樣本統(tǒng)計得到的經(jīng)驗(yàn)值,這類文字節(jié)點(diǎn)被認(rèn)為是導(dǎo)航信息而不予探查。②根據(jù)文本內(nèi)容對文字節(jié)點(diǎn)進(jìn)行過濾,包括.過濾掉包含版權(quán)聲明信息的文字節(jié)點(diǎn);.過濾掉含有“分享”和/或“評論”和/或“微博”的文字信息的文字節(jié)點(diǎn)。S505,新聞標(biāo)簽檢測。當(dāng)屬于網(wǎng)頁標(biāo)題的一文字節(jié)點(diǎn),該文字節(jié)點(diǎn)的文本長度不小于網(wǎng)頁標(biāo)題中文本長度的三分之一,或任一文字節(jié)點(diǎn)的文本與網(wǎng)頁標(biāo)題的文本相似度不小于預(yù)設(shè)閾值,則提取該文字節(jié)點(diǎn)的文本內(nèi)容為新聞標(biāo)題,且此后不再進(jìn)行新聞標(biāo)題的檢測。新聞標(biāo)題前不可能存在正文,所以一旦檢測出新聞標(biāo)簽,為優(yōu)化后續(xù)運(yùn)算,可以清除高命中集和疑似集中新聞標(biāo)題所在節(jié)點(diǎn)之前文字節(jié)點(diǎn)。S506,發(fā)布時間檢測。在標(biāo)題已找到的情況下,將文字節(jié)點(diǎn)的內(nèi)容與時間格式進(jìn)行匹配,并將匹配成功的文字節(jié)點(diǎn)的內(nèi)容提取為發(fā)布時間,且此后不再進(jìn)行發(fā)布時間的檢測。這里所述的時間格式一般有數(shù)字和數(shù)字連接符兩部分。年份數(shù)字可以是4位,比如“2012”,也可以是2位,比如“12”;月、日數(shù)字最多2位,I位情況下可以補(bǔ)零,比如“02月03日”,也可以不補(bǔ)零,比如“2月3日”。數(shù)字連接符主要有中橫線、點(diǎn)號、空格、文字(年月日)與正斜杠。發(fā)布時間前不可能存在正文,所以一旦檢測出發(fā)布時間,為優(yōu)化后續(xù)運(yùn)算,可以清除高命中集和疑似集中發(fā)布時間所在節(jié)點(diǎn)之前文字節(jié)點(diǎn)。S507,消息來源檢測。新聞網(wǎng)頁的發(fā)布時間與消息來源很有可能在同一段文本中,所以在找到發(fā)布時間后也要對其進(jìn)行來源格式匹配。當(dāng)一文字節(jié)點(diǎn)的內(nèi)容包含“來源”或“作者”的文字信息,則將該文字節(jié)點(diǎn)的內(nèi)容提取為消息來源,且此后不再進(jìn)行消息來源的檢測。S508,檢測文字節(jié)點(diǎn)對關(guān)鍵詞詞典的命中數(shù)。在遍歷的過程中,要對符合檢測要求的文字節(jié)點(diǎn)進(jìn)行考察,若一個文字節(jié)點(diǎn)中的內(nèi)容對關(guān)鍵詞詞典的命中數(shù)大于等于2,則將該文字節(jié)點(diǎn)添加到高命中集;若一個文字節(jié)點(diǎn)中的內(nèi)容對關(guān)鍵詞詞典的命中數(shù)為1,則將此節(jié)點(diǎn)添加到疑似集;若一個文字節(jié)點(diǎn)中的內(nèi)容對關(guān)鍵詞詞典沒有命中,但文字節(jié)點(diǎn)的文本長度大于20(20是一般中文新聞網(wǎng)頁正常顯示下半行的字?jǐn)?shù)),則認(rèn)為很可能屬于正文,仍將此節(jié)點(diǎn)添加到疑似集。其中,加入高命中集與疑似集的預(yù)設(shè)閾值,以及加入疑似集的文本長度均可以根據(jù)實(shí)際情況的需要來設(shè)置。S509,高命中集、疑似集信息量檢測。高命中集信息量的檢測主要依賴內(nèi)容,疑似集信息量的檢測主要依賴結(jié)構(gòu)因素。高命中集中文字節(jié)點(diǎn)個數(shù)記為NI;計算疑似集中每一個節(jié)點(diǎn)的LDR(Length-DistanceRatio)值,LDR值大于一定閾值的文字節(jié)點(diǎn)個數(shù)記為N2;疑似集中有關(guān)鍵詞命中的文字節(jié)點(diǎn)個數(shù)記為N3。根據(jù)三者間的大小關(guān)系得到高命中集和疑似集信息量的比較。、如果高命中集信息量大于疑似集,則進(jìn)入步驟S60,否則降低選入高命中集的命中數(shù)閾值(如由2命中降為I命中),重新遍歷并重新建立高命中集。如果遍歷之后發(fā)現(xiàn)仍然是疑似集信息量更大,則很有可能網(wǎng)頁標(biāo)題(〈title〉)和網(wǎng)頁元信息(<meta>)的信息不充分,可以直接從疑似集中選取N2數(shù)量的文字節(jié)點(diǎn)組成新的高命中集。如果N2為0,則很有可能正文文本很短或較分散,導(dǎo)致LDR值很小,此時可以直接進(jìn)行正文提取,方法如下.如果疑似集中的文字節(jié)點(diǎn)數(shù)量很少,可以直接取長度最長的文本作為正文;.將疑似集中的第一個節(jié)點(diǎn)作為標(biāo)題懷疑,從第二個節(jié)點(diǎn)開始,設(shè)置間隔閾值,尋找滿足間隔閾值的連續(xù)文本節(jié)點(diǎn),將其內(nèi)容的組合作為正文。其中,這里所提到的LDR(Length-DistanceRatio)值是一種新聞網(wǎng)頁的結(jié)構(gòu)特征,用來度量文本上下文連接緊密性,有助于區(qū)分正文與非正文。網(wǎng)頁中的文本有一定的文本長度,相鄰文本節(jié)點(diǎn)之間有一定的距離,長度與距離之比可以衡量文本間連接緊密性,如圖6所示,L為文本長度,D為文本節(jié)點(diǎn)之間的距離,前后取平均可以看作文本上下文緊密性的度量。LDR值的計算表達(dá)式如下服W=+5LDR值一定小于1,越接近于I表明上下文連接緊密性越好,該文本越可能是真實(shí)正文。S510,構(gòu)建提純集。提取高命中集中各文字節(jié)點(diǎn)在網(wǎng)頁代碼中的起始位置,采用聚類方法對高命中集進(jìn)行聚類,聚類是指根據(jù)文字節(jié)點(diǎn)的某些特征的相似性將高命中集劃分為不同類別的過程,類內(nèi)元素相似性大,類與類之間差別大??紤]到這些文字節(jié)點(diǎn)可能屬于正文前、正文中或正文后三個部分,優(yōu)選把初始類別數(shù)設(shè)為3。分析聚類結(jié)果,取最長連續(xù)節(jié)點(diǎn)集合作為高命中集的提純,稱為提純集。本發(fā)明的聚類方式優(yōu)選K-means聚類,Kneans聚類是一種聚類分析方法,它需要首先確定劃分類別的個數(shù)k,選取k個初始的類別中心,每個對象按照與k個中心的距離大小劃到其中某個類別中,之后更新k個類別中心,如此反復(fù)迭代,直至k個中心基本穩(wěn)定,SP得到k類聚類結(jié)果。S511,找出提純集中的最小公共父節(jié)點(diǎn)。枚舉提純集中每個文字節(jié)點(diǎn)的祖先(即DOM樹中各個文字節(jié)點(diǎn)上位的節(jié)點(diǎn)),重復(fù)的祖先累計計數(shù),尋找計數(shù)值最大節(jié)點(diǎn)中位置最靠后的作為正文起始節(jié)點(diǎn),這個節(jié)點(diǎn)也就是后述的提純集元素的最小公共父節(jié)點(diǎn)。如果新聞標(biāo)題節(jié)點(diǎn)已經(jīng)得到,且提取的正文起始節(jié)點(diǎn)的位置先于新聞標(biāo)題節(jié)點(diǎn),則認(rèn)為提純集混有正文之外的內(nèi)容,此時我們?nèi)∮嫈?shù)值次小節(jié)點(diǎn)中位置最靠后的作為修正后的正文起始節(jié)點(diǎn),記錄下其位置待用。S512,遍歷以最小公共父節(jié)點(diǎn)為根節(jié)點(diǎn)的文檔樹,并獲取新聞?wù)?。獲取新聞?wù)臅r,對以最小公共父節(jié)點(diǎn)為根節(jié)點(diǎn)的文檔樹中的文字節(jié)點(diǎn)作如下處理I)如果節(jié)點(diǎn)與已找到的新聞標(biāo)題、時間或來源節(jié)點(diǎn)相同,不予提取,但將其作為真實(shí)正文的起始,也就是要清空已找到的正文;2)如果節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽是鏈接類型,繼續(xù)向上探查,如果不是列表類型,也就可以排除導(dǎo)航可能,提取節(jié)點(diǎn)內(nèi)容加入已提取的正文;3)如果節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽屬于<div>,〈paragraph〉,〈tablecolumn〉,〈heading〉,〈span〉當(dāng)中的一個,提取節(jié)點(diǎn)內(nèi)容加入已提取的正文。本發(fā)明從對中文新聞網(wǎng)頁進(jìn)行統(tǒng)計分析入手,綜合機(jī)器學(xué)習(xí)方法、正則表達(dá)式法的優(yōu)勢,提出了精確提取新聞標(biāo)題、發(fā)布時間、消息來源、新聞?wù)乃囊氐囊徽鬃詣踊鞒?。本發(fā)明不會對特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。本發(fā)明按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞蜻M(jìn)行網(wǎng)頁的分析與提取,因?yàn)檎哪K一般都包含了所要找的四要素全體,因此一般情況下在提取新聞?wù)牡倪^程中便已獲得新聞標(biāo)題、發(fā)布時間和消息來源。但對于一些特殊的網(wǎng)頁,若在提取到新聞?wù)闹蟛]有獲取新聞標(biāo)題和發(fā)布時間則進(jìn)行以下額外的流程一、新聞標(biāo)題、發(fā)布時間的額外提取算法流程。S61、如果新聞標(biāo)題已在正文提取的過程中獲得,則不必進(jìn)行進(jìn)一步探查,否則執(zhí)行本流程,因?yàn)橹挥性谛侣剺?biāo)題已有的情況下才會進(jìn)行發(fā)布時間檢測,分兩種可能操作.若新聞標(biāo)題未獲得,但網(wǎng)頁標(biāo)題存在且關(guān)鍵詞詞典中元素數(shù)目較多,則未找到新聞標(biāo)題可能是因?yàn)橄嗨贫乳撝翟O(shè)置過高,此時可以降低閾值重新遍歷查找,查找范圍為正文起始節(jié)點(diǎn)前。.若新聞標(biāo)題未獲得,但關(guān)鍵詞詞典中元素數(shù)目較少,則認(rèn)為網(wǎng)頁標(biāo)題可能與正文內(nèi)容無關(guān),此時可以對已得到的正文內(nèi)容進(jìn)行分詞、去除停用詞,得到新的關(guān)鍵詞詞典,遍歷正文起始節(jié)點(diǎn)前的文字節(jié)點(diǎn),取對關(guān)鍵詞詞典命中數(shù)最多的文字節(jié)點(diǎn)作為新聞標(biāo)題。S62、如果經(jīng)過步驟S61新聞標(biāo)題、發(fā)布時間已找到,則不必進(jìn)行進(jìn)一步探查,否則有如下可能.若新聞標(biāo)題未獲得,可以擴(kuò)大新聞標(biāo)題的父節(jié)點(diǎn)標(biāo)簽可能的取值范圍,如果某個節(jié)點(diǎn)的文字滿足被網(wǎng)頁標(biāo)題包含或與網(wǎng)頁標(biāo)題相似度很高的條件,則認(rèn)為是新聞標(biāo)題,否則可以指定正文中的第一句話作為新聞標(biāo)題。對于正文時間,類似地,擴(kuò)大父標(biāo)簽的取值范圍,首先指定正文中第一個時間格式匹配項(xiàng)作為正文時間,否則指定正文前最后一個時間格式匹配項(xiàng)作為正文時間。.若新聞標(biāo)題已獲得,則按照上面的方法對時間進(jìn)行處理即可。二、消息來源的額外提取算法流程。S71、如果新聞標(biāo)題和時間已經(jīng)獲得,那么不管此時消息來源是否提取到,都要進(jìn)行進(jìn)一步探查,防止正文中包含的“來源”、“作者”詞語產(chǎn)生干擾,此前找到的消息來源保存?zhèn)溆谩72、消息來源一定位于新聞標(biāo)題節(jié)點(diǎn)后,可能位于時間節(jié)點(diǎn)后,但消息來源的文字長度一般小于正文中的段落。可以從新聞標(biāo)題節(jié)點(diǎn)后開始搜索,停止條件為當(dāng)前節(jié)點(diǎn)在時間節(jié)點(diǎn)后且節(jié)點(diǎn)文字長度大于一定閾值。如果在此過程中找到來源格式的文字則優(yōu)先選擇為消息來源。S73、如果步驟S72中并沒有找到消息來源,那么指定消息來源為S71中保存的來源,如果步驟S72中保存的來源為空,我們指定消息來源為標(biāo)題之后第一個來源格式匹配項(xiàng),不限父節(jié)點(diǎn)標(biāo)簽類型。S74、如果到此步驟仍未獲得正文來源,可以輸出疑似來源列表,進(jìn)入主動學(xué)習(xí)的模式。.交互學(xué)習(xí)用戶可以在疑似來源列表中指定真實(shí)的消息來源,程序把這一指定結(jié)果存入后臺數(shù)據(jù)庫。每隔一段時間會從數(shù)據(jù)庫中讀取所有用戶指定的消息來源,對它們進(jìn)行可靠性檢查,如果確屬來源,則正式加入媒體詞列表,應(yīng)用于提取算法中。.疑似來源統(tǒng)計分析在沒有用戶參與的情況下,可以把疑似來源列表存入后臺數(shù)據(jù)庫,重復(fù)的詞予以累加。每隔一段時間統(tǒng)計數(shù)據(jù)庫中疑似來源詞語的計數(shù),根據(jù)計數(shù)值對每一個詞語賦予一定概率值以表示其為媒體詞的可能性。在實(shí)際應(yīng)用中,隨著系統(tǒng)的運(yùn)行,新聞媒體成為來源的次數(shù)會很多,而疑似來源列表中的非來源詞會很分散。詞語的計數(shù)值越高,它代表新聞來源的可能性就越大。主動學(xué)習(xí)的流程框架如圖7所示。本發(fā)明人還對本發(fā)明的方法作了準(zhǔn)確性測試發(fā)明人以百度RSS為新聞網(wǎng)頁來源,抓取了11類來自429個站點(diǎn)共1721條無重復(fù)新聞作為測試集,測試在東芝M332筆記本電腦上進(jìn)行,該機(jī)裝有32位Win7旗艦版操作系統(tǒng),處理器型號是Intel(R)Core(TM)2DuoCpuT6400,主頻2.OOGHz,內(nèi)存2.00G,測試部分按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)牡捻樞蜻M(jìn)行。測試結(jié)果如表I所示權(quán)利要求1.一種新聞網(wǎng)頁要素自動提取方法,其特征在于,包括以下步驟(1)提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞典;(2)對網(wǎng)頁源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞颍约袄盟鲫P(guān)鍵詞詞典檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源和新聞?wù)摹?.如權(quán)利要求I所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(I)之前還包括(10)對網(wǎng)頁源碼進(jìn)行預(yù)處理,去除腳本代碼。3.如權(quán)利要求I所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(I)還包括(11)對提取出的網(wǎng)頁標(biāo)題與網(wǎng)頁元信息進(jìn)行分詞并去除停用詞。4.如權(quán)利要求I所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(2)中還包括(21)對文字節(jié)點(diǎn)進(jìn)行過濾,并將過濾出的文字節(jié)點(diǎn)排除在檢測范圍之外。5.如權(quán)利要求4所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(21)中,根據(jù)文字節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽對文字節(jié)點(diǎn)進(jìn)行過濾,包括(211)過濾掉無父節(jié)點(diǎn)的文字節(jié)點(diǎn);(212)過濾掉父節(jié)點(diǎn)標(biāo)簽不屬于<div>、〈paragraph〉、〈tablecolumn〉、〈heading〉、〈span〉當(dāng)中一個的文字節(jié)點(diǎn);(213)過濾掉父節(jié)點(diǎn)的標(biāo)簽為<div>,而樣式設(shè)置為“隱藏”的文字節(jié)點(diǎn);(214)當(dāng)新聞標(biāo)題與發(fā)布時間已被檢測到之后,過濾掉父節(jié)點(diǎn)的標(biāo)簽為〈heading〉的文字節(jié)點(diǎn);(215)過濾掉父節(jié)點(diǎn)的標(biāo)簽為〈span〉或<div>,而文本長度小于正文段落平均長度的文字節(jié)點(diǎn)。6.如權(quán)利要求4所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(21)中,根據(jù)文本內(nèi)容對文字節(jié)點(diǎn)進(jìn)行過濾,包括(216)過濾掉包含版權(quán)聲明信息的文字節(jié)點(diǎn);(217)過濾掉含有“分享”和/或“評論”和/或“微博”的文字信息的文字節(jié)點(diǎn)。7.如權(quán)利要求I所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(2)中,檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源時包括(22)當(dāng)屬于網(wǎng)頁標(biāo)題的一文字節(jié)點(diǎn),該文字節(jié)點(diǎn)的文本長度不小于網(wǎng)頁標(biāo)題中文本長度的三分之一,或任一文字節(jié)點(diǎn)的文本與網(wǎng)頁標(biāo)題的文本相似度不小于預(yù)設(shè)閾值,則提取該文字節(jié)點(diǎn)的文本內(nèi)容為新聞標(biāo)題,且此后不再進(jìn)行新聞標(biāo)題的檢測;(23)將文字節(jié)點(diǎn)的內(nèi)容與時間格式進(jìn)行匹配,并將匹配成功的文字節(jié)點(diǎn)的內(nèi)容提取為發(fā)布時間,且此后不再進(jìn)行發(fā)布時間的檢測;(24)當(dāng)一文字節(jié)點(diǎn)的內(nèi)容包含“來源”或“作者”的文字信息,則將該文字節(jié)點(diǎn)的內(nèi)容提取為消息來源,且此后不再進(jìn)行消息來源的檢測。8.如權(quán)利要求I所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(2)中,檢測并提取新聞?wù)臅r包括(25)建立高命中集,保存對關(guān)鍵詞詞典命中數(shù)高的文字節(jié)點(diǎn);(26)采用聚類方式對高命中集進(jìn)行提純,取最長連續(xù)節(jié)點(diǎn)集合作為提純集;(27)找出提純集中的最小公共父節(jié)點(diǎn);(28)遍歷以最小公共父節(jié)點(diǎn)為根節(jié)點(diǎn)的文檔樹,并獲取新聞?wù)摹?.如權(quán)利要求8所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(25)之后,還包括(251)建立疑似集,保存對關(guān)鍵詞詞典命中數(shù)不足,或文本長度大于一個預(yù)設(shè)值的文字節(jié)點(diǎn);(252)比較高命中集與疑似集的信息量;(253)若高命中集的信息量小于疑似集的信息量,則降低選入高命中集的命中數(shù)閾值,重新遍歷網(wǎng)頁源碼中的文字節(jié)點(diǎn),并重新建立高命中集;(254)若高命中集的信息量小于疑似集的信息量,則進(jìn)入步驟(26)。10.如權(quán)利要求8所述的新聞網(wǎng)頁要素自動提取方法,其特征在于,步驟(28)包括(281)若文字節(jié)點(diǎn)與新聞標(biāo)題、發(fā)布時間、消息來源的節(jié)點(diǎn)相同,則將該文字節(jié)點(diǎn)作為新聞?wù)牡钠鹗迹?282)若文字節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽是鏈接類型,且其向上的節(jié)點(diǎn)均不是列表類型,提取該文字節(jié)點(diǎn)的內(nèi)容加入新聞?wù)模?283)若文字節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽屬于<div>、〈paragraph>、〈tablecolumn>、〈heading〉、〈span〉當(dāng)中的一個,提取該文字節(jié)點(diǎn)內(nèi)容加入新聞?wù)摹H恼景l(fā)明提出一種新聞網(wǎng)頁要素自動提取方法,包括以下步驟(1)提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞典;(2)對網(wǎng)頁源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞?,以及利用所述關(guān)鍵詞詞典檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源和新聞?wù)?。本發(fā)明不會對特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。文檔編號G06F17/30GK102750390SQ20121023283公開日2012年10月24日申請日期2012年7月5日優(yōu)先權(quán)日2012年7月5日發(fā)明者宋成儒,張長水,翁時鋒申請人:翁時鋒
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
鄂托克前旗| 石河子市| 文山县| 灵石县| 宁乡县| 清苑县| 平定县| 宜君县| 舟山市| 江永县| 延长县| 渝北区| 麻栗坡县| 广南县| 古交市| 华坪县| 惠州市| 东安县| 芦山县| 苏尼特左旗| 蒲城县| 乌拉特中旗| 崇礼县| 东明县| 惠来县| 永顺县| 镇康县| 瑞丽市| 乌恰县| 安图县| 吴桥县| 泾川县| 禄丰县| 郴州市| 将乐县| 甘洛县| 南溪县| 石门县| 长海县| 青河县| 招远市|