基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法
【專利摘要】本發(fā)明是一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法,該方法首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)網(wǎng)站類型加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S;其次根據(jù)標(biāo)簽的正則表達(dá)式結(jié)合各個(gè)網(wǎng)站類型的關(guān)鍵字識(shí)別出集合S中的時(shí)間,進(jìn)而進(jìn)行時(shí)間提取。對(duì)于新聞?lì)惥W(wǎng)站,在集合S中利用正則表達(dá)式識(shí)別出信息標(biāo)題,利用時(shí)間出現(xiàn)在標(biāo)題附近這一特點(diǎn),在標(biāo)題附近進(jìn)行時(shí)間正則表達(dá)式匹配。本發(fā)明方法對(duì)于論壇信息時(shí)間的提取結(jié)合關(guān)鍵字與時(shí)間正則表達(dá)式,能夠達(dá)到良好的準(zhǔn)確率,對(duì)信息發(fā)表時(shí)間能快速準(zhǔn)確的提取。該方法采集效率高,在采集過(guò)程中,占用網(wǎng)絡(luò)資源小。
【專利說(shuō)明】基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)信息采集領(lǐng)域,具體地說(shuō)是ー種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法。
【背景技術(shù)】
[0002]隨著社會(huì)信息化的迅猛發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要來(lái)源。而網(wǎng)絡(luò)信息具有海量,復(fù)雜,非結(jié)構(gòu)化等特點(diǎn),為網(wǎng)絡(luò)信息的獲取以及基于網(wǎng)絡(luò)信息搜集的分析與研究工作都帶來(lái)了很大困難。大量的實(shí)踐也表明,在網(wǎng)絡(luò)上對(duì)各種不同的信息載體(新聞網(wǎng)、博客、論壇、微博等)進(jìn)行信息采集已經(jīng)可以基本達(dá)到要求,但如果進(jìn)ー步得到信息的發(fā)表時(shí)間還有一定的技術(shù)難題。特別是想要臨時(shí)性的針對(duì)某個(gè)特定目標(biāo)進(jìn)行信息采集吋,對(duì)采集系統(tǒng)的適用能力、采集效率和準(zhǔn)確率都提出了很高的要求?,F(xiàn)有技術(shù)中還沒(méi)有公開(kāi)可以滿足這些要求的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取技木。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)存在的不足,提供ー種方法更為簡(jiǎn)単、可以對(duì)采集目標(biāo)的發(fā)表時(shí)間進(jìn)行準(zhǔn)確提取的基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法。
[0004]本發(fā)明所要解決的技術(shù)問(wèn)題是通過(guò)下述技術(shù)方案來(lái)實(shí)現(xiàn)的。本發(fā)明是ー種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法,其特點(diǎn)是:首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)Url判斷網(wǎng)站類型,加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S ;其次對(duì)于新聞?lì)惥W(wǎng)站根據(jù)標(biāo)簽的正則表達(dá)式識(shí)別出集合S中的標(biāo)題行L,并為標(biāo)題行L中的每個(gè)符號(hào)節(jié)點(diǎn)進(jìn)行分割,得到最大標(biāo)題長(zhǎng)度;其具體步驟如下:
A、根據(jù)Url判斷網(wǎng)站類型,加載目標(biāo)頁(yè)面得到文本源碼集合S;其操作步驟如下:
Al、輸入網(wǎng)頁(yè)地址,根據(jù)Url的一般表示習(xí)慣,判斷出網(wǎng)站類型;
A2、輸入網(wǎng)頁(yè)地址,利用HttpClient獲取原始HTML源碼集合S ;
B、新聞?lì)惥W(wǎng)站,識(shí)別并標(biāo)記集合S中的標(biāo)題行L,并匹配時(shí)間;其操作步驟如下:
B1、依據(jù)正則匹配文本源碼集合S得到標(biāo)題行L ;
B2、用標(biāo)題行L中的符號(hào)對(duì)L進(jìn)行分割,取到最大長(zhǎng)度無(wú)符號(hào)標(biāo)題T ;
B3、根據(jù)得到的標(biāo)題T,在其500的字符內(nèi)用時(shí)間正則表達(dá)式進(jìn)行時(shí)間匹配;
B4、如果匹配不到時(shí)間,找集合S中出現(xiàn)的下一個(gè)標(biāo)題,轉(zhuǎn)B3,如果無(wú)下ー標(biāo)題,則匹配失??;
C、論壇類網(wǎng)站,根據(jù)關(guān)鍵字匹配時(shí)間;其操作步驟如下:
Cl、根據(jù)論壇發(fā)表時(shí)間關(guān)鍵字集合后10個(gè)字符內(nèi)匹配時(shí)間正則表達(dá)式;
C2、根據(jù)由Cl生成的新的正則表達(dá)式,對(duì)集合S進(jìn)行匹配;
C3、若匹配到時(shí)間則成功,否則直接匹配時(shí)間格式,取最新時(shí)間;
D、對(duì)于其它網(wǎng)站的時(shí)間匹配,其操作步驟如下: D1、對(duì)于百度貼吧,根據(jù)特有的關(guān)鍵字進(jìn)行時(shí)間匹配;
D2、對(duì)于微博,調(diào)用微博的API,進(jìn)行時(shí)間提?。?br>
D3、對(duì)于其它網(wǎng)站,直接對(duì)S進(jìn)行時(shí)間正則表達(dá)式匹配;
至此,信息發(fā)表時(shí)間的自動(dòng)提取結(jié)束。
[0005]本發(fā)明方法中,輸入網(wǎng)頁(yè)地址,根據(jù)Url的一般表示習(xí)慣,可以判斷出網(wǎng)站類型,如包含關(guān)鍵字“bbs ”、“ forum”、“ cIub ”等可判斷網(wǎng)站為論壇。
[0006]本發(fā)明方法是為了適應(yīng)市場(chǎng)越來(lái)越多的需求,可以比較準(zhǔn)確地對(duì)一些信息載體(新聞網(wǎng)、博客、論壇、微博等)進(jìn)行時(shí)間提取。本發(fā)明信息發(fā)表時(shí)間的自動(dòng)提取方法,一方面應(yīng)用于輿情管理領(lǐng)域,使用在公安、安全、安監(jiān)等政府部門,對(duì)監(jiān)測(cè)內(nèi)容的時(shí)間進(jìn)行自動(dòng)提取,對(duì)于政府部門來(lái)說(shuō)時(shí)的確定監(jiān)測(cè)內(nèi)容的時(shí)間可幫助有有關(guān)總站及時(shí)做出反應(yīng),及時(shí)的確定監(jiān)測(cè)內(nèi)容的時(shí)間可幫助有有關(guān)總站及時(shí)做出反應(yīng);另一方面也可以使用在信息分析領(lǐng)域,如:電子商務(wù)行業(yè)。
[0007]與現(xiàn)有技術(shù)相比,本發(fā)明的一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法具有以下技術(shù)優(yōu)點(diǎn):
1、本發(fā)明方法對(duì)信息發(fā)表時(shí)間能快速準(zhǔn)確的提??;
2、本發(fā)明方法采集效率高:在采集過(guò)程中,占用網(wǎng)絡(luò)資源小。
【專利附圖】
【附圖說(shuō)明】
[0008]圖1是本發(fā)明方法的一種流程框圖;
圖2是圖1中步驟102所述的識(shí)別網(wǎng)站類型并得到集合S流程圖;
圖3是圖1中步驟103所述的對(duì)于新聞?lì)惥W(wǎng)站時(shí)間提取的流程圖;
圖4是圖1中步驟104所述的是對(duì)論壇及普通網(wǎng)站時(shí)間提取的流程圖。
【具體實(shí)施方式】
[0009]以下參照附圖,進(jìn)一步描述本發(fā)明的具體技術(shù)方案,以便于本領(lǐng)域的技術(shù)人員進(jìn)一步地理解本發(fā)明,而不構(gòu)成對(duì)其權(quán)利的限制。
[0010]實(shí)施例1,參照?qǐng)D1-圖4,一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法,首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)Url判斷網(wǎng)站類型,加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S ;其次對(duì)于新聞?lì)惥W(wǎng)站根據(jù)標(biāo)簽的正則表達(dá)式識(shí)別出集合S中的標(biāo)題行L,并為標(biāo)題行L中的每個(gè)符號(hào)節(jié)點(diǎn)進(jìn)行分割,得到最大標(biāo)題長(zhǎng)度;其具體步驟如下:
A、根據(jù)Url判斷網(wǎng)站類型,加載目標(biāo)頁(yè)面得到文本源碼集合S;其操作步驟如下:
Al、輸入網(wǎng)頁(yè)地址,根據(jù)Url的一般表示習(xí)慣,判斷出網(wǎng)站類型;
A2、輸入網(wǎng)頁(yè)地址,利用HttpClient獲取原始HTML源碼集合S ;
B、新聞?lì)惥W(wǎng)站,識(shí)別并標(biāo)記集合S中的標(biāo)題行L,并匹配時(shí)間;其操作步驟如下:
B1、依據(jù)正則匹配文本源碼集合S得到標(biāo)題行L ;
B2、用標(biāo)題行L中的符號(hào)對(duì)L進(jìn)行分割,取到最大長(zhǎng)度無(wú)符號(hào)標(biāo)題T ;
B3、根據(jù)得到的標(biāo)題T,在其500的字符內(nèi)用時(shí)間正則表達(dá)式進(jìn)行時(shí)間匹配;
B4、如果匹配不到時(shí)間,找集合S中出現(xiàn)的下一個(gè)標(biāo)題,轉(zhuǎn)B3,如果無(wú)下一標(biāo)題,則匹配失敗;C、論壇類網(wǎng)站,根據(jù)關(guān)鍵字匹配時(shí)間;其操作步驟如下:
Cl、根據(jù)論壇發(fā)表時(shí)間關(guān)鍵字集合后10個(gè)字符內(nèi)匹配時(shí)間正則表達(dá)式;
C2、根據(jù)由Cl生成的新的正則表達(dá)式,對(duì)集合S進(jìn)行匹配;
C3、若匹配到時(shí)間則成功,否則直接匹配時(shí)間格式,取最新時(shí)間;
D、對(duì)于其它網(wǎng)站的時(shí)間匹配,其操作步驟如下:
D1、對(duì)于百度貼吧,根據(jù)特有的關(guān)鍵字進(jìn)行時(shí)間匹配;
D2、對(duì)于微博,調(diào)用微博的API,進(jìn)行時(shí)間提?。?br>
D3、對(duì)于其它網(wǎng)站,直接對(duì)S進(jìn)行時(shí)間正則表達(dá)式匹配;
至此,信息發(fā)表時(shí)間的自動(dòng)提取結(jié)束。
[0011]實(shí)施例2,參照?qǐng)D1-4,ー種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法進(jìn)行的操作實(shí)驗(yàn),步驟如下:
步驟101、根據(jù)Url判斷網(wǎng)站類型,加載目標(biāo)頁(yè)面得到文本源碼集合S ;其具體如下:
(I)輸入網(wǎng)頁(yè)地址,根據(jù)Url的一般表示習(xí)慣,可以判斷出網(wǎng)站類型,如包含關(guān)鍵字“bbs,,、“forum”、“cIub”等可判斷網(wǎng)站為論壇。
[0012](2)、輸入網(wǎng)頁(yè)地址利用HttpClient獲取原始HTML源碼集合S ;例如,通過(guò)互聯(lián)網(wǎng)得到的原始HTML源碼集合S如下:
<html>
〈head〉
〈title〉標(biāo)題〈/title〉
時(shí)間
〈/head〉
<p id=〃content—id〃> 內(nèi)容 </p>
〈/body〉
</html>
步驟102、識(shí)別出網(wǎng)站類型,得到源碼集合S。參照?qǐng)D2,包括如下步驟:
步驟201、使用正則表達(dá)式r=“〈title>*〈/title>”識(shí)別集合S中的標(biāo)簽標(biāo)題行L再根據(jù)符號(hào)分割得到最大長(zhǎng)度標(biāo)題T。例如:A1中所述的集合S中的〈title〉所對(duì)就的標(biāo)題行L內(nèi)容,,;
步驟202、若得到標(biāo)題行L,如果是非空值,則說(shuō)明在集合S已得到標(biāo)題,即執(zhí)行步驟203;匹配不到標(biāo)題則失敗,對(duì)標(biāo)題根據(jù)符號(hào)進(jìn)行分割,取最長(zhǎng)字符串為標(biāo)題T,執(zhí)行步驟204 ;
步驟203、在標(biāo)題后500字條匹配不到時(shí)間;
步驟204、若匹配不到時(shí)間,找下ー個(gè)標(biāo)題,找到標(biāo)題執(zhí)行步驟203,找不到標(biāo)題失敗 步驟103、對(duì)于論壇網(wǎng)站進(jìn)行關(guān)鍵字匹配,參照?qǐng)D3,包括如下步驟:
步驟301、根據(jù)生成的集合S,結(jié)合論壇類網(wǎng)站的關(guān)鍵字;
步驟302、利用關(guān)鍵字匹配時(shí)間;
步驟303、若匹配不到時(shí)間,剛直接時(shí)間正則表達(dá)式匹配,若得到兩個(gè)時(shí)間,取最新的時(shí)間,若匹配不到時(shí)間,則失敗;
步驟104、對(duì)于其它網(wǎng)站信息發(fā)表時(shí)間的自動(dòng)提取,參照?qǐng)D4,包括如下步驟:步驟401、根據(jù)分析網(wǎng)站URL,判斷網(wǎng)站類型下ー步驟402 ;
步驟402、對(duì)于百度貼吧,進(jìn)行關(guān)鍵字匹配;
步驟403、對(duì)于微博,利用API調(diào)取時(shí)間;
步驟404、,對(duì)于其它網(wǎng)站,進(jìn)行時(shí)正則表達(dá)式匹配,如步驟303。
【權(quán)利要求】
1.一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法,其特征在于:首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)Url判斷網(wǎng)站類型,加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S ;其次對(duì)于新聞?lì)惥W(wǎng)站根據(jù)標(biāo)簽的正則表達(dá)式識(shí)別出集合S中的標(biāo)題行L,并為標(biāo)題行L中的每個(gè)符號(hào)節(jié)點(diǎn)進(jìn)行分割,得到最大標(biāo)題長(zhǎng)度;其具體步驟如下: A、根據(jù)Url判斷網(wǎng)站類型,加載目標(biāo)頁(yè)面得到文本源碼集合S;其操作步驟如下: Al、輸入網(wǎng)頁(yè)地址,根據(jù)Url的一般表示習(xí)慣,判斷出網(wǎng)站類型; A2、輸入網(wǎng)頁(yè)地址,利用HttpClient獲取原始HTML源碼集合S ; B、新聞?lì)惥W(wǎng)站,識(shí)別并標(biāo)記集合S中的標(biāo)題行L,并匹配時(shí)間;其操作步驟如下: B1、依據(jù)正則匹配文本源碼集合S得到標(biāo)題行L ; B2、用標(biāo)題行L中的符號(hào)對(duì)L進(jìn)行分割,取到最大長(zhǎng)度無(wú)符號(hào)標(biāo)題T ; B3、根據(jù)得到的標(biāo)題T,在其500的字符內(nèi)用時(shí)間正則表達(dá)式進(jìn)行時(shí)間匹配; B4、如果匹配不到時(shí)間,找集合S中出現(xiàn)的下一個(gè)標(biāo)題,轉(zhuǎn)B3,如果無(wú)下一標(biāo)題,則匹配失??; C、論壇類網(wǎng)站,根據(jù)關(guān)鍵字匹配時(shí)間;其操作步驟如下: Cl、根據(jù)論壇發(fā)表時(shí)間關(guān)鍵字集合后10個(gè)字符內(nèi)匹配時(shí)間正則表達(dá)式; C2、根據(jù)由Cl生成的新的正則表達(dá)式,對(duì)集合S進(jìn)行匹配; C3、若匹配到時(shí)間則成功,否則直接匹配時(shí)間格式,取最新時(shí)間; D、對(duì)于其它網(wǎng)站的時(shí)間匹配,其操作步驟如下: D1、對(duì)于百度貼吧,根據(jù)特有的關(guān)鍵字進(jìn)行時(shí)間匹配; D2、對(duì)于微博,調(diào)用微博的API,進(jìn)行時(shí)間提??; D3、對(duì)于其它網(wǎng)站,直接對(duì)S進(jìn)行時(shí)間正則表達(dá)式匹配; 至此,信息發(fā)表時(shí)間的自動(dòng)提取結(jié)束。
【文檔編號(hào)】G06F17/30GK103593360SQ201210290557
【公開(kāi)日】2014年2月19日 申請(qǐng)日期:2012年8月16日 優(yōu)先權(quán)日:2012年8月16日
【發(fā)明者】陳宗華, 陳永江, 葛恒虎, 劉永超, 喬磊 申請(qǐng)人:江蘇金鴿網(wǎng)絡(luò)科技有限公司