基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法

文檔序號(hào)：6487875閱讀：185來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法
【專利摘要】本發(fā)明是一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法，該方法首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)網(wǎng)站類型加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S；其次根據(jù)標(biāo)簽的正則表達(dá)式結(jié)合各個(gè)網(wǎng)站類型的關(guān)鍵字識(shí)別出集合S中的時(shí)間，進(jìn)而進(jìn)行時(shí)間提取。對(duì)于新聞?lì)惥W(wǎng)站，在集合S中利用正則表達(dá)式識(shí)別出信息標(biāo)題，利用時(shí)間出現(xiàn)在標(biāo)題附近這一特點(diǎn)，在標(biāo)題附近進(jìn)行時(shí)間正則表達(dá)式匹配。本發(fā)明方法對(duì)于論壇信息時(shí)間的提取結(jié)合關(guān)鍵字與時(shí)間正則表達(dá)式，能夠達(dá)到良好的準(zhǔn)確率，對(duì)信息發(fā)表時(shí)間能快速準(zhǔn)確的提取。該方法采集效率高，在采集過(guò)程中，占用網(wǎng)絡(luò)資源小。
【專利說(shuō)明】基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)信息采集領(lǐng)域，具體地說(shuō)是ー種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法。
【背景技術(shù)】
[0002]隨著社會(huì)信息化的迅猛發(fā)展，網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要來(lái)源。而網(wǎng)絡(luò)信息具有海量，復(fù)雜，非結(jié)構(gòu)化等特點(diǎn)，為網(wǎng)絡(luò)信息的獲取以及基于網(wǎng)絡(luò)信息搜集的分析與研究工作都帶來(lái)了很大困難。大量的實(shí)踐也表明，在網(wǎng)絡(luò)上對(duì)各種不同的信息載體(新聞網(wǎng)、博客、論壇、微博等)進(jìn)行信息采集已經(jīng)可以基本達(dá)到要求，但如果進(jìn)ー步得到信息的發(fā)表時(shí)間還有一定的技術(shù)難題。特別是想要臨時(shí)性的針對(duì)某個(gè)特定目標(biāo)進(jìn)行信息采集吋，對(duì)采集系統(tǒng)的適用能力、采集效率和準(zhǔn)確率都提出了很高的要求?，F(xiàn)有技術(shù)中還沒(méi)有公開(kāi)可以滿足這些要求的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取技木。

【發(fā)明內(nèi)容】

[0003]本發(fā)明要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)存在的不足，提供ー種方法更為簡(jiǎn)単、可以對(duì)采集目標(biāo)的發(fā)表時(shí)間進(jìn)行準(zhǔn)確提取的基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法。
[0004]本發(fā)明所要解決的技術(shù)問(wèn)題是通過(guò)下述技術(shù)方案來(lái)實(shí)現(xiàn)的。本發(fā)明是ー種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法，其特點(diǎn)是:首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)Url判斷網(wǎng)站類型，加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S ;其次對(duì)于新聞?lì)惥W(wǎng)站根據(jù)標(biāo)簽的正則表達(dá)式識(shí)別出集合S中的標(biāo)題行L，并為標(biāo)題行L中的每個(gè)符號(hào)節(jié)點(diǎn)進(jìn)行分割，得到最大標(biāo)題長(zhǎng)度；其具體步驟如下:
A、根據(jù)Url判斷網(wǎng)站類型，加載目標(biāo)頁(yè)面得到文本源碼集合S;其操作步驟如下:
Al、輸入網(wǎng)頁(yè)地址，根據(jù)Url的一般表示習(xí)慣，判斷出網(wǎng)站類型；
A2、輸入網(wǎng)頁(yè)地址，利用HttpClient獲取原始HTML源碼集合S ；
B、新聞?lì)惥W(wǎng)站，識(shí)別并標(biāo)記集合S中的標(biāo)題行L，并匹配時(shí)間；其操作步驟如下:
B1、依據(jù)正則匹配文本源碼集合S得到標(biāo)題行L ；
B2、用標(biāo)題行L中的符號(hào)對(duì)L進(jìn)行分割，取到最大長(zhǎng)度無(wú)符號(hào)標(biāo)題T ；
B3、根據(jù)得到的標(biāo)題T，在其500的字符內(nèi)用時(shí)間正則表達(dá)式進(jìn)行時(shí)間匹配；
B4、如果匹配不到時(shí)間，找集合S中出現(xiàn)的下一個(gè)標(biāo)題，轉(zhuǎn)B3，如果無(wú)下ー標(biāo)題，則匹配失??；
C、論壇類網(wǎng)站，根據(jù)關(guān)鍵字匹配時(shí)間；其操作步驟如下:
Cl、根據(jù)論壇發(fā)表時(shí)間關(guān)鍵字集合后10個(gè)字符內(nèi)匹配時(shí)間正則表達(dá)式；
C2、根據(jù)由Cl生成的新的正則表達(dá)式，對(duì)集合S進(jìn)行匹配；
C3、若匹配到時(shí)間則成功，否則直接匹配時(shí)間格式，取最新時(shí)間；
D、對(duì)于其它網(wǎng)站的時(shí)間匹配，其操作步驟如下: D1、對(duì)于百度貼吧，根據(jù)特有的關(guān)鍵字進(jìn)行時(shí)間匹配；
D2、對(duì)于微博，調(diào)用微博的API，進(jìn)行時(shí)間提?。?br> D3、對(duì)于其它網(wǎng)站，直接對(duì)S進(jìn)行時(shí)間正則表達(dá)式匹配；
至此，信息發(fā)表時(shí)間的自動(dòng)提取結(jié)束。
[0005]本發(fā)明方法中，輸入網(wǎng)頁(yè)地址，根據(jù)Url的一般表示習(xí)慣，可以判斷出網(wǎng)站類型，如包含關(guān)鍵字“bbs ”、“ forum”、“ cIub ”等可判斷網(wǎng)站為論壇。
[0006]本發(fā)明方法是為了適應(yīng)市場(chǎng)越來(lái)越多的需求，可以比較準(zhǔn)確地對(duì)一些信息載體(新聞網(wǎng)、博客、論壇、微博等)進(jìn)行時(shí)間提取。本發(fā)明信息發(fā)表時(shí)間的自動(dòng)提取方法，一方面應(yīng)用于輿情管理領(lǐng)域，使用在公安、安全、安監(jiān)等政府部門，對(duì)監(jiān)測(cè)內(nèi)容的時(shí)間進(jìn)行自動(dòng)提取，對(duì)于政府部門來(lái)說(shuō)時(shí)的確定監(jiān)測(cè)內(nèi)容的時(shí)間可幫助有有關(guān)總站及時(shí)做出反應(yīng)，及時(shí)的確定監(jiān)測(cè)內(nèi)容的時(shí)間可幫助有有關(guān)總站及時(shí)做出反應(yīng)；另一方面也可以使用在信息分析領(lǐng)域，如:電子商務(wù)行業(yè)。
[0007]與現(xiàn)有技術(shù)相比，本發(fā)明的一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法具有以下技術(shù)優(yōu)點(diǎn):
1、本發(fā)明方法對(duì)信息發(fā)表時(shí)間能快速準(zhǔn)確的提??；
2、本發(fā)明方法采集效率高:在采集過(guò)程中，占用網(wǎng)絡(luò)資源小。
【專利附圖】

【附圖說(shuō)明】
[0008]圖1是本發(fā)明方法的一種流程框圖；
圖2是圖1中步驟102所述的識(shí)別網(wǎng)站類型并得到集合S流程圖；
圖3是圖1中步驟103所述的對(duì)于新聞?lì)惥W(wǎng)站時(shí)間提取的流程圖；
圖4是圖1中步驟104所述的是對(duì)論壇及普通網(wǎng)站時(shí)間提取的流程圖。
【具體實(shí)施方式】
[0009]以下參照附圖，進(jìn)一步描述本發(fā)明的具體技術(shù)方案，以便于本領(lǐng)域的技術(shù)人員進(jìn)一步地理解本發(fā)明，而不構(gòu)成對(duì)其權(quán)利的限制。
[0010]實(shí)施例1，參照?qǐng)D1-圖4，一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法，首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)Url判斷網(wǎng)站類型，加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S ;其次對(duì)于新聞?lì)惥W(wǎng)站根據(jù)標(biāo)簽的正則表達(dá)式識(shí)別出集合S中的標(biāo)題行L，并為標(biāo)題行L中的每個(gè)符號(hào)節(jié)點(diǎn)進(jìn)行分割，得到最大標(biāo)題長(zhǎng)度；其具體步驟如下:
A、根據(jù)Url判斷網(wǎng)站類型，加載目標(biāo)頁(yè)面得到文本源碼集合S;其操作步驟如下:
Al、輸入網(wǎng)頁(yè)地址，根據(jù)Url的一般表示習(xí)慣，判斷出網(wǎng)站類型；
A2、輸入網(wǎng)頁(yè)地址，利用HttpClient獲取原始HTML源碼集合S ；
B、新聞?lì)惥W(wǎng)站，識(shí)別并標(biāo)記集合S中的標(biāo)題行L，并匹配時(shí)間；其操作步驟如下:
B1、依據(jù)正則匹配文本源碼集合S得到標(biāo)題行L ；
B2、用標(biāo)題行L中的符號(hào)對(duì)L進(jìn)行分割，取到最大長(zhǎng)度無(wú)符號(hào)標(biāo)題T ；
B3、根據(jù)得到的標(biāo)題T，在其500的字符內(nèi)用時(shí)間正則表達(dá)式進(jìn)行時(shí)間匹配；
B4、如果匹配不到時(shí)間，找集合S中出現(xiàn)的下一個(gè)標(biāo)題，轉(zhuǎn)B3，如果無(wú)下一標(biāo)題，則匹配失敗；C、論壇類網(wǎng)站，根據(jù)關(guān)鍵字匹配時(shí)間；其操作步驟如下:
Cl、根據(jù)論壇發(fā)表時(shí)間關(guān)鍵字集合后10個(gè)字符內(nèi)匹配時(shí)間正則表達(dá)式；
C2、根據(jù)由Cl生成的新的正則表達(dá)式，對(duì)集合S進(jìn)行匹配；
C3、若匹配到時(shí)間則成功，否則直接匹配時(shí)間格式，取最新時(shí)間；
D、對(duì)于其它網(wǎng)站的時(shí)間匹配，其操作步驟如下:
D1、對(duì)于百度貼吧，根據(jù)特有的關(guān)鍵字進(jìn)行時(shí)間匹配；
D2、對(duì)于微博，調(diào)用微博的API，進(jìn)行時(shí)間提?。?br> D3、對(duì)于其它網(wǎng)站，直接對(duì)S進(jìn)行時(shí)間正則表達(dá)式匹配；
至此，信息發(fā)表時(shí)間的自動(dòng)提取結(jié)束。
[0011]實(shí)施例2，參照?qǐng)D1-4，ー種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法進(jìn)行的操作實(shí)驗(yàn)，步驟如下:
步驟101、根據(jù)Url判斷網(wǎng)站類型，加載目標(biāo)頁(yè)面得到文本源碼集合S ;其具體如下:
(I)輸入網(wǎng)頁(yè)地址，根據(jù)Url的一般表示習(xí)慣，可以判斷出網(wǎng)站類型，如包含關(guān)鍵字“bbs，，、“forum”、“cIub”等可判斷網(wǎng)站為論壇。
[0012](2)、輸入網(wǎng)頁(yè)地址利用HttpClient獲取原始HTML源碼集合S ;例如，通過(guò)互聯(lián)網(wǎng)得到的原始HTML源碼集合S如下:
<html>
〈head〉
〈title〉標(biāo)題〈/title〉
時(shí)間
〈/head〉
<p id=〃content—id〃> 內(nèi)容 </p>
〈/body〉
</html>
步驟102、識(shí)別出網(wǎng)站類型，得到源碼集合S。參照?qǐng)D2，包括如下步驟:
步驟201、使用正則表達(dá)式r=“〈title>*〈/title>”識(shí)別集合S中的標(biāo)簽標(biāo)題行L再根據(jù)符號(hào)分割得到最大長(zhǎng)度標(biāo)題T。例如:A1中所述的集合S中的〈title〉所對(duì)就的標(biāo)題行L內(nèi)容，，;
步驟202、若得到標(biāo)題行L，如果是非空值，則說(shuō)明在集合S已得到標(biāo)題，即執(zhí)行步驟203;匹配不到標(biāo)題則失敗，對(duì)標(biāo)題根據(jù)符號(hào)進(jìn)行分割，取最長(zhǎng)字符串為標(biāo)題T，執(zhí)行步驟204 ；
步驟203、在標(biāo)題后500字條匹配不到時(shí)間；
步驟204、若匹配不到時(shí)間，找下ー個(gè)標(biāo)題，找到標(biāo)題執(zhí)行步驟203，找不到標(biāo)題失敗步驟103、對(duì)于論壇網(wǎng)站進(jìn)行關(guān)鍵字匹配，參照?qǐng)D3，包括如下步驟:
步驟301、根據(jù)生成的集合S，結(jié)合論壇類網(wǎng)站的關(guān)鍵字；
步驟302、利用關(guān)鍵字匹配時(shí)間；
步驟303、若匹配不到時(shí)間，剛直接時(shí)間正則表達(dá)式匹配，若得到兩個(gè)時(shí)間，取最新的時(shí)間，若匹配不到時(shí)間，則失敗；
步驟104、對(duì)于其它網(wǎng)站信息發(fā)表時(shí)間的自動(dòng)提取，參照?qǐng)D4，包括如下步驟:步驟401、根據(jù)分析網(wǎng)站URL，判斷網(wǎng)站類型下ー步驟402 ；
步驟402、對(duì)于百度貼吧，進(jìn)行關(guān)鍵字匹配；
步驟403、對(duì)于微博，利用API調(diào)取時(shí)間；
步驟404、，對(duì)于其它網(wǎng)站，進(jìn)行時(shí)正則表達(dá)式匹配，如步驟303。
【權(quán)利要求】
1.一種基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法，其特征在于:首先訪問(wèn)互聯(lián)網(wǎng)根據(jù)Url判斷網(wǎng)站類型，加載目標(biāo)頁(yè)面得到網(wǎng)頁(yè)文本源碼集合S ;其次對(duì)于新聞?lì)惥W(wǎng)站根據(jù)標(biāo)簽的正則表達(dá)式識(shí)別出集合S中的標(biāo)題行L，并為標(biāo)題行L中的每個(gè)符號(hào)節(jié)點(diǎn)進(jìn)行分割，得到最大標(biāo)題長(zhǎng)度；其具體步驟如下: A、根據(jù)Url判斷網(wǎng)站類型，加載目標(biāo)頁(yè)面得到文本源碼集合S;其操作步驟如下: Al、輸入網(wǎng)頁(yè)地址，根據(jù)Url的一般表示習(xí)慣，判斷出網(wǎng)站類型； A2、輸入網(wǎng)頁(yè)地址，利用HttpClient獲取原始HTML源碼集合S ； B、新聞?lì)惥W(wǎng)站，識(shí)別并標(biāo)記集合S中的標(biāo)題行L，并匹配時(shí)間；其操作步驟如下: B1、依據(jù)正則匹配文本源碼集合S得到標(biāo)題行L ； B2、用標(biāo)題行L中的符號(hào)對(duì)L進(jìn)行分割，取到最大長(zhǎng)度無(wú)符號(hào)標(biāo)題T ； B3、根據(jù)得到的標(biāo)題T，在其500的字符內(nèi)用時(shí)間正則表達(dá)式進(jìn)行時(shí)間匹配； B4、如果匹配不到時(shí)間，找集合S中出現(xiàn)的下一個(gè)標(biāo)題，轉(zhuǎn)B3，如果無(wú)下一標(biāo)題，則匹配失??； C、論壇類網(wǎng)站，根據(jù)關(guān)鍵字匹配時(shí)間；其操作步驟如下: Cl、根據(jù)論壇發(fā)表時(shí)間關(guān)鍵字集合后10個(gè)字符內(nèi)匹配時(shí)間正則表達(dá)式； C2、根據(jù)由Cl生成的新的正則表達(dá)式，對(duì)集合S進(jìn)行匹配； C3、若匹配到時(shí)間則成功，否則直接匹配時(shí)間格式，取最新時(shí)間； D、對(duì)于其它網(wǎng)站的時(shí)間匹配，其操作步驟如下: D1、對(duì)于百度貼吧，根據(jù)特有的關(guān)鍵字進(jìn)行時(shí)間匹配； D2、對(duì)于微博，調(diào)用微博的API，進(jìn)行時(shí)間提??； D3、對(duì)于其它網(wǎng)站，直接對(duì)S進(jìn)行時(shí)間正則表達(dá)式匹配；至此，信息發(fā)表時(shí)間的自動(dòng)提取結(jié)束。
【文檔編號(hào)】G06F17/30GK103593360SQ201210290557
【公開(kāi)日】2014年2月19日申請(qǐng)日期:2012年8月16日優(yōu)先權(quán)日:2012年8月16日
【發(fā)明者】陳宗華, 陳永江, 葛恒虎, 劉永超, 喬磊申請(qǐng)人:江蘇金鴿網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳宗華;陳永江;葛恒虎;劉永超;喬磊
技術(shù)所有人：江蘇金鴿網(wǎng)絡(luò)科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

福昕閱讀器提取頁(yè)面相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于頁(yè)面分析的互聯(lián)網(wǎng)信息發(fā)表時(shí)間提取方法