欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種關(guān)鍵詞熱度自動控制方法

文檔序號:6517049閱讀:205來源:國知局
一種關(guān)鍵詞熱度自動控制方法
【專利摘要】一種關(guān)鍵詞熱度自動控制方法,包括:1)為關(guān)鍵詞設(shè)置關(guān)鍵詞熱度;2)將滿足調(diào)度條件的關(guān)鍵詞推送到抓取隊(duì)列;3)從抓取隊(duì)列中提取一個關(guān)鍵詞用搜索引擎進(jìn)行搜索;4)根據(jù)搜索引擎的搜索結(jié)果調(diào)整關(guān)鍵詞熱度。本發(fā)明的技術(shù)方案通過抓取結(jié)果狀態(tài)報(bào)告機(jī)制自動控制關(guān)鍵詞熱度,來替代人工設(shè)置關(guān)鍵詞熱度,節(jié)省了大量的人力資源和時間資源,同時也提高了信息抓取的及時性和熱度設(shè)置的準(zhǔn)確性。
【專利說明】一種關(guān)鍵詞熱度自動控制方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索和收集技術(shù),更具體地,涉及一種關(guān)鍵詞熱度自動控制方法。【背景技術(shù)】
[0002]互聯(lián)網(wǎng)已經(jīng)成為時下最重要的新媒體之一,互聯(lián)網(wǎng)提供了這樣一個平臺,用戶既可以作為瀏覽者,在互聯(lián)網(wǎng)上瀏覽感興趣的信息,也可以作為發(fā)布者,在互聯(lián)網(wǎng)上發(fā)布內(nèi)容供別人瀏覽?;ヂ?lián)網(wǎng)最大的特點(diǎn)就是:發(fā)布信息快速,信息傳播的速度快。例如以微博為例,如果有200萬個人關(guān)注該用戶,那么該用戶發(fā)布的信息會在瞬間傳播給這200萬人,而僅僅中國互聯(lián)網(wǎng)用戶已經(jīng)達(dá)到好幾億,正是由于這些特點(diǎn),使得互聯(lián)網(wǎng)經(jīng)成為當(dāng)前最重要、最具影響力的傳播媒體。
[0003]因此,越來越多的企業(yè)都希望能夠?qū)崟r了解本企業(yè)在互聯(lián)網(wǎng)上的輿論導(dǎo)向,搜集信息以支持公司下一步發(fā)展戰(zhàn)略作出最快的調(diào)整。互聯(lián)網(wǎng)上的信息浩如煙海,如何有效地搜集本企業(yè)有用的信息,是當(dāng)前企業(yè)面臨的重要技術(shù)問題。
[0004]現(xiàn)在出現(xiàn)了輿情系統(tǒng),該系統(tǒng)通過業(yè)務(wù)方設(shè)置的關(guān)鍵詞,使用網(wǎng)絡(luò)爬蟲實(shí)時的在互聯(lián)網(wǎng)上面抓取與之相關(guān)的信息,進(jìn)行數(shù)據(jù)分析后將有價(jià)值的信息推送給業(yè)務(wù)方。然而,不同業(yè)務(wù)方所訂閱的關(guān)鍵詞不同,怎樣調(diào)整關(guān)鍵詞的調(diào)度策略讓網(wǎng)絡(luò)爬蟲盡可能完整的、實(shí)時的獲取互聯(lián)網(wǎng)信息成為關(guān)鍵技術(shù)。
[0005]目前現(xiàn)有的方案是基于調(diào)度策略的人工控制關(guān)鍵詞熱度方法。首先通過人工設(shè)定關(guān)鍵詞的熱度(關(guān)鍵詞熱度越高那么該關(guān)鍵詞的調(diào)度越頻繁抓取頻率也就越高),然后不斷去查找滿足調(diào)度條件的關(guān)鍵詞,推送到爬蟲抓取隊(duì)列,關(guān)鍵詞被推送一次之后,會重新設(shè)置下次被調(diào)度的時間,并等待下次調(diào)度,設(shè)置下次調(diào)度時間和關(guān)鍵詞的熱度相關(guān)。
[0006]然而,現(xiàn)有技術(shù)方案雖然可以根據(jù)人為的設(shè)置關(guān)鍵詞的熱度來控制、關(guān)鍵詞的抓取頻率,然而付出的代價(jià)和時間卻是巨大的,主要有以下兩個方面的缺點(diǎn):
[0007]1、人力資源消耗大
[0008]人工控制關(guān)鍵詞的熱度必須要人力去互聯(lián)網(wǎng)上面調(diào)研關(guān)鍵詞熱度,一般的做法是人為的使用搜索引擎,將關(guān)鍵詞輸入搜索引擎然后統(tǒng)計(jì)該關(guān)鍵詞的搜索結(jié)果。而且關(guān)鍵詞的熱度是變化的,在關(guān)鍵詞數(shù)量多的情況下,每天需要大量人力太統(tǒng)計(jì)這些數(shù)據(jù)。
[0009]2、時間浪費(fèi)多
[0010]人工的統(tǒng)計(jì)關(guān)鍵詞熱度的方法,需要人為的去記錄數(shù)據(jù)然后去重新設(shè)置關(guān)鍵詞的熱度,完成這些步驟需要花費(fèi)的時間一定也是巨大的,不利于輿情系統(tǒng)時間的去監(jiān)控輿情動態(tài)。
[0011]3、關(guān)鍵詞熱度設(shè)置受個人主觀意識影響
[0012]因?yàn)殛P(guān)鍵詞熱度設(shè)置是人工判別,不僅容易帶來人為失誤設(shè)置熱度錯誤,而且,認(rèn)為設(shè)置和事件效果可能會受個人主觀影響,想當(dāng)然的設(shè)置關(guān)鍵詞熱度,造成調(diào)度頻率混亂。

【發(fā)明內(nèi)容】
[0013]基于現(xiàn)在方案的缺點(diǎn),我們提出一種基于調(diào)度策略的自動控制關(guān)鍵詞熱度方法,該方法將有效的解決現(xiàn)在方案所存在的人力資源、時間資源浪費(fèi)缺點(diǎn),同時免受個人主觀意識影響。
[0014]本發(fā)明的一種關(guān)鍵詞熱度自動控制方法包括:1)為關(guān)鍵詞設(shè)置關(guān)鍵詞熱度;2)將滿足調(diào)度條件的關(guān)鍵詞推送到抓取隊(duì)列;3)從抓取隊(duì)列中提取一個關(guān)鍵詞用搜索引擎進(jìn)行搜索;4)根據(jù)搜索引擎的搜索結(jié)果調(diào)整關(guān)鍵詞熱度。
[0015]進(jìn)一步,在步驟2)中,所述調(diào)度條件為,該關(guān)鍵詞的調(diào)度時間小于或等于系統(tǒng)當(dāng)前時間。
[0016]進(jìn)一步,步驟2)還包括:通過如下方式更新該關(guān)鍵詞的調(diào)度時間,調(diào)度時間=系統(tǒng)當(dāng)前時間+調(diào)度時間間隔。
[0017]進(jìn)一步,所述調(diào)度時間間隔根據(jù)該關(guān)鍵詞的熱度而設(shè)定。
[0018]進(jìn)一步,在步驟3)中,利用網(wǎng)絡(luò)爬蟲從抓取隊(duì)列中提取一個關(guān)鍵詞進(jìn)行搜索。
[0019]進(jìn)一步,在步驟3)中,所述網(wǎng)絡(luò)爬蟲使用關(guān)鍵詞拼接微博搜索鏈接利用微博搜索引擎進(jìn)行搜索。
[0020]進(jìn)一步,在步驟3)中,用IE搜索引擎進(jìn)行搜索;在步驟4)中,解析所述IE搜索引擎的搜索結(jié)果頁面,包括:使用jsoup工具將搜索結(jié)果頁面轉(zhuǎn)化成DOM樹結(jié)構(gòu);使用jsoup的DOM選擇器;選擇指定標(biāo)簽下的內(nèi)容,使用正則表達(dá)式抽取出數(shù)字作為關(guān)鍵詞相關(guān)網(wǎng)頁數(shù)量,以及掃描該關(guān)鍵詞是否被屏蔽;以相關(guān)網(wǎng)頁數(shù)量和關(guān)鍵詞是否被屏蔽的信息作為搜索結(jié)果。
[0021]進(jìn)一步,在步驟4)中,根據(jù)兩次搜索結(jié)果的相關(guān)網(wǎng)頁數(shù)量的增量來調(diào)整關(guān)鍵詞熱度。
[0022]進(jìn)一步,在步驟4)中,如果關(guān)鍵詞被屏蔽,則刪除該關(guān)鍵詞。
[0023]本發(fā)明的技術(shù)方案中,通過抓取結(jié)果狀態(tài)報(bào)告機(jī)制自動控制關(guān)鍵詞熱度,來替代人工設(shè)置關(guān)鍵詞熱度,節(jié)省了大量的人力資源和時間資源,同時也提高了信息抓取的及時性和熱度設(shè)置的準(zhǔn)確性。
【專利附圖】

【附圖說明】
[0024]圖1為本發(fā)明的方法的流程圖。
【具體實(shí)施方式】
[0025]本發(fā)明技術(shù)方案在原有方案基于調(diào)度策略的人工控制關(guān)鍵詞熱度方法的基礎(chǔ)上進(jìn)行了創(chuàng)新,引進(jìn)了關(guān)鍵詞的抓取結(jié)果狀態(tài)報(bào)告機(jī)制。即當(dāng)關(guān)鍵詞推送至爬蟲抓取時,爬蟲不僅僅將由關(guān)鍵詞抓取的結(jié)果返回,還將報(bào)告關(guān)鍵詞的抓取狀態(tài)。
[0026]下面參照圖1詳細(xì)的說明本發(fā)明的技術(shù)方案。
[0027]在步驟SI,對關(guān)鍵詞設(shè)置關(guān)鍵詞熱度,并對關(guān)鍵詞設(shè)置默認(rèn)調(diào)度時間schedule—time。
[0028]關(guān)鍵詞來自于關(guān)鍵詞數(shù)據(jù)集。不同的關(guān)鍵詞熱度對應(yīng)了不同的抓取頻率,熱度越高,則抓取頻率越高。
[0029]例如,可以用正整數(shù)來表示關(guān)鍵詞熱度,默認(rèn)的最低熱度為1,數(shù)值越高,表示關(guān)鍵詞熱度越高。關(guān)鍵詞數(shù)據(jù)集是預(yù)先設(shè)定的,并可以隨時添加或者刪減。[0030]關(guān)鍵詞的調(diào)度時間schedule-time表示關(guān)鍵詞被推送至抓取隊(duì)列(在下面詳述)的時間。抓取隊(duì)列是關(guān)鍵詞的隊(duì)列,是一個先入先出隊(duì)列,網(wǎng)絡(luò)爬蟲從該抓取隊(duì)列中取出關(guān)鍵詞,到互聯(lián)網(wǎng)引擎中進(jìn)行搜索。
[0031]這里設(shè)置的關(guān)鍵詞的調(diào)度時間schedule-time是默認(rèn)值,該默認(rèn)值根據(jù)管檢測熱度確定。調(diào)度時間schedule-time是變化的,每次調(diào)度后根據(jù)搜索結(jié)果而重新設(shè)置,具體設(shè)置方法見下面詳述的步驟S5
[0032]在步驟S2,根據(jù)關(guān)鍵詞熱度將關(guān)鍵詞分配到不同集合,具有相同關(guān)鍵詞熱度的關(guān)鍵詞被分配到同一個集合。
[0033]在步驟S3,在全部集合中獲取關(guān)鍵詞的調(diào)度時間schedule-time。優(yōu)選地,根據(jù)關(guān)鍵詞熱度由高到低的順序來對集合進(jìn)行逐一處理,即先針對關(guān)鍵詞熱度最高的集合,獲取集合的關(guān)鍵詞調(diào)度時間,最后針對關(guān)鍵詞熱度最低的集合,獲取集合中的關(guān)鍵詞調(diào)度時間。
[0034]在步驟S4,如果該關(guān)鍵詞的調(diào)度時間schedule_time〈=系統(tǒng)當(dāng)前時間now-time,則跳轉(zhuǎn)到步驟S5。
[0035]例如,一個關(guān)鍵詞的調(diào)度時間設(shè)置為schedule_time=2013/7/7 00:00:10,系統(tǒng)當(dāng)前時間 now-time=2013/7/7 00:00:00,那么 10 分鐘之后,now_time=2013/7/700:00:10,那么條件滿足。
[0036]在步驟S5,根據(jù)關(guān)鍵詞熱度查找并更新調(diào)度時間schedule-time, schedule-time=now-time+interval。
[0037]關(guān)鍵詞的下次調(diào)度時間通過當(dāng)前時間和該關(guān)鍵詞熱度對應(yīng)的時間間隔確定,即:關(guān)鍵詞下次調(diào)度時間為:當(dāng)前時間now-time+interval。
[0038]其中,時間間隔interval是根據(jù)該關(guān)鍵詞的關(guān)鍵詞熱度設(shè)置的,熱度越聞,時間間隔越短。例如,熱度為I的時間間隔interval=1800秒,熱度為2的時間間隔interval=900 秒。
[0039]在步驟S6,將該關(guān)鍵詞推送到抓取隊(duì)列。
[0040]在步驟S7,網(wǎng)絡(luò)爬蟲從抓取隊(duì)列抓取一個關(guān)鍵詞,使用IE搜索引擎進(jìn)行搜索。
[0041]特別的,對于微博,可以用該關(guān)鍵詞拼接微博搜索鏈接。以新浪微博為例,該拼接的搜索鏈接為:
[0042]http://s.weib0.com/weibo/keyword&Refer=STopic_b°x
[0043]在步驟S8,解析搜索結(jié)果頁面,得到關(guān)鍵詞搜索結(jié)果。
[0044]更具體地,在解析搜索結(jié)果頁面時,可以使用jsoup工具包將html頁面轉(zhuǎn)化成DOM樹結(jié)構(gòu),使用jsoup的DOM選擇器,選擇指定標(biāo)簽下的內(nèi)容,然后,使用正則表達(dá)式抽取出數(shù)字作為關(guān)鍵詞相關(guān)網(wǎng)頁數(shù)量。
[0045]例如使用某搜索引擎進(jìn)行新聞搜索“選擇器”,截取指定標(biāo)簽〈div Id=^header,topjDafXspan〉下的內(nèi)容,即一段源碼:〈div id=//header_top_bar//XsPan>** 一下,找到相關(guān)新聞約 83, 400 篇 &nbsp; &nbsp; <a href=//http: //news.***.com/view.html?from=ns〃>新聞首頁〈/a>〈/span>。使用正則表達(dá)式抽取出數(shù)字“83400”,這即為關(guān)鍵詞搜索結(jié)果。
[0046]關(guān)鍵詞搜索結(jié)果包括:搜索的相關(guān)頁面的數(shù)量;以及關(guān)鍵詞被屏蔽的信息。其中當(dāng)該關(guān)鍵詞被屏蔽時,頁面中包含“根據(jù)相關(guān)法律法規(guī)和政策,“***事件”搜索結(jié)果未予顯示”的字段,根據(jù)該字段,即可獲得被屏蔽的信息。
[0047]對于微博關(guān)鍵詞搜索,頁面會返回關(guān)鍵詞搜索結(jié)果,包括2類:1、關(guān)鍵詞相關(guān)微博數(shù)量;2、關(guān)鍵詞違規(guī)被屏蔽的信息。
[0048]在步驟S9,根據(jù)關(guān)鍵詞搜索結(jié)果調(diào)整關(guān)鍵詞熱度。
[0049]更優(yōu)選地,在步驟S9判斷關(guān)鍵詞搜索結(jié)果的類型,如果搜索結(jié)果包括數(shù)量,那么在步驟S10,根據(jù)所述數(shù)量調(diào)整關(guān)鍵詞熱度。具體為,根據(jù)兩次關(guān)鍵詞搜索狀態(tài)的結(jié)果,獲得兩次結(jié)果的數(shù)量的增量,根據(jù)所述增量和抓取完成所需要的調(diào)度時間間隔來調(diào)整新的關(guān)鍵詞熱度。所述增量越大,說明該關(guān)鍵詞熱度越高,相應(yīng)地,調(diào)整該關(guān)鍵詞熱度為更大值。
[0050]例如,對于一關(guān)鍵詞,在2013-10-1日凌晨抓取搜索引擎相關(guān)網(wǎng)頁量100000。設(shè)定時間間隔為24小時,那么在2013-10-2日凌晨抓取搜索引擎相關(guān)網(wǎng)頁量為100240。根據(jù)兩次抓取結(jié)果,網(wǎng)頁增量為240。搜索網(wǎng)頁每頁一般有20個(與IE搜索引擎有關(guān))結(jié)果(鏈接),如果設(shè)定一天抓取12次,那么一天抓取的網(wǎng)頁數(shù)量為12*20=240,滿足了該增量。即將該關(guān)鍵詞的調(diào)度時間間隔設(shè)置為2小時就能滿足抓取覆蓋率。優(yōu)選地,但是考慮到搜索引擎搜索關(guān)鍵詞相關(guān)網(wǎng)頁結(jié)果不會是平均值,因此一般會在平均調(diào)度時間上乘以2來保證覆蓋率和時效性,因此最后需要設(shè)置關(guān)鍵詞的熱度為對應(yīng)時間間隔為I小時的熱度。
[0051]如果在步驟S9搜索結(jié)果表明該關(guān)鍵詞被屏蔽,那么在步驟S11,從關(guān)鍵詞數(shù)據(jù)集中刪除該關(guān)鍵詞,或者將該關(guān)鍵詞的關(guān)鍵詞熱度設(shè)置為O。
[0052]本發(fā)明的技術(shù)方案的關(guān)鍵點(diǎn)在于通過網(wǎng)絡(luò)爬蟲把關(guān)鍵詞的狀態(tài)返回,以便隨時調(diào)整關(guān)鍵詞熱度,來控制關(guān)鍵詞的抓取頻率。
【權(quán)利要求】
1.一種關(guān)鍵詞熱度自動控制方法,其特征在于,包括: 1)為關(guān)鍵詞設(shè)置關(guān)鍵詞熱度; 2)將滿足調(diào)度條件的關(guān)鍵詞推送到抓取隊(duì)列; 3)從抓取隊(duì)列中提取一個關(guān)鍵詞用搜索引擎進(jìn)行搜索; 4)根據(jù)搜索引擎的搜索結(jié)果調(diào)整關(guān)鍵詞熱度。
2.根據(jù)權(quán)利要求1所述的關(guān)鍵詞熱度自動控制方法,其特征在于, 在步驟2)中,所述調(diào)度條件為,該關(guān)鍵詞的調(diào)度時間小于或等于系統(tǒng)當(dāng)前時間。
3.根據(jù)權(quán)利要求2所述的關(guān)鍵詞熱度自動控制方法,其特征在于, 步驟2)還包括:通過如下方式更新該關(guān)鍵詞的調(diào)度時間,調(diào)度時間=系統(tǒng)當(dāng)前時間+調(diào)度時間間隔。
4.根據(jù)權(quán)利要求3所述的關(guān)鍵詞熱度自動控制方法,其特征在于,所述調(diào)度時間間隔根據(jù)該關(guān)鍵詞的熱度而設(shè)定。
5.根據(jù)權(quán)利要求1所述的關(guān)鍵詞熱度自動控制方法,其特征在于,在步驟3)中,利用網(wǎng)絡(luò)爬蟲從抓取隊(duì)列中提取一個關(guān)鍵詞進(jìn)行搜索。
6.根據(jù)權(quán)利要求5所述的關(guān)鍵詞熱度自動控制方法,其特征在于,在步驟3)中,所述網(wǎng)絡(luò)爬蟲使用關(guān)鍵詞拼接微博搜索鏈接利用微博搜索引擎進(jìn)行搜索。
7.根據(jù)權(quán)利要求1所述的關(guān)鍵詞熱度自動控制方法,其特征在于, 在步驟3)中,用IE搜索引擎進(jìn)行搜索; 在步驟4)中,解析所述IE搜索引擎的搜索結(jié)果頁面,包括:使用jsoup工具將搜索結(jié)果頁面轉(zhuǎn)化成DOM樹結(jié)構(gòu);使用jsoup的DOM選擇器;選擇指定標(biāo)簽下的內(nèi)容,使用正則表達(dá)式抽取出數(shù)字作為關(guān)鍵詞相關(guān)網(wǎng)頁數(shù)量,以及掃描該關(guān)鍵詞是否被屏蔽;以相關(guān)網(wǎng)頁數(shù)量和關(guān)鍵詞是否被屏蔽的信息作為搜索結(jié)果。
8.根據(jù)權(quán)利要求7所述的關(guān)鍵詞熱度自動控制方法,其特征在于, 在步驟4)中,根據(jù)兩次搜索結(jié)果的相關(guān)網(wǎng)頁數(shù)量的增量來調(diào)整關(guān)鍵詞熱度。
9.根據(jù)權(quán)利要求7所述的關(guān)鍵詞熱度自動控制方法,其特征在于, 在步驟4)中,如果關(guān)鍵詞被屏蔽,則刪除該關(guān)鍵詞。
【文檔編號】G06F17/30GK103544294SQ201310524337
【公開日】2014年1月29日 申請日期:2013年10月30日 優(yōu)先權(quán)日:2013年10月30日
【發(fā)明者】黎小為, 廖耀華 申請人:北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
略阳县| 宁海县| 贡嘎县| 灌南县| 盘锦市| 电白县| 贞丰县| 诸城市| 乐业县| 靖边县| 天柱县| 通山县| 福海县| 彭泽县| 大城县| 阿图什市| 南康市| 大理市| 潍坊市| 轮台县| 长兴县| 靖州| 东至县| 夏邑县| 禄劝| 鄂托克前旗| 英超| 鄂托克旗| 昌黎县| 巫溪县| 山阴县| 永嘉县| 昆明市| 金山区| 微博| 南投县| 汪清县| 潮州市| 南部县| 昭通市| 阿拉善盟|