欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種微博信息抓取方法及裝置與流程

文檔序號(hào):12845964閱讀:230來(lái)源:國(guó)知局
一種微博信息抓取方法及裝置與流程
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種微博信息抓取方法及裝置。

背景技術(shù):
隨著微博的日趨普及,微博用戶量也在不斷的穩(wěn)步上升,每天數(shù)以千萬(wàn)計(jì)的用戶發(fā)布的微博所包含的信息量是不可小覷的。為了從用戶發(fā)布的眾多微博中提取出新聞熱點(diǎn),或者根據(jù)用戶發(fā)布的微博分析用戶的興趣,進(jìn)行微博營(yíng)銷,就需要及時(shí)全面的抓取用戶所發(fā)布的微博信息。目前的信息抓取過程主要是調(diào)用微博平臺(tái)API來(lái)實(shí)現(xiàn),但是出于對(duì)微博平臺(tái)的維護(hù)成本以及信息保留等方面的考慮,各大微博平臺(tái)對(duì)信息抓取的次數(shù)以及頻率都有所限制,即抓取資源有限。如何利用這有限的抓取資源快速獲取到更多的有效微博信息,在實(shí)際應(yīng)用中具有重要意義。

技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的微博信息抓取方法及裝置,實(shí)現(xiàn)了利用有限的抓取資源獲取盡量多的有效微博信息的目的。為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:一種微博信息抓取方法,所述方法包括:獲取待抓取微博用戶,并判斷所述待抓取微博用戶的類型;如果所述待抓取微博用戶為活躍用戶,則計(jì)算該待抓取微博用戶的抓取周期,并根據(jù)所述抓取周期預(yù)測(cè)抓取時(shí)間點(diǎn)進(jìn)行微博信息抓??;如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量,如果所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零,則對(duì)所述待抓取微博用戶進(jìn)行微博信息抓取。優(yōu)選的,所述獲取待抓取微博用戶,包括:選取至少一個(gè)認(rèn)證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;判斷所述未處理用戶是否具有下級(jí)用戶:如果具有,則獲取該未處理用戶的下級(jí)用戶,并將所述下級(jí)用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級(jí)用戶作為未處理用戶,繼續(xù)執(zhí)行所述判斷未處理用戶是否具有下級(jí)用戶的步驟;如果不具有,則設(shè)置該未處理用戶的狀態(tài)為已處理。優(yōu)選的,所述獲取該未處理用戶的下級(jí)用戶,包括:通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級(jí)用戶;或者,抓取評(píng)論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級(jí)用戶。優(yōu)選的,所述判斷所述待抓取微博用戶的類型,包括:根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。優(yōu)選的,所述根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度,包括:根據(jù)所述待抓取微博用戶發(fā)布的微博計(jì)算用戶的平均發(fā)帖間隔;從預(yù)設(shè)數(shù)據(jù)庫(kù)中查找與所述平均發(fā)帖間隔相對(duì)應(yīng)的活躍度。一種微博信息抓取裝置,所述裝置包括:第一獲取單元,用于獲取待抓取微博用戶;第一判斷單元,用于判斷所述第一獲取單元獲取的待抓取微博用戶的類型;計(jì)算單元,用于在所述第一判斷單元判定所述待抓取微博用戶為活躍用戶時(shí),計(jì)算該待抓取微博用戶的抓取周期;抓取單元,用于根據(jù)所述抓取周期預(yù)測(cè)抓取時(shí)間點(diǎn)進(jìn)行微博信息抓?。坏诙@取單元,用戶在所述第一判斷單元判定所述待抓取微博用戶為非活躍用戶時(shí),獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量;所述抓取單元,還用于在所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零時(shí),對(duì)所述待抓取微博用戶進(jìn)行微博信息抓取。優(yōu)選的,所述第一獲取單元包括:選取單元,用于選取至少一個(gè)認(rèn)證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;第二判斷單元,用于判斷所述未處理用戶是否具有下級(jí)用戶:第三獲取單元,用于在所述第二判斷單元判定所述未處理用戶具有下級(jí)用戶時(shí),獲取該未處理用戶的下級(jí)用戶,添加單元,用于將所述下級(jí)用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級(jí)用戶作為未處理用戶,通知所述第二判斷單元繼續(xù)判斷未處理用戶是否具有下級(jí)用戶;設(shè)置單元,用于在所述第二判斷單元判定所述未處理用戶不具有下級(jí)用戶時(shí),則設(shè)置該未處理用戶的狀態(tài)為已處理。優(yōu)選的,所述第三獲取單元,具體用于通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級(jí)用戶;或者,所述第三獲取單元,具體用于抓取評(píng)論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級(jí)用戶。優(yōu)選的,所述第一判斷單元包括:確定單元,用于根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;判斷子單元,用于根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。優(yōu)選的,所述計(jì)算單元包括:計(jì)算子單元,用于根據(jù)所述待抓取微博用戶發(fā)布的微博計(jì)算用戶的平均發(fā)帖間隔;查找單元,用于從預(yù)設(shè)數(shù)據(jù)庫(kù)中查找與所述平均發(fā)帖間隔相對(duì)應(yīng)的活躍度。本發(fā)明實(shí)施的微博信息抓取方法及裝置,首先挖掘出盡量多的待抓取微博用戶作為本發(fā)明的處理對(duì)象,然后根據(jù)這些處理對(duì)象的活躍度對(duì)其進(jìn)行分類處理:如果處理對(duì)象為活躍用戶,則統(tǒng)計(jì)分析其發(fā)布微博的行為特性,并根據(jù)其行為特性設(shè)置抓取周期,從而可以利用抓取周期預(yù)測(cè)抓取時(shí)間點(diǎn),進(jìn)行有針對(duì)性的信息抓取;如果處理對(duì)象為非活躍用戶,則根據(jù)其當(dāng)前的抓取狀態(tài)以及當(dāng)前剩余抓取用戶量判斷是否對(duì)其進(jìn)行信息抓取。本發(fā)明通過對(duì)不同類型的用戶進(jìn)行區(qū)別處理的方式,實(shí)現(xiàn)了抓取資源的合理分配與使用,提高了資源利用率,同時(shí)還能保證每次抓取過程均能抓取到較多的微博信息,提高了信息抓取效率。附圖說(shuō)明為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其它的附圖。圖1是本發(fā)明微博信息抓取方法的流程圖;圖2是本發(fā)明中獲取待抓取微博用戶的流程圖;圖3是本發(fā)明中確定用戶類型的流程圖;圖4是本發(fā)明中確定用戶活躍度的流程圖;圖5是本發(fā)明微博信息抓取裝置的示意圖;圖6是本發(fā)明中第一獲取單元的示意圖;圖7是本發(fā)明中第一判斷單元的示意圖;圖8是本發(fā)明中計(jì)算單元的示意圖。具體實(shí)施方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。為了提取新聞熱點(diǎn)或分析用戶興趣,應(yīng)及時(shí)全面的抓取用戶發(fā)布的微博信息,考慮到現(xiàn)有技術(shù)中各大微博平臺(tái)對(duì)信息抓取的次數(shù)以及頻率的限制,若針對(duì)不同類型的微博用戶采用相同方式進(jìn)行信息抓取,如針對(duì)每天都會(huì)有微博發(fā)布、轉(zhuǎn)發(fā)、評(píng)論等行為的活躍用戶,以及較少登錄微博的非活躍用戶而言,采用相同方式進(jìn)行信息抓取顯然會(huì)導(dǎo)致抓取資源的不合理分配與使用,致使微博信息抓取效率低下。為了提高信息抓取效率,充分利用有限的抓取資源快速準(zhǔn)確的獲取到更多的有效微博信息,提出了本發(fā)明的微博信息抓取方案。本發(fā)明方案中,分析待抓取微博用戶的類型,針對(duì)不同類型的用戶進(jìn)行區(qū)別處理。下面對(duì)本發(fā)明的具體實(shí)現(xiàn)過程進(jìn)行解釋說(shuō)明。參見圖1,示出了本發(fā)明微博信息抓取方法的流程圖,可包括:步驟101,獲取待抓取微博用戶,并判斷所述待抓取微博用戶的類型??紤]到各大微博平臺(tái)每天對(duì)信息抓取資源的限制,若想利用這有限的抓取資源,抓取到更多的有效微博信息,就應(yīng)該針對(duì)不同類型的用戶制定不同的抓取方案。首先要獲取待抓取的微博用戶,也即先進(jìn)行微博用戶挖掘,確定出盡量多的信息抓取對(duì)象。作為本步驟獲取待抓取微博用戶的一種實(shí)現(xiàn)方式,可體現(xiàn)為圖2所示流程圖,可包括:步驟201,選取至少一個(gè)認(rèn)證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表。步驟202,判斷所述未處理用戶是否具有下級(jí)用戶,如果具有則執(zhí)行步驟203,如果不具有則執(zhí)行步驟205。步驟203,獲取該未處理用戶的下級(jí)用戶,并將所述下級(jí)用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理。步驟204,將所述下級(jí)用戶作為未處理用戶,返回執(zhí)行步驟202。步驟205,設(shè)置該未處理用戶的狀態(tài)為已處理。微博用戶可大致被分為兩種類型:認(rèn)證用戶、普通用戶。為了挖掘出盡可能多的微博用戶,本發(fā)明從影響力大、用戶關(guān)系網(wǎng)復(fù)雜的認(rèn)證用戶中確定種子用戶。作為本發(fā)明確定種子用戶的一種實(shí)現(xiàn)方式,可在微博名人堂頁(yè)面抓取,如將影響力排行或者人氣排行的前100名用戶作為種子用戶,或者,根據(jù)營(yíng)銷需要,有針對(duì)性的抓取某種分類下的認(rèn)證用戶,如當(dāng)前需要推廣的是一款旅游產(chǎn)品,則可抓取旅游分類下的認(rèn)證用戶作為種子用戶。本發(fā)明對(duì)從認(rèn)證用戶中確定種子用戶的具體方式可不做限定。確定出種子用戶之后,可將這些種子用戶作為未處理用戶添加到用戶列表,判斷未處理用戶是否具有下級(jí)用戶,并進(jìn)行如下處理:(1)如果未處理用戶不具有下級(jí)用戶,則說(shuō)明該未處理用戶為底層節(jié)點(diǎn),當(dāng)前已挖掘出所有與種子用戶直接或間接相關(guān)的所有微博用戶,此時(shí)可直接將該未處理用戶的狀態(tài)標(biāo)識(shí)為已處理。(2)如果未處理用戶具有下級(jí)用戶,則說(shuō)明該未處理用戶不是底層節(jié)點(diǎn),還可在其下級(jí)用戶的基礎(chǔ)上進(jìn)一步進(jìn)行遞歸挖掘,此時(shí),可做如下處理:a.將該未處理用戶的狀態(tài)標(biāo)識(shí)為已處理;b.將該未處理用戶的下級(jí)用戶添加到用戶列表中;c.將下級(jí)用戶的狀態(tài)標(biāo)識(shí)為未處理狀態(tài),以便在此基礎(chǔ)上繼續(xù)進(jìn)行遞歸挖掘。經(jīng)上述3個(gè)處理動(dòng)作之后,即說(shuō)明用戶列表中還存在未處理用戶,應(yīng)返回執(zhí)行步驟202,繼續(xù)判斷這些下級(jí)用戶作為未處理用戶時(shí),其是否存在下級(jí)用戶,然后再根據(jù)判斷結(jié)果進(jìn)行區(qū)別處理,此處不再贅述。需要說(shuō)明的是,本發(fā)明提供了兩種獲取未處理用戶的下級(jí)用戶的實(shí)現(xiàn)方式,下面分別進(jìn)行解釋說(shuō)明。(1)通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級(jí)用戶。用戶關(guān)系網(wǎng)指的是微博用戶之間的關(guān)系,包括關(guān)注和粉絲兩種關(guān)系,一般采用節(jié)點(diǎn)圖來(lái)表示,其中,節(jié)點(diǎn)表示微博用戶,兩節(jié)點(diǎn)間的連線表示用戶間的關(guān)系。在微博中,用戶A可以關(guān)注、接收其感興趣的用戶B發(fā)布的微博,此時(shí),用戶A就是用戶B的粉絲,相應(yīng)地用戶B就是用戶A的關(guān)注。作為本發(fā)明獲取用戶關(guān)系網(wǎng)的一種實(shí)現(xiàn)方式,可通過調(diào)用微博開放平臺(tái)API的方式實(shí)現(xiàn),獲取某個(gè)未處理用戶的關(guān)注列表和粉絲列表。因?yàn)殛P(guān)注列表和粉絲列表中的用戶是通過該未處理用戶挖掘到的,故關(guān)注列表和粉絲列表中的用戶都可稱為是該未處理用戶的下級(jí)用戶。(2)抓取評(píng)論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級(jí)用戶。在用戶A與用戶B之間既不是關(guān)注,也不是粉絲關(guān)系的情況下,用戶A也可能會(huì)轉(zhuǎn)發(fā)和/或評(píng)論用戶B發(fā)布的微博,此時(shí),我們可以認(rèn)為用戶A與B之間產(chǎn)生了關(guān)聯(lián)關(guān)系,這種情況下,用戶A也可視為是用戶B的下級(jí)用戶。因此,作為本發(fā)明獲取下級(jí)用戶的另一種實(shí)現(xiàn)方式,還可通過抓取轉(zhuǎn)發(fā)和/或評(píng)論了未處理用戶發(fā)布的微博的用戶的方式實(shí)現(xiàn)。按照上文介紹方式挖掘出的微博用戶即可視為本發(fā)明的處理對(duì)象—待抓取微博用戶,為了實(shí)現(xiàn)微博用戶的區(qū)別處理,此時(shí)還應(yīng)識(shí)別出這些微博用戶的類型。本發(fā)明中的微博用戶類型可被分為活躍用戶和非活躍用戶兩種,且活躍用戶占少量,非活躍用戶量較大。針對(duì)這兩種類型,本發(fā)明提供了兩種不同的處理方式。對(duì)于活躍用戶而言,可采用步驟102的方式進(jìn)行處理,對(duì)于非活躍用戶,則可采用步驟103的方式進(jìn)行處理,對(duì)此將在下文進(jìn)行解釋說(shuō)明。對(duì)于確定用戶類型的實(shí)現(xiàn)方式此處暫不詳述。步驟102,如果所述待抓取微博用戶為活躍用戶,則計(jì)算該待抓取微博用戶的抓取周期,并根據(jù)所述抓取周期預(yù)測(cè)抓取時(shí)間點(diǎn)進(jìn)行微博信息抓取。如上文所述,活躍用戶所占數(shù)量較少,但這部分用戶提供的微博信息量卻很大,根據(jù)這一特性,我們可以逐一分析每個(gè)活躍用戶發(fā)布微博的行為特性,并根據(jù)其行為特性為其設(shè)置對(duì)應(yīng)的抓取周期,然后根據(jù)抓取周期預(yù)測(cè)的抓取時(shí)間點(diǎn)(也即用戶可能發(fā)布微博的時(shí)間點(diǎn))進(jìn)行有針對(duì)性的信息抓取。需要說(shuō)明的是,為活躍用戶確定的抓取周期可以是固定周期也可以是變周期。也就是說(shuō),針對(duì)某個(gè)活躍用戶,可以通過統(tǒng)計(jì)分析其發(fā)布的歷史微博,獲得其在單位時(shí)間(如小時(shí)、天、周等)內(nèi)發(fā)布微博的平均間隔,并以此為依據(jù)計(jì)算一個(gè)固定的抓取周期,按照該固定抓取周期預(yù)測(cè)抓取時(shí)間點(diǎn)。其中,單位時(shí)間發(fā)布微博的平均間隔即可理解為該用戶的行為特性?;蛘撸槍?duì)某個(gè)活躍用戶,還可以通過統(tǒng)計(jì)分析其發(fā)布的歷史微博,獲得其在單位時(shí)間(如小時(shí)、天、周等)內(nèi)發(fā)布微博的繁忙期和空閑期,并為繁忙期和空閑期設(shè)置不同的抓取周期,通過變周期的方式進(jìn)行信息抓取。如經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),某個(gè)活躍用戶在吃午飯時(shí)間、乘坐地鐵時(shí)間、或者傍晚時(shí)分會(huì)較為頻繁的發(fā)布微博,那么這些時(shí)間段即可被定義為繁忙期;用戶在上班工作時(shí)間、晚間休息時(shí)間較少發(fā)布微博,則這些時(shí)間段即可被定義為空閑期。這樣就獲得了該名用戶這一天內(nèi)發(fā)布微博的行為特性,可據(jù)此設(shè)置出這一天的抓取周期,進(jìn)而就可以利用設(shè)置的抓取周期預(yù)測(cè)下周同一天的抓取時(shí)間點(diǎn),進(jìn)行微博信息抓取。需要說(shuō)明的是,在確定抓取周期的過程中,會(huì)影響抓取周期長(zhǎng)短的因素至少可包含:每條歷史微博的權(quán)重、用戶的影響力(可通過粉絲數(shù)、被提及數(shù)體現(xiàn))、用戶發(fā)布微博的質(zhì)量(可通過微博被轉(zhuǎn)發(fā)數(shù)體現(xiàn))、抓取資源(受抓取平臺(tái)限制)等,此處不再展開詳述。步驟103,如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量,如果所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零,則對(duì)所述待抓取微博用戶進(jìn)行微博信息抓取。如上文所述,非活躍用戶所占數(shù)量很多,且這部分用戶提供的微博信息量卻很少,若采用步驟102的方式按照一定的抓取周期(固定周期或變周期)進(jìn)行信息抓取的話,不僅會(huì)造成抓取資源的浪費(fèi),還可能導(dǎo)致抓取到的信息很有限,為此本發(fā)明提供了另外一種針對(duì)非活躍用戶的抓取方案。首先,設(shè)置一個(gè)表示非活躍用戶當(dāng)前的抓取狀態(tài)的抓取間隔,如2個(gè)月。在抓取間隔期間用戶的抓取狀態(tài)為不進(jìn)行抓取,在抓取間隔到達(dá)時(shí)用戶的抓取狀態(tài)為可進(jìn)行抓取。如,在06.12(可視為是該用戶的抓取起始點(diǎn))對(duì)某個(gè)非活躍用戶進(jìn)行了信息抓取,當(dāng)在06.13判斷是否需要對(duì)該用戶進(jìn)行信息抓取時(shí),就可獲知前一天剛剛抓取過該用戶的微博信息,此時(shí)暫時(shí)還不需要再次對(duì)其進(jìn)行信息抓取,也即該用戶在06.13的抓取狀態(tài)為不進(jìn)行抓取,通過這樣逐天(當(dāng)然也可以其它時(shí)間單位逐次判斷,本發(fā)明可不做限定)判斷的方式類推,直至間隔2個(gè)月在08.12判斷該用戶的抓取狀態(tài)為可進(jìn)行抓取,再進(jìn)行下一次信息抓取。其次,還要根據(jù)API權(quán)限設(shè)置一個(gè)限定每天的抓取上限的抓取用戶量,也即每天可抓取多少名非活躍用戶,如一千萬(wàn)非活躍用戶。在設(shè)置好上述兩個(gè)參數(shù)之后,即可判斷當(dāng)前是否能對(duì)待抓取微博用戶進(jìn)行信息抓取,具體過程為:判斷待抓取微博用戶的抓取狀態(tài)是否為可進(jìn)行抓取,如果是,則繼續(xù)判斷當(dāng)前剩余的抓取用戶量是否為零,如果否,則判定可對(duì)該待抓取微博用戶進(jìn)行信息抓取,在進(jìn)行微博信息抓取的同時(shí),還應(yīng)將剩余抓取用戶量減1,以保證后續(xù)其它非活躍用戶的判斷準(zhǔn)確性。也就是說(shuō),針對(duì)非活躍用戶而言,如果其抓取狀態(tài)為不進(jìn)行抓取,或者當(dāng)前的剩余抓取用戶量為零,均不對(duì)其進(jìn)行信息抓取。需要說(shuō)明的是,抓取用戶量受限就可能導(dǎo)致一些抓取狀態(tài)為可進(jìn)行抓取的非活躍用戶的微博信息無(wú)法被正常抓取到,對(duì)此,可以通過設(shè)置不同的抓取間隔或抓取起始點(diǎn)的方式,將眾多的非活躍用戶錯(cuò)開處理,如此就可利用有限的抓取資源處理盡量多的非活躍用戶,提高抓取資源利用率以及抓取有效信息的效率。參見圖3,示出了本發(fā)明確定用戶類型的流程,可包括:步驟301,根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度。步驟302,根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。本發(fā)明主要是根據(jù)用戶是否發(fā)布了微博以及發(fā)布微博的頻繁程度確定用戶活躍度的,如果用戶未發(fā)布過微博,則直接將其定義為非活躍用戶;如果用戶發(fā)布過微博,還應(yīng)再根據(jù)其發(fā)布微博的頻率來(lái)確定其活躍度,具體可采用圖4所示流程實(shí)現(xiàn),包括:步驟401,根據(jù)所述待抓取微博用戶發(fā)布的微博計(jì)算用戶的平均發(fā)帖間隔;步驟402,從預(yù)設(shè)數(shù)據(jù)庫(kù)中查找與所述平均發(fā)帖間隔相對(duì)應(yīng)的活躍度。本實(shí)施例主要是通過發(fā)帖間隔來(lái)表示用戶的發(fā)帖頻率,進(jìn)而反映用戶的活躍度。具體實(shí)現(xiàn)時(shí),可先建立一個(gè)保存有發(fā)帖間隔與活躍度對(duì)應(yīng)關(guān)系的數(shù)據(jù)庫(kù),在計(jì)算獲得用戶的發(fā)帖間隔之后,即可通過查表的方式確定其對(duì)應(yīng)的活躍度。需要說(shuō)明的是,發(fā)帖間隔與活躍度可以一一對(duì)應(yīng),即一個(gè)發(fā)帖間隔對(duì)應(yīng)一個(gè)活躍度;或者,發(fā)帖間隔與活躍度還可以是多對(duì)一,即多個(gè)發(fā)帖間隔對(duì)應(yīng)一個(gè)活躍度,此時(shí)活躍度可視為是活躍等級(jí),對(duì)此本發(fā)明可不做限定。在獲得用戶活躍度之后,即可與預(yù)設(shè)活躍值相比較,如果用戶活躍度小于預(yù)設(shè)活躍值,則判定該用戶為非活躍用戶;如果用戶活躍度大于或等于預(yù)設(shè)活躍值,則判定該用戶為活躍用戶。相應(yīng)地,本發(fā)明還提供一種微博信息抓取裝置,參見圖5,示出了本發(fā)明微博信息抓取裝置的示意圖,所述裝置可包括:第一獲取單元501,用于獲取待抓取微博用戶;第一判斷單元502,用于判斷所述第一獲取單元獲取的待抓取微博用戶的類型;計(jì)算單元503,用于在所述第一判斷單元判定所述待抓取微博用戶為活躍用戶時(shí),計(jì)算該待抓取微博用戶的抓取周期;抓取單元504,用于根據(jù)所述抓取周期預(yù)測(cè)抓取時(shí)間點(diǎn)進(jìn)行微博信息抓取;第二獲取單元505,用戶在所述第一判斷單元判定所述待抓取微博用戶為非活躍用戶時(shí),獲取該待抓取微博用戶的抓取狀態(tài)以及剩余抓取用戶量;所述抓取單元504,還用于在所述抓取狀態(tài)表示能進(jìn)行微博信息抓取,且所述剩余抓取用戶量不為零時(shí),對(duì)所述待抓取微博用戶進(jìn)行微博信息抓取。參見圖6,示出了本發(fā)明中第一獲取單元的示意圖,可包括:選取單元601,用于選取至少一個(gè)認(rèn)證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;第二判斷單元602,用于判斷所述未處理用戶是否具有下級(jí)用戶:第三獲取單元603,用于在所述第二判斷單元判定所述未處理用戶具有下級(jí)用戶時(shí),獲取該未處理用戶的下級(jí)用戶,添加單元604,用于將所述下級(jí)用戶添加到所述用戶列表,設(shè)置所述未處理用戶的狀態(tài)為已處理;將所述下級(jí)用戶作為未處理用戶,通知所述第二判斷單元602繼續(xù)判斷未處理用戶是否具有下級(jí)用戶;設(shè)置單元605,用于在所述第二判斷單元判定所述未處理用戶不具有下級(jí)用戶時(shí),則設(shè)置該未處理用戶的狀態(tài)為已處理。其中,第三獲取單元可通過以下兩種方式獲取下級(jí)用戶,具體為:通過所述未處理用戶的用戶關(guān)系網(wǎng)獲取所述下級(jí)用戶;或者,抓取評(píng)論和/或轉(zhuǎn)發(fā)所述未處理用戶發(fā)布的微博的用戶作為所述下級(jí)用戶。參見圖7,示出了本發(fā)明中第一判斷單元的示意圖,可包括:確定單元701,用于根據(jù)所述待抓取微博用戶發(fā)布微博的頻率確定用戶活躍度;判斷子單元702,用于根據(jù)預(yù)設(shè)活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預(yù)設(shè)活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。參見圖8,示出了本發(fā)明中計(jì)算單元的示意圖,可包括:計(jì)算子單元801,用于根據(jù)所述待抓取微博用戶發(fā)布的微博計(jì)算用戶的平均發(fā)帖間隔;查找單元802,用于從預(yù)設(shè)數(shù)據(jù)庫(kù)中查找與所述平均發(fā)帖間隔相對(duì)應(yīng)的活躍度。以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制。雖然本發(fā)明已以較佳實(shí)施例揭露如上,然而并非用以限定本發(fā)明。任何熟悉本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍情況下,都可利用上述揭示的方法和技術(shù)內(nèi)容對(duì)本發(fā)明技術(shù)方案做出許多可能的變動(dòng)和修飾,或修改為等同變化的等效實(shí)施例。因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所做的任何簡(jiǎn)單修改、等同變化及修飾,均仍屬于本發(fā)明技術(shù)方案保護(hù)的范圍內(nèi)。
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乌拉特前旗| 白玉县| 桦甸市| 内乡县| 子长县| 乐平市| 盐城市| 澜沧| 新巴尔虎左旗| 东海县| 永德县| 江华| 舟山市| 龙游县| 余江县| 祁连县| 堆龙德庆县| 鹿邑县| 济阳县| 五台县| 民县| 石棉县| 杭州市| 乌兰察布市| 福清市| 略阳县| 榕江县| 正定县| 富阳市| 绍兴市| 奉贤区| 射阳县| 灵丘县| 潜山县| 梁山县| 克拉玛依市| 阿瓦提县| 晴隆县| 鄱阳县| 长沙市| 阿合奇县|