欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)絡轉發(fā)行為預測方法及裝置的制造方法

文檔序號:9217615閱讀:553來源:國知局
網(wǎng)絡轉發(fā)行為預測方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術領域,特別是涉及一種網(wǎng)絡轉發(fā)行為預測方法及裝置。
【背景技術】
[0002] 我國微博應用于2009年正式發(fā)布,正是發(fā)布以來,迅速以其內(nèi)容簡潔、交互便捷 和快速傳播等特點,發(fā)展成為人們表達觀點、抒發(fā)情緒、傳遞信息的重要社會媒體。截至 2014年6月底,我國微博用戶規(guī)模為2. 75億,用戶之間結成復雜的關注關系,每天發(fā)送微博 近1億條,信息沿著用戶間的關注關系進行傳播,形成傳播網(wǎng)絡。
[0003] 微博轉發(fā)是消息在微博網(wǎng)絡中得到持續(xù)傳播的重要方式,微博轉發(fā)預測能夠有效 估計消息是否能獲得轉發(fā)及其轉發(fā)規(guī)模,及早發(fā)現(xiàn)可能引發(fā)大規(guī)模爆發(fā)的微博,對微博突 發(fā)性檢測和微博影響力評估具有重要意義。
[0004] 針對微博轉發(fā)問題的代表性方法包括以下兩類,一是以Suh為代表的針對某些 消息具有更高的轉發(fā)性這一現(xiàn)象,基于Twitter數(shù)據(jù)分析多種微博轉發(fā)的影響因素,提取 URL、標簽、關注人數(shù)、粉絲人數(shù)等內(nèi)容和統(tǒng)計特征,通過主成分分析和廣義線性模型的分析 方法,建立各影響因素與微博轉發(fā)之間的函數(shù)關系,以此對微博轉發(fā)行為進行預測。二是以 Yang為代表的基于微博轉發(fā)樹的方法,通過截取Twitter消息中的RTOusername提取微博 轉發(fā)關系建立微博轉發(fā)樹,然后基于因子圖模型建立轉發(fā)預測模型,以用戶為節(jié)點,轉發(fā)關 系為連邊,將用戶轉發(fā)和不轉發(fā)作為兩種節(jié)點狀態(tài),該模型將節(jié)點屬性、前一時刻節(jié)點狀態(tài) 以及前后兩個時刻的鄰居節(jié)點狀態(tài)作為訓練數(shù)據(jù)獲得模型參數(shù),最終實現(xiàn)節(jié)點狀態(tài)預測。
[0005] 以高轉發(fā)率微博屬性提取的方法主要針對用戶靜態(tài)屬性或消息特征來預測消息 是否會被轉發(fā),沒有充分考慮待預測用戶的個體差異性和知識背景對轉發(fā)決策的影響。用 戶在閱讀到一條微博時,會根據(jù)自己已有相關知識對微博價值和新穎性進行判斷,然后決 定是否進行轉發(fā)。用戶具有哪些相關知識可以從用戶歷史所發(fā)微博中分析獲得,但通過用 戶歷史微博來獲取用戶所掌握的知識具有時間和內(nèi)容局限性。時間局限性是指用戶歷史微 博反映的都是用戶以往感興趣的內(nèi)容,而用戶的興趣是隨時間和外部事件影響而動態(tài)變化 的,在面對一些新發(fā)生的熱點事件時,無法通過分析歷史微博判斷用戶對熱點事件的感興 趣程度,往往造成預測準確性低。內(nèi)容局限性是指微博只是用戶進行網(wǎng)絡交互的一種方式, 難以期望用戶將自己所有的生活、學習和工作的方方面面信息完整的反映在微博里。所以 僅依靠用戶歷史微博來計算用戶興趣,進而計算用戶興趣與待轉發(fā)微博內(nèi)容的相似程度, 據(jù)此判斷用戶是否會轉發(fā)某條微博是不準確的。
[0006] 基于轉發(fā)關系的因子圖模型方法需要建立完整的微博轉發(fā)樹、前一時刻節(jié)點狀態(tài) 以及前后兩個時刻的鄰居節(jié)點狀態(tài),這需要獲得完整的轉發(fā)關系和歷史轉發(fā)日志數(shù)據(jù),但 是在實際轉發(fā)預測問題中,大部分情況下只能獲取到部分用戶轉發(fā)數(shù)據(jù)和局部日志數(shù)據(jù), 建立完整的轉發(fā)樹和節(jié)點狀態(tài)是很困難的,并且計算復雜度較高。

【發(fā)明內(nèi)容】

[0007] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的網(wǎng)絡轉發(fā)行為預測方法及裝置。
[0008] 本發(fā)明提供一種網(wǎng)絡轉發(fā)行為預測方法,包括:
[0009] 計算待預測用戶的轉發(fā)行為與熱點事件趨勢的第一匹配度,并計算待預測微博與 熱點事件的第二匹配度;
[0010] 將第一匹配度、第二匹配度、以及待預測用戶的信息輸入到預先訓練好的分類器 中,輸出待預測用戶對待預測微博的動作類型。
[0011] 優(yōu)選地,計算待預測用戶的轉發(fā)行為與熱點事件趨勢的第一匹配度具體包括:
[0012] 通過提取待預測微博的話題標簽,判斷話題標簽內(nèi)容是否命中熱點事件,如果命 中,則確定待預測微博屬于該熱點事件,如果未命中,則計算待預測微博的關鍵詞與熱點事 件匹配度,將匹配度最高的熱點事件判定為待預測微博所屬的熱點事件。
[0013] 優(yōu)選地,計算待預測微博的關鍵詞與熱點事件匹配度具體包括:
[0014] 根據(jù)公式1計算待預測微博的關鍵詞與熱點事件匹配度pf;
[0016] 其中,m表示待預測微博,S表示熱點事件,Vm表示待預測微博的特征詞集合,V5表 示熱點事件的特征詞集合。
[0017] 優(yōu)選地,計算待預測微博與熱點事件的第二匹配度具體包括:
[0018] 在熱點事件發(fā)生周期內(nèi),計算熱點事件相關微博在熱點事件發(fā)生周期內(nèi)每天的積 累轉發(fā)量,并計算待預測微博的用戶在熱點事件發(fā)生周期內(nèi)每天轉發(fā)相關微博的數(shù)量;
[0019] 根據(jù)公式2計算待預測微博的用戶轉發(fā)行為與熱點事件趨勢的匹配度;
[0021] 其中,s表示熱點事件,u表示待預測微博的用戶,t表示熱點事件發(fā)生周期,<表 示第i天與熱點事件S相關的微博轉發(fā)總量,^^表示ivf的平均值。況^/;)表示第i天用 戶U所轉發(fā)的與熱點事件S相關的微博數(shù)量,允表示的平均值。
[0022] 優(yōu)選地,對分類器進行訓練具體包括:
[0023] 選取預訂時段內(nèi)的熱點事件列表,根據(jù)熱點事件列表在網(wǎng)絡上爬取相關信息,針 對信息進行內(nèi)容提取,對提取的內(nèi)容進行分詞和詞頻統(tǒng)計,形成由關鍵詞組成的特征詞集 合,并獲取與熱點事件列表中的熱點事件相關的微博用戶作為訓練樣本集,并在訓練樣本 集中標識用戶、微博、以及動作類型之間的關系;
[0024] 基于訓練樣本集,通過提取微博的話題標簽,判斷話題標簽內(nèi)容是否命中熱點事 件,如果命中,則確定微博屬于該熱點事件,如果未命中,則根據(jù)公式1計算微博的關鍵詞 與熱點事件匹配度/>,t,將匹配度最高的熱點事件判定為待預測微博所屬的熱點事件;
[0026] 其中,m表示微博,s表示熱點事件,表示微博的特征詞集合,¥3表示熱點事件的 特征詞集合;
[0027] 基于訓練樣本集,在熱點事件發(fā)生周期內(nèi),計算熱點事件相關微博在熱點事件發(fā) 生周期內(nèi)每天的積累轉發(fā)量,并計算微博用戶在熱點事件發(fā)生周期內(nèi)每天轉發(fā)相關微博的 數(shù)量;
[0028] 根據(jù)公式2計算微博用戶轉發(fā)行為與熱點事件趨勢的匹配度Af ? ,
[0030] 其中,s表示熱點事件,u表示待預測微博的用戶,t表示熱點事件發(fā)生周期,iVf表 示第i天與熱點事件S相關的微博轉發(fā)總量,# S表示iVf的平均值。]<(/;)表示第i天用 戶U所轉發(fā)的與熱點事件S相關的微博數(shù)量,允表示的平均值;
[0031] 基于訓練樣本集,將微博的關鍵詞與熱點事件匹配度微博用戶轉發(fā)行為與熱 點事件趨勢的匹配度A)、以及動作類型輸入到分類器,對分類器進行訓練。
[0032] 本發(fā)明還提供了一種網(wǎng)絡轉發(fā)行為預測裝置,包括:
[0033] 計算模塊,用于計算待預測用戶的轉發(fā)行為與熱點事件趨勢的第一匹配度,并計 算待預測微博與熱點事件的第二匹配度;
[0034] 預測模塊,用于將第一匹配度、第二匹配度、以及待預測用戶的信息輸入到訓練模 塊預先訓練好的分類器中,輸出待預測用戶對待預測微博的動作類型。
[0035] 優(yōu)選地,計算模塊具體用于:
[0036] 通過提取待預測微博的話題標簽,判斷話題標簽內(nèi)容是否命中熱點事件,如果命 中,則確定待預測微博屬于該熱點事件,如果未命中,則計算待預測微博的關鍵詞與熱點事 件匹配度,將匹配度最高的熱點事件判定為待預測微博所屬的熱點事件。
[0037] 優(yōu)選地,計算模塊具體用于:
[0038] 根據(jù)公式1計算待預測微博的關鍵詞與熱點事件匹配度pf ;
[0040]其中,m表示待預測微博,s表示熱點事件,Vm表示待預測微博的特征詞集合,V 5表 示熱點事件的特征詞集合。
[0041] 優(yōu)選地,計算模塊具體用于:
[0042] 在熱點事件發(fā)生周期內(nèi),計算熱點事件相關微博在熱點事件發(fā)生周期內(nèi)每天的積 累轉發(fā)量,并計算待預測微博的用戶在熱點事件發(fā)生周期內(nèi)每天轉發(fā)相關微博的數(shù)量;
[0043] 根據(jù)公式2計算待預測微博的用戶轉發(fā)行為與熱點事件趨勢的匹配度Pf ;
[0045] 其中,s表示熱點事件,u表示待預測微博的用戶,t表示熱點事件發(fā)生周期,If 表示第i天與熱點事件S相關的微博轉發(fā)總量,分s表示iVf的平均值。ivf的表示第i天 用戶U所轉發(fā)的與熱點事件S相關的微博數(shù)量,&表示<的的平均值。
[0046] 優(yōu)選地,訓練模塊具體用于:
[0047] 選取預訂時段內(nèi)的熱點事件列表,根據(jù)熱點事件列表在網(wǎng)絡上爬取相關信息,針 對信息進行內(nèi)容提取,對提取的內(nèi)容進行分詞和詞頻統(tǒng)計,形成由關鍵詞組成的特征詞集 合,并獲取與熱點事件列表中的熱點事件相關的微博用戶作為訓練樣本集,并在訓練樣本 集中標識用戶、微博、以及動作類型之間的關系;
[0048] 基于訓練樣本集,通過提取微博的話題標簽,判斷話題標簽內(nèi)容是否命中熱點事 件,如果命中,則確定微博屬于該熱點事件,如果未命中,則根據(jù)公式1計算
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大庆市| 锦州市| 邯郸县| 自治县| 汨罗市| 深水埗区| 盖州市| 台安县| 炎陵县| 湖北省| 泊头市| 西峡县| 瓦房店市| 淮阳县| 武功县| 航空| 隆昌县| 潞西市| 伊宁市| 房产| 城固县| 抚州市| 阿拉善左旗| 板桥市| 新邵县| 莱芜市| 临沧市| 怀柔区| 西充县| 怀宁县| 长汀县| 沂水县| 淮南市| 颍上县| 穆棱市| 彩票| 靖西县| 西充县| 芮城县| 左云县| 宣恩县|