本發(fā)明涉及網(wǎng)絡通信技術領域,尤其涉及一種基于統(tǒng)計特征的社交網(wǎng)絡用戶關系的計算方法。
背景技術:
基于社交網(wǎng)絡的用戶關系的應用越來越廣泛,如視頻推薦網(wǎng)站clicker與亞馬遜等基于用戶關系提供社會化推薦以及各社交平臺中的好友推薦等應用。其中將用戶關系引入推薦系統(tǒng)可以增加推薦結(jié)果的信任度、解決推薦系統(tǒng)的冷啟動問題。因此如何準確地度量用戶間的關系強度就成為了一個重要問題,而基于用戶互動信息的度量是一種有效的解決思路。
基于用戶互動信息的關系強度度量基于如下假設:兩個用戶間的互動越多則認為彼此間的關系越強。在現(xiàn)有的方法里不考慮不同用戶對關系強度的敏感度的差異,然而在實際社交網(wǎng)絡中存在以下情形:不同用戶對關系強度的敏感度是有差異的;存在一些不以社交為目的而是以宣傳、提供咨詢等為目的的用戶,這些用戶對關系強度的敏感度低于以社交為目的的用戶。
因此,有必要提供更準確的用戶關系計算方法,以解決現(xiàn)有技術所存在的準確度低的問題。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服目前用戶關系計算方法中存在的準確度低的問題,提出了一種基于統(tǒng)計特征的社交網(wǎng)絡用戶關系計算方法,該方法根據(jù)互動記錄集合得到互動頻數(shù)分布,計算用戶的關系強度因子,以此調(diào)整用戶之間的關系強度,從而能夠準確計算出用戶關系強度。
為了實現(xiàn)上述方法,本發(fā)明提供了一種基于統(tǒng)計特征的社交網(wǎng)絡用戶關系計算方法,所述方法包括:
步驟1)從業(yè)務系統(tǒng)中采集用戶互動行為數(shù)據(jù);
步驟2)根據(jù)用戶互動行為數(shù)據(jù)生成用戶互動記錄集合,統(tǒng)計用戶對集合和每個用戶對的互動頻數(shù)分布;由此統(tǒng)計每個用戶的互動頻數(shù)分布;
步驟3)統(tǒng)計每個用戶的互動頻數(shù)總數(shù)及互動頻數(shù)分布,計算每個用戶的關系強 度因子;
步驟4)計算用戶對集合中每對用戶的關系強度。
上述技術方案中,所述步驟2)具體包括:
步驟2-1)對用戶互動行為數(shù)據(jù)中的殘缺數(shù)據(jù)、錯誤數(shù)據(jù)以及重復數(shù)據(jù)進行清洗;
步驟2-1)對用戶互動行為數(shù)據(jù)中的殘缺數(shù)據(jù)、錯誤數(shù)據(jù)以及重復數(shù)據(jù)進行清洗;
首先將缺失用戶標識符的數(shù)據(jù)刪除;其次檢查是否符合命名規(guī)則,如果不符合則刪除,符合則保留;最后將保留的數(shù)據(jù)集執(zhí)行聚合操作刪除重復數(shù)據(jù);
步驟2-2)根據(jù)清洗后的數(shù)據(jù)生成互動記錄集合;
根據(jù)業(yè)務系統(tǒng)特性將清洗后的社交類型的用戶行為數(shù)據(jù)去掉冗余信息形成用戶互動記錄,提取互動用戶雙方的標識符放入用戶對集合中,然后為這個互動記錄加上互動雙方的標識符,最后,將所有的互動記錄組合生成互動記錄集合;
步驟2-3)根據(jù)互動記錄集合統(tǒng)計用戶總數(shù)u、用戶對集合和每個用戶對的互動頻數(shù)分布。
上述技術方案中,所述步驟2-2)中的互動記錄集合,其中互動是不受用戶關系約束的,即互動雙方為好友或陌生人。
上述技術方案中,所述步驟3)的用戶的關系強度因子為用戶的互動頻數(shù)分布的二階中心矩、三階中心矩或四階中心矩。
上述技術方案中,當用戶的關系強度因子為用戶的互動頻數(shù)分布的二階中心矩時,用戶a的關系強度因子parameter(a)的計算過程為:
從所述互動記錄集合獲取源用戶a的互動用戶集合ua,互動用戶總數(shù)為|ua|;其與用戶u的互動頻數(shù)為ea,u,u∈ua;則用戶a的互動頻數(shù)分布的期望
上述技術方案中,所述步驟4)的具體實現(xiàn)過程為:
對于源用戶a和目的用戶b組成的互動用戶對(a,b),源用戶a對目標用戶b的關系強度ta,b為:
其中,ea,b為用戶a與用戶b的互動頻數(shù)。
上述技術方案中,所述互動用戶對的關系強度是不對稱的,即ta,b≠tb,a。
上述技術方案中,在所述步驟4)后,還包括:
根據(jù)統(tǒng)計數(shù)據(jù)為不同的用戶關系類型預設對應的關系強度區(qū)間,將步驟4)計算出的用戶關系強度進行關系強度區(qū)間匹配,確定用戶對所屬的用戶關系類型;具體過程為:
通過有監(jiān)督的機器學習方法獲得k個閾值0≤h1<h2<…<hk,相鄰兩閾值間[hi,hi+1)對應第i種用戶關系類型,計算出用戶對的關系強度ta,b后,匹配關系強度ta,b所在的閾值區(qū)間;如果hi≤ta,b<hi+1,則將該用戶對(a,b)放入第i種用戶關系集合中。
本發(fā)明的優(yōu)點在于:本發(fā)明的方法利用用戶互動的統(tǒng)計特征對用戶關系進行了量化,該量化值能夠準確客觀地體現(xiàn)用戶之間的關系;并由此判斷出用戶關系所屬的類型。
附圖說明
圖1是本發(fā)明的基于統(tǒng)計特征的社交網(wǎng)絡用戶關系計算方法的流程圖;
圖2是本發(fā)明的方法中的用戶關系類型判定的數(shù)據(jù)流程圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明做進一步詳細的說明。
如圖1所示,一種基于統(tǒng)計特征的社交網(wǎng)絡用戶關系計算方法,所述方法包括:
步驟1)從業(yè)務系統(tǒng)中采集用戶互動行為數(shù)據(jù);
以qq空間業(yè)務系統(tǒng)為例,按照展示形式可分為日志版塊、相冊版塊、說說版塊、留言板版塊等等,按照互動形式可分為評論、回復、點贊、訪問、轉(zhuǎn)載、分享等,爬蟲程序遍歷每個qq用戶的空間,爬取其空間各個版塊的互動信息,從這些信息中采集用戶互動行為數(shù)據(jù);
步驟2)根據(jù)用戶互動行為數(shù)據(jù)生成用戶互動記錄集合,統(tǒng)計用戶對集合和每個用戶對的互動頻數(shù)分布;由此統(tǒng)計每個用戶的互動頻數(shù)分布;具體包括:
步驟2-1)對用戶互動行為數(shù)據(jù)中的殘缺數(shù)據(jù)、錯誤數(shù)據(jù)以及重復數(shù)據(jù)進行清洗;
首先將缺失uid(用戶標識符)的數(shù)據(jù)刪除;其次檢查是否符合命名規(guī)則,如果不符合則刪除,符合則保留;最后將保留的數(shù)據(jù)集執(zhí)行聚合操作刪除重復數(shù)據(jù)。
步驟2-2)根據(jù)清洗后的數(shù)據(jù)生成互動記錄集合;
根據(jù)業(yè)務系統(tǒng)特性將清洗后的社交類型的用戶行為數(shù)據(jù)去掉冗余信息形成用戶 互動記錄,提取互動雙方的標識符:(源用戶uid,目標用戶uid);放入用戶對集合中,然后為這個互動記錄加上互動雙方的標識符,最后,將所有的互動記錄組合生成互動記錄集合。
所述互動記錄集合,其中互動是不受用戶關系約束的,即互動雙方可以是好友、陌生人或者其它關系。
步驟2-3)統(tǒng)計用戶總數(shù)u、用戶對集合和每個用戶對的互動頻數(shù)分布;
步驟3)統(tǒng)計每個用戶的互動頻數(shù)總數(shù)及互動頻數(shù)分布,由此計算每個用戶的關系強度因子;
設源用戶a的互動用戶集合為ua,互動用戶總數(shù)為|ua|;其與用戶u的互動頻數(shù)為ea,u,u∈ua;則用戶a的互動頻數(shù)分布的期望為:
在本實施例中,用戶a的關系強度因子parameter(a)采用用戶a的互動頻數(shù)分布的二階中心矩,計算公式為:
在其它實施例中,用戶a的關系強度因子parameter(a)可以采用用戶a的互動頻數(shù)分布的三階中心矩或四階中心矩。
步驟4)計算用戶對集合中每對用戶的關系強度;
對于源用戶a和目的用戶b組成的互動用戶對(a,b),源用戶a對目標用戶b的關系強度ta,b為:
其中,ea,b為用戶a與用戶b的互動頻數(shù);
將ta,b分別對ea,b求偏導得:
證明可得到:
將ta,b分別對parameter(a)求偏導得:
當
所述用戶對的關系強度是不對稱的,即ta,b≠tb,a。
如圖2所示,在所述步驟4)后,還包括:
根據(jù)統(tǒng)計數(shù)據(jù)為不同的用戶關系類型預設對應的關系強度區(qū)間,將步驟4)計算出的用戶關系強度匹配的關系強度區(qū)間,確定用戶對所屬的用戶關系類型;
通過有監(jiān)督的機器學習方法設定閾值h;在計算出用戶對的關系強度ta,b后,比較關系強度ta,b與閾值h;如果ta,b>h,則將該用戶對(a,b)放入強關系集合中;如果ta,b≤h,則將該用戶對(a,b)放入弱關系集合中;
優(yōu)選地,通過有監(jiān)督的機器學習方法獲得k個閾值0≤h1<h2<…<hk,相鄰兩閾值間[hi,hi+1)對應第i種用戶關系類型,如[h1,h2)區(qū)間對應于陌生關系;計算出用戶對的關系強度ta,b后,匹配關系強度ta,b所在的閾值區(qū)間;如果hi≤ta,b<hi+1,則將該用戶對(a,b)放入第i種用戶關系集合中。
以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。