本發(fā)明屬于社交網(wǎng)絡(luò)
技術(shù)領(lǐng)域:
,特別涉及一種基于個體情感行為分析的社交平臺用戶分類方法。
背景技術(shù):
:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,以微博為代表的在線社交網(wǎng)絡(luò)得到大規(guī)模的使用。用戶可以在其上自行發(fā)布信息,也可以通過轉(zhuǎn)發(fā),評論,點(diǎn)贊等方式與其它信息進(jìn)行交互,與真實(shí)社交網(wǎng)絡(luò)相同,在線社交網(wǎng)絡(luò)的用戶行為傳達(dá)出的不僅僅是字面信息,它同時包含著用戶的情感態(tài)度,這種情感態(tài)度因用戶個人背景與習(xí)慣的不同而不同,并貫穿于用戶的所有交互行為當(dāng)中,我們把用戶所具有的這種情感特征稱之為用戶的情感角色。目前針對在線社交網(wǎng)絡(luò)用戶的研究主要包括以下幾個方面,1、用戶影響力的挖掘,此類研究著力于通過對用戶個人屬性以及信息傳播特征的分析,建立描述用戶社交影響力的模型或算法,實(shí)現(xiàn)用戶影響力計算,發(fā)現(xiàn)社交領(lǐng)導(dǎo)者;2、用戶在線行為的預(yù)測,此類研究通過對用戶歷史,上下文環(huán)境以及社交關(guān)系等因素的考慮對用戶進(jìn)行建模,實(shí)現(xiàn)對用戶特定行為或偏好的預(yù)測,例如是否參與轉(zhuǎn)發(fā),是否感興趣等。3、用戶情感分析,此類研究以某一個時刻用戶會有怎樣的情感作為出發(fā)點(diǎn),通過多種數(shù)據(jù)源(包括文本,圖片,視頻,音樂等),線上線下結(jié)合以及社交關(guān)系等因素實(shí)現(xiàn)用戶情感的分析與預(yù)測。以上研究在一定程度上為我們揭示了用戶的在線行為規(guī)律和社交網(wǎng)絡(luò)的內(nèi)在運(yùn)作規(guī)律,但缺乏對用戶情感的綜合考慮。技術(shù)實(shí)現(xiàn)要素:針對以上問題,本發(fā)明通過從用戶個人情感角度進(jìn)行分析,提供一種基于個體情感行為分析的社交平臺用戶分類方法,具體技術(shù)方案為:一種基于個體情感行為分析的社交平臺用戶分類方法,包括以下步驟:S1、構(gòu)建轉(zhuǎn)發(fā)樹:提取社交平臺用戶轉(zhuǎn)發(fā)信息,建立基于樹型拓?fù)浣Y(jié)構(gòu)的社交平臺轉(zhuǎn)發(fā)樹;S2、構(gòu)建用戶歷史記錄:對于轉(zhuǎn)發(fā)樹中的節(jié)點(diǎn)的轉(zhuǎn)發(fā)信息進(jìn)行情感計算,將結(jié)果按情感分類為積極、消極、中立;提取具有相同用戶ID的節(jié)點(diǎn)構(gòu)建此用戶的個體轉(zhuǎn)發(fā)歷史記錄;S3、構(gòu)建用戶情感行為描述特征:包括用戶傾向描述特征:個體與群體情感關(guān)系ERu、用戶個人歷史情感偏好HPu;用戶情感影響描述特征EIu;S4、利用S3中的特征構(gòu)建給予決策樹的用戶角色分類模型,首先構(gòu)造輸入向量Uu=<ERu,HPu,EIu>,然后對每一個特征分別計算信息熵Uj為第j個特征,選取具有最大信息增益的特征構(gòu)建當(dāng)前決策節(jié)點(diǎn),對剩余特征逐層遞歸得到最終決策樹模型,進(jìn)而完成基于情感的用戶分類。進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法S1中的轉(zhuǎn)發(fā)信息包括原始文本信息、轉(zhuǎn)發(fā)文本信息、參與用戶的個體信息。進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法S1按照層級由底向上進(jìn)行文本情感解析,逐層添加轉(zhuǎn)發(fā)節(jié)點(diǎn),構(gòu)建轉(zhuǎn)發(fā)樹。進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法S2中的情感計算采用多規(guī)則集模型,通過文本點(diǎn)互信息自底向上建立情感詞典、語法規(guī)則,所述的自底向上是指按照從詞語、短語、短句、整句的順序依次分析。進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法S3中所述的個體和群體情感關(guān)系是基于個體的情感選擇與群體情感的分布,描述為個體與當(dāng)前一條文本信息的情感關(guān)系因子ERu(w),其取值范圍為-1~1,該值越大表示當(dāng)前關(guān)系越趨近積極,該值越小表示當(dāng)前關(guān)系越趨近消極,如下表示:ERu(w)=0.5+N(w)-P(w)-|N(w)-O(w)|2S(w),Eu(w)=PP(w)-N(w)2S(w),Eu(w)=O-0.5+N(w)-P(w)-|P(w)-O(w)|2S(w),Eu(w)=N]]>其中,N(w),P(w),O(w)分別表示當(dāng)前轉(zhuǎn)發(fā)樹內(nèi)的消極情感分布,積極情感分布,中立情感分布,S(w)表示轉(zhuǎn)發(fā)樹規(guī)模。進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法S3中個體歷史情感偏好HPu(e)是基于用戶歷史記錄中的情感分布以及歷史轉(zhuǎn)發(fā)中的用戶評論參與度Cu(w),用以下公式表示:HPu(e)=ΣEu(w)=e,w∈Wulog(Cu(W)+2)exp{-θ1(t0-tw)}]]>其中,exp{-θ1(t0-tw)}為控制用戶偏好的時間衰減,log(Cu(w)+2)為通過評論長度描述用戶的參與程度。進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法S3中所述的情感影響EIu是基于轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特點(diǎn)SFu(w)、轉(zhuǎn)發(fā)樹的時域影響TFu(w)、用戶的情感變化EIu(w),如下表示:EIu=Σw∈WuαSFu(w)+βTFu(w)+γEFu(w)HRu(1+HRuHRu+NRu)]]>HRu表示用戶轉(zhuǎn)發(fā)作為內(nèi)部節(jié)點(diǎn)的個數(shù),NRu表示用戶轉(zhuǎn)發(fā)作為葉子節(jié)點(diǎn)的個數(shù)。進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法中轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特點(diǎn)SFu(w)基于轉(zhuǎn)發(fā)樹的絕對規(guī)模S(w)、相對規(guī)模Su(w)以及子樹深度DPu(w),如下表示:SFu(w)=α1Su(w)S(w)+(1-α1)exp{-δDPu(w)logSu(w)}.]]>進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法中轉(zhuǎn)發(fā)樹的時域影響TFu(w)為轉(zhuǎn)發(fā)樹在時間角度對信息傳播的貢獻(xiàn),所述貢獻(xiàn)體現(xiàn)在子樹相對于整個轉(zhuǎn)發(fā)樹的存活時間、子樹相對于原始文本的時間延遲兩個方面;TFu(w)=β1LPu(w)LP(w)+(1-β1)exp{-ϵ(tu-tw)}]]>其中LPu(w)為子樹生命周期,LP(w)為轉(zhuǎn)發(fā)樹生命周期,為子樹相對于整個轉(zhuǎn)發(fā)樹的存活時間,exp{-ε(tu-tw)}為子樹出現(xiàn)的時域延遲;進(jìn)一步地,一種基于個體情感行為分析的社交平臺用戶分類方法中用戶的情感變化EFu(w)以當(dāng)前用戶的轉(zhuǎn)發(fā)行為作為時間分界點(diǎn),通過計算用戶轉(zhuǎn)發(fā)前后的情感分布差異,并通過指數(shù)函數(shù)對參數(shù)進(jìn)行標(biāo)準(zhǔn)化,用以下公式表示:EFu(w)=-exp{Σe∈M|Bu(w,e)-Au(w,e)|}+1]]>其中,Bu(w,e),Au(w,e)分別為用戶轉(zhuǎn)發(fā)前后的情感分布。本發(fā)明具有以下有益效果:為了能夠系統(tǒng)的描述用戶在線情感行為,本發(fā)明定義了六類微博用戶情感角色,分別是積極領(lǐng)導(dǎo)者,積極追隨者,消極領(lǐng)導(dǎo)者,消極追隨者,中立領(lǐng)導(dǎo)者,中立追隨者,并提出一種基于個體情感行為分析的社交平臺用戶分類方法,該方法從兩個維度(情感傾向與情感影響)建立用戶情感行為描述模型。由于采用了技術(shù)方案中的用戶情感傾向特征和用戶影響特征,構(gòu)建了較為全面的用戶情感行為描述模型,可以更全面的考慮用戶的個人歷史信息;該方法充分利用了微博當(dāng)中的用戶個人信息,傳播結(jié)構(gòu)信息,情感信息以及動態(tài)時域信息。由于采用以上措施,本發(fā)明能夠獲得更好的分類準(zhǔn)確率。附圖說明圖1本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法流程圖;圖2本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法用戶歷史記錄實(shí)例;圖3本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法結(jié)構(gòu)特性分布;圖4本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法時域特性分布;圖5本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法參數(shù)學(xué)習(xí)結(jié)果;圖6本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法情感變化特性分布;圖7本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法個人與宏觀情感關(guān)系分布;圖8本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法歷史情感偏好結(jié)果分布;圖9本發(fā)明一種基于個體情感行為分析的社交平臺用戶分類方法情感影響結(jié)果。具體實(shí)施方式為了使本發(fā)明的目的及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。實(shí)施例S1、構(gòu)建轉(zhuǎn)發(fā)樹:提取社交平臺用戶轉(zhuǎn)發(fā)信息,建立基于樹型拓?fù)浣Y(jié)構(gòu)的社交平臺轉(zhuǎn)發(fā)樹.以微博為例,抓取微博上的轉(zhuǎn)發(fā)數(shù)據(jù),保留數(shù)據(jù)當(dāng)中的用戶信息,轉(zhuǎn)發(fā)信息以及原始微博信息,根據(jù)微博轉(zhuǎn)發(fā)的標(biāo)識符“//@”以及上級用戶昵稱,按照層級由底向上進(jìn)行文本解析,逐層添加轉(zhuǎn)發(fā)節(jié)點(diǎn),構(gòu)建微博轉(zhuǎn)發(fā)樹??偣彩占?9389名用戶信息,構(gòu)建轉(zhuǎn)發(fā)樹7096顆。S2、構(gòu)建用戶歷史記錄:對于轉(zhuǎn)發(fā)樹中的節(jié)點(diǎn)的轉(zhuǎn)發(fā)信息進(jìn)行情感計算,將結(jié)果按情感分類為積極、消極、中立;提取具有相同用戶ID的節(jié)點(diǎn)構(gòu)建此用戶的個體轉(zhuǎn)發(fā)歷史記。利用多規(guī)則集模型,對轉(zhuǎn)發(fā)樹中每一個節(jié)點(diǎn)所包含的文本信息進(jìn)行情感計算,得到三種結(jié)果,分別是積極,消極和中立。之后,利用每一個微博轉(zhuǎn)發(fā)節(jié)點(diǎn)所包含的用戶信息,將具有相同用戶ID的節(jié)點(diǎn)提取出來構(gòu)建用戶的個人歷史轉(zhuǎn)發(fā)記錄并以XML文件形式進(jìn)行存儲。圖2為一個用戶的歷史記錄示例,<uid_1796678344>代表一個用戶,<retweet>為當(dāng)前用戶的一條轉(zhuǎn)發(fā),<org_id>、<org_text>、<org_time>、<org_emotion>、<p_name>、<p_id>、<w_id>、<w_test>、<w_time>、<w_emotion>表示對應(yīng)轉(zhuǎn)發(fā)的相關(guān)屬性。S3、構(gòu)建用戶情感行為描述特征:包括用戶傾向描述特征:個體與群體情感關(guān)系ERu、用戶個人歷史情感偏好HPu;用戶情感影響描述特征EIu。從個人與宏觀情感關(guān)系以及用戶個人歷史情感偏好兩個角度構(gòu)建用戶情感傾向,對于前者,以ERu(w)表示用戶與當(dāng)前一條微博的情感關(guān)系因子取值范圍在-1~1之間,該值越大表示當(dāng)前關(guān)系越趨近積極,反之趨近消極,為使中立情感位于0附近,設(shè)定積極與消極的原點(diǎn)分別是0.5和-0.5,ERu(w)=0.5+N(w)-P(w)-|N(w)-O(w)|2S(w),Eu(w)=PP(w)-N(w)2S(w),Eu(w)=O-0.5+N(w)-P(w)-|P(w)-O(w)|2S(w),Eu(w)=N]]>N(w),P(w),O(w)分別表示當(dāng)前轉(zhuǎn)發(fā)樹內(nèi)的三類情感分布(消極,積極,中立),S(w)表示轉(zhuǎn)發(fā)樹規(guī)模。用戶個人歷史情感偏好HPu(e)基于用戶歷史記錄中的情感分布以及歷史轉(zhuǎn)發(fā)中的用戶評論參與度Cu(w),指數(shù)部分用于控制用戶偏好的時間衰減,以最近的微博發(fā)布時間t0作為參考點(diǎn),對數(shù)部分通過評論長度描述用戶的參與程度:HPu(e)=ΣEu(w)=e,w∈Wulog(Cu(W)+2)exp{-θ1(t0-tw)}.]]>從轉(zhuǎn)發(fā)的結(jié)構(gòu)特性,時域特性以及情感變化角度描述用戶情感影響,微博轉(zhuǎn)發(fā)的結(jié)構(gòu)特點(diǎn)SFu(w)權(quán)衡轉(zhuǎn)發(fā)樹的絕對規(guī)模S(w)、相對規(guī)模Su(w)以及子樹深度DPu(w):SFu(w)=α1Su(w)S(w)+(1-α1)exp{-δDPu(w)logSu(w)}.]]>圖3描述了SFu(w)的計算結(jié)果分布,我們認(rèn)為,在具有相同轉(zhuǎn)發(fā)規(guī)模的情況下,子樹越深意味著子樹越稀疏,反之則越茂密,而更加茂密的子樹往往具有更大范圍的影響作用。與結(jié)構(gòu)特性不同,時域影響TFu(w)用來描述轉(zhuǎn)發(fā)樹在時間角度對信息傳播的貢獻(xiàn),這種貢獻(xiàn)集中體現(xiàn)在兩個方面,第一,子樹相對于整個轉(zhuǎn)發(fā)的存活時間;第二,子樹相對于原始微博的時間延遲。TFu(w)綜合考慮子樹生命周期LPu(w)、轉(zhuǎn)發(fā)樹生命周期LP(w)以及子樹出現(xiàn)的時域延遲exp{-ε(tu-tw)}。ε圖用于控制衰減速度:TFu(w)=β1LPu(w)LP(w)+(1-β1)exp{-ϵ(tu-tw)}.]]>本方法中通過試驗(yàn)準(zhǔn)確度,將其設(shè)為0.2,圖4描述了TFu(w)的計算結(jié)果分布。α1與β1為學(xué)習(xí)參數(shù),通過對特征采取單獨(dú)分類驗(yàn)證,以0.1為步長,選擇準(zhǔn)確性最高的值作為參數(shù)實(shí)際數(shù)值,此理中采用決策樹的分類方法測試結(jié)果如圖5所示,因此參數(shù)值分別設(shè)為0.6和0.7。情感變化EFu(w)以當(dāng)前用戶的轉(zhuǎn)發(fā)行為作為時間分界點(diǎn),用戶轉(zhuǎn)發(fā)前后的情感分布分別以Bu(w,e),Au(w,e)表示,通過|Bu(w,e)-Au(w,e)|計算情感分布差異,并通過指數(shù)函數(shù)對參數(shù)進(jìn)行標(biāo)準(zhǔn)化:EFu(w)=-exp{Σe∈M|Bu(w,e)-Au(w,e)|}+1]]>圖6描述了EFu(w)的計算結(jié)果分布。S4、利用S3中的特征構(gòu)建給予決策樹的用戶角色分類模型,首先構(gòu)造輸入向量Uu=<ERu,HPu,EIu>,然后對每一個特征分別計算信息熵Uj為第j個特征,選取具有最大信息增益的特征構(gòu)建當(dāng)前決策節(jié)點(diǎn),對剩余特征逐層遞歸得到最終決策樹模型,進(jìn)而完成基于情感的用戶分類。根據(jù)S3得到的結(jié)果進(jìn)行特征融合,得到綜合描述用戶情感傾向ERu、HPu與情感影響EIu的特征作為模型輸入:ERu=Σw∈WuERu(w)HRu+NRu]]>HPu=HPu(P)-HPu(N)Σe∈MHPu(e)]]>EIu=Σw∈WuαSFu(w)+βTFu(w)+γEFu(w)HRu(1+HRuHRu+NRu)]]>其中EIu對三類影響特征進(jìn)行融合,并考慮葉子節(jié)點(diǎn)并未產(chǎn)生任何影響這一情況,引入作為去噪因子HRu表示用戶轉(zhuǎn)發(fā)作為內(nèi)部節(jié)點(diǎn)的個數(shù),NRu表示用戶轉(zhuǎn)發(fā)作為葉子節(jié)點(diǎn)的個數(shù),圖7展示了當(dāng)前數(shù)據(jù)集ERu的計算結(jié)果分布,圖8展示了HPu的計算結(jié)果分布,圖9展示了EIu的計算結(jié)果分布。最終通過基于決策樹的分類方法,得到6種情感角色分類,分類結(jié)果如表1所示。表1實(shí)施例情感角色分類結(jié)果情感角色準(zhǔn)確度積極領(lǐng)導(dǎo)者(PL)0.87積極追隨者(PF)0.90中立領(lǐng)導(dǎo)者(OL)0.83中立追隨者(OF)0.86消極領(lǐng)導(dǎo)者(NL)0.91消極追隨者(NF)0.92當(dāng)前第1頁1 2 3