欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向社交平臺的用戶情感影響力分析方法與流程

文檔序號:12906215閱讀:653來源:國知局
面向社交平臺的用戶情感影響力分析方法與流程

本發(fā)明涉及情感影響力分析方法技術(shù)領(lǐng)域,具體為面向社交平臺的用戶情感影響力分析方法。



背景技術(shù):

互聯(lián)網(wǎng)已經(jīng)成為人類生活密不可分的一部分,逐漸替代了傳統(tǒng)社交媒體的功能,在信息獲取、信息傳播等功能上更加強大,其快速性、實時性使其更好地為用戶服務(wù),隨著互聯(lián)網(wǎng)的發(fā)展和網(wǎng)絡(luò)技術(shù)的提升,在線社交平臺的研究開始向海量數(shù)據(jù)和復(fù)雜用戶關(guān)系的這一富有挑戰(zhàn)性的大數(shù)據(jù)命題過渡,針對在線社交網(wǎng)絡(luò)平臺用戶影響力的分析可以應(yīng)用到很多領(lǐng)域,如輿論導(dǎo)向領(lǐng)域、商業(yè)領(lǐng)域、公益領(lǐng)域,為此,我們提出了面向社交平臺的用戶情感影響力分析方法。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提供面向社交平臺的用戶情感影響力分析方法,以解決上述背景技術(shù)中提出的問題。

為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:面向社交平臺的用戶情感影響力分析方法,所述面向社交平臺的用戶情感影響力分析方法包括下述四個步驟:

第一步基于社交平臺的用戶網(wǎng)絡(luò)建設(shè):

利用網(wǎng)絡(luò)爬蟲技術(shù)從x社交平臺(x表示某一個具體公知的社交平臺)中收集公開的用戶基本信息和用戶已經(jīng)上傳的信息,把收集的信息存儲在數(shù)據(jù)庫中對應(yīng)的表結(jié)構(gòu)中,用于構(gòu)建x社交平臺的用戶網(wǎng)絡(luò);

第二步基于社交平臺內(nèi)文本的高效特征抽?。?/p>

首先對x社交平臺中的文本進行分詞處理,去除其中的標(biāo)點符號、停用詞和url鏈接,得到純文本的單詞集合,采用文本聚類的方法,將所有訓(xùn)練文本的單詞集合映射降維成多個話題和特征詞組成特征向量矩陣,得到新的特征空間;

第三步基于深度學(xué)習(xí)算法的社交平臺內(nèi)文本情感分類:

利用機器學(xué)習(xí)方法對x社交平臺內(nèi)文本進行情感分類,機器學(xué)習(xí)方法是通過設(shè)計及其學(xué)習(xí)算法找出區(qū)分類別的特征,進而對x社交平臺內(nèi)文本進行情感分類;

第四步通過seinrank算法構(gòu)建社交平臺情感影響力計算模型:

分別基于x社交平臺用戶網(wǎng)絡(luò)結(jié)構(gòu)、基x社交平臺用戶行為和基于x社交平臺文本的用戶情感傾向,綜合考慮上述三個方面提出本文的用戶情感影響力計算模型。

優(yōu)選的,第一步基于社交平臺的用戶網(wǎng)絡(luò)建設(shè)具有為:x社交平臺用戶之間的交互行為分為用戶關(guān)注行為、用戶評論行為、用戶轉(zhuǎn)發(fā)行為,如圖2所示,設(shè)u={u1,u2,...,un}表示x社交平臺用戶集合,并且ui(1≤i≤n)是u中的任意一個用戶,設(shè)w={w1,w2,...,wm}表示一個用戶發(fā)布信息集合,并且wi(1≤i≤m)是w中的任意一條用戶發(fā)布信息,針對用戶ui發(fā)布的信息,設(shè)wi={wi1,wi2,...,wik}表示用戶ui發(fā)布的信息集合共有k條用戶信息,并且wij(1≤i≤k)是wi中的一個用戶信息,x社交平臺用戶集合u可以構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);

定義1:關(guān)注行為鏈接,對于ui和uj其中(1≤i≠j≤n),分別表示互不相同的x社交平臺用戶,當(dāng)用戶ui關(guān)注了用戶uj時,那么ui與uj之間存在ui指向uj的關(guān)注行為鏈接,即用戶ui為用戶uj的粉絲;

定義2:轉(zhuǎn)發(fā)行為鏈接,對于ui和uj其中(1≤i≠j≤n),分別表示互不相同的x社交平臺用戶,當(dāng)用戶ui發(fā)布了一條信息wij時,隨后用戶uj轉(zhuǎn)發(fā)了此條信息,那么ui與uj之間存在ui指向uj的轉(zhuǎn)發(fā)行為鏈接;

定義3:評論行為鏈接,對于ui和uj其中(1≤i≠j≤n),分別表示互不相同的x社交平臺用戶,當(dāng)用戶ui發(fā)布了一條信息wij時,隨后用戶uj評論了此條信息,那么ui與uj之間存在uj指向ui的評論行為鏈接;

定義4:用戶網(wǎng)絡(luò)有向圖,v是節(jié)點集合,e表示根據(jù)定義1、定義2和定義3得到的邊的集合,用戶集合u={u1,u2,...,un}構(gòu)成x社交平臺用戶網(wǎng)絡(luò)的節(jié)點,則g(v,e)可以表示一個x社交平臺用戶網(wǎng)絡(luò)有向圖;

對于x社交平臺用戶集合u={u1,u2,...,un},根據(jù)定義1、定義2和定義3得到的鏈接關(guān)系構(gòu)建一個x社交平臺用戶關(guān)系網(wǎng)絡(luò)g(v,e),節(jié)點集合u的數(shù)目為x社交平臺用戶數(shù)目n,邊集合e包含上述三種鏈接,因此構(gòu)建x社交平臺用戶網(wǎng)絡(luò)模型g(v,e)的算法如圖3所示。

優(yōu)選的,第二步基于社交平臺內(nèi)文本的高效特征抽?。河脩魧又衳社交平臺用戶之間存在關(guān)注關(guān)系,若用戶ui關(guān)注了用戶uj,則用戶uj發(fā)布的全部信息對用戶ui可見,并且用戶ui可以針對自身喜好對用戶uj的信息進行轉(zhuǎn)發(fā)和評論,其中轉(zhuǎn)發(fā)的信息屬于用戶ui;信息文本層與用戶層之間存在發(fā)布、轉(zhuǎn)發(fā)和評論關(guān)系;話題層表示用戶所發(fā)一條信息可以對應(yīng)多個話題,同時每一個話題可以涉及到多個特征詞,本文通過特征抽取可以得到對應(yīng)話題的特征詞,基于上述描述x社交平臺環(huán)境存在多層結(jié)構(gòu),分為話題層、信息文本層和用戶層;

定義5:x社交平臺中用戶信息文本特征,設(shè)w={w1,w2,...,wm}表示一個用戶信息集合,并且wi(1≤i≤m)是w中的一個用戶信息,假設(shè)用戶ui發(fā)布信息,設(shè)wi={wi1,wi2,...,wik}表示用戶ui的用戶信息集合,并且wij(1≤j≤k)是wi中的一個信息,針對用戶ui的用戶信息集合,通過特征提取可以獲得t={t1,t2,...,tn}表示一個信息話題集合,其中ti(1≤i≤n)是對應(yīng)wi中的一個話題,每一個話題下對應(yīng)一個特征詞集合vi={vi1,vi2,...,vim},其中vim(1≤j≤m)是vi中一個對應(yīng)話題ti的一個特征詞,如果可以用特征詞集合vi={vi1,vi2,...,vim}表示用戶所發(fā)的信息wij,那么稱特征詞集合vi={vi1,vi2,...,vim}為信息wij的信息文本特征;

利用潛在狄利克雷分配(lda)算法來計算一篇文檔的話題概率分布,lda算法的核心公式如下:(1)p(vj|wi)表示詞語vj在給定x社交平臺用戶信息wi中出現(xiàn)的概率,(2)p(tk|wi)表示主題tk在給定x社交平臺用戶信息wi中出現(xiàn)的概率,(3)p(vj|tk)表示詞語vj在給定主題tk中出現(xiàn)的概率,由上面三個公式可以推導(dǎo)出:

描述lda算法的實現(xiàn)過程的算法如圖4所示,算法包含三層結(jié)構(gòu),分別是特征詞、話題和x社交平臺中文本,具體操作是將詞頻數(shù)據(jù)緩存到rdd中,進行map操作將數(shù)據(jù)轉(zhuǎn)換成向量格式,設(shè)置lda模型的話題個數(shù),得到一個distributedldamodel的模型,調(diào)用topicdistributions方法可以得到x社交平臺中話題分布,topicsmatrix方法可以得到話題單詞分布矩陣,經(jīng)過描述lda算法的實現(xiàn)過程的算法的處理,根據(jù)公式1的原理,可以得到兩個概率分布矩陣,話題|x社交平臺中文本矩陣,特征詞|話題矩陣,如公式2和公式3所示,

公式2中,矩陣t|w的行數(shù)為m表示一共有m條x社交平臺文本,列數(shù)為k,表示將每一條x社交平臺用戶信息劃分成k個話題,tij:wgtij表示第i條用戶信息的第j個話題的序號和該話題在此用戶信息下的概率分布權(quán)重;

公式3中,矩陣v|t的行數(shù)為k表示一共存在k個話題,列數(shù)為n,表示將每個話題可以包含n個特征詞,vij:wgtij表示第i話題的第j個特征詞的序號和該特征詞在此話題下的概率分布權(quán)重;

根據(jù)公式2和公式3,一條x社交平臺的用戶信息通過lda模型可以得到對應(yīng)的話題和關(guān)鍵詞,假設(shè)用戶信息集合w={w1,w2,...,wm}的任意一條用戶信息wi均可以表示為:即一條用戶信息由一個特征詞序列表示。

優(yōu)選的,第三步基于深度學(xué)習(xí)算法的社交平臺內(nèi)文本情感分類:

定義6:x社交平臺中用戶信息情感傾向,設(shè)wi={wi1,wi2,...,wim}表示x社交平臺用戶ui的信息文本集合,并且wij(1≤j≤m)是wi中的一個信息文本,信息文本經(jīng)分詞處理之后可以得到單詞集合wordij={wordij1,wordij2,...,wordijn},對任意wordijk(x社交平臺用戶i發(fā)布的第j條信息經(jīng)分詞處理后的第k個單詞)判斷情感傾向,若wordijk的情感傾向sk為正向則sk=1,若wordijk的情感傾向sk為負(fù)向則sk=-1,否則sk=0,計算單詞集合wordij中否定詞的數(shù)目count,綜上用戶信息的情感傾向可表示為:sw=∑sk,如果count為奇數(shù),sw=-sw,若sw>0,則設(shè)定wlable=1,即這個用戶信息為正向情感,反之設(shè)定wlable=-1,即這個用戶信息為負(fù)向情感;

根據(jù)定義6,可以計算x社交平臺的情感傾向wlabel,偽代碼如圖5所示,在圖5的算法中,算法第2行首先進行分詞處理,3~10行對分詞之后的單詞集合初始化wlabel=0,將單詞進行positive和negative情感分類,并統(tǒng)計集合中的否定詞,第12行量化計算用戶信息情感傾向,如否定詞為奇數(shù)個,那么用戶信息的情感標(biāo)簽為原來的負(fù)向,最后得到wlabel∈{1,0,-1};

如圖6為x社交平臺用戶情感分類流程圖,用戶的信息情感表示用戶對于日常生活的真實態(tài)度,是研究x社交平臺用戶情感影響力的一個主要的衡量因素,本文對用戶信息進行情感傾向的劃分,可劃分為正向情感、負(fù)向情感和中立情感,用1、-1和0分別表示,作為每條用戶信息的情感標(biāo)簽;

根據(jù)圖5的算法,可以得到每條x社交平臺用戶的信息的情感標(biāo)簽wlabel,當(dāng)wlabel=1時表示此用戶信息為正向情感;當(dāng)wlabel=-1時表示此用戶信息為負(fù)向情感;當(dāng)wlabel=0時表示此用戶信息為中立情感,根據(jù)已分類的用戶信息文本進行深度學(xué)習(xí)分類模型的訓(xùn)練,其中訓(xùn)練數(shù)據(jù)集可以表示為測試數(shù)據(jù)集可以表示為

如圖7的算法所示,本文提出的基于x社交平臺中用戶信息特征詞向量的信息情感的分類算法,算法第2行首先將訓(xùn)練集數(shù)據(jù)通過map算子轉(zhuǎn)換成densematrix數(shù)據(jù)形式,作為分類模型的輸入rdd,之后設(shè)置分類器的屬性值,其中包括分類器各層節(jié)點數(shù)、輸入層和隱藏層激活函數(shù)、學(xué)習(xí)因子以及懲罰因子等,并設(shè)置訓(xùn)練的迭代次數(shù),算法5~12行描述訓(xùn)練分類器的迭代過程,算法第6行隨機設(shè)置可見層到隱藏層的權(quán)重,算法6~8先通過前向傳播從可見層通過激活函數(shù)得到隱藏層結(jié)果,之后從隱藏層到可見層進行輸入重構(gòu),采用反向傳播的方法,進行局部收斂,隨著迭代次數(shù)的增加,更新上述權(quán)重參數(shù),得到訓(xùn)練好的分類器,并對測試數(shù)據(jù)進行測試得到其用戶信息情感標(biāo)簽;

通過上述研究將原始x社交平臺用戶信息文本轉(zhuǎn)化成特征詞向量輸入到深度學(xué)習(xí)的分類器中,訓(xùn)練分類器,已達到大面積標(biāo)記信息文本情感的目的,x社交平臺用戶的情感傾向是通過其用戶信息文本表達的情感累積得到的,分類器會將用戶的情感分為正向情感和負(fù)向情感,根據(jù)相應(yīng)情感信息的條數(shù),計算出x社交平臺用戶的情感值,作為衡量x社交平臺用戶影響力的情感因素。

優(yōu)選的,第四步通過seinrank算法構(gòu)建社交平臺情感影響力計算模型:社交平臺情感影響力的度量從三方面入手,分別是基于x社交平臺用戶網(wǎng)絡(luò)結(jié)構(gòu)、基于x社交平臺用戶行為和基于x社交平臺用戶信息文本的用戶情感傾向,綜合考慮上述三個方面提出本文的用戶情感影響力計算模型:

(1)影響自發(fā)度ins,針對x社交平臺用戶自身,用戶影響力的直觀體現(xiàn)在用戶發(fā)布信息的數(shù)量和用戶擁有粉絲的數(shù)量,這兩方面為自身影響力被其他用戶接受提供條件,其中衡量的指標(biāo)是粉絲數(shù)和用戶信息總數(shù);

(2)影響參與度inp,用戶的信息可以被其他用戶評論和轉(zhuǎn)發(fā),能觸發(fā)這些用戶行為,表明此用戶對其他用戶存在影響力,其中衡量的指標(biāo)是轉(zhuǎn)發(fā)數(shù)和評論數(shù);

(3)影響傳播度ind,用戶轉(zhuǎn)發(fā)一條信息,則此條信息保存在用戶的信息列表中,對此用戶的所有粉絲可見,這樣一條信息的影響被轉(zhuǎn)發(fā)行為擴散出去,而影響力的傳播范圍體現(xiàn)在轉(zhuǎn)發(fā)信息的用戶擁有的粉絲數(shù);

(4)影響力動能ine,綜合考慮影響力自發(fā)度、影響力參與度、影響力傳播度以及用戶情感傾向這四個方面,計算影響力的度量參數(shù);

如圖8所示表示seinrank算法的計算原理,基于上述三個量化指標(biāo)結(jié)合用戶的信息情感傾向得到用戶的影響動能,之后迭代計算用戶的seinrank值,設(shè)x社交平臺用戶u的粉絲集合為ufollow,x社交平臺用戶u發(fā)布的具有情感傾向的信息集合為w={w1,w2,...,wn},wi(1≤i≤n)是w中的一個信息,轉(zhuǎn)發(fā)wi的用戶集合表示為urepost,評論wi的用戶集合表示為ucomment,基于上述三個量化指標(biāo),設(shè)計如下計算公式:

公式4計算影響自發(fā)度,|ufollow|表示用戶u的粉絲數(shù)目,|wall|表示用戶的信息總數(shù),用戶的信息數(shù)和粉絲數(shù)作為自身屬性計算用戶自身影響力,

公式5計算影響傳播度,表示情感用戶信息wi的傳播程度,用戶uk是urepost中任意一個用戶,對urepost中的用戶粉絲數(shù)求和,用戶轉(zhuǎn)發(fā)信息使用戶信息影響力得到傳播,

公式6計算影響參與度,|ucomment|表示情感用戶信息wi的評論數(shù),情感信息的轉(zhuǎn)發(fā)和評論體現(xiàn)用戶對情感影響力傳播的參與程度,

公式7計算用戶u的正向情感的影響力動能,其中wpos是用戶u的正向情感的信息集合,|wpos|表示正向情感信息的個數(shù),其中參數(shù)α、β、λ、μ為影響力計算因素的權(quán)重,

公式8計算用戶u的負(fù)向情感的影響力動能,其中wneg是用戶u的負(fù)向情感的信息集合,|wneg|表示負(fù)向情感信息的個數(shù),公式7和公式8中參數(shù)α、β、λ、μ為影響力計算因素的權(quán)重,參數(shù)的確定方法是層次分析法,

公式9計算用戶u的所有粉絲用戶的正向情感影響力動能的總和,

公式10計算用戶的所有粉絲用戶的負(fù)向情感影響力動能的總和,

公式11計算x社交平臺網(wǎng)絡(luò)中用戶節(jié)點的正向情感影響力,n為x社交平臺網(wǎng)絡(luò)中的用戶節(jié)點個數(shù),seinrank(u)為節(jié)點u的情感影響力值,用戶v是用戶u的粉絲,d/n為隨機游走的概率,稱為阻尼系數(shù),表示用戶節(jié)點隨機節(jié)點到其他用戶節(jié)點的概率,

公式12計算x社交平臺網(wǎng)絡(luò)中用戶節(jié)點的負(fù)向情感影響力;

基于上述計算原理,x社交平臺用戶情感影響力計算模型算法的偽代碼如圖9算法所示,這個算法是本文提出的x社交平臺用戶情感影響力計算的seinrank算法,是x社交平臺用戶情感影響力排序模型,算法2~4行首先對網(wǎng)絡(luò)關(guān)系圖中每一條鏈接根據(jù)公式7和8計算權(quán)重值,算法5~7行將用戶關(guān)系網(wǎng)絡(luò)圖g(v,e)對應(yīng)成一個鄰接關(guān)系表,并將關(guān)系表緩存到linkrdd中,其中rdd中的數(shù)據(jù)元素為一個三元組(u,v,weight),并對其進行g(shù)roupbykey操作獲得(u,list(node,weight))數(shù)據(jù)格式,生成一個rankrdd并設(shè)置初始rank值,數(shù)據(jù)格式為(u,rank),初始的rank值為1/n,其中n為網(wǎng)絡(luò)關(guān)系圖中的節(jié)點總數(shù),算法11~17行l(wèi)inksrdd與rankrdd進行join操作,并轉(zhuǎn)換rdd映射成為node,weight*rank),并其進行reducebykey操作,通過公式11和12迭代計算seinrank值,生成新的rankrdd。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過利用面向社交平臺的用戶情感影響力分析方法,找出在線社交平臺用戶情感影響力大的用戶,用戶的影響力越大,其權(quán)威值越大,得到的用戶關(guān)注越多,這樣的用戶在社交平臺環(huán)境中具有導(dǎo)向能力,此研究可以用于輿論導(dǎo)向領(lǐng)域、商業(yè)領(lǐng)域、公益領(lǐng)域和公共健康領(lǐng)域。

附圖說明

圖1為本專利的用戶情感影響力分析算法總體流程圖;

圖2為本專利的x社交平臺用戶網(wǎng)絡(luò)結(jié)構(gòu)圖;

圖3為本專利的x社交平臺用戶網(wǎng)絡(luò)構(gòu)建算法程序圖;

圖4為本專利的x社交平臺文本特征抽取算法程序圖;

圖5為本專利的x社交平臺情感傾向分類算法程序圖;

圖6為本專利的x社交平臺情感分類流程圖;

圖7為本專利的x社交平臺情感分類算法程序圖;

圖8為本專利的seinrank算法的計算原理圖;

圖9為本專利的x社交平臺用戶情感影響力計算模型算法程序圖。

具體實施方式

下面將結(jié)合具體實施例對本發(fā)明進行進一步描述,但本發(fā)明的保護范圍并不限于此。

實驗環(huán)境:

本文實驗環(huán)境是運行在hadoop集群的spark平臺,spark是一個實現(xiàn)快速而通用的集群計算平臺;

本實驗spark和hadoop集群共有3個節(jié)點,每個節(jié)點詳細(xì)配置如下:

cpu:2*xeone5-2620cpu(每個有6核心*2線程);

內(nèi)存:32gbytes;

硬盤:5tbytes,10000rpm,raid5;

操作系統(tǒng):centos6.4;

開發(fā)環(huán)境:jdk1.7.0_45;

實驗所用開發(fā)語言為標(biāo)準(zhǔn)java,scala語言。

面向社交平臺的用戶情感影響力分析方法,所述面向社交平臺的用戶情感影響力分析方法包括下述四個步驟:

第一步基于社交平臺的用戶網(wǎng)絡(luò)建設(shè):

利用網(wǎng)絡(luò)爬蟲技術(shù)從x社交平臺(x表示某一個具體公知的社交平臺)中收集公開的用戶基本信息和用戶已經(jīng)上傳的信息,把收集的信息存儲在數(shù)據(jù)庫中對應(yīng)的表結(jié)構(gòu)中,用于構(gòu)建x社交平臺的用戶網(wǎng)絡(luò);

第二步基于社交平臺內(nèi)文本的高效特征抽取:

首先對x社交平臺中的文本進行分詞處理,去除其中的標(biāo)點符號、停用詞和url鏈接,得到純文本的單詞集合,采用文本聚類的方法,將所有訓(xùn)練文本的單詞集合映射降維成多個話題和特征詞組成特征向量矩陣,得到新的特征空間;

第三步基于深度學(xué)習(xí)算法的社交平臺內(nèi)文本情感分類:

利用機器學(xué)習(xí)方法對x社交平臺內(nèi)文本進行情感分類,機器學(xué)習(xí)方法是通過設(shè)計及其學(xué)習(xí)算法找出區(qū)分類別的特征,進而對x社交平臺內(nèi)文本進行情感分類;

第四步通過seinrank算法構(gòu)建社交平臺情感影響力計算模型:

分別基于x社交平臺用戶網(wǎng)絡(luò)結(jié)構(gòu)、基x社交平臺用戶行為和基于x社交平臺文本的用戶情感傾向,綜合考慮上述三個方面提出本文的用戶情感影響力計算模型。

具體而言,第一步基于社交平臺的用戶網(wǎng)絡(luò)建設(shè)具有為:x社交平臺用戶之間的交互行為分為用戶關(guān)注行為、用戶評論行為、用戶轉(zhuǎn)發(fā)行為,如圖2所示,設(shè)u={u1,u2,...,un}表示x社交平臺用戶集合,并且ui(1≤i≤n)是u中的任意一個用戶,設(shè)w={w1,w2,...,wm}表示一個用戶發(fā)布信息集合,并且wi(1≤i≤m)是w中的任意一條用戶發(fā)布信息,針對用戶ui發(fā)布的信息,設(shè)wi={wi1,wi2,...,wik}表示用戶ui發(fā)布的信息集合共有k條用戶信息,并且wij(1≤i≤k)是wi中的一個用戶信息,x社交平臺用戶集合u可以構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);

定義1:關(guān)注行為鏈接,對于ui和uj其中(1≤i≠j≤n),分別表示互不相同的x社交平臺用戶,當(dāng)用戶ui關(guān)注了用戶uj時,那么ui與uj之間存在ui指向uj的關(guān)注行為鏈接,即用戶ui為用戶uj的粉絲;

定義2:轉(zhuǎn)發(fā)行為鏈接,對于ui和uj其中(1≤i≠j≤n),分別表示互不相同的x社交平臺用戶,當(dāng)用戶ui發(fā)布了一條信息wij時,隨后用戶uj轉(zhuǎn)發(fā)了此條信息,那么ui與uj之間存在ui指向uj的轉(zhuǎn)發(fā)行為鏈接;

定義3:評論行為鏈接,對于ui和uj其中(1≤i≠j≤n),分別表示互不相同的x社交平臺用戶,當(dāng)用戶ui發(fā)布了一條信息wij時,隨后用戶uj評論了此條信息,那么ui與uj之間存在uj指向ui的評論行為鏈接;

定義4:用戶網(wǎng)絡(luò)有向圖,v是節(jié)點集合,e表示根據(jù)定義1、定義2和定義3得到的邊的集合,用戶集合u={u1,u2,...,un}構(gòu)成x社交平臺用戶網(wǎng)絡(luò)的節(jié)點,則g(v,e)可以表示一個x社交平臺用戶網(wǎng)絡(luò)有向圖;

對于x社交平臺用戶集合u={u1,u2,...,un},根據(jù)定義1、定義2和定義3得到的鏈接關(guān)系構(gòu)建一個x社交平臺用戶關(guān)系網(wǎng)絡(luò)g(v,e),節(jié)點集合u的數(shù)目為x社交平臺用戶數(shù)目n,邊集合e包含上述三種鏈接,因此構(gòu)建x社交平臺用戶網(wǎng)絡(luò)模型g(v,e)的算法如圖3所示。

具體而言,第二步基于社交平臺內(nèi)文本的高效特征抽?。河脩魧又衳社交平臺用戶之間存在關(guān)注關(guān)系,若用戶ui關(guān)注了用戶uj,則用戶uj發(fā)布的全部信息對用戶ui可見,并且用戶ui可以針對自身喜好對用戶uj的信息進行轉(zhuǎn)發(fā)和評論,其中轉(zhuǎn)發(fā)的信息屬于用戶ui;信息文本層與用戶層之間存在發(fā)布、轉(zhuǎn)發(fā)和評論關(guān)系;話題層表示用戶所發(fā)一條信息可以對應(yīng)多個話題,同時每一個話題可以涉及到多個特征詞,本文通過特征抽取可以得到對應(yīng)話題的特征詞,基于上述描述x社交平臺環(huán)境存在多層結(jié)構(gòu),分為話題層、信息文本層和用戶層;

定義5:x社交平臺中用戶信息文本特征,設(shè)w={w1,w2,...,wm}表示一個用戶信息集合,并且wi(1≤i≤m)是w中的一個用戶信息,假設(shè)用戶ui發(fā)布信息,設(shè)wi={wi1,wi2,...,wik}表示用戶ui的用戶信息集合,并且wij(1≤j≤k)是wi中的一個信息,針對用戶ui的用戶信息集合,通過特征提取可以獲得t={t1,t2,...,tn}表示一個信息話題集合,其中ti(1≤i≤n)是對應(yīng)wi中的一個話題,每一個話題下對應(yīng)一個特征詞集合vi={vi1,vi2,...,vim},其中vim(1≤j≤m)是vi中一個對應(yīng)話題ti的一個特征詞,如果可以用特征詞集合vi={vi1,vi2,...,vim}表示用戶所發(fā)的信息wij,那么稱特征詞集合vi={vi1,vi2,...,vim}為信息wij的信息文本特征;

利用潛在狄利克雷分配(lda)算法來計算一篇文檔的話題概率分布,lda算法的核心公式如下:(1)p(vj|wi)表示詞語vj在給定x社交平臺用戶信息wi中出現(xiàn)的概率,(2)p(tk|wi)表示主題tk在給定x社交平臺用戶信息wi中出現(xiàn)的概率,(3)p(vj|tk)表示詞語vj在給定主題tk中出現(xiàn)的概率,由上面三個公式可以推導(dǎo)出:

描述lda算法的實現(xiàn)過程的算法如圖4所示,算法包含三層結(jié)構(gòu),分別是特征詞、話題和x社交平臺中文本,具體操作是將詞頻數(shù)據(jù)緩存到rdd中,進行map操作將數(shù)據(jù)轉(zhuǎn)換成向量格式,設(shè)置lda模型的話題個數(shù),得到一個distributedldamodel的模型,調(diào)用topicdistributions方法可以得到x社交平臺中話題分布,topicsmatrix方法可以得到話題單詞分布矩陣,經(jīng)過描述lda算法的實現(xiàn)過程的算法的處理,根據(jù)公式1的原理,可以得到兩個概率分布矩陣,話題|x社交平臺中文本矩陣,特征詞|話題矩陣,如公式2和公式3所示,

公式2中,矩陣t|w的行數(shù)為m表示一共有m條x社交平臺文本,列數(shù)為k,表示將每一條x社交平臺用戶信息劃分成k個話題,tij:wgtij表示第i條用戶信息的第j個話題的序號和該話題在此用戶信息下的概率分布權(quán)重;

公式3中,矩陣v|t的行數(shù)為k表示一共存在k個話題,列數(shù)為n,表示將每個話題可以包含n個特征詞,vij:wgtij表示第i話題的第j個特征詞的序號和該特征詞在此話題下的概率分布權(quán)重;

根據(jù)公式2和公式3,一條x社交平臺的用戶信息通過lda模型可以得到對應(yīng)的話題和關(guān)鍵詞,假設(shè)用戶信息集合w={w1,w2,...,wm}的任意一條用戶信息wi均可以表示為:即一條用戶信息由一個特征詞序列表示。

具體而言,第三步基于深度學(xué)習(xí)算法的社交平臺內(nèi)文本情感分類:

定義6:x社交平臺中用戶信息情感傾向,設(shè)wi={wi1,wi2,...,wim}表示x社交平臺用戶ui的信息文本集合,并且wij(1≤j≤m)是wi中的一個信息文本,信息文本經(jīng)分詞處理之后可以得到單詞集合wordij={wordij1,wordij2,...,wordijn},對任意wordijk(x社交平臺用戶i發(fā)布的第j條信息經(jīng)分詞處理后的第k個單詞)判斷情感傾向,若wordijk的情感傾向sk為正向則sk=1,若wordijk的情感傾向sk為負(fù)向則sk=-1,否則sk=0,計算單詞集合wordij中否定詞的數(shù)目count,綜上用戶信息的情感傾向可表示為:sw=∑sk,如果count為奇數(shù),sw=-sw,若sw>0,則設(shè)定wlable=1,即這個用戶信息為正向情感,反之設(shè)定wlable=-1,即這個用戶信息為負(fù)向情感;

根據(jù)定義6,可以計算x社交平臺的情感傾向wlabel,偽代碼如圖5所示,在圖5的算法中,算法第2行首先進行分詞處理,3~10行對分詞之后的單詞集合初始化wlabel=0,將單詞進行positive和negative情感分類,并統(tǒng)計集合中的否定詞,第12行量化計算用戶信息情感傾向,如否定詞為奇數(shù)個,那么用戶信息的情感標(biāo)簽為原來的負(fù)向,最后得到wlabel∈{1,0,-1};

如圖6為x社交平臺用戶情感分類流程圖,用戶的信息情感表示用戶對于日常生活的真實態(tài)度,是研究x社交平臺用戶情感影響力的一個主要的衡量因素,本文對用戶信息進行情感傾向的劃分,可劃分為正向情感、負(fù)向情感和中立情感,用1、-1和0分別表示,作為每條用戶信息的情感標(biāo)簽;

根據(jù)圖5的算法,可以得到每條x社交平臺用戶的信息的情感標(biāo)簽wlabel,當(dāng)wlabel=1時表示此用戶信息為正向情感;當(dāng)wlabel=-1時表示此用戶信息為負(fù)向情感;當(dāng)wlabel=0時表示此用戶信息為中立情感,根據(jù)已分類的用戶信息文本進行深度學(xué)習(xí)分類模型的訓(xùn)練,其中訓(xùn)練數(shù)據(jù)集可以表示為測試數(shù)據(jù)集可以表示為

如圖7的算法所示,本文提出的基于x社交平臺中用戶信息特征詞向量的信息情感的分類算法,算法第2行首先將訓(xùn)練集數(shù)據(jù)通過map算子轉(zhuǎn)換成densematrix數(shù)據(jù)形式,作為分類模型的輸入rdd,之后設(shè)置分類器的屬性值,其中包括分類器各層節(jié)點數(shù)、輸入層和隱藏層激活函數(shù)、學(xué)習(xí)因子以及懲罰因子等,并設(shè)置訓(xùn)練的迭代次數(shù),算法5~12行描述訓(xùn)練分類器的迭代過程,算法第6行隨機設(shè)置可見層到隱藏層的權(quán)重,算法6~8先通過前向傳播從可見層通過激活函數(shù)得到隱藏層結(jié)果,之后從隱藏層到可見層進行輸入重構(gòu),采用反向傳播的方法,進行局部收斂,隨著迭代次數(shù)的增加,更新上述權(quán)重參數(shù),得到訓(xùn)練好的分類器,并對測試數(shù)據(jù)進行測試得到其用戶信息情感標(biāo)簽;

通過上述研究將原始x社交平臺用戶信息文本轉(zhuǎn)化成特征詞向量輸入到深度學(xué)習(xí)的分類器中,訓(xùn)練分類器,已達到大面積標(biāo)記信息文本情感的目的,x社交平臺用戶的情感傾向是通過其用戶信息文本表達的情感累積得到的,分類器會將用戶的情感分為正向情感和負(fù)向情感,根據(jù)相應(yīng)情感信息的條數(shù),計算出x社交平臺用戶的情感值,作為衡量x社交平臺用戶影響力的情感因素。

具體而言,第四步通過seinrank算法構(gòu)建社交平臺情感影響力計算模型:社交平臺情感影響力的度量從三方面入手,分別是基于x社交平臺用戶網(wǎng)絡(luò)結(jié)構(gòu)、基于x社交平臺用戶行為和基于x社交平臺用戶信息文本的用戶情感傾向,綜合考慮上述三個方面提出本文的用戶情感影響力計算模型:

(1)影響自發(fā)度ins,針對x社交平臺用戶自身,用戶影響力的直觀體現(xiàn)在用戶發(fā)布信息的數(shù)量和用戶擁有粉絲的數(shù)量,這兩方面為自身影響力被其他用戶接受提供條件,其中衡量的指標(biāo)是粉絲數(shù)和用戶信息總數(shù);

(2)影響參與度inp,用戶的信息可以被其他用戶評論和轉(zhuǎn)發(fā),能觸發(fā)這些用戶行為,表明此用戶對其他用戶存在影響力,其中衡量的指標(biāo)是轉(zhuǎn)發(fā)數(shù)和評論數(shù);

(3)影響傳播度ind,用戶轉(zhuǎn)發(fā)一條信息,則此條信息保存在用戶的信息列表中,對此用戶的所有粉絲可見,這樣一條信息的影響被轉(zhuǎn)發(fā)行為擴散出去,而影響力的傳播范圍體現(xiàn)在轉(zhuǎn)發(fā)信息的用戶擁有的粉絲數(shù);

(4)影響力動能ine,綜合考慮影響力自發(fā)度、影響力參與度、影響力傳播度以及用戶情感傾向這四個方面,計算影響力的度量參數(shù);

如圖8所示表示seinrank算法的計算原理,基于上述三個量化指標(biāo)結(jié)合用戶的信息情感傾向得到用戶的影響動能,之后迭代計算用戶的seinrank值,設(shè)x社交平臺用戶u的粉絲集合為ufollow,x社交平臺用戶u發(fā)布的具有情感傾向的信息集合為w={w1,w2,...,wn},wi(1≤i≤n)是w中的一個信息,轉(zhuǎn)發(fā)wi的用戶集合表示為urepost,評論wi的用戶集合表示為ucomment,基于上述三個量化指標(biāo),設(shè)計如下計算公式:

公式4計算影響自發(fā)度,|ufollow|表示用戶u的粉絲數(shù)目,|wall|表示用戶的信息總數(shù),用戶的信息數(shù)和粉絲數(shù)作為自身屬性計算用戶自身影響力,

公式5計算影響傳播度,表示情感用戶信息wi的傳播程度,用戶uk是urepost中任意一個用戶,對urepost中的用戶粉絲數(shù)求和,用戶轉(zhuǎn)發(fā)信息使用戶信息影響力得到傳播,

公式6計算影響參與度,|ucomment|表示情感用戶信息wi的評論數(shù),情感信息的轉(zhuǎn)發(fā)和評論體現(xiàn)用戶對情感影響力傳播的參與程度,

公式7計算用戶u的正向情感的影響力動能,其中wpos是用戶u的正向情感的信息集合,|wpos|表示正向情感信息的個數(shù),其中參數(shù)α、β、λ、μ為影響力計算因素的權(quán)重,

公式8計算用戶u的負(fù)向情感的影響力動能,其中wneg是用戶u的負(fù)向情感的信息集合,|wneg|表示負(fù)向情感信息的個數(shù),公式7和公式8中參數(shù)α、β、λ、μ為影響力計算因素的權(quán)重,參數(shù)的確定方法是層次分析法,

公式9計算用戶u的所有粉絲用戶的正向情感影響力動能的總和,

公式10計算用戶的所有粉絲用戶的負(fù)向情感影響力動能的總和,

公式11計算x社交平臺網(wǎng)絡(luò)中用戶節(jié)點的正向情感影響力,n為x社交平臺網(wǎng)絡(luò)中的用戶節(jié)點個數(shù),seinrank(u)為節(jié)點u的情感影響力值,用戶v是用戶u的粉絲,d/n為隨機游走的概率,稱為阻尼系數(shù),表示用戶節(jié)點隨機節(jié)點到其他用戶節(jié)點的概率,

公式12計算x社交平臺網(wǎng)絡(luò)中用戶節(jié)點的負(fù)向情感影響力;

基于上述計算原理,x社交平臺用戶情感影響力計算模型算法的偽代碼如圖9算法所示,這個算法是本文提出的x社交平臺用戶情感影響力計算的seinrank算法,是x社交平臺用戶情感影響力排序模型,算法2~4行首先對網(wǎng)絡(luò)關(guān)系圖中每一條鏈接根據(jù)公式7和8計算權(quán)重值,算法5~7行將用戶關(guān)系網(wǎng)絡(luò)圖g(v,e)對應(yīng)成一個鄰接關(guān)系表,并將關(guān)系表緩存到linkrdd中,其中rdd中的數(shù)據(jù)元素為一個三元組(u,v,weight),并對其進行g(shù)roupbykey操作獲得(u,list(node,weight))數(shù)據(jù)格式,生成一個rankrdd并設(shè)置初始rank值,數(shù)據(jù)格式為(u,rank),初始的rank值為1/n,其中n為網(wǎng)絡(luò)關(guān)系圖中的節(jié)點總數(shù),算法11~17行l(wèi)inksrdd與rankrdd進行join操作,并轉(zhuǎn)換rdd映射成為node,weight*rank),并其進行reducebykey操作,通過公式11和12迭代計算seinrank值,生成新的rankrdd。

工作原理:首先需要構(gòu)建x社交平臺用戶網(wǎng)絡(luò)模型,用來表示x社交平臺用戶之間的關(guān)注關(guān)系,之后針對x社交平臺用戶信息文本進行情感特征抽取,將原始信息文本映射成一個由特征詞組成的詞向量,有效地進行數(shù)據(jù)降維,之后訓(xùn)練深度學(xué)習(xí)的用戶信息情感分類器,將用戶信息文本數(shù)據(jù)分成正向情感數(shù)據(jù)、負(fù)向情感數(shù)據(jù)和中立情感數(shù)據(jù),在衡量用戶情感影響力上添加情感因素,最后設(shè)計用戶情感影響力計算的seinrank模型,通過從影響自發(fā)度、影響參與度和影響傳播度三個方面結(jié)合用戶信息文本的情感因素計算情感影響力動能,迭代計算用戶情感影響力并進行影響力排序。

以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
扶绥县| 永顺县| 武清区| 芜湖市| 增城市| 安徽省| 南城县| 霸州市| 汨罗市| 玉屏| 阳山县| 台前县| 垦利县| 弋阳县| 五家渠市| 隆尧县| 班玛县| 施甸县| 滕州市| 高唐县| 浦城县| 东丽区| 崇左市| 冀州市| 乌拉特中旗| 咸阳市| 辽阳县| 金湖县| 黎川县| 桦南县| 山西省| 邳州市| 新河县| 镇雄县| 北安市| 桃江县| 巴青县| 铁力市| 宝应县| 永年县| 武强县|