本發(fā)明自然語言處理領(lǐng)域,特別涉及基于詞典的多維度情感分析方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了大量的、公開的網(wǎng)頁數(shù)據(jù),也因此催發(fā)了各種基于大數(shù)據(jù)技術(shù)的新興產(chǎn)業(yè),比如互聯(lián)網(wǎng)醫(yī)療、互聯(lián)網(wǎng)教育、企業(yè)或者個人征信等。這些互聯(lián)網(wǎng)產(chǎn)業(yè)的興起與繁榮離不開大量的數(shù)據(jù)信息分析。大數(shù)據(jù)分析中自然語言處理占據(jù)重要的地位,面對海量的網(wǎng)絡(luò)文本資源通過運(yùn)用自然語言處理分析方法自動地、智能抽取出我們所關(guān)心的信息,或判斷出文本或者文本發(fā)布者所蘊(yùn)含的某種情感傾向,無論是在輿情分析還是商業(yè)調(diào)查中都有著至關(guān)重要的實(shí)際應(yīng)用意義。利用這些分析結(jié)果,可以對事情的發(fā)展演變進(jìn)行正確的預(yù)判,進(jìn)而提前采取相應(yīng)的措施來實(shí)現(xiàn)更大的正面效果。
而情感分析主要有兩大類方法,一類是基于機(jī)器學(xué)習(xí)的方法,另一類是基于詞典的方法?;跈C(jī)器學(xué)習(xí)的方法首先是構(gòu)建分類器,將待分析文本輸入到分類器中進(jìn)行進(jìn)行分析。這種方法的局限在于,構(gòu)建分類器,需要大規(guī)模語料來對分類器進(jìn)行訓(xùn)練,而且分類特征的選擇也非常具有挑戰(zhàn),特征選擇的優(yōu)劣將直接影響分類器的性能?;谠~典的方法,以詞典中的詞作為特征,通過詞典匹配來抽取對應(yīng)的特征詞匯,在特征詞匯抽取的基礎(chǔ)上結(jié)合設(shè)定的模型或者算法來判定該文本對應(yīng)的傾向或者性質(zhì),分析的可靠性大大增加。
基于詞典的情感分析方法在自然語言分析中具有重要的應(yīng)用,以詞典中的詞作為特征,通過詞典匹配來抽取對應(yīng)的特征詞匯,在特征詞匯抽取的基礎(chǔ)上結(jié)合設(shè)定的模型或者算法來判定該文本對應(yīng)的傾向或者性質(zhì),分析的可靠性大大增加。基于情感詞典的情感分析方法是有針對性的分析和挖掘,不同的領(lǐng)域所采取的詞典也有很大的不同,目前現(xiàn)有的領(lǐng)域詞典,卻缺乏對具體問題的適用性,針對性不強(qiáng)。在分析具體領(lǐng)域或者具體話題時,使用現(xiàn)有的大而寬泛的領(lǐng)域詞典,并不能夠達(dá)到較好的分析效果。
此外,現(xiàn)階段的情感分析需求的維度越來越多,對同一目標(biāo)群體的分析方向也越來越細(xì)致,針對不同的分析維度需要構(gòu)建不同的詞典來進(jìn)行相應(yīng)的特征抽取,現(xiàn)有的方法中不同分析方向的詞典都是分開進(jìn)行構(gòu)建的,逐一手動構(gòu)建詞典的方式非常的耗時耗力,增加了對目標(biāo)群體進(jìn)行全面多方位分析的難度,從技術(shù)實(shí)現(xiàn)上來說增加了項目的工時,延長了項目的交期。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供基于詞典的多維度情感分析方法,在初始文本集中自動獲取文本關(guān)鍵詞,對待處理文本進(jìn)行聚類,形成N個領(lǐng)域或者主題文本集;根據(jù)分析需要,在M個領(lǐng)域中選取少量的領(lǐng)域種子詞;逐個分析各領(lǐng)域種子詞與主題文本集的關(guān)系遠(yuǎn)近,保留關(guān)系最近的文本集作為各領(lǐng)域詞典擴(kuò)展的源文本集;并結(jié)合互信息算法計算種子詞與候選詞的關(guān)聯(lián)度,將關(guān)聯(lián)度大于閾值的候選詞添加到對應(yīng)的領(lǐng)域詞典中;在詞典的基礎(chǔ)上對目標(biāo)對象相關(guān)文本進(jìn)行對應(yīng)特征抽取,并且結(jié)合模型算法判斷出目標(biāo)對象各個方向的情感傾向。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:基于詞典的多維度情感分析方法,包含以下實(shí)現(xiàn)步驟:
(1)構(gòu)建初始文本集;
(2)提取出初始文本集中各文本的關(guān)鍵詞;
(3)對待處理文本進(jìn)行聚類,生成N個主題文本集,其中N為整數(shù)且N≥2;
(4)構(gòu)建M個領(lǐng)域,選取各領(lǐng)域的種子詞,其中M為≤N的正整數(shù);
(5)依次統(tǒng)計各領(lǐng)域種子詞在各主題文本集中出現(xiàn)的頻率;將頻率最高的主題文本集作為對應(yīng)領(lǐng)域詞典擴(kuò)展的源文本集;
(6)計算各領(lǐng)域種子詞與對應(yīng)源文本集的文本中各候選詞的關(guān)聯(lián)度,將關(guān)聯(lián)度到達(dá)設(shè)置閾值的候選詞作為該領(lǐng)域詞存入對應(yīng)的詞典中。
(7)利用的構(gòu)建的領(lǐng)域詞典對待分析文本進(jìn)行特征抽取,結(jié)合權(quán)重模型計算出對應(yīng)領(lǐng)域方向的情感傾向。
具體的,本發(fā)明方法包含分詞、去高頻詞、去停用詞的預(yù)處理步驟。
進(jìn)一步的,所述步驟(2)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計算公式為:
TR(vi)是文本中詞vi的重要性,r是阻尼系數(shù),一般設(shè)置為0.85,N是無向圖中所有詞的個數(shù),relat{vi}是與詞vi有共現(xiàn)關(guān)系的詞集合,vj是relat{vi}中的任意一個詞,TR(vj)是vj的重要性,N(pj)是與vj有共現(xiàn)關(guān)系的詞的個數(shù)。
進(jìn)一步的,所述步驟(3)中對待處理文本聚類包含以下過程:
(3-1)初始時,每個待處理文本各自為一個類;
類間距離定義為兩個類中兩兩文本對間距離的最大值,文本間距離的計算公式如下:
其中C(t1,t2)表示文本1和文本2之間的距離,t1∩t2表示文本1和文本2之間包含相同關(guān)鍵詞的個數(shù),mid(t1,t2)表示文本1和文本2中包含關(guān)鍵詞的平均個數(shù);類間距離計算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意兩個類簇之間的距離,ca和cb分別代表兩個類,C(ta,tb)表示兩個文本之間的距離,ta和tb分別表示兩個文本,并且要求ta∈ca、tb∈cb。
(3-2)計算所有類兩兩之間的距離,將距離最小的類進(jìn)行合并,命名為cnew;
(3-3)在待處理文本集中將已被合并的初始類簇刪除,并將新類簇cnew加入到聚類結(jié)果中;
(3-4)重復(fù)步驟(3-1)至(3-3),直到待處理文本集中僅包含N個類簇時,停止聚類。此時待處理文本集中包含的是經(jīng)過聚類后形成的N個主題,其中N的具體個數(shù),根據(jù)實(shí)際應(yīng)用所而自行設(shè)定。
作為一種優(yōu)選,所述步驟(4)中,各領(lǐng)域所選取的種子詞的個數(shù)為30-150個。
進(jìn)一步的,所述步驟(4)順序可移到所述步驟(1)、步驟(2)和,或者步驟(3)之前。
作為一種優(yōu)選,所述步驟(5)中候選詞與種子詞的閾值設(shè)置為MI(word1,word2)=0.2,當(dāng)文本集中詞匯與種子詞的關(guān)聯(lián)度≥0.2時,就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中。
作為一種優(yōu)選:所述步驟(6)中候選詞與種子詞的關(guān)聯(lián)度計算公式為:
其中p(word1,word2)為詞word1和詞word2共同出現(xiàn)的概率,p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率。
進(jìn)一步的,所述步驟(7)包含以下實(shí)現(xiàn)過程:
(7-1)對所要分析的文本進(jìn)行包括分詞、去高頻詞、去停用詞的預(yù)處理步驟;
(7-2)對同一分析對象,逐一使用構(gòu)建好的領(lǐng)域詞典來抽取相關(guān)文本對應(yīng)的特征;將文本中屬于領(lǐng)域詞典的詞作為特征詞抽取出來;
(7-3)根據(jù)抽取的詞,結(jié)合計算模型,計算出對應(yīng)領(lǐng)域的情感傾向,最終得到該分析對象在各領(lǐng)域的情感傾向。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供基于詞典的多維度情感分析方法,在自動獲取文本關(guān)鍵詞的基礎(chǔ)上,對待處理文本進(jìn)行聚類,形成N個主題文本集;根據(jù)分析方向構(gòu)建M個領(lǐng)域,選取各領(lǐng)域的種子詞,依次統(tǒng)計各領(lǐng)域種子詞在各主題文本集中出現(xiàn)的頻率;將頻率最高的主題文本集作為對應(yīng)領(lǐng)域詞典擴(kuò)展的源文本集;計算各領(lǐng)域種子詞與對應(yīng)源文本集的文本中各候選詞的關(guān)聯(lián)度,將關(guān)聯(lián)度到達(dá)設(shè)置閾值的候選詞作為該領(lǐng)域詞存入對應(yīng)的詞典中。詞典構(gòu)建的準(zhǔn)確性更強(qiáng),構(gòu)建效率更高。本發(fā)明方法種子詞的選取可根據(jù)分析的具體方向而定,因此更加具有針對性,在種子詞選取和領(lǐng)域自動發(fā)現(xiàn)的基礎(chǔ)上,計算種子詞與源文本集的文本中詞的關(guān)聯(lián)程度遠(yuǎn)近,保留關(guān)系密切的詞作為該領(lǐng)域詞典的擴(kuò)充詞;相比于普通的領(lǐng)域詞典,本發(fā)明方法所構(gòu)建的領(lǐng)域詞典具有更強(qiáng)靈活。詞典的實(shí)用性更強(qiáng),更加適應(yīng)于具體問題或者主題的文本分析。
本發(fā)明方法在較短的時間內(nèi)可以構(gòu)建數(shù)個詞典,并在詞典的基礎(chǔ)上,逐一依次自動抽取目標(biāo)文本的相關(guān)特征,并結(jié)合相關(guān)的算法模型計算出各領(lǐng)域的情感傾向。本發(fā)明方法實(shí)現(xiàn)的情感分析是多維度,分析的效率更高,對同一目標(biāo)對象的情感傾向分析更加全面客觀,刻畫更為細(xì)致。在商業(yè)調(diào)查和個體異常情感傾向預(yù)判有重要的應(yīng)用。
附圖說明:
圖1為本基于詞典的多維度情感分析方法的實(shí)現(xiàn)步驟圖。
圖2為本基于詞典的多維度情感分析方法步驟(6)的實(shí)現(xiàn)過程圖。
具體實(shí)施方式
下面結(jié)合試驗(yàn)例及具體實(shí)施方式對本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本發(fā)明內(nèi)容所實(shí)現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
提供基于詞典的多維度情感分析方法,在初始文本集中通過textrank方法自動獲取文本關(guān)鍵詞,對待處理文本進(jìn)行聚類,形成N個領(lǐng)域或者主題文本集;根據(jù)分析需要,在M個領(lǐng)域中選取少量的對應(yīng)領(lǐng)域種子詞;逐個分析各領(lǐng)域種子詞與主題文本集的關(guān)系遠(yuǎn)近,保留關(guān)系最近的文本集作為各領(lǐng)域詞典擴(kuò)展的源文本集;并結(jié)合互信息算法計算種子詞與候選詞的關(guān)聯(lián)度,將關(guān)聯(lián)度大于閾值的候選詞添加到對應(yīng)的領(lǐng)域詞典中。本發(fā)明方法在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上通過少量的部分種子詞對想要構(gòu)建的領(lǐng)域詞典進(jìn)行自動擴(kuò)充;詞典的構(gòu)建效率較高,準(zhǔn)確性高,領(lǐng)域的針對性很強(qiáng);此外本發(fā)明方法根據(jù)需要分析的方向,選定相關(guān)的種子詞,在較短的時間內(nèi)可以構(gòu)建數(shù)個對應(yīng)領(lǐng)域的詞典,在多個詞典的基礎(chǔ)上抽取對應(yīng)的特征,結(jié)合對應(yīng)的權(quán)重算法對到對應(yīng)領(lǐng)域的情感傾向;使得分析的視角更加全面,分析的結(jié)果更加準(zhǔn)確。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:基于詞典的多維度情感分析方法,包含如圖1所示的以下實(shí)現(xiàn)步驟:
(1)構(gòu)建初始文本集,所述初始文本集的可以在待分析對象的相關(guān)文本中隨機(jī)選?。?/p>
(2)通過textrank方法提取出初始文本集中各文本的關(guān)鍵詞;
(3)對待處理文本進(jìn)行聚類,生成N個主題文本集,其中N為整數(shù)且N≥2;
(4)構(gòu)建M個領(lǐng)域,選取各領(lǐng)域的種子詞,其中M為整數(shù),且M≤N;根據(jù)分析方向選取種子詞,對于具體領(lǐng)域或者問題的針對性更強(qiáng),所構(gòu)建的詞典的適用更加靈活;
(5)依次統(tǒng)計各領(lǐng)域種子詞在各主題文本集中出現(xiàn)的頻率;將頻率最高的主題文本集作為對應(yīng)領(lǐng)域詞典擴(kuò)展的源文本集;通過聚類對待處理文本集進(jìn)行分類,形成了不同主題的文本集合,同一主題內(nèi)的文本之間的關(guān)聯(lián)程度更高,為后續(xù)的詞典擴(kuò)展進(jìn)行了語料的準(zhǔn)備和篩選。
通過聚類形成不同主題文本集后,經(jīng)過計算種子詞在主題文本關(guān)鍵詞的出現(xiàn)頻率,進(jìn)而分析出不同主題與所構(gòu)建詞典領(lǐng)域之間的關(guān)系遠(yuǎn)近,將關(guān)系較遠(yuǎn)的文本集舍棄,這樣在進(jìn)行詞典擴(kuò)展時,只在領(lǐng)域較近的主題中進(jìn)行,大大提高了詞典擴(kuò)展來源語料的質(zhì)量,詞典擴(kuò)展的準(zhǔn)確性顯著提升,同時由于僅在于所擴(kuò)展的領(lǐng)域最近的文本集中進(jìn)行詞典擴(kuò)展,縮小了詞典擴(kuò)展時計算的范圍,減少了詞典擴(kuò)展的計算量,提高了詞典擴(kuò)展的效率。
(6)計算各領(lǐng)域種子詞與對應(yīng)源文本集的文本中各候選詞的關(guān)聯(lián)度,將關(guān)聯(lián)度到達(dá)設(shè)置閾值的候選詞作為該領(lǐng)域詞存入對應(yīng)的詞典中。
(7)利用的構(gòu)建的領(lǐng)域詞典對待分析文本進(jìn)行特征抽取,結(jié)合權(quán)重模型計算出各領(lǐng)域方向的情感傾向。
具體的,本發(fā)明方法包含分詞、去高頻詞、去停用詞的預(yù)處理步驟。
進(jìn)一步的,所述步驟(2)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計算公式為:
TR(vi)是文本中詞vi的重要性。r是阻尼系數(shù),一般設(shè)置為0.85。N是無向圖中(將文本分詞后,抽象成一個無向圖,其中文本中的每個詞是圖中的一個節(jié)點(diǎn))所有詞的個數(shù)。relat{vi}是與詞vi有共現(xiàn)關(guān)系的詞集合。vj是relat{vi}中的任意一個詞,TR(vj)是vj的重要性,N(pj)是與vj有共現(xiàn)關(guān)系的詞的個數(shù)。
通過本計算公式進(jìn)行迭代計算,抽取TR(vi)大于閾值的對應(yīng)詞作為該文本的關(guān)鍵詞;通過關(guān)鍵詞的自動抽取,為文本聚類進(jìn)行準(zhǔn)備。
進(jìn)一步的,所述步驟(3)中對待處理文本聚類包含以下過程:
(3-1)初始時,每個文本各自為一個類;
類間距離定義為兩個類中兩兩文本對間距離的最大值,文本間距離的計算公式如下:
其中C(t1,t2)表示文本1和文本2之間的距離,t1∩t2表示文本1和文本2之間包含相同關(guān)鍵詞的個數(shù),mid(t1,t2)表示文本1和文本2中包含關(guān)鍵詞的平均個數(shù);類間距離計算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意兩個類簇之間的距離,ca和cb分別代表兩個類,C(ta,tb)表示兩個文本之間的距離,ta和tb分別表示兩個文本,并且要求ta∈ca、tb∈cb。
(3-2)計算所有類兩兩之間的距離,將距離最小的類進(jìn)行合并,命名為cnew;
(3-3)在待處理文本集中將已被合并的初始類簇刪除,并將新類簇cnew加入到聚類結(jié)果中;
(3-4)重復(fù)步驟(3-1)至(3-3),直到待處理文本集中僅包含N個類簇時,停止聚類。此時待處理文本集中包含的是經(jīng)過聚類后形成的N個主題,其中N的具體個數(shù),根據(jù)實(shí)際應(yīng)用而自行設(shè)定。
作為一種優(yōu)選,所述步驟(4)中,所抽取的領(lǐng)域種子詞的數(shù)量為30-150個。選取的種子詞過少,將影響領(lǐng)域詞典擴(kuò)展的準(zhǔn)確性,過多則將增加選取的人力和時間成本。
作為一種優(yōu)選;所述步驟(5)中,僅保留種子詞出現(xiàn)頻率最高的主題文本集作為詞典擴(kuò)充的源文本集;
作為一種優(yōu)選:所述步驟(6)中詞匯與種子詞的關(guān)聯(lián)度計算采用互信息的計算思想,所采用的計算公式為:
其中p(word1,word2)為詞word1和詞word2共同出現(xiàn)的概率,p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率。互信息算法對于分析詞匯之間的關(guān)聯(lián)度,算法簡潔容易實(shí)現(xiàn),計算效率較高;互信息是計算語言學(xué)模型的分析方法,它度量兩個對象之間的相互性。在過濾問題中用于度量特征對于主題的區(qū)分度。在進(jìn)行領(lǐng)域詞典構(gòu)建時,在選取種子詞的基礎(chǔ)上,利用互信息的方法來計算待擴(kuò)充的詞匯和現(xiàn)有種子詞的相關(guān)性,相關(guān)度越高表示該詞與種子詞的關(guān)聯(lián)性越高。
作為一種優(yōu)選,所述步驟(6)的閾值設(shè)置為MI(word1,word2)=0.2,當(dāng)文本集中候選詞與種子詞的關(guān)聯(lián)度≥0.2時,就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中,所述步驟(6)的計算過程如圖2所示。
進(jìn)一步的,所述步驟(7)包含以下實(shí)現(xiàn)過程:
(7-1)對各待分析目標(biāo)對象的相關(guān)文本(比如評價,日志,說說,微博,博客內(nèi)容等文本)進(jìn)行包括分詞、去高頻詞、去停用詞的預(yù)處理步驟;
(7-2)對同一分析對象,逐一使用構(gòu)建好的領(lǐng)域詞典來抽取文本對應(yīng)的領(lǐng)域詞,將文本中屬于領(lǐng)域詞典的詞作為特征詞抽取出來;
(7-3)根據(jù)抽取出的特征詞,結(jié)合計算模型,計算出對應(yīng)領(lǐng)域的情感傾向,最終得到該分析對象在各領(lǐng)域的情感傾向。
經(jīng)過本分析方法得到同一目標(biāo)的多緯度情感傾向;相比于單一情感分析,本發(fā)明方法實(shí)現(xiàn)的情感分析在各方向的分析更有針對性,方向更加多元化,分析結(jié)果更加全面。使用本發(fā)明方法可以快速分析出用戶全面的興趣喜好,提供更符合用戶需求和喜好的產(chǎn)品或服務(wù);通過本發(fā)明方法也可以快速分析出目標(biāo)對象的各個方向的情感傾向,建立多角度,全方位的情感傾向圖,可以及時發(fā)現(xiàn)個體異常傾向,以便做出合理的引導(dǎo)。
實(shí)施例1
假如有如下分析需要:處于青春期的學(xué)生,由于多方面的因素,在與家長、老師的溝通方面,部分會表現(xiàn)得很消極,要么逃避、要么拒絕、實(shí)在不行就敷衍。這種不良溝通讓長輩無法掌握到學(xué)生的思想動態(tài),更不能及時的給予正確的引導(dǎo)。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)社交已經(jīng)融入到了每個人的生活之中。與現(xiàn)實(shí)不同的是,網(wǎng)絡(luò)社交是以虛擬技術(shù)為基礎(chǔ)的,人與人之間的交往是以間接交往為主,青少年在網(wǎng)絡(luò)社交中能夠充分地釋放自己,能夠輕松地、自在地吐露自己的心聲、表達(dá)自己的觀點(diǎn)。通過對青少年網(wǎng)絡(luò)言論文本的情緒分析,可以從多個維度對學(xué)生在網(wǎng)絡(luò)上所呈現(xiàn)的思想動態(tài)進(jìn)行勾勒,當(dāng)發(fā)現(xiàn)個別個體異常情況,可以針對性的進(jìn)行合理的引導(dǎo),使青少年的成長更加健康。
經(jīng)過分析,青春期學(xué)生情緒分析的重要方面,主要以發(fā)現(xiàn)個體異常為主,可以選擇為戀愛、暴力、自閉、社交障礙等方向。本發(fā)明方法可以構(gòu)建多個專屬領(lǐng)域詞典,在多個維度對青少年情感傾向進(jìn)行全自動分析。下面以戀愛和暴力傾向判斷為例來說明本發(fā)明方法的實(shí)現(xiàn)過程,應(yīng)該理解本發(fā)明方法不限于本實(shí)施例。
隨機(jī)初步選取1000件青少年相關(guān)言論和狀態(tài)文本作為初始文本集;對初始文本集中的文本進(jìn)行分詞,去高頻詞和去停用詞的預(yù)處理;在此基礎(chǔ)上通過textrank算法來提取初始文本集各文本中的關(guān)鍵詞;根據(jù)各文本關(guān)鍵詞對初始文本集中的文本進(jìn)行聚類,經(jīng)過迭代聚類后剩下3個主題,假如第一主題集中包含350件文本,第二主題文本集中包含350件文本;第三主題文本集中包含300件文本。根據(jù)分析需要,欲設(shè)置兩個領(lǐng)域詞典,通過人工挑選,在戀愛領(lǐng)域挑選30個種子詞;在暴力領(lǐng)域中挑選出40個種子詞。
先計算戀愛詞典與聚類后主題集之間的遠(yuǎn)近:統(tǒng)計戀愛種子詞在第一主題文本集中的出現(xiàn)頻率;假設(shè)在第一主題文本集所包含的關(guān)鍵字總數(shù)為1000個,其中屬于戀愛種子詞的個數(shù)為350個,那么種子詞出現(xiàn)的頻率為350/1000=35%;第二主題集包含的關(guān)鍵字總數(shù)為1500個,其中屬于戀愛種子詞的個數(shù)為200個,對應(yīng)的種子詞的出現(xiàn)頻率為200/1500≈13.33%;第三主題集中所包含的關(guān)鍵字總數(shù)為1200個,其中屬于戀愛種子詞的個數(shù)為100個,對應(yīng)的種子詞的出現(xiàn)概率為:100/1200≈8.33%;經(jīng)過比較認(rèn)為只有第一主題文本集與戀愛的相關(guān)度最高,將第一主題文本集作為戀愛詞典擴(kuò)展的源文本集;計算第一主題文集中各文本中各候選詞與戀愛各種子種子詞的關(guān)聯(lián)程度,將關(guān)聯(lián)程度大于閾值的候選詞添加到戀愛詞典中。
計算暴力詞典與聚類后主題集之間的遠(yuǎn)近,假設(shè)第一主題文本集中關(guān)鍵字屬于暴力詞典領(lǐng)域的種子詞的個數(shù)為100個,對應(yīng)的種子詞的出現(xiàn)頻率為150/1000=15%;第二主題文本集中關(guān)鍵字屬于暴力詞典的種子詞的個數(shù)為600個,對應(yīng)的種子詞的出現(xiàn)頻率為600/1500=40%;第三主題文本集中關(guān)鍵字屬于暴力詞典的種子詞的個數(shù)為80個,對應(yīng)的種子詞的出現(xiàn)頻率為80/1200≈6.67%;經(jīng)過比較認(rèn)為只有第二主題文本集與暴力詞典的相關(guān)度最高,將第二主題文本集作為暴力詞典擴(kuò)展的源文本集;計算第二主題文集中各文本中各候選詞與暴力詞典各種子種子詞的關(guān)聯(lián)程度,將關(guān)聯(lián)程度大于閾值的候選詞添加到暴力詞典中。
經(jīng)過上面的分析過程,自動建立了戀愛和暴力詞典。
在戀愛和暴力詞典的基礎(chǔ)上,進(jìn)行情感分析,具體的過程包括:獲取待分析目標(biāo)對象一時間段內(nèi)的相關(guān)言論或者日志文本,通過所構(gòu)建的詞典來進(jìn)行特征抽取,將屬于詞典中的詞匯作為保留詞,將不屬于詞典中的詞舍棄。
結(jié)合一下模型公式,計算該目標(biāo)的戀愛傾向程度。
根據(jù)相關(guān)測試,模型可采用如下公式來進(jìn)行表示:
q:用戶所發(fā)表日志中,出現(xiàn)戀愛詞匯的天數(shù)。
p:用戶所發(fā)表日志中,統(tǒng)計得到的總天數(shù)。
t:用戶所發(fā)表日志中,有戀愛詞匯出現(xiàn)的日志條數(shù)。
d:用戶所發(fā)表日志中,統(tǒng)計得到的總?cè)罩緱l數(shù)。
scale:歸一化系數(shù),取的所有計算結(jié)果中的,大于其最大值的整數(shù)。
Wi為特征詞,W(k):wi在W集中的k值,L(k):wi在L集中的k值,W集計算以待用戶為單位;W(tfi)=Wi出現(xiàn)次數(shù)/該用戶總詞數(shù),W(idfi)=log((總用戶數(shù)+1)/(包含Wi的用戶數(shù)+1)),L集計算以日志條數(shù)為記錄;L(tfi)=Wi出現(xiàn)次數(shù)/所有用戶、所有日志總詞數(shù),L(idfi)=log((總?cè)罩緱l數(shù)+1)/(包含Wi的日志條數(shù)+1))。
通過上述模型,可以計算出目標(biāo)的戀愛傾向。類似的,根據(jù)暴力傾向詞典,并結(jié)合相關(guān)模型可計算出目標(biāo)的暴力傾向值,具體的過程不再贅述。