一種針對詞語級別的漢語情感詞極性強度量化方法
【專利摘要】本發(fā)明公開了一種針對詞語級別的漢語情感詞極性強度量化方法,屬于計算機自然語言處理領(lǐng)域。首先獲取情感詞典中每個字的情感傾向值,然后根據(jù)字的情感傾向值獲取所測基礎(chǔ)情感詞的極性強度度量值,最后根據(jù)基礎(chǔ)情感詞的極性強度度量值獲取復合情感詞的極性強度度量值。本發(fā)明對比現(xiàn)有技術(shù),通過采用高斯分布函數(shù)修正統(tǒng)計得出的字的情感傾向值誤差,大幅提高了基礎(chǔ)情感詞極性強度度量的準確率。在此基礎(chǔ)上對復合情感詞詳細分類,分別設(shè)計經(jīng)Sigmoid函數(shù)倒推得出的計算公式,大幅提高了復合情感詞的極性強度度量準確率。另外引入Sim(A,B)函數(shù),利用HowNet對副詞自動分類,減輕了手工標注的工作量,提高了工作效率。
【專利說明】一種針對詞語級別的漢語情感詞極性強度量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計算機自然語言處理領(lǐng)域,涉及應(yīng)用于漢語文本情感分析中的一種針對詞語級別的漢語情感詞極性強度量化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷進步,特別是Web2.0技術(shù)的逐漸普及,網(wǎng)絡(luò)表現(xiàn)出了強大的數(shù)據(jù)處理能力,網(wǎng)絡(luò)社會也變得紛繁復雜。在百度貼吧、天涯論壇等各大網(wǎng)站上都可以看到大量網(wǎng)民對新聞、產(chǎn)品、服務(wù)等的各種評論信息和意見,在此背景下興起了基于網(wǎng)絡(luò)文本的情感傾向性分析研究,對信息檢索、電子商務(wù)、網(wǎng)絡(luò)輿情預警等領(lǐng)域有著重要意義。
[0003]目前,對文本情感分析的研究對象主要分為詞語級別、句子級別、篇章級別三種,而基于詞語級別的文本情感分析主要依賴于模糊情感詞的極性強度度量值。已有的情感詞極性強度量化方法主要有Ku等人在AAAI’ 2006人工智能頂級國際會議上發(fā)表論文闡述的利用漢字的情感統(tǒng)計來計算詞的情感極性強度度量值。
[0004]上述情感詞極性強度量化方法主要包括基礎(chǔ)情感詞的極性強度量化和復合情感詞的極性強度量化兩個環(huán)節(jié),主要包括以下幾個步驟:首先計算情感詞典中每個字的情感傾向值;然后計算每個基礎(chǔ)情感詞的極性強度度量值;之后計算每個復合情感詞的極性強
度度量值。
[0005]現(xiàn)有的情感詞極性強度量化方法主要存在以下幾個方面的不足:一是在進行文本情感分析時,主要依賴于情感詞典規(guī)模,這樣僅僅基于統(tǒng)計得到每個字的情感傾向值,準確率較低;二是針對復合情感詞的極性強度量化方法設(shè)計簡單,雖易于實現(xiàn),但準確率較低,影響了文本情感分析效果。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是為了克服現(xiàn)有技術(shù)存在的缺陷,為有效解決當前在漢語文本情感分析過程中,針對詞語級別的漢語情感詞進行極性強度量化時準確率低的問題,提出一種有效的極性強度量化方法。
[0007]本發(fā)明方法所采用的技術(shù)方案如下:
[0008]一種針對詞語級別的漢語情感詞極性強度量化方法,包括以下步驟:
[0009]步驟一、獲取情感詞典中每個字的情感傾向值。首先,統(tǒng)計每個字在情感詞典中作為褒義詞、貶義詞的權(quán)重。
[0010]然后,根據(jù)每個字的褒義詞、貶義詞的權(quán)重,獲得情感詞典中每個字的情感傾向值,具體過程如下:
[0011]定義一個RandomC ns( μ,δ ))函數(shù),其中,ns(y, δ )是高斯密度函數(shù),Random(ns(y, δ))表示在此高斯分布函數(shù)上隨機選取一個值。鑒于字的情感傾向值度量
滿足高斯分布,每個字的情感傾向值計算公式如下:
[0012]
【權(quán)利要求】
1.一種針對詞語級別的漢語情感詞極性強度量化方法,其特征在于,包括以下步驟: 步驟一、獲取情感詞典中每個字的情感傾向值; 首先,統(tǒng)計每個字在情感詞典中作為褒義詞、貶義詞的權(quán)重; 然后,根據(jù)每個字的褒義詞、貶義詞的權(quán)重,獲得情感詞典中每個字的情感傾向值,具體過程如下: 定義一個RandomC η s( μ,δ))函數(shù),其中ns(y,S)是高斯密度函數(shù),Random(ns(y, δ))表示在此高斯分布函數(shù)上隨機選取一個值;鑒于字的情感傾向值度量滿足高斯分布,每個字的情感傾向值計算公式如下:
【文檔編號】G06F17/30GK103838712SQ201310576097
【公開日】2014年6月4日 申請日期:2013年11月18日 優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】史樹敏, 李瑞靜, 黃河燕 申請人:北京理工大學