專利名稱:文本細粒度情感分析方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機應(yīng)用技術(shù)領(lǐng)域,具體的是一種主觀性文本的細粒度情感分析方法和裝置,可應(yīng)用于商務(wù)網(wǎng)站的商品評論、企業(yè)或政府部門的網(wǎng)絡(luò)輿情分析。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是Web2. O技術(shù)的逐漸普及,廣大網(wǎng)絡(luò)用戶已經(jīng)從過去單純的信息獲取者變?yōu)榫W(wǎng)絡(luò)內(nèi)容的主要制造者。中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第30次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》(CNNIC,2012)的數(shù)據(jù)顯示,截至2012年6月,我國網(wǎng)絡(luò)用戶總數(shù)量已經(jīng)達到5. 38億,網(wǎng)民規(guī)模較2011年底增長2450萬人,互聯(lián)網(wǎng)普及率為39. 9%。如此龐大且快速增長的網(wǎng)絡(luò)用戶群體加上Web2. O模式的互聯(lián)網(wǎng)應(yīng)用,使網(wǎng)絡(luò)內(nèi)容的數(shù)量和網(wǎng)絡(luò)信息的訪問量都以前所未有的速度增長,互聯(lián)網(wǎng)已經(jīng)成為人們表達觀點、獲取信息的重要途徑。當前互聯(lián)網(wǎng)上的信息形式多種多樣,如新聞、博客文章、產(chǎn)品評論、論壇帖子等
坐寸ο商品評論中的情感傾向性分析逐漸成為當前的研究熱點。它的研究目的是利用網(wǎng)絡(luò)上豐富的顧客評論資源,進行商品的市場反饋分析,為生產(chǎn)商和消費者提供了直觀的針對商品各個特性的網(wǎng)絡(luò)評價報告。目前,一方面情感信息在互聯(lián)網(wǎng)上呈爆炸式增長,另一方面情感信息對普通消費者,公司組織,和國家政府等各級別的用戶都有重要作用,如何幫助用戶方便快捷地找到所需的情感信息,成為當前需要迫切解決的問題之一。情感分析任務(wù)正是適應(yīng)這種需求,希望架設(shè)一個用戶到情感信息的橋梁,使用戶能有效獲取情感信息。通過對網(wǎng)絡(luò)上各種信息,特別是主觀性文本的傾向性分析可以更好地理解用戶的消費習慣,分析熱點事件的輿情,為企業(yè)、政府等機構(gòu)提供重要的決策依據(jù)。眾所周知,當面對商品評論時,用戶更希望了解產(chǎn)品各個方面的情感傾向,這更有利于他們的綜合判斷和抉擇,而傳統(tǒng)的情感分析往往是面向篇章和句子的粗粒度分析方法,不能有效解決此類需求,這就需要我們應(yīng)隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是Web2. O技術(shù)的逐漸普及,廣大網(wǎng)絡(luò)用戶已經(jīng)從過去單純的信息獲取者變?yōu)榫W(wǎng)絡(luò)內(nèi)容的主要制造者。中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第30次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》(CNNIC,2012)的數(shù)據(jù)顯示,截至2012年6月,我國網(wǎng)絡(luò)用戶總數(shù)量已經(jīng)達到5. 38億,網(wǎng)民規(guī)模較2011年底增長2450萬人,互聯(lián)網(wǎng)普及率為39.9%。如此龐大且快速增長的網(wǎng)絡(luò)用戶群體加上Web2. O模式的互聯(lián)網(wǎng)應(yīng)用,使網(wǎng)絡(luò)內(nèi)容的數(shù)量和網(wǎng)絡(luò)信息的訪問量都以前所未有的速度增長,互聯(lián)網(wǎng)已經(jīng)成為人們表達觀點、獲取信息的重要途徑。當前互聯(lián)網(wǎng)上的信息形式多種多樣,如新聞、博客文章、產(chǎn)品評論、論壇帖子等等。商品評論中的情感傾向性分析逐漸成為當前的研究熱點。它的研究目的是利用網(wǎng)絡(luò)上豐富的顧客評論資源,進行商品的市場反饋分析,為生產(chǎn)商和消費者提供了直觀的針對商品各個特性的網(wǎng)絡(luò)評價報告。目前,一方面情感信息在互聯(lián)網(wǎng)上呈爆炸式增長,另一方面情感信息對普通消費者,公司組織,和國家政府等各級別的用戶都有重要作用,如何幫助用戶方便快捷地找到所需的情感信息,成為當前需要迫切解決的問題之一。情感分析任務(wù)正是適應(yīng)這種需求,希望架設(shè)一個用戶到情感信息的橋梁,使用戶能有效獲取情感信息。通過對網(wǎng)絡(luò)上各種信息,特別是主觀性文本的傾向性分析可以更好地理解用戶的消費習慣,分析熱點事件的輿情,為企業(yè)、政府等機構(gòu)提供重要的決策依據(jù)。眾所周知,當面對商品評論時,用戶更希望了解產(chǎn)品各個方面的情感傾向,這更有利于他們的綜合判斷和抉擇,而傳統(tǒng)的情感分析往往是面向篇章和句子的粗粒度分析方法,不能有效解決此類需求,這就需要我們應(yīng)用細粒度的情感分析方法來實現(xiàn)。目前情感分析方法大致有兩類。第一種是基于規(guī)則的方法。主要先根據(jù)情感詞典找出文本中出現(xiàn)的情感詞,然后進行簡單的情感極性統(tǒng)計,根據(jù)最終得分與事先設(shè)定閾值比較得出情感極性結(jié)論,一般用于篇章級別的情感分析。第二種是基于機器學習的方法。通過對大量標注語料的訓(xùn)練,生成情感分類器,用來對測試文本進行分類。(I)基于規(guī)則的方法。目前的方法主要是設(shè)計規(guī)則提取情感詞和極性判定,然后對所有的情感詞進行簡單情感極性統(tǒng)計求得文本的整體情感極性,該方法更多的應(yīng)用于篇章的情感分析。另外,通過計算詞語的語義傾向,綜合考慮極性元素分布、密度和語義強度進行情感詞的擴展,進一步修正文本的整體情感極性。(2)基于機器學習的方法。這種方法主要使用情感詞、詞語共現(xiàn)對、句法模板、主題相關(guān)特征等作為分類特征,使用基于機器學習的分類方法進行情感/傾向性分析。常用的分類方法有中心向量分類法、KNN分類法、感知器分類法、貝葉斯分類法、最大熵分類法和支持向量機分類法等。一般·過程是首先通過對訓(xùn)練文檔進行手工標注,生產(chǎn)訓(xùn)練模型,然后進行測試文檔的預(yù)測。該方法目前在句子級別的情感分析中有廣泛的應(yīng)用
這兩類方法進行文本情感分析時,無論是句子,還是篇章,都強依賴于情感詞典,因此,情感詞典的好壞直接影響情感分析的正確性,而目前更多的情感詞典都是通過手工構(gòu)建的,工作量巨大,同時隨著互聯(lián)網(wǎng)的發(fā)展,新的情感詞層出不窮,所以靠一次性的情感詞典構(gòu)建是遠遠不夠的,同時目前的情感詞典往往還缺少極性強度的量化,很難滿足情感計算的需求。另一方面,在具體的情感分析過程中,現(xiàn)有方法一般只考慮詞的特性,對句子分詞、詞性標注后,利用詞性的特點進行屬性和情感詞的識別,而缺乏對句子的整體語義理解,這樣導(dǎo)致識別效率不高。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提供了一種文本細粒度情感分析方法,包括如下步驟情感詞極性強度量化計算;評價對象屬性及其情感表達元素的聯(lián)合識別;細粒度屬性分類及其情感計算。進一步的,所述情感詞極性強度量化計算包括基礎(chǔ)情感詞的極性強度量化計算和復(fù)合情感詞的極性強度量化計算。進一步的,所述基礎(chǔ)情感詞的極性強度量化計算包括字的情感值計算,采用如下公式:
WS爲'
-5---1--⑴
β +/
/-1/-權(quán)利要求
1.一種文本細粒度情感分析方法,包括如下步驟情感詞極性強度量化計算;評價對象屬性及其情感表達元素的聯(lián)合識別;細粒度屬性分類及其情感計算。
2.如權(quán)利要求1所述的文本細粒度情感分析方法,其特征在于所述情感詞極性強度量化計算包括基礎(chǔ)情感詞的極性強度量化計算和復(fù)合情感詞的極性強度量化計算。
3.如權(quán)利要求2所述的文本細粒度情感分析方法,其特征在于所述基礎(chǔ)情感詞的極性強度量化計算包括字的情感值計算,采用如下公式
4.如權(quán)利要求3所述的文本細粒度情感分析方法,其特征在于所述基礎(chǔ)情感詞的極性強度量化計算還包括基礎(chǔ)詞的情感值計算,采用如下公式
5.如權(quán)利要求2所述的文本細粒度情感分析方法,其特征在于所述復(fù)合情感詞的極性強度量化計算分為基礎(chǔ)情感詞的疊詞;基礎(chǔ)情感詞+基礎(chǔ)情感詞;否定詞+基礎(chǔ)情感詞;程度修飾詞+基礎(chǔ)情感詞;否定詞+程度修飾詞+基礎(chǔ)情感詞或程度修飾詞+否定詞+基礎(chǔ)情感詞,采用如下公式計算
6.如權(quán)利要求1所述的文本細粒度情感分析方法,其特征在于所述評價對象屬性及其情感表達元素的聯(lián)合識別包括語義特征的抽取和基于序列化聯(lián)合識別模型構(gòu)建。
7.如權(quán)利要求6所述的文本細粒度情感分析方法,其特征在于所述語義特征的抽取包括抽取分詞信息、詞性標注信息和語義角色信息。
8.如權(quán)利要求1所述的文本細粒度情感分析方法,其特征在于所述細粒度屬性分類及其情感計算包括基于自舉學習的屬性分類和細粒度情感匯總計算。
9.如權(quán)利要求1所述的文本細粒度情感分析方法,其特征在于所述細粒度情感匯總計算采用如下公式(6):
10. 一種文本細粒度情感分析裝置,包括評論數(shù)據(jù)采集及預(yù)處理模塊、數(shù)據(jù)處理模塊、 數(shù)據(jù)分析模塊、信息展示模塊,其中所述評論數(shù)據(jù)采集及預(yù)處理模塊,進行評論數(shù)據(jù)的采集和存儲;數(shù)據(jù)處理模塊對采集的評論數(shù)據(jù)進行相應(yīng)的處理,對新的評論信息進行預(yù)測;數(shù)據(jù)分析模塊對數(shù)據(jù)處理模塊處理后的信息進行情感分析,利用對象屬性與情感詞之間的關(guān)聯(lián)信息以及情感詞與修飾詞之間的關(guān)系進行細粒度情感強度量化統(tǒng)計和計算;信息展示模塊對處理和分析后的評論信息進行友好的可視化展示。
全文摘要
本發(fā)明公開了一種文本細粒度情感分析方法,包括如下步驟情感詞極性強度量化計算;評價對象屬性及其情感表達元素的聯(lián)合識別;細粒度屬性分類及其情感計算。本發(fā)明還公開了一種文本細粒度情感分析裝置,包括評論數(shù)據(jù)采集及預(yù)處理模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)分析模塊、信息展示模塊。本發(fā)明的細粒度情感分析方法采用的三大步驟有如下優(yōu)點(1)情感詞極性強度量化計算步驟,在正確率上提高了將近30%;(2)評價對象屬性及其情感表達元素的聯(lián)合識別,針對特定情感分析應(yīng)用領(lǐng)域,其聯(lián)合識別正確率達到了80%以上;(3)細粒度屬性分類及其情感計算利用細粒度屬性分類,可以提升情感計算整體性能2.5%以上。
文檔編號G06F17/27GK103049435SQ20131000073
公開日2013年4月17日 申請日期2013年1月4日 優(yōu)先權(quán)日2013年1月4日
發(fā)明者施寒瀟, 厲小軍 申請人:浙江工商大學