專(zhuān)利名稱(chēng):基于文本集合的隱性情緒詞典建立方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,更具體地,涉及一種基于文本集合的隱性情緒詞典建立方法和裝置。
背景技術(shù):
隨著因特網(wǎng)的發(fā)展,越來(lái)越多的人在網(wǎng)上發(fā)布信息,其中包括了很多用戶(hù)對(duì)產(chǎn)品的評(píng)論和個(gè)人對(duì)事件、政策等的看法。這些評(píng)論和看法經(jīng)常發(fā)表在購(gòu)物網(wǎng)站、論壇和個(gè)人博客上,對(duì)用戶(hù)、商家、政府等個(gè)人和機(jī)構(gòu)都很有價(jià)值。通過(guò)分析這些文本,可以幫助個(gè)人和機(jī)構(gòu)了解大家對(duì)于產(chǎn)品、事件、政策等的意見(jiàn)和態(tài)度,所以是很有價(jià)值的。另一個(gè)應(yīng)用是對(duì)話系統(tǒng)。計(jì)算機(jī)可以充當(dāng)聊天的一方和人對(duì)話,幫助人抒發(fā)情緒、 排遣煩惱。在這樣的系統(tǒng)中,計(jì)算機(jī)需要通過(guò)人的言語(yǔ)了解人的情緒,以便作出配合的反應(yīng)。一種解決方式就是把人的言語(yǔ)(語(yǔ)音)轉(zhuǎn)為文本,再通過(guò)文本分析確定人的情感和情緒。以上例子都說(shuō)明通過(guò)文本分析了解人的情感、態(tài)度、傾向性和情緒有重要的應(yīng)用價(jià)值?,F(xiàn)有研究主要分為傾向性(另一種說(shuō)法是情感)和情緒兩大類(lèi)。前者稍微簡(jiǎn)單一些,基本分為正面、負(fù)面、中性三個(gè)傾向(也有稱(chēng)為褒義、貶義和中性的)。后者較為復(fù)雜一些,例如可以分為喜、怒、憂(yōu)、思、悲、恐、驚七大類(lèi)。這里使用“例如”是因?yàn)椴煌难芯空邔?duì)情緒的分類(lèi)有一些差別(以下還會(huì)談到)。對(duì)傾向性和情緒中的任何一種研究而言,都有多種解決方案。建立詞典,并通過(guò)匹配具體文本和詞典中的字、詞或詞組(以下統(tǒng)稱(chēng)為詞)是其中一種重要的解決方案。本專(zhuān)利申請(qǐng)就是一種建立情緒詞典的方法和系統(tǒng)。情緒詞典有兩種,一種可稱(chēng)為顯性情緒詞典,另一種可稱(chēng)為隱性情緒詞典。例如,顯性情緒詞典如表1所示,而隱性情緒詞典如表2所示表 權(quán)利要求
1.一種用于建立隱性情緒詞典的裝置,包括存儲(chǔ)單元,用于存儲(chǔ)文本集合、顯性情緒詞典和即將建立的隱性情緒詞典; 待定詞確定單元,用于根據(jù)所述文本集合,確定所述文本集合中出現(xiàn)的各個(gè)待定詞、以及各個(gè)待定詞在相關(guān)文本中的所有出現(xiàn)位置;并發(fā)情緒詞確定單元,用于針對(duì)每個(gè)待定詞,確定與所述待定詞并發(fā)的顯性情緒詞; 情緒類(lèi)別統(tǒng)計(jì)單元,用于針對(duì)每個(gè)待定詞,根據(jù)所述顯性情緒詞典,對(duì)所述并發(fā)情緒詞確定單元所確定出的顯性情緒詞的情緒類(lèi)別進(jìn)行統(tǒng)計(jì),得出統(tǒng)計(jì)結(jié)果;以及詞條生成單元,用于針對(duì)每個(gè)待定詞,基于所述情緒類(lèi)別統(tǒng)計(jì)單元所得到的統(tǒng)計(jì)結(jié)果, 計(jì)算所述待定詞的情緒類(lèi)別比例,并將結(jié)果作為一個(gè)詞條結(jié)果,記錄在所述隱性情緒詞典中。
2.根據(jù)權(quán)利要求1所述的用于建立隱性情緒詞典的裝置,其特征在于所述顯性情緒詞包括基本情緒詞和復(fù)合情緒詞。
3.根據(jù)權(quán)利要求2所述的用于建立隱性情緒詞典的裝置,還包括復(fù)合情緒分解單元,用于針對(duì)每個(gè)待定詞,根據(jù)所得到的統(tǒng)計(jì)結(jié)果,計(jì)算與復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例,以及所述詞條生成單元按照所述復(fù)合情緒分解單元計(jì)算出的組合和比例,將所述情緒類(lèi)別統(tǒng)計(jì)單元統(tǒng)計(jì)出的復(fù)合情緒的統(tǒng)計(jì)結(jié)果合并到所述情緒類(lèi)別統(tǒng)計(jì)單元統(tǒng)計(jì)出的基本情緒的統(tǒng)計(jì)結(jié)果中,并基于合并后的統(tǒng)計(jì)結(jié)果,計(jì)算所述待定詞的情緒類(lèi)別比例。
4.根據(jù)權(quán)利要求3所述的用于建立隱性情緒詞典的裝置,其特征在于所述復(fù)合情緒分解單元在計(jì)算與每個(gè)復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),只考慮所述復(fù)合情緒與所有基本情緒之間的關(guān)系,而不考慮其他復(fù)合情緒對(duì)所述復(fù)合情緒的影響。
5.根據(jù)權(quán)利要求3所述的用于建立隱性情緒詞典的裝置,其特征在于所述復(fù)合情緒分解單元在計(jì)算與每個(gè)復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),考慮所述復(fù)合情緒與所有基本情緒之間的關(guān)系和先前已經(jīng)計(jì)算出的其他復(fù)合情緒的計(jì)算結(jié)果, 而不考慮尚未計(jì)算的其他復(fù)合情緒對(duì)所述復(fù)合情緒的影響。
6.根據(jù)權(quán)利要求3所述的用于建立隱性情緒詞典的裝置,其特征在于所述復(fù)合情緒分解單元在計(jì)算與復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),綜合考慮各個(gè)復(fù)合情緒與所有基本情緒之間的關(guān)系以及各個(gè)復(fù)合情緒之間的相互關(guān)系。
7.根據(jù)權(quán)利要求3所述的用于建立隱性情緒詞典的裝置,其特征在于所述復(fù)合情緒分解單元在計(jì)算與每個(gè)復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),利用已預(yù)先定義的與所述復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例。
8.根據(jù)權(quán)利要求1 7之一所述的用于建立隱性情緒詞典的裝置,其特征在于所述待定詞是即將在隱性情緒詞典中建立的詞條中的詞,所述待定詞確定單元通過(guò)以下操作中的至少一個(gè)操作獲得待定詞從所述文本集合中出現(xiàn)的所有詞中去除所述顯性情緒詞典中的顯性情緒詞;和/或從所述文本集合中出現(xiàn)的所有詞中去除預(yù)定詞典中已定義的預(yù)定類(lèi)的詞。
9.根據(jù)權(quán)利要求1 8之一所述的用于建立隱性情緒詞典的裝置,其特征在于所述并發(fā)情緒詞確定單元根據(jù)以下條件中的至少一個(gè),確定與所述待定詞并發(fā)的顯性情緒詞如果所述待定詞與一顯性情緒詞之間的距離小于預(yù)定字?jǐn)?shù),則確定這二者并發(fā);和/或如果所述待定詞與一顯性情緒詞之間的存在依存關(guān)系,則確定這二者并發(fā)。
10.根據(jù)權(quán)利要求1 9之一所述的用于建立隱性情緒詞典的裝置,其特征在于所述情緒類(lèi)別統(tǒng)計(jì)單元所得到的統(tǒng)計(jì)結(jié)果包括待定詞、所述待定詞在所述文本集合中出現(xiàn)的總次數(shù)、與所述待定詞并發(fā)的各種情緒類(lèi)別的顯性情緒詞的出現(xiàn)次數(shù)。
11.一種隱性情緒詞典建立方法,包括根據(jù)文本集合,確定所述文本集合中出現(xiàn)的各個(gè)待定詞、以及各個(gè)待定詞在相關(guān)文本中的所有出現(xiàn)位置; 針對(duì)每個(gè)待定詞,確定與所述待定詞并發(fā)的顯性情緒詞;根據(jù)顯性情緒詞典,對(duì)所確定出的顯性情緒詞的情緒類(lèi)別進(jìn)行統(tǒng)計(jì),得出統(tǒng)計(jì)結(jié)果;以及基于所得到的統(tǒng)計(jì)結(jié)果,計(jì)算所述待定詞的情緒類(lèi)別比例,并將結(jié)果作為一個(gè)詞條結(jié)果,記錄在隱性情緒詞典中。
12.根據(jù)權(quán)利要求11所述的隱性情緒詞典建立方法,其特征在于所述顯性情緒詞包括基本情緒詞和復(fù)合情緒詞。
13.根據(jù)權(quán)利要求12所述的隱性情緒詞典建立方法,還包括根據(jù)所得到的統(tǒng)計(jì)結(jié)果,計(jì)算與復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例,以及按照計(jì)算出的組合和比例,將復(fù)合情緒的統(tǒng)計(jì)結(jié)果合并到基本情緒的統(tǒng)計(jì)結(jié)果中,并基于合并后的統(tǒng)計(jì)結(jié)果,計(jì)算所述待定詞的情緒類(lèi)別比例。
14.根據(jù)權(quán)利要求13所述的隱性情緒詞典建立方法,其特征在于在計(jì)算與每個(gè)復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),只考慮所述復(fù)合情緒與所有基本情緒之間的關(guān)系,而不考慮其他復(fù)合情緒對(duì)所述復(fù)合情緒的影響。
15.根據(jù)權(quán)利要求13所述的隱性情緒詞典建立方法,其特征在于在計(jì)算與每個(gè)復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),考慮所述復(fù)合情緒與所有基本情緒之間的關(guān)系和先前已經(jīng)計(jì)算出的其他復(fù)合情緒的計(jì)算結(jié)果,而不考慮尚未計(jì)算的其他復(fù)合情緒對(duì)所述復(fù)合情緒的影響。
16.根據(jù)權(quán)利要求13所述的隱性情緒詞典建立方法,其特征在于在計(jì)算與復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),綜合考慮各個(gè)復(fù)合情緒與所有基本情緒之間的關(guān)系以及各個(gè)復(fù)合情緒之間的相互關(guān)系。
17.根據(jù)權(quán)利要求13所述的隱性情緒詞典建立方法,其特征在于在計(jì)算與每個(gè)復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例時(shí),利用已預(yù)先定義的與所述復(fù)合情緒對(duì)應(yīng)的基本情緒的組合和比例。
18.根據(jù)權(quán)利要求11 17之一所述的隱性情緒詞典建立方法,其特征在于所述待定詞是即將在所述隱性情緒詞典中建立的詞條中的詞,通過(guò)以下操作中的至少一個(gè)操作獲得從所述文本集合中出現(xiàn)的所有詞中去除所述顯性情緒詞典中的顯性情緒詞;和/或從所述文本集合中出現(xiàn)的所有詞中去除預(yù)定詞典中已定義的預(yù)定類(lèi)的詞。
19.根據(jù)權(quán)利要求11 18之一所述的隱性情緒詞典建立方法,其特征在于根據(jù)以下條件中的至少一個(gè),確定與所述待定詞并發(fā)的顯性情緒詞如果所述待定詞與一顯性情緒詞之間的距離小于預(yù)定字?jǐn)?shù),則確定這二者并發(fā);和/或如果所述待定詞與一顯性情緒詞之間的存在依存關(guān)系,則確定這二者并發(fā)。
20.根據(jù)權(quán)利要求11 19之一所述的隱性情緒詞典建立方法,其特征在于所述統(tǒng)計(jì)結(jié)果包括待定詞、所述待定詞在所述文本集合中出現(xiàn)的總次數(shù)、與所述待定詞并發(fā)的各種情緒類(lèi)別的顯性情緒詞的出現(xiàn)次數(shù)。
全文摘要
本發(fā)明提出了一種基于文本集合的隱性情緒詞典建立方法和裝置。所述裝置包括存儲(chǔ)單元,用于存儲(chǔ)文本集合、顯性情緒詞典和即將建立的隱性情緒詞典;待定詞確定單元,用于根據(jù)文本集合,確定文本集合中出現(xiàn)的各個(gè)待定詞、以及各個(gè)待定詞在相關(guān)文本中的所有出現(xiàn)位置;并發(fā)情緒詞確定單元,用于針對(duì)每個(gè)待定詞,確定與待定詞并發(fā)的顯性情緒詞;情緒類(lèi)別統(tǒng)計(jì)單元,用于針對(duì)每個(gè)待定詞,根據(jù)顯性情緒詞典,對(duì)并發(fā)情緒詞確定單元所確定出的顯性情緒詞的情緒類(lèi)別進(jìn)行統(tǒng)計(jì),得出統(tǒng)計(jì)結(jié)果;以及詞條生成單元,用于針對(duì)每個(gè)待定詞,基于情緒類(lèi)別統(tǒng)計(jì)單元所得到的統(tǒng)計(jì)結(jié)果,計(jì)算待定詞的情緒類(lèi)別比例,并將結(jié)果作為一個(gè)詞條結(jié)果,記錄在隱性情緒詞典中。
文檔編號(hào)G06F17/27GK102541839SQ201010612889
公開(kāi)日2012年7月4日 申請(qǐng)日期2010年12月15日 優(yōu)先權(quán)日2010年12月15日
發(fā)明者胡長(zhǎng)建, 許洪志, 趙凱, 邱立坤 申請(qǐng)人:日電(中國(guó))有限公司