一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法
【專利摘要】本發(fā)明涉及一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法,該系統(tǒng)包括:評(píng)論數(shù)據(jù)預(yù)處理模塊,用于抽取評(píng)論數(shù)據(jù)中每個(gè)句子包含的各個(gè)評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,建立與各個(gè)評(píng)價(jià)對(duì)象相對(duì)應(yīng)的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),將評(píng)論數(shù)據(jù)轉(zhuǎn)化成句子集合;單位情感信息度量模塊,用于計(jì)算每個(gè)單位的情感信息量;句子情感信息度量模塊,用于計(jì)算每個(gè)句子的情感信息量;以及情感文摘生成模塊,用于根據(jù)句子的情感信息量大小對(duì)所有句子進(jìn)行排序,選擇前k個(gè)句子組成最終的情感文摘。該系統(tǒng)及方法有利于從評(píng)論數(shù)據(jù)中提取包含主流情感信息的情感文摘,準(zhǔn)確度高,適應(yīng)范圍廣。
【專利說(shuō)明】一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及產(chǎn)品領(lǐng)域的情感文摘【技術(shù)領(lǐng)域】,更具體地,涉及一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法,適用于歸納總結(jié)各產(chǎn)品的評(píng)論數(shù)據(jù),幫助用戶快速了解廣品的關(guān)鍵/[目息。
【背景技術(shù)】
[0002]情感文摘旨在提取具有明顯傾向性的情感信息。情感信息的度量是獲取情感文摘的主要步驟。在現(xiàn)有技術(shù)中,存在一些度量文摘中情感信息的方法。然而這些方法大多數(shù)是根據(jù)評(píng)價(jià)對(duì)象、評(píng)價(jià)詞、極性來(lái)度量情感信息,并不足以表達(dá)情感信息的情感強(qiáng)度。這是因?yàn)?,如果兩個(gè)句子擁有同樣的評(píng)價(jià)對(duì)象,評(píng)價(jià)對(duì)象所對(duì)應(yīng)評(píng)價(jià)詞的極性也是一樣的,但是極性強(qiáng)度不一樣,評(píng)論者所表達(dá)觀點(diǎn)的情感強(qiáng)弱也不一樣。
[0003]同時(shí),情感文摘中應(yīng)該包含盡可能多的產(chǎn)品屬性及其觀點(diǎn),且文摘句子之間冗余信息應(yīng)盡可能少,即多樣性。目前,存在一些方法用于解決文本文摘中多樣性問題。Wan等提出基于manifold-ranking的方法,先根據(jù)manifold-ranking算法計(jì)算句子和查詢之間的相關(guān)度,選擇排名最高的句子放進(jìn)摘要中,接著加入懲罰函數(shù),度量剩下句子和文摘句子之間的重疊值。Fukumoto等提出采用譜聚類的方法代替K-means算法,實(shí)現(xiàn)降維去噪的目的,而且使得分類更準(zhǔn)確,從而提高文摘結(jié)果的準(zhǔn)確度。Yan等把多樣性的問題轉(zhuǎn)化為兩個(gè)詞分布之間的相似度問題,根據(jù)Kullback-Leibler散度的方法進(jìn)行度量。然而,以上的方法大多適用于傳統(tǒng)文檔文摘,然而對(duì)于產(chǎn)品領(lǐng)域的情感文摘,用戶更多關(guān)注的是評(píng)論者對(duì)產(chǎn)品屬性所表達(dá)的觀點(diǎn)。
[0004]因此,圍繞這兩個(gè)問題,引入極性強(qiáng)度,同時(shí)結(jié)合評(píng)價(jià)對(duì)象、評(píng)價(jià)短語(yǔ)等情感元素,分析這些情感元素對(duì)情感信息中情感強(qiáng)弱、多樣性問題的影響,提出相對(duì)應(yīng)的解決方案,以提高中文情感文摘的精度。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法,該系統(tǒng)及方法有利于從評(píng)論數(shù)據(jù)中提取包含主流情感信息的情感文摘,準(zhǔn)確度高,適應(yīng)范圍廣。
[0006]為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種用于度量主流情感信息的中文情感文摘系統(tǒng),該系統(tǒng)包括:
評(píng)論數(shù)據(jù)預(yù)處理模塊,用于抽取評(píng)論數(shù)據(jù)中每個(gè)句子包含的各個(gè)評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,所述情感強(qiáng)度等級(jí)由相應(yīng)的評(píng)價(jià)短語(yǔ)計(jì)算得到;建立與各個(gè)評(píng)價(jià)對(duì)象相對(duì)應(yīng)的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)包含以下信息:評(píng)價(jià)對(duì)象、該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中對(duì)應(yīng)的所有評(píng)價(jià)短語(yǔ)構(gòu)成的集合即評(píng)價(jià)短語(yǔ)集合、該評(píng)價(jià)對(duì)象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評(píng)價(jià)短語(yǔ)集合中的元素一一對(duì)應(yīng),第一數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)在評(píng)論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)和該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí),第四數(shù)組中包括η個(gè)元素,表示該評(píng)價(jià)對(duì)象與η類情感強(qiáng)度等級(jí)之間的情感信息量;將評(píng)論數(shù)據(jù)轉(zhuǎn)化成句子集合,所述句子集合中的每個(gè)元素與評(píng)論數(shù)據(jù)中的每個(gè)句子相對(duì)應(yīng),句子集合中的每個(gè)元素包含以下信息:該句子在評(píng)論數(shù)據(jù)中的位置、該句子的內(nèi)容、該句子的類別、該句子包含的所有單位構(gòu)成的集合、該句子的情感信息量;
單位情感信息度量模塊,用于計(jì)算每個(gè)單位的情感信息量:以評(píng)論數(shù)據(jù)預(yù)處理模塊構(gòu)建的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)作為輸入,對(duì)于每個(gè)評(píng)價(jià)對(duì)象,根據(jù)情感強(qiáng)度等級(jí)不同對(duì)評(píng)價(jià)短語(yǔ)進(jìn)行分類,然后計(jì)算評(píng)價(jià)對(duì)象和每一類評(píng)價(jià)短語(yǔ)的情感信息量,獲取評(píng)價(jià)對(duì)象和η類情感強(qiáng)度等級(jí)之間的情感信息量,最后獲得全部單位的情感信息量;
句子情感信息度量模塊,用于計(jì)算每個(gè)句子的情感信息量:以句子集合和單位情感信息度量模塊處理后的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)作為輸入,先利用聚類算法對(duì)所有的句子進(jìn)行分類,使內(nèi)容相似的句子聚類,獲得每個(gè)句子的類別,每個(gè)類別的情感信息量根據(jù)每個(gè)類別所包含的單位進(jìn)行計(jì)算,句子和類別之間的關(guān)聯(lián)程度也根據(jù)句子和類別所包含的單位進(jìn)行計(jì)算,句子之間的關(guān)聯(lián)程度根據(jù)句子所包含單位之間的距離進(jìn)行計(jì)算,最后迭代求取每個(gè)句子的情感信息量;以及
情感文摘生成模塊,用于生成情感文摘:以句子情感信息度量模塊處理后的句子集合作為輸入,根據(jù)句子的情感信息量大小對(duì)所有句子進(jìn)行排序,選擇前k個(gè)句子組成最終的情感文摘。
[0007]進(jìn)一步的,所述評(píng)論數(shù)據(jù)預(yù)處理模塊包括句法分析器和抽取模塊,所述句法分析器用于對(duì)評(píng)論數(shù)據(jù)進(jìn)行解析,即對(duì)評(píng)論數(shù)據(jù)進(jìn)行分句、句法結(jié)構(gòu)分析,所述抽取模塊采用基于規(guī)則的無(wú)監(jiān)督方法對(duì)句法分析器解析的結(jié)果進(jìn)行處理,抽取評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),組成〈評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ) > 對(duì),然后使用情感強(qiáng)度等級(jí)模塊計(jì)算評(píng)價(jià)短語(yǔ)對(duì)應(yīng)的情感強(qiáng)度等級(jí),將〈評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ) > 對(duì)轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,并建立所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)和句子集合。
[0008]進(jìn)一步的,所述情感強(qiáng)度等級(jí)模塊按如下方法計(jì)算評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí):評(píng)價(jià)短語(yǔ)由評(píng)價(jià)詞和修飾副詞組成,從情感詞典中獲取評(píng)價(jià)詞的極性強(qiáng)度,并根據(jù)評(píng)價(jià)詞和修飾副詞之間的關(guān)系,形成一定的評(píng)定規(guī)則,然后根據(jù)所述評(píng)定規(guī)則計(jì)算評(píng)價(jià)短語(yǔ)的極性強(qiáng)度,并將評(píng)價(jià)短語(yǔ)的極性強(qiáng)度離散化為η個(gè)情感強(qiáng)度等級(jí),進(jìn)而得到評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí)。
[0009]本發(fā)明還提供了 一種用于度量主流情感信息的中文情感文摘方法,該方法包括以下步驟:
步驟(I)評(píng)論數(shù)據(jù)預(yù)處理模塊抽取評(píng)論數(shù)據(jù)中每個(gè)句子包含的各個(gè)評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,所述情感強(qiáng)度等級(jí)由相應(yīng)的評(píng)價(jià)短語(yǔ)計(jì)算得到;建立與各個(gè)評(píng)價(jià)對(duì)象相對(duì)應(yīng)的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)包含以下信息:評(píng)價(jià)對(duì)象、該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中對(duì)應(yīng)的所有評(píng)價(jià)短語(yǔ)構(gòu)成的集合、該評(píng)價(jià)對(duì)象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評(píng)價(jià)短語(yǔ)集合中的元素一一對(duì)應(yīng),第一數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)在評(píng)論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)和該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí),第四數(shù)組中包括η個(gè)元素,表示該評(píng)價(jià)對(duì)象與η類情感強(qiáng)度等級(jí)之間的情感信息量;將評(píng)論數(shù)據(jù)轉(zhuǎn)化成句子集合,所述句子集合中的每個(gè)元素與評(píng)論數(shù)據(jù)中的每個(gè)句子相對(duì)應(yīng),句子集合中的每個(gè)元素包含以下信息:該句子在評(píng)論數(shù)據(jù)中的位置、該句子的內(nèi)容、該句子的類別、該句子包含的所有單位構(gòu)成的集合、該句子的情感信息量;
步驟(2)單位情感信息度量模塊接收評(píng)論數(shù)據(jù)預(yù)處理模塊構(gòu)建的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),計(jì)算每個(gè)單位的情感信息量:對(duì)于每個(gè)評(píng)價(jià)對(duì)象,根據(jù)情感強(qiáng)度等級(jí)不同對(duì)評(píng)價(jià)短語(yǔ)進(jìn)行分類,然后計(jì)算評(píng)價(jià)對(duì)象和每一類評(píng)價(jià)短語(yǔ)的情感信息量,獲取評(píng)價(jià)對(duì)象和η類情感強(qiáng)度等級(jí)之間的情感信息量,最后獲得全部單位的情感信息量;
步驟(3)句子情感信息度量模塊接收句子集合和單位情感信息度量模塊處理后的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),計(jì)算每個(gè)句子的情感信息量:先利用聚類算法對(duì)所有的句子進(jìn)行分類,使內(nèi)容相似的句子聚類,獲得每個(gè)句子的類別,每個(gè)類別的情感信息量根據(jù)每個(gè)類別所包含的單位進(jìn)行計(jì)算,句子和類別之間的關(guān)聯(lián)程度也根據(jù)句子和類別所包含的單位進(jìn)行計(jì)算,句子之間的關(guān)聯(lián)程度根據(jù)句子所包含單位之間的距離進(jìn)行計(jì)算,最后迭代求取每個(gè)句子的情感信息量;
步驟(4)情感文摘生成模塊接收句子情感信息度量模塊處理后的句子集合,根據(jù)句子的情感信息量大小對(duì)所有句子進(jìn)行排序,選擇前k個(gè)句子組成最終的情感文摘。
[0010]進(jìn)一步的,所述步驟(I)中,由評(píng)價(jià)短語(yǔ)計(jì)算情感強(qiáng)度等級(jí)的方法如下:評(píng)價(jià)短語(yǔ)由評(píng)價(jià)詞和修飾副詞組成,從情感詞典中獲取評(píng)價(jià)詞的極性強(qiáng)度,并根據(jù)評(píng)價(jià)詞和修飾副詞之間的關(guān)系,形成一定的評(píng)定規(guī)則,然后根據(jù)所述評(píng)定規(guī)則計(jì)算評(píng)價(jià)短語(yǔ)的極性強(qiáng)度,并將評(píng)價(jià)短語(yǔ)的極性強(qiáng)度離散化為η個(gè)情感強(qiáng)度等級(jí),進(jìn)而得到評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí)。
[0011]本發(fā)明的有益效果是提出了一種面向產(chǎn)品領(lǐng)域的中文情感文摘系統(tǒng)及方法,該系統(tǒng)及方法能夠高效、準(zhǔn)確地從評(píng)論數(shù)據(jù)中提取包含主流情感信息的情感文摘,滿足主流性、多樣性、冗余性要求,即情感文摘中的每個(gè)產(chǎn)品屬性的觀點(diǎn)是大多數(shù)評(píng)論者贊同的,情感文摘的內(nèi)容包含盡可能多的產(chǎn)品屬性及其觀點(diǎn),情感文摘中每個(gè)句子之間冗余信息盡可能少,使用效果好,具有很強(qiáng)的實(shí)用性和廣闊的應(yīng)用前景。
【專利附圖】
【附圖說(shuō)明】
[0012]圖1是本發(fā)明系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0013]下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0014]本發(fā)明用于度量主流情感信息的中文情感文摘系統(tǒng),如圖1所示,包括評(píng)論數(shù)據(jù)預(yù)處理模塊、單位情感信息度量模塊、句子情感信息度量模塊和情感文摘生成模塊。
[0015]所述評(píng)論數(shù)據(jù)預(yù)處理模塊,抽取評(píng)論數(shù)據(jù)中每個(gè)句子包含的各個(gè)評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,所述情感強(qiáng)度等級(jí)由相應(yīng)的評(píng)價(jià)短語(yǔ)計(jì)算得到;建立與各個(gè)評(píng)價(jià)對(duì)象相對(duì)應(yīng)的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)包含以下信息:評(píng)價(jià)對(duì)象、該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中對(duì)應(yīng)的所有評(píng)價(jià)短語(yǔ)構(gòu)成的集合(即評(píng)價(jià)短語(yǔ)集合)、該評(píng)價(jià)對(duì)象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評(píng)價(jià)短語(yǔ)集合中的元素一一對(duì)應(yīng),第一數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)在評(píng)論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)和該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí),第四數(shù)組中包括5個(gè)元素,表示該評(píng)價(jià)對(duì)象與5類情感強(qiáng)度等級(jí)之間的情感信息量;將評(píng)論數(shù)據(jù)轉(zhuǎn)化成句子集合,所述句子集合中的每個(gè)元素與評(píng)論數(shù)據(jù)中的每個(gè)句子相對(duì)應(yīng),句子集合中的每個(gè)元素包含以下信息:該句子在評(píng)論數(shù)據(jù)中的位置、該句子的內(nèi)容、該句子的類別、該句子包含的所有單位構(gòu)成的集合、該句子的情感信息量。在評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)中,評(píng)價(jià)對(duì)象和第三數(shù)組中的每個(gè)元素,組成I個(gè)單位。第四數(shù)組用于記錄評(píng)價(jià)對(duì)象和每類情感強(qiáng)度等級(jí)(即單位)的情感信息量。
[0016]所述評(píng)論數(shù)據(jù)預(yù)處理模塊包括句法分析器和抽取模塊,所述句法分析器用于對(duì)評(píng)論數(shù)據(jù)進(jìn)行解析,即對(duì)評(píng)論數(shù)據(jù)進(jìn)行分句、句法結(jié)構(gòu)分析,所述抽取模塊采用基于規(guī)則的無(wú)監(jiān)督方法對(duì)句法分析器解析的結(jié)果進(jìn)行處理,抽取評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),組成〈評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ) > 對(duì),然后使用情感強(qiáng)度等級(jí)模塊計(jì)算評(píng)價(jià)短語(yǔ)對(duì)應(yīng)的情感強(qiáng)度等級(jí),將〈評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ) > 對(duì)轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,并建立所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)和句子集合。
[0017]所述情感強(qiáng)度等級(jí)模塊按如下方法計(jì)算評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí):評(píng)價(jià)短語(yǔ)由評(píng)價(jià)詞和修飾副詞組成,修飾副 詞分為程度副詞和否定副詞,能夠?qū)υu(píng)價(jià)詞的極性強(qiáng)度起到增大、減小、置反的作用,從已存在的情感詞典(SentiWordnet 1.0版)中獲取評(píng)價(jià)詞的極性強(qiáng)度,并根據(jù)評(píng)價(jià)詞和修飾副詞之間的關(guān)系,形成一定的評(píng)定規(guī)則,然后根據(jù)所述評(píng)定規(guī)則計(jì)算評(píng)價(jià)短語(yǔ)的極性強(qiáng)度,極性強(qiáng)度的范圍在[_1,1]之間,為了更準(zhǔn)確地表達(dá)語(yǔ)義,將評(píng)價(jià)短語(yǔ)的極性強(qiáng)度離散化為5個(gè)情感強(qiáng)度等級(jí),進(jìn)而得到評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí)。
[0018]所述單位情感信息度量模塊,計(jì)算每個(gè)單位的情感信息量:以評(píng)論數(shù)據(jù)預(yù)處理模塊構(gòu)建的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)作為輸入,對(duì)于每個(gè)評(píng)價(jià)對(duì)象,根據(jù)情感強(qiáng)度等級(jí)不同對(duì)評(píng)價(jià)短語(yǔ)進(jìn)行分類,然后計(jì)算評(píng)價(jià)對(duì)象和每一類評(píng)價(jià)短語(yǔ)的情感信息量,獲取評(píng)價(jià)對(duì)象和5類情感強(qiáng)度等級(jí)之間的情感信息量,最后獲得全部單位的情感信息量。
[0019]下面進(jìn)一步描述單位情感信息度量模塊是如何計(jì)算單位的情感信息量。主要思想是根據(jù)逐點(diǎn)交互信息理論表達(dá)評(píng)價(jià)對(duì)象和情感強(qiáng)度等級(jí)之間的關(guān)聯(lián)程度。逐點(diǎn)交互信息值越高,兩個(gè)者之間的關(guān)聯(lián)程度越大,逐點(diǎn)交互信息值越低,關(guān)聯(lián)程度越低。用兩者之間的關(guān)聯(lián)程度的高低表示情感信息量的大小。
[0020]在評(píng)論數(shù)據(jù)中,評(píng)價(jià)對(duì)象t,其對(duì)應(yīng)評(píng)價(jià)短語(yǔ)集合為E。評(píng)價(jià)短語(yǔ)集合根據(jù)情感強(qiáng)度等級(jí)分成m個(gè)評(píng)價(jià)短語(yǔ)子集,即m類。如果評(píng)價(jià)對(duì)象t和第k類的評(píng)價(jià)短語(yǔ)子集的逐點(diǎn)交互信息值大,那么評(píng)價(jià)對(duì)象t與第k類評(píng)價(jià)短語(yǔ)子集的關(guān)聯(lián)程度大,第k類所對(duì)應(yīng)的情感強(qiáng)度等級(jí)就是語(yǔ)料中大多數(shù)評(píng)論者對(duì)評(píng)價(jià)對(duì)象t表達(dá)的情感強(qiáng)度。
[0021]具體步驟:
1.遍歷評(píng)論數(shù)據(jù),統(tǒng)計(jì)各個(gè)評(píng)價(jià)對(duì)象出現(xiàn)的數(shù)目Targetnum,各個(gè)評(píng)價(jià)短語(yǔ)的出現(xiàn)數(shù)目Phrasesnum,各個(gè) < 評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ) > 出現(xiàn)的數(shù)目Tpnum ;
2.初始化每一個(gè)I(^Pj)=O;
3.for (對(duì)于每一個(gè)評(píng)價(jià)對(duì)象tj{
計(jì)算評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中的概率: p(h、;
for (ti對(duì)應(yīng)的評(píng)價(jià)短語(yǔ)集合中的每一個(gè)評(píng)價(jià)短語(yǔ)ej {
計(jì)算評(píng)價(jià)短語(yǔ)在評(píng)論數(shù)據(jù)中的概率:
【權(quán)利要求】
1.一種用于度量主流情感信息的中文情感文摘系統(tǒng),其特征在于,該系統(tǒng)包括: 評(píng)論數(shù)據(jù)預(yù)處理模塊,用于抽取評(píng)論數(shù)據(jù)中每個(gè)句子包含的各個(gè)評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,所述情感強(qiáng)度等級(jí)由相應(yīng)的評(píng)價(jià)短語(yǔ)計(jì)算得到;建立與各個(gè)評(píng)價(jià)對(duì)象相對(duì)應(yīng)的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)包含以下信息:評(píng)價(jià)對(duì)象、該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中對(duì)應(yīng)的所有評(píng)價(jià)短語(yǔ)構(gòu)成的集合即評(píng)價(jià)短語(yǔ)集合、該評(píng)價(jià)對(duì)象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評(píng)價(jià)短語(yǔ)集合中的元素一一對(duì)應(yīng),第一數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)在評(píng)論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)和該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí),第四數(shù)組中包括η個(gè)元素,表示該評(píng)價(jià)對(duì)象與η類情感強(qiáng)度等級(jí)之間的情感信息量;將評(píng)論數(shù)據(jù)轉(zhuǎn)化成句子集合,所述句子集合中的每個(gè)元素與評(píng)論數(shù)據(jù)中的每個(gè)句子相對(duì)應(yīng),句子集合中的每個(gè)元素包含以下信息:該句子在評(píng)論數(shù)據(jù)中的位置、該句子的內(nèi)容、該句子的類別、該句子包含的所有單位構(gòu)成的集合、該句子的情感信息量; 單位情感信息度量模塊,用于計(jì)算每個(gè)單位的情感信息量:以評(píng)論數(shù)據(jù)預(yù)處理模塊構(gòu)建的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)作為輸入,對(duì)于每個(gè)評(píng)價(jià)對(duì)象,根據(jù)情感強(qiáng)度等級(jí)不同對(duì)評(píng)價(jià)短語(yǔ)進(jìn)行分類,然后計(jì)算評(píng)價(jià)對(duì)象和每一類評(píng)價(jià)短語(yǔ)的情感信息量,獲取評(píng)價(jià)對(duì)象和η類情感強(qiáng)度等級(jí)之間的情感信息量,最后獲得全部單位的情感信息量; 句子情感信息度量模塊,用于計(jì)算每個(gè)句子的情感信息量:以句子集合和單位情感信息度量模塊處理后的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)作 為輸入,先利用聚類算法對(duì)所有的句子進(jìn)行分類,使內(nèi)容相似的句子聚類,獲得每個(gè)句子的類別,每個(gè)類別的情感信息量根據(jù)每個(gè)類別所包含的單位進(jìn)行計(jì)算,句子和類別之間的關(guān)聯(lián)程度也根據(jù)句子和類別所包含的單位進(jìn)行計(jì)算,句子之間的關(guān)聯(lián)程度根據(jù)句子所包含單位之間的距離進(jìn)行計(jì)算,最后迭代求取每個(gè)句子的情感信息量;以及 情感文摘生成模塊,用于生成情感文摘:以句子情感信息度量模塊處理后的句子集合作為輸入,根據(jù)句子的情感信息量大小對(duì)所有句子進(jìn)行排序,選擇前k個(gè)句子組成最終的情感文摘。
2.根據(jù)權(quán)利要求1所述的一種用于度量主流情感信息的中文情感文摘系統(tǒng),其特征在于,所述評(píng)論數(shù)據(jù)預(yù)處理模塊包括句法分析器和抽取模塊,所述句法分析器用于對(duì)評(píng)論數(shù)據(jù)進(jìn)行解析,即對(duì)評(píng)論數(shù)據(jù)進(jìn)行分句、句法結(jié)構(gòu)分析,所述抽取模塊采用基于規(guī)則的無(wú)監(jiān)督方法對(duì)句法分析器解析的結(jié)果進(jìn)行處理,抽取評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),組成〈評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ) > 對(duì),然后使用情感強(qiáng)度等級(jí)模塊計(jì)算評(píng)價(jià)短語(yǔ)對(duì)應(yīng)的情感強(qiáng)度等級(jí),將〈評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ) > 對(duì)轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,并建立所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)和句子集合。
3.根據(jù)權(quán)利要求2所示的一種用于度量主流情感信息的中文情感文摘系統(tǒng),其特征在于,所述情感強(qiáng)度等級(jí)模塊按如下方法計(jì)算評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí):評(píng)價(jià)短語(yǔ)由評(píng)價(jià)詞和修飾副詞組成,從情感詞典中獲取評(píng)價(jià)詞的極性強(qiáng)度,并根據(jù)評(píng)價(jià)詞和修飾副詞之間的關(guān)系,形成一定的評(píng)定規(guī)則,然后根據(jù)所述評(píng)定規(guī)則計(jì)算評(píng)價(jià)短語(yǔ)的極性強(qiáng)度,并將評(píng)價(jià)短語(yǔ)的極性強(qiáng)度離散化為η個(gè)情感強(qiáng)度等級(jí),進(jìn)而得到評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí)。
4.一種用于度量主流情感信息的中文情感文摘方法,其特征在于,該方法包括以下步驟: 步驟(1)評(píng)論數(shù)據(jù)預(yù)處理模塊抽取評(píng)論數(shù)據(jù)中每個(gè)句子包含的各個(gè)評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ),轉(zhuǎn)化為由評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的情感強(qiáng)度等級(jí)構(gòu)成的單位,所述情感強(qiáng)度等級(jí)由相應(yīng)的評(píng)價(jià)短語(yǔ)計(jì)算得到;建立與各個(gè)評(píng)價(jià)對(duì)象相對(duì)應(yīng)的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),所述評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu)包含以下信息:評(píng)價(jià)對(duì)象、該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中對(duì)應(yīng)的所有評(píng)價(jià)短語(yǔ)構(gòu)成的集合、該評(píng)價(jià)對(duì)象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評(píng)價(jià)短語(yǔ)集合中的元素一一對(duì)應(yīng),第一數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)在評(píng)論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)和該評(píng)價(jià)對(duì)象在評(píng)論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個(gè)元素表示所對(duì)應(yīng)評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí),第四數(shù)組中包括η個(gè)元素,表示該評(píng)價(jià)對(duì)象與η類情感強(qiáng)度等級(jí)之間的情感信息量;將評(píng)論數(shù)據(jù)轉(zhuǎn)化成句子集合,所述句子集合中的每個(gè)元素與評(píng)論數(shù)據(jù)中的每個(gè)句子相對(duì)應(yīng),句子集合中的每個(gè)元素包含以下信息:該句子在評(píng)論數(shù)據(jù)中的位置、該句子的內(nèi)容、該句子的類別、該句子包含的所有單位構(gòu)成的集合、該句子的情感信息量; 步驟(2)單位情感信息度量模塊接收評(píng)論數(shù)據(jù)預(yù)處理模塊構(gòu)建的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),計(jì)算每個(gè)單位的情感信息量:對(duì)于每個(gè)評(píng)價(jià)對(duì)象,根據(jù)情感強(qiáng)度等級(jí)不同對(duì)評(píng)價(jià)短語(yǔ)進(jìn)行分類,然后計(jì)算評(píng)價(jià)對(duì)象和每 一類評(píng)價(jià)短語(yǔ)的情感信息量,獲取評(píng)價(jià)對(duì)象和η類情感強(qiáng)度等級(jí)之間的情感信息量,最后獲得全部單位的情感信息量; 步驟(3)句子情感信息度量模塊接收句子集合和單位情感信息度量模塊處理后的評(píng)價(jià)對(duì)象數(shù)據(jù)結(jié)構(gòu),計(jì)算每個(gè)句子的情感信息量:先利用聚類算法對(duì)所有的句子進(jìn)行分類,使內(nèi)容相似的句子聚類,獲得每個(gè)句子的類別,每個(gè)類別的情感信息量根據(jù)每個(gè)類別所包含的單位進(jìn)行計(jì)算,句子和類別之間的關(guān)聯(lián)程度也根據(jù)句子和類別所包含的單位進(jìn)行計(jì)算,句子之間的關(guān)聯(lián)程度根據(jù)句子所包含單位之間的距離進(jìn)行計(jì)算,最后迭代求取每個(gè)句子的情感信息量; 步驟(4)情感文摘生成模塊接收句子情感信息度量模塊處理后的句子集合,根據(jù)句子的情感信息量大小對(duì)所有句子進(jìn)行排序,選擇前k個(gè)句子組成最終的情感文摘。
5.根據(jù)權(quán)利要求4所述的一種用于度量主流情感信息的中文情感文摘方法,其特征在于,所述步驟(1)中,由評(píng)價(jià)短語(yǔ)計(jì)算情感強(qiáng)度等級(jí)的方法如下:評(píng)價(jià)短語(yǔ)由評(píng)價(jià)詞和修飾副詞組成,從情感詞典中獲取評(píng)價(jià)詞的極性強(qiáng)度,并根據(jù)評(píng)價(jià)詞和修飾副詞之間的關(guān)系,形成一定的評(píng)定規(guī)則,然后根據(jù)所述評(píng)定規(guī)則計(jì)算評(píng)價(jià)短語(yǔ)的極性強(qiáng)度,并將評(píng)價(jià)短語(yǔ)的極性強(qiáng)度離散化為η個(gè)情感強(qiáng)度等級(jí),進(jìn)而得到評(píng)價(jià)短語(yǔ)的情感強(qiáng)度等級(jí)。
【文檔編號(hào)】G06F17/27GK103744838SQ201410034395
【公開日】2014年4月23日 申請(qǐng)日期:2014年1月24日 優(yōu)先權(quán)日:2014年1月24日
【發(fā)明者】陳國(guó)龍, 廖祥文, 潘敏, 郭文忠, 魏晶晶 申請(qǐng)人:福州大學(xué)