欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于情感詞典學(xué)習(xí)的文本情感分析方法和系統(tǒng)與流程

文檔序號(hào):12305336閱讀:593來(lái)源:國(guó)知局
一種基于情感詞典學(xué)習(xí)的文本情感分析方法和系統(tǒng)與流程

本發(fā)明自然語(yǔ)言處理領(lǐng)域,尤其涉及一種基于情感詞典學(xué)習(xí)的文本情感分析方法和系統(tǒng)。



背景技術(shù):

web2.0時(shí)代,每一個(gè)網(wǎng)民都成了互聯(lián)網(wǎng)的信息發(fā)布源。各種用途的信息發(fā)布平臺(tái)應(yīng)運(yùn)而生,諸如facebook、校內(nèi)網(wǎng)、新浪微博等,供用戶發(fā)表、獲取、分享各種信息。由于互聯(lián)網(wǎng)用戶基數(shù)大,每個(gè)信息發(fā)布平臺(tái)信息發(fā)布平臺(tái)平均每天產(chǎn)生的信息量也大,所以互聯(lián)網(wǎng)每天產(chǎn)生的信息量也巨大。而情感分析又稱情感挖掘、意見(jiàn)挖掘,是對(duì)文本進(jìn)行處理、分析、歸納并推理,得出文本的情感色彩的過(guò)程,基于互聯(lián)網(wǎng)每天產(chǎn)生的巨大信息量,對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行挖掘和情感分析的難度也非常大。

在文本情感分析方面,外國(guó)學(xué)者主要是針對(duì)twitter上的短文本信息作為語(yǔ)料進(jìn)行分析。比如國(guó)外學(xué)者利用網(wǎng)站帶情感標(biāo)簽的文本作為訓(xùn)練語(yǔ)料,采用文本抽象特征訓(xùn)練各種分類器進(jìn)行主客觀分類和情感極性分類。中文文本情感極性分析近來(lái)呈現(xiàn)高速發(fā)展的趨向,然而中文文本的復(fù)雜性比英文文本的復(fù)雜性要高得多,所以中文文本的分詞質(zhì)量往往對(duì)最后的分類結(jié)果影響很大。除此之外,由于中文的信息熵更大,中文文本內(nèi)容豐富多彩,有很多網(wǎng)絡(luò)詞和新詞加入其中,在研究工作中都是挑戰(zhàn)。

就情感分析而言,有基于規(guī)則和基于學(xué)習(xí)的方法兩種類別?;谝?guī)則的方法,一般由人工定義的規(guī)則庫(kù)和情感詞典組成,這種方法效果一般不錯(cuò),但是人工工作量很大;基于學(xué)習(xí)的方法,大多是基于統(tǒng)計(jì)學(xué)習(xí)的方法,使用人工標(biāo)注的語(yǔ)料進(jìn)行模型訓(xùn)練,這種方法工作量較之前者稍低,但是效果不太理想。上述情感分析的各類方法中,人工標(biāo)注處理的人力和物力成本很大且沒(méi)有根據(jù)領(lǐng)域進(jìn)行分領(lǐng)域處理,因此情感分析效果都不理想。



技術(shù)實(shí)現(xiàn)要素:

為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于情感詞典學(xué)習(xí)的文本情感分析方法和系統(tǒng)。

第一方面,本發(fā)明實(shí)施例提供了一種基于情感詞典學(xué)習(xí)的文本情感分析方法,包括以下步驟:

步驟1,采集用于訓(xùn)練的初始文本數(shù)據(jù),并對(duì)所述初始文本數(shù)據(jù)進(jìn)行規(guī)范化處理,生成預(yù)處理文本數(shù)據(jù);

步驟2,采取預(yù)設(shè)的聚類方法,將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域;

步驟3,將預(yù)設(shè)的基礎(chǔ)情感詞典作為種子情感詞典,并采用基于所述種子情感詞典的情感詞語(yǔ)發(fā)現(xiàn)方法,獲取所述預(yù)處理文本數(shù)據(jù)中的第一情感詞語(yǔ),根據(jù)所述第一情感詞語(yǔ)形成所述預(yù)處理文本數(shù)據(jù)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典;

步驟4,對(duì)所述專有情感詞典進(jìn)行篩選,從所述專有情感詞典的所述第一情感詞語(yǔ)中獲取符合預(yù)設(shè)判斷規(guī)則的第二情感詞語(yǔ),并在所述專有情感詞典對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的預(yù)處理文本數(shù)據(jù)中進(jìn)行檢索,獲取包括所述第二情感詞語(yǔ)的目標(biāo)文本數(shù)據(jù),將所述目標(biāo)文本數(shù)據(jù)作為對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料;

步驟5,針對(duì)不同預(yù)設(shè)領(lǐng)域,使用每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料訓(xùn)練出對(duì)應(yīng)領(lǐng)域的分類器;

步驟6,獲取待分類文本,采用所有預(yù)設(shè)領(lǐng)域分別對(duì)應(yīng)的分類器對(duì)所述待分類文本進(jìn)行分類,生成所述待分類文本的情感分類結(jié)果并輸出顯示。

上述方案的有益效果在于:本發(fā)明的基于情感詞典學(xué)習(xí)的文本情感分析方法通過(guò)對(duì)情感分析分領(lǐng)域進(jìn)行處理,不斷自動(dòng)擴(kuò)充不同領(lǐng)域?qū)?yīng)的情感詞典,同時(shí)使用多分類器結(jié)合的方式對(duì)輸入文本進(jìn)行情感分析。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)和有益效果:

1、本發(fā)明可以自動(dòng)建立每個(gè)領(lǐng)域的專有情感詞典,避免了全由人工建立的成本問(wèn)題;

2、本發(fā)明建立了每個(gè)領(lǐng)域的專有情感詞典,并將所述專有情感詞典和基礎(chǔ)情感詞典組成聯(lián)合情感詞典,使情感詞更加準(zhǔn)確和全面;

3、使用少量人工篩選的原始語(yǔ)料作為訓(xùn)練數(shù)據(jù),減少人力成本;

4、使用多分類器對(duì)輸入文本進(jìn)行情感分析,防止過(guò)擬合,使分析結(jié)果更加準(zhǔn)確。

進(jìn)一步的,還包括步驟7,具體為:分析所述待分類文本的情感分類結(jié)果是否正確,若不正確,則將所述待分類文本作為所述初始文本數(shù)據(jù),并重復(fù)步驟1~步驟5,根據(jù)所述待分類文本對(duì)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典和分類器進(jìn)行更新。

進(jìn)一步,步驟1的所述規(guī)范化處理包括對(duì)所述初始文本數(shù)據(jù)進(jìn)行去非文字符號(hào)處理和/或分隔符清理;所述步驟2中,采用elasticsearch檢索工具將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域。

進(jìn)一步,所述步驟3具體包括:

計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)的詞向量,形成詞向量表;

計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)和所述種子情感詞典中情感詞語(yǔ)之間的pmi值,獲取pmi值非0的目標(biāo)詞語(yǔ);

查詢所述詞向量表,且計(jì)算所述目標(biāo)詞語(yǔ)的詞向量與情感詞語(yǔ)向量中值的cosin距離,若所述cosin距離小于預(yù)設(shè)閾值且極性與所述目標(biāo)詞語(yǔ)的pmi結(jié)果相一致,則將所述目標(biāo)詞語(yǔ)作為所述第一情感詞語(yǔ)加入對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典。

進(jìn)一步,所述步驟5具體為:對(duì)每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料進(jìn)行分詞處理生成分詞結(jié)果,使用分詞結(jié)果中每個(gè)詞語(yǔ)的tf-idf值作為特征值訓(xùn)練svm,使用所述種子情感詞典的情感詞語(yǔ)和所述初始訓(xùn)練語(yǔ)料對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典的情感詞語(yǔ)作為特征訓(xùn)練crf,使用全文本訓(xùn)練雙層lstm神經(jīng)網(wǎng)絡(luò),然后基于adaboost迭代算法進(jìn)行訓(xùn)練,并組合成每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的強(qiáng)分類器。

第二方面,本發(fā)明提供了一種基于情感詞典學(xué)習(xí)的文本情感分析系統(tǒng),包括預(yù)處理模塊、聚類模塊、第一生成模塊、第二生成模塊、訓(xùn)練模塊和分類模塊,

所述預(yù)處理模塊用于采集用于訓(xùn)練的初始文本數(shù)據(jù),并對(duì)所述初始文本數(shù)據(jù)進(jìn)行規(guī)范化處理,生成預(yù)處理文本數(shù)據(jù);

所述聚類模塊用于采取預(yù)設(shè)的聚類方法,將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域;

所述第一生成模塊用于將預(yù)設(shè)的基礎(chǔ)情感詞典作為種子情感詞典,并采用基于所述種子情感詞典的情感詞語(yǔ)發(fā)現(xiàn)方法,獲取所述預(yù)處理文本數(shù)據(jù)中的第一情感詞語(yǔ),根據(jù)所述第一情感詞語(yǔ)形成所述預(yù)處理文本數(shù)據(jù)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典;

所述第二生成模塊用于對(duì)所述專有情感詞典進(jìn)行篩選,從所述專有情感詞典的所述第一情感詞語(yǔ)中獲取符合預(yù)設(shè)判斷規(guī)則的第二情感詞語(yǔ),并在所述專有情感詞典對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的預(yù)處理文本數(shù)據(jù)中進(jìn)行檢索,獲取包括所述第二情感詞語(yǔ)的目標(biāo)文本數(shù)據(jù),將所述目標(biāo)文本數(shù)據(jù)作為對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料;

所述訓(xùn)練模塊用于針對(duì)不同預(yù)設(shè)領(lǐng)域,使用每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料訓(xùn)練出每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的分類器;

所述分類模塊用于獲取待分類文本,采用所有預(yù)設(shè)領(lǐng)域分別對(duì)應(yīng)的分類器對(duì)所述待分類文本進(jìn)行分類,生成所述待分類文本的情感分類結(jié)果并輸出顯示。

上述方案的有益技術(shù)效果在于:本發(fā)明的基于情感詞典學(xué)習(xí)的文本情感分析系統(tǒng)通過(guò)對(duì)情感分析分領(lǐng)域進(jìn)行處理,不斷自動(dòng)擴(kuò)充不同領(lǐng)域?qū)?yīng)的情感詞典,同時(shí)使用多分類器結(jié)合的方式對(duì)輸入文本進(jìn)行情感分析。與現(xiàn)有技術(shù)相比,本發(fā)明可以自動(dòng)建立每個(gè)領(lǐng)域的專有情感詞典,避免了全由人工建立的成本問(wèn)題;同時(shí)本發(fā)明建立了每個(gè)領(lǐng)域的專有情感詞典,并將所述專有情感詞典和基礎(chǔ)情感詞典組成聯(lián)合情感詞典,使情感詞更加準(zhǔn)確和全面;除此以外,本發(fā)明使用少量人工篩選的原始語(yǔ)料作為訓(xùn)練數(shù)據(jù),減少人力成本,使用多分類器對(duì)輸入文本進(jìn)行情感分析,防止過(guò)擬合,使分析結(jié)果更加準(zhǔn)確。

進(jìn)一步,還包括修正模塊,所述修正模塊用于分析所述待分類文本的情感分類結(jié)果是否正確,若不正確,則將所述待分類文本作為所述初始文本數(shù)據(jù),并驅(qū)動(dòng)所述預(yù)處理模塊、所述聚類模塊、所述第一生成模塊、所述第二生成模塊、所述訓(xùn)練模塊和所述分類模塊,根據(jù)所述待分類文本對(duì)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典和分類器進(jìn)行更新。

進(jìn)一步,所述預(yù)處理模塊具體用于對(duì)所述初始文本數(shù)據(jù)進(jìn)行去非文字符號(hào)處理和/或分隔符清理;所述聚類模塊具體用于采用elasticsearch檢索工具將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域。

進(jìn)一步,所述第一生成模塊包括:

第一計(jì)算單元,用于計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)的詞向量,形成詞向量表;

第二計(jì)算單元,用于計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)和所述種子情感詞典中情感詞語(yǔ)之間的pmi值,獲取pmi值非0的目標(biāo)詞語(yǔ);

判斷單元,用于查詢所述詞向量表,且計(jì)算所述目標(biāo)詞語(yǔ)的詞向量與情感詞語(yǔ)向量中值的cosin距離,若所述cosin距離小于預(yù)設(shè)閾值且極性與所述目標(biāo)詞語(yǔ)的pmi結(jié)果相一致,則將所述目標(biāo)詞語(yǔ)作為所述第一情感詞語(yǔ)加入對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典。

進(jìn)一步,所述訓(xùn)練模塊具體用于對(duì)每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料進(jìn)行分詞處理生成分詞結(jié)果,使用分詞結(jié)果中每個(gè)詞語(yǔ)的tf-idf值作為特征值訓(xùn)練svm,使用所述種子情感詞典的情感詞語(yǔ)和所述初始訓(xùn)練語(yǔ)料對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典的情感詞語(yǔ)作為特征訓(xùn)練crf,使用全文本訓(xùn)練雙層lstm神經(jīng)網(wǎng)絡(luò),并基于adaboost迭代算法進(jìn)行訓(xùn)練,組合成每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的強(qiáng)分類器。

本發(fā)明附加的方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明實(shí)踐了解到。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例1提供的一種基于情感詞典學(xué)習(xí)的文本情感分析方法的示意性流程圖;

圖2為本發(fā)明實(shí)施例2提供的一種基于情感詞典學(xué)習(xí)的文本情感分析系統(tǒng)的結(jié)構(gòu)性示意圖。

具體實(shí)施方式

以下描述中,為了說(shuō)明而不是為了限定,提出了諸如特定裝置結(jié)構(gòu)、接口、技術(shù)之類的具體細(xì)節(jié),以便透切理解本發(fā)明。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒(méi)有這些具體細(xì)節(jié)的其它實(shí)施例中也可以實(shí)現(xiàn)本發(fā)明。在其它情況中,省略對(duì)眾所周知的裝置、電路以及方法的詳細(xì)說(shuō)明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。

如圖1給出了本發(fā)明實(shí)施例1提供的一種基于情感詞典學(xué)習(xí)的文本情感分析方法的示意性流程圖。如圖1所示,方法的執(zhí)行主體可以是服務(wù)器,該方法包括以下步驟:

步驟1,采集用于訓(xùn)練的初始文本數(shù)據(jù),并對(duì)所述初始文本數(shù)據(jù)進(jìn)行規(guī)范化處理,生成預(yù)處理文本數(shù)據(jù);

步驟2,采取預(yù)設(shè)的聚類方法,將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域;

步驟3,將預(yù)設(shè)的基礎(chǔ)情感詞典作為種子情感詞典,并采用基于所述種子情感詞典的情感詞語(yǔ)發(fā)現(xiàn)方法,獲取所述預(yù)處理文本數(shù)據(jù)中的第一情感詞語(yǔ),根據(jù)所述第一情感詞語(yǔ)形成所述預(yù)處理文本數(shù)據(jù)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典;

步驟4,對(duì)所述專有情感詞典進(jìn)行篩選,從所述專有情感詞典的所述第一情感詞語(yǔ)中獲取符合預(yù)設(shè)判斷規(guī)則的第二情感詞語(yǔ),比如獲取情感傾向明顯且無(wú)歧義的詞語(yǔ)為第二情感詞語(yǔ),并在所述專有情感詞典對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的預(yù)處理文本數(shù)據(jù)中進(jìn)行檢索,獲取包括所述第二情感詞語(yǔ)的目標(biāo)文本數(shù)據(jù),將所述目標(biāo)文本數(shù)據(jù)作為對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料;

步驟5,針對(duì)不同預(yù)設(shè)領(lǐng)域,使用每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料訓(xùn)練出對(duì)應(yīng)領(lǐng)域的分類器;

步驟6,獲取待分類文本,采用所有預(yù)設(shè)領(lǐng)域分別對(duì)應(yīng)的分類器對(duì)所述待分類文本進(jìn)行分類,生成所述待分類文本的情感分類結(jié)果并輸出顯示。

本實(shí)施例的基于情感詞典學(xué)習(xí)的文本情感分析方法可以建立并不斷自動(dòng)擴(kuò)充不同領(lǐng)域?qū)?yīng)的專有情感詞典,不僅避免了全由人工建立產(chǎn)生的成本問(wèn)題,而且可以將所述專有情感詞典和基礎(chǔ)情感詞典組成聯(lián)合情感詞典,使情感詞更加準(zhǔn)確和全面;同時(shí)通過(guò)對(duì)情感分析分領(lǐng)域進(jìn)行處理,且使用多分類器結(jié)合的方式對(duì)輸入文本進(jìn)行情感分析,可以防止過(guò)擬合,使分析結(jié)果更加準(zhǔn)確。

以下對(duì)實(shí)施例1方法的每個(gè)步驟進(jìn)行詳細(xì)說(shuō)明。

一個(gè)優(yōu)選實(shí)施例的步驟1中,所述用于訓(xùn)練的初始文本數(shù)據(jù)可以是互聯(lián)網(wǎng)的公開(kāi)數(shù)據(jù),也可以是通過(guò)其他途徑采集到的其他數(shù)據(jù),比如雜志數(shù)據(jù)等等,通過(guò)對(duì)所述初始文本數(shù)據(jù)進(jìn)行去非文字符號(hào)、分隔符清理等處理,得到規(guī)范化的預(yù)處理文本數(shù)據(jù),從而方便后面步驟根據(jù)所述預(yù)處理文本數(shù)據(jù)形成專有情感詞典和分類詞。

另一個(gè)優(yōu)選實(shí)施例的步驟2中,可以采用elasticsearch檢索工具或者其他的檢索工具將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域。elasticsearch是一個(gè)實(shí)時(shí)的分布式搜索和分析引擎,它可以采用全文搜索分析和結(jié)構(gòu)化搜索分析對(duì)大規(guī)模數(shù)據(jù)進(jìn)行處理,而且處理數(shù)據(jù)的速度非??欤瑥亩梢钥焖俚膶⑺鲱A(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域,比如將所述預(yù)處理文本數(shù)據(jù)聚類到籃球、證券和禽流感等預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的體育、金融和疾病等預(yù)設(shè)領(lǐng)域。

在一個(gè)優(yōu)選實(shí)施例中,建立每個(gè)預(yù)設(shè)領(lǐng)域的專有情感詞典,即所述步驟3具體包括以下步驟:

s301,計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)的詞向量,形成詞向量表;

s302,計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)和所述種子情感詞典中情感詞語(yǔ)之間的pmi值,獲取pmi值非0的目標(biāo)詞語(yǔ);

s303,查詢所述詞向量表,且計(jì)算所述目標(biāo)詞語(yǔ)的詞向量與情感詞語(yǔ)向量中值的cosin距離,若所述cosin距離小于預(yù)設(shè)閾值且極性與所述目標(biāo)詞語(yǔ)的pmi結(jié)果相一致,則將所述目標(biāo)詞語(yǔ)作為所述第一情感詞語(yǔ)加入對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典。

上述優(yōu)選實(shí)施例中可以采用文本深度表示模型(如word2vec)將預(yù)處理文本數(shù)據(jù)中的單詞進(jìn)行表征獲得詞向量。word2vec是一個(gè)將單詞轉(zhuǎn)換成向量形式的工具,可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算。而pmi值,即point-wisemutualinformation的簡(jiǎn)稱,在統(tǒng)計(jì)中經(jīng)常被用來(lái)檢驗(yàn)兩個(gè)事物的相關(guān)程度,其公式為:|

其中,p(x)是x單獨(dú)出現(xiàn)的概率,而p(x,y)是x和y同時(shí)出現(xiàn)的概率。當(dāng)x和y獨(dú)立時(shí),pmi值為0,在本發(fā)明中即表示預(yù)處理文本數(shù)據(jù)的詞語(yǔ)和種子情感詞典的情感詞語(yǔ)完全不相關(guān);而x和y正相關(guān)性越高,pmi值也越大,因此通過(guò)計(jì)算pmi值,即可獲取到預(yù)處理文本數(shù)據(jù)中與種子情感詞典的情感詞語(yǔ)相關(guān)的目標(biāo)詞語(yǔ)。而兩個(gè)向量的cosin距離即這兩個(gè)向量之間的夾角,通過(guò)cosin距離即可判斷目標(biāo)詞語(yǔ)和種子情感詞典的情感詞語(yǔ)的相似度,當(dāng)相似度達(dá)到預(yù)設(shè)閾值且極性相同時(shí),則可以將所述目標(biāo)詞語(yǔ)作為所述第一情感詞語(yǔ)加入對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典,形成每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的專有情感詞典,從而對(duì)輸入的待分類文本按領(lǐng)域進(jìn)行分類,提高了文本分析的準(zhǔn)確性。

在另一優(yōu)選實(shí)施例中,所述步驟5具體為:對(duì)每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料進(jìn)行分詞處理生成分詞結(jié)果,使用分詞結(jié)果中每個(gè)詞語(yǔ)的tf-idf值作為特征值訓(xùn)練svm,使用所述種子情感詞典的情感詞語(yǔ)和所述初始訓(xùn)練語(yǔ)料對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典的情感詞語(yǔ)作為特征訓(xùn)練crf,使用全文本訓(xùn)練雙層lstm神經(jīng)網(wǎng)絡(luò),并基于adaboost迭代算法進(jìn)行訓(xùn)練,組合成每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的強(qiáng)分類器,從而根據(jù)用戶的輸入,將輸入文本歸為相應(yīng)類別,即得到由多分類器計(jì)算出的情感分析結(jié)果,比如積極、消極或者中性。上述優(yōu)選實(shí)施例可以快速訓(xùn)練出每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的分類器,從而通過(guò)多分類器對(duì)輸入的待分類文本按領(lǐng)域進(jìn)行分類,提高了情感分析的速度。

在其他優(yōu)選實(shí)施例中,還包括步驟7,具體為:分析所述待分類文本的情感分類結(jié)果是否正確,若不正確,則將所述待分類文本作為所述初始文本數(shù)據(jù),并重復(fù)步驟1~步驟5,根據(jù)所述待分類文本對(duì)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典和分類器進(jìn)行更新。上述優(yōu)選實(shí)施例可以將分類明顯錯(cuò)誤的數(shù)據(jù)加入訓(xùn)練語(yǔ)料,從而對(duì)該預(yù)設(shè)領(lǐng)域的專有情感詞典和分類器不斷修正,進(jìn)一步提高本發(fā)明文本情感分析方法的分類準(zhǔn)確性。

圖2為本發(fā)明實(shí)施例2提供的一種基于情感詞典學(xué)習(xí)的文本情感分析系統(tǒng)的結(jié)構(gòu)性示意圖,如圖2所示,包括預(yù)處理模塊、聚類模塊、第一生成模塊、第二生成模塊、訓(xùn)練模塊和分類模塊;

所述預(yù)處理模塊用于采集用于訓(xùn)練的初始文本數(shù)據(jù),并對(duì)所述初始文本數(shù)據(jù)進(jìn)行規(guī)范化處理,生成預(yù)處理文本數(shù)據(jù);

所述聚類模塊用于采取預(yù)設(shè)的聚類方法,將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域;

所述第一生成模塊用于將預(yù)設(shè)的基礎(chǔ)情感詞典作為種子情感詞典,并采用基于所述種子情感詞典的情感詞語(yǔ)發(fā)現(xiàn)方法,獲取所述預(yù)處理文本數(shù)據(jù)中的第一情感詞語(yǔ),根據(jù)所述第一情感詞語(yǔ)形成所述預(yù)處理文本數(shù)據(jù)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典;

所述第二生成模塊用于對(duì)所述專有情感詞典進(jìn)行篩選,從所述專有情感詞典的所述第一情感詞語(yǔ)中獲取符合預(yù)設(shè)判斷規(guī)則的第二情感詞語(yǔ),比如獲取情感傾向明顯且無(wú)歧義的詞語(yǔ)為第二情感詞語(yǔ),并在所述專有情感詞典對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的預(yù)處理文本數(shù)據(jù)中進(jìn)行檢索,獲取包括所述第二情感詞語(yǔ)的目標(biāo)文本數(shù)據(jù),將所述目標(biāo)文本數(shù)據(jù)作為對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料;

所述訓(xùn)練模塊用于針對(duì)不同預(yù)設(shè)領(lǐng)域,使用每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料訓(xùn)練出每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的分類器;

所述分類模塊用于獲取待分類文本,采用所有預(yù)設(shè)領(lǐng)域分別對(duì)應(yīng)的分類器對(duì)所述待分類文本進(jìn)行分類,生成所述待分類文本的情感分類結(jié)果并輸出顯示。

上述實(shí)施例的基于情感詞典學(xué)習(xí)的文本情感分析系統(tǒng)可以建立并不斷自動(dòng)擴(kuò)充不同領(lǐng)域?qū)?yīng)的專有情感詞典,不僅避免了全由人工建立產(chǎn)生的成本問(wèn)題,而且可以將所述專有情感詞典和基礎(chǔ)情感詞典組成聯(lián)合情感詞典,使情感詞更加準(zhǔn)確和全面;同時(shí)通過(guò)對(duì)情感分析分領(lǐng)域進(jìn)行處理,且使用多分類器結(jié)合的方式對(duì)輸入文本進(jìn)行情感分析,可以防止過(guò)擬合,使分析結(jié)果更加準(zhǔn)確。

優(yōu)選實(shí)施例中,上述基于情感詞典學(xué)習(xí)的文本情感分析系統(tǒng)還包括修正模塊,所述修正模塊用于分析所述待分類文本的情感分類結(jié)果是否正確,若不正確,則將所述待分類文本作為所述初始文本數(shù)據(jù),并驅(qū)動(dòng)所述預(yù)處理模塊、所述聚類模塊、所述第一生成模塊、所述第二生成模塊、所述訓(xùn)練模塊和所述分類模塊,根據(jù)所述待分類文本對(duì)對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典和分類器進(jìn)行更新。上述優(yōu)選實(shí)施例可以將分類明顯錯(cuò)誤的數(shù)據(jù)加入訓(xùn)練語(yǔ)料,從而對(duì)該預(yù)設(shè)領(lǐng)域的專有情感詞典和分類器不斷修正,進(jìn)一步提高本發(fā)明文本情感分析方法的分類準(zhǔn)確性。

在另一優(yōu)選實(shí)施例中,所述預(yù)處理模塊具體用于對(duì)所述初始文本數(shù)據(jù)進(jìn)行去非文字符號(hào)處理和/或分隔符清理;所述聚類模塊具體用于采用elasticsearch檢索工具將所述預(yù)處理文本數(shù)據(jù)聚類到預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的預(yù)設(shè)領(lǐng)域。

在另一優(yōu)選實(shí)施例中,所述第一生成模塊包括:

第一計(jì)算單元,用于計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)的詞向量,形成詞向量表;

第二計(jì)算單元,用于計(jì)算所述預(yù)處理文本數(shù)據(jù)中每個(gè)詞語(yǔ)和所述種子情感詞典中情感詞語(yǔ)之間的pmi值,獲取pmi值非0的目標(biāo)詞語(yǔ);

判斷單元,用于查詢所述詞向量表,且計(jì)算所述目標(biāo)詞語(yǔ)的詞向量與情感詞語(yǔ)向量中值的cosin距離,若所述cosin距離小于預(yù)設(shè)閾值且極性與所述目標(biāo)詞語(yǔ)的pmi結(jié)果相一致,則將所述目標(biāo)詞語(yǔ)作為所述第一情感詞語(yǔ)加入對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典。

在另一優(yōu)選實(shí)施例中,所述訓(xùn)練模塊具體用于對(duì)每個(gè)預(yù)設(shè)領(lǐng)域的初始訓(xùn)練語(yǔ)料進(jìn)行分詞處理生成分詞結(jié)果,使用分詞結(jié)果中每個(gè)詞語(yǔ)的tf-idf值作為特征值訓(xùn)練svm,使用所述種子情感詞典的情感詞語(yǔ)和所述初始訓(xùn)練語(yǔ)料對(duì)應(yīng)預(yù)設(shè)領(lǐng)域的專有情感詞典的情感詞語(yǔ)作為特征訓(xùn)練crf,使用全文本訓(xùn)練雙層lstm神經(jīng)網(wǎng)絡(luò),并基于adaboost迭代算法進(jìn)行訓(xùn)練,組合成每個(gè)預(yù)設(shè)領(lǐng)域?qū)?yīng)的強(qiáng)分類器。

讀者應(yīng)理解,在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不必針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說(shuō)明書(shū)中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,上述描述的裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。

在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。

作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以是兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。

集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分,或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
锡林郭勒盟| 巴青县| 衢州市| 金平| 马鞍山市| 新郑市| 长沙县| 辽源市| 壶关县| 商城县| 长治县| 克什克腾旗| 柏乡县| 涡阳县| 视频| 上虞市| 互助| 井冈山市| 义马市| 泰兴市| 乐亭县| 铁岭县| 惠安县| 壶关县| 清远市| 太原市| 梁平县| 黄石市| 乌苏市| 广水市| 泸水县| 广西| 安福县| 视频| 镇坪县| 盐城市| 邵阳县| 曲水县| 永善县| 南充市| 西林县|