語(yǔ)義情感分類特征值提取方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種語(yǔ)義情感分類特征值提取方法,包括:通過爬取互聯(lián)網(wǎng)用戶的評(píng)價(jià)信息獲取分類語(yǔ)料庫(kù),其中,分類語(yǔ)料庫(kù)包括自然語(yǔ)言描述文本和類別信息,根據(jù)中文分詞算法將自然語(yǔ)言描述文本的段落句子拆分為詞語(yǔ);根據(jù)分類語(yǔ)料庫(kù)的類別信息,計(jì)算詞語(yǔ)與類別信息之間的類別PMI互信息;根據(jù)類別PMI互信息與類別信息之間的線性相關(guān)的特性獲得PMI斜率值,根據(jù)PMI斜率值判斷詞語(yǔ)的情感詞性;根據(jù)預(yù)設(shè)的PMI斜率值的閾值,提取具有情感傾向的詞語(yǔ)作為自然語(yǔ)言描述的語(yǔ)義情感分類特征值。利用本發(fā)明能夠解決獲取特征值計(jì)算復(fù)雜度高和語(yǔ)義情感分析的準(zhǔn)確度不穩(wěn)定的問題。
【專利說明】語(yǔ)義情感分類特征值提取方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及人工智能及識(shí)別【技術(shù)領(lǐng)域】,更為具體地,涉及一種語(yǔ)義情感分類特征值提取方法及系統(tǒng)。
【背景技術(shù)】
[0002]大數(shù)據(jù)是目前一個(gè)非常熱門的討論話題,從互聯(lián)網(wǎng)的機(jī)器實(shí)時(shí)采集的監(jiān)測(cè)數(shù)據(jù),到互聯(lián)網(wǎng)上用戶產(chǎn)生的海量的內(nèi)容數(shù)據(jù),都是大數(shù)據(jù)覆蓋的內(nèi)容。
[0003]大數(shù)據(jù)最核心的價(jià)值是:利用數(shù)學(xué)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù),從大數(shù)據(jù)中挖掘出有價(jià)值的信息知識(shí),從而能夠?qū)κ挛镞M(jìn)行預(yù)測(cè)。由于web2.0的迅猛發(fā)展,用戶在互聯(lián)網(wǎng)上產(chǎn)生大量的內(nèi)容文本信息,例如互聯(lián)網(wǎng)上的社會(huì)化媒體(社交網(wǎng)站、社區(qū)等)數(shù)據(jù)(評(píng)論、社交關(guān)系、地理位置等信息)。對(duì)文本信息進(jìn)行分析挖掘都離不開自然語(yǔ)言處理技術(shù),而其中文本分類問題是最為常見也是應(yīng)用范圍最廣的,從垃圾郵件自動(dòng)識(shí)別到當(dāng)下熱門的語(yǔ)義情分分析,都離不開文本分類算法。
[0004]文本分類主流的方法之一是采用機(jī)器學(xué)習(xí)技術(shù)(例如樸素貝葉斯,支持向量機(jī)等)對(duì)訓(xùn)練樣本進(jìn)行特征信息提取學(xué)習(xí),而在這里特征值的選取尤為重要,特征值選取好壞會(huì)直接影響機(jī)器學(xué)習(xí)方法最后的準(zhǔn)確率。
[0005]對(duì)于特征值的提取,目前主要有兩種方法。例如在情感分析中,主要采用基于字典以及利用互信息迭代自動(dòng)獲取特征值兩種方法,基于字典的方法需要大量人工整理出跟情感表達(dá)相關(guān)的詞語(yǔ),這種方法在應(yīng)用互聯(lián)網(wǎng)領(lǐng)域有很大的局限性,因?yàn)榛ヂ?lián)網(wǎng)領(lǐng)域的新詞更新很快,人工很難及時(shí)更新詞典。對(duì)于采用互信息迭代計(jì)算的方法,一般是人工選取一定的種子詞語(yǔ)(數(shù)量大概為10個(gè)左右),然后計(jì)算樣本集中詞語(yǔ)跟種子詞語(yǔ)的互信息,并選取互信息較高的新詞更新到種子詞語(yǔ)集中,并反復(fù)迭代,直到種子詞語(yǔ)集包含的詞語(yǔ)數(shù)量較為穩(wěn)定。
[0006]圖1示出了現(xiàn)有獲取情感詞語(yǔ)的方法流程。如圖1所示,獲取情感詞語(yǔ)的具體流程包括:人工選取種子詞語(yǔ),通過獲取語(yǔ)料庫(kù)中的評(píng)價(jià)信息進(jìn)行中文分詞,然后計(jì)算中文分詞后獲取的詞語(yǔ)跟人工選取的種子詞語(yǔ)的互信息;選取互信息較高的新詞更新到種子詞庫(kù)中,并反復(fù)迭代,直到種子詞庫(kù)中包含的詞語(yǔ)數(shù)量較為穩(wěn)定為止。
[0007]上述方法雖然做到了自動(dòng)獲取情感詞語(yǔ),但是卻存在以下幾點(diǎn)問題:
[0008]I)由于需要多次迭代以及大量的比較計(jì)算(隨著種子詞庫(kù)的增加計(jì)算成倍增加)的方式,對(duì)于處理海量的互聯(lián)網(wǎng)數(shù)據(jù)效率很低。
[0009]2)在不同應(yīng)用場(chǎng)景下,詞語(yǔ)的詞性會(huì)有不同的詮釋,而種子詞選取上往往依賴于個(gè)人經(jīng)驗(yàn),種子詞語(yǔ)的質(zhì)量對(duì)后續(xù)的迭代計(jì)算會(huì)產(chǎn)生巨大的影響,直接影響最終特征值選取的好壞。
[0010]3)通過PMI (Pointwise Mutual Information,之前的互信息)互信息來擴(kuò)展種子詞的方法,離不開閾值的確定,一般迭代計(jì)算方法都是采用統(tǒng)一的經(jīng)驗(yàn)閾值來確定,但是由于多次迭代過程中,種子詞庫(kù)數(shù)量的增加,都會(huì)影響PMI值的閾值變化,造成每次迭代選取出的特征值質(zhì)量不一致。
0011]因此,亟需一種能夠降低計(jì)算復(fù)雜度、提高語(yǔ)義情感分析準(zhǔn)確度的情感詞語(yǔ)獲取技木。
【發(fā)明內(nèi)容】
[0012]鑒于上述問題,本發(fā)明的目的是提供一種語(yǔ)義情感分類特征值提取方法及系統(tǒng),以解決獲取特征值計(jì)算復(fù)雜度高和語(yǔ)義情感分析的準(zhǔn)確度不穩(wěn)定的問題。[0013]本發(fā)明提供一種語(yǔ)義情感分類特征值提取方法,包括:[0014]通過爬取互聯(lián)網(wǎng)用戶的評(píng)價(jià)信息獲取分類語(yǔ)料庫(kù),其中,分類語(yǔ)料庫(kù)包括自然語(yǔ)言描述文本和類別信息,[0015]根據(jù)中文分詞算法將自然語(yǔ)言描述文本的段落句子拆分為詞語(yǔ);[0016]根據(jù)分類語(yǔ)料庫(kù)的類別信息,計(jì)算詞語(yǔ)與類別信息之間的類別PMI互信息;[0017]根據(jù)類別PMI互信息與類別信息之間的線性相關(guān)的特性獲得PMI斜率值,并根據(jù)PMI斜率值判斷詞語(yǔ)的情感詞性;[0018]根據(jù)預(yù)設(shè)的PMI斜率值的閾值提取具有情感傾向的詞語(yǔ)作為自然語(yǔ)言描述文本的語(yǔ)義情感分類特征值。[0019]此外,優(yōu)選的方案是,中文分詞中采用的算法包括:最大匹配法、最大均詞長(zhǎng)法和最小方差法。[0020]此外,優(yōu)選的方案是,類別PMI互信息計(jì)算公式為:[0021]
【權(quán)利要求】
1.一種語(yǔ)義情感分類特征值提取方法,包括: 通過爬取互聯(lián)網(wǎng)用戶的評(píng)價(jià)信息獲取分類語(yǔ)料庫(kù),其中,所述分類語(yǔ)料庫(kù)包括自然語(yǔ)言描述文本和類別信息, 根據(jù)中文分詞算法將所述自然語(yǔ)言描述文本的段落句子拆分為詞語(yǔ); 根據(jù)所述分類語(yǔ)料庫(kù)的類別信息,計(jì)算所述詞語(yǔ)與所述類別信息之間的類別PMI互信息; 根據(jù)所述類別PMI互信息與所述類別信息之間的線性相關(guān)的特性獲得PMI斜率值,并根據(jù)所述PMI斜率值判斷所述詞語(yǔ)的情感詞性; 根據(jù)預(yù)設(shè)的PMI斜率值的閾值提取具有情感傾向的詞語(yǔ)作為所述自然語(yǔ)言描述文本的語(yǔ)義情感分類特征值。
2.如權(quán)利要求1所述的語(yǔ)義情感分類特征值提取方法,其中,所述中文分詞算法包括:最大匹配法、最大均詞長(zhǎng)法和最小方差法。
3.如權(quán)利要求1所述的語(yǔ)義情感分類特征值提取方法,其中, 所述類別PMI互信息計(jì)算公式為:
4.如權(quán)利要求1所述的語(yǔ)義情感分類特征值提取方法,其中, 所述類別PMI互信息與所述類別信息之間通過線性擬合方法獲得PMI斜率值,擬合的方法計(jì)算出線性函數(shù)y=ax+b中的變量a和b, 其中,變量a為PMI斜率值,變量a和b可以通過以下公式獲得:
5.一種語(yǔ)義情感分類特征值提取系統(tǒng),包括: 分類語(yǔ)料庫(kù)獲取單元,用于通過爬取互聯(lián)網(wǎng)用戶的評(píng)價(jià)信息獲取分類語(yǔ)料庫(kù),其中,所述分類語(yǔ)料庫(kù)包括自然語(yǔ)言描述文本和類別信息, 中文分詞單元,用于根據(jù)中文分詞算法將所述自然語(yǔ)言描述文本的段落句子拆分為詞語(yǔ); 類別PMI互信息計(jì)算單元,用于根據(jù)所述分類語(yǔ)料庫(kù)的類別信息,計(jì)算所述詞語(yǔ)與所述類別信息之間的類別PMI互信息; PMI斜率值獲取單元,用于根據(jù)所述類別PMI互信息與所述類別信息之間的線性相關(guān)的特性獲取PMI斜率值,并根據(jù)所述PMI斜率值判斷所述詞語(yǔ)的情感詞性; 特征值選取單元,用于根據(jù)預(yù)設(shè)的PMI斜率值的閾值提取具有情感傾向的詞語(yǔ)作為所述自然語(yǔ)言描述文本的語(yǔ)義情感分類特征值。
6.如權(quán)利要求5所述的語(yǔ)義情感分類特征值提取系統(tǒng),其中,在所述中文分詞單元中,所述中文分詞算法包括:最大匹配法、最大均詞長(zhǎng)法和最方差法。
7.如權(quán)利要求5所述的語(yǔ)義情感分類特征值提取系統(tǒng),其中,在所述類別PMI互信息獲取単元中,所述類別PMI互信息計(jì)算公式為:
8.如權(quán)利要求5所述的語(yǔ)義情感分類特征值提取系統(tǒng),其中, 在PMI斜率值獲取單元中,所述類別PMI互信息與所述類別信息之間通過線性擬合方法獲得PMI斜率值,擬合的方法計(jì)算出線性函數(shù)y=ax+b中的變量a和b, 其中,變量a為PMI斜率值,變量a和b可以通過以下公式獲得:
【文檔編號(hào)】G06F17/27GK103559174SQ201310459413
【公開日】2014年2月5日 申請(qǐng)日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】鄒存璐, 劉長(zhǎng)虹, 王菊, 孟令勝 申請(qǐng)人:東軟集團(tuán)股份有限公司