基于主題特征的半監(jiān)督學習情感分類方法
【專利摘要】一種基于主題特征的半監(jiān)督學習情感分類方法,包括:將數據文本進行預處理、文本分詞及詞性標注;進行特征選擇,抽取文本的傳統(tǒng)特征,還利用LDA建模技術抽取文本的主題特征;在保留半監(jiān)督學習框架下,將得到的文本的傳統(tǒng)特征和文本的主題特征作為數據集,分別用SVM算法和最大熵算法進行分類訓練。本發(fā)明可以實現更精確的情感特征分類。為電子商務和社交網絡的文本情感分類技術提供了一種新的思路。用戶能更有效的尋找適合自己的服務。
【專利說明】
基于主題特征的半監(jiān)督學習情感分類方法
技術領域
[0001] 本發(fā)明涉及一種短文本情感分類技術、文本主題建模技術和半監(jiān)督學習技術。特 別是涉及一種基于主題特征的半監(jiān)督學習情感分類方法。
【背景技術】
[0002] 文本情感分析技術包括:基于情感詞典的文本情感分析、基于機器學習的文本情 感分析?;谇楦性~典的文本情感分析方法是采用現有的情感詞典,通過對詞語與詞語之 間的關系進行研究得到用戶的情感信息?;跈C器學習的文本情感分析方法一般為收集數 據,然后分割出部分數據集作為訓練集,并人工標記訓練集,使用人工標記的訓練集來訓練 構造分類器,使用未經標記的數據來檢測分類器準確度。基于機器學習的文本情感分析方 法十分依賴訓練集,如果訓練集的規(guī)模并未超過一定閾值,訓練得到的分類器的準確性將 會受到影響,同時其應用的領域也受到限制。即便如此,基于機器學習的文本情感分析方法 的應用效果還是比較好,因此有許多研究人員深入探索。機器學習中的文本分類方法有多 種,如決策樹算法、貝葉斯算法、支持向量機和最大熵算法等。
[0003] 特征提取是指從收集到的數據集中將有用的信息提取出來,并轉換成獨立的單詞 或者詞組,為進一步分析處理數據打下基礎。特征提取通常包括情感表達者識別、評價對象 識別、情感觀點詞識別等任務。
[0004] 主題模型主要有兩種模型,一種是pLSA和LDA1SA是處理這類問題的著名技術。其 主要思想就是映射高維向量到潛在語義空間,使其降維。LSA的目標就是要尋找到能夠很好 解決實體間詞法和語義關系的數據映射。正是由于這些特性,使得LSA成為相當有價值并被 廣泛應用的分析工具。PLSA是以統(tǒng)計學的角度來看待LSA,相比于標準的LSA,他的概率學變 種有著更巨大的影響。
[0005] LDA(Latent Dirichlet Allocation)是用于識別大規(guī)模文檔集中所隱含的主題 信息的主題模型。LDA算法與其它主題模型相比,認為每個不同主題中的詞語服從概率分 布,每個文檔中的不同主題也服從概率分布,因此每篇不同的文檔所屬的主題不止一個,是 屬于多個主題的。
[0006] 傳統(tǒng)的情感分析分類算法只考慮了文本的傳統(tǒng)特征(詞匯特征,句法特征等),未 從文本主題的角度把握文本的總體含義,本發(fā)明通過對文本進行主題建模,將主題特征和 傳統(tǒng)特征相結合,在半監(jiān)督學習框架下,使用分類算法進行情感分類,相較于傳統(tǒng)的情感分 類算法,提高了情感分類的準確度。
【發(fā)明內容】
[0007] 本發(fā)明所要解決的技術問題是,提供一種能夠解決傳統(tǒng)無文本主題特征情感分類 算法準確率的問題,從而可以實現更精確的情感特征分類的基于主題特征的半監(jiān)督學習情 感分類方法。
[0008] 本發(fā)明所采用的技術方案是:一種基于主題特征的半監(jiān)督學習情感分類方法,包 括如下步驟:
[0009] 1)將數據文本進行預處理、文本分詞及詞性標注;
[0010] 2)進行特征選擇,抽取文本的傳統(tǒng)特征,還利用LDA建模技術抽取文本的主題特 征。
[0011] 3)在保留半監(jiān)督學習框架下,將得到的文本的傳統(tǒng)特征和文本的主題特征作為數 據集,分別用SVM算法和最大熵算法進行分類訓練。
[0012] 步驟1)所述的進行預處理,是對文本中非文本信息進行精簡,去除數據中的無用 fg息。
[0013] 步驟1)所述的文本分詞,是采用單詞生成模型進行的,具體如下: 「00141 .疋 = arg max /)(fF i q") L J W. Seq
[0015] 其中W Seq= 〇im=[ 0i, 02, ? ? ? ?m]表不含有m個詞語〇的一組序列,表不含有 n個字的句子,P表不概率。
[0016] 步驟1)所述的詞性標注,是對文本中每個詞確定一個最為合適的詞性。
[0017] 步驟3)包括如下步驟:
[0018] (1)使用保留半監(jiān)督學習算法進行迭代,具體是將數據集劃分為訓練集和測試集, 使用SVM算法和最大熵算法對訓練集進行分類訓練,得到分類模型;
[0019] (2)使用分類模型對測試集進行分類預測,將結果中置信度小于或等于設定值0.3 的數據重新加入到訓練集中;
[0020] (3)重復執(zhí)行步驟S0501和步驟S0502,直到達到了預定的迭代次數,分類完成。
[0021] 本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方法,基于主題特征的情感分類方 法,通過考慮中文短文本主題特征,從主題的角度把握文本的總體含義,結合其它文本特 征,在半監(jiān)督學習框架下應用分類算法,解決了傳統(tǒng)無文本主題特征情感分類算法的準確 率問題,從而可以實現更精確的情感特征分類。本發(fā)明相較于傳統(tǒng)的情感分類算法,特別考 慮了主題特征這一因素,從而對傳統(tǒng)的情感分類算法進行了改進,最終的實驗結果表明,本 發(fā)明相較于傳統(tǒng)的情感分類算法更準確。本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方 法,為電子商務和社交網絡的文本情感分類技術提供了一種新的思路。為社交網絡及中文 本的情感分類提出并定義一種基于主題特征的半監(jiān)督學習情感分類的計算方法,商品決策 者通過用戶對產品的情感分析有針對性的提高服務水平、用戶能更有效的尋找適合自己的 服務。
【附圖說明】
[0022] 圖1是本發(fā)明基于主題特征的半監(jiān)督學習情感分類方法的流程圖;
[0023] 圖2是不同分類算法的F值實驗對比結果。
【具體實施方式】
[0024] 下面結合實施例和附圖對本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方法做 出詳細說明。
[0025]如圖1所示,本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方法,包括如下步驟:
[0026] 1)將文本數據進行預處理、文本數據分詞及詞性標注;其中,
[0027] (1)對于原始的文本數據,不能直接使用,需要進行預處理,先對原始文本數據中 非文本信息進行精簡,去除數據中的無用信息,然后才能進行分詞和詞性分析。
[0028] (2)文本情感分析過程中,首先要進行文本數據的分詞處理,所述的文本數據分 詞,可以采用單詞生成模型進行的,具體如下:
[0029] W = arS max P(H/ Scci I c'\ )
[0030] 其中W Seq三表示含有m個詞語《的一組序列,c;1表示含有 n個字的句子,P表不概率。
[0031] (3)所述的詞性標注,是對文本中每個詞確定一個最為合適的詞性。
[0032] 2)進行特征選擇,抽取文本數據的傳統(tǒng)特征,還利用LDA建模技術抽取文本數據的 主題特征,即對步驟1)抽取的文本數據的傳統(tǒng)特征,進行最大似然估計,利用LDA建模技術 抽取文本數據的主題特征。
[0033] 3)在保留半監(jiān)督學習框架下,將得到的文本數據的傳統(tǒng)特征和文本數據的主題特 征作為數據集,分別用SVM算法和最大熵算法進行分類訓練。包括如下步驟:
[0034] (1)使用保留半監(jiān)督學習算法進行迭代,具體是將所述的數據集劃分為訓練集和 測試集,使用SVM算法和最大熵算法對訓練集進行分類訓練,得到分類模型;
[0035] (2)使用分類模型對測試集進行分類預測,將結果中置信度小于或等于設定值0.3 的數據重新加入到訓練集中;
[0036] (3)重復執(zhí)行步驟(1)和步驟(2),直到達到了預定的迭代次數,分類完成。
[0037] 如圖2所示,TF-RSA為本發(fā)明的方法,Reserved Self-training為傳統(tǒng)的方法,無 論是采用SVM分類算法還是MaxEnt分類算法,本發(fā)明的方法得到的分類準確度均高于 Reserved Self-training傳統(tǒng)的方法得到的分類準確度。據此可以看到本發(fā)明的優(yōu)點。
【主權項】
1. 一種基于主題特征的半監(jiān)督學習情感分類方法,其特征在于,包括如下步驟: 1) 將數據文本進行預處理、文本分詞及詞性標注; 2) 進行特征選擇,抽取文本的傳統(tǒng)特征,還利用LDA建模技術抽取文本的主題特征; 3) 在保留半監(jiān)督學習框架下,將得到的文本的傳統(tǒng)特征和文本的主題特征作為數據 集,分別用SVM算法和最大賭算法進行分類訓練。2. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法,其特征在于,步驟 1)所述的進行預處理,是對文本中非文本信息進行精簡,去除數據中的無用信息。3. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法,其特征在于,步驟 1 )所述的文本分詞,是采用-# A 昔開U;化'片曰知-其中W Seq三CO /二[W 1,U 2,... COm]表示含有m個詞語CO的一組序列,詩表示含有n個 字的句子,P表示概率。4. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法,其特征在于,步驟 1)所述的詞性標注,是對文本中每個詞確定一個最為合適的詞性。5. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法,其特征在于,步驟 3)包括如下步驟: (1) 使用保留半監(jiān)督學習算法進行迭代,具體是將數據集劃分為訓練集和測試集,使用 SVM算法和最大賭算法對訓練集進行分類訓練,得到分類模型; (2) 使用分類模型對測試集進行分類預測,將結果中置信度小于或等于設定值0.3的數 據重新加入到訓練集中; (3) 重復執(zhí)行步驟S0501和步驟S0502,直到達到了預定的迭代次數,分類完成。
【文檔編號】G06F17/27GK105912525SQ201610226711
【公開日】2016年8月31日
【申請日】2016年4月11日
【發(fā)明人】喻梅, 趙永偉, 高潔, 于健, 王建榮, 呂方
【申請人】天津大學