基于主題特征的半監(jiān)督學習情感分類方法

文檔序號：10552885閱讀：479來源：國知局

基于主題特征的半監(jiān)督學習情感分類方法
【專利摘要】一種基于主題特征的半監(jiān)督學習情感分類方法，包括：將數據文本進行預處理、文本分詞及詞性標注；進行特征選擇，抽取文本的傳統(tǒng)特征，還利用LDA建模技術抽取文本的主題特征；在保留半監(jiān)督學習框架下，將得到的文本的傳統(tǒng)特征和文本的主題特征作為數據集，分別用SVM算法和最大熵算法進行分類訓練。本發(fā)明可以實現更精確的情感特征分類。為電子商務和社交網絡的文本情感分類技術提供了一種新的思路。用戶能更有效的尋找適合自己的服務。
【專利說明】
基于主題特征的半監(jiān)督學習情感分類方法
技術領域
[0001] 本發(fā)明涉及一種短文本情感分類技術、文本主題建模技術和半監(jiān)督學習技術。特別是涉及一種基于主題特征的半監(jiān)督學習情感分類方法。
【背景技術】
[0002] 文本情感分析技術包括:基于情感詞典的文本情感分析、基于機器學習的文本情感分析?；谇楦性~典的文本情感分析方法是采用現有的情感詞典，通過對詞語與詞語之間的關系進行研究得到用戶的情感信息?；跈C器學習的文本情感分析方法一般為收集數據，然后分割出部分數據集作為訓練集，并人工標記訓練集，使用人工標記的訓練集來訓練構造分類器，使用未經標記的數據來檢測分類器準確度。基于機器學習的文本情感分析方法十分依賴訓練集，如果訓練集的規(guī)模并未超過一定閾值，訓練得到的分類器的準確性將會受到影響，同時其應用的領域也受到限制。即便如此，基于機器學習的文本情感分析方法的應用效果還是比較好，因此有許多研究人員深入探索。機器學習中的文本分類方法有多種，如決策樹算法、貝葉斯算法、支持向量機和最大熵算法等。
[0003] 特征提取是指從收集到的數據集中將有用的信息提取出來，并轉換成獨立的單詞或者詞組，為進一步分析處理數據打下基礎。特征提取通常包括情感表達者識別、評價對象識別、情感觀點詞識別等任務。
[0004] 主題模型主要有兩種模型，一種是pLSA和LDA1SA是處理這類問題的著名技術。其主要思想就是映射高維向量到潛在語義空間，使其降維。LSA的目標就是要尋找到能夠很好解決實體間詞法和語義關系的數據映射。正是由于這些特性，使得LSA成為相當有價值并被廣泛應用的分析工具。PLSA是以統(tǒng)計學的角度來看待LSA，相比于標準的LSA，他的概率學變種有著更巨大的影響。
[0005] LDA(Latent Dirichlet Allocation)是用于識別大規(guī)模文檔集中所隱含的主題信息的主題模型。LDA算法與其它主題模型相比，認為每個不同主題中的詞語服從概率分布，每個文檔中的不同主題也服從概率分布，因此每篇不同的文檔所屬的主題不止一個，是屬于多個主題的。
[0006] 傳統(tǒng)的情感分析分類算法只考慮了文本的傳統(tǒng)特征（詞匯特征，句法特征等），未從文本主題的角度把握文本的總體含義，本發(fā)明通過對文本進行主題建模，將主題特征和傳統(tǒng)特征相結合，在半監(jiān)督學習框架下，使用分類算法進行情感分類，相較于傳統(tǒng)的情感分類算法，提高了情感分類的準確度。

【發(fā)明內容】

[0007] 本發(fā)明所要解決的技術問題是，提供一種能夠解決傳統(tǒng)無文本主題特征情感分類算法準確率的問題，從而可以實現更精確的情感特征分類的基于主題特征的半監(jiān)督學習情感分類方法。
[0008] 本發(fā)明所采用的技術方案是：一種基于主題特征的半監(jiān)督學習情感分類方法，包括如下步驟：
[0009] 1)將數據文本進行預處理、文本分詞及詞性標注；
[0010] 2)進行特征選擇，抽取文本的傳統(tǒng)特征，還利用LDA建模技術抽取文本的主題特征。
[0011] 3)在保留半監(jiān)督學習框架下，將得到的文本的傳統(tǒng)特征和文本的主題特征作為數據集，分別用SVM算法和最大熵算法進行分類訓練。
[0012] 步驟1)所述的進行預處理，是對文本中非文本信息進行精簡，去除數據中的無用 fg息。
[0013] 步驟1)所述的文本分詞，是采用單詞生成模型進行的，具體如下：「00141 .疋 = arg max /)(fF i q") L J W. Seq
[0015] 其中W Seq= 〇im=[ 0i, 02, ? ? ? ?m]表不含有m個詞語〇的一組序列，表不含有 n個字的句子，P表不概率。
[0016] 步驟1)所述的詞性標注，是對文本中每個詞確定一個最為合適的詞性。
[0017] 步驟3)包括如下步驟：
[0018] (1)使用保留半監(jiān)督學習算法進行迭代，具體是將數據集劃分為訓練集和測試集，使用SVM算法和最大熵算法對訓練集進行分類訓練，得到分類模型；
[0019] (2)使用分類模型對測試集進行分類預測，將結果中置信度小于或等于設定值0.3 的數據重新加入到訓練集中；
[0020] (3)重復執(zhí)行步驟S0501和步驟S0502,直到達到了預定的迭代次數，分類完成。
[0021] 本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方法，基于主題特征的情感分類方法，通過考慮中文短文本主題特征，從主題的角度把握文本的總體含義，結合其它文本特征，在半監(jiān)督學習框架下應用分類算法，解決了傳統(tǒng)無文本主題特征情感分類算法的準確率問題，從而可以實現更精確的情感特征分類。本發(fā)明相較于傳統(tǒng)的情感分類算法，特別考慮了主題特征這一因素，從而對傳統(tǒng)的情感分類算法進行了改進，最終的實驗結果表明，本發(fā)明相較于傳統(tǒng)的情感分類算法更準確。本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方法，為電子商務和社交網絡的文本情感分類技術提供了一種新的思路。為社交網絡及中文本的情感分類提出并定義一種基于主題特征的半監(jiān)督學習情感分類的計算方法，商品決策者通過用戶對產品的情感分析有針對性的提高服務水平、用戶能更有效的尋找適合自己的服務。
【附圖說明】
[0022] 圖1是本發(fā)明基于主題特征的半監(jiān)督學習情感分類方法的流程圖；
[0023] 圖2是不同分類算法的F值實驗對比結果。
【具體實施方式】
[0024] 下面結合實施例和附圖對本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方法做出詳細說明。
[0025]如圖1所示，本發(fā)明的基于主題特征的半監(jiān)督學習情感分類方法，包括如下步驟：
[0026] 1)將文本數據進行預處理、文本數據分詞及詞性標注;其中，
[0027] (1)對于原始的文本數據，不能直接使用，需要進行預處理，先對原始文本數據中非文本信息進行精簡，去除數據中的無用信息，然后才能進行分詞和詞性分析。
[0028] (2)文本情感分析過程中，首先要進行文本數據的分詞處理，所述的文本數據分詞，可以采用單詞生成模型進行的，具體如下：
[0029] W = arS max P(H/ Scci I c'\ )
[0030] 其中W Seq三表示含有m個詞語《的一組序列，c;1表示含有 n個字的句子，P表不概率。
[0031] (3)所述的詞性標注，是對文本中每個詞確定一個最為合適的詞性。
[0032] 2)進行特征選擇，抽取文本數據的傳統(tǒng)特征，還利用LDA建模技術抽取文本數據的主題特征，即對步驟1)抽取的文本數據的傳統(tǒng)特征，進行最大似然估計，利用LDA建模技術抽取文本數據的主題特征。
[0033] 3)在保留半監(jiān)督學習框架下，將得到的文本數據的傳統(tǒng)特征和文本數據的主題特征作為數據集，分別用SVM算法和最大熵算法進行分類訓練。包括如下步驟：
[0034] (1)使用保留半監(jiān)督學習算法進行迭代，具體是將所述的數據集劃分為訓練集和測試集，使用SVM算法和最大熵算法對訓練集進行分類訓練，得到分類模型；
[0035] (2)使用分類模型對測試集進行分類預測，將結果中置信度小于或等于設定值0.3 的數據重新加入到訓練集中；
[0036] (3)重復執(zhí)行步驟(1)和步驟(2)，直到達到了預定的迭代次數，分類完成。
[0037] 如圖2所示，TF-RSA為本發(fā)明的方法，Reserved Self-training為傳統(tǒng)的方法，無論是采用SVM分類算法還是MaxEnt分類算法，本發(fā)明的方法得到的分類準確度均高于 Reserved Self-training傳統(tǒng)的方法得到的分類準確度。據此可以看到本發(fā)明的優(yōu)點。
【主權項】
1. 一種基于主題特征的半監(jiān)督學習情感分類方法，其特征在于，包括如下步驟： 1) 將數據文本進行預處理、文本分詞及詞性標注； 2) 進行特征選擇，抽取文本的傳統(tǒng)特征，還利用LDA建模技術抽取文本的主題特征； 3) 在保留半監(jiān)督學習框架下，將得到的文本的傳統(tǒng)特征和文本的主題特征作為數據集，分別用SVM算法和最大賭算法進行分類訓練。2. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法，其特征在于，步驟 1)所述的進行預處理，是對文本中非文本信息進行精簡，去除數據中的無用信息。3. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法，其特征在于，步驟 1 )所述的文本分詞，是采用-# A 昔開U;化'片曰知-其中W Seq三CO /二[W 1，U 2，... COm]表示含有m個詞語CO的一組序列，詩表示含有n個字的句子，P表示概率。4. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法，其特征在于，步驟 1)所述的詞性標注，是對文本中每個詞確定一個最為合適的詞性。5. 根據權利要求1所述的基于主題特征的半監(jiān)督學習情感分類方法，其特征在于，步驟 3)包括如下步驟： (1) 使用保留半監(jiān)督學習算法進行迭代，具體是將數據集劃分為訓練集和測試集，使用 SVM算法和最大賭算法對訓練集進行分類訓練，得到分類模型； (2) 使用分類模型對測試集進行分類預測，將結果中置信度小于或等于設定值0.3的數據重新加入到訓練集中； (3) 重復執(zhí)行步驟S0501和步驟S0502,直到達到了預定的迭代次數，分類完成。
【文檔編號】G06F17/27GK105912525SQ201610226711
【公開日】2016年8月31日
【申請日】2016年4月11日
【發(fā)明人】喻梅, 趙永偉, 高潔, 于健, 王建榮, 呂方
【申請人】天津大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：喻梅;趙永偉;高潔;于健;王建榮;呂方;
技術所有人：天津大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于主題特征的半監(jiān)督學習情感分類方法