基于微博文本上下文信息的情緒分類方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及計算機應用技術與互聯(lián)網(wǎng)技術領域,特別涉及一種基于微博文本上下 文信息的情緒分類方法及系統(tǒng)。
【背景技術】
[0002] 隨著以新浪、騰訊為代表的新興網(wǎng)絡不斷興起,越來越多的人們利用微博平臺來 抒發(fā)關于各種話題的情緒和觀點,進而匯集了大量的輿論信息,包括突發(fā)事件、事故、疾病, 以及其他的熱點事件,這些包含了大量的情緒和情感信息。而龐大的用戶規(guī)模又進一步鞏 固了其在網(wǎng)絡輿論傳播中心的地位,可以說微博已成為重要的情感抒發(fā)和交流平臺。目前, 情緒分類是自然語言領域中一個重要的研宄方法,吸引了來自國內(nèi)外的研宄人員對其進行 研宄。
[0003] 在情緒分類的相關研宄中,主要分為基于詞典的情緒分類方法、基于機器學習的 分類方法以及混合的情緒分類方法,然而,這些分類方法的分類準確率較低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的旨在至少解決上述的技術缺陷之一。
[0005] 為此,本發(fā)明的目的在于提出一種基于微博文本上下文信息的情緒分類方法。該 方法具有情緒分類準確率高的優(yōu)點。
[0006] 本發(fā)明的另一個目的在于提出一種基于微博文本上下文信息的情緒分類系統(tǒng)。
[0007] 為了實現(xiàn)上述目的,本發(fā)明的第一方面的實施例公開了一種基于微博文本上下文 信息的情緒分類方法,包括以下步驟:從微博文本中提取與情緒相關的特征,并根據(jù)提取的 特征和維度的映射關系建立第一特征空間向量,其中,所述特征包括情緒詞與上下文的關 系特征、詞性特征和句法結構特征;對所述第一特征空間向量進行降維以得到第二特征空 間向量,其中,所述第二特征空間向量的維度低于所述第一特征空間向量;利用分類器對所 述第一特征空間向量對應的數(shù)據(jù)進行訓練,以對所述微博文本進行情緒分類,并輸出情緒 分類結果。
[0008] 根據(jù)本發(fā)明實施例的基于微博文本上下文信息的情緒分類方法,針對互聯(lián)網(wǎng)上的 基于微博文本的情緒分類問題,利用如詞性特征選擇、句法結構特征選擇、情緒詞與上下文 的關系特征選擇、特征降維、情緒分類算法等方法從微博文本中提取特征,并根據(jù)提取的特 征實現(xiàn)微博文本的情緒分類,具有分類準確率高的優(yōu)點。
[0009] 另外,根據(jù)本發(fā)明上述實施例的基于微博文本上下文信息的情緒分類方法還可以 具有如下附加的技術特征:
[0010] 在一些示例中,所述從微博文本中提取與情緒相關的特征,進一步包括:根據(jù)詞性 特征選擇方法從所述微博文本中提取詞性特征,具體包括:利用分詞器對所述微博文本進 行分詞,并根據(jù)分詞結果將具有搭配關系的詞性組合作為所述詞性特征,其中,所述詞性組 合表達微博文本中蘊含的情緒;根據(jù)句法結構特征選擇方法從所述微博文本中提取句法結 構特征,具體包括:對所述微博文本進行句法分析,以構建語言單元成分之間的多個依存關 系,以及根據(jù)所述依存關系選擇所述句法結構特征;根據(jù)情緒詞與上下文的關系特征選擇 方法從所述微博文本中提取詞性特征,其中,所述情緒詞與上下文的關系特征存在以下關 系:
[0011] (1)〈主體/實體,中心情緒詞,依存關系對類型〉;
[0012] (2)〈連接詞,中心情緒詞,依存關系對類型〉;
[0013] (3)〈修飾詞,中心情緒詞,依存關系對類型〉;
[0014] (4)〈否定詞,中心情緒詞,依存關系對類型〉。
[0015] 在一些示例中,所述對所述第一特征空間向量進行降維以得到第二特征空間向 量,進一步包括:根據(jù)卡方測試方法,基于如下公式從所述第一特征空間向量中的特征詞中 挑選高頻特征詞,所述公式為:
【主權項】
1. 一種基于微博文本上下文信息的情緒分類方法,其特征在于,包括w下步驟: 從微博文本中提取與情緒相關的特征,并根據(jù)提取的特征和維度的映射關系建立第 一特征空間向量,其中,所述特征包括情緒詞與上下文的關系特征、詞性特征和句法結構特 征; 對所述第一特征空間向量進行降維W得到第二特征空間向量,其中,所述第二特征空 間向量的維度低于所述第一特征空間向量; 利用分類器對所述第一特征空間向量對應的數(shù)據(jù)進行訓練,W對所述微博文本進行情 緒分類,并輸出情緒分類結果。
2. 根據(jù)權利要求1所述的基于微博文本上下文信息的情緒分類方法,其特征在于,所 述從微博文本中提取與情緒相關的特征,進一步包括: 根據(jù)詞性特征選擇方法從所述微博文本中提取詞性特征,具體包括;利用分詞器對所 述微博文本進行分詞,并根據(jù)分詞結果將具有搭配關系的詞性組合作為所述詞性特征,其 中,所述詞性組合表達微博文本中蘊含的情緒; 根據(jù)句法結構特征選擇方法從所述微博文本中提取句法結構特征,具體包括;對所述 微博文本進行句法分析,W構建語言單元成分之間的多個依存關系,W及根據(jù)所述依存關 系選擇所述句法結構特征; 根據(jù)情緒詞與上下文的關系特征選擇方法從所述微博文本中提取詞性特征,其中,所 述情緒詞與上下文的關系特征存在W下關系: (1) <主體/實體,中屯、情緒詞,依存關系對類型〉; (2) <連接詞,中屯、情緒詞,依存關系對類型〉; (3) <修飾詞,中屯、情緒詞,依存關系對類型〉; (4) <否定詞,中屯、情緒詞,依存關系對類型〉。
3. 根據(jù)權利要求1所述的基于微博文本上下文信息的情緒分類方法,其特征在于,所 述對所述第一特征空間向量進行降維W得到第二特征空間向量,進一步包括: 根據(jù)卡方測試方法,基于如下公式從所述第一特征空間向量中的特征詞中挑選高頻特 征詞,所述公式為:
其中,Ni表示類別i的觀察頻率,n是總頻率,Pi是類別i的期望頻率; 根據(jù)Pffl方法,基于如下公式從所述第一特征空間向量中的特征詞中挑選低頻特征 詞,所述公式為:
其中,P(W,C)表示文檔包含詞W且屬于類別C的概率,P(W)表示文檔包含詞W的概率,p(c)表示文檔屬于類別C的概率。
4. 根據(jù)權利要求1所述的基于微博文本上下文信息的情緒分類方法,其特征在于,所 述分類器為SVMPstf二分類器。
5. 根據(jù)權利要求1-4任一項所述的基于微博文本上下文信息的情緒分類方法,其特征 在于,其中,采用準確率、召回率和F值作為所述分類器的性能評估指標。
6. -種基于微博文本上下文信息的情緒分類系統(tǒng),其特征在于,包括: 特征提取模塊,用于從微博文本中提取與情緒相關的特征,并根據(jù)提取的特征和維度 的映射關系建立第一特征空間向量,其中,所述特征包括情緒詞與上下文的關系特征、詞性 特征和句法結構特征; 特征降維模塊,用于對所述第一特征空間向量進行降維W得到第二特征空間向量,其 中,所述第二特征空間向量的維度低于所述第一特征空間向量; 情緒分類模塊,用于利用分類器對所述第一特征空間向量對應的數(shù)據(jù)進行訓練,W對 所述微博文本進行情緒分類,并輸出情緒分類結果。
7. 根據(jù)權利要求6所述的基于微博文本上下文信息的情緒分類系統(tǒng),其特征在于,所 述特征提取模塊包括: 詞性特征選擇模塊,用于根據(jù)詞性特征選擇方法從所述微博文本中提取詞性特征,具 體包括:利用分詞器對所述微博文本進行分詞,并根據(jù)分詞結果將具有搭配關系的詞性組 合作為所述詞性特征,其中,所述詞性組合表達微博文本中蘊含的情緒; 句法結構特征選擇模塊,用于根據(jù)句法結構特征選擇方法從所述微博文本中提取句法 結構特征,具體包括;對所述微博文本進行句法分析,W構建語言單元成分之間的多個依存 關系,W及根據(jù)所述依存關系選擇所述句法結構特征; 情緒詞與上下文的關系特征選擇模塊,用于根據(jù)情緒詞與上下文的關系特征選擇方法 從所述微博文本中提取詞性特征,其中,所述情緒詞與上下文的關系特征存在W下關系: (1) <主體/實體,中屯、情緒詞,依存關系對類型〉; (2) <連接詞,中屯、情緒詞,依存關系對類型〉; (3) <修飾詞,中屯、情緒詞,依存關系對類型〉; (4) <否定詞,中屯、情緒詞,依存關系對類型〉。
8. 根據(jù)權利要求6所述的基于微博文本上下文信息的情緒分類系統(tǒng),其特征在于,所 述特征降維模塊用于: 根據(jù)卡方測試方法,基于如下公式從所述第一特征空間向量中的特征詞中挑選高頻特 征詞,所述公式為:
其中,Ni表示類別i的觀察頻率,n是總頻率,Pi是類別i的期望頻率; 根據(jù)Pffl方法,基于如下公式從所述第一特征空間向量中的特征詞中挑選低頻特征 詞,所述公式為:
其中,P(W,C)表示文檔包含詞W且屬于類別C的概率,P(W)表示文檔包含詞W的概率,p(c)表示文檔屬于類別C的概率。
9. 根據(jù)權利要求6所述的基于微博文本上下文信息的情緒分類系統(tǒng),其特征在于,所 述分類器為SVMPstf二分類器。
【專利摘要】本發(fā)明提供一種基于微博文本上下文信息的情緒分類方法及系統(tǒng),該方法包括:從微博文本中提取與情緒相關的特征,并根據(jù)提取的特征和維度的映射關系建立第一特征空間向量,其中,所述特征包括情緒詞與上下文的關系特征、詞性特征和句法結構特征;對所述第一特征空間向量進行降維以得到第二特征空間向量,其中,所述第二特征空間向量的維度低于所述第一特征空間向量;利用分類器對所述第一特征空間向量對應的數(shù)據(jù)進行訓練,以對所述微博文本進行情緒分類,并輸出情緒分類結果。本發(fā)明的實施例具有情緒分類準確率高的優(yōu)點。
【IPC分類】G06F17-30
【公開號】CN104794208
【申請?zhí)枴緾N201510201443
【發(fā)明人】徐華
【申請人】清華大學, 清華大學無錫應用技術研究院
【公開日】2015年7月22日
【申請日】2015年4月24日