欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于主題模型的微博用戶情緒層次化分類方法和分類系統(tǒng)的制作方法_2

文檔序號:9810511閱讀:來源:國知局
詞語。
[0040] 在本發(fā)明的一個實施例中,所述層次分類模型中父節(jié)點使用支持向量機實現(xiàn)情緒 的二分類。
[0041] 具體地,層次分類模型如圖2所示,本系統(tǒng)基于廣泛應用的六情感分類上細化分類 為十九種。本層次分類框架共有四層,每層對應不同的情緒分類細度并從上向下逐一詳盡。 每一層的分類器均由單一的支持向量機構成,每層的分類結果又作為下一層的訓練數(shù)據(jù)。 第一層是最原始的情緒分類:有情緒/無情緒;第二層是二元情緒分類:正向情緒/負向情 緒;第三層是目前使用最廣的六情緒分類:喜、樂、哀、驚、懼、怒;第四層是本系統(tǒng)提出的更 細化的分類,分為喜愛、祝愿、信任、平靜等19種。在此層次化結構模型中,每個非葉子結點 都有自己的子結點及父結點,即對應的每種情緒都可向上的回溯到自己的父情緒。
[0042] 在每一層中,使用單一的支持向量機完成"是\否"是該情緒的二分類問題,并將每 層的支持向量機結合起來形成一個層次化的分類結構。之所以選擇層次化分類模型,是因 為在微博相關文本中,用戶往往傾向于表達固定幾種情緒。因此這幾種情緒的語料占整體 語料的比重較多,其他情緒的機器學習資源相對不充足。為了每種情緒能夠得到相對"純 凈"的學習語料,通過父結點的情緒分類將一些無關該情緒的其他語料剔除,能夠大大提高 分類器的學習能力節(jié)省學習時間并獲得相對純凈的訓練語料。同時,這種層次分類方法能 夠使用戶在不同層面看到文本的情緒分類情況,滿足用戶不同層面的科研或商用需求。支 持向量機要求分類間隔最大,實際上是對推廣能力的控制。
[0043] 以下結合附圖描述根據(jù)本發(fā)明實施例的基于主題模型的微博用戶情緒層次化分 類系統(tǒng)。
[0044] 圖3是本發(fā)明一個實施例的基于主題模型的微博用戶情緒層次化系統(tǒng)的結構示意 圖。請參考圖3,基于主題模型的微博用戶情緒層次化分類系統(tǒng)200包括:數(shù)據(jù)獲取模塊210、 預處理模塊220、特征降維模塊230和層次分類模型240。
[0045] 數(shù)據(jù)獲取模塊210,用于獲取微博數(shù)據(jù)。
[0046]預處理模塊220,用于對獲取的微博數(shù)據(jù)進行預處理得到待分類詞語,其中,所述 待分類詞語為副詞、動詞和形容詞之中的一種或多種。
[0047]在本發(fā)明的一個實施例中,對所述微博內容進行預處理包括數(shù)據(jù)去重、刪除無關 內容、時間離散化對齊和數(shù)據(jù)標注。通過以上四個步驟,可以得噪聲較小,相關度比較高的 處理后的數(shù)據(jù)集。
[0048] 由于獲取的數(shù)據(jù)均直接由微博原始數(shù)據(jù)不加篩選的直接導出,因此每條記錄十分 詳細。這就會帶來兩方面的影響:首先,可以得到充足的用戶信息,了解每個時刻用戶信息 的變迀;但是,另一方面原始記錄中也存在許多相互重復的信息以及和預測目標無關的無 用信息,這些信息會造成最后模型參數(shù)激增,使得模型訓練變得更加困難。
[0049] 另一方面,微博用戶評論是一個糅合了多種語言形式的文本,例如網(wǎng)絡流行語、網(wǎng) 絡用語縮寫、網(wǎng)頁鏈接和表情符號等。有些數(shù)據(jù)類型明顯與情緒分類無關,因此需要對數(shù)據(jù) 進行清洗和篩選。例如將網(wǎng)頁鏈接、話題標簽、位置信息以及重復的子句將被刪除,網(wǎng)絡流 行語及網(wǎng)絡縮寫在遍歷了用語詞典后仍找不到的提醒人工標注,表情符號以文字代替。
[0050] 特征降維模塊230,用于對所述待分類詞語進行特征降維。
[0051 ] 具體地,潛在的狄利克雷分布(Latent Dirichlet Allocation,LDA),是一種層次 的貝葉斯模型。其主要思想是將計算出文本中每個詞在預先設定好的主題下的概率,并通 過閾值限定篩選出有用的特征及過濾掉無用的噪聲數(shù)據(jù)。假設文本中每個詞w都具其唯一 的主題z,其優(yōu)化目標如下所示:
[0053]其中z表示主題,w表示文本中的單詞,Θ表示滿足以α為超參數(shù)的狄利克雷分布,N 表示文本的單詞數(shù)。因此,求解有用的特征詞的概率問題就轉換成了求解文檔~主題的分 布和主題~詞匯的分布的問題,而這兩個問題在給定文本集的前提下是可統(tǒng)計計算的,并 在每個主題下將文本詞匯按條件概率排序。
[0054] 由此可知,通過設定不同的閾值適當保留前若干個高概率詞匯,完成特征篩取和 降維。其主要流程可以用以下幾個步驟說明:初始特征空間為空;每次挑選一個特征,計算 在當前特征(主題)下每個詞的條件概率;根據(jù)閾值重復第2步,直到選擇了足夠維度的特 征。
[0055] 層次分類模型240,用于特征降維后的待分類詞語進行情緒分類,其中,所述層次 分類模型240中所有層的節(jié)點為代表某種情緒的詞語。
[0056] 在本發(fā)明的一個實施例中,所述層次分類模型中父節(jié)點使用支持向量機實現(xiàn)情緒 的二分類。
[0057] 具體地,層次分類模型如圖2所示,本系統(tǒng)基于廣泛應用的六情感分類上細化分類 為十九種。本層次分類框架共有四層,每層對應不同的情緒分類細度并從上向下逐一詳盡。 每一層的分類器均由單一的支持向量機構成,每層的分類結果又作為下一層的訓練數(shù)據(jù)。 第一層是最原始的情緒分類:有情緒/無情緒;第二層是二元情緒分類:正向情緒/負向情 緒;第三層是目前使用最廣的六情緒分類:喜、樂、哀、驚、懼、怒;第四層是本系統(tǒng)提出的更 細化的分類,分為喜愛、祝愿、信任、平靜等19種。在此層次化結構模型中,每個非葉子結點 都有自己的子結點及父結點,即對應的每種情緒都可向上的回溯到自己的父情緒。
[0058] 在每一層中,使用單一的支持向量機完成"是\否"是該情緒的二分類問題,并將每 層的支持向量機結合起來形成一個層次化的分類結構。之所以選擇層次化分類模型,是因 為在微博相關文本中,用戶往往傾向于表達固定幾種情緒。因此這幾種情緒的語料占整體 語料的比重較多,其他情緒的機器學習資源相對不充足。為了每種情緒能夠得到相對"純 凈"的學習語料,通過父結點的情緒分類將一些無關該情緒的其他語料剔除,能夠大大提高 分類器的學習能力節(jié)省學習時間并獲得相對純凈的訓練語料。同時,這種層次分類方法能 夠使用戶在不同層面看到文本的情緒分類情況,滿足用戶不同層面的科研或商用需求。支 持向量機要求分類間隔最大,實際上是對推廣能力的控制。
[0059] 另外,本發(fā)明實施例的基于主題模型的微博用戶情緒層次化分類方法和分類系統(tǒng) 的其它構成以及作用對于本領域的技術人員而言都是已知的,為了減少冗余,不做贅述。
[0060] 在本說明書的描述中,參考術語"一個實施例"、"一些實施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特 點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不 一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何 的一個或多個實施例或示例中以合適的方式結合。
[0061] 盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領域的普通技術人員可以理解:在不 脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本 發(fā)明的范圍由權利要求及其等同限定。
【主權項】
1. 一種基于主題模型的微博用戶情緒層次化分類方法,其特征在于,包括以下步驟: S1:獲取微博內容并進行預處理得到待分類詞語,其中,所述待分類詞語為副詞、動詞 和形容詞之中的一種或多種; S2:對所述待分類詞語進行特征降維;以及 S3:對特征降維后的待分類詞語按照層次分類模型進行微博內容的情緒分類,其中,所 述層次分類模型中所有層的節(jié)點為代表某種情緒的詞語。2. 根據(jù)權利要求1所述的基于主題模型的微博用戶情緒層次化分類方法,其特征在于, 對所述微博內容進行預處理包括數(shù)據(jù)去重、刪除無關內容、時間離散化對齊和數(shù)據(jù)標注。3. 根據(jù)權利要求1所述的基于主題模型的微博用戶情緒層次化分類方法,其特征在于, 使用潛在的狄利克雷分布模型進行特征降維。4. 根據(jù)權利要求1所述的基于主題模型的微博用戶情緒層次化分類方法,其特征在于, 所述層次分類模型中父節(jié)點使用支持向量機實現(xiàn)情緒的二分類。5. -種基于主題模型的微博用戶情緒層次化分類系統(tǒng),其特征在于,包括: 數(shù)據(jù)獲取模塊,用于獲取微博數(shù)據(jù); 預處理模塊,用于對獲取的微博數(shù)據(jù)進行預處理得到待分類詞語,其中,所述待分類詞 語為副詞、動詞和形容詞之中的一種或多種; 特征降維模塊,用于對所述待分類詞語進行特征降維;以及 層次分類模型,用于特征降維后的待分類詞語進行情緒分類,其中,所述層次分類模型 中所有層的節(jié)點為代表某種情緒的詞語。6. 根據(jù)權利要求5所述的基于主題模型的微博用戶情緒層次化分類系統(tǒng),其特征在于, 所述預處理模塊對所述微博數(shù)據(jù)進行預處理的內容包括數(shù)據(jù)去重、刪除無關內容、時間離 散化對齊和數(shù)據(jù)標注。7. 根據(jù)權利要求5所述的基于主題模型的微博用戶情緒層次化分類系統(tǒng),其特征在于, 所述特征降維模塊為潛在的狄利克雷分布模型。8. 根據(jù)權利要求5所述的基于主題模型的微博用戶情緒層次化分類系統(tǒng),其特征在于, 所述層次分類模型中父節(jié)點使用支持向量機實現(xiàn)情緒的二分類。
【專利摘要】本發(fā)明公開了一種基于主題模型的微博用戶情緒層次化分類方法和分類系統(tǒng),分類方法包括S1:獲取微博內容并進行預處理得到待分類詞語,其中,所述待分類詞語為副詞、動詞和形容詞之中的一種或多種;S2:對所述待分類詞語進行特征降維;以及S3:對特征降維后的待分類詞語按照層次分類模型進行微博內容的情緒分類,其中,所述層次分類模型中所有層的節(jié)點為代表某種情緒的詞語。本發(fā)明具有如下優(yōu)點:設計了層次分類框架,并根據(jù)微博博文短文本的結構特點,采用了LDA這種概率生成模型來刻畫數(shù)據(jù)進而進行特征降維和抽取。符合文本特點的模塊引用提高了分類的準確性,獲得了較好的分類結果。
【IPC分類】G06F17/27
【公開號】CN105573983
【申請?zhí)枴緾N201510957386
【發(fā)明人】徐華, 張帆
【申請人】清華大學
【公開日】2016年5月11日
【申請日】2015年12月17日
當前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
收藏| 东光县| 禹城市| 丰城市| 巢湖市| 余江县| 磐安县| 康马县| 荃湾区| 左云县| 方山县| 芜湖市| 锦屏县| 荆州市| 黔西| 中卫市| 广昌县| 收藏| 邹城市| 高碑店市| 台东县| 铜鼓县| 吉水县| 班戈县| 尉氏县| 澄江县| 时尚| 祁阳县| 伊川县| 宝清县| 枝江市| 临泉县| 吉木乃县| 文昌市| 锡林浩特市| 曲松县| 榆社县| 登封市| 鲁山县| 文登市| 龙南县|