基于主題模型的微博用戶情緒層次化分類方法和分類系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)應(yīng)用機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種基于主題模型的微博用戶情 緒層次化分類方法和分類系統(tǒng)。
【背景技術(shù)】
[0002] 微博作為一個(gè)新興的網(wǎng)絡(luò)社交平臺,具有用戶群體龐大,對社會(huì)熱點(diǎn)話題敏銳,數(shù) 據(jù)資源豐富多樣等特點(diǎn)。新浪微博作為流行的中文社交網(wǎng)絡(luò)平臺,其用戶評論信息對學(xué)業(yè) 界和工業(yè)界來說都是寶貴的研究資料。近年來多項(xiàng)關(guān)于新浪微博評論的創(chuàng)新研究發(fā)表。微 博用戶信息分析在用戶流行主題發(fā)現(xiàn)、用戶信息提取、用戶觀點(diǎn)挖掘以及標(biāo)簽推薦、用戶情 緒分析等應(yīng)用上存在著巨大的挖掘潛力。本系統(tǒng)著重研究微博用戶的情緒分析。情緒分析 對于線上用戶對于產(chǎn)品的反饋、話題的流行、輿論的分析有著較優(yōu)的輔助作用,并廣泛應(yīng)用 于執(zhí)法部門監(jiān)控、正向輿論導(dǎo)向、產(chǎn)品使用分析、流行趨勢預(yù)測等具體應(yīng)用領(lǐng)域。結(jié)合新浪 微博的流行應(yīng)用平臺,能十分有效地反應(yīng)用戶的對于某具體事物的具體觀點(diǎn),具有實(shí)時(shí)性、 話題敏感性和多變性的特點(diǎn)。情感分析作為自然語言處理的重要組成部分,也是人工智能 中的一個(gè)重要研究領(lǐng)域。同時(shí),由于流行平臺數(shù)據(jù)的多變性和數(shù)據(jù)規(guī)模的龐大,基于在線數(shù) 據(jù)的情緒分類一直是研究的熱點(diǎn)和難點(diǎn)。網(wǎng)絡(luò)用語、社會(huì)話題的快速流行和消亡往往要求 在線情緒分析模型具有良好的應(yīng)激性及對于新用語的敏感性和適應(yīng)性,這在機(jī)器學(xué)習(xí)領(lǐng)域 尚是個(gè)研究熱點(diǎn)。同時(shí),微博博文由于其字?jǐn)?shù)的限制,一個(gè)微博文本所能反映的信息量相對 長文本較少,對于這種短文本的特征提取和主題發(fā)現(xiàn)同樣是個(gè)研究熱點(diǎn)和難點(diǎn)。然而,微博 用戶信息分析蘊(yùn)含的極大的研究價(jià)值仍表明,這是個(gè)值得探索的領(lǐng)域。情緒分析作為自然 語言處理乃至文本處理的重要組成部分,對其基于微博用戶評論的層次分類是十分必要和 具有應(yīng)用價(jià)值的。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0004] 為此,本發(fā)明的第一個(gè)目的在于提出一種基于主題模型的微博用戶情緒層次化分 類方法。
[0005] 本發(fā)明的第二個(gè)目的在于提出一種基于主題模型的微博用戶情緒層次化分類系 統(tǒng)。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種基于主題模型的微博用戶情緒層 次化分類方法,包括以下步驟:S1:獲取微博內(nèi)容并進(jìn)行預(yù)處理得到待分類詞語,其中,所述 待分類詞語為副詞、動(dòng)詞和形容詞之中的一種或多種;S2:對所述待分類詞語進(jìn)行特征降 維;以及S3:對特征降維后的待分類詞語按照層次分類模型進(jìn)行微博內(nèi)容的情緒分類,其 中,所述層次分類模型中所有層的節(jié)點(diǎn)為代表某種情緒的詞語。
[0007] 根據(jù)本發(fā)明實(shí)施例的基于主題模型的微博用戶情緒層次化分類方法,設(shè)計(jì)了層次 分類框,并根據(jù)微博博文短文本的結(jié)構(gòu)特點(diǎn),采用了 LDA這種概率生成模型來刻畫數(shù)據(jù)進(jìn)而 進(jìn)行特征降維和抽取。符合文本特點(diǎn)的模塊引用提高了分類的準(zhǔn)確性,獲得了較好的分類 結(jié)果。
[0008] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于主題模型的微博用戶情緒層次化分類方法, 還可以具有如下附加的技術(shù)特征:
[0009] 進(jìn)一步地,對所述微博內(nèi)容進(jìn)行預(yù)處理包括數(shù)據(jù)去重、刪除無關(guān)內(nèi)容、時(shí)間離散化 對齊和數(shù)據(jù)標(biāo)注。
[0010] 進(jìn)一步地,使用潛在的狄利克雷分布模型進(jìn)行特征降維。
[0011] 進(jìn)一步地,所述層次分類模型中父節(jié)點(diǎn)使用支持向量機(jī)實(shí)現(xiàn)情緒的二分類。
[0012] 為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種基于主題模型的微博用戶情緒層 次化分類系統(tǒng),包括:數(shù)據(jù)獲取模塊,用于獲取微博數(shù)據(jù);預(yù)處理模塊,用于對獲取的微博數(shù) 據(jù)進(jìn)行預(yù)處理得到待分類詞語,其中,所述待分類詞語為副詞、動(dòng)詞和形容詞之中的一種或 多種;特征降維模塊,用于對所述待分類詞語進(jìn)行特征降維;以及層次分類模型,用于特征 降維后的待分類詞語進(jìn)行情緒分類,其中,所述層次分類模型中所有層的節(jié)點(diǎn)為代表某種 情緒的詞語。
[0013] 根據(jù)本發(fā)明實(shí)施例的基于主題模型的微博用戶情緒層次化分類系統(tǒng),設(shè)計(jì)了層次 分類框架,并根據(jù)微博博文短文本的結(jié)構(gòu)特點(diǎn),采用了 LDA這種概率生成模型來刻畫數(shù)據(jù)進(jìn) 而進(jìn)行特征降維和抽取。符合文本特點(diǎn)的模塊引用提高了分類的準(zhǔn)確性,獲得了較好的分 類結(jié)果。
[0014] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于主題模型的微博用戶情緒層次化分類系統(tǒng), 還可以具有如下附加的技術(shù)特征:
[0015]進(jìn)一步地,所述預(yù)處理模塊對所述微博數(shù)據(jù)進(jìn)行預(yù)處理的內(nèi)容包括數(shù)據(jù)去重、刪 除無關(guān)內(nèi)容、時(shí)間離散化對齊和數(shù)據(jù)標(biāo)注。
[0016] 進(jìn)一步地,所述特征降維模塊為潛在的狄利克雷分布模型。
[0017] 進(jìn)一步地,所述層次分類模型中父節(jié)點(diǎn)使用支持向量機(jī)實(shí)現(xiàn)情緒的二分類。
[0018] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0019] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0020] 圖1是本發(fā)明一個(gè)實(shí)施例的基于主題模型的微博用戶情緒層次化分類方法的流程 圖;
[0021] 圖2是本發(fā)明一個(gè)實(shí)施例的基于主題模型的微博用戶情緒層次化分類系統(tǒng)的結(jié)構(gòu) 示意圖;
[0022] 圖3是本發(fā)明一個(gè)實(shí)施例的層次分類模型的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0024]在本發(fā)明的描述中,需要理解的是,術(shù)語"中心"、"縱向"、"橫向"、"上"、"下"、 "前"、"后"、"左"、"右"、"豎直"、"水平"、"頂"、"底"、"內(nèi)"、"外"等指示的方位或位置關(guān)系為 基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗 示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對 本發(fā)明的限制。此外,術(shù)語"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對 重要性。
[0025]在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可 以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是 兩個(gè)元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本 發(fā)明中的具體含義。
[0026] 參照下面的描述和附圖,將清楚本發(fā)明的實(shí)施例的這些和其他方面。在這些描述 和附圖中,具體公開了本發(fā)明的實(shí)施例中的一些特定實(shí)施方式,來表示實(shí)施本發(fā)明的實(shí)施 例的原理的一些方式,但是應(yīng)當(dāng)理解,本發(fā)明的實(shí)施例的范圍不受此限制。相反,本發(fā)明的 實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0027] 以下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的基于主題模型的微博用戶情緒層次化分 類方法。
[0028] 圖1是本發(fā)明一個(gè)實(shí)施例的基于主題模型的微博用戶情緒層次化分類方法的流程 圖。請參考圖1,基于主題模型的微博用戶情緒層次化分類方法包括:
[0029] S1:獲取微博內(nèi)容并進(jìn)行預(yù)處理得到待分類詞語。其中,所述待分類詞語為副詞、 動(dòng)詞和形容詞之中的一種或多種。
[0030] 在本發(fā)明的一個(gè)實(shí)施例中,對所述微博內(nèi)容進(jìn)行預(yù)處理包括數(shù)據(jù)去重、刪除無關(guān) 內(nèi)容、時(shí)間離散化對齊和數(shù)據(jù)標(biāo)注。通過以上四個(gè)步驟,可以得噪聲較小,相關(guān)度比較高的 處理后的數(shù)據(jù)集。
[0031] 由于獲取的數(shù)據(jù)均直接由微博原始數(shù)據(jù)不加篩選的直接導(dǎo)出,因此每條記錄十分 詳細(xì)。這就會(huì)帶來兩方面的影響:首先,可以得到充足的用戶信息,了解每個(gè)時(shí)刻用戶信息 的變迀;但是,另一方面原始記錄中也存在許多相互重復(fù)的信息以及和預(yù)測目標(biāo)無關(guān)的無 用信息,這些信息會(huì)造成最后模型參數(shù)激增,使得模型訓(xùn)練變得更加困難。
[0032] 另一方面,微博用戶評論是一個(gè)糅合了多種語言形式的文本,例如網(wǎng)絡(luò)流行語、網(wǎng) 絡(luò)用語縮寫、網(wǎng)頁鏈接和表情符號等。有些數(shù)據(jù)類型明顯與情緒分類無關(guān),因此需要對數(shù)據(jù) 進(jìn)行清洗和篩選。例如將網(wǎng)頁鏈接、話題標(biāo)簽、位置信息以及重復(fù)的子句將被刪除,網(wǎng)絡(luò)流 行語及網(wǎng)絡(luò)縮寫在遍歷了用語詞典后仍找不到的提醒人工標(biāo)注,表情符號以文字代替。
[0033] S2:對所述待分類詞語進(jìn)行特征降維。
[0034] 在本發(fā)明的一個(gè)實(shí)施例中,使用潛在的狄利克雷分布模型進(jìn)行特征降維。
[0035] 具體地,潛在的狄利克雷分布(Latent Dirichlet Allocation,LDA),是一種層次 的貝葉斯模型。其主要思想是將計(jì)算出文本中每個(gè)詞在預(yù)先設(shè)定好的主題下的概率,并通 過閾值限定篩選出有用的特征及過濾掉無用的噪聲數(shù)據(jù)。假設(shè)文本中每個(gè)詞w都具其唯一 的主題z,其優(yōu)化目標(biāo)如下所示:
[0037] 其中z表示主題,w表示文本中的單詞,Θ表示滿足以α為超參數(shù)的狄利克雷分布,N 表示文本的單詞數(shù)。因此,求解有用的特征詞的概率問題就轉(zhuǎn)換成了求解文檔~主題的分 布和主題~詞匯的分布的問題,而這兩個(gè)問題在給定文本集的前提下是可統(tǒng)計(jì)計(jì)算的,并 在每個(gè)主題下將文本詞匯按條件概率排序。
[0038] 由此可知,通過設(shè)定不同的閾值適當(dāng)保留前若干個(gè)高概率詞匯,完成特征篩取和 降維。其主要流程可以用以下幾個(gè)步驟說明:初始特征空間為空;每次挑選一個(gè)特征,計(jì)算 在當(dāng)前特征(主題)下每個(gè)詞的條件概率;根據(jù)閾值重復(fù)第2步,直到選擇了足夠維度的特 征。
[0039] S3:對特征降維后的待分類詞語按照層次分類模型進(jìn)行微博內(nèi)容的情緒分類,其 中,所述層次分類模型中所有層的節(jié)點(diǎn)為代表某種情緒的