本技術涉及自然語言處理領域,具體而言,涉及一種基于多模態(tài)的中文情感分類方法、裝置及電子設備。
背景技術:
1、情感分類作為自然語言處理領域的一項基礎任務,旨在自動識別文本中表達出的情感極性,其中屬性級情感分類更是聚焦于識別文本中與特定屬性相關的正負面情感。早期研究主要依賴于機器學習方法,如支持向量機(support?vector?machine,簡稱為svm),通過特征工程和情感詞典提取情感信息,然而,隨著深度學習技術的不斷發(fā)展,能自動抽取特征的神經(jīng)網(wǎng)絡模型,如循環(huán)神經(jīng)網(wǎng)絡(recurrent?neural?network,簡稱為rnn)和卷積神經(jīng)網(wǎng)絡(convolutional?neural?network,簡稱為cnn),因其在效果和效率上的優(yōu)勢,逐漸取代了傳統(tǒng)的機器學習方法。
2、近年來,基于深度學習的模型在屬性級情感分類領域的應用日益廣泛,從最初的目標依賴的長短時記憶網(wǎng)絡(target-dependent?long?short-term?memory,簡稱為td-lstm)和目標-上下文長短時記憶網(wǎng)絡(target-context?long?short-term?memory,簡稱為tc-lstm)利用長短時記憶網(wǎng)絡(long?short-term?memory,簡稱為lstm)分別提取屬性詞的前后文信息,到基于注意力機制并融合屬性信息的長短時記憶網(wǎng)絡(attention-basedlstm?with?aspect?embedding,簡稱為atae-lstm)模型,通過在輸入層和lstm的隱層拼接屬性詞向量并引入注意力機制,顯著提升了分類效果。用于屬性級情感分析的門控卷積神經(jīng)網(wǎng)絡(gcae)模型則進一步結合了cnn和門控機制,根據(jù)給定的屬性詞確定情感傾向,但上述方法大多建立在英文數(shù)據(jù)集上,對中文進行情感分析時,遺漏了中文字形的信息,大多從文本的角度,不關注使用字形信息進行中文的屬性級情感分類,大多集中在捕捉內部結構上,而忽略了漢字序列間的外部關系的重要性。
3、因此,現(xiàn)有的中文情感分析方法分析維度單一,未充分融合漢字的字形信息,只考慮文本信息,導致中文情感預測準確率較低。
4、針對上述的問題,目前尚未提出有效的解決方案。
技術實現(xiàn)思路
1、本技術實施例提供了一種基于多模態(tài)的中文情感分類方法、裝置及電子設備,以至少解決現(xiàn)有的中文情感分析方法分析維度單一,未充分融合漢字的字形信息,只考慮文本信息,導致中文情感預測準確率較低的技術問題。
2、根據(jù)本技術實施例的一個方面,提供了一種基于多模態(tài)的中文情感分類方法,包括:獲取目標中文文本;確定目標中文文本的屬性詞,并基于屬性詞構建屬性詞的依存字形圖,其中,依存字形圖包含目標中文文本中每個漢字的字形圖像信息以及反映屬性詞與目標中文文本中其他詞之間的語法依存關系的依賴樹;分別對目標中文文本和依存字形圖進行向量化處理,得到文本向量矩陣和圖像向量矩陣;分別確定文本向量矩陣和圖像向量矩陣的注意力得分;基于注意力得分、文本向量矩陣中的文本向量和圖像向量矩陣中的圖像向量確定目標中文文本的情感極性,其中,情感極性包括正向情感或負向情感。
3、在本技術的一些實施例中,確定目標中文文本的屬性詞,包括:對目標中文文本進行分詞并標注詞性;基于詞性,識別出目標中文文本中的屬于預設詞性的詞作為候選屬性詞,其中,預設詞性為名詞;基于上下文語境對候選屬性詞進行篩選,確定目標中文文本的屬性詞。
4、在本技術的一些實施例中,基于屬性詞構建屬性詞的依存字形圖,包括:解析目標中文文本的語法結構,得到目標中文文本中各個詞的語法依存關系;基于屬性詞和語法依存關系確定依賴樹:將屬性詞作為依賴樹的根節(jié)點,基于語法依存關系識別與屬性詞直接相連的詞,作為一級子節(jié)點,一級子節(jié)點用于反映直接的語法關聯(lián);遍歷依存關系,將所有與屬性詞有語法依存關系的詞添加為子節(jié)點,得到依賴樹;將每個漢字的字形圖像信息嵌入到依賴樹中,得到依存字形圖,其中,字形圖像信息用于展示一種或多種字體的漢字在視覺上的形狀表現(xiàn)。
5、在本技術的一些實施例中,分別對目標中文文本和依存字形圖進行向量化處理,得到文本向量矩陣和圖像向量矩陣,包括:對目標中文文本進行向量化處理,得到文本向量矩陣:對目標中文文本中的每個詞進行詞嵌入處理:對目標中文文本中每個詞進行向量化,得到第一向量,其中,第一向量用于指示每個詞的語義信息以及在語境中的使用方法;對目標中文文本中的每個詞進行位置嵌入處理:對目標中文文本中每個詞的位置進行向量化,得到第二向量,其中,第二向量用于指示每個詞在目標中文文本中所處的位置順序和位置權重;對目標中文文本中進行段落嵌入處理:對目標中文文本中的每個句子進行向量化,得到第三向量,其中,第三向量用于為每個句子分配唯一的段落標識;基于第一向量、第二向量、第三向量,得到文本向量矩陣。
6、在本技術的一些實施例中,對目標中文文本中進行段落嵌入處理時,目標中文文本中的句子通過以下方式確定:將目標中文文本按照屬性詞進行劃分,位于屬性詞左邊的文本作為第一句子,位于屬性詞右邊的文本作為第二句子。
7、在本技術的一些實施例中,分別對目標中文文本和依存字形圖進行向量化處理,得到文本向量矩陣和圖像向量矩陣,包括:對依存字形圖進行向量化處理,得到圖像向量矩陣:將依存字形圖分割成多個包含單一漢字的字形圖像的圖像區(qū)域,其中,每個圖像區(qū)域對應一個漢字的字形信息;對每個圖像區(qū)域進行編碼,得到每個圖像區(qū)域的向量表示;將每個圖像區(qū)域的向量表示進行拼接,得到初始圖像向量矩陣;基于預設線性層對初始圖像向量矩陣進行處理,得到圖像向量矩陣,其中,線性層用于調整初始圖像向量矩陣的維度和特征表示。
8、在本技術的一些實施例中,分別確定文本向量矩陣和圖像向量矩陣的注意力得分:確定文本向量矩陣中的文本向量在圖像向量矩陣中對應的圖像向量,得到文本圖像對;計算每個文本圖像對中的文本向量和圖像向量之間的相似度;基于相似度為文本向量矩陣中的文本向量和圖像向量矩陣中對應的圖像向量,分配注意力權重;依據(jù)注意力權重確定文本注意力得分和圖像注意力得分。
9、在本技術的一些實施例中,基于注意力得分、文本向量矩陣中的文本向量和圖像向量矩陣中的圖像向量確定目標中文文本的情感極性,包括:依據(jù)注意力得分對文本向量矩陣和圖像向量矩陣進行加權,得到多模態(tài)表示特征;將多模態(tài)表示特征輸入到?jīng)Q策層中,得到情感極性得分,其中,決策層用于將多模態(tài)表示特征轉換為表示情感極性的評分或概率;在情感極性得分大于或等于預設得分閾值的情況下,確定目標中文文本的情感為正向,在情感極性得分小于預設得分閾值的情況下,確定目標中文文本的情感為負向。
10、根據(jù)本技術實施例的另一方面,還提供了一種基于多模態(tài)的中文情感分類裝置,包括:獲取模塊,用于獲取目標中文文本;第一確定模塊,用于確定目標中文文本的屬性詞,并基于屬性詞構建屬性詞的依存字形圖,其中,依存字形圖包含目標中文文本中每個漢字的字形圖像信息以及反映屬性詞與目標中文文本中其他詞之間的語法依存關系的依賴樹;向量化模塊,用于分別對目標中文文本和依存字形圖進行向量化處理,得到文本向量矩陣和圖像向量矩陣;第二確定模塊,用于分別確定文本向量矩陣和圖像向量矩陣的注意力得分;第三確定模塊,用于基于注意力得分、文本向量矩陣中的文本向量和圖像向量矩陣中的圖像向量確定目標中文文本的情感極性,其中,情感極性包括正向情感或負向情感。
11、根據(jù)本技術實施例的另一方面,還提供了一種非易失性存儲介質,非易失性存儲介質中存儲有程序,其中,在程序運行時控制非易失性存儲介質所在設備執(zhí)行上述的基于多模態(tài)的中文情感分類方法。
12、根據(jù)本技術實施例的另一方面,還提供了一種電子設備,包括:存儲器和處理器,處理器用于運行存儲在存儲器中的程序,其中,程序運行時執(zhí)行上述的基于多模態(tài)的中文情感分類方法。
13、根據(jù)本技術實施例的另一方面,還提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令被處理器執(zhí)行時實現(xiàn)上述的基于多模態(tài)的中文情感分類方法。
14、在本技術實施例中,采用獲取目標中文文本;確定目標中文文本的屬性詞,并基于屬性詞構建屬性詞的依存字形圖,其中,依存字形圖包含目標中文文本中每個漢字的字形圖像信息以及反映屬性詞與目標中文文本中其他詞之間的語法依存關系的依賴樹;分別對目標中文文本和依存字形圖進行向量化處理,得到文本向量矩陣和圖像向量矩陣;分別確定文本向量矩陣和圖像向量矩陣的注意力得分;基于注意力得分、文本向量矩陣中的文本向量和圖像向量矩陣中的圖像向量確定目標中文文本的情感極性,其中,情感極性包括正向情感或負向情感的方式,通過確定目標中文文本的屬性詞,構建包含漢字的字形圖像信息以及反映屬性詞與目標中文文本中其他詞之間的語法依存關系的依賴樹的依存字形圖融合多模態(tài)信息,基于注意力得分、文本向量矩陣中的文本向量和圖像向量矩陣中的圖像向量確定最終的情感極性,達到了基于多模態(tài)的信息預測情感極性的目的,進而解決了現(xiàn)有的中文情感分析方法分析維度單一,未充分融合漢字的字形信息,只考慮文本信息,導致中文情感預測準確率較低技術問題。