本公開涉及文本分類,具體涉及一種文本分類方法、裝置、電子設備及介質。
背景技術:
1、隨著汽車工業(yè)的不斷發(fā)展,消費者對車輛的要求越來越高,不僅僅局限于基本的行駛功能,還包括車輛的安全性、舒適性以及技術創(chuàng)新等方面。為了滿足這些需求,汽車制造商必須不斷收集和分析客戶反饋,以便對產(chǎn)品進行持續(xù)改進。在這個過程中,客戶的投訴內(nèi)容提供了寶貴的信息來源。然而,投訴內(nèi)容會存在文本重復、意見繁多、范圍廣泛、表述冗長等問題,勢必會造成人工審核成本增加,直接導致改進效率降低,延長了汽車迭代更新周期,因此對這些文本數(shù)據(jù)進行有效的分類和分析變得尤為重要。
2、相關技術中提出,可以采取詞頻統(tǒng)計的方法、基于循環(huán)神經(jīng)網(wǎng)絡的方法或者構建深度學習模型方法對文本進行分類。但是,相關技術采用的文本分類方式會存在使用場景受限、語義信息捕捉不全的問題。
技術實現(xiàn)思路
1、為克服相關技術中存在的問題,本公開提供一種文本分類方法、裝置、電子設備及介質。本公開的技術方案如下:
2、根據(jù)本公開實施例的第一方面,提供一種文本分類方法,包括:
3、獲得投訴內(nèi)容數(shù)據(jù)中的關鍵句;
4、將所述關鍵句輸入第一神經(jīng)網(wǎng)絡的編碼器,確定所述關鍵句的直接關鍵詞;
5、將所述關鍵句結合控制編碼和詞標記輸入所述第一神經(jīng)網(wǎng)絡的解碼器,確定所述關鍵句的間接關鍵詞;
6、將所述直接關鍵詞和所述間接關鍵詞確定為關鍵詞集合;
7、從語義庫中確定與所述關鍵詞集合匹配的預設文本,并將所述預設文本確定為所述投訴內(nèi)容數(shù)據(jù)的類別。
8、可選地,所述獲得投訴內(nèi)容數(shù)據(jù)中的關鍵句,包括:
9、獲取所述投訴內(nèi)容數(shù)據(jù),并對所述投訴內(nèi)容數(shù)據(jù)進行詞嵌入、字符嵌入、位置嵌入和片段嵌入,得到嵌入后的文本;
10、將所述嵌入后的文本映射到目標維度的向量空間中,并通過所述編碼器將對所述嵌入后的文本進行編碼,得到所述投訴內(nèi)容數(shù)據(jù)的語句集合;
11、通過級聯(lián)最大池化和平均池化,并結合多層批歸一化,確定所述語句集合中各個語句的顯著性概率;
12、將顯著性概率輸入激活函數(shù)層,得到所述語句集合中各個語句的預測結果;
13、根據(jù)所述預測結果,確定所述投訴內(nèi)容數(shù)據(jù)的關鍵句。
14、可選地,將所述關鍵句結合控制編碼和詞標記輸入所述第一神經(jīng)網(wǎng)絡的解碼器,確定所述關鍵句的間接關鍵詞,包括:
15、結合詞標記和多個控制編碼,得到包括多個初始間接關鍵詞集合;
16、將多個所述初始間接關鍵詞集合輸入所述解碼器,通過解碼器對所述初始間接關鍵詞集合進行解碼,得到初始間接關鍵詞;
17、確定所述初始間接關鍵詞的第一標簽,所述第一標簽表征所述初始間接關鍵詞在詞匯庫中的概率分布;
18、確定所述初始間接關鍵詞的第二標簽,所述第二標簽表征所述初始間接關鍵詞在所述關鍵句中的概率分布;
19、將所述第一標簽和所述第二標簽添加到所述初始間接關鍵詞,得到所述關鍵句的間接關鍵詞。
20、可選地,所述確定所述初始間接關鍵詞的第一標簽,包括:
21、通過線性層和激活函數(shù),確定各個所述初始間接關鍵詞在所述詞匯庫中的概率分布,得到所述初始間接關鍵詞的第一標簽;
22、所述確定所述初始間接關鍵詞的第二標簽,包括:
23、通過所述復制注意力機制,判斷所述初始間接關鍵詞是否是從原文復制;
24、在所述初始間接關鍵詞是從原文復制的情況下,對所述初始間接關鍵詞進行去重;
25、確定去重后的初始間接關鍵詞在所述關鍵句中的概率分布,得到所述初始間接關鍵詞的第二標簽。
26、可選地,在通過解碼器對所述初始間接關鍵詞集合進行解碼,得到初始間接關鍵詞的過程中,包括:
27、確定輸入所述初始間接關鍵詞集合的當前時刻;
28、根據(jù)所述當前時刻,調整所述解碼器中每一層的注意力權重,以使得當前輸入的所述初始關鍵詞集合在計算注意力時占據(jù)更大的比重。
29、可選地,將所述關鍵句輸入所述第一神經(jīng)網(wǎng)絡的編碼器,確定所述關鍵句的直接關鍵詞,包括:
30、將所述關鍵句輸入所述編碼器;
31、通過所述編碼器將所述關鍵句轉換為各個初始直接關鍵詞;
32、確定所述初始直接關鍵詞的詞性標簽,并添加到所述初始直接關鍵詞;所述詞性標簽包括:關鍵詞頭標簽、關鍵詞中間部分標簽以及非關鍵詞標簽;
33、將添加所述詞性標簽后的所述初始直接關鍵詞確定為所述關鍵句的直接關鍵詞。
34、可選地,所述從語義庫中確定與所述關鍵詞集合匹配的預設文本,并將所述預設文本確定為所述投訴內(nèi)容數(shù)據(jù)的類別,包括:
35、獲得預設文本;
36、將所述預設文本和所述關鍵詞集合輸入第二神經(jīng)網(wǎng)絡;
37、通過所述第二神經(jīng)網(wǎng)絡,確定所述關鍵詞集合分別與各個所述預設文本的相似度;
38、在相似度達到預設閾值的情況下,將對應的所述預設文本確定為目標文本;
39、將所述目標文本確定為所述投訴內(nèi)容數(shù)據(jù)的類別,并將所述目標文本進行輸出。
40、可選地,還包括:
41、獲得準確率、召回率以及綜合指標;
42、通過所述準確率、所述召回率以及所述綜合指標,對所述直接關鍵詞和所述間接關鍵詞進行評價;
43、通過所述準確率和所述綜合指標,對所述投訴內(nèi)容數(shù)據(jù)的類別進行評價。
44、根據(jù)本公開實施例的第二方面,提供一種文本分類裝置,包括:
45、獲取模塊,用于獲得投訴內(nèi)容數(shù)據(jù)中的關鍵句;
46、第一確定模塊,用于將所述關鍵句輸入第一神經(jīng)網(wǎng)絡的編碼器,確定所述關鍵句的直接關鍵詞;
47、第二確定模塊,用于將所述關鍵句結合控制編碼和詞標記輸入所述第一神經(jīng)網(wǎng)絡的解碼器,確定所述關鍵句的間接關鍵詞;
48、第三確定模塊,用于將所述直接關鍵詞和所述間接關鍵詞確定為關鍵詞集合;
49、匹配模塊,用于從語義庫中確定與所述關鍵詞集合匹配的預設文本,并將所述預設文本確定為所述投訴內(nèi)容數(shù)據(jù)的類別。
50、根據(jù)本公開實施例的第三方面,提供一種電子設備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時,實現(xiàn)如第一方面中所述的文本分類方法的步驟。
51、根據(jù)本公開實施例的第四方面,提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)如第一方面中所述的文本分類方法的步驟。
52、根據(jù)本公開實施例的第五方面,提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)第一方面所述的文本分類方法的步驟。
53、本公開通過結合直接關鍵詞和間接關鍵詞,能夠更全面地捕捉投訴內(nèi)容數(shù)據(jù)中的語義信息。引入控制編碼和詞標記作為解碼器的輸入,使得模型在生成間接關鍵詞時能夠考慮更多的上下文信息和語言規(guī)則,使得生成的間接關鍵詞更偏重歸納生成而非原文獲取,增強了模型對復雜語義的解析能力。自動化的文本分類方法顯著減少了人工審核的需求,特別是針對大量、重復的投訴內(nèi)容。