本發(fā)明涉及數(shù)據(jù)處理,具體涉及一種基于大語言模型的電力審計(jì)文本分類方法。
背景技術(shù):
1、基于大語言模型進(jìn)行電力審計(jì)文本分類,主要是針對(duì)電力行業(yè)中海量審計(jì)文本的高效管理需求,其通過利用先進(jìn)的自然語言處理技術(shù),特別是大規(guī)模預(yù)訓(xùn)練的語言模型,實(shí)現(xiàn)對(duì)審計(jì)文本的精準(zhǔn)分類和快速檢索,從而提高電力審計(jì)工作的智能化水平,確保電力系統(tǒng)的經(jīng)濟(jì)性、合規(guī)性和安全性。
2、然而,在審計(jì)過程中,樣本的采集可能受到多種因素的影響,如審計(jì)資源的分配、審計(jì)人員的判斷等。這都會(huì)導(dǎo)致某些類別的審計(jì)文本更容易被采集到,而其他類別的審計(jì)文本則相對(duì)較少。如此,在文本類別分布不均衡的情況下,將導(dǎo)致模型在訓(xùn)練過程中對(duì)不同類型的文本特征的學(xué)習(xí)程度存在差異,導(dǎo)致模型在訓(xùn)練后表現(xiàn)為傾向預(yù)測(cè)多數(shù)類,而忽略少數(shù)類,若文本類別分布不均衡問題不加以解決,將嚴(yán)重影響審計(jì)模型的準(zhǔn)確性和可靠性,進(jìn)而降低整個(gè)審計(jì)過程的質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、為了避免因電力審計(jì)文本樣本數(shù)據(jù)分布不均導(dǎo)致的預(yù)測(cè)結(jié)果偏差問題,本發(fā)明的目的在于提供一種基于大語言模型的電力審計(jì)文本分類方法,所采用的技術(shù)方案具體如下:
2、本技術(shù)公開的一種基于大語言模型的電力審計(jì)文本分類方法,所述方法包括:
3、s1、獲取分類好的歷史電力審計(jì)文本數(shù)據(jù);
4、s2、構(gòu)建和優(yōu)化所述歷史電力審計(jì)文本數(shù)據(jù)的分類表示,并評(píng)估這些表示在不同類別間的分類誤導(dǎo)度;
5、s3、獲取實(shí)時(shí)電力審計(jì)文本數(shù)據(jù),并基于所述分類誤導(dǎo)度對(duì)所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選類型的初始匹配度進(jìn)行修正,得到最終匹配度;
6、s4、基于所述最終匹配度實(shí)現(xiàn)所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)的文本分類。
7、進(jìn)一步的,步驟s2中,所述構(gòu)建和優(yōu)化所述歷史電力審計(jì)文本數(shù)據(jù)的分類表示,并評(píng)估這些表示在不同類別間的分類誤導(dǎo)度,包括:
8、s21、針對(duì)不同類別的歷史電力審計(jì)文本數(shù)據(jù),分別創(chuàng)建包含目標(biāo)關(guān)鍵詞匯的數(shù)據(jù)字典;
9、s22、獲取與所述歷史電力審計(jì)文本數(shù)據(jù)相關(guān)的審計(jì)意見段落列表,并基于所述審計(jì)意見段落列表進(jìn)行審計(jì)意見類別的劃分;
10、s23、針對(duì)相同審計(jì)意見類別對(duì)應(yīng)的數(shù)據(jù)字典,依據(jù)詞匯的語義特征、位置特征、以及上下文段落特征,將所述數(shù)據(jù)字典內(nèi)包含的各個(gè)目標(biāo)關(guān)鍵詞匯轉(zhuǎn)換為相應(yīng)的多維度詞匯向量,并進(jìn)行兩兩向量之間的重合度匹配,且在重合度大于預(yù)設(shè)閾值時(shí),進(jìn)行詞匯向量的合并,得到相應(yīng)的數(shù)據(jù)向量字典;
11、s24、針對(duì)每一類別數(shù)據(jù)向量字典中包括的各個(gè)詞匯向量,基于其相對(duì)不同類別數(shù)據(jù)向量字典的最大向量相似度均值,進(jìn)行分類誤導(dǎo)度的評(píng)估。
12、進(jìn)一步的,步驟s21中,針對(duì)相應(yīng)類別的歷史電力審計(jì)文本數(shù)據(jù),通過以下步驟創(chuàng)建包含目標(biāo)關(guān)鍵詞匯的數(shù)據(jù)字典:
13、s211、獲取所述相應(yīng)類別的歷史電力審計(jì)文本數(shù)據(jù)所涵蓋的所有文本字符串,并基于這些文本字符串進(jìn)行詞匯拆分、以及非關(guān)鍵詞匯的過濾,得到相應(yīng)的候選關(guān)鍵詞匯;
14、s212、針對(duì)每項(xiàng)候選關(guān)鍵詞匯,分別進(jìn)行相對(duì)重要程度的計(jì)算;
15、s213、按照相對(duì)重要程度從各項(xiàng)候選關(guān)鍵詞匯中篩選出預(yù)設(shè)比例的目標(biāo)關(guān)鍵詞匯,并基于所述目標(biāo)關(guān)鍵詞匯創(chuàng)建相應(yīng)的數(shù)據(jù)字典。
16、進(jìn)一步的,步驟s22中,所述基于所述審計(jì)意見段落列表進(jìn)行審計(jì)意見類別的劃分,包括:
17、s221、將所述審計(jì)意見段落列表中的每一項(xiàng)審計(jì)意見段落分別輸入到doc2vec模型中進(jìn)行處理,得到相應(yīng)的審計(jì)意見向量;
18、s222、基于所得的各項(xiàng)審計(jì)意見向量進(jìn)行聚類分析,并根據(jù)所得的聚類結(jié)果,進(jìn)行審計(jì)意見類別的劃分。
19、進(jìn)一步的,步驟s23中,所述依據(jù)詞匯的語義特征、位置特征、以及上下文段落特征,將所述數(shù)據(jù)字典內(nèi)包含的各個(gè)目標(biāo)關(guān)鍵詞匯轉(zhuǎn)換為相應(yīng)的多維度詞匯向量,并進(jìn)行兩兩向量之間的重合度匹配,包括:
20、s231、針對(duì)所述數(shù)據(jù)字典內(nèi)包含的各個(gè)目標(biāo)關(guān)鍵詞匯,分別通過語義分析、以及根據(jù)位置特征進(jìn)行上下文段落分析,得到相應(yīng)的詞向量、以及多個(gè)段落向量;
21、s232、基于相應(yīng)的詞向量、以及多個(gè)段落向量,構(gòu)建各個(gè)目標(biāo)關(guān)鍵詞匯的多維度詞匯向量;
22、s233、在基于所得的各個(gè)多維度詞匯向量進(jìn)行兩兩向量之間的重合度匹配時(shí),基于對(duì)應(yīng)多維度向量之間的余弦相似度反映詞匯之間的重合度。
23、進(jìn)一步的,步驟s24中,針對(duì)第 v個(gè)類型數(shù)據(jù)向量字典下的第 i個(gè)詞匯向量,其相對(duì)不同類別數(shù)據(jù)向量字典的最大向量相似度均值通過以下公式計(jì)算所得:
24、;
25、其中,表示當(dāng)前各數(shù)據(jù)向量字典涵蓋的分類種類數(shù)量,表示第個(gè)類型的數(shù)據(jù)向量字典,表示計(jì)算第 v個(gè)類型數(shù)據(jù)向量字典下的第 i個(gè)詞匯向量與第個(gè)類型的數(shù)據(jù)向量字典中所有詞匯向量的相似度,并找出其中的相似度最大值。
26、進(jìn)一步的,步驟s3中,所述基于所述分類誤導(dǎo)度對(duì)所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選類型的初始匹配度進(jìn)行修正,得到最終匹配度,包括:
27、s31、基于分割詞匯的語義特征、位置特征、以及上下文段落特征,構(gòu)建所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)的第一多維向量集合、以及所述歷史電力審計(jì)文本數(shù)據(jù)的第二多維向量集合;
28、s32、獲取與所述歷史電力審計(jì)文本數(shù)據(jù)相對(duì)應(yīng)的各類型數(shù)據(jù)字典;
29、s33、針對(duì)所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)中的每個(gè)拆分詞匯,分別基于所述第一、二多維向量集合計(jì)算其相對(duì)于所選類型數(shù)據(jù)字典中每個(gè)詞匯的最大相似度,基于所得的各項(xiàng)最大相似度進(jìn)行均值計(jì)算后,得到所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選類型的初始匹配度;
30、s34、基于所述分類誤導(dǎo)度,對(duì)所述初始匹配度進(jìn)行修正后,得到所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選類型的最終匹配度。
31、進(jìn)一步的,步驟s34中,所述基于所述分類誤導(dǎo)度,對(duì)所述初始匹配度進(jìn)行修正后,得到所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選類型的最終匹配度,包括:
32、s341、獲取對(duì)應(yīng)所選類型的電力審計(jì)報(bào)告樣本在所有樣本中的相對(duì)占比,綜合所述相對(duì)占比、以及所選類型中所有匹配詞匯的平均分類誤導(dǎo)度,得到所選類型的電力審計(jì)文本的修正系數(shù);
33、s342、基于所述修正系數(shù)對(duì)所述初始匹配度進(jìn)行修正后,得到所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選類型的最終匹配度。
34、進(jìn)一步的,步驟s341中,所選第類別的電力審計(jì)文本的修正系數(shù),具體是通過以下公式計(jì)算所得:
35、;
36、其中,表示所選第類別的電力審計(jì)文本樣本數(shù)量,表示所有樣本中的總樣本數(shù)量,表示所選第類別對(duì)應(yīng)匹配到的詞匯數(shù)量,表示所選第類別數(shù)據(jù)字典中第個(gè)匹配詞匯的分類誤導(dǎo)度, norm()表示歸一化函數(shù) 。
37、進(jìn)一步的,步驟s342中,所述最終匹配度,具體是通過以下公式計(jì)算所得:
38、;
39、其中,表示所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選第類別的最終匹配度,表示所述實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)相對(duì)于所選第類別的初始匹配度,表示所選第類別的電力審計(jì)文本的修正系數(shù)。
40、本發(fā)明具有如下有益效果:
41、1、構(gòu)建和優(yōu)化歷史電力審計(jì)文本數(shù)據(jù)的分類表示,能夠更準(zhǔn)確地捕捉文本數(shù)據(jù)的特征,減少分類過程中的信息損失和誤導(dǎo);
42、2、評(píng)估分類表示在不同類別間的分類誤導(dǎo)度,有助于識(shí)別潛在的分類錯(cuò)誤和混淆點(diǎn),從而進(jìn)行針對(duì)性的改進(jìn);
43、3、基于分類誤導(dǎo)度對(duì)實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)的初始匹配度進(jìn)行修正,可以消除或減輕由于數(shù)據(jù)差異、噪聲等因素導(dǎo)致的分類偏差,提高實(shí)時(shí)數(shù)據(jù)處理的精準(zhǔn)性;
44、4、基于最終匹配度實(shí)現(xiàn)實(shí)時(shí)電力審計(jì)文本數(shù)據(jù)的文本分類,可以極大地提高審計(jì)工作的自動(dòng)化程度,減少人工干預(yù)和錯(cuò)誤,提升審計(jì)效率。