本發(fā)明涉及知識圖譜構(gòu)建,具體涉及基于ai技術(shù)的審計領(lǐng)域知識圖譜構(gòu)建方法。
背景技術(shù):
1、知識圖譜是一個用于表示和存儲知識的結(jié)構(gòu)化圖形模型,通常以圖的形式展示實體(如人、地點、事物)及其之間的關(guān)系。它通過節(jié)點(表示實體)和邊(表示關(guān)系)來構(gòu)建一個綜合的知識網(wǎng)絡(luò),使得信息能夠得以精準(zhǔn)地以語義化形式組織起來,并支持查詢,從而極大地提升信息檢索的準(zhǔn)確性和效率。知識圖譜廣泛應(yīng)用于搜索引擎、推薦系統(tǒng)、人工智能等領(lǐng)域,旨在全方位地提供詳盡的上下文信息,并增強檢索與推理的智能化水平,以優(yōu)化用戶體驗和決策效率。
2、在審計領(lǐng)域,知識圖譜是一個結(jié)構(gòu)化的知識網(wǎng)絡(luò),專注于審計過程中的各種實體、活動和關(guān)系。它將審計相關(guān)的信息元素(如審計標(biāo)準(zhǔn)、流程、風(fēng)險因素、控制措施、財務(wù)數(shù)據(jù)等)組織成節(jié)點和邊,以展示這些信息元素之間的關(guān)系和依賴。知識圖譜支持智能化的審計決策和數(shù)據(jù)挖掘,可以幫助審計人員更好地理解和分析審計對象,識別潛在風(fēng)險,提高審計效率。
3、在常規(guī)技術(shù)中,對電力審計領(lǐng)域進(jìn)行構(gòu)建知識圖譜時,沒有考慮到基層單位之間性質(zhì)的差異性,即在常規(guī)技術(shù)中會籠統(tǒng)的構(gòu)建一個大范圍的電力審計知識圖譜,導(dǎo)致對一些電力基層單位在進(jìn)行搜索查看時,浪費較多的時間,查詢結(jié)果的精確性也不高。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有電力審計知識圖譜對電力基層單位的適用性較弱的技術(shù)問題,本發(fā)明的目的在于提供了基于ai技術(shù)的審計領(lǐng)域知識圖譜構(gòu)建方法,所采用的技術(shù)方案具體如下:
2、采集記錄文本數(shù)據(jù),根據(jù)所述記錄文本數(shù)據(jù)來獲取實體數(shù)據(jù),并對所述實體數(shù)據(jù)進(jìn)行聚類來得到若干個類簇的實體數(shù)據(jù);
3、構(gòu)建包含標(biāo)準(zhǔn)文本數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)庫來獲取基層單位實體數(shù)據(jù),所述基層單位實體數(shù)據(jù)為基層單位所對應(yīng)的實體名稱;
4、計算每個類簇的所述實體數(shù)據(jù)與所述基層單位實體數(shù)據(jù)之間的相似值,所述相似值最大者所對應(yīng)的類簇為最上層類簇;
5、計算任意未確定層級的類簇與已確定層級的類簇中最低層級的類簇之間的層級關(guān)聯(lián)因子,所述層級關(guān)聯(lián)因子最大者所對應(yīng)的類簇為所述已確定層級的類簇的下一層級類簇,所述已確定層級的類簇包括所述最上層類簇;
6、計算相鄰層級的類簇中任意上層實體數(shù)據(jù)與任意下層實體數(shù)據(jù)之間的關(guān)聯(lián)程度,所述關(guān)聯(lián)程度超出預(yù)設(shè)關(guān)聯(lián)閾值時,所述上層實體數(shù)據(jù)連接所述下層實體數(shù)據(jù),從而完成知識圖譜的構(gòu)建。
7、進(jìn)一步地,所述記錄文本數(shù)據(jù)包括:審理報告、設(shè)備運行文檔、行業(yè)報告,所述標(biāo)準(zhǔn)文本數(shù)據(jù)包括:關(guān)于審計行業(yè)法規(guī)和標(biāo)準(zhǔn)的文本數(shù)據(jù),所述實體數(shù)據(jù)包括:單位組織名稱、人名、時間地點以及事件。
8、進(jìn)一步地,根據(jù)所述記錄文本數(shù)據(jù)來獲取實體數(shù)據(jù)包括:
9、對所述記錄文本數(shù)據(jù)進(jìn)行清洗,進(jìn)而對清洗過后的所述記錄文本數(shù)據(jù)進(jìn)行分詞;
10、根據(jù)bert模型獲取所述記錄文本數(shù)據(jù)中的實體數(shù)據(jù),獲取所述實體數(shù)據(jù)中每個詞的詞向量。
11、進(jìn)一步地,當(dāng)所述實體數(shù)據(jù)包含一個詞時,所述詞的詞向量為所述實體數(shù)據(jù)的實體向量,當(dāng)所述實體數(shù)據(jù)包含至少兩個詞時,全部所述詞的詞向量的矢量和為所述實體數(shù)據(jù)的實體向量。
12、進(jìn)一步地,對所述實體數(shù)據(jù)進(jìn)行聚類來得到若干個類簇的實體數(shù)據(jù)包括:
13、通過k-means聚類算法對所述實體數(shù)據(jù)進(jìn)行聚類,通過手肘法獲取所述聚類的個數(shù)。
14、進(jìn)一步地,所述計算每個類簇的所述實體數(shù)據(jù)與所述基層單位實體數(shù)據(jù)之間的相似值包括:
15、計算第一總向量與第二總向量之間的余弦相似度,其中,所述第一總向量為所述基層單位實體數(shù)據(jù)對應(yīng)的全部實體數(shù)據(jù)的實體向量進(jìn)行矢量加法運算后得到的向量,所述第二總向量為第i個類簇中的全部實體數(shù)據(jù)的實體向量進(jìn)行矢量加法運算后得到的向量;
16、將第一占比減去第二占比之后取絕對值來獲取占比差值的絕對值,所述占比差值的絕對值的相反數(shù)作為自然指數(shù)函數(shù)的參數(shù)來獲取指數(shù)值,其中,所述第一占比為所述基層單位實體數(shù)據(jù)在所述標(biāo)準(zhǔn)數(shù)據(jù)庫中的全部所述實體數(shù)據(jù)中的占比,所述第二占比為第i個類簇中的實體數(shù)據(jù)在所述記錄文本數(shù)據(jù)中的全部實體數(shù)據(jù)中的占比;
17、所述余弦相似度乘以所述指數(shù)值來得到所述相似值。
18、進(jìn)一步地,所述計算任意未確定層級的類簇與已確定層級的類簇中最低層級的類簇之間的層級關(guān)聯(lián)因子包括:
19、計算第一矢量和與第二矢量和進(jìn)行矢量減法運算后的模長,其中,所述第一矢量和為所述已確定層級的類簇中最低層級的類簇中全部所述實體數(shù)據(jù)包含的詞的詞向量的矢量和,所述第二矢量和為所述未確定層級的類簇中全部所述實體數(shù)據(jù)包含的詞的詞向量的矢量和;
20、將第一特征個數(shù)減去第二特征個數(shù)之后取絕對值獲取特征個數(shù)絕對值,其中,所述第一特征個數(shù)為所述已確定層級的類簇中最低層級的類簇的特征個數(shù),所述第二特征個數(shù)為所述未確定層級的類簇的特征個數(shù);
21、將所述特征個數(shù)絕對值與所述模長相乘之后的相反數(shù)作為自然指數(shù)函數(shù)的參數(shù)來得到所述層級關(guān)聯(lián)因子。
22、進(jìn)一步地,所述計算相鄰層級類簇的任意上層實體數(shù)據(jù)與任意下層實體數(shù)據(jù)之間的關(guān)聯(lián)程度包括:
23、獲取所述上層實體數(shù)據(jù)的實體向量與所述下層實體數(shù)據(jù)的實體向量進(jìn)行矢量減法運算后的模長;
24、將所述上層實體數(shù)據(jù)包含的詞的詞頻的均值減去所述下層實體數(shù)據(jù)包含的詞的詞頻的均值之后取絕對值來得到詞頻均值差異絕對值;
25、獲取所述上層實體數(shù)據(jù)與所述下層實體數(shù)據(jù)在所述標(biāo)準(zhǔn)數(shù)據(jù)庫內(nèi)的同一個文本中二者之間的距離值;
26、所述模長、所述詞頻均值差異絕對值、所述距離值依次相乘之后的相反數(shù)作為自然指數(shù)函數(shù)的參數(shù)來得到所述關(guān)聯(lián)程度。
27、進(jìn)一步地,所述方法還包括:
28、當(dāng)所述上層實體數(shù)據(jù)與所述下層實體數(shù)據(jù)在所述標(biāo)準(zhǔn)數(shù)據(jù)庫內(nèi)的至少兩個相同文本中同時出現(xiàn)時,將所述上層實體數(shù)據(jù)與所述下層實體數(shù)據(jù)在各文本中二者之間的距離的均值作為所述距離值。
29、進(jìn)一步地,所述預(yù)設(shè)關(guān)聯(lián)閾值為0.5。
30、本發(fā)明具有如下有益效果:
31、首先,采集記錄文本數(shù)據(jù),根據(jù)所述記錄文本數(shù)據(jù)來獲取實體數(shù)據(jù),并對所述實體數(shù)據(jù)進(jìn)行聚類來得到若干個類簇的實體數(shù)據(jù)。這里的聚類是對所述記錄文本數(shù)據(jù)中的實體數(shù)據(jù)進(jìn)行分類,同一類簇內(nèi)的實體數(shù)據(jù)差異性不大。構(gòu)建包含標(biāo)準(zhǔn)文本數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)庫來獲取基層單位實體數(shù)據(jù),所述基層單位實體數(shù)據(jù)為基層單位所對應(yīng)的實體名稱。獲取所述基層單位實體數(shù)據(jù)是為了后續(xù)確定最上層類簇。計算每個類簇的所述實體數(shù)據(jù)與所述基層單位實體數(shù)據(jù)之間的相似值,所述相似值最大者所對應(yīng)的類簇為最上層類簇。這里獲取最上層類簇是為了方便接下來獲取最上層類簇的下一層級類簇。計算任意未確定層級的類簇與已確定層級的類簇中最低層級的類簇之間的層級關(guān)聯(lián)因子,所述層級關(guān)聯(lián)因子最大者所對應(yīng)的類簇為所述已確定層級的類簇的下一層級類簇,所述已確定層級的類簇包括所述最上層類簇。這里是根據(jù)最上層類簇獲取所述最上層類簇的下一層級類簇即第二層級類簇,根據(jù)所述第二層級類簇來獲取所述第二層級類簇的下一層級類簇即第三層級類簇,并以此類推確定好各個類簇所屬層級。計算相鄰層級的類簇中任意上層實體數(shù)據(jù)與任意下層實體數(shù)據(jù)之間的關(guān)聯(lián)程度,所述關(guān)聯(lián)程度超出預(yù)設(shè)關(guān)聯(lián)閾值時,所述上層實體數(shù)據(jù)連接所述下層實體數(shù)據(jù),從而完成知識圖譜的構(gòu)建。這里是為了得到相鄰層級的不同實體數(shù)據(jù)之間的關(guān)聯(lián)程度,每個實體數(shù)據(jù)均可看成一個節(jié)點,所述關(guān)聯(lián)程度超出預(yù)設(shè)關(guān)聯(lián)閾值時,則所述上層實體數(shù)據(jù)節(jié)點連接所述下層實體數(shù)據(jù)節(jié)點,一個所述上層實體數(shù)據(jù)節(jié)點可以連接多個所述下層實體數(shù)據(jù)節(jié)點。這樣就構(gòu)建成功了一個知識圖譜,該知識圖譜提高了實體數(shù)據(jù)之間聯(lián)系的緊密性,也提高了基層單位搜索查看的效率和結(jié)果的精確性。