本發(fā)明涉及數(shù)據(jù)挖掘,尤其涉及一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、知識(shí)圖譜作為人工智能領(lǐng)域的重要基石,旨在結(jié)構(gòu)化地表示人類知識(shí),并通過(guò)圖的形式展現(xiàn)實(shí)體間的復(fù)雜關(guān)系,不僅能夠促進(jìn)信息的有效組織和利用,還為智能問(wèn)答、推薦系統(tǒng)、語(yǔ)義搜索等應(yīng)用提供了強(qiáng)大的支持。
2、在現(xiàn)有技術(shù)中,在對(duì)知識(shí)圖譜進(jìn)行構(gòu)建時(shí),往往是直接對(duì)某一垂直領(lǐng)域進(jìn)行單方面的設(shè)定和提取,無(wú)法根據(jù)場(chǎng)景的變化提供優(yōu)良的知識(shí)圖譜構(gòu)建,因此,需要一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)來(lái)解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明目的是提供一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng),通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本實(shí)體進(jìn)行提取和關(guān)系抽取,為構(gòu)建知識(shí)圖譜提供了精準(zhǔn)的文本實(shí)體和實(shí)體關(guān)系,以解決現(xiàn)有的知識(shí)圖譜在構(gòu)建過(guò)程中覆蓋面低,無(wú)法對(duì)多種場(chǎng)景進(jìn)行構(gòu)建的問(wèn)題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明是通過(guò)如下的技術(shù)方案來(lái)實(shí)現(xiàn):第一方面,一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊;
3、所述數(shù)據(jù)采集模塊用于從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù);
4、所述數(shù)據(jù)識(shí)別模塊用于對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,得到文本實(shí)體和實(shí)體關(guān)系;
5、所述圖譜構(gòu)建模塊包括關(guān)系連接單元和圖譜優(yōu)化單元,所述關(guān)系連接單元用于對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接,得到文本實(shí)體關(guān)系網(wǎng)絡(luò);
6、所述圖譜優(yōu)化單元用于對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化,得到優(yōu)化知識(shí)圖譜。
7、進(jìn)一步地,所述數(shù)據(jù)識(shí)別模塊包括模型構(gòu)建單元和識(shí)別抽取單元,所述模型構(gòu)建單元配置有模型構(gòu)建策略,所述模型構(gòu)建策略包括從數(shù)據(jù)庫(kù)中獲取大量文本數(shù)據(jù),設(shè)置為訓(xùn)練文本數(shù)據(jù),對(duì)訓(xùn)練文本數(shù)據(jù)進(jìn)行清洗,去除超文本標(biāo)記語(yǔ)音、特殊字符、多余空格和無(wú)關(guān)信息,得到清洗訓(xùn)練文本數(shù)據(jù);
8、構(gòu)建模型,使用大量的清洗訓(xùn)練文本數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型;
9、獲取任意清洗訓(xùn)練文本數(shù)據(jù),確定該清洗訓(xùn)練文本數(shù)據(jù)的命名實(shí)體的類型體系,對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行人工標(biāo)注,得到標(biāo)注訓(xùn)練文本數(shù)據(jù);
10、使用標(biāo)注訓(xùn)練文本數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,得到大語(yǔ)言模型。
11、進(jìn)一步地,所述識(shí)別抽取單元配置有識(shí)別抽取策略,所述識(shí)別抽取策略包括獲取文本數(shù)據(jù),對(duì)文本數(shù)據(jù)進(jìn)行清洗后得到清洗訓(xùn)練文本數(shù)據(jù),使用訓(xùn)練完成的大語(yǔ)言模型對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別,得到文本實(shí)體;
12、使用訓(xùn)練完成的大語(yǔ)言模型對(duì)文本實(shí)體的關(guān)系進(jìn)行抽取,預(yù)測(cè)實(shí)體間的關(guān)系類型和關(guān)系指向,得到實(shí)體關(guān)系。
13、進(jìn)一步地,所述關(guān)系連接單元配置有關(guān)系連接策略,所述關(guān)系連接策略包括獲取文本實(shí)體和文本關(guān)系,對(duì)具有文本關(guān)系的文本實(shí)體創(chuàng)建預(yù)連接,從文本關(guān)系中獲取預(yù)連接中的關(guān)系指向,將指出的文本實(shí)體設(shè)置為指出文本實(shí)體,將被指向的文本實(shí)體設(shè)置為被指向文本實(shí)體;
14、獲取所有指出文本實(shí)體和被指向文本實(shí)體,得到指出文本實(shí)體集和被指向文本實(shí)體集;
15、將指出文本實(shí)體集和被指向文本實(shí)體集中的相同文本實(shí)體進(jìn)行合并,對(duì)整合后的指出文本實(shí)體集和被指向文本實(shí)體集進(jìn)行重連接,得到文本實(shí)體關(guān)系網(wǎng)絡(luò),所述文本實(shí)體關(guān)系網(wǎng)絡(luò)包括指出文本實(shí)體的多個(gè)被指向文本實(shí)體和被指向文本實(shí)體的多個(gè)指出文本實(shí)體。
16、進(jìn)一步地,所述圖譜優(yōu)化單元配置有關(guān)系優(yōu)化策略,所述關(guān)系優(yōu)化策略包括從文本關(guān)系中獲取每個(gè)文本關(guān)系間的文本類型,將所述文本類型填入文本實(shí)體關(guān)系網(wǎng),
17、對(duì)文本實(shí)體關(guān)系網(wǎng)進(jìn)行優(yōu)化處理,得到優(yōu)化關(guān)系網(wǎng)。
18、進(jìn)一步地,所述優(yōu)化處理包括從文本實(shí)體關(guān)系網(wǎng)中獲取連續(xù)產(chǎn)生連接的三個(gè)文本實(shí)體,將處于連接中間的文本實(shí)體刪除后,使用大語(yǔ)言模型對(duì)剩下兩個(gè)文本實(shí)體進(jìn)行關(guān)系抽?。?/p>
19、當(dāng)未抽取到實(shí)體關(guān)系時(shí),保持原連接不變;
20、當(dāng)抽取到實(shí)體關(guān)系時(shí),將剩下兩個(gè)文本實(shí)體進(jìn)行連接并填入關(guān)系類型;
21、對(duì)文本實(shí)體關(guān)系網(wǎng)中所有文本都進(jìn)行優(yōu)化處理后得優(yōu)化關(guān)系網(wǎng)。
22、進(jìn)一步地,所述圖譜優(yōu)化單元還配置有關(guān)系驗(yàn)證策略,所述關(guān)系驗(yàn)證策略包括獲取優(yōu)化關(guān)系網(wǎng)和知識(shí)圖譜中的現(xiàn)有實(shí)體,將優(yōu)化關(guān)系網(wǎng)中的文本實(shí)體和實(shí)體關(guān)系填入知識(shí)圖譜中,得到預(yù)知識(shí)圖譜;
23、對(duì)預(yù)知識(shí)圖譜的圖譜完整性進(jìn)行評(píng)估,將圖譜完整性為從優(yōu)化關(guān)系網(wǎng)中填入的文本實(shí)體與知識(shí)圖譜中的現(xiàn)有實(shí)體的比值設(shè)置為圖譜完整性百分比;
24、當(dāng)圖譜完整性百分比大于等于第一比例時(shí),將所述預(yù)知識(shí)圖譜設(shè)置為優(yōu)化知識(shí)圖譜;
25、當(dāng)圖譜完整性百分比小于第一比例時(shí),對(duì)大語(yǔ)言模型進(jìn)行實(shí)時(shí)迭代后重新獲取文本實(shí)體和文本關(guān)系,直至圖譜完整性百分比大于等于第一比例。
26、第二方面,一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法,所述方法包括:
27、步驟s1:從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù);
28、步驟s2:對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,得到文本實(shí)體和實(shí)體關(guān)系;
29、步驟s3:對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接,得到文本實(shí)體關(guān)系網(wǎng)絡(luò);
30、步驟s4:對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化,得到優(yōu)化知識(shí)圖譜。
31、本發(fā)明的有益效果:本發(fā)明首先通過(guò)從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù),文本數(shù)據(jù)用于訓(xùn)練大語(yǔ)言模型和提取文本實(shí)體,從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù)可以保證訓(xùn)練集充足,提高了大語(yǔ)言模型的準(zhǔn)確性;
32、本發(fā)明還通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,可以迅速?gòu)拇罅课谋局刑崛〗Y(jié)構(gòu)化信息,準(zhǔn)確獲取文本中的文本實(shí)體,提升識(shí)別結(jié)果的相關(guān)性和準(zhǔn)確性;
33、本發(fā)明還通過(guò)對(duì)知識(shí)圖譜進(jìn)行評(píng)估,可以對(duì)大語(yǔ)言模型的結(jié)果進(jìn)行反饋,及時(shí)對(duì)大語(yǔ)言模型進(jìn)行迭代,不斷提高大語(yǔ)言模型的準(zhǔn)確性。
34、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的具體實(shí)施方式的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
1.一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊;
2.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述數(shù)據(jù)識(shí)別模塊包括模型構(gòu)建單元和識(shí)別抽取單元,所述模型構(gòu)建單元配置有模型構(gòu)建策略,所述模型構(gòu)建策略包括從數(shù)據(jù)庫(kù)中獲取大量文本數(shù)據(jù),設(shè)置為訓(xùn)練文本數(shù)據(jù),對(duì)訓(xùn)練文本數(shù)據(jù)進(jìn)行清洗,去除超文本標(biāo)記語(yǔ)音、特殊字符、多余空格和無(wú)關(guān)信息,得到清洗訓(xùn)練文本數(shù)據(jù);
3.根據(jù)權(quán)利要求2所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述識(shí)別抽取單元配置有識(shí)別抽取策略,所述識(shí)別抽取策略包括獲取文本數(shù)據(jù),對(duì)文本數(shù)據(jù)進(jìn)行清洗后得到清洗訓(xùn)練文本數(shù)據(jù),使用訓(xùn)練完成的大語(yǔ)言模型對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別,得到文本實(shí)體;
4.根據(jù)權(quán)利要求3所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述關(guān)系連接單元配置有關(guān)系連接策略,所述關(guān)系連接策略包括獲取文本實(shí)體和文本關(guān)系,對(duì)具有文本關(guān)系的文本實(shí)體創(chuàng)建預(yù)連接,從文本關(guān)系中獲取預(yù)連接中的關(guān)系指向,將指出的文本實(shí)體設(shè)置為指出文本實(shí)體,將被指向的文本實(shí)體設(shè)置為被指向文本實(shí)體;
5.根據(jù)權(quán)利要求4所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述圖譜優(yōu)化單元配置有關(guān)系優(yōu)化策略,所述關(guān)系優(yōu)化策略包括從文本關(guān)系中獲取每個(gè)文本關(guān)系間的文本類型,將所述文本類型填入文本實(shí)體關(guān)系網(wǎng),
6.根據(jù)權(quán)利要求5所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述優(yōu)化處理包括從文本實(shí)體關(guān)系網(wǎng)中獲取連續(xù)產(chǎn)生連接的三個(gè)文本實(shí)體,將處于連接中間的文本實(shí)體刪除后,使用大語(yǔ)言模型對(duì)剩下兩個(gè)文本實(shí)體進(jìn)行關(guān)系抽??;
7.根據(jù)權(quán)利要求6所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述圖譜優(yōu)化單元還配置有關(guān)系驗(yàn)證策略,所述關(guān)系驗(yàn)證策略包括獲取優(yōu)化關(guān)系網(wǎng)和知識(shí)圖譜中的現(xiàn)有實(shí)體,將優(yōu)化關(guān)系網(wǎng)中的文本實(shí)體和實(shí)體關(guān)系填入知識(shí)圖譜中,得到預(yù)知識(shí)圖譜;
8.適用于權(quán)利要求1-7任意一項(xiàng)的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法,其特征在于,所述方法包括: