一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)與流程

文檔序號(hào)：40439764發(fā)布日期：2024-12-24 15:13閱讀：22來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)挖掘，尤其涉及一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)。

背景技術(shù)：

1、知識(shí)圖譜作為人工智能領(lǐng)域的重要基石，旨在結(jié)構(gòu)化地表示人類知識(shí)，并通過(guò)圖的形式展現(xiàn)實(shí)體間的復(fù)雜關(guān)系，不僅能夠促進(jìn)信息的有效組織和利用，還為智能問(wèn)答、推薦系統(tǒng)、語(yǔ)義搜索等應(yīng)用提供了強(qiáng)大的支持。

2、在現(xiàn)有技術(shù)中，在對(duì)知識(shí)圖譜進(jìn)行構(gòu)建時(shí)，往往是直接對(duì)某一垂直領(lǐng)域進(jìn)行單方面的設(shè)定和提取，無(wú)法根據(jù)場(chǎng)景的變化提供優(yōu)良的知識(shí)圖譜構(gòu)建，因此，需要一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)來(lái)解決上述問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)存在的不足，本發(fā)明目的是提供一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)，通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本實(shí)體進(jìn)行提取和關(guān)系抽取，為構(gòu)建知識(shí)圖譜提供了精準(zhǔn)的文本實(shí)體和實(shí)體關(guān)系，以解決現(xiàn)有的知識(shí)圖譜在構(gòu)建過(guò)程中覆蓋面低，無(wú)法對(duì)多種場(chǎng)景進(jìn)行構(gòu)建的問(wèn)題。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明是通過(guò)如下的技術(shù)方案來(lái)實(shí)現(xiàn)：第一方面，一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，所述系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊；

3、所述數(shù)據(jù)采集模塊用于從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù)；

4、所述數(shù)據(jù)識(shí)別模塊用于對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取，得到文本實(shí)體和實(shí)體關(guān)系；

5、所述圖譜構(gòu)建模塊包括關(guān)系連接單元和圖譜優(yōu)化單元，所述關(guān)系連接單元用于對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接，得到文本實(shí)體關(guān)系網(wǎng)絡(luò)；

6、所述圖譜優(yōu)化單元用于對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化，得到優(yōu)化知識(shí)圖譜。

7、進(jìn)一步地，所述數(shù)據(jù)識(shí)別模塊包括模型構(gòu)建單元和識(shí)別抽取單元，所述模型構(gòu)建單元配置有模型構(gòu)建策略，所述模型構(gòu)建策略包括從數(shù)據(jù)庫(kù)中獲取大量文本數(shù)據(jù)，設(shè)置為訓(xùn)練文本數(shù)據(jù)，對(duì)訓(xùn)練文本數(shù)據(jù)進(jìn)行清洗，去除超文本標(biāo)記語(yǔ)音、特殊字符、多余空格和無(wú)關(guān)信息，得到清洗訓(xùn)練文本數(shù)據(jù)；

8、構(gòu)建模型，使用大量的清洗訓(xùn)練文本數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練，得到預(yù)訓(xùn)練模型；

9、獲取任意清洗訓(xùn)練文本數(shù)據(jù)，確定該清洗訓(xùn)練文本數(shù)據(jù)的命名實(shí)體的類型體系，對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行人工標(biāo)注，得到標(biāo)注訓(xùn)練文本數(shù)據(jù)；

10、使用標(biāo)注訓(xùn)練文本數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練，得到大語(yǔ)言模型。

11、進(jìn)一步地，所述識(shí)別抽取單元配置有識(shí)別抽取策略，所述識(shí)別抽取策略包括獲取文本數(shù)據(jù)，對(duì)文本數(shù)據(jù)進(jìn)行清洗后得到清洗訓(xùn)練文本數(shù)據(jù)，使用訓(xùn)練完成的大語(yǔ)言模型對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別，得到文本實(shí)體；

12、使用訓(xùn)練完成的大語(yǔ)言模型對(duì)文本實(shí)體的關(guān)系進(jìn)行抽取，預(yù)測(cè)實(shí)體間的關(guān)系類型和關(guān)系指向，得到實(shí)體關(guān)系。

13、進(jìn)一步地，所述關(guān)系連接單元配置有關(guān)系連接策略，所述關(guān)系連接策略包括獲取文本實(shí)體和文本關(guān)系，對(duì)具有文本關(guān)系的文本實(shí)體創(chuàng)建預(yù)連接，從文本關(guān)系中獲取預(yù)連接中的關(guān)系指向，將指出的文本實(shí)體設(shè)置為指出文本實(shí)體，將被指向的文本實(shí)體設(shè)置為被指向文本實(shí)體；

14、獲取所有指出文本實(shí)體和被指向文本實(shí)體，得到指出文本實(shí)體集和被指向文本實(shí)體集；

15、將指出文本實(shí)體集和被指向文本實(shí)體集中的相同文本實(shí)體進(jìn)行合并，對(duì)整合后的指出文本實(shí)體集和被指向文本實(shí)體集進(jìn)行重連接，得到文本實(shí)體關(guān)系網(wǎng)絡(luò)，所述文本實(shí)體關(guān)系網(wǎng)絡(luò)包括指出文本實(shí)體的多個(gè)被指向文本實(shí)體和被指向文本實(shí)體的多個(gè)指出文本實(shí)體。

16、進(jìn)一步地，所述圖譜優(yōu)化單元配置有關(guān)系優(yōu)化策略，所述關(guān)系優(yōu)化策略包括從文本關(guān)系中獲取每個(gè)文本關(guān)系間的文本類型，將所述文本類型填入文本實(shí)體關(guān)系網(wǎng)，

17、對(duì)文本實(shí)體關(guān)系網(wǎng)進(jìn)行優(yōu)化處理，得到優(yōu)化關(guān)系網(wǎng)。

18、進(jìn)一步地，所述優(yōu)化處理包括從文本實(shí)體關(guān)系網(wǎng)中獲取連續(xù)產(chǎn)生連接的三個(gè)文本實(shí)體，將處于連接中間的文本實(shí)體刪除后，使用大語(yǔ)言模型對(duì)剩下兩個(gè)文本實(shí)體進(jìn)行關(guān)系抽?。?/p>

19、當(dāng)未抽取到實(shí)體關(guān)系時(shí)，保持原連接不變；

20、當(dāng)抽取到實(shí)體關(guān)系時(shí)，將剩下兩個(gè)文本實(shí)體進(jìn)行連接并填入關(guān)系類型；

21、對(duì)文本實(shí)體關(guān)系網(wǎng)中所有文本都進(jìn)行優(yōu)化處理后得優(yōu)化關(guān)系網(wǎng)。

22、進(jìn)一步地，所述圖譜優(yōu)化單元還配置有關(guān)系驗(yàn)證策略，所述關(guān)系驗(yàn)證策略包括獲取優(yōu)化關(guān)系網(wǎng)和知識(shí)圖譜中的現(xiàn)有實(shí)體，將優(yōu)化關(guān)系網(wǎng)中的文本實(shí)體和實(shí)體關(guān)系填入知識(shí)圖譜中，得到預(yù)知識(shí)圖譜；

23、對(duì)預(yù)知識(shí)圖譜的圖譜完整性進(jìn)行評(píng)估，將圖譜完整性為從優(yōu)化關(guān)系網(wǎng)中填入的文本實(shí)體與知識(shí)圖譜中的現(xiàn)有實(shí)體的比值設(shè)置為圖譜完整性百分比；

24、當(dāng)圖譜完整性百分比大于等于第一比例時(shí)，將所述預(yù)知識(shí)圖譜設(shè)置為優(yōu)化知識(shí)圖譜；

25、當(dāng)圖譜完整性百分比小于第一比例時(shí)，對(duì)大語(yǔ)言模型進(jìn)行實(shí)時(shí)迭代后重新獲取文本實(shí)體和文本關(guān)系，直至圖譜完整性百分比大于等于第一比例。

26、第二方面，一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法，所述方法包括：

27、步驟s1：從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù)；

28、步驟s2：對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取，得到文本實(shí)體和實(shí)體關(guān)系；

29、步驟s3：對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接，得到文本實(shí)體關(guān)系網(wǎng)絡(luò)；

30、步驟s4：對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化，得到優(yōu)化知識(shí)圖譜。

31、本發(fā)明的有益效果：本發(fā)明首先通過(guò)從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù)，文本數(shù)據(jù)用于訓(xùn)練大語(yǔ)言模型和提取文本實(shí)體，從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù)可以保證訓(xùn)練集充足，提高了大語(yǔ)言模型的準(zhǔn)確性；

32、本發(fā)明還通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取，可以迅速?gòu)拇罅课谋局刑崛〗Y(jié)構(gòu)化信息，準(zhǔn)確獲取文本中的文本實(shí)體，提升識(shí)別結(jié)果的相關(guān)性和準(zhǔn)確性；

33、本發(fā)明還通過(guò)對(duì)知識(shí)圖譜進(jìn)行評(píng)估，可以對(duì)大語(yǔ)言模型的結(jié)果進(jìn)行反饋，及時(shí)對(duì)大語(yǔ)言模型進(jìn)行迭代，不斷提高大語(yǔ)言模型的準(zhǔn)確性。

34、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的具體實(shí)施方式的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。

技術(shù)特征：

1.一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，其特征在于，包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊；

2.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，其特征在于，所述數(shù)據(jù)識(shí)別模塊包括模型構(gòu)建單元和識(shí)別抽取單元，所述模型構(gòu)建單元配置有模型構(gòu)建策略，所述模型構(gòu)建策略包括從數(shù)據(jù)庫(kù)中獲取大量文本數(shù)據(jù)，設(shè)置為訓(xùn)練文本數(shù)據(jù)，對(duì)訓(xùn)練文本數(shù)據(jù)進(jìn)行清洗，去除超文本標(biāo)記語(yǔ)音、特殊字符、多余空格和無(wú)關(guān)信息，得到清洗訓(xùn)練文本數(shù)據(jù)；

3.根據(jù)權(quán)利要求2所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，其特征在于，所述識(shí)別抽取單元配置有識(shí)別抽取策略，所述識(shí)別抽取策略包括獲取文本數(shù)據(jù)，對(duì)文本數(shù)據(jù)進(jìn)行清洗后得到清洗訓(xùn)練文本數(shù)據(jù)，使用訓(xùn)練完成的大語(yǔ)言模型對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別，得到文本實(shí)體；

4.根據(jù)權(quán)利要求3所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，其特征在于，所述關(guān)系連接單元配置有關(guān)系連接策略，所述關(guān)系連接策略包括獲取文本實(shí)體和文本關(guān)系，對(duì)具有文本關(guān)系的文本實(shí)體創(chuàng)建預(yù)連接，從文本關(guān)系中獲取預(yù)連接中的關(guān)系指向，將指出的文本實(shí)體設(shè)置為指出文本實(shí)體，將被指向的文本實(shí)體設(shè)置為被指向文本實(shí)體；

5.根據(jù)權(quán)利要求4所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，其特征在于，所述圖譜優(yōu)化單元配置有關(guān)系優(yōu)化策略，所述關(guān)系優(yōu)化策略包括從文本關(guān)系中獲取每個(gè)文本關(guān)系間的文本類型，將所述文本類型填入文本實(shí)體關(guān)系網(wǎng)，

6.根據(jù)權(quán)利要求5所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，其特征在于，所述優(yōu)化處理包括從文本實(shí)體關(guān)系網(wǎng)中獲取連續(xù)產(chǎn)生連接的三個(gè)文本實(shí)體，將處于連接中間的文本實(shí)體刪除后，使用大語(yǔ)言模型對(duì)剩下兩個(gè)文本實(shí)體進(jìn)行關(guān)系抽??；

7.根據(jù)權(quán)利要求6所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng)，其特征在于，所述圖譜優(yōu)化單元還配置有關(guān)系驗(yàn)證策略，所述關(guān)系驗(yàn)證策略包括獲取優(yōu)化關(guān)系網(wǎng)和知識(shí)圖譜中的現(xiàn)有實(shí)體，將優(yōu)化關(guān)系網(wǎng)中的文本實(shí)體和實(shí)體關(guān)系填入知識(shí)圖譜中，得到預(yù)知識(shí)圖譜；

8.適用于權(quán)利要求1-7任意一項(xiàng)的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法，其特征在于，所述方法包括：

技術(shù)總結(jié)
本發(fā)明提供一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)，涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域，包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊；數(shù)據(jù)采集模塊用于從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù)；數(shù)據(jù)識(shí)別模塊用于對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取，得到文本實(shí)體和實(shí)體關(guān)系；圖譜構(gòu)建模塊用于對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接并對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化，得到優(yōu)化知識(shí)圖譜；本發(fā)明通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本實(shí)體進(jìn)行提取和關(guān)系抽取，為構(gòu)建知識(shí)圖譜提供了精準(zhǔn)的文本實(shí)體和實(shí)體關(guān)系，以解決現(xiàn)有的知識(shí)圖譜在構(gòu)建過(guò)程中覆蓋面低，無(wú)法對(duì)多種場(chǎng)景進(jìn)行構(gòu)建的問(wèn)題。

技術(shù)研發(fā)人員：廖林,徐夢(mèng)陽(yáng),王欣,王薇
受保護(hù)的技術(shù)使用者：北京西普霍斯科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：廖林,徐夢(mèng)陽(yáng),王欣,王薇
技術(shù)所有人：北京西普霍斯科技有限公司
我是此專利的發(fā)明人

上一篇：一種玻纖網(wǎng)格布生產(chǎn)用的樹(shù)脂涂布裝置的制作方法
上一篇：一種乒乓球擊球落點(diǎn)練習(xí)器

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)與流程