欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)與流程

文檔序號(hào):40439764發(fā)布日期:2024-12-24 15:13閱讀:22來(lái)源:國(guó)知局
一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)挖掘,尤其涉及一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)。


背景技術(shù):

1、知識(shí)圖譜作為人工智能領(lǐng)域的重要基石,旨在結(jié)構(gòu)化地表示人類知識(shí),并通過(guò)圖的形式展現(xiàn)實(shí)體間的復(fù)雜關(guān)系,不僅能夠促進(jìn)信息的有效組織和利用,還為智能問(wèn)答、推薦系統(tǒng)、語(yǔ)義搜索等應(yīng)用提供了強(qiáng)大的支持。

2、在現(xiàn)有技術(shù)中,在對(duì)知識(shí)圖譜進(jìn)行構(gòu)建時(shí),往往是直接對(duì)某一垂直領(lǐng)域進(jìn)行單方面的設(shè)定和提取,無(wú)法根據(jù)場(chǎng)景的變化提供優(yōu)良的知識(shí)圖譜構(gòu)建,因此,需要一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng)來(lái)解決上述問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明目的是提供一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng),通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本實(shí)體進(jìn)行提取和關(guān)系抽取,為構(gòu)建知識(shí)圖譜提供了精準(zhǔn)的文本實(shí)體和實(shí)體關(guān)系,以解決現(xiàn)有的知識(shí)圖譜在構(gòu)建過(guò)程中覆蓋面低,無(wú)法對(duì)多種場(chǎng)景進(jìn)行構(gòu)建的問(wèn)題。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明是通過(guò)如下的技術(shù)方案來(lái)實(shí)現(xiàn):第一方面,一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊;

3、所述數(shù)據(jù)采集模塊用于從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù);

4、所述數(shù)據(jù)識(shí)別模塊用于對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,得到文本實(shí)體和實(shí)體關(guān)系;

5、所述圖譜構(gòu)建模塊包括關(guān)系連接單元和圖譜優(yōu)化單元,所述關(guān)系連接單元用于對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接,得到文本實(shí)體關(guān)系網(wǎng)絡(luò);

6、所述圖譜優(yōu)化單元用于對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化,得到優(yōu)化知識(shí)圖譜。

7、進(jìn)一步地,所述數(shù)據(jù)識(shí)別模塊包括模型構(gòu)建單元和識(shí)別抽取單元,所述模型構(gòu)建單元配置有模型構(gòu)建策略,所述模型構(gòu)建策略包括從數(shù)據(jù)庫(kù)中獲取大量文本數(shù)據(jù),設(shè)置為訓(xùn)練文本數(shù)據(jù),對(duì)訓(xùn)練文本數(shù)據(jù)進(jìn)行清洗,去除超文本標(biāo)記語(yǔ)音、特殊字符、多余空格和無(wú)關(guān)信息,得到清洗訓(xùn)練文本數(shù)據(jù);

8、構(gòu)建模型,使用大量的清洗訓(xùn)練文本數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型;

9、獲取任意清洗訓(xùn)練文本數(shù)據(jù),確定該清洗訓(xùn)練文本數(shù)據(jù)的命名實(shí)體的類型體系,對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行人工標(biāo)注,得到標(biāo)注訓(xùn)練文本數(shù)據(jù);

10、使用標(biāo)注訓(xùn)練文本數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,得到大語(yǔ)言模型。

11、進(jìn)一步地,所述識(shí)別抽取單元配置有識(shí)別抽取策略,所述識(shí)別抽取策略包括獲取文本數(shù)據(jù),對(duì)文本數(shù)據(jù)進(jìn)行清洗后得到清洗訓(xùn)練文本數(shù)據(jù),使用訓(xùn)練完成的大語(yǔ)言模型對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別,得到文本實(shí)體;

12、使用訓(xùn)練完成的大語(yǔ)言模型對(duì)文本實(shí)體的關(guān)系進(jìn)行抽取,預(yù)測(cè)實(shí)體間的關(guān)系類型和關(guān)系指向,得到實(shí)體關(guān)系。

13、進(jìn)一步地,所述關(guān)系連接單元配置有關(guān)系連接策略,所述關(guān)系連接策略包括獲取文本實(shí)體和文本關(guān)系,對(duì)具有文本關(guān)系的文本實(shí)體創(chuàng)建預(yù)連接,從文本關(guān)系中獲取預(yù)連接中的關(guān)系指向,將指出的文本實(shí)體設(shè)置為指出文本實(shí)體,將被指向的文本實(shí)體設(shè)置為被指向文本實(shí)體;

14、獲取所有指出文本實(shí)體和被指向文本實(shí)體,得到指出文本實(shí)體集和被指向文本實(shí)體集;

15、將指出文本實(shí)體集和被指向文本實(shí)體集中的相同文本實(shí)體進(jìn)行合并,對(duì)整合后的指出文本實(shí)體集和被指向文本實(shí)體集進(jìn)行重連接,得到文本實(shí)體關(guān)系網(wǎng)絡(luò),所述文本實(shí)體關(guān)系網(wǎng)絡(luò)包括指出文本實(shí)體的多個(gè)被指向文本實(shí)體和被指向文本實(shí)體的多個(gè)指出文本實(shí)體。

16、進(jìn)一步地,所述圖譜優(yōu)化單元配置有關(guān)系優(yōu)化策略,所述關(guān)系優(yōu)化策略包括從文本關(guān)系中獲取每個(gè)文本關(guān)系間的文本類型,將所述文本類型填入文本實(shí)體關(guān)系網(wǎng),

17、對(duì)文本實(shí)體關(guān)系網(wǎng)進(jìn)行優(yōu)化處理,得到優(yōu)化關(guān)系網(wǎng)。

18、進(jìn)一步地,所述優(yōu)化處理包括從文本實(shí)體關(guān)系網(wǎng)中獲取連續(xù)產(chǎn)生連接的三個(gè)文本實(shí)體,將處于連接中間的文本實(shí)體刪除后,使用大語(yǔ)言模型對(duì)剩下兩個(gè)文本實(shí)體進(jìn)行關(guān)系抽?。?/p>

19、當(dāng)未抽取到實(shí)體關(guān)系時(shí),保持原連接不變;

20、當(dāng)抽取到實(shí)體關(guān)系時(shí),將剩下兩個(gè)文本實(shí)體進(jìn)行連接并填入關(guān)系類型;

21、對(duì)文本實(shí)體關(guān)系網(wǎng)中所有文本都進(jìn)行優(yōu)化處理后得優(yōu)化關(guān)系網(wǎng)。

22、進(jìn)一步地,所述圖譜優(yōu)化單元還配置有關(guān)系驗(yàn)證策略,所述關(guān)系驗(yàn)證策略包括獲取優(yōu)化關(guān)系網(wǎng)和知識(shí)圖譜中的現(xiàn)有實(shí)體,將優(yōu)化關(guān)系網(wǎng)中的文本實(shí)體和實(shí)體關(guān)系填入知識(shí)圖譜中,得到預(yù)知識(shí)圖譜;

23、對(duì)預(yù)知識(shí)圖譜的圖譜完整性進(jìn)行評(píng)估,將圖譜完整性為從優(yōu)化關(guān)系網(wǎng)中填入的文本實(shí)體與知識(shí)圖譜中的現(xiàn)有實(shí)體的比值設(shè)置為圖譜完整性百分比;

24、當(dāng)圖譜完整性百分比大于等于第一比例時(shí),將所述預(yù)知識(shí)圖譜設(shè)置為優(yōu)化知識(shí)圖譜;

25、當(dāng)圖譜完整性百分比小于第一比例時(shí),對(duì)大語(yǔ)言模型進(jìn)行實(shí)時(shí)迭代后重新獲取文本實(shí)體和文本關(guān)系,直至圖譜完整性百分比大于等于第一比例。

26、第二方面,一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法,所述方法包括:

27、步驟s1:從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù);

28、步驟s2:對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,得到文本實(shí)體和實(shí)體關(guān)系;

29、步驟s3:對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接,得到文本實(shí)體關(guān)系網(wǎng)絡(luò);

30、步驟s4:對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化,得到優(yōu)化知識(shí)圖譜。

31、本發(fā)明的有益效果:本發(fā)明首先通過(guò)從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù),文本數(shù)據(jù)用于訓(xùn)練大語(yǔ)言模型和提取文本實(shí)體,從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù)可以保證訓(xùn)練集充足,提高了大語(yǔ)言模型的準(zhǔn)確性;

32、本發(fā)明還通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,可以迅速?gòu)拇罅课谋局刑崛〗Y(jié)構(gòu)化信息,準(zhǔn)確獲取文本中的文本實(shí)體,提升識(shí)別結(jié)果的相關(guān)性和準(zhǔn)確性;

33、本發(fā)明還通過(guò)對(duì)知識(shí)圖譜進(jìn)行評(píng)估,可以對(duì)大語(yǔ)言模型的結(jié)果進(jìn)行反饋,及時(shí)對(duì)大語(yǔ)言模型進(jìn)行迭代,不斷提高大語(yǔ)言模型的準(zhǔn)確性。

34、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的具體實(shí)施方式的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。



技術(shù)特征:

1.一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊;

2.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述數(shù)據(jù)識(shí)別模塊包括模型構(gòu)建單元和識(shí)別抽取單元,所述模型構(gòu)建單元配置有模型構(gòu)建策略,所述模型構(gòu)建策略包括從數(shù)據(jù)庫(kù)中獲取大量文本數(shù)據(jù),設(shè)置為訓(xùn)練文本數(shù)據(jù),對(duì)訓(xùn)練文本數(shù)據(jù)進(jìn)行清洗,去除超文本標(biāo)記語(yǔ)音、特殊字符、多余空格和無(wú)關(guān)信息,得到清洗訓(xùn)練文本數(shù)據(jù);

3.根據(jù)權(quán)利要求2所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述識(shí)別抽取單元配置有識(shí)別抽取策略,所述識(shí)別抽取策略包括獲取文本數(shù)據(jù),對(duì)文本數(shù)據(jù)進(jìn)行清洗后得到清洗訓(xùn)練文本數(shù)據(jù),使用訓(xùn)練完成的大語(yǔ)言模型對(duì)清洗訓(xùn)練文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別,得到文本實(shí)體;

4.根據(jù)權(quán)利要求3所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述關(guān)系連接單元配置有關(guān)系連接策略,所述關(guān)系連接策略包括獲取文本實(shí)體和文本關(guān)系,對(duì)具有文本關(guān)系的文本實(shí)體創(chuàng)建預(yù)連接,從文本關(guān)系中獲取預(yù)連接中的關(guān)系指向,將指出的文本實(shí)體設(shè)置為指出文本實(shí)體,將被指向的文本實(shí)體設(shè)置為被指向文本實(shí)體;

5.根據(jù)權(quán)利要求4所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述圖譜優(yōu)化單元配置有關(guān)系優(yōu)化策略,所述關(guān)系優(yōu)化策略包括從文本關(guān)系中獲取每個(gè)文本關(guān)系間的文本類型,將所述文本類型填入文本實(shí)體關(guān)系網(wǎng),

6.根據(jù)權(quán)利要求5所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述優(yōu)化處理包括從文本實(shí)體關(guān)系網(wǎng)中獲取連續(xù)產(chǎn)生連接的三個(gè)文本實(shí)體,將處于連接中間的文本實(shí)體刪除后,使用大語(yǔ)言模型對(duì)剩下兩個(gè)文本實(shí)體進(jìn)行關(guān)系抽??;

7.根據(jù)權(quán)利要求6所述的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建系統(tǒng),其特征在于,所述圖譜優(yōu)化單元還配置有關(guān)系驗(yàn)證策略,所述關(guān)系驗(yàn)證策略包括獲取優(yōu)化關(guān)系網(wǎng)和知識(shí)圖譜中的現(xiàn)有實(shí)體,將優(yōu)化關(guān)系網(wǎng)中的文本實(shí)體和實(shí)體關(guān)系填入知識(shí)圖譜中,得到預(yù)知識(shí)圖譜;

8.適用于權(quán)利要求1-7任意一項(xiàng)的一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法,其特征在于,所述方法包括:


技術(shù)總結(jié)
本發(fā)明提供一種基于大語(yǔ)言模型的知識(shí)圖譜構(gòu)建方法及系統(tǒng),涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,包括數(shù)據(jù)采集模塊、數(shù)據(jù)識(shí)別模塊和圖譜構(gòu)建模塊;數(shù)據(jù)采集模塊用于從公開(kāi)數(shù)據(jù)集中獲取文本數(shù)據(jù);數(shù)據(jù)識(shí)別模塊用于對(duì)獲取到的文本數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,得到文本實(shí)體和實(shí)體關(guān)系;圖譜構(gòu)建模塊用于對(duì)文本實(shí)體和實(shí)體關(guān)系進(jìn)行連接并對(duì)文本實(shí)體關(guān)系網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)優(yōu)化,得到優(yōu)化知識(shí)圖譜;本發(fā)明通過(guò)訓(xùn)練大語(yǔ)言模型對(duì)文本實(shí)體進(jìn)行提取和關(guān)系抽取,為構(gòu)建知識(shí)圖譜提供了精準(zhǔn)的文本實(shí)體和實(shí)體關(guān)系,以解決現(xiàn)有的知識(shí)圖譜在構(gòu)建過(guò)程中覆蓋面低,無(wú)法對(duì)多種場(chǎng)景進(jìn)行構(gòu)建的問(wèn)題。

技術(shù)研發(fā)人員:廖林,徐夢(mèng)陽(yáng),王欣,王薇
受保護(hù)的技術(shù)使用者:北京西普霍斯科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阆中市| 航空| 咸阳市| 垣曲县| 洛阳市| 金乡县| 台北县| 天全县| 晋宁县| 滕州市| 香河县| 东乡县| 黎平县| 霍城县| 闽侯县| 西吉县| 三江| 封丘县| 万载县| 平塘县| 黎川县| 沙洋县| 泰来县| 突泉县| 铁力市| 金昌市| 瑞金市| 邢台县| 綦江县| 平顺县| 富阳市| 乐业县| 宜兰县| 尼玛县| 霍城县| 田阳县| 东乌| 平果县| 新郑市| 阿拉善左旗| 汕头市|