欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)更新的方法、裝置及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40818340發(fā)布日期:2025-01-29 02:38閱讀:17來(lái)源:國(guó)知局
數(shù)據(jù)更新的方法、裝置及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及計(jì)算機(jī),具體地涉及一種數(shù)據(jù)更新的方法、裝置及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、現(xiàn)有的rag(retrieval-augmented?generation,檢索增強(qiáng)生成)系統(tǒng)的檢索的數(shù)據(jù)庫(kù)是通過(guò)人為的收集各類(lèi)文檔、從互聯(lián)網(wǎng)上檢索api文檔等手段,然后將這些數(shù)據(jù)處理后轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)形式形成的。所以現(xiàn)有的rag系統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)都是固定的、無(wú)法實(shí)時(shí)更新,導(dǎo)致數(shù)據(jù)庫(kù)中的數(shù)據(jù)量不斷增多,可能包含一些錯(cuò)誤、不完整、過(guò)時(shí)、冗余的數(shù)據(jù),且數(shù)據(jù)庫(kù)中經(jīng)常存在多個(gè)表示同一含義的數(shù)據(jù),多個(gè)數(shù)據(jù)之間的語(yǔ)義相似度過(guò)大。

2、rag系統(tǒng)需要不斷從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù),而現(xiàn)有的數(shù)據(jù)庫(kù)中的龐大而復(fù)雜數(shù)據(jù)導(dǎo)致rag系統(tǒng)無(wú)法及時(shí)準(zhǔn)確地進(jìn)行數(shù)據(jù)獲取,因此,亟須對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行更新。但是,現(xiàn)有的數(shù)據(jù)更新技術(shù)往往是直接對(duì)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)進(jìn)行計(jì)算,這導(dǎo)致大量重復(fù)項(xiàng)數(shù)據(jù)被反復(fù)計(jì)算和使用,不僅增加了計(jì)算成本和計(jì)算量,而且龐大的數(shù)據(jù)計(jì)算往往致使計(jì)算結(jié)果不夠準(zhǔn)確,導(dǎo)致數(shù)據(jù)庫(kù)的數(shù)據(jù)更新效果不佳,數(shù)據(jù)更新困難。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的目的是提供一種數(shù)據(jù)更新的方法、裝置及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中數(shù)據(jù)更新計(jì)算量大、更新困難的問(wèn)題。

2、為了實(shí)現(xiàn)上述目的,本申請(qǐng)第一方面提供一種數(shù)據(jù)更新的方法,方法包括:

3、從數(shù)據(jù)庫(kù)中獲取多個(gè)文本數(shù)據(jù);

4、從多個(gè)文本數(shù)據(jù)中篩選出滿足預(yù)設(shè)條件的初步候選數(shù)據(jù);

5、確定每個(gè)初步候選數(shù)據(jù)與數(shù)據(jù)庫(kù)中的所有文本數(shù)據(jù)之間的語(yǔ)義相似度,并將所有文本數(shù)據(jù)中語(yǔ)義相似度大于預(yù)設(shè)值的文本數(shù)據(jù)確定為最終候選數(shù)據(jù);

6、根據(jù)初步候選數(shù)據(jù)和最終候選數(shù)據(jù)之間的語(yǔ)義相似度確定每個(gè)最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值;

7、根據(jù)每個(gè)最終候選數(shù)據(jù)的數(shù)據(jù)屬性和語(yǔ)義重復(fù)懲罰值確定每個(gè)最終候選數(shù)據(jù)的得分;

8、根據(jù)所有最終候選數(shù)據(jù)的得分確定出所有最終候選數(shù)據(jù)中的待移除數(shù)據(jù);

9、從數(shù)據(jù)庫(kù)中移除待移除數(shù)據(jù)。

10、在本申請(qǐng)實(shí)施例中,根據(jù)初步候選數(shù)據(jù)和最終候選數(shù)據(jù)之間的語(yǔ)義相似度確定每個(gè)最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值包括:針對(duì)任一最終候選數(shù)據(jù),確定其與初步候選數(shù)據(jù)中語(yǔ)義相似度超過(guò)閾值的初步候選數(shù)據(jù)的重復(fù)數(shù)量,根據(jù)該重復(fù)數(shù)量確定該任一最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值。

11、在本申請(qǐng)實(shí)施例中,根據(jù)每個(gè)最終候選數(shù)據(jù)的數(shù)據(jù)屬性和語(yǔ)義重復(fù)懲罰值確定每個(gè)最終候選數(shù)據(jù)的得分包括:在任一最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值不為初始值的情況下,獲取與其語(yǔ)義相似度超過(guò)閾值的至少一個(gè)初步候選數(shù)據(jù);比較該任一最終候選數(shù)據(jù)與至少一個(gè)初步候選數(shù)據(jù)對(duì)應(yīng)的初始分?jǐn)?shù),初始分?jǐn)?shù)通過(guò)各自數(shù)據(jù)的數(shù)據(jù)屬性所確定;在該任一最終候選數(shù)據(jù)對(duì)應(yīng)的初始分?jǐn)?shù)不小于至少一個(gè)初步候選數(shù)據(jù)對(duì)應(yīng)的初始分?jǐn)?shù)的情況下,將任一最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值重設(shè)為初始值,并基于該任一最終候選數(shù)據(jù)的數(shù)據(jù)屬性和語(yǔ)義重復(fù)懲罰值確定該任一最終候選數(shù)據(jù)的得分。

12、在本申請(qǐng)實(shí)施例中,數(shù)據(jù)屬性包括每個(gè)初步候選數(shù)據(jù)的用戶評(píng)價(jià)、存在時(shí)長(zhǎng)以及使用次數(shù),方法還包括:針對(duì)每個(gè)初步候選數(shù)據(jù),根據(jù)該初步候選數(shù)據(jù)的用戶評(píng)價(jià)確定該初步候選數(shù)據(jù)的點(diǎn)贊率或點(diǎn)踩率;針對(duì)每個(gè)初步候選數(shù)據(jù),根據(jù)該初步候選數(shù)據(jù)的存在時(shí)長(zhǎng)和衰減系數(shù)確定該初步候選數(shù)據(jù)的時(shí)間衰減率;基于所有初步候選數(shù)據(jù)的點(diǎn)贊率降序排列,或者基于所有初步候選數(shù)據(jù)的點(diǎn)踩率升序排列,以得到每個(gè)初步候選數(shù)據(jù)的第一排名;基于所有初步候選數(shù)據(jù)的時(shí)間衰減率升序排列,以得到每個(gè)初步候選數(shù)據(jù)的第二排名;基于所有初步候選數(shù)據(jù)的使用次數(shù)降序排列,以得到每個(gè)初步候選數(shù)據(jù)的第三排名;根據(jù)每個(gè)初步候選數(shù)據(jù)的第一排名、第二排名以及第三排名確定每個(gè)初步候選數(shù)據(jù)的初始分?jǐn)?shù)。

13、在本申請(qǐng)實(shí)施例中,根據(jù)每個(gè)初步候選數(shù)據(jù)的第一排名、第二排名以及第三排名確定每個(gè)初步候選數(shù)據(jù)的初始分?jǐn)?shù)包括:獲取表征用戶評(píng)價(jià)在數(shù)據(jù)屬性中的重要性的第一權(quán)重系數(shù)、表征存在時(shí)長(zhǎng)在數(shù)據(jù)屬性中的重要性的第二權(quán)重系數(shù)以及表征使用次數(shù)在數(shù)據(jù)屬性中的重要性的第三權(quán)重系數(shù);針對(duì)每個(gè)初步候選數(shù)據(jù),分別確定該初步候選數(shù)據(jù)的第一權(quán)重系數(shù)與第一排名和排序常量參數(shù)的和值之間的第一比值、第二權(quán)重系數(shù)與第二排名和排序常量參數(shù)的和值之間的第二比值以及第三權(quán)重系數(shù)與第三排名和排序常量參數(shù)的和值之間的第三比值;將每個(gè)初步候選數(shù)據(jù)的第一比值、第二比值以及第三比值的和值確定為每個(gè)初步候選數(shù)據(jù)的初始分?jǐn)?shù)。

14、在本申請(qǐng)實(shí)施例中,從多個(gè)文本數(shù)據(jù)中篩選出滿足預(yù)設(shè)條件的初步候選數(shù)據(jù)包括:獲取多個(gè)文本數(shù)據(jù)的數(shù)據(jù)屬性,其中,數(shù)據(jù)屬性包括每個(gè)文本數(shù)據(jù)的用戶評(píng)價(jià)、存在時(shí)長(zhǎng)以及使用次數(shù);針對(duì)多個(gè)文本數(shù)據(jù)中的任意一個(gè)文本數(shù)據(jù),在文本數(shù)據(jù)的用戶評(píng)價(jià)中的點(diǎn)踩率大于預(yù)設(shè)點(diǎn)踩率的情況下,確定文本數(shù)據(jù)為初步候選數(shù)據(jù);針對(duì)多個(gè)文本數(shù)據(jù)中的任意一個(gè)文本數(shù)據(jù),在文本數(shù)據(jù)的存在時(shí)長(zhǎng)大于預(yù)設(shè)時(shí)長(zhǎng)的情況下,確定文本數(shù)據(jù)為初步候選數(shù)據(jù);針對(duì)多個(gè)文本數(shù)據(jù)中的任意一個(gè)文本數(shù)據(jù),在文本數(shù)據(jù)的使用次數(shù)小于預(yù)設(shè)次數(shù)的情況下,確定文本數(shù)據(jù)為初步候選數(shù)據(jù)。

15、在本申請(qǐng)實(shí)施例中,根據(jù)所有最終候選數(shù)據(jù)的得分確定出所有最終候選數(shù)據(jù)中的待移除數(shù)據(jù)包括:根據(jù)所有的得分升序排列所有最終候選數(shù)據(jù);從排列后的所有最終候選數(shù)據(jù)中選取靠后的預(yù)設(shè)數(shù)量的最終候選數(shù)據(jù)以作為待移除數(shù)據(jù)。

16、在本申請(qǐng)實(shí)施例中,方法還包括:根據(jù)所有最終候選數(shù)據(jù)的得分確定出所有最終候選數(shù)據(jù)中的待移除數(shù)據(jù)之后,將待移除數(shù)據(jù)發(fā)送至用戶,并將用戶審核通過(guò)的待移除數(shù)據(jù)重新存儲(chǔ)至數(shù)據(jù)庫(kù);將用戶審核不通過(guò)的待移除數(shù)據(jù)進(jìn)行備份,并從數(shù)據(jù)庫(kù)中移除用戶審核不通過(guò)的待移除數(shù)據(jù)。

17、本申請(qǐng)第二方面提供一種數(shù)據(jù)更新的裝置,包括:

18、存儲(chǔ)器,被配置成存儲(chǔ)指令;

19、處理器,被配置成從存儲(chǔ)器調(diào)用指令以及在執(zhí)行指令時(shí)能夠?qū)崿F(xiàn)上述的數(shù)據(jù)更新的方法。

20、本申請(qǐng)第三方面提供一種機(jī)器可讀存儲(chǔ)介質(zhì),該機(jī)器可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令,該指令用于使得機(jī)器執(zhí)行上述的數(shù)據(jù)更新的方法。

21、通過(guò)上述技術(shù)方案,能夠從數(shù)據(jù)庫(kù)中的多個(gè)文本數(shù)據(jù)中篩選出滿足預(yù)設(shè)條件的初步候選數(shù)據(jù),并確定每個(gè)初步候選數(shù)據(jù)與數(shù)據(jù)庫(kù)中的所有文本數(shù)據(jù)之間的語(yǔ)義相似度,然后將所有文本數(shù)據(jù)中語(yǔ)義相似度大于預(yù)設(shè)值的文本數(shù)據(jù)確定為最終候選數(shù)據(jù);根據(jù)初步候選數(shù)據(jù)和最終候選數(shù)據(jù)之間的語(yǔ)義相似度確定每個(gè)最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值;根據(jù)每個(gè)最終候選數(shù)據(jù)的數(shù)據(jù)屬性和語(yǔ)義重復(fù)懲罰值確定每個(gè)最終候選數(shù)據(jù)的得分;根據(jù)所有最終候選數(shù)據(jù)的得分確定出所有最終候選數(shù)據(jù)中的待移除數(shù)據(jù);從數(shù)據(jù)庫(kù)中移除待移除數(shù)據(jù),能夠有效地減少數(shù)據(jù)計(jì)算量,提高計(jì)算效率,提升數(shù)據(jù)庫(kù)的更新速度。

22、本申請(qǐng)實(shí)施例的其它特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說(shuō)明。



技術(shù)特征:

1.一種數(shù)據(jù)更新的方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)更新的方法,其特征在于,所述根據(jù)所述初步候選數(shù)據(jù)和所述最終候選數(shù)據(jù)之間的語(yǔ)義相似度確定每個(gè)最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值包括:

3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)更新的方法,其特征在于,所述根據(jù)每個(gè)最終候選數(shù)據(jù)的數(shù)據(jù)屬性和語(yǔ)義重復(fù)懲罰值確定每個(gè)最終候選數(shù)據(jù)的得分包括:

4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)更新的方法,其特征在于,所述數(shù)據(jù)屬性包括每個(gè)初步候選數(shù)據(jù)的用戶評(píng)價(jià)、存在時(shí)長(zhǎng)以及使用次數(shù),所述方法還包括:

5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)更新的方法,其特征在于,所述根據(jù)每個(gè)初步候選數(shù)據(jù)的第一排名、第二排名以及第三排名確定每個(gè)初步候選數(shù)據(jù)的初始分?jǐn)?shù)包括:

6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)更新的方法,其特征在于,從所述多個(gè)文本數(shù)據(jù)中篩選出滿足預(yù)設(shè)條件的初步候選數(shù)據(jù)包括:

7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)更新的方法,其特征在于,所述根據(jù)所有最終候選數(shù)據(jù)的得分確定出所述所有最終候選數(shù)據(jù)中的待移除數(shù)據(jù)包括:

8.根據(jù)權(quán)利要求1所述的數(shù)據(jù)更新的方法,其特征在于,所述方法還包括:

9.一種數(shù)據(jù)更新的裝置,其特征在于,包括:

10.一種機(jī)器可讀存儲(chǔ)介質(zhì),其特征在于,該機(jī)器可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令,該指令用于使得機(jī)器執(zhí)行根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的數(shù)據(jù)更新的方法。


技術(shù)總結(jié)
本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其是一種數(shù)據(jù)更新的方法、裝置及存儲(chǔ)介質(zhì)。包括:從數(shù)據(jù)庫(kù)中獲取多個(gè)文本數(shù)據(jù);從多個(gè)文本數(shù)據(jù)中篩選出滿足預(yù)設(shè)條件的初步候選數(shù)據(jù);確定每個(gè)初步候選數(shù)據(jù)與數(shù)據(jù)庫(kù)中的所有文本數(shù)據(jù)之間的語(yǔ)義相似度,并將所有文本數(shù)據(jù)中語(yǔ)義相似度大于預(yù)設(shè)值的文本數(shù)據(jù)確定為最終候選數(shù)據(jù);根據(jù)初步候選數(shù)據(jù)和最終候選數(shù)據(jù)之間的語(yǔ)義相似度確定每個(gè)最終候選數(shù)據(jù)的語(yǔ)義重復(fù)懲罰值;根據(jù)每個(gè)最終候選數(shù)據(jù)的數(shù)據(jù)屬性和語(yǔ)義重復(fù)懲罰值確定每個(gè)最終候選數(shù)據(jù)的得分;根據(jù)所有最終候選數(shù)據(jù)的得分確定出所有最終候選數(shù)據(jù)中的待移除數(shù)據(jù);從數(shù)據(jù)庫(kù)中移除待移除數(shù)據(jù),能夠有效地減少數(shù)據(jù)計(jì)算量,提高計(jì)算效率,提升數(shù)據(jù)庫(kù)的更新速度。

技術(shù)研發(fā)人員:曾光,尹倩倩,童興,周志忠
受保護(hù)的技術(shù)使用者:中科云谷科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/28
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
平邑县| 台安县| 正蓝旗| 娱乐| 涞源县| 黄石市| 杭锦旗| 定远县| 耿马| 博兴县| 南宁市| 万山特区| 伊宁市| 博乐市| 刚察县| 称多县| 福贡县| 理塘县| 永宁县| 灵石县| 城口县| 兴城市| 东城区| 长丰县| 扶绥县| 屏边| 高青县| 襄城县| 梓潼县| 仪陇县| 德兴市| 五原县| 北流市| 阳泉市| 柳江县| 宜章县| 龙州县| 宝山区| 阿尔山市| 哈巴河县| 万荣县|