欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法與流程

文檔序號(hào):40532344發(fā)布日期:2024-12-31 13:48閱讀:13來源:國(guó)知局
一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法與流程

本發(fā)明屬于自然語言處理領(lǐng)域,尤其涉及一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法。


背景技術(shù):

1、數(shù)據(jù)增強(qiáng)是自然語言處理的一個(gè)分支,通過對(duì)現(xiàn)有文本進(jìn)行各種操作,如同義詞替換、隨機(jī)插入、刪除和交換等,來生成更多樣化的訓(xùn)練數(shù)據(jù),從而提升模型的魯棒性和泛化能力。

2、目前政務(wù)文本存在缺失大量高質(zhì)量數(shù)據(jù)的問題。低質(zhì)量的政務(wù)數(shù)據(jù)會(huì)顯著阻礙政務(wù)數(shù)據(jù)要素價(jià)值的進(jìn)一步開發(fā)與利用,直接影響政務(wù)數(shù)據(jù)要素在全要素?cái)?shù)據(jù)流通中作用的發(fā)揮。

3、有鑒于此,有必要設(shè)計(jì)一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,以解決上述問題。

4、中國(guó)專利cn112836047a公開了一種基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法,該方法僅是在單詞層面替換拓展到了句子層面,數(shù)據(jù)增強(qiáng)效果有限,生成的增強(qiáng)文本依舊可能與原始文本差異性不足。

5、中國(guó)專利cn115048940a公開了一種基于實(shí)體詞屬性特征和回譯的中文金融文本數(shù)據(jù)增強(qiáng)方法。該方法引入了實(shí)體詞分層處理和回譯技術(shù)來增強(qiáng)金融文本,但技術(shù)創(chuàng)新性不足,依賴翻譯模型的性能,存在識(shí)別實(shí)體詞的準(zhǔn)確性問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為解決目前政務(wù)文本語料缺少負(fù)樣本的問題,提供一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法。

2、本發(fā)明的技術(shù)方案如下:

3、一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典,記錄專有名詞和專業(yè)術(shù)語的位置和類型;根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征,構(gòu)建語病生成規(guī)則。還包括如下步驟:

4、s10,對(duì)待處理文本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的文本,待處理文本包括一句或多句;

5、s20,對(duì)預(yù)處理后的文本進(jìn)行回譯處理:先將預(yù)處理后的文本翻譯成目標(biāo)語言的文本,再將目標(biāo)語言的文本翻譯回原語言;

6、s30,對(duì)比回譯前后的文本,篩選出語義沒有被破壞但有語病的新文本,作為增強(qiáng)數(shù)據(jù);

7、s40,利用語病生成規(guī)則,在增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成負(fù)樣本,作為未處理的負(fù)樣本擴(kuò)充;

8、s50,計(jì)算未篩選的負(fù)樣本的編輯距離,保留編輯距離小于閾值的文本,作為最終生成的負(fù)樣本。

9、進(jìn)一步的,s10具體包括:

10、s101,通過harvesttest對(duì)待處理文本進(jìn)行清洗,去除特殊字符,多余空白等無效信息;

11、s102,使用jionlp工具包將待處理文本中的指示代詞依次解析為其所指代的對(duì)象,即實(shí)體。

12、進(jìn)一步的,s20具體包括:

13、s201,通過jionlp工具包中extract工具,對(duì)預(yù)處理后的文本中提到的實(shí)體進(jìn)行提取;

14、s202,使用backtrans模型,對(duì)每條文本中抽取的實(shí)體依次進(jìn)行回譯操作:將每條文本中的實(shí)體依次翻譯成目標(biāo)語言,再將翻譯后的文本翻譯回原語言,每條文本的所有實(shí)體翻譯完畢后,得到回譯后的句子文本。

15、進(jìn)一步的,s30具體包括:使用sentencebert模型分析回譯前后的文本,即預(yù)處理后的文本和回譯文本的語義相似度,篩選出語義相似度大于閾值的回譯文本。

16、更進(jìn)一步的,s30具體包括如下步驟:s301,使用分詞器對(duì)輸入的預(yù)處理后的文本和回譯文本進(jìn)行編碼,然后將編碼后的文本輸入到sentencebert模型中獲取嵌入向量,即語義向量;

17、s302,根據(jù)原待處理文本和回譯文本的語義向量計(jì)算余弦相似度,通過余弦相似度來表示語義相似度,將余弦相似度標(biāo)準(zhǔn)化到[-1,1]區(qū)間,值越接近-1,表示語義差異越大,值越接近1,表示語義相似度越高;

18、s303,篩選出語義相似度大于0.5的回譯文本。

19、進(jìn)一步的,s50具體包括:

20、s501,計(jì)算未篩選的負(fù)樣本與對(duì)應(yīng)增強(qiáng)數(shù)據(jù)的萊文斯坦距離,即編輯距離;

21、s502,保留萊文斯坦距離小于等于2的文本;

22、s503,匯總所有文本,生成政務(wù)文本負(fù)樣本集合。

23、進(jìn)一步的,語病生成規(guī)則有四種語病錯(cuò)誤類型:缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤。缺失錯(cuò)誤:在文本中有意識(shí)地刪除某些必要的詞語(泛指詞語或短語),使句子缺乏完整的意義或邏輯連貫性,刪除的詞語可以是主語、謂語、賓語、定語、狀語或補(bǔ)語。冗余錯(cuò)誤:在文本中加入不必要的詞語,使句子顯得累贅或重復(fù),冗余的詞語可以是同義詞重復(fù)、過多的修飾詞或無意義的贅述。替換錯(cuò)誤:在文本中將某些詞語或短語替換為不恰當(dāng)或錯(cuò)誤的詞語,使句子意思發(fā)生偏差或邏輯錯(cuò)誤,替換的詞語可以是同義詞、不相關(guān)的詞語或形近詞。詞序錯(cuò)誤:在文本中將詞語或短語的順序進(jìn)行調(diào)整,使句子結(jié)構(gòu)不合理或意思模糊,調(diào)整的詞語可以是主語、謂語、賓語、定語、狀語或補(bǔ)語。

24、進(jìn)一步的,s40具體包括:逐一選擇語病生成規(guī)則的錯(cuò)誤類型,使用transformer模型在上一步新文本增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成“缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤”的四種負(fù)樣本,作為未處理的負(fù)樣本擴(kuò)充。

25、本發(fā)明的有益效果如下:本發(fā)明的方法結(jié)合自然語言處理、深度學(xué)習(xí),形成了一種政務(wù)文本負(fù)樣本的生成方法,有效解決了政務(wù)語料缺少負(fù)樣本的問題。本方案通過對(duì)政務(wù)文本進(jìn)行回譯處理和語義相似度分析,能夠生成高質(zhì)量的負(fù)樣本,豐富了政務(wù)文本語料庫。同時(shí),本發(fā)明設(shè)計(jì)了專門的語病生成規(guī)則,生成的負(fù)樣本更具真實(shí)性和代表性,提高了文本數(shù)據(jù)的多樣性。通過編輯距離計(jì)算,篩選出與原始文本語義接近的負(fù)樣本,確保生成數(shù)據(jù)的有效性和準(zhǔn)確性。這些增強(qiáng)的數(shù)據(jù)不僅能夠提高政務(wù)文本糾錯(cuò)模型的訓(xùn)練效果,還能廣泛應(yīng)用于政務(wù)文本處理和自然語言處理領(lǐng)域,提升文本糾錯(cuò)和文本生成技術(shù)的整體性能。

26、本專利使用提取實(shí)體、模型訓(xùn)練、語病生成規(guī)則的方法,能進(jìn)一步增加生成的文本的差異性。此外,結(jié)合回譯技術(shù)和模型訓(xùn)練,再通過篩選,在實(shí)體詞準(zhǔn)確識(shí)別的基礎(chǔ)上,能得到質(zhì)量更好的增強(qiáng)文本。



技術(shù)特征:

1.一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典,記錄專有名詞和專業(yè)術(shù)語的位置和類型;根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征,構(gòu)建語病生成規(guī)則;

2.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s10具體包括:

3.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s20具體包括:

4.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s30具體包括:

5.根據(jù)權(quán)利要求4所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s30具體包括:

6.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s50具體包括:

7.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,語病生成規(guī)則包括:缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤;

8.根據(jù)權(quán)利要求1或7所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s40具體包括:


技術(shù)總結(jié)
本發(fā)明公開一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典,記錄專有名詞和專業(yè)術(shù)語的位置和類型;根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征,構(gòu)建語病生成規(guī)則;還包括如下步驟:對(duì)待處理文本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的文本;對(duì)預(yù)處理后的文本進(jìn)行回譯處理:先將預(yù)處理后的文本翻譯成目標(biāo)語言的文本,再將目標(biāo)語言的文本翻譯回原語言;對(duì)比回譯前后的文本,篩選出語義沒有被破壞但有語病的新文本,作為增強(qiáng)數(shù)據(jù);利用語病生成規(guī)則,在增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成負(fù)樣本,作為未處理的負(fù)樣本擴(kuò)充;計(jì)算未處理的負(fù)樣本的編輯距離,保留編輯距離小于閾值的文本,作為最終生成的負(fù)樣本。

技術(shù)研發(fā)人員:金震宇,王知明,李杰,王磊
受保護(hù)的技術(shù)使用者:大漢軟件股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安阳市| 民丰县| 阿勒泰市| 绵阳市| 易门县| 新丰县| 周口市| 宝山区| 雅安市| 科尔| 庆云县| 蒲城县| 陕西省| 沙雅县| 荣昌县| 红河县| 博罗县| 泰宁县| 固阳县| 唐海县| 府谷县| 永城市| 千阳县| 安福县| 华池县| 汤原县| 施秉县| 五常市| 革吉县| 张家口市| 威远县| 万宁市| 尼木县| 叙永县| 东台市| 太仓市| 望城县| 平塘县| 如皋市| 宝山区| 绍兴市|