一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法與流程

文檔序號(hào)：40532344發(fā)布日期：2024-12-31 13:48閱讀：13來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法與流程

本發(fā)明屬于自然語言處理領(lǐng)域，尤其涉及一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法。

背景技術(shù)：

1、數(shù)據(jù)增強(qiáng)是自然語言處理的一個(gè)分支，通過對(duì)現(xiàn)有文本進(jìn)行各種操作，如同義詞替換、隨機(jī)插入、刪除和交換等，來生成更多樣化的訓(xùn)練數(shù)據(jù)，從而提升模型的魯棒性和泛化能力。

2、目前政務(wù)文本存在缺失大量高質(zhì)量數(shù)據(jù)的問題。低質(zhì)量的政務(wù)數(shù)據(jù)會(huì)顯著阻礙政務(wù)數(shù)據(jù)要素價(jià)值的進(jìn)一步開發(fā)與利用，直接影響政務(wù)數(shù)據(jù)要素在全要素?cái)?shù)據(jù)流通中作用的發(fā)揮。

3、有鑒于此，有必要設(shè)計(jì)一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，以解決上述問題。

4、中國(guó)專利cn112836047a公開了一種基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法，該方法僅是在單詞層面替換拓展到了句子層面，數(shù)據(jù)增強(qiáng)效果有限，生成的增強(qiáng)文本依舊可能與原始文本差異性不足。

5、中國(guó)專利cn115048940a公開了一種基于實(shí)體詞屬性特征和回譯的中文金融文本數(shù)據(jù)增強(qiáng)方法。該方法引入了實(shí)體詞分層處理和回譯技術(shù)來增強(qiáng)金融文本，但技術(shù)創(chuàng)新性不足，依賴翻譯模型的性能，存在識(shí)別實(shí)體詞的準(zhǔn)確性問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為解決目前政務(wù)文本語料缺少負(fù)樣本的問題，提供一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法。

2、本發(fā)明的技術(shù)方案如下：

3、一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典，記錄專有名詞和專業(yè)術(shù)語的位置和類型；根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征，構(gòu)建語病生成規(guī)則。還包括如下步驟：

4、s10，對(duì)待處理文本數(shù)據(jù)進(jìn)行預(yù)處理，得到預(yù)處理后的文本，待處理文本包括一句或多句；

5、s20，對(duì)預(yù)處理后的文本進(jìn)行回譯處理：先將預(yù)處理后的文本翻譯成目標(biāo)語言的文本，再將目標(biāo)語言的文本翻譯回原語言；

6、s30，對(duì)比回譯前后的文本，篩選出語義沒有被破壞但有語病的新文本，作為增強(qiáng)數(shù)據(jù)；

7、s40，利用語病生成規(guī)則，在增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成負(fù)樣本，作為未處理的負(fù)樣本擴(kuò)充；

8、s50，計(jì)算未篩選的負(fù)樣本的編輯距離，保留編輯距離小于閾值的文本，作為最終生成的負(fù)樣本。

9、進(jìn)一步的，s10具體包括：

10、s101，通過harvesttest對(duì)待處理文本進(jìn)行清洗，去除特殊字符，多余空白等無效信息；

11、s102，使用jionlp工具包將待處理文本中的指示代詞依次解析為其所指代的對(duì)象，即實(shí)體。

12、進(jìn)一步的，s20具體包括：

13、s201，通過jionlp工具包中extract工具，對(duì)預(yù)處理后的文本中提到的實(shí)體進(jìn)行提取；

14、s202，使用backtrans模型，對(duì)每條文本中抽取的實(shí)體依次進(jìn)行回譯操作：將每條文本中的實(shí)體依次翻譯成目標(biāo)語言，再將翻譯后的文本翻譯回原語言，每條文本的所有實(shí)體翻譯完畢后，得到回譯后的句子文本。

15、進(jìn)一步的，s30具體包括：使用sentencebert模型分析回譯前后的文本，即預(yù)處理后的文本和回譯文本的語義相似度，篩選出語義相似度大于閾值的回譯文本。

16、更進(jìn)一步的，s30具體包括如下步驟：s301，使用分詞器對(duì)輸入的預(yù)處理后的文本和回譯文本進(jìn)行編碼，然后將編碼后的文本輸入到sentencebert模型中獲取嵌入向量，即語義向量；

17、s302，根據(jù)原待處理文本和回譯文本的語義向量計(jì)算余弦相似度，通過余弦相似度來表示語義相似度，將余弦相似度標(biāo)準(zhǔn)化到[-1，1]區(qū)間，值越接近-1，表示語義差異越大，值越接近1，表示語義相似度越高；

18、s303，篩選出語義相似度大于0.5的回譯文本。

19、進(jìn)一步的，s50具體包括：

20、s501，計(jì)算未篩選的負(fù)樣本與對(duì)應(yīng)增強(qiáng)數(shù)據(jù)的萊文斯坦距離，即編輯距離；

21、s502，保留萊文斯坦距離小于等于2的文本；

22、s503，匯總所有文本，生成政務(wù)文本負(fù)樣本集合。

23、進(jìn)一步的，語病生成規(guī)則有四種語病錯(cuò)誤類型：缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤。缺失錯(cuò)誤：在文本中有意識(shí)地刪除某些必要的詞語（泛指詞語或短語），使句子缺乏完整的意義或邏輯連貫性，刪除的詞語可以是主語、謂語、賓語、定語、狀語或補(bǔ)語。冗余錯(cuò)誤：在文本中加入不必要的詞語，使句子顯得累贅或重復(fù)，冗余的詞語可以是同義詞重復(fù)、過多的修飾詞或無意義的贅述。替換錯(cuò)誤：在文本中將某些詞語或短語替換為不恰當(dāng)或錯(cuò)誤的詞語，使句子意思發(fā)生偏差或邏輯錯(cuò)誤，替換的詞語可以是同義詞、不相關(guān)的詞語或形近詞。詞序錯(cuò)誤：在文本中將詞語或短語的順序進(jìn)行調(diào)整，使句子結(jié)構(gòu)不合理或意思模糊，調(diào)整的詞語可以是主語、謂語、賓語、定語、狀語或補(bǔ)語。

24、進(jìn)一步的，s40具體包括：逐一選擇語病生成規(guī)則的錯(cuò)誤類型，使用transformer模型在上一步新文本增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成“缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤”的四種負(fù)樣本，作為未處理的負(fù)樣本擴(kuò)充。

25、本發(fā)明的有益效果如下：本發(fā)明的方法結(jié)合自然語言處理、深度學(xué)習(xí)，形成了一種政務(wù)文本負(fù)樣本的生成方法，有效解決了政務(wù)語料缺少負(fù)樣本的問題。本方案通過對(duì)政務(wù)文本進(jìn)行回譯處理和語義相似度分析，能夠生成高質(zhì)量的負(fù)樣本，豐富了政務(wù)文本語料庫。同時(shí)，本發(fā)明設(shè)計(jì)了專門的語病生成規(guī)則，生成的負(fù)樣本更具真實(shí)性和代表性，提高了文本數(shù)據(jù)的多樣性。通過編輯距離計(jì)算，篩選出與原始文本語義接近的負(fù)樣本，確保生成數(shù)據(jù)的有效性和準(zhǔn)確性。這些增強(qiáng)的數(shù)據(jù)不僅能夠提高政務(wù)文本糾錯(cuò)模型的訓(xùn)練效果，還能廣泛應(yīng)用于政務(wù)文本處理和自然語言處理領(lǐng)域，提升文本糾錯(cuò)和文本生成技術(shù)的整體性能。

26、本專利使用提取實(shí)體、模型訓(xùn)練、語病生成規(guī)則的方法，能進(jìn)一步增加生成的文本的差異性。此外，結(jié)合回譯技術(shù)和模型訓(xùn)練，再通過篩選，在實(shí)體詞準(zhǔn)確識(shí)別的基礎(chǔ)上，能得到質(zhì)量更好的增強(qiáng)文本。

技術(shù)特征：

1.一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典，記錄專有名詞和專業(yè)術(shù)語的位置和類型；根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征，構(gòu)建語病生成規(guī)則；

2.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，s10具體包括：

3.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，s20具體包括：

4.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，s30具體包括：

5.根據(jù)權(quán)利要求4所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，s30具體包括：

6.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，s50具體包括：

7.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，語病生成規(guī)則包括：缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤；

8.根據(jù)權(quán)利要求1或7所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，s40具體包括：

技術(shù)總結(jié)
本發(fā)明公開一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法，包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典，記錄專有名詞和專業(yè)術(shù)語的位置和類型；根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征，構(gòu)建語病生成規(guī)則；還包括如下步驟：對(duì)待處理文本數(shù)據(jù)進(jìn)行預(yù)處理，得到預(yù)處理后的文本；對(duì)預(yù)處理后的文本進(jìn)行回譯處理：先將預(yù)處理后的文本翻譯成目標(biāo)語言的文本，再將目標(biāo)語言的文本翻譯回原語言；對(duì)比回譯前后的文本，篩選出語義沒有被破壞但有語病的新文本，作為增強(qiáng)數(shù)據(jù)；利用語病生成規(guī)則，在增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成負(fù)樣本，作為未處理的負(fù)樣本擴(kuò)充；計(jì)算未處理的負(fù)樣本的編輯距離，保留編輯距離小于閾值的文本，作為最終生成的負(fù)樣本。

技術(shù)研發(fā)人員：金震宇,王知明,李杰,王磊
受保護(hù)的技術(shù)使用者：大漢軟件股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金震宇,王知明,李杰,王磊
技術(shù)所有人：大漢軟件股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法與流程