本發(fā)明屬于自然語言處理領(lǐng)域,尤其涉及一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法。
背景技術(shù):
1、數(shù)據(jù)增強(qiáng)是自然語言處理的一個(gè)分支,通過對(duì)現(xiàn)有文本進(jìn)行各種操作,如同義詞替換、隨機(jī)插入、刪除和交換等,來生成更多樣化的訓(xùn)練數(shù)據(jù),從而提升模型的魯棒性和泛化能力。
2、目前政務(wù)文本存在缺失大量高質(zhì)量數(shù)據(jù)的問題。低質(zhì)量的政務(wù)數(shù)據(jù)會(huì)顯著阻礙政務(wù)數(shù)據(jù)要素價(jià)值的進(jìn)一步開發(fā)與利用,直接影響政務(wù)數(shù)據(jù)要素在全要素?cái)?shù)據(jù)流通中作用的發(fā)揮。
3、有鑒于此,有必要設(shè)計(jì)一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,以解決上述問題。
4、中國(guó)專利cn112836047a公開了一種基于句子語義替換的電子病歷文本數(shù)據(jù)增強(qiáng)方法,該方法僅是在單詞層面替換拓展到了句子層面,數(shù)據(jù)增強(qiáng)效果有限,生成的增強(qiáng)文本依舊可能與原始文本差異性不足。
5、中國(guó)專利cn115048940a公開了一種基于實(shí)體詞屬性特征和回譯的中文金融文本數(shù)據(jù)增強(qiáng)方法。該方法引入了實(shí)體詞分層處理和回譯技術(shù)來增強(qiáng)金融文本,但技術(shù)創(chuàng)新性不足,依賴翻譯模型的性能,存在識(shí)別實(shí)體詞的準(zhǔn)確性問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為解決目前政務(wù)文本語料缺少負(fù)樣本的問題,提供一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法。
2、本發(fā)明的技術(shù)方案如下:
3、一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典,記錄專有名詞和專業(yè)術(shù)語的位置和類型;根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征,構(gòu)建語病生成規(guī)則。還包括如下步驟:
4、s10,對(duì)待處理文本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的文本,待處理文本包括一句或多句;
5、s20,對(duì)預(yù)處理后的文本進(jìn)行回譯處理:先將預(yù)處理后的文本翻譯成目標(biāo)語言的文本,再將目標(biāo)語言的文本翻譯回原語言;
6、s30,對(duì)比回譯前后的文本,篩選出語義沒有被破壞但有語病的新文本,作為增強(qiáng)數(shù)據(jù);
7、s40,利用語病生成規(guī)則,在增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成負(fù)樣本,作為未處理的負(fù)樣本擴(kuò)充;
8、s50,計(jì)算未篩選的負(fù)樣本的編輯距離,保留編輯距離小于閾值的文本,作為最終生成的負(fù)樣本。
9、進(jìn)一步的,s10具體包括:
10、s101,通過harvesttest對(duì)待處理文本進(jìn)行清洗,去除特殊字符,多余空白等無效信息;
11、s102,使用jionlp工具包將待處理文本中的指示代詞依次解析為其所指代的對(duì)象,即實(shí)體。
12、進(jìn)一步的,s20具體包括:
13、s201,通過jionlp工具包中extract工具,對(duì)預(yù)處理后的文本中提到的實(shí)體進(jìn)行提取;
14、s202,使用backtrans模型,對(duì)每條文本中抽取的實(shí)體依次進(jìn)行回譯操作:將每條文本中的實(shí)體依次翻譯成目標(biāo)語言,再將翻譯后的文本翻譯回原語言,每條文本的所有實(shí)體翻譯完畢后,得到回譯后的句子文本。
15、進(jìn)一步的,s30具體包括:使用sentencebert模型分析回譯前后的文本,即預(yù)處理后的文本和回譯文本的語義相似度,篩選出語義相似度大于閾值的回譯文本。
16、更進(jìn)一步的,s30具體包括如下步驟:s301,使用分詞器對(duì)輸入的預(yù)處理后的文本和回譯文本進(jìn)行編碼,然后將編碼后的文本輸入到sentencebert模型中獲取嵌入向量,即語義向量;
17、s302,根據(jù)原待處理文本和回譯文本的語義向量計(jì)算余弦相似度,通過余弦相似度來表示語義相似度,將余弦相似度標(biāo)準(zhǔn)化到[-1,1]區(qū)間,值越接近-1,表示語義差異越大,值越接近1,表示語義相似度越高;
18、s303,篩選出語義相似度大于0.5的回譯文本。
19、進(jìn)一步的,s50具體包括:
20、s501,計(jì)算未篩選的負(fù)樣本與對(duì)應(yīng)增強(qiáng)數(shù)據(jù)的萊文斯坦距離,即編輯距離;
21、s502,保留萊文斯坦距離小于等于2的文本;
22、s503,匯總所有文本,生成政務(wù)文本負(fù)樣本集合。
23、進(jìn)一步的,語病生成規(guī)則有四種語病錯(cuò)誤類型:缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤。缺失錯(cuò)誤:在文本中有意識(shí)地刪除某些必要的詞語(泛指詞語或短語),使句子缺乏完整的意義或邏輯連貫性,刪除的詞語可以是主語、謂語、賓語、定語、狀語或補(bǔ)語。冗余錯(cuò)誤:在文本中加入不必要的詞語,使句子顯得累贅或重復(fù),冗余的詞語可以是同義詞重復(fù)、過多的修飾詞或無意義的贅述。替換錯(cuò)誤:在文本中將某些詞語或短語替換為不恰當(dāng)或錯(cuò)誤的詞語,使句子意思發(fā)生偏差或邏輯錯(cuò)誤,替換的詞語可以是同義詞、不相關(guān)的詞語或形近詞。詞序錯(cuò)誤:在文本中將詞語或短語的順序進(jìn)行調(diào)整,使句子結(jié)構(gòu)不合理或意思模糊,調(diào)整的詞語可以是主語、謂語、賓語、定語、狀語或補(bǔ)語。
24、進(jìn)一步的,s40具體包括:逐一選擇語病生成規(guī)則的錯(cuò)誤類型,使用transformer模型在上一步新文本增強(qiáng)數(shù)據(jù)的基礎(chǔ)上生成“缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤”的四種負(fù)樣本,作為未處理的負(fù)樣本擴(kuò)充。
25、本發(fā)明的有益效果如下:本發(fā)明的方法結(jié)合自然語言處理、深度學(xué)習(xí),形成了一種政務(wù)文本負(fù)樣本的生成方法,有效解決了政務(wù)語料缺少負(fù)樣本的問題。本方案通過對(duì)政務(wù)文本進(jìn)行回譯處理和語義相似度分析,能夠生成高質(zhì)量的負(fù)樣本,豐富了政務(wù)文本語料庫。同時(shí),本發(fā)明設(shè)計(jì)了專門的語病生成規(guī)則,生成的負(fù)樣本更具真實(shí)性和代表性,提高了文本數(shù)據(jù)的多樣性。通過編輯距離計(jì)算,篩選出與原始文本語義接近的負(fù)樣本,確保生成數(shù)據(jù)的有效性和準(zhǔn)確性。這些增強(qiáng)的數(shù)據(jù)不僅能夠提高政務(wù)文本糾錯(cuò)模型的訓(xùn)練效果,還能廣泛應(yīng)用于政務(wù)文本處理和自然語言處理領(lǐng)域,提升文本糾錯(cuò)和文本生成技術(shù)的整體性能。
26、本專利使用提取實(shí)體、模型訓(xùn)練、語病生成規(guī)則的方法,能進(jìn)一步增加生成的文本的差異性。此外,結(jié)合回譯技術(shù)和模型訓(xùn)練,再通過篩選,在實(shí)體詞準(zhǔn)確識(shí)別的基礎(chǔ)上,能得到質(zhì)量更好的增強(qiáng)文本。
1.一種基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,包括構(gòu)建專有名詞和專業(yè)術(shù)語詞典,記錄專有名詞和專業(yè)術(shù)語的位置和類型;根據(jù)專有名詞和專業(yè)術(shù)語詞典分析句法結(jié)構(gòu)和文體特征,構(gòu)建語病生成規(guī)則;
2.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s10具體包括:
3.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s20具體包括:
4.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s30具體包括:
5.根據(jù)權(quán)利要求4所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s30具體包括:
6.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s50具體包括:
7.根據(jù)權(quán)利要求1所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,語病生成規(guī)則包括:缺失錯(cuò)誤、冗余錯(cuò)誤、替換錯(cuò)誤、詞序錯(cuò)誤;
8.根據(jù)權(quán)利要求1或7所述的基于政務(wù)文本語病糾錯(cuò)的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,s40具體包括: