本技術(shù)涉及金融科技,尤其涉及一種文本糾錯方法和裝置、計算機(jī)設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在金融領(lǐng)域中,文本輸入的正確率影響后續(xù)金融服務(wù)的效果。例如,在保險咨詢服務(wù)場景中,保險業(yè)務(wù)信息會基于輸入的文本識別后輸出,若用戶輸入的文本存在錯誤,將影響保險業(yè)務(wù)信息輸出的準(zhǔn)確性?;诖耍嚓P(guān)技術(shù)中,會先對輸入文本進(jìn)行糾錯處理,得到更正文本后,再基于更正文本輸出保險業(yè)務(wù)信息。但是,在文本糾錯過程中通常以字符級特征進(jìn)行糾錯,由于字符特征的糾錯方式?jīng)]有考慮與其他字符之間的搭配關(guān)系,且輸入的文本若存在多個錯別字符時,容易影響糾錯的準(zhǔn)確性。因此,如何提高文本糾錯的準(zhǔn)確性,成為了亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種文本糾錯方法和裝置、計算機(jī)設(shè)備及存儲介質(zhì),旨在提高文本糾錯的準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種文本糾錯方法,所述方法包括:
3、獲取原始文本;
4、對所述原始文本進(jìn)行分詞處理,得到原始分詞組塊;
5、根據(jù)所述原始分詞組塊從預(yù)設(shè)的候選詞級組塊中篩選出選定詞級組塊;
6、將所述選定詞級組塊進(jìn)行拼接處理,得到初步糾正文本;
7、根據(jù)所述原始文本對所述初步糾正文本進(jìn)行糾正評估處理,得到糾正評估數(shù)據(jù);其中,所述糾正評估數(shù)據(jù)表征所述初步糾正文本的糾正準(zhǔn)確程度;
8、根據(jù)所述糾正評估數(shù)據(jù)對所述選定詞級組塊進(jìn)行更新處理,得到更新詞級組塊;
9、將所述更新詞級組塊進(jìn)行拼接處理,得到目標(biāo)糾正文本。
10、在一些實(shí)施例,所述根據(jù)所述原始文本對所述初步糾正文本進(jìn)行糾正評估處理,得到糾正評估數(shù)據(jù),包括:
11、通過預(yù)設(shè)的原始糾正評估模型獲取所述原始文本的原始詞組信息;其中,所述原始詞組信息包括:原始詞義信息、原始詞形信息和原始詞音信息;
12、通過所述原始糾正評估模型獲取所述初步糾正文本的糾正詞組信息;其中,所述糾正詞組信息包括:糾正詞義信息、糾正詞形信息和糾正詞音信息;
13、通過所述原始糾正評估模型對所述原始詞義信息和所述糾正詞義信息進(jìn)行相似度計算,得到詞義相似度;
14、通過所述原始糾正評估模型對所述原始詞形信息和所述糾正詞形信息進(jìn)行相似度計算,得到詞形相似度;
15、通過所述原始糾正評估模型對所述原始詞音信息和所述糾正詞音信息進(jìn)行相似度計算,得到詞音相似度;
16、將所述詞義相似度、所述詞形相似度和所述詞音相似度進(jìn)行拼接處理,得到所述糾正評估數(shù)據(jù)。
17、在一些實(shí)施例,在所述將所述更新詞級組塊進(jìn)行拼接處理,得到目標(biāo)糾正文本之后,所述方法還包括:
18、對所述目標(biāo)糾正文本和預(yù)設(shè)的驗(yàn)證文本進(jìn)行損失計算,得到糾正損失數(shù)據(jù);
19、根據(jù)所述糾正損失數(shù)據(jù)對所述原始糾正評估模型進(jìn)行模型參數(shù)調(diào)整,得到目標(biāo)糾正評估模型。
20、在一些實(shí)施例,所述根據(jù)所述糾正評估數(shù)據(jù)對所述選定詞級組塊進(jìn)行更新處理,得到更新詞級組塊,包括:
21、根據(jù)所述糾正評估數(shù)據(jù)對所述原始分詞組塊進(jìn)行分詞調(diào)整,得到更新分詞組塊;
22、根據(jù)所述更新分詞組塊從所述候選詞級組塊中篩選出新增詞級組塊;
23、根據(jù)所述新增詞級組塊對所述選定詞級組塊進(jìn)行更新,得到所述更新詞級組塊。
24、在一些實(shí)施例,所述將所述選定詞級組塊進(jìn)行拼接處理,得到初步糾正文本,包括:
25、從所述選定詞級組塊中選出參考詞級組塊;
26、根據(jù)所述參考詞級組塊從所述選定詞級組塊中篩選出下一詞級組塊;其中,所述下一詞級組塊為所述參考詞級組塊下一個的所述選定詞級組塊;
27、根據(jù)所述參考詞級組塊對所述下一詞級組塊進(jìn)行選擇概率預(yù)測,得到選擇預(yù)測概率;
28、根據(jù)所述選擇預(yù)測概率從所述下一詞級組塊中篩選出選中詞級組塊;
29、將所述參考詞級組塊和所述選中詞級組塊進(jìn)行拼接處理,得到所述初步糾正文本。
30、在一些實(shí)施例,所述根據(jù)所述原始分詞組塊從預(yù)設(shè)的候選詞級組塊中篩選出選定詞級組塊,包括:
31、獲取所述原始分詞組塊的原始字符信息;其中,所述原始字符信息包括原始字音信息、原始字形信息和原始字義信息;
32、根據(jù)所述原始字音信息從所述候選詞級組塊中篩選出初步詞級組塊;
33、根據(jù)所述原始字形信息和所述原始字義信息從所述初步詞級組塊中篩選出所述選定詞級組塊。
34、在一些實(shí)施例,所述對所述原始文本進(jìn)行分詞處理,得到原始分詞組塊,包括:
35、對所述原始文本進(jìn)行編碼處理,得到原始編碼數(shù)據(jù);
36、對所述原始編碼數(shù)據(jù)進(jìn)行分詞預(yù)測,得到分詞順序信息;其中,所述分詞順序信息表征所述原始文本中的詞語劃分順序;
37、根據(jù)所述分詞順序信息對所述原始文本進(jìn)行分詞處理,得到所述原始分詞組塊。
38、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種文本糾錯裝置,所述裝置包括:
39、文本獲取模塊,用于獲取原始文本;
40、分詞模塊,用于對所述原始文本進(jìn)行分詞處理,得到原始分詞組塊;
41、組塊篩選模塊,用于根據(jù)所述原始分詞組塊從預(yù)設(shè)的候選詞級組塊中篩選出選定詞級組塊;
42、組塊拼接模塊,用于將所述選定詞級組塊進(jìn)行拼接處理,得到初步糾正文本;
43、糾正評估模塊,用于根據(jù)所述原始文本對所述初步糾正文本進(jìn)行糾正評估處理,得到糾正評估數(shù)據(jù);其中,所述糾正評估數(shù)據(jù)表征所述初步糾正文本的糾正準(zhǔn)確程度;
44、組塊更新模塊,用于根據(jù)所述糾正評估數(shù)據(jù)對所述選定詞級組塊進(jìn)行更新處理,得到更新詞級組塊;
45、糾正文本輸出模塊,用于將所述更新詞級組塊進(jìn)行拼接處理,得到目標(biāo)糾正文本。
46、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種計算機(jī)設(shè)備,所述計算機(jī)設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)上述第一方面所述的方法。
47、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述第一方面所述的方法。
48、本技術(shù)提出的文本糾錯方法和裝置、計算機(jī)設(shè)備及存儲介質(zhì),其通過將原始文本分詞成原始分詞組塊,再基于原始分詞組塊從候選詞級組塊中選出可以替換原始分詞組塊的選定詞級組塊,以將選定詞級組塊拼接成初步糾正文本。為了判斷初步糾正文本的糾正正確程度,需要根據(jù)原始文本對初步糾正文本做糾正評估得到糾正評估數(shù)據(jù),以通過糾正評估數(shù)據(jù)調(diào)整選定詞級組塊得到更新詞級組塊,再將更新詞級組塊拼接成目標(biāo)糾正文本,以輸出更加準(zhǔn)確的糾正文本。因此,文本糾錯過程中會不斷優(yōu)化詞級組塊,實(shí)現(xiàn)糾正文本的優(yōu)化,以輸出更加準(zhǔn)確的糾正文本,提升文本糾錯的準(zhǔn)確性。