一種泰語文本拼寫糾正方法及裝置與流程

文檔序號：11432633閱讀：613來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域，特別是涉及一種泰語文本拼寫糾正檢查方法及裝置。

背景技術(shù)：
拼寫檢查，是指針對用戶所輸入的文本進行檢查，找出其中可能存在錯誤的部分，或者進一步給出可能存在的糾錯方案。拼寫檢查包括很多方面，對于不同的語言，拼寫檢查所包含的具體內(nèi)容不同，例如，英文的拼寫檢查主要包括語法錯誤檢查和單詞拼寫錯誤檢查，中文的拼寫檢查則包括錯別字、拼音詞組輸入錯誤等等。對于泰語而言，語法相對簡單，但是泰語中大量存在同一詞條的不規(guī)范形式問題，即同一個詞條，可能在實際書寫時有多種拼寫方法，這在外來語音譯詞上表現(xiàn)尤為明顯。例如“電梯(英文lift)”，在泰語中和都是同一意思；再如和都是“郵件(email的意思)”。造成泰語這種不規(guī)范形式的原因主要是泰語用戶習(xí)慣于根據(jù)音節(jié)發(fā)音來拼寫單詞，只要發(fā)音相同或近似，各種拼寫方法都能被人閱讀和理解。但對于計算機而言，由于在詞典中很難覆蓋同一單詞的所有不規(guī)范寫法，因此會給很多應(yīng)用處理帶來很大麻煩?，F(xiàn)有技術(shù)中，英文單詞拼寫檢查及糾正的實現(xiàn)，主要是根據(jù)系統(tǒng)自帶詞典的內(nèi)容進行判斷，如果用戶輸入的單詞不屬于詞典詞，則判斷出錯，并且將與用戶輸入內(nèi)容拼寫相似的單詞提供給用戶作為糾錯備選。這種方法理論上可以用于泰語的拼寫檢查和糾正，然而根據(jù)前文所介紹的泰語實際情況，很多情況下并不是“拼寫錯誤”，而是“不規(guī)范”的問題，根據(jù)拼寫相似度提供糾錯備選的方法，在實際應(yīng)用中并不能很準(zhǔn)確地找到用戶輸入內(nèi)容的規(guī)范形式。

技術(shù)實現(xiàn)要素：
為解決上述技術(shù)問題，本發(fā)明實施例提供一種泰語文本拼寫糾正方法及裝置，以實現(xiàn)將不規(guī)范的泰語拼寫糾正為規(guī)范形式。技術(shù)方案如下：一種泰語文本拼寫糾正方法，包括：對待糾正文本進行音節(jié)切分；對切分出的音節(jié)進行讀音泛化；在預(yù)置的詞典中，查詢與讀音泛化結(jié)果相匹配的詞條；將查詢結(jié)果作為所述待糾正文本的糾正備選輸出。在本發(fā)明的一種實施方式中，所述對待糾正文本進行音節(jié)切分，包括：利用預(yù)置的音節(jié)切分模型，對所述待糾正文本進行音節(jié)切分。在本發(fā)明的一種實施方式中，所述音節(jié)切分模型的獲得方法包括：根據(jù)泰語字符在泰語音節(jié)中的位置及字符類型，對泰語語料進行標(biāo)注，得到字符訓(xùn)練語料；根據(jù)字符訓(xùn)練語料，訓(xùn)練得到音節(jié)切分模型。在本發(fā)明的一種實施方式中，所述泰語字符在泰語音節(jié)中的位置，包括：位于開頭、位于中間、和位于結(jié)尾。在本發(fā)明的一種實施方式中，所述泰語字符的類型包括：可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調(diào)。在本發(fā)明的一種實施方式中，所述對待糾正文本進行音節(jié)切分，包括：利用預(yù)置的音節(jié)合并模板，對待糾正文本的字符進行合并后，得到音節(jié)切分結(jié)果。在本發(fā)明的一種實施方式中，所述將查詢結(jié)果作為所述待糾正文本的糾正備選輸出，包括：在查詢到多個匹配詞條的情況下，分別獲取每個匹配詞條的特征；根據(jù)所獲取的特征，分別計算每個匹配詞條與待糾正文本的相似度；根據(jù)相似度的大小，對多個匹配詞條進行輸出。在本發(fā)明的一種實施方式中，所述匹配詞條的特征包括：匹配詞條的獨立特征、和/或匹配詞條與待修正文本的聯(lián)合特征。在本發(fā)明的一種實施方式中，所述方法還包括：在預(yù)置的詞典中，對用戶輸入的文本進行查詢，如果查詢失敗，則將用戶輸入文本確定為待糾正文本。在本發(fā)明的一種實施方式中，所述方法還包括：在對用戶輸入的文本進行查詢之前，對用戶輸入的文本進行分詞。本發(fā)明還提供一種泰語文本拼寫糾正裝置，包括：音節(jié)切分單元，用于對待糾正文本進行音節(jié)切分；讀音泛化單元，用于對切分出的音節(jié)進行讀音泛化；詞典查詢單元，用于在預(yù)置的詞典中，查詢與讀音泛化結(jié)果相匹配的詞條；備選輸出單元，用于將查詢結(jié)果作為所述待糾正文本的糾正備選輸出。在本發(fā)明的一種實施方式中，所述音節(jié)切分單元，具體用于：利用預(yù)置的音節(jié)切分模型，對所述待糾正文本進行音節(jié)切分。在本發(fā)明的一種實施方式中，所述音節(jié)切分模型的獲得方法包括：根據(jù)泰語字符在泰語音節(jié)中的位置及字符類型，對泰語語料進行標(biāo)注，得到字符訓(xùn)練語料；根據(jù)字符訓(xùn)練語料，訓(xùn)練得到音節(jié)切分模型。在本發(fā)明的一種實施方式中，所述泰語字符在泰語音節(jié)中的位置，包括：位于開頭、位于中間、和位于結(jié)尾。在本發(fā)明的一種實施方式中，所述泰語字符的類型包括：可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調(diào)。在本發(fā)明的一種實施方式中，所述音節(jié)切分單元，具體用于：利用預(yù)置的音節(jié)合并模板，對待糾正文本的字符進行合并后，得到音節(jié)切分結(jié)果。在本發(fā)明的一種實施方式中，所述備選輸出單元，包括：特征獲取子單元，用于在查詢到多個匹配詞條的情況下，分別提取每個匹配詞條的特征；相似度計算子單元，用于根據(jù)所獲取的特征，分別計算每個匹配詞條與待糾正文本的相似度；輸入子單元，用于根據(jù)相似度的大小，對多個匹配詞條進行輸出。在本發(fā)明的一種實施方式中，所述匹配詞條的特征包括：匹配詞條的獨立特征、和/或匹配詞條與待修正文本的聯(lián)合特征。在本發(fā)明的一種實施方式中，所述裝置還包括：拼寫檢查單元，用于在預(yù)置的詞典中，對用戶輸入的文本進行查詢，如果查詢失敗，則將用戶輸入文本確定為待糾正文本。在本發(fā)明的一種實施方式中，所述裝置還包括：分詞單元，用于在對用戶輸入的文本進行查詢之前，對用戶輸入的文本進行分詞。本發(fā)明實施例所提供的技術(shù)方案，根據(jù)泰語中拼寫不規(guī)范現(xiàn)象的實際產(chǎn)生原因，利用文本的讀音特性對為用戶的輸入文本內(nèi)容提供糾正備選，與現(xiàn)有技術(shù)中根據(jù)拼寫相似性提供糾正備選的方案相比，更加適用于泰語的實際情況，能夠在用戶輸入不規(guī)范拼寫文本的情況下，更好地找到用戶輸入內(nèi)容的規(guī)范形式，為用戶提供糾正備選，提高糾正結(jié)果的可用性和準(zhǔn)確性。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例泰語文本拼寫糾正方法的流程圖；圖2為本發(fā)明實施例泰語文本拼寫糾正裝置的第一種結(jié)構(gòu)示意圖；圖3為本發(fā)明實施例泰語文本拼寫糾正裝置的第二種結(jié)構(gòu)示意圖；圖4為本發(fā)明實施例泰語文本拼寫糾正裝置的第三種結(jié)構(gòu)示意圖；具體實施方式為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明中的技術(shù)方案，下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行詳細(xì)地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例，都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。在泰語中，同一個詞條，可能在實際書寫時有多種拼寫方法，造成這種不規(guī)范形式的原因主要是泰語用戶習(xí)慣于根據(jù)音節(jié)發(fā)音來拼寫單詞，只要發(fā)音相同或近似，各種拼寫方法都能被人閱讀和理解。但對于計算機而言，由于在詞典中很難覆蓋同一單詞的所有不規(guī)范寫法，因此會給很多應(yīng)用處理帶來很大麻煩。例如，對于(電話)一詞，在實際應(yīng)用中，可能漏掉音調(diào)寫成也可能將最后一個輔音寫錯為這種情況會給實際應(yīng)用帶來很多麻煩。針對泰語單詞拼寫不規(guī)范的實際情況，本發(fā)明提供一種泰語文本拼寫糾正方法，從而實現(xiàn)將不規(guī)范的泰語拼寫糾正為規(guī)范形式，該方法可以包括以下步驟：對待糾正文本進行音節(jié)切分；對切分出的音節(jié)進行讀音泛化；在預(yù)置的詞典中，查詢與讀音泛化結(jié)果相匹配的詞條；將查詢結(jié)果作為所述待糾正文本的糾正備選輸出。泰語中的音節(jié)，是指符合泰語音律規(guī)則的單獨發(fā)音單元，一般由若干個輔音、元音、音調(diào)字符組成。而一個泰語單詞則可能由一個或多個音節(jié)組成。由于泰語的不規(guī)范問題一般是相同或相似讀音的不同拼寫，因此，在本發(fā)明的方案中，以音節(jié)為單位對不規(guī)范拼寫進行切分，然后利用讀音泛化技術(shù)，在詞典中查找與不規(guī)范拼寫具有相同或相似讀音的的規(guī)范詞條，如果能夠查找到相匹配的結(jié)果，則該結(jié)果有很大可能就是不規(guī)則拼寫的規(guī)范形式，可以作為糾正備選供用戶進行選擇。下面結(jié)合具體的實施例，對本發(fā)明所提供的方案進行詳細(xì)說明：圖1所示，為本發(fā)明一種泰語文本拼寫糾正方法的流程示意圖，可以包括以下步驟：S101，對待糾正文本進行音節(jié)切分；泰語中的音節(jié)，是指符合泰語音律規(guī)則的單獨發(fā)音單元，一般由若干個輔音、元音、音調(diào)字符組成。而一個泰語單詞則可能由一個或多個音節(jié)組成，例如：(查找)由一個音節(jié)組成；(地址)由和兩個音節(jié)組成；(電話)由和兩個音節(jié)組成；……根據(jù)泰語的詞法規(guī)則，其字符類型包括以下3類：輔音，例如等、元音，例如等、音調(diào)，例如等而在本發(fā)明中，根據(jù)字符在音節(jié)中的位置，將上述3類字符進一步細(xì)分為7類，如表1所示：表1在本步驟中，對泰語單詞以音節(jié)為單位進行切分，由于在泰語中并不存在明顯的針對音節(jié)的天然切分，本發(fā)明提供兩種泰語音節(jié)切分方式，以下分別進行介紹：1)利用模型方法對泰語詞條進行切分：本發(fā)明以CRF(ConditionalRandomFields，條件隨機場)方法建立音節(jié)切分模型，其中，根據(jù)泰語的特點，以字符作為標(biāo)注單元，建立CRF模型，利用CRF的動態(tài)切分能力，可以解決泰語的不規(guī)范形式問題。CRF模型在中文切詞中已經(jīng)廣泛應(yīng)用，具體來說，如果將字在詞中的位置作為標(biāo)簽，可以將切詞問題看作基于字的序列標(biāo)注問題，例如：“喜羊羊與灰太狼”如果切分為“喜羊羊|與|灰太狼”的話，對應(yīng)的標(biāo)注序列就為：“喜/B羊/M羊/E與/S灰/B太/M狼/E”，其中B、M、E、S分別表示字在詞的開頭、中間、結(jié)尾、單獨成詞?？梢姡形闹苯硬捎脻h字作為序列標(biāo)注的單元，而在本發(fā)明中，根據(jù)泰語的特點，所采用的序列標(biāo)注單元是泰語字符。根據(jù)泰語字符在泰語音節(jié)中的位置及字符類型，對泰語語料進行標(biāo)注，得到字符訓(xùn)練語料；然后根據(jù)字符訓(xùn)練語料，訓(xùn)練得到音節(jié)切分模型。首先人工或者半自動標(biāo)注一批泰語句子，然后以字位(B、M、E分別表示字符位于音節(jié)開頭、中間、結(jié)尾)作為標(biāo)注標(biāo)簽，字符本身、字符類型標(biāo)簽作為特征，生成訓(xùn)練語料。之所以引入字符類別，是因為字符類別可以將原本稀疏的字符特征加以泛化，在少量訓(xùn)練語料的情況下獲得較好的模型效果。以這樣的音節(jié)切分為例，轉(zhuǎn)換為序列標(biāo)注訓(xùn)練語料格式如下：其中，第一列是泰語字符；第二列是泰語字符類型，其中包括可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調(diào)共7類，具體定義可參見表1；第三列是分類標(biāo)注。經(jīng)過CRF訓(xùn)練生成音節(jié)切分模型后，就可以對待糾正文本進行音節(jié)切分。2)利用預(yù)置模板的方法對泰語詞條進行音節(jié)切分。通過統(tǒng)計發(fā)現(xiàn)，泰語音節(jié)的構(gòu)成方式是存在一定規(guī)律的，將這些規(guī)律整理出來，可以得到多個音節(jié)合并模板。一個動態(tài)識別音節(jié)...

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何徑舟;張超
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種泰語文本拼寫糾正方法及裝置與流程