欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種泰語文本拼寫糾正方法及裝置與流程

文檔序號:11432633閱讀:613來源:國知局
一種泰語文本拼寫糾正方法及裝置與流程
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是涉及一種泰語文本拼寫糾正檢查方法及裝置。

背景技術(shù):
拼寫檢查,是指針對用戶所輸入的文本進行檢查,找出其中可能存在錯誤的部分,或者進一步給出可能存在的糾錯方案。拼寫檢查包括很多方面,對于不同的語言,拼寫檢查所包含的具體內(nèi)容不同,例如,英文的拼寫檢查主要包括語法錯誤檢查和單詞拼寫錯誤檢查,中文的拼寫檢查則包括錯別字、拼音詞組輸入錯誤等等。對于泰語而言,語法相對簡單,但是泰語中大量存在同一詞條的不規(guī)范形式問題,即同一個詞條,可能在實際書寫時有多種拼寫方法,這在外來語音譯詞上表現(xiàn)尤為明顯。例如“電梯(英文lift)”,在泰語中和都是同一意思;再如和都是“郵件(email的意思)”。造成泰語這種不規(guī)范形式的原因主要是泰語用戶習(xí)慣于根據(jù)音節(jié)發(fā)音來拼寫單詞,只要發(fā)音相同或近似,各種拼寫方法都能被人閱讀和理解。但對于計算機而言,由于在詞典中很難覆蓋同一單詞的所有不規(guī)范寫法,因此會給很多應(yīng)用處理帶來很大麻煩?,F(xiàn)有技術(shù)中,英文單詞拼寫檢查及糾正的實現(xiàn),主要是根據(jù)系統(tǒng)自帶詞典的內(nèi)容進行判斷,如果用戶輸入的單詞不屬于詞典詞,則判斷出錯,并且將與用戶輸入內(nèi)容拼寫相似的單詞提供給用戶作為糾錯備選。這種方法理論上可以用于泰語的拼寫檢查和糾正,然而根據(jù)前文所介紹的泰語實際情況,很多情況下并不是“拼寫錯誤”,而是“不規(guī)范”的問題,根據(jù)拼寫相似度提供糾錯備選的方法,在實際應(yīng)用中并不能很準(zhǔn)確地找到用戶輸入內(nèi)容的規(guī)范形式。

技術(shù)實現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明實施例提供一種泰語文本拼寫糾正方法及裝置,以實現(xiàn)將不規(guī)范的泰語拼寫糾正為規(guī)范形式。技術(shù)方案如下:一種泰語文本拼寫糾正方法,包括:對待糾正文本進行音節(jié)切分;對切分出的音節(jié)進行讀音泛化;在預(yù)置的詞典中,查詢與讀音泛化結(jié)果相匹配的詞條;將查詢結(jié)果作為所述待糾正文本的糾正備選輸出。在本發(fā)明的一種實施方式中,所述對待糾正文本進行音節(jié)切分,包括:利用預(yù)置的音節(jié)切分模型,對所述待糾正文本進行音節(jié)切分。在本發(fā)明的一種實施方式中,所述音節(jié)切分模型的獲得方法包括:根據(jù)泰語字符在泰語音節(jié)中的位置及字符類型,對泰語語料進行標(biāo)注,得到字符訓(xùn)練語料;根據(jù)字符訓(xùn)練語料,訓(xùn)練得到音節(jié)切分模型。在本發(fā)明的一種實施方式中,所述泰語字符在泰語音節(jié)中的位置,包括:位于開頭、位于中間、和位于結(jié)尾。在本發(fā)明的一種實施方式中,所述泰語字符的類型包括:可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調(diào)。在本發(fā)明的一種實施方式中,所述對待糾正文本進行音節(jié)切分,包括:利用預(yù)置的音節(jié)合并模板,對待糾正文本的字符進行合并后,得到音節(jié)切分結(jié)果。在本發(fā)明的一種實施方式中,所述將查詢結(jié)果作為所述待糾正文本的糾正備選輸出,包括:在查詢到多個匹配詞條的情況下,分別獲取每個匹配詞條的特征;根據(jù)所獲取的特征,分別計算每個匹配詞條與待糾正文本的相似度;根據(jù)相似度的大小,對多個匹配詞條進行輸出。在本發(fā)明的一種實施方式中,所述匹配詞條的特征包括:匹配詞條的獨立特征、和/或匹配詞條與待修正文本的聯(lián)合特征。在本發(fā)明的一種實施方式中,所述方法還包括:在預(yù)置的詞典中,對用戶輸入的文本進行查詢,如果查詢失敗,則將用戶輸入文本確定為待糾正文本。在本發(fā)明的一種實施方式中,所述方法還包括:在對用戶輸入的文本進行查詢之前,對用戶輸入的文本進行分詞。本發(fā)明還提供一種泰語文本拼寫糾正裝置,包括:音節(jié)切分單元,用于對待糾正文本進行音節(jié)切分;讀音泛化單元,用于對切分出的音節(jié)進行讀音泛化;詞典查詢單元,用于在預(yù)置的詞典中,查詢與讀音泛化結(jié)果相匹配的詞條;備選輸出單元,用于將查詢結(jié)果作為所述待糾正文本的糾正備選輸出。在本發(fā)明的一種實施方式中,所述音節(jié)切分單元,具體用于:利用預(yù)置的音節(jié)切分模型,對所述待糾正文本進行音節(jié)切分。在本發(fā)明的一種實施方式中,所述音節(jié)切分模型的獲得方法包括:根據(jù)泰語字符在泰語音節(jié)中的位置及字符類型,對泰語語料進行標(biāo)注,得到字符訓(xùn)練語料;根據(jù)字符訓(xùn)練語料,訓(xùn)練得到音節(jié)切分模型。在本發(fā)明的一種實施方式中,所述泰語字符在泰語音節(jié)中的位置,包括:位于開頭、位于中間、和位于結(jié)尾。在本發(fā)明的一種實施方式中,所述泰語字符的類型包括:可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調(diào)。在本發(fā)明的一種實施方式中,所述音節(jié)切分單元,具體用于:利用預(yù)置的音節(jié)合并模板,對待糾正文本的字符進行合并后,得到音節(jié)切分結(jié)果。在本發(fā)明的一種實施方式中,所述備選輸出單元,包括:特征獲取子單元,用于在查詢到多個匹配詞條的情況下,分別提取每個匹配詞條的特征;相似度計算子單元,用于根據(jù)所獲取的特征,分別計算每個匹配詞條與待糾正文本的相似度;輸入子單元,用于根據(jù)相似度的大小,對多個匹配詞條進行輸出。在本發(fā)明的一種實施方式中,所述匹配詞條的特征包括:匹配詞條的獨立特征、和/或匹配詞條與待修正文本的聯(lián)合特征。在本發(fā)明的一種實施方式中,所述裝置還包括:拼寫檢查單元,用于在預(yù)置的詞典中,對用戶輸入的文本進行查詢,如果查詢失敗,則將用戶輸入文本確定為待糾正文本。在本發(fā)明的一種實施方式中,所述裝置還包括:分詞單元,用于在對用戶輸入的文本進行查詢之前,對用戶輸入的文本進行分詞。本發(fā)明實施例所提供的技術(shù)方案,根據(jù)泰語中拼寫不規(guī)范現(xiàn)象的實際產(chǎn)生原因,利用文本的讀音特性對為用戶的輸入文本內(nèi)容提供糾正備選,與現(xiàn)有技術(shù)中根據(jù)拼寫相似性提供糾正備選的方案相比,更加適用于泰語的實際情況,能夠在用戶輸入不規(guī)范拼寫文本的情況下,更好地找到用戶輸入內(nèi)容的規(guī)范形式,為用戶提供糾正備選,提高糾正結(jié)果的可用性和準(zhǔn)確性。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例泰語文本拼寫糾正方法的流程圖;圖2為本發(fā)明實施例泰語文本拼寫糾正裝置的第一種結(jié)構(gòu)示意圖;圖3為本發(fā)明實施例泰語文本拼寫糾正裝置的第二種結(jié)構(gòu)示意圖;圖4為本發(fā)明實施例泰語文本拼寫糾正裝置的第三種結(jié)構(gòu)示意圖;具體實施方式為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行詳細(xì)地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。在泰語中,同一個詞條,可能在實際書寫時有多種拼寫方法,造成這種不規(guī)范形式的原因主要是泰語用戶習(xí)慣于根據(jù)音節(jié)發(fā)音來拼寫單詞,只要發(fā)音相同或近似,各種拼寫方法都能被人閱讀和理解。但對于計算機而言,由于在詞典中很難覆蓋同一單詞的所有不規(guī)范寫法,因此會給很多應(yīng)用處理帶來很大麻煩。例如,對于(電話)一詞,在實際應(yīng)用中,可能漏掉音調(diào)寫成也可能將最后一個輔音寫錯為這種情況會給實際應(yīng)用帶來很多麻煩。針對泰語單詞拼寫不規(guī)范的實際情況,本發(fā)明提供一種泰語文本拼寫糾正方法,從而實現(xiàn)將不規(guī)范的泰語拼寫糾正為規(guī)范形式,該方法可以包括以下步驟:對待糾正文本進行音節(jié)切分;對切分出的音節(jié)進行讀音泛化;在預(yù)置的詞典中,查詢與讀音泛化結(jié)果相匹配的詞條;將查詢結(jié)果作為所述待糾正文本的糾正備選輸出。泰語中的音節(jié),是指符合泰語音律規(guī)則的單獨發(fā)音單元,一般由若干個輔音、元音、音調(diào)字符組成。而一個泰語單詞則可能由一個或多個音節(jié)組成。由于泰語的不規(guī)范問題一般是相同或相似讀音的不同拼寫,因此,在本發(fā)明的方案中,以音節(jié)為單位對不規(guī)范拼寫進行切分,然后利用讀音泛化技術(shù),在詞典中查找與不規(guī)范拼寫具有相同或相似讀音的的規(guī)范詞條,如果能夠查找到相匹配的結(jié)果,則該結(jié)果有很大可能就是不規(guī)則拼寫的規(guī)范形式,可以作為糾正備選供用戶進行選擇。下面結(jié)合具體的實施例,對本發(fā)明所提供的方案進行詳細(xì)說明:圖1所示,為本發(fā)明一種泰語文本拼寫糾正方法的流程示意圖,可以包括以下步驟:S101,對待糾正文本進行音節(jié)切分;泰語中的音節(jié),是指符合泰語音律規(guī)則的單獨發(fā)音單元,一般由若干個輔音、元音、音調(diào)字符組成。而一個泰語單詞則可能由一個或多個音節(jié)組成,例如:(查找)由一個音節(jié)組成;(地址)由和兩個音節(jié)組成;(電話)由和兩個音節(jié)組成;……根據(jù)泰語的詞法規(guī)則,其字符類型包括以下3類:輔音,例如等、元音,例如等、音調(diào),例如等而在本發(fā)明中,根據(jù)字符在音節(jié)中的位置,將上述3類字符進一步細(xì)分為7類,如表1所示:表1在本步驟中,對泰語單詞以音節(jié)為單位進行切分,由于在泰語中并不存在明顯的針對音節(jié)的天然切分,本發(fā)明提供兩種泰語音節(jié)切分方式,以下分別進行介紹:1)利用模型方法對泰語詞條進行切分:本發(fā)明以CRF(ConditionalRandomFields,條件隨機場)方法建立音節(jié)切分模型,其中,根據(jù)泰語的特點,以字符作為標(biāo)注單元,建立CRF模型,利用CRF的動態(tài)切分能力,可以解決泰語的不規(guī)范形式問題。CRF模型在中文切詞中已經(jīng)廣泛應(yīng)用,具體來說,如果將字在詞中的位置作為標(biāo)簽,可以將切詞問題看作基于字的序列標(biāo)注問題,例如:“喜羊羊與灰太狼”如果切分為“喜羊羊|與|灰太狼”的話,對應(yīng)的標(biāo)注序列就為:“喜/B羊/M羊/E與/S灰/B太/M狼/E”,其中B、M、E、S分別表示字在詞的開頭、中間、結(jié)尾、單獨成詞??梢姡形闹苯硬捎脻h字作為序列標(biāo)注的單元,而在本發(fā)明中,根據(jù)泰語的特點,所采用的序列標(biāo)注單元是泰語字符。根據(jù)泰語字符在泰語音節(jié)中的位置及字符類型,對泰語語料進行標(biāo)注,得到字符訓(xùn)練語料;然后根據(jù)字符訓(xùn)練語料,訓(xùn)練得到音節(jié)切分模型。首先人工或者半自動標(biāo)注一批泰語句子,然后以字位(B、M、E分別表示字符位于音節(jié)開頭、中間、結(jié)尾)作為標(biāo)注標(biāo)簽,字符本身、字符類型標(biāo)簽作為特征,生成訓(xùn)練語料。之所以引入字符類別,是因為字符類別可以將原本稀疏的字符特征加以泛化,在少量訓(xùn)練語料的情況下獲得較好的模型效果。以這樣的音節(jié)切分為例,轉(zhuǎn)換為序列標(biāo)注訓(xùn)練語料格式如下:其中,第一列是泰語字符;第二列是泰語字符類型,其中包括可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調(diào)共7類,具體定義可參見表1;第三列是分類標(biāo)注。經(jīng)過CRF訓(xùn)練生成音節(jié)切分模型后,就可以對待糾正文本進行音節(jié)切分。2)利用預(yù)置模板的方法對泰語詞條進行音節(jié)切分。通過統(tǒng)計發(fā)現(xiàn),泰語音節(jié)的構(gòu)成方式是存在一定規(guī)律的,將這些規(guī)律整理出來,可以得到多個音節(jié)合并模板。一個動態(tài)識別音節(jié)...
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
城固县| 荆门市| 自治县| 昭觉县| 永善县| 鸡西市| 格尔木市| 库车县| 封丘县| 山东| 开鲁县| 鹤山市| 泸州市| 沧州市| 津南区| 巴塘县| 京山县| 金昌市| 梁山县| 满城县| 资溪县| 慈溪市| 介休市| 青岛市| 富川| 卢湾区| 名山县| 兴隆县| 高雄县| 措勤县| 深泽县| 黑水县| 乾安县| 迁安市| 鲁甸县| 油尖旺区| 三穗县| 武强县| 卓尼县| 微博| 尚志市|