專利名稱:用于消除語言轉換中的多個讀法的歧義的方法
技術領域:
本發(fā)明涉及語言轉換,尤其涉及消除語言轉換中的多個讀法的歧義。
背景技術:
例如N元語法模型的統計語言模型通常用以通過使用概率分布將概率Pr (W)指配給一序列字W來將一種語言轉換或翻譯成另一種語言。這些語言模型通常是從一大堆文本 (稱作語料庫)訓練且,一般地,俘獲每一個字的出現頻率和/或語料庫內的兩個或兩個以上字的每一序列。按照慣例,通過訓練語言模型而不管語言模型在每一特定上下文中的用法和/或讀法來考慮語料庫中的特定字的出現。雖然語料庫中的大多數字且一般地各自與一種意義相關聯且可能地與一個以上正確發(fā)音相關聯,但是某些字是以完全相同方式書寫而具有不同意義和發(fā)音/讀法(即,同形異音異義詞)。舉例來說,英文語言中的同形異音異義詞的實例為“desert”,其在一種上下文和用法/發(fā)音中意味“拋棄”且在另一種上下文和用法/發(fā)音中意味“干燥的荒蕪陸地區(qū)域”。因此,通過考慮字“desert”的頻率而不管字 “desert”在語料庫中的用法的上下文,常規(guī)語言模型最可能看漏第一種含義(“拋棄”)和第二種含義(“干燥的荒蕪陸地區(qū)域”)的字的使用頻率的任何差別。
拼音是使用羅馬字母表抄錄中國國語的標準方法。在拼音音譯中,將中文字符的語音發(fā)音/讀法映射到由羅馬字母組成的音節(jié)。拼音通常用以經由轉換系統將中文字符輸入到計算機中。這種系統常常并有統計語言模型以改進轉換準確度。某些中文字符具有多個發(fā)音/讀法(即,同形異音異義中文字符)。然而,并不區(qū)別同形異音異義詞的不同發(fā)音 /讀法的常規(guī)語言模型有時可產生用于與同形異音異義中文字符相關聯的拼音的不合需要的中文轉換候選者。發(fā)明內容
本發(fā)明的一個實施例涉及一種方法。所述方法包括在包括存儲器和一個或一個以上處理器的裝置處接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表示;以及使用區(qū)別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。
本發(fā)明的另一實施例涉及一種電子裝置。所述電子裝置包括輸入接收單元,其經配置以接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表示;以及耦合到所述輸入接收單元的轉換單元,所述轉換單元經配置以使用區(qū)別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。
在以下詳細描述和附隨圖式中揭示本發(fā)明的各種實施例。
圖I為用于語言轉換的系統的實施例的圖。
圖2為展示經配置以將輸入數據轉換成目標符號表示的輸出的裝置的實施例的圖。
圖3為展示執(zhí)行語言轉換的程序的實施例的流程圖。
圖4A展示在語料庫中發(fā)現的一序列文本的實例。
圖4B展示存儲于從語料庫訓練的語言模型處的一些數據的實例,圖4A的文本是從所述語料庫發(fā)現。
圖5為展示用于建立已加以注釋的語料庫的系統的實施例的圖,所述已加以注釋的語料庫待用以訓練待用于語言轉換的語言模型。
圖6為展示用于對語言模型加以注釋并使用語言模型的程序的實施例的流程圖。
圖7A為展示句子702和句子704的實例,句子702呈現于不包含關于同形異音異義字符的注釋的語料庫中,句子704呈現于確實包含關于同形異音異義字符的注釋的語料庫中。
圖7B為展示句子710和句子712的實例,句子710呈現于不包含關于同形異音異義字符的注釋的語料庫中,句子712呈現于確實包含關于同形異音異義字符的注釋的語料庫中。
圖8A展示使用未加以注釋以用于同形異音異義字符的中文字符語料庫(“不具有注釋的語料庫”)的實例。
圖SB展示使用已加以注釋以用于同形異音異義字符的中文字符語料庫(“具有注釋的語料庫”)的實例。
圖9為展示語言轉換的程序的實施例的流程圖。
圖10為展示用于將拼音轉換成中文字符的程序的實施例的流程圖。
具體實施方式
本發(fā)明可以眾多方式來實施,眾多方式包含呈現以下各者的形式程序;設備;系統;物質組成;體現于計算機可讀存儲媒體上的計算機程序產品;和/或處理器,例如,經配置以執(zhí)行存儲于耦合到處理器的存儲器上的和/或由耦合到處理器的存儲器提供的指令的處理器。在此說明書中,這些實施方案或本發(fā)明可采用的任何其它形式可被稱作技術。一般地說,可在本發(fā)明的范圍內變更所揭示程序的步驟的次序。除非另外陳述,否則,例如描述為經配置以執(zhí)行任務的處理器或存儲器的組件可實施為經暫時配置以在給定時間執(zhí)行任務的一般組件或經制造以執(zhí)行任務的特定組件。如本文中所使用,術語“處理器”指代經配置以處理數據(例如,計算機程序指令)的一個或一個以上裝置、電路和/或處理芯。
下文連同說明本發(fā)明的原理的隨附圖一起提供本發(fā)明的一個或一個以上實施例的詳細描述。結合這些實施例描述本發(fā)明,但本發(fā)明不限于任何實施例。本發(fā)明的范圍僅通過權利要求書來限制且本發(fā)明包括眾多替代例、修改和等效物。在以下描述中闡述眾多特定細節(jié)以便提供對本發(fā)明的透徹理解。提供這些細節(jié)以用于實例的目的且可在無這些特定細節(jié)中的一些特定細節(jié)或全部的情況下根據權利要求書實踐本發(fā)明。為了清晰的目的, 未詳細描述與本發(fā)明有關的技術領域中已知的技術材料,以使得不會不必要地使本發(fā)明難理解。
揭示使用語言模型的方法,所述語言模型是針對已加以注釋以區(qū)別與某些字符相關聯的不同讀法的語料庫訓練。在一些實施例中,呈現于與一個以上讀法/發(fā)音/用法/ 含義相關聯的語料庫中的字符的例子是用適合于字符的彼例子的讀法/發(fā)音/用法/含義加以注釋。在一些實施例中,使用針對此已加以注釋的語料庫訓練的語言模型將拼音轉換成中文字符。
圖I為用于語言轉換的系統的實施例的圖。在實例中,系統100包含裝置102、網絡104,和轉換服務器106。網絡104可包含各種高速數據和/或電信網絡。
裝置102經配置以接收輸入數據。在一些實施例中,輸入數據可包含輸入文本(例如,羅馬字母表)。舉例來說,輸入數據可包含拼音。雖然將裝置102展示為iPhone ,但裝置102的其它實例可為桌上型計算機、膝上型計算機(例如,MacBook )、智能電話、移動裝置、平板裝置(例如,iPad 或iPad 2 ),以及任何其它類型的計算裝置。裝置102經配置以包含輸入區(qū)域,在輸入區(qū)域中,可由裝置102來俘獲/接收鍵打和/或手寫的字符。 這種輸入區(qū)域的實例包含觸摸屏鍵盤(例如,平板和/或移動電話裝置的觸摸屏鍵盤)、實體鍵盤、軌跡墊(例如,Apple的Magic Trackpad,或MacBook Pro的內置式軌跡墊)、電子書寫表面,以及觸控板。在各種實施例中,用戶可通過與裝置102的輸入區(qū)域互動(例如, 通過鍵打到實體和/或觸摸屏鍵盤中)在裝置102處選擇輸入。在一些實施例中,裝置102 包含顯示區(qū)域,在顯示區(qū)域中,可顯示從轉換服務器106接收的輸出。
在一些實施例中,裝置102經配置以經由網絡104將所接收輸入發(fā)送到轉換服務器106以供轉換服務器106將所接收輸入轉換成目標符號表不的輸出(例如,一組字符)。 在一些實施例中,裝置102包含與執(zhí)行類似轉換相關聯的邏輯、代碼和/或所存儲數據,且因此可執(zhí)行輸入數據到目標符號表示的輸出的轉換,而無需經由網絡104將數據傳輸到遠程轉換服務器106。
轉換服務器106經配置以接收數據并將數據轉換成另一種形式(例如,目標符號表示的字符)。舉例來說,目標符號表示可為中文字符。在一些實施例中,轉換服務器106 可包含語言模型(例如,從中文字符的語料庫訓練的)和/或數據庫,所述數據庫用以存儲輸入數據的文本與目標符號表示的字符集之間的關聯(例如,輸入數據到目標符號表示詞典)。在一些實施例中,轉換服務器106的輸出可包含來自輸入的轉換候選者。舉例來說, 用于輸出的轉換候選者可為從語言模型和輸入拼音確定的某數目個統計上最可能的(即, 很可能的)中文字符。在一些實施例中,將轉換服務器106的輸出發(fā)送回到裝置102且在裝置102處顯示輸出(例如,供用戶檢視和/或關于所顯示信息作出進一步選擇)。
圖2為展示經配置以將輸入數據轉換成目標符號表示的輸出的裝置的實施例的圖。在一些實施例中,可使用圖2的實例來實施系統100的裝置102。在一些實施例中,如圖2中所說明的裝置局部地包含轉換服務器106的一個或一個以上功能性,以使得其可執(zhí)行轉換而無需經由網絡將數據傳輸到遠程服務器。實例中的裝置的所展示組件(例如,顯示器202、轉換引擎206、詞典204、語言模型208,和輸入區(qū)域210)可使用硬件和軟件中的一者或兩者來實施。在一些實施例中,裝置可具有比實例中所展示的彼等組件多或少的組件。
輸入區(qū)域210經配置以俘獲/接收第一符號表示的一組字符。如上文所敘述,輸入區(qū)域210的實例包含觸摸屏鍵盤(例如,平板和/或移動電話裝置的觸摸屏鍵盤)、實體鍵盤、軌跡墊(例如,Apple的Magic Trackpad,或MacBook Pro的內置式軌跡墊)、與語音辨識/轉換/抄錄功能相關聯的接收器(例如,麥克風)、電子書寫表面,以及觸控板。在一些實施例中,輸入區(qū)域210經配置以從羅馬字母表(例如,a、b、c,……等等)接收一個或一個以上文本字符。舉例來說,輸入區(qū)域210可接收拼音,拼音為用于以羅馬字母表音譯中國國語的系統。用戶可(例如)將拼音輸入到裝置的輸入區(qū)域210中,以使得裝置呈現用戶可選擇以在裝置上以中文“鍵打”的中文轉換候選者。在一些實施例中,輸入區(qū)域210 將輸入字符存儲為其對應文本編碼對應物。文本編碼方案的實例包含ASCII、Big5、UTF-8、 UTF-16、HKSCS、GB18030 和 JIS X 0213。
轉換引擎206經配置以使用 從輸入區(qū)域210所接收的輸入且確定目標符號表示的轉換候選者。在一些實施例中,目標符號表示可包含中文字符。在一些實施例中,轉換引擎206經配置以在轉換輸入之前對輸入執(zhí)行預處理。舉例來說,如果輸入為拼音,那么轉換引擎206可將拼音解析成對應于單音節(jié)的一個或一個以上字符群組,以準備用于將每一單音節(jié)映射到中文轉換候選者,這是因為典型地,每一中文字符是以單音節(jié)形式來讀法/發(fā)音。轉換引擎206經配置以存取詞典204和語言模型208。詞典204可包含用以存儲輸入數據的字符集與目標符號表示的字符集之間的映射/關聯的一個或一個以上數據庫。語言模型208可為針對目標符號表示的文本的語料庫訓練的N元語法模型。在一些實施例中, 對用以訓練語言模型208的語料庫加以注釋,以區(qū)別目標符號表示的同形異音異義字符的不同讀法。舉例來說,轉換引擎206可首先使用詞典204將輸入數據的已解析拼音映射到一或多個潛在中文字符轉換,且接著從語言模型208中檢索對應于彼等潛在中文字符轉換的統計信息,以確定候選轉換的哪些組合為最可能的。可接著在顯示器202處顯示字符的最可能組合(例如,供用戶檢視和/或互動)。顯示器202的實例可包含可俘獲來自用戶的互動的觸摸屏,或無法俘獲用戶互動的其它類型的顯示器。
舉例來說,如果輸入為拼音“nihao”,那么轉換引擎206可首先將輸入解析成兩個單音節(jié)字符群組“ni”和“hao”。因為中文字符當中存在許多同音異義詞(即,發(fā)音相同但具有不同意義的字),所以輸入拼音內的每一單音節(jié)群組可潛在地通過詞典204映射到若干個可能的中文字符(每一個此字符可以對應單音節(jié)拼音群組的語音發(fā)音讀法)。接著,轉換引擎206可檢索與中文字符中的每一者和/或其組合有關的統計信息,以確定具有最高概率的字符組合為用戶意欲的字符組合。
圖3為展示執(zhí)行語言轉換的程序的實施例的流程圖。在一些實施例中,可在系統處實施程序300,所述系統構建語言模型且也使用所構建語言模型執(zhí)行語言轉換。
在302處,接收文本的語料庫。文本的語料庫可包含大的和結構化文本集(例如, 從各種源搜集)??梢詳底址绞酱鎯吞幚砦谋镜恼Z料庫。典型地,語料庫含有單一語言文本和/或具有類似于待針對語料庫訓練的語言模型的輸入的形式。舉例來說,為了訓練用于拼音到中文字符轉換的語言模型,語料庫可包含呈中文字符形式的文本。
在304處,使用語料庫訓練語言模型。在一些實施例中,可使用語言模型化工具 (例如,IRST語言模型工具箱)來從語料庫訓練和構建語言模型。舉例來說,語言模型化工具可針對在語料庫中發(fā)現的字符中的每一者和/或字符的每一序列產生N元語法概率。 舉例來說,可為在語料庫中發(fā)現的字符的每一序列(例如,長度為2個或3個或3個以上字符)指配出現概率。分析字符序列,以使得稍后可借助于通過鄰近/周圍字符供應的上下文辨識用于序列內的字符的上下文(例如,在語言轉換階段期間)。因此,對于從未呈現于語料庫中或很少呈現(例如,歸因于印刷上錯誤或缺少意義)的一序列字符,針對彼等序列產生的概率為零或極低(以指示其表示輸入數據之后所隱藏的用戶的所要意圖的不可能性)。所得語言模型至少包含到在語料庫(模型是針對語料庫訓練)中發(fā)現的一個或一個以上字符(例如,或表示彼等字符的基礎符號)的序列的概率的一組指配。返回到中文字符的語料庫的實例,所得語言模型將包含指配給在語料庫中發(fā)現的一個或一個以上中文字符的序列的概率。
在306處,使用語言模型執(zhí)行語言轉換。舉例來說,語言模型可供轉換引擎(例如, 轉換引擎206)或轉換服務器(例如,轉換服務器106)使用,以將一種形式(例如,語音或文本)的輸入轉換成第二種形式(例如,目標符號表示)的一個或一個以上輸出。在一些實施例中,輸入數據映射到一個正確輸出(例如,鍵入輸入的用戶所要的輸出)。更準確的語言模型可針對給定輸入數據檢索待從輸入數據轉換的潛在輸出,所述潛在輸出更可能包含用戶所要的一個輸出。舉例來說,可將輸入數據(例如,正確拼寫的拼音)映射(例如,使用詞典)到一個或一個以上字符(例如,中文字符),通過語言模型來維持關于所述一個或一個以上字符(例如,中文字符)的統計信息(例如,概率)。接著使用已檢索的概率來確定潛在地映射到輸入的字符中的哪些字符更可能為準確映射。在一些實施例中,語言模型包含用以匹配輸入與輸出的其它統計工具,例如,從輸入數據到目標符號表示的字符級和/ 或字級和/或句子(例如,句子的開頭和句子的結尾)和/或短語級分辨率。
圖4A和4B為說明語言模型的建立和使用中的一些步驟的實例。
圖4A展示在語料庫中發(fā)現的文本序列的實例。如實例中所使用,字符(例如,A、 F、S,……等等)中的每一者可用以表示任何語言的字符或字;僅出于示范性目的而選擇大寫字母開頭的羅馬字母。舉例來說,圖4A中所展示的字符中的每一者可表示呈現于中文字符語料庫中的中文字符??稍谟柧氄Z言模型期間將語料庫的文本分成N元語法(例如, 長度為N個字符的字符序列)。子序列或N元語法402 (包含“A ”)、404(包含叩3 D”) 和406(包含“W G S J”)為在語料庫中發(fā)現的序列的一些實例,所述序列可在構建語言模型的N元語法概率產生和/或訓練階段中加以使用。舉例來說,可通過語言模型化工具和 /或語言模型的設計者來選擇待針對特定語言模型產生的N元語法概率所針對的序列的字符長度。
圖4B展示存儲于從語料庫訓練的語言模型處的一些數據的實例,圖4A的文本是從所述語料庫發(fā)現。如實例中所展示,計算并存儲(例如,在表條目中)在語料庫中發(fā)現的各種序列(具有變化的長度)的概率(對應于其相應字符序列)。舉例來說,408表示示范性表中的條目,其指示通過語言模型指配的關于序列“A F”在語料庫中的出現的N元語法概率(0.0324)。在一些實施例中,除圖4B中所展示的示范性數據之外,語言模型也可包含其它類型的信息(例如,輸入數據到目標符號表示詞典、字、若干字符的單位,以及像名稱和地點的信息類別)。
在一些實施例中,可使用語言模型來轉換輸入數據(例如,與第一符號或其它表不有關的一組字符),以產生輸出數據(例如,形成與目標符號表不有關的一個或一個以上轉換候選者的一組字符)。舉例來說,可使用語言模型經由輸入裝置將拼音文本輸入轉換成對應中文字符。剖析輸入拼音字符序列,以確定可映射到一個或一個以上潛在中文字符的音節(jié)(例如,通過語言模型或某一其它技術),且這些中文字符的相應概率可用以確定充當來自輸入拼音的所要映射的更可能的中文字符轉換。
一般地,雖然字符的常規(guī)語料庫可包含某些注釋(例如,語音標記的部分),但其典型地并不包含關于以下各者的注釋字符的讀法/發(fā)音/用法/含義(有時在本文中被稱作僅“讀法”),或針對字符所用于的上下文的特定讀法/發(fā)音/用法/含義(如果存在與字符相關聯的一個以上可能的讀法/發(fā)音/用法/含義)。舉例來說,中文字符的常規(guī)語料庫并不典型地包含關于讀法/發(fā)音/含義/拼音對應物的注釋。換句話說,常規(guī)中文字符語料庫并不區(qū)別同形異音異義中文字符的多個讀法,其中每一讀法適合于不同上下文。舉例來說,在語料庫的一部分中的上下文可使用第一種含義(讀法/發(fā)音/拼音對應物)的同形異音異義字符,而在相同語料庫的另一部分上的上下文可使用不同于第一種含義的第二種含義的同形異音異義字符(讀法/發(fā)音/拼音對應物)。然而,在語料庫中無注釋的情況下,為了區(qū)別同形異音異義字符的兩個(或兩個以上)含義,接著將僅針對彼同形異音異義字符(包括多個讀法),基于字符呈現于語料庫中的任何時間而執(zhí)行N元語法概率產生, 而不是針對彼同形異音異義字符的每一個讀法,基于彼同形異音異義字符的特定讀法呈現于語料庫中的每一時間而確定單獨的含義特定概率。作為未能區(qū)別常規(guī)語料庫中的某些字符的可能的多個讀法的結果,在將數據輸入轉換成包含同形異音異義字符的輸出中,使用這種語料庫訓練的語言模型可能較不準確。揭示消除語言模型中的字符的不同讀法之間的歧義的方法,如下文將論述。
圖5為展示用于建立已加以注釋的語料庫的系統的實施例的圖,所述已加以注釋的語料庫待用以訓練待用于語言轉換的語言模型。在各種實施例中,語料庫的注釋促進區(qū)別用以指示語料庫中的第一讀法/發(fā)音/拼音/含義的同形異音異義詞的一種用法與用以指示語料庫中的第二讀法/發(fā)音/拼音/含義的相同同形異音異義詞的另一種用法。網絡 508可包含各種高速數據和/或電信網絡。在一些實施例中,語言模型訓練引擎510、語料庫512和語言模型514可實施為轉換服務器(例如,轉換服務器106)的部分。
在一些實施例中,語言模型訓練引擎510經由網絡508從(例如)由第三方托管的服務器檢索文本源502、504和506。在一些實施例中,語言模型訓練引擎510在不使用網絡508的情況下接收文本(例如,通過經由本地存儲器或源獲得文本)。在一些實施例中,語言模型訓練引擎510經配置以將所檢索和/或所接收文本存儲于語料庫512處。語料庫512是由從各種源提取的文本形成,各種源例如文本源502、文本源504和文本源506。 在一些實施例中,語料庫512處所搜集的文本主要包含一種語言的文本。舉例來說,語料庫 512的文本可主要呈中文字符形式。文本源502、504和506的實例包含報紙、網站、書籍、 期刊、社會媒體(例如,Facebook 、Twitter ),和雜志。舉例來說,從文本源502、504和 506收集的文本可總共大約800百萬個中文字符。而且,舉例來說,中文字符的語料庫可包含8000個不同字符,其中大約50個字符為同形異音異義字符。在一些實施例中,在無語料庫512的注釋的情況下,通過語料庫512中的一個相異符號表示從文本源提取的每一相異字符,且將多次從文本源提取的相同字符存儲為對應于彼字符的符號的多個例子。
在一些實施例中,語言模型訓練引擎510經配置以接收語料庫512中的對字符的手動注釋。在一些實施例中,語言模型514的系統管理員和/或設計者(例如,人類用戶)掃描語料庫512的文本以尋找同形異音異義字符,且基于用戶對同形異音異義字符所用于的上下文的理解(例如,基于字符所用于的句子和/或周圍文本),對同形異音異義字符的彼例子加以注釋以指示其適當讀法/發(fā)音/拼音/含義。舉例來說,為了執(zhí)行這種注釋,可用語料庫512中的新符號(例如,文本編碼)替換特定讀法(兩個或兩個以上可能讀法中的) 的同形異音異義字符的例子,所述新符號可區(qū)別于表示存在于語料庫512中的所有其它字符的符號,且也可區(qū)別于與彼相同同形異音異義字符的另一讀法相關聯的另一個符號。換句話說,語料庫512中具有一讀法的同形異音異義字符將與語料庫512中的第一符號相關聯,且具有第二讀法的相同同形異音異義字符將與語料庫512中的第二符號相關聯。因此, 當同形異音異義字符用于與第一讀法相關聯的上下文中時,將字符的彼例子存儲為語料庫 512中的第一符號,且當同形異音異義字符用于與第二讀法相關聯的上下文中時,將字符的彼例子存儲為第二符號。由于注釋,同形異音異義字符將不再在整個語料庫512中呈現為相同符號的各種例子,而是同形異音異義字符的每一不同讀法將由語料庫中的相異符號替換。因此,舉例來說,與三個可能讀法相關聯的同形異音異義字符可在整個語料庫512中呈現為已加以注釋的語料庫中的三個不同符號的各種例子。在一些實施例中,雖然一個以上符號可表示語料庫中的同形異音異義字符,但彼等符號中的每一者仍與相同同形異音異義字符相關聯。
舉例來說,在用于英文字的這種已加以注釋的語料庫中,“desert”為具有兩個可能讀法的同形異音異義字/字符一種讀法為動詞,意味“拋棄”,所述讀法與一種意義相關聯,且一種讀法為名詞,意味“干燥的 荒蕪陸地區(qū)域”,所述讀法與不同意義相關聯。在對語料庫加以注釋之前,在語料庫的文本中的“desert”的呈現將與用于“desert”的符號相關聯。但在注釋之后,語料庫中的“desert”的呈現將取決于用于“desert”的兩種意義中的哪一種意義適合于“desert”的彼例子呈現于文本中的上下文而與用于動詞或名詞的符號相關聯。
在一些實施例中,通過用以編碼用于所有出現的符號的原始符號來表示字的可能讀法或符號或符號序列中的一者,且僅對與一個或一個以上其它可能讀法相關聯的例子加以注釋。在前述實例中,舉例來說,將不對以與desert^(動詞,意味“拋棄”)相關聯的方式使用的“desert”加以注釋,但對于以deSert_n(名詞,意味“干燥的荒蕪陸地區(qū)域”)含義使用的“desert”的例子,將用對應于deSert_n (意味“干燥的荒蕪陸地區(qū)域”)的新近定義的符號替換用以編碼“desert”的符號。隨后,在訓練語言模型中,將未加以注釋的 “desert”的出現理解為與desert_v(意味“拋棄”)相關聯,而將desert_n(意味“干燥的荒蕪陸地區(qū)域”)的出現理解為指代第二讀法。
在一些實施例中,用戶手動地對語料庫512的文本的子集加以注釋,且以類似方式(例如,基于通過手動注釋建立的注釋模式)自動地對語料庫512的剩余部分加以注釋 (例如,使用呈軟件和/或硬件形式的機器獲悉技術)。舉例來說,自動程序可使用從手動注釋獲悉的模式來識別用于同形異音異義字符的第一上下文以及在彼上下文中的彼字符的對應適當讀法,且對語料庫中的字符的彼例子加以注釋為與字符的彼特定讀法相關聯(例如,通過將與語料庫中的同形異音異義字符相關聯的符號替換為相異于表示彼字符的另一讀法的符號且相異于表示語料庫512中的另一字符的符號的符號)。
用以在對語料庫512加以注釋之后考慮語料庫512的一種方式是符號集變得擴展;而在所揭示注釋之前,同形異音異義字符映射到用以以機器可理解方式表示字符的一機器可讀值(例如,統一代碼碼點或其它值),在所揭示注釋之后,同形異音異義字符映射到用于已加以注釋的語料庫512中的一個以上機器可讀值,其中與同形異音異義字符相關聯的每一機器可讀值表示同形異音異義字符的特定讀法。
在一些實施例中,使用(例如)語言模型化工具(例如,IRST語言模型工具箱)針對已加以注釋的語料庫512訓練語言模型514。舉例來說,語言模型化工具可產生關于字符(或其符號)和字符序列的N元語法概率,包含針對已加以注釋的語料庫512的同形異音異義字符的多個讀法添加的新符號。
在一些實施例中,轉換引擎(例如,圖2的轉換引擎206)經配置以接收輸入數據, 以使用針對讀法已加以注釋的語料庫訓練的語言模型(例如,語言模型514),產生目標符號表示中的一個或一個以上轉換候選者。舉例來說,假定輸入數據與拼音相關聯,且語言模型514與中文字符相關聯。接著,使用針對語言模型514中的字符/符號和其序列所產生的概率,轉換引擎206可產生一個或一個以上中文字符作為輸出,所述一個或一個以上中文字符相對來說更可能匹配給定拼音輸入且特別避免過高估計以下情形的可能性通過使用提供同形異音異義字符的特定讀法所特有的概率的模型,意欲特定同形異音異義字符。
圖6為展示用于對語言模型加以注釋并使用語言模型的程序的實施例的流程圖。 在一些實施例中,可至少部分使用系統500來實施程序600。
在602處,接收對與語料庫相關聯的文本子集的注釋的一個或一個以上手動輸入,其中對于與一個以上讀法相關聯的字符的例子,對注釋的手動輸入至少部分基于與例子相關聯的上下文而指示字符的適當讀法。
舉例來說,用戶可讀完語料庫的文本的子集以定位同形異音異義字符/字的例子。在尋找到同形異音異義字符/字的例子后,用戶便可基于字符的例子所呈現于的上下文(例如,字符所呈現于的句子,環(huán)繞彼字符的字符)以及用戶對彼上下文中的字符的用法的了解,確定用于字符的彼例子的適當讀法并對適當讀法加以注釋。很少有適合于語料庫中的字符的例子的同形異音異義字符的一個以上讀法(如果有的話)。因而,僅需要針對語料庫中的同形異音異義字符的每一個例子的一個確定的讀法??蓪⑨槍ν萎愐舢惲x字符的例子的此確定的適當讀法鍵入到轉換引擎中作為注釋且也將適當讀法存儲于語料庫中。 在一些實施例中,可將與同形異音異義詞的例子相關聯的用以指示同形異音異義詞的特定讀法的注釋存儲為語料庫中的新符號(例如,不同于用以表示語料庫中的任何其它字符的符號且也不同于用以表不相同同形異音異義字符的另一讀法的符號的符號,例如,先前未指配的統一代碼值或專用使用區(qū)域字符),所述新符號替換表示字符的原始例子的語料庫中的符號(例如,文本編碼)。在一些實施例中,與同形異音異義詞的例子相關聯的用以指示同形異音異義詞的特定讀法的注釋可為添加到符號的表示語料庫中的字符的彼例子的標簽。在一些實施例中,語料庫可包含從各種源獲得的文本(大部分為一種語言)。
因為手動地對整個語料庫(其可包含成千上萬個文本)加以注釋將是不足的,所以可針對語料庫的小子集執(zhí)行手動注釋,且可使用自動化程序對語料庫的剩余部分加以注釋,如下文所描述。
在604處,至少部分基于對注釋的所接收的一個或一個以上手動輸入,自動地對與語料庫相關聯的文本的未加以手動地注釋的至少一部分加以注釋。
在一些實施例中,可使用自動化程序將注釋添加到尚未手動地加以注釋的語料庫的整個剩余部分中的同形異音異義字符的例子的各種不同讀法。舉例來說,可用軟件建立自動化程序,所述軟件使用機器獲悉技術和602處的手動注釋輸入。
在606處,使用已加以注釋的語料庫訓練語言模型。
在一些實施例中,已加以注釋的語料庫包含相異符號,以表示在對語料庫加以注釋之前出現于語料庫中的同形異音異義字符的每一個例子的不同讀法。在一些實施例中, 通過對在已加以注釋的語料庫中發(fā)現的字符/字和其序列執(zhí)行N元語法概率產生,針對已加以注釋的語料庫建立語言模型并訓練語言模型。在一些實施例中,也可針對在語料庫內發(fā)現的句子的開頭和結尾訓練語言模型。所得語言模型將包含與同形異音異義字符的每一讀法相關聯的概率。
舉例來說,假定在已加以注釋的語料庫中,通過符號“word_readingl”或“word_ reading2”來表示貫穿文本的同形異音異義“字”的出現。因而,針對已加以注釋的語料庫訓練的語言模型將包含包含字符/符號“word_readingl”或“word_reading2”的概率(例如,可使用Pr (word_readingl)來表示與一元語法“wording_readingl”相關聯的概率,且可使用Pr (word_reading2)來表示與一元語法“word_reading2”相關聯的概率;也可產生與N元語法相關聯的概率,例如Pr (wordN, wordN-1,…,word_readingl)和 Pr(wordN, wordN-Ι,…,word_reading2))。
舉例來說,對于具有兩個讀法的同形異音異義字“desert”,可針對每一讀法確定單獨概率。舉例來說,可針對“desert_v” (例如,Pr (desert_v) >Pr (he, would, desert_v)、Pr (soldier, said, he, would, desert_v))確定用于與一元語法、二元語法、......N元語法相關聯的概率,且可針對“desert_n” (例如,Pr (desert_n)、Pr (crossed, through, a, desert_n)、Pr (camel, crossed, through, a, desert_n))石角定用于與一元語法、二元語法、......N 元語法相關聯的概率。通過采用序列(長度比一個字符長)的概率,可使用這些概率來消除字符的歧義以確定字符可呈現 于的適當上下文。
圖7A和7B為中文語料庫中的文本的實例,已對所述中文語料庫加以注釋以區(qū)別同形異音異義中文字符的不同讀法。雖然在這些實例中展示中文字符的語料庫,但語料庫可改為包含不同語言(例如,日文)的字符。
圖7A為展示句子702和句子704的實例,句子702呈現于不包含關于同形異音異義字符的注釋的語料庫中,句子704呈現于確實包含關于同形異音異義字符的注釋的語料庫中。在句子702中,同形異音異義字符706 ( “長”)為與以下至少兩個不同讀法/發(fā)音/ 拼音/含義相關聯的同形異音異義字符“zhang”和“chang”。舉例來說,當朗讀為“zhang” 時,“長”的意義意味“首領或領導者”。舉例來說,當朗讀為“chang”時,“長”的意義意味 “長”。句子702的英文翻譯(在不包含關于同形異音異義字符的注釋的語料庫中)為“he is one ofthe candidates running for mayor. ”。因而,在句子 702 中,字符 706 ( “長,,) 是以與“zhang”的讀法/拼音相關聯的含義使用。在不包含關于同形異音異義字符的注釋的語料庫中,句子702中的字符706( “長”)的呈現將映射到語料庫中的一個符號(例如,使用“長”的某一形式的文本編碼)。然而,在執(zhí)行注釋之后,句子702變成句子704,句子704將呈現于確實包含關于同形異音異義字符的注釋的語料庫中。在句子704中,字符 (“長”)現在由語料庫中的表示讀法708( “長_zhang”)的符號替換(例如,使用新近針對“長_zhang”建立的某一形式的文本編碼或先前未用于呈現于語料庫中的任何其它字符的文本編碼)。
圖7B為展示句子710和句子712的實例,句子710呈現于不包含關于同形異音異義字符的注釋的語料庫中,句子712呈現于確實包含關于同形異音異義字符的注釋的語料庫中。在不包含關于同形異音異義字符的注釋的語料庫中的句子710的英文翻譯為“Ihave been here for a long time already·”。因而,在句子 710 中,字符 706 ( “長”)是以與 “chang”的讀法/拼音相關聯的含義使用。在不包含關于同形異音異義字符的注釋的語料庫中,句子710中的同形異音異義字符706( “長”)的呈現將映射到語料庫中的一個符號 (例如,使用“長”的某一形式的文本編碼)。然而,在執(zhí)行注釋之后,句子710變成句子712, 句子712將呈現于確實包含關于同形異音異義字符的注釋的語料庫中。在句子712中,字符(“長”)現在由語料庫中的表示讀法716( “長_chang”)的符號替換(例如,使用新近針對“*_chang ”建立的某一形式的文本編碼或先前未用于呈現于語料庫中的任何其它字符的文本編碼)。
圖8A和SB說明在將拼音輸入轉換成某一形式的中文字符輸出中使用未加以注釋以用于同形異音異義字符的語料庫和已加以注釋以用于同形異音異義字符的語料庫的實例。雖然在這些實例中展示中文字符的語料庫,但語料庫可改為包含不同語言(例如,日文)的字符。在圖7A和7B的實例中,可在裝置(例如,裝置102)的輸入區(qū)域處接收拼音輸入。
在實例中,同形異音異義字符“長”與兩個潛在讀法/拼音“chang”和“zhang”相關聯。
圖8A展示使用未加以注釋以用于同形異音異義字符的中文字符語料庫(“不具有注釋的語料庫”)的實例。在此實例中,不管是輸入拼音“chang”還是“zhang”,對不具有注釋的語料庫訓練的語言模型將(例如,在拼音映射到“長”的潛在中文轉換候選者之后) 檢索與“長”相關聯的概率,例如,一元語法“長”的概率(Pr(長))。盡管如此,也可檢索與包含“長”的一序列字符(例如,N元語法,其中N>1)相關聯的概率(例如,Pr (市,長))。 因此,在提供統計信息以區(qū)分使用“zhang”的讀法/含義(意味“首領”)的“長”和使用 “chang”的讀法/含義(意味“長”)的“長”的短語和/或句子中,語言模型可能較不準確。
假定(例如)“zhang”的讀法/含義的“長”在語料庫中遠不如也與“zhang”的拼音相關聯的其它中文字符(例如,章、掌)常用。然而,對語料庫訓練的所得語言模型將相同概率歸因于“長”(例如,對應于包含“長”的N元語法),而不管“長”在語料庫內以多少種含義使用。因為指配給“長”的概率可包含語料庫中的“chang”的讀法/含義的“長” 的至少一些用途,所以語言模型中的“長”的概率相對于與映射到拼音“chang”的其它中文轉換候選者相關聯的概率來說可能不正確地較高,此情形可導致語言轉換中的總的較低準確度。
圖SB展示使用已加以注釋以用于同形異音異義字符的中文字符語料庫(“具有注釋的語料庫”)的實例。在此實例中,對于拼音輸入“chang”(例如,在拼音映射到“長” 的潛在中文轉換候選者之后),語言模型將檢索與字符的彼讀法相關聯的概率,例如,“長_ chang”的一元語法的概率(Pr (長_chang))。盡管如此,也可檢索與包含“長_chang”的一序列字符(例如,N元語法,其中N>1)相關聯的概率(例如,Pr (市,長_chang))。類似地, 對于拼音輸入“zhang”,語言模型將檢索與字符的彼讀法相關聯的概率,例如,一元語法“長_zhang”的概率(例如,Pr (長_zhang))。由于對語言模型訓練所針對的語料庫加以注釋, 因此可將概率歸因于相同同形異音異義詞的每一不同讀法,此情形可允許更準確的轉換。
返回到先前實例,其中假定“zhang”的讀法/含義的“長”在語料庫中遠不如也與拼音“zhang”相關聯的其它中文字符(例如,章、掌)常用,現在在針對具有注釋的語料庫訓練語言模型之后,存在可歸因于“長”的不同讀法(“chang”和“zhang”)的單獨概率。 現在,指配給“長_zhang”的概率將不包含在語料庫內的“chang”含義的“長”的任何用途, 且類似地,指配給“長_chang”的概率將不包含在語料庫內的“zhang”含義的“長”的任何用途。因而,語言模型中的“長”的概率相對于與映射到拼音“zhang”或“chang”的其它中文轉換候選者相關聯的概率來說將更準確,此情形將導致語言轉換中的總的較高準確度。
圖9為展示語言轉換的程序的實施例的流程圖。在一些實施例中,可至少部分對系統100實施程序900。在一些實施例中,可至少部分在裝置102處實施程序900。
在902處,接收待轉換成一組字符的輸入數據,所述組字符包括輸入數據在目標符號系統中的符號表示。在一些實施例中,在裝置(例如,裝置102)處接收輸入數據,轉換將在所述裝置處發(fā)生。在一些實施例中,將輸入數據發(fā)送到將執(zhí)行轉換的遠程服務器(例如,轉換服務器106)。在一些實施例中,輸入數據包括輸入文本(例如,羅馬字母表的輸入文本)。舉例來說,輸入數據可為一組拼音。
在904處,在轉換輸入數據所來自的目標符號表示中產生一個或一個以上轉換候選者。在一些實施例中,目標符號表示包括中文字符。在一些實施例中,輸入數據或其子集映射到目標符號表不的一個或一個以上可能字符(例如,轉換候選者)。舉例來說,假定輸入數據與語音讀法相關聯,目標符號表示的多個字符可映射到與輸入數據的字符群組相關聯的一個讀法。在一些實施例中,使用呈到目標符號表示的字符(或其集合)的輸入數據的形式的字符詞典(或其集合),以基于所接收輸入數據而確定轉換候選者。在一些實施例中,輸入數據可映射到為目標符號表示的同形異音異義字符的轉換候選者,這是因為(例如)輸入數據或其一部分形成與彼字符相關聯的讀法中的一者。
在906處,使用區(qū)別目標符號系統的字符的第一讀法與第二讀法的語言模型,以確定同形異音異義字符應用以表示輸入數據的對應部分的概率。在各種實施例中,所使用語言模型是針對已加以注釋以用于同形異音異義字符的語料庫訓練(例如,使用程序600 的至少部分)。因此,訓練語言模型以區(qū)別在已加以注釋的語料庫中發(fā)現的同形異音異義字符的不同讀法。在一些實施例中,語言模型使同形異音異義字符的每一讀法與一個或一個以上概率的集合相關聯(例如,與一元語法、二元語法、三元語法等等相關聯,包含彼讀法)。舉例來說,在評估轉換候選者中,轉換候選者的相關聯的概率(例如,一元語法、二元語法、三元語法等等)供語言使用以確定轉換候選者中的哪些轉換候選者具有最高相對概率(例如,對于給定上下文/基于鄰近或周圍字符)。具有相對較高概率的轉換候選者更可能為所要轉換輸出。舉例來說,如果轉換候選者中的一者為同形異音異義字符(例如,因為輸入數據的至少一部分形成與彼字符相關聯的讀法中的一者),那么在評估彼轉換候選者中,檢索與同形異音異義字符的彼特定讀法(例如,一元語法、二元語法、三元語法等等,包含彼特定讀法)相關聯的概率且使用所述概率與與其它轉換候選者相關聯的概率相比較。
圖10為展示用于將拼音轉換成中文字符的程序的實施例的流程圖。在一些實施例中,可使用系統100來實施程序1000。在一些實施例中,可使用程序1000來實施程序900(例如,904和906)。
在1002處,將與拼音相關聯的輸入字符集解析成一個或一個以上字符群組,其中每一字符群組待轉換成一中文字符。在一些實施例中,在裝置(例如,裝置102)的輸入區(qū)域處接收與拼音相關聯的字符集。在一些實施例中,將輸入拼音轉換成一個或一個以上中文字符。在一些實施例中,正確地拼寫輸入拼音(例如,羅馬字母串,字母中的至少一些字母之間具有或不具有一個或一個以上空間)。通常,每一中文字符通常為單音節(jié)的且因此映射到朗讀為單音節(jié)的拼音輸入中的鄰近字母群組。因此,在可將輸入拼音映射到中文轉換候選者之前,在一些實施例中,必須將輸入拼音解析成朗讀為單音節(jié)的字母群組。
舉例來說,假定輸入拼音為“shizhang”。輸入包含兩個音節(jié)(“shi”和“zhang”) 且因此將輸入解析成兩個單音節(jié)字母群組“shi”和“zhang”。
在1004處,確定對應于一個或一個以上拼音群組中的每一者的一個或一個以上中文轉換候選者。在中文語言中,存在若干同音中文字符,所述同音中文字符為以相同方式朗讀/發(fā)音但意義不同的字符。同音字符將與相同拼音相關聯。在將拼音轉換成中文字符的程序中,可針對每一單音節(jié)拼音群組識別若干同音字符(例如,具有相同或不同音調)。 然而,僅一個字符為用于拼音群組的所要轉換??赏ㄟ^使用語言模型獲得此所要字符,所述語言模型使相關聯于每一中文轉換候選者的一個或一個以上概率相關聯以確定哪些一個或一個以上轉換候選者與最聞概率相關聯。
繼續(xù)先前實例,舉例來說,用于“shi ”的中文轉換候選者包含“是”、“市”和“十”。 舉例來說,用于“zhang”的中文轉換候選者包含“章”、“掌”和“長”。
在1006處,確定一拼音字符群組是否與同形異音異義中文字符的一讀法相關聯; 在確定拼音群組與相關聯于同形異音異義字符的第一讀法相關聯的情況下,檢索與彼第一讀法相關聯的信息。在一些實施例中,確定所解析的單音節(jié)拼音群組中的一者或一個以上者是否與同形異音異義字符的一讀法相關聯。如果確定此種群組,那么檢索與同形異音異義字符的彼讀法相關聯的概率且使用所述概率(例如,通過針對已加以注釋以區(qū)別同形異音異義中文字符的不同讀法的語料庫訓練的語言模型)來評估對應中文轉換候選者。
繼續(xù)先前實例,可確定拼音“zhang”與同形異音異義字符“長”的一讀法相關聯且因此在評估用于“shi”和“zhang”的中文轉換候選者中,可檢索與“*_zhang”相關聯的概率(例如,Pr (長_zhang))。此外,假定輸入“shizhang”用以形成一個短語(包括兩個中文字符),那么評估與“shi”和“zhang”的中文轉換候選者的各種組合相關聯的概率 (例如,Pr (是,章);Pr (是,掌);Pr (是,長_zhang) ;Pr (市,章);Pr (市,掌);Pr (市,長 _zhang) ;Pr (十,章);Pr (十,掌);Pr (十,長 _zhang) ;Pr (十,章);Pr (十,掌);Pr (十, *_zhang)),以確定具有最高概率的組合。假定語料庫已加以適當地注釋且語言模型已得到適當訓練,那么關于與中文轉換候選者的可能組合相關聯的概率,Pr (市,長_zhang)的值應為最大的(例如,因為中文字符的剩余組合無意義和/或并不常呈現于已加以注釋的語料庫中)。因而,在此實例中,“市長”(意味英文的“mayor”)為用于“shizhang”輸入的輸出中文轉換。在語料庫未加以注釋以區(qū)別同形異音異義中文字符的不同讀法的情況下, 那么Pr (市,長)的值(如從未加以注釋的語料庫確定)可能不與Pr (市,長_zhang)的值一般高(且因此,可能不會選擇“市長”作為輸出中文轉換),這是因為(例如)用于所有讀法(“chang”和“zhang”)中的“長”更通常地呈現為貼近未加以注釋的語料庫中的除“市”之外的中文字符。
盡管為了理解的清晰的目的稍詳細地描述了前述實施例,但本發(fā)明不限于所提供的細節(jié)。存在實施本發(fā)明的許多替代方式。所揭示實施例為說明性的且并非限制性的。
權利要求
1.一種方法,其包括 在包括存儲器和一個或一個以上處理器的裝置處 接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表不;以及 使用區(qū)別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。
2.根據權利要求I所述的方法,其進一步包括 在待將所述輸入數據轉換到的所述目標符號系統中產生一個或一個以上轉換候選者。
3.根據權利要求I到2中任一權利要求所述的方法,其中所述輸入數據包括以拼音書寫的輸入文本。
4.根據權利要求I到3中任一權利要求所述的方法,其中所述輸入數據包括以羅馬字母表的字符書寫的輸入文本。
5.根據權利要求I到4中任一權利要求所述的方法,其中將所述輸入數據解析成一個或一個以上單音節(jié)字符群組。
6.根據權利要求I到5中任一權利要求所述的方法,其中所述目標符號系統包含中文字符。
7.根據權利要求I到6中任一權利要求所述的方法,其中使用已加以注釋以區(qū)別所述同形異音異義字符的所述第一讀法與所述同形異音異義字符的所述第二讀法的語料庫來訓練所述語言模型,且其中對于所述同形異音異義字符的所述第一讀法和所述第二讀法中的至少一者,建立對應新符號或其經編碼表示并將所述對應新符號或其經編碼表示添加到所述已加以注釋的語料庫。
8.根據權利要求I到7中任一權利要求所述的方法,其進一步包括 接收對與語料庫相關聯的文本子集的注釋的一個或一個以上手動輸入,其中對于相應同形異音異義字符的例子,對注釋的每一所述手動輸入至少部分基于與所述例子相關聯的上下文而指示所述相應同形異音異義字符的相應適當讀法,其中每一所述注釋與相關聯于所述相應同形異音異義字符的相應符號相關聯;以及 至少部分基于對注釋的所述所接收的一個或一個以上手動輸入,自動地對與所述語料庫相關聯的所述文本的未加以手動地注釋的至少一部分加以注釋。
9.根據權利要求I到8中任一權利要求所述的方法,其中訓練所述語言模型以使對應于所述同形異音異義字符的所述第一讀法的第一概率與對應于所述同形異音異義字符的所述第二讀法的第二概率相關聯。
10.根據權利要求I到9中任一權利要求所述的方法,其中訓練所述語言模型以使對應于第一字符序列的第一概率與對應于第二字符序列的第二概率相關聯,所述第一字符序列包含所述同形異音異義字符的所述第一讀法,所述第二字符序列包含所述同形異音異義字符的所述第二讀法,其中所述第一序列與所述第二序列各自包含兩個或兩個以上字符。
11.一種電子裝置,其包括 輸入接收單元,其經配置以接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表不;以及 耦合到所述輸入接收單元的轉換單元,所述轉換單元經配置以使用區(qū)別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。
12.根據權利要求11所述的電子裝置,其中所述轉換單元經進一步配置以在待將所述輸入數據轉換到的所述目標符號系統中產生一個或一個以上轉換候選者。
13.根據權利要求11到12中任一權利要求所述的電子裝置,其中所述輸入數據包括以拼音書寫的輸入文本。
14.根據權利要求11到13中任一權利要求所述的電子裝置,其中所述輸入數據包括以羅馬字母表的字符書寫的輸入文本。
15.根據權利要求11到14中任一權利要求所述的電子裝置,其中所述輸入數據被解析成一個或一個以上單音節(jié)字符群組。
16.根據權利要求11到15中任一權利要求所述的電子裝置,其中所述目標符號系統包含中文字符。
17.根據權利要求11到16中任一權利要求所述的電子裝置,其中所述語言模型是使用已加以注釋以區(qū)別所述同形異音異義字符的所述第一讀法與所述同形異音異義字符的所述第二讀法的語料庫來訓練,且其中對于所述同形異音異義字符的所述第一讀法和所述第二讀法中的至少一者,建立對應新符號或其經編碼表示并將所述對應新符號或其經編碼表示添加到所述已加以注釋的語料庫。
18.根據權利要求11到17中任一權利要求所述的電子裝置,其進一步包括 語言模型訓練單元,其經配置以 接收對與語料庫相關聯的文本子集的注釋的一個或一個以上手動輸入,其中對于相應同形異音異義字符的例子,對注釋的每一所述手動輸入至少部分基于與所述例子相關聯的上下文而指示所述相應同形異音異義字符的相應適當讀法,其中每一所述注釋與相關聯于所述相應同形異音異義字符的相應符號相關聯;以及 至少部分基于對注釋的所述所接收的一個或一個以上手動輸入,自動地對與所述語料庫相關聯的所述文本的未加以手動地注釋的至少一部分加以注釋。
19.根據權利要求11到18中任一權利要求所述的電子裝置,其中所述語言模型經訓練以使對應于所述同形異音異義字符的所述第一讀法的第一概率與對應于所述同形異音異義字符的所述第二讀法的第二概率相關聯。
20.根據權利要求11到19中任一權利要求所述的電子裝置,其中所述語言模型經訓練以使對應于第一字符序列的第一概率與對應于第二字符序列的第二概率相關聯,所述第一字符序列包含所述同形異音異義字符的所述第一讀法,所述第二字符序列包含所述同形異音異義字符的所述第二讀法,其中所述第一序列與所述第二序列各自包含兩個或兩個以上字符。
全文摘要
本發(fā)明揭示消除語言轉換中的多個讀法的歧義的方法,所述方法包含接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表示;以及使用區(qū)別所述目標符號系統的字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符應用以表示所述輸入數據的對應部分的概率。
文檔編號G06F17/28GK102982021SQ20121028734
公開日2013年3月20日 申請日期2012年8月13日 優(yōu)先權日2011年8月11日
發(fā)明者布倫特·D·拉梅爾斯, 戴王·K·奈克, 道格拉斯·R·戴維森, 亞內斯·G·A·多爾芬, 樸佳 申請人:蘋果公司