專利名稱:用于調(diào)試與語言模型一起使用的類實(shí)體詞典的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語言模型,特別涉及根據(jù)用戶輸入來調(diào)試語言模型。
背景技術(shù):
語言模型提供了對文本字符串出現(xiàn)的一系列字詞的概率度量。這樣的模型用于語音識別、中文斷詞和語音-字符轉(zhuǎn)換,如中文中的拼音-漢字轉(zhuǎn)換,以在已知字詞序列格的情況下識別一個(gè)最為可能的序列。例如,在語音識別中,語言模型能識別出短語“go to bed”比語音上相似的短語“go too bed”更為可能。
一般來說,語言模型要在語句庫上訓(xùn)練。盡管這樣的集在訓(xùn)練語言模型以處理一般字詞上很有效,但在訓(xùn)練語言模型以處理專有名詞,如人和事的名稱上,卻不是非常有效。其原因是那些專有名詞在語料庫中發(fā)生得不夠頻繁,難以精確模擬。
有些系統(tǒng)允許用戶來糾正由語言模型所犯的錯(cuò)誤。但是,一個(gè)系統(tǒng)即使在得知了該糾正后,也無法根據(jù)該糾正來調(diào)整語言模型,因?yàn)闊o法估計(jì)由該糾正所形成的字詞序列的概率。因此,該系統(tǒng)在以后遇到同樣輸入時(shí),一般會(huì)犯同樣的錯(cuò)誤。
所以,需要一種允許根據(jù)由用戶所作糾正來修改語言模型和動(dòng)態(tài)詞典的系統(tǒng)。
發(fā)明內(nèi)容
提供一種根據(jù)由用戶所作糾正來擴(kuò)大具有類實(shí)體詞典的語言模型的方法和設(shè)備。在該方法和設(shè)備下,用戶通過以正確的片斷替換輸出片斷來糾正部分基于語言模型的輸出。將該正確片斷添加到在類實(shí)體詞典中的片斷類中,并根據(jù)與該輸出片斷相關(guān)的n字列概率和與該類相關(guān)的n字列概率來估計(jì)該正確片斷在該類中的概率。然后用所估計(jì)的這一概率來產(chǎn)生進(jìn)一步的輸出。
圖1是可在其中實(shí)現(xiàn)本發(fā)明的計(jì)算環(huán)境的方框圖;圖2是可在其中實(shí)現(xiàn)本發(fā)明的可替代計(jì)算環(huán)境的方框圖;圖3是在本發(fā)明一實(shí)施例下更新類實(shí)體詞典的流程圖;圖4是本發(fā)明某個(gè)拼音-漢字轉(zhuǎn)換實(shí)施例的方框圖;圖5是在本發(fā)明某實(shí)施例下利用類實(shí)體詞典的流程圖;圖6是本發(fā)明模式識別系統(tǒng)實(shí)施例的方框圖。
具體實(shí)施例方式
圖1例示了一個(gè)可在其中實(shí)現(xiàn)本發(fā)明的合適的計(jì)算系統(tǒng)環(huán)境100的實(shí)例。該計(jì)算系統(tǒng)環(huán)境100只是合適的計(jì)算系統(tǒng)環(huán)境的一個(gè)實(shí)例,而無意對本發(fā)明的使用范圍或功能作任何限制。該計(jì)算系統(tǒng)環(huán)境100也不能被解釋為對于在操作環(huán)境示例100中所示的任一部分或其組合具有任何依賴或要求。
本發(fā)明可以在其它多種一般用途或特殊用途的計(jì)算系統(tǒng)環(huán)境或配置中運(yùn)作??梢赃m合與本發(fā)明一起使用的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括,但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、電話系統(tǒng)、包含以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等。
本發(fā)明可以在計(jì)算機(jī)可執(zhí)行指令的總環(huán)境(諸如如由計(jì)算機(jī)執(zhí)行的程序模塊)中描述。一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的過程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。本發(fā)明也可以在由經(jīng)通信網(wǎng)絡(luò)聯(lián)接的遠(yuǎn)端處理設(shè)備執(zhí)行任務(wù)的分布式計(jì)算環(huán)境中實(shí)現(xiàn)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包含記憶存儲(chǔ)設(shè)備的本地或遠(yuǎn)端計(jì)算機(jī)存儲(chǔ)媒體上。
參照圖1,實(shí)現(xiàn)本發(fā)明的一個(gè)示例系統(tǒng)包含計(jì)算機(jī)110形式的一般用途的計(jì)算設(shè)備。計(jì)算機(jī)110的部件可以包括,但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130、把包括系統(tǒng)存儲(chǔ)器的多種系統(tǒng)部件連接到處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是幾種總線結(jié)構(gòu)類型中的任何一種,這幾種總線結(jié)構(gòu)類型包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍設(shè)備總線、使用多種總線體系結(jié)構(gòu)中任何一種的局部總線。舉例而言,但非限制,這樣的體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、增強(qiáng)ISA(EISA)總線、視頻電子產(chǎn)品標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線,以及也被稱為“夾層”總線的外圍設(shè)備部件互連(PCI)總線。
計(jì)算機(jī)110一般包含多種計(jì)算機(jī)可讀取媒體。計(jì)算機(jī)可讀取媒體可以是可由計(jì)算機(jī)110訪問的任何可購得的媒體,包括易失的與非易失的媒體、可擦除的與不可擦除的媒體。舉例而言,但非限制,計(jì)算機(jī)可讀取媒體可以包括計(jì)算機(jī)存儲(chǔ)媒體和通信媒體。計(jì)算機(jī)存儲(chǔ)媒體包括以任何方法或技術(shù)用于存儲(chǔ)諸如計(jì)算機(jī)可讀取指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失的與非易失的媒體、可擦除的與不可擦除的媒體。計(jì)算機(jī)存儲(chǔ)媒體包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字通用盤(DVD)或其它光盤存儲(chǔ)器、盒式磁帶、磁帶、磁盤存儲(chǔ)器或其它磁存儲(chǔ)設(shè)備,或任何可以用來存儲(chǔ)所期望信息并可由計(jì)算機(jī)110訪問的其它媒體。通信媒體一般具體表現(xiàn)為某種已調(diào)制的數(shù)字信號,如某種載波或其它傳輸機(jī)制的計(jì)算機(jī)可讀取指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。術(shù)語“已調(diào)制的數(shù)字信號”是指一種信號,其一個(gè)或多個(gè)特征以某種方式被設(shè)置或變化,以在該信號中編碼信息。舉例而言,但非限制,通信媒體包括有線媒體如某種有線網(wǎng)絡(luò)或直接線纜連接,和無線媒體如聲音、RF、紅外及其它無線媒體。以上所述的任何組合也應(yīng)包括在計(jì)算機(jī)可讀取媒體的范圍內(nèi)。
系統(tǒng)存儲(chǔ)器130包括易失和/或非易失形式的存儲(chǔ)器,如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132。在ROM131中一般存儲(chǔ)基本輸入/輸出系統(tǒng)(BIOS)133,包含了如在啟動(dòng)的時(shí)候幫助在計(jì)算機(jī)110內(nèi)的元件間傳輸信息的基本過程。RAM132一般包含可立即由處理單元120訪問和/或正由處理單元120運(yùn)行的數(shù)據(jù)和/或程序模塊。舉例而言,但非限制,圖1例示了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110還可以包含其它可擦除/不可擦除、易失/非易失的計(jì)算機(jī)存儲(chǔ)媒體。僅舉例而言,圖1例示了讀寫不可擦除、非易失磁媒體的硬盤驅(qū)動(dòng)器141、讀寫可擦除、非易失磁盤152的磁盤驅(qū)動(dòng)器151和讀寫可擦除、非易失光盤156,如CDROM或其它光媒體的光盤驅(qū)動(dòng)器155。其它可用于例示操作環(huán)境的可擦除/不可擦除、易失/非易失的計(jì)算機(jī)存儲(chǔ)媒體包括,但不限于,盒式磁帶、閃存卡、數(shù)字通用盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤驅(qū)動(dòng)器141一般經(jīng)由不可擦除存儲(chǔ)器接口,諸如接口140,連接到系統(tǒng)總線121,而磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155一般通過可擦除存儲(chǔ)器接口,諸如接口150,連接到系統(tǒng)總線121。
以上所討論并在圖1中例示的驅(qū)動(dòng)器及與之相關(guān)的計(jì)算機(jī)存儲(chǔ)媒體為計(jì)算機(jī)110提供了對計(jì)算機(jī)可讀取指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。例如,在圖1中,硬盤驅(qū)動(dòng)器141被例示為存儲(chǔ)了操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。請注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,也可以與之不同。這里給了操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147不同的編號,以最小程度地例示出它們是不同的拷貝。
用戶可以經(jīng)由輸入設(shè)備,如鍵盤162、話筒163和指點(diǎn)設(shè)備161諸如鼠標(biāo)、跟蹤球或觸摸板),來將命令和信息輸入計(jì)算機(jī)110。其它的輸入設(shè)備(未示出)可以包括操縱桿、游戲鍵盤、衛(wèi)星碟形天線、掃描儀等。這些及其它的輸入設(shè)備通常經(jīng)由接入系統(tǒng)總線的用戶輸入接口160連接處理單元120,但也可以通過其它接口和總線結(jié)構(gòu),如并行端口、游戲端口或通用串行總線(USB)來連接。監(jiān)視器191或其它類型的顯示設(shè)備也經(jīng)由諸如視頻接口190的接口連接到系統(tǒng)總線121。在監(jiān)視器以外,計(jì)算機(jī)還可以包含其它外圍輸出設(shè)備,諸如可以通過外圍輸出接口190連接的揚(yáng)聲器197和打印機(jī)196。
計(jì)算機(jī)110可以用與諸如遠(yuǎn)端計(jì)算機(jī)180的一臺或多臺遠(yuǎn)端計(jì)算機(jī)的邏輯連接在聯(lián)網(wǎng)環(huán)境中運(yùn)作。遠(yuǎn)端計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它普通網(wǎng)絡(luò)節(jié)點(diǎn),并且一般包括以上關(guān)于計(jì)算機(jī)110所描述的多數(shù)或所有元件。在圖1中所描述的邏輯連接包括局域網(wǎng)絡(luò)(LAN)和廣域網(wǎng)絡(luò)(WAN),也可以包括其它網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和互聯(lián)網(wǎng)中是很平常的。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通過網(wǎng)絡(luò)接口或適配器170連接到LAN 171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110一般包含調(diào)制解調(diào)器172或其它在WAN 173(諸如互聯(lián)網(wǎng))上建立通信的手段。調(diào)制解調(diào)器172,可以是外置的或內(nèi)置的,可以經(jīng)由用戶輸入接口160或其它適當(dāng)?shù)臋C(jī)制連接到系統(tǒng)總線121。在聯(lián)網(wǎng)環(huán)境中,關(guān)于計(jì)算機(jī)110所描述的程序模塊,或其部分,可以存儲(chǔ)在遠(yuǎn)端的記憶存儲(chǔ)設(shè)備中。舉例而言,但非限制,圖1將遠(yuǎn)端應(yīng)用程序185例示為駐留在遠(yuǎn)端計(jì)算機(jī)180上。可以意識到,所示的網(wǎng)絡(luò)連接是示例性的,還可以使用其它在計(jì)算機(jī)間建立通信鏈路的手段。
圖2是移動(dòng)設(shè)備200的方框圖,這是一個(gè)可作替代的示例性計(jì)算環(huán)境。移動(dòng)設(shè)備200包含微處理器202、存儲(chǔ)器204、輸入/輸出(I/O)部件206,以及用于與遠(yuǎn)端計(jì)算機(jī)或其它移動(dòng)設(shè)備通信的通信接口208。在某實(shí)施例中,前述這些部件通過合適的總線210互相連接進(jìn)行通信。
存儲(chǔ)器204以非易失電子存儲(chǔ)器,如帶有電池后備模塊(未示出)的隨機(jī)存取存儲(chǔ)器來實(shí)現(xiàn),這樣當(dāng)至移動(dòng)設(shè)備的通用供電關(guān)閉時(shí),存儲(chǔ)在存儲(chǔ)器204中的信息也不會(huì)丟失。存儲(chǔ)器204的一部分最好被分配成用于程序執(zhí)行的可尋址存儲(chǔ)器,而存儲(chǔ)器204的另一部分最好被用于存儲(chǔ),諸如用于模擬在硬盤驅(qū)動(dòng)器上的存儲(chǔ)。
存儲(chǔ)器204包含操作系統(tǒng)212、應(yīng)用程序214以及對象庫216。在操作過程中,操作系統(tǒng)212最好是由處理器202從存儲(chǔ)器204中執(zhí)行。在一較佳實(shí)施例中,操作系統(tǒng)212是Microsoft Corporation的可商用的WINDOWSCE商標(biāo)操作系統(tǒng)。操作系統(tǒng)212最好是針對移動(dòng)設(shè)備設(shè)計(jì),并實(shí)現(xiàn)可由應(yīng)用214通過一些公開的應(yīng)用編程接口與方法來利用的數(shù)據(jù)庫特性。在對象庫216中的對象由應(yīng)用214及操作系統(tǒng)212至少部分地響應(yīng)對公開的應(yīng)用編程接口與方法的調(diào)用而予以維持。
通信接口208代表了可以讓移動(dòng)設(shè)備200發(fā)送與接收信息的多種設(shè)備和技術(shù)。這樣的設(shè)備略舉幾種,包括有線與無線調(diào)制解調(diào)器、衛(wèi)星接收機(jī)和廣播調(diào)諧器。移動(dòng)設(shè)備200還可以直接與計(jì)算機(jī)相連接。以與之交換數(shù)據(jù)。在這種情況下,通信接口208可以是能夠傳輸流信息的紅外收發(fā)器或串行或并行通信連接。
輸入/輸出部件206包括多種輸入設(shè)備,如某種可感知觸摸的屏幕、按鈕、滾輪和話筒,以及多種輸出設(shè)備,包括音響發(fā)生器、振動(dòng)裝置和顯示器。上面所列的設(shè)備是舉例而言的,并不需要統(tǒng)統(tǒng)出現(xiàn)在移動(dòng)設(shè)備200上。此外,在本發(fā)明的范圍內(nèi),其它的輸入/輸出設(shè)備也可以被附屬于移動(dòng)設(shè)備200或出現(xiàn)在移動(dòng)設(shè)備200上。
本發(fā)明為在多個(gè)應(yīng)用中使用與調(diào)試統(tǒng)計(jì)學(xué)的語言模型及基于類的詞典提供了一種手段。統(tǒng)計(jì)學(xué)的語言模型提供了字詞序列在語言中出現(xiàn)的概率。n字列語言模型一般定義字詞序列的概率為Pr(H)=Pr(w1)*Pr(w2|w1)*…*Pr(wi|wi-(n-1),…,wi-1)*…*Pr(wt|wt-(n-1),…,wt-1)(方程式1)其中H是字詞序列w1,w2,…,wt,t為該序列中的字詞數(shù),n-1為已用于預(yù)測下一字詞的已過字詞的數(shù)量,而Pr(wi|wi-(n-1),…,wi-1)為第i個(gè)字詞在已知前面n-1個(gè)字詞時(shí)的概率。如此在二字列語言模型中n=2,而在三字列語言模型中n=3。
統(tǒng)計(jì)學(xué)的語言模型的一個(gè)問題是它們無法為未知的或罕用的字詞,如專有名詞提供精確的概率。為克服這一點(diǎn),本發(fā)明使用了一種基于類的語言模型。
在本發(fā)明的基于類的語言模型中,該模型對字詞類與單個(gè)字詞的序列進(jìn)行預(yù)測。為做到這一點(diǎn),當(dāng)在一個(gè)或多個(gè)字詞處使用一個(gè)類時(shí),應(yīng)修改方程式1。例如,對于一個(gè)三字列語言模型,所計(jì)算的與一個(gè)類記號N相關(guān)的概率為Pr(H)=…*Pr(wi-1|wi-3,wi-2)*Pr(Ti|Ni)*Pr(Ni|wi-2,wi-1)*Pr(wi+1|wi-1,Ni)*…Pr(wi+2|Ni,wi+1)*…(方程式2)其中,為求簡化,只顯示了類概率附近的那些概率,Ni是在序列中第i個(gè)位置的類,Ti是類N中的一個(gè)實(shí)體,而Pr(Ti|Ni)指提供已知類N時(shí)實(shí)體T的概率的內(nèi)部概率。在某實(shí)施例中,該內(nèi)部概率由定義在每個(gè)類中所出現(xiàn)字詞的類實(shí)體詞典來提供。在一實(shí)施例中,該類實(shí)體詞典提供了一套定義在特定類中所出現(xiàn)已知字詞的語法規(guī)則。例如,針對類[名字]的上下文無關(guān)語法可以包含“Hank Hanson”規(guī)則。外部概率(某個(gè)類在前面字詞中的概率)由基于類的語言模型提供。
基于類的語言模型有助于克服與某些類的字詞(諸如專有名詞)相關(guān)的稀少問題。這樣的字詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)得如此稀少,以至于不使用類的語言模型將總是會(huì)傾向于更為普通的字詞,而不是這些少用的字詞。通過使用類,本發(fā)明的語言模型增大了類被識別出來的概率,因?yàn)樵谟?xùn)練數(shù)據(jù)中一個(gè)字詞類比該類中的單個(gè)字詞發(fā)生得更為頻繁。
基于類的語言模型或類實(shí)體詞典在使用前,必須先訓(xùn)練。在一實(shí)施例中,基于類的語言模型或類實(shí)體詞典通過首先標(biāo)記訓(xùn)練語料庫,以根據(jù)一套試探法來標(biāo)識在類范圍內(nèi)的字詞,而初始地訓(xùn)練。這套試探法提供了一套根據(jù)輸入中的其它字詞來預(yù)測某個(gè)類字詞位置的規(guī)則。例如,如果動(dòng)詞“叫”是一個(gè)輸入的字詞,則試探法規(guī)則能指示可以將“叫”的后一個(gè)或后兩個(gè)詞考慮成[名字]類的部分(如,“叫Jack Jones”)。
用試探法所標(biāo)識出的字詞將由它們的類來替代,然后用標(biāo)準(zhǔn)訓(xùn)練法來按語料庫中的字詞和類訓(xùn)練基于類的語言模型。
類實(shí)體詞典通過將每個(gè)類中所標(biāo)識的字詞劃分成子部分來初始地訓(xùn)練。然后在標(biāo)準(zhǔn)n字列訓(xùn)練技術(shù)中用這些子部分來標(biāo)識這些字詞在類中的概率。這樣的概率就構(gòu)成了類的內(nèi)部概率。
本發(fā)明在另外的方面提供了根據(jù)用戶的輸入而對類實(shí)體詞典和基于類的語言模型的更新與擴(kuò)充。特別是,在用戶改變某個(gè)已譯解的字詞序列時(shí),類實(shí)體詞典可得以擴(kuò)充,這樣修改后的序列就包含了某個(gè)不在類實(shí)體詞典中的字詞。例如,如果基于類的語言模型和類實(shí)體詞典譯解了字詞序列“寫一封信給Phil”,而用戶將該序列改變?yōu)椤皩懸环庑沤oBill”,則“Bill”如果以前不在類實(shí)體詞典中,就將會(huì)被添加到類實(shí)體詞典中。
為了在類實(shí)體詞典中添加一個(gè)實(shí)體,必須確定該實(shí)體的內(nèi)部概率。如上面所記述,內(nèi)部概率提供了已知類時(shí)實(shí)體的概率。這一概率無法準(zhǔn)確計(jì)算,因?yàn)闆]有足夠的數(shù)據(jù)來確定已知該類時(shí)該實(shí)體的概率。取而代之的是,在本發(fā)明的實(shí)施例中,通過假設(shè)該實(shí)體內(nèi)部概率和該類的語言模型概率的乘積至少應(yīng)該等于由譯解器所不正確地標(biāo)識的字詞的語言模型概率,來估計(jì)這一內(nèi)部概率。
以一個(gè)對三字列語言模型的方程式而言,這一假設(shè)為Pr(Ti|Ni)*Pr(Ni|wi-2,wi-1)=Pr(pi|wi-2,wi-1) (方程式3)其中Pr(Ti|Ni)為已修改的實(shí)體Ti在類Ni已知時(shí)的內(nèi)部概率,Pr(Ni|wi-2,wi-1)為類Ni在序列中前面兩個(gè)字詞已知時(shí)的語言模型概率,而Pr(pi|wi-2,wi-1)為先被譯解而后又被修改形成修改后實(shí)體Ti的不正確實(shí)體pi的語言模型概率。
利用這一假設(shè),就可以估計(jì)內(nèi)部概率為Pr(Ti|Ni)=Pr(pi|wi-2,wi-1)Pr(Ni|wi-2,wi-1)]]>(方程式4)然而,這一估計(jì)高度依賴于序列中前面的字詞。為減少這一依賴而使估計(jì)更為通用,該概率可以重新寫為Pr(Ti|Ni)=Pr(pi|<unknown>i-2,<unknown>i-1)Pr(Ni|<unknown>i-2,<unknown>i-1)]]>(方程式5)其中Pr(pi|<unknown>i-2,<unknown>i-1)代表pi在任何兩個(gè)前面字詞給定時(shí)的概率,而Pr(Ni|<unknown>i-2,<unknown>i-1)代表Ni在任何兩個(gè)前面字詞給定時(shí)的概率。請注意,通過以<unknown>標(biāo)記替代前面的字詞,并確定pi和Ni在<unknown>標(biāo)記給定時(shí)的概率,Pr(pi|<unknown>i-2,<unknown>i-1)和Pr(Ni|<unknown>i-2,<unknown>i-1)得以在訓(xùn)練過程中存儲(chǔ)入語言模型。
在為所修改的實(shí)體估計(jì)出概率后,就可以將所修改的實(shí)體和所估計(jì)的內(nèi)部概率添加到類實(shí)體詞典中適當(dāng)?shù)念愊隆?br>
用戶對所譯解字詞序列的修改并不總是包含沒有出現(xiàn)在類實(shí)體詞典中的字詞。取而代之的是,原來所譯解的字詞或已修改的字詞都可以出現(xiàn)在類實(shí)體詞典中。圖3提供了用于根據(jù)用戶的修改確定如何來改變類實(shí)體詞典的步驟的流程圖。
總的來看,圖3中的過程可以以三種方式來調(diào)整內(nèi)部概率。對于已經(jīng)在類實(shí)體詞典中的修改過的字詞來說,該字詞未得到譯解的事實(shí)說明其內(nèi)部概率過低。因此,其概率需要增高。對于已經(jīng)在類實(shí)體詞典中的已譯解的字詞來說,用戶修改該字詞的事實(shí)說明所譯解字詞的內(nèi)部概率過高。因此,其概率需要降低。對于不在類實(shí)體詞典中的已修改的字詞來說,所修改的字詞需要添加到詞典中,并用上面的方程式5來計(jì)算其初始概率。
為確定要采取哪種調(diào)整,圖3中的過程開始于步驟300,在該步驟中檢查經(jīng)過用戶修改所產(chǎn)生的字詞序列,以判定所修改的字詞是否在類實(shí)體詞典中。如果所修改的字詞在類實(shí)體詞典中,則在步驟320進(jìn)行所修改的字詞是否僅發(fā)現(xiàn)在單個(gè)類中的判定。
如果所修改的字詞發(fā)現(xiàn)在多于一個(gè)的類中,則利用基于類的語言模型,通過使用單獨(dú)序列中每一可能的類,并標(biāo)識出提供最大概率的序列,來選擇最為可能的類。在圖3中這被顯示為步驟322。
如果在步驟320中所修改的字詞僅發(fā)現(xiàn)在單一類中,或者在步驟322中標(biāo)識出一個(gè)類后,則需要調(diào)整所修改字符的內(nèi)部概率,因?yàn)榧词顾薷牡淖衷~在類實(shí)體詞典中,由于其內(nèi)部概率過低,譯解器也沒能從輸入中標(biāo)識出它們。為糾正這一情況,在步驟324中提高存儲(chǔ)在類實(shí)體詞典中的所修改字符的內(nèi)部概率。在某些實(shí)施例中,通過乘以一個(gè)1.5的因子來提高該內(nèi)部概率。
如果在步驟300中所修改的字符不在類實(shí)體詞典中,則在步驟302中使用一套試探法來確定所修改字符的類。然后用這些類中的每一個(gè)來與其它已譯解的字詞組建單獨(dú)的序列或詞語。而后用基于類的語言模型來標(biāo)識最為可能的序列,從而標(biāo)識出所修改字詞的最可能的類。
如果在步驟304中可以對所修改的字詞標(biāo)識出類,則在步驟308中用上面的方程式5來確定所修改字詞的內(nèi)部概率,并在步驟310中將所修改的字詞及概率添加到類實(shí)體詞典中。
如果在步驟304中對所修改的字詞無法標(biāo)識出類,則在步驟312中檢查已譯解并由用戶所修改的字詞,以判定該已譯解的字詞是否在類實(shí)體詞典中。如果在步驟312中該已譯解的字詞在類實(shí)體詞典中,則該已譯解字詞而非所修改字詞被標(biāo)識出來的事實(shí)意味著該已譯解字詞的內(nèi)部概率被設(shè)置得過高。為糾正這一情況,在步驟314中降低該已譯解字符的內(nèi)部概率。在許多實(shí)施例中,該內(nèi)部概率降低1/1.5。(換句話說,就是將該內(nèi)部概率除以1.5來形成新概率)。
如果在步驟312中該已譯解的字詞不在類實(shí)體詞典中,則既然該已譯解字詞與所修改的字詞都不在某個(gè)類的范圍內(nèi),就不需要對類實(shí)體詞典做任何改變。因此,在步驟318中類實(shí)體詞典不變。
本發(fā)明中的基于類的語言模型及更新基于類的語言模型的方法可以用于許多系統(tǒng)。例如,圖4提供了一個(gè)可以在圖1和2的環(huán)境中實(shí)現(xiàn)并利用本發(fā)明某個(gè)實(shí)施例的語音-字符轉(zhuǎn)換系統(tǒng)400的方框圖。在圖5的流程圖中顯示了這一系統(tǒng)的運(yùn)作。
在圖5的步驟500中,將語音輸入402,即出現(xiàn)在基于字符的語言如漢語、日語或朝鮮語中的字符的語音描述,提供給譯解器404。在漢語中,語音輸入的一種具體形式是拼音輸入。在步驟502中,譯解器404首先用詞典406建立一個(gè)可以以該語音輸入表示的字詞格。然后在步驟504中通過使用類實(shí)體詞典412和試探法規(guī)則416從該格的字詞中標(biāo)識類實(shí)體來對該格進(jìn)行擴(kuò)充。所標(biāo)識出的類將作為單獨(dú)的節(jié)點(diǎn)而添加到該格中。
在步驟506中,譯解器404利用提供路徑上每個(gè)字詞表示一個(gè)語音段的概率的語音模型408、提供類的內(nèi)部概率的類實(shí)體詞典、提供字詞和/或類的序列發(fā)生在語言中的概率的語言模型310,以及上面的方程式2,為經(jīng)過該格的每條路徑確定概率。然后在步驟508中將提供最高概率的路徑上的字詞序列作為所譯解的字詞串輸出。
在所譯解出的序列提供給用戶后,系統(tǒng)可以在步驟510中接收用戶的修改。這樣的修改指示出用戶通過其輸入所想要的正確字詞。在步驟512中,檢查這一修改,以確定如何用它來使用圖3中的過程改變類實(shí)體詞典。特別的是,類析取單元422使用試探法416和類實(shí)體詞典412來為所修改的字詞標(biāo)識類,并判定所譯解的字詞或所修改的字詞是否在類實(shí)體詞典中。而后一個(gè)概率確定單元424如在上面圖3中所指示的那樣,計(jì)算所修改字詞(如果它沒有出現(xiàn)在詞典中)的概率,或?yàn)樗薷牡淖衷~或所譯解的字詞確定新的概率,以改善譯解器的表現(xiàn)。
在第二個(gè)實(shí)施例中,本發(fā)明的基于類的語言模型用于語音識別系統(tǒng),諸如圖6中的語音識別系統(tǒng)。在圖6中,來自說話者600的輸入語音信號和加性噪聲602通過與模數(shù)(A/D)轉(zhuǎn)換器606連接的話筒604轉(zhuǎn)換成電信號。
A/D轉(zhuǎn)換器606將來自話筒604的模擬信號轉(zhuǎn)換成一系列數(shù)字值。在若干實(shí)施例中,A/D轉(zhuǎn)換器606以16kHz與每次采樣16比特來對模擬信號進(jìn)行采樣,從而生成每秒32千字節(jié)的語音數(shù)據(jù)。
由A/D轉(zhuǎn)換器606所生成的數(shù)字?jǐn)?shù)據(jù)供給可任選的降噪模塊608,該模塊用一種或多種降噪技術(shù)來消除該數(shù)字信號中的部分噪聲。
降噪模塊608的輸出供給從該數(shù)字信號中析取特征的特征析取器600。特征析取模塊的實(shí)例包括用于執(zhí)行線性預(yù)測編碼(LPC)、源于LPC的倒譜、感知線性預(yù)測(PLP)、聽覺模型特征析取和Mel頻標(biāo)倒譜系數(shù)(MFCC)特征析取的模塊。請注意,本發(fā)明并不限于這些特征析取模塊,其它的模塊也可以用于本發(fā)明的環(huán)境中。
特征析取模塊從降噪模塊接收數(shù)字值的流,并生成特征向量的流,其中每一個(gè)特征向量都與一幀語音信號相關(guān)。在許多實(shí)施例中,幀的中央以10毫秒間隔。
請注意,盡管在圖6的實(shí)施例中降噪模塊608被顯示在特征析取器600之前,但在其它實(shí)施例中,降噪模塊608出現(xiàn)在特征析取器600之后。
由析取模塊所生成的特征向量流供給譯解器612,譯解器612根據(jù)該特征向量流、特殊詞匯614、語言模型616、聲學(xué)模型618、試探法規(guī)則622和類實(shí)體詞典620來識別出一個(gè)最為可能的字詞序列。
聲學(xué)模型618提供了由語言單元如元音素、音素、雙音素或三音素的發(fā)音來產(chǎn)生某個(gè)輸入特征向量的概率。
譯解器612使用語言模型616、類實(shí)體詞典620和試探法規(guī)則622的方式與譯解器404使用語言模型410、類實(shí)體詞典412和試探法規(guī)則416的方式相似。
根據(jù)聲學(xué)模型、語言模型、特殊詞匯、類實(shí)體詞典和試探法規(guī)則,譯解器612從所有可能的字詞序列中識別出一個(gè)最為可能的字詞序列。具體而言,譯解器612使用圖5中的步驟500、502、504、506和508來標(biāo)識該最為可能的字詞序列。
然后該最為可能的字詞序列要受到可能的用戶修改630。如果用戶修改了所譯解的序列中的字詞,則所修改的字詞將被提供給類析取單元632和概率確定單元634,其運(yùn)作方式與圖4中的類析取單元422和概率確定單元424相似。而后,利用圖3中的過程,就能根據(jù)用戶對所譯解字詞的修改來修改類實(shí)體詞典620。
盡管本發(fā)明是參照特殊的實(shí)施例所描述,相關(guān)技術(shù)的熟練工作者將認(rèn)識到,可以不背離本發(fā)明的精神和范圍,而在形式與細(xì)節(jié)上作出改變。
權(quán)利要求
1.一種譯解輸入的方法,所述方法包含從輸入中識別可能的字詞序列;使用基于類的語言模型和類實(shí)體詞典來從可能的字詞序列中選擇一個(gè)作為輸出序列;其特征在于,所述方法包括接收對輸出序列所作的修改,并且使用該修改來改變類實(shí)體詞典。
2.一種計(jì)算機(jī)可讀取媒體,具有用于執(zhí)行以下步驟的計(jì)算機(jī)可執(zhí)行指令部分地根據(jù)為至少一個(gè)類的實(shí)體提供概率的類實(shí)體詞典來產(chǎn)生字詞序列;接收對該字詞序列的修改,使該字詞序列中的已譯解實(shí)體修改成已修改的實(shí)體;并且其特征在于至少部分地根據(jù)已譯解實(shí)體與已修改實(shí)體中的至少一個(gè)來設(shè)定類實(shí)體詞典中實(shí)體的概率。
3.如權(quán)利要求1所述的方法,其特征在于,使用修改來改變類實(shí)體詞典包含了使用修改來將實(shí)體添加到類實(shí)體詞典中。
4.如權(quán)利要求3所述的方法,其特征在于,添加實(shí)體進(jìn)一步包含了估計(jì)所添加的實(shí)體在給定該實(shí)體所加入的類時(shí)的概率。
5.如權(quán)利要求4所述的方法,其特征在于,估計(jì)該實(shí)體的概率包含了部分地根據(jù)與輸出序列中已譯解實(shí)體相關(guān)的概率來估計(jì)概率。
6.如權(quán)利要求6所述的方法,其特征在于,估計(jì)該實(shí)體的概率包含了根據(jù)與已譯解實(shí)體相關(guān)的n字列概率和與在修改中被修改的實(shí)體所加入的類相關(guān)的n字列概率來估計(jì)概率。
7.如權(quán)利要求1所述的方法,其特征在于,使用修改來改變類實(shí)體詞典包含了提高與類實(shí)體詞典中的實(shí)體相關(guān)的概率。
8.如權(quán)利要求1所述的方法,其特征在于,使用修改來改變類實(shí)體詞典包含了降低與類實(shí)體詞典中的實(shí)體相關(guān)的概率。
9.如權(quán)利要求2所述的計(jì)算機(jī)可讀取媒體,其特征在于,設(shè)定在類實(shí)體詞典中實(shí)體的概率包含了將所修改的實(shí)體添加到類實(shí)體詞典中并為所修改的實(shí)體選擇概率。
10.如權(quán)利要求9所述的計(jì)算機(jī)可讀取媒體,其特征在于,為所修改的實(shí)體選擇概率包含了根據(jù)與已譯解實(shí)體相關(guān)的概率來估計(jì)概率。
11.如權(quán)利要求10所述的計(jì)算機(jī)可讀取媒體,其特征在于,估計(jì)概率包含了根據(jù)與已譯解實(shí)體相關(guān)的n字列概率和與類實(shí)體詞典中的類相關(guān)的n字列概率來估計(jì)概率。
12.如權(quán)利要求2所述的計(jì)算機(jī)可讀取媒體,其特征在于,設(shè)定實(shí)體的概率包含了提高實(shí)體的概率。
13.如權(quán)利要求2所述的計(jì)算機(jī)可讀取媒體,其特征在于,設(shè)定實(shí)體的概率包含了降低實(shí)體的概率。
全文摘要
提供一種根據(jù)由用戶所作糾正來擴(kuò)大具有類實(shí)體詞典(412)的語言模型(410)的方法和設(shè)備。在該方法和設(shè)備下,用戶通過以正確的片斷替換輸出片斷來糾正部分地基于語言模型的輸出。將該正確片斷添加到在類實(shí)體詞典(412)中的片斷類中,并根據(jù)與該輸出片斷相關(guān)的n字列概率和與該類相關(guān)的n字列概率來估計(jì)該正確片斷在給定該類時(shí)的概率。然后用所估計(jì)的這一概率來產(chǎn)生進(jìn)一步的輸出。
文檔編號G10L21/00GK1419184SQ0215069
公開日2003年5月21日 申請日期2002年11月13日 優(yōu)先權(quán)日2001年11月13日
發(fā)明者陳正, 高劍峰, 李明鏡, 章鋒 申請人:微軟公司