專(zhuān)利名稱(chēng):多語(yǔ)言非母語(yǔ)語(yǔ)音識(shí)別的制作方法
技術(shù)領(lǐng)域:
5 本發(fā)明涉及一種用于經(jīng)由語(yǔ)音輸入從元素列表選擇列表元素的方 法及其系統(tǒng)。
背景技術(shù):
很多電子應(yīng)用具有由用戶(hù)的語(yǔ)音支配或語(yǔ)音控制的設(shè)計(jì)過(guò)程或順 10 序。這些電子應(yīng)用包括用于交通工具的目的引導(dǎo)系統(tǒng)、電話(huà)和/或地址 系統(tǒng)等。交通工具包括汽車(chē)、火車(chē)、輪船、飛機(jī)等。在這些過(guò)程或順序中,用戶(hù)向語(yǔ)音識(shí)別單元提供語(yǔ)音輸入。該語(yǔ) 音輸入能夠?qū)?yīng)于用戶(hù)希望從列表元素的列表或組中選擇的列表元 素。語(yǔ)音識(shí)別單元處理語(yǔ)音輸入,并響應(yīng)于處理的語(yǔ)音輸入,選擇所 15 需的列表元素。WO 2004/077405公開(kāi)了一種對(duì)用戶(hù)的語(yǔ)音輸入實(shí)施兩步識(shí)別過(guò) 程的語(yǔ)音識(shí)別系統(tǒng)。 一個(gè)識(shí)別過(guò)程將整個(gè)詞的語(yǔ)音輸入分離成至少一 個(gè)語(yǔ)音子單元序列以產(chǎn)生列表元素的詞匯表。接下來(lái)的識(shí)別過(guò)程將整 個(gè)詞的語(yǔ)音輸入與列表元素的詞匯表進(jìn)行比較。 20 本方法需要列表元素和識(shí)別系統(tǒng)的語(yǔ)言相同。舉例來(lái)說(shuō),在導(dǎo)航應(yīng)用中,當(dāng)使用德語(yǔ)導(dǎo)航系統(tǒng)的用戶(hù)在法國(guó)駕駛時(shí)可能在目的地點(diǎn)的 語(yǔ)音驅(qū)動(dòng)選擇中存在困難。發(fā)明內(nèi)容25 因此,存在這樣的一種需要為來(lái)自不同于語(yǔ)音識(shí)別系統(tǒng)訓(xùn)練的語(yǔ)言的另一自然語(yǔ)言的列表元素的語(yǔ)音驅(qū)動(dòng)選擇提供可能。本發(fā)明通過(guò)提供獨(dú)立的權(quán)利要求中提及的方法和語(yǔ)音識(shí)別系統(tǒng)來(lái) 克服這種需要。在相關(guān)權(quán)利要求中描述了本發(fā)明的優(yōu)選實(shí)施例。根據(jù)本發(fā)明的第一方面,提供一種用于經(jīng)由語(yǔ)音輸入從元素列表30選擇列表元素的方法。該方法包括為語(yǔ)音輸入識(shí)別子詞單元(subword unit)串的步驟。在另一步驟中,識(shí)別的子詞單元串與元素列表相比較,且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表。為產(chǎn)生最佳匹配元素的候選列表,使用包含矩陣元素的混淆矩陣(confusion matrix),所述矩陣元素包括關(guān)于不同語(yǔ)言的子詞單元的混淆概率的信息。在常規(guī)系 統(tǒng)中,在語(yǔ)音識(shí)別系統(tǒng)中使用的混淆矩陣比較相同語(yǔ)言的子詞單元。 5 現(xiàn)在,本發(fā)明的一個(gè)方面是要建立和使用能夠比較不同語(yǔ)言的混淆矩 陣。混淆矩陣通過(guò)用于每個(gè)子詞單元的識(shí)別系統(tǒng)為給定的子詞單元組 定義可能被錯(cuò)誤識(shí)別的子詞單元組。子詞單元可以對(duì)應(yīng)于語(yǔ)言的音素 或音節(jié)或任意其他單元,諸如較大組音素或較小組音素(諸如半音素 (demiphoneme))。當(dāng)子詞單元是音素時(shí),音素序列被確定為最好地匹io 配所述語(yǔ)音輸入的子詞單元串。優(yōu)選地,混淆矩陣的每個(gè)矩陣元素代表特定子詞單元對(duì)的混淆概 率,所述子詞單元對(duì)包含第一語(yǔ)言的子詞單元和不同于第一語(yǔ)言的第 二語(yǔ)言的子詞單元。矩陣的每個(gè)元素代表特定子詞單元對(duì)的混淆概率。 每個(gè)矩陣元素?cái)?shù)字地指定了子詞單元對(duì)的第一子詞單元與子詞單元對(duì)15 的另一子詞單元的混淆程度。優(yōu)選地,混淆矩陣包含第一語(yǔ)言的可能 子詞單元以及第一語(yǔ)言的這些可能子詞單元與第二語(yǔ)言的可能子詞單 元的混淆概率。因?yàn)閮煞N語(yǔ)言的子詞單元典型地在子詞單元或音素的 數(shù)量上不同,混淆矩陣不再是正方的。只包括一種語(yǔ)言的子詞單元的 混淆矩陣是正方的,因?yàn)榫仃嚲哂邢嗤牧袛?shù)和行數(shù)。20 根據(jù)本發(fā)明的另一方面,使用被訓(xùn)練成識(shí)別第一語(yǔ)言的子詞單元的子詞單元語(yǔ)言識(shí)別單元來(lái)識(shí)別子詞單元串,以識(shí)別與第一語(yǔ)言不同 的語(yǔ)言的語(yǔ)音輸入。該方面的思想是使用相同的識(shí)別器訓(xùn)練用于識(shí)別 的混淆矩陣,但是針對(duì)外語(yǔ)。舉例來(lái)說(shuō),被訓(xùn)練成理解德語(yǔ)語(yǔ)音輸入 的子詞單元語(yǔ)音識(shí)別單元用于識(shí)別諸如法語(yǔ)或英語(yǔ)的另一語(yǔ)言中的子25 詞單元序列,以評(píng)估混淆矩陣的混淆概率。該方法的優(yōu)點(diǎn)在于它隱含 地得知了這兩種不同語(yǔ)言之間的最典型的子詞單元混淆。根據(jù)本發(fā)明的一個(gè)方面,不同的混淆矩陣可以設(shè)置有用于不同語(yǔ) 言對(duì)的混淆概率。在本實(shí)施方案中,若干混淆矩陣將可用于不同的語(yǔ) 言對(duì)。這允許匹配不同的語(yǔ)言。當(dāng)可以使用不同的語(yǔ)言對(duì)和不同的混30 淆矩陣時(shí),必須選擇用于產(chǎn)生最佳匹配元素的候選列表的混淆矩陣。為此,優(yōu)選地通過(guò)確定用戶(hù)的語(yǔ)言和通過(guò)確定元素列表的語(yǔ)言確定語(yǔ)音輸入的語(yǔ)言對(duì),并相應(yīng)地選擇混淆矩陣。在大多數(shù)語(yǔ)音識(shí)別應(yīng) 用中,語(yǔ)音識(shí)別系統(tǒng)的用戶(hù)語(yǔ)言是已知的。如果可以確定元素列表的 語(yǔ)言,則語(yǔ)言對(duì)是已知的。當(dāng)元素列表是用于引導(dǎo)用戶(hù)到列表的目的地點(diǎn)之一的導(dǎo)航系統(tǒng)中 5 使用的目的地點(diǎn)列表時(shí),可以以下面的方式確定語(yǔ)言對(duì)的語(yǔ)言之一。 首先,例如,通過(guò)確定交通工具的當(dāng)前位置并通過(guò)將它與地圖數(shù)據(jù)相 比較,確定導(dǎo)航系統(tǒng)用在哪個(gè)國(guó)家。當(dāng)交通工具的位置已知時(shí),可以 推斷出交通工具所行駛的國(guó)家。當(dāng)國(guó)家已知時(shí),能夠確定該國(guó)家的官 方語(yǔ)言。舉例來(lái)說(shuō),當(dāng)交通工具在德國(guó)行駛時(shí),能夠推斷出目的地點(diǎn) 10 的列表包括德語(yǔ)名稱(chēng),當(dāng)交通工具在法國(guó)行駛時(shí),所述列表可以包括 諸如城市或其他目的地點(diǎn)的名稱(chēng)的法語(yǔ)列表元素。在本發(fā)明的另一方面中,確定導(dǎo)航系統(tǒng)的用戶(hù)語(yǔ)言,該語(yǔ)言用作 所述語(yǔ)言對(duì)的另一語(yǔ)言。導(dǎo)航系統(tǒng)的所有者通??赡苓x擇預(yù)定的語(yǔ)言 作為該導(dǎo)航系統(tǒng)的用戶(hù)語(yǔ)言,在操作過(guò)程中,只要沒(méi)有選擇其他語(yǔ)言, 15 該語(yǔ)言用作缺省值。當(dāng)用戶(hù)的語(yǔ)言且當(dāng)元素列表的語(yǔ)言己知時(shí),語(yǔ)言 對(duì)是已知的,使得可以選擇合適的混淆矩陣。當(dāng)用戶(hù)的語(yǔ)言已知且當(dāng)列表元素的語(yǔ)言也已知時(shí),能夠確定混淆 矩陣。當(dāng)語(yǔ)音識(shí)別方法與導(dǎo)航系統(tǒng)相結(jié)合使用時(shí),交通工具也可能行駛 20 在具有多于一種官方語(yǔ)言的國(guó)家,例如具有德語(yǔ)、意大利語(yǔ)和法語(yǔ)作為官方語(yǔ)言的瑞士,或具有兩種官方語(yǔ)言的比利時(shí)。在這種情況下, 可以以不同語(yǔ)言提供不同元素列表,并且必須確定最佳匹配項(xiàng)目的候 選列表。語(yǔ)音識(shí)別系統(tǒng)的用戶(hù)語(yǔ)言是已知的。然而在這種情況下,必 須確定是使用用戶(hù)語(yǔ)言與德語(yǔ)、用戶(hù)語(yǔ)言與法語(yǔ)還是用戶(hù)語(yǔ)言與意大25 利語(yǔ)的混淆矩陣。除了這三個(gè)混淆矩陣之外,提供三種不同的元素列 表,德語(yǔ)的目的地點(diǎn)列表、法語(yǔ)的目的地點(diǎn)列表和意大利語(yǔ)的目的地 點(diǎn)列表。現(xiàn)在出現(xiàn)的問(wèn)題是哪個(gè)列表和哪個(gè)混淆矩陣用于匹配歩驟。 一種方法是組合不同的列表并使用這三個(gè)不同的混淆矩陣從所有三個(gè) 列表中編輯最佳匹配條目。該方法的缺點(diǎn)在于必須搜索多于一個(gè)的元30 素列表,極大地增加了搜索時(shí)間。而且,在每種語(yǔ)言中可能選擇相同 的條目,減少了最佳匹配元素列表中的獨(dú)特條目的數(shù)目。根據(jù)另一方法,當(dāng)不同的混淆矩陣具有不同的語(yǔ)言對(duì)并提供多個(gè) 列表且當(dāng)必須選擇混淆矩陣之一以用于確定最佳元素的候選列表時(shí), 可以選擇具有最小平均混淆數(shù)的混淆矩陣。這意味著選擇了最匹配用 戶(hù)語(yǔ)言的語(yǔ)言。
一旦己經(jīng)選擇了混淆矩陣,能夠根據(jù)所選的混淆矩陣 5 選擇不同列表的元素列表??梢酝ㄟ^(guò)計(jì)算每個(gè)矩陣的分?jǐn)?shù)確定最小平均混淆數(shù),所述分?jǐn)?shù)表 示與用戶(hù)語(yǔ)言的符合度。舉例來(lái)說(shuō),分?jǐn)?shù)能夠用于通過(guò)優(yōu)選級(jí)對(duì)可用 的語(yǔ)言進(jìn)行分類(lèi)。如果用戶(hù)指示某些語(yǔ)言偏好,g卩,用戶(hù)能夠說(shuō)出他 正旅行的國(guó)家的語(yǔ)言之一,也可考慮這些偏好來(lái)選擇合適的混淆矩陣 10 和合適的對(duì)應(yīng)元素列表??赡艿恼Z(yǔ)言對(duì)是提前知道的。因而,不必在使用過(guò)程中計(jì)算分?jǐn)?shù)。 可以預(yù)先計(jì)算分?jǐn)?shù)并與不同的矩陣一起存儲(chǔ)各自的分?jǐn)?shù)。在正方矩陣 的情況下,主對(duì)角線上的條目對(duì)應(yīng)于自混淆概率,而對(duì)角線以外的元 素對(duì)應(yīng)于不正確的識(shí)別,即識(shí)別錯(cuò)誤。計(jì)算矩陣中的所有錯(cuò)誤將是確 15 定列表和識(shí)別系統(tǒng)之間的符合度的一種方法。不幸的是,因?yàn)榫仃嚤?較具有不同音素組的不同語(yǔ)言,該方法可能導(dǎo)致當(dāng)前情況中的難題。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可以通過(guò)確定每個(gè)矩陣的熵來(lái)確定分 數(shù),熵越低,與用戶(hù)語(yǔ)言的符合度越好。在這里使用的統(tǒng)計(jì)學(xué)方法中, 熵是微觀結(jié)構(gòu)的數(shù)目的測(cè)量。在本方法中,能夠?yàn)榫仃嚨拿啃写_定熵。 20如果熵大,這意味著該行的所有不同矩陣元素的混淆概率大約相等。 在當(dāng)前上下文中,這意味著第一音素或子詞單元被理解為其他語(yǔ)言的 音素或子詞單元的概率大約與其他語(yǔ)言的所有音素相同。在當(dāng)前上下 文中,通過(guò)添加不同的列,每個(gè)列和完整矩陣的熵越低,與用戶(hù)語(yǔ)言 的符合度越好,且混淆概率越低。25 另外,可以通過(guò)確定共有信息(mutual information)計(jì)算分?jǐn)?shù),共有信息越高,與用戶(hù)語(yǔ)言的符合度越好。為了評(píng)估用于混淆矩陣的 混淆概率,必須完成識(shí)別運(yùn)行(recognitionrun)。因而,對(duì)于訓(xùn)練組中 的每次發(fā)聲,正確的和識(shí)別的音素序列都是可用的。這使得能夠計(jì)算 音素序列之間的相互信息。共有信息越高,識(shí)別的音素串的預(yù)測(cè)能力30 越好且矩陣越好。然而另一方法是對(duì)真實(shí)數(shù)據(jù)進(jìn)行實(shí)際識(shí)別試驗(yàn)。在本實(shí)施方式屮,通過(guò)使用不同矩陣并使用測(cè)試數(shù)據(jù)實(shí)施識(shí)別試驗(yàn)來(lái)確定分?jǐn)?shù),具有最高識(shí)別率的矩陣用于產(chǎn)生候選列表。盡管到現(xiàn)在為止該方法是最昂貴的一個(gè),它也提供了最精確的分?jǐn)?shù)。根據(jù)本發(fā)明的另一方面,后面涉及用于使用語(yǔ)音輸入從元素列表5 選擇列表元素的語(yǔ)音識(shí)別系統(tǒng)。該系統(tǒng)包括識(shí)別用于語(yǔ)音輸入的子詞單元串的子詞單元語(yǔ)音識(shí)別單元。子詞單元比較單元將識(shí)別的子詞單 元串與元素列表進(jìn)行比較且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表。此外,在存儲(chǔ)器中提供包含矩陣元素的混淆矩陣,所述矩陣元素 包括關(guān)于第一語(yǔ)言的子詞單元與第二語(yǔ)音的子詞單元混淆的混淆概率10的信息。子詞單元比較單元基于所述至少一個(gè)多語(yǔ)言混淆矩陣產(chǎn)生最 佳匹配元素的列表。上述語(yǔ)音識(shí)別系統(tǒng)允許通過(guò)聲音以不同于列表元 素的語(yǔ)言的其他語(yǔ)言從列表選擇條目。該語(yǔ)音識(shí)別系統(tǒng)具有這樣的優(yōu) 點(diǎn)它在存儲(chǔ)器和CPU方面是有效率的,從而工作在嵌入式設(shè)備上。 所述矩陣可以以這種方式設(shè)計(jì)混淆矩陣的每個(gè)矩陣元素代表特15 定子詞單元對(duì)的混淆概率,所述子詞單元對(duì)包含第一語(yǔ)言的子詞單元和第二語(yǔ)言的子詞單元。語(yǔ)音識(shí)別系統(tǒng)可以是如WO 2004/077405中描 述的兩步語(yǔ)音識(shí)別系統(tǒng)。在這種實(shí)施例中,語(yǔ)音識(shí)別系統(tǒng)的第一步驟 產(chǎn)生最佳匹配項(xiàng)目的候選列表,即,較大元素列表中的較小列表。第 二語(yǔ)音識(shí)別步驟從最匹配語(yǔ)音輸入的候選列表中識(shí)別和選擇項(xiàng)目。一20 旦已經(jīng)產(chǎn)生了短的候選列表,必須在識(shí)別系統(tǒng)中登記該短的候選列表以用于第二識(shí)別步驟。以前是這樣做的,然而現(xiàn)在識(shí)別系統(tǒng)處理不同 語(yǔ)言的條目。例如,德語(yǔ)識(shí)別系統(tǒng)可以接收英語(yǔ)音素。在本技術(shù)領(lǐng)域 中,用于執(zhí)行從一組外語(yǔ)音素到識(shí)別器的語(yǔ)言的音素組的映射的方法 對(duì)于本領(lǐng)域技術(shù)人員而言是可用的且已知的。備選地,識(shí)別器能夠與25 不同語(yǔ)言的聲學(xué)模型結(jié)合使用以處理外語(yǔ)音素。兩種方法是可行的,因?yàn)槎塘斜韮H包含整個(gè)列表?xiàng)l目的一部分。返回使用多語(yǔ)言混淆矩陣的語(yǔ)音識(shí)別系統(tǒng)和第一識(shí)別步驟,子詞 單元語(yǔ)音識(shí)別單元能夠被訓(xùn)練,以識(shí)別第一語(yǔ)言的子詞單元,且可以 為不同于第一語(yǔ)言的語(yǔ)言的語(yǔ)音輸入產(chǎn)生子詞單元串。如上所述,該同混淆矩陣的存儲(chǔ)單元。為了確定使用哪個(gè)矩陣和哪個(gè)元素列表,語(yǔ)音識(shí)別系統(tǒng)可以包括 確定子詞單元對(duì)的兩種語(yǔ)言的語(yǔ)言對(duì)確定單元。在導(dǎo)航應(yīng)用的情況下,提供包含能夠引導(dǎo)用戶(hù)的用于不同國(guó)家的 5 不同元素列表或不同目的地點(diǎn)的數(shù)據(jù)庫(kù)。為了確定語(yǔ)言對(duì),可以提供 確定語(yǔ)音識(shí)別系統(tǒng)的用戶(hù)語(yǔ)言的用戶(hù)語(yǔ)言確定單元,該用戶(hù)語(yǔ)言用于 確定子詞對(duì)的語(yǔ)言之一。此外,可以提供確定交通工具行駛的國(guó)家的 官方語(yǔ)言的國(guó)家確定單元,所述語(yǔ)言用于確定語(yǔ)言對(duì)的另一語(yǔ)言。當(dāng)已知語(yǔ)言對(duì)時(shí),提供從多個(gè)混淆矩陣中選擇混淆矩陣的混淆矩10 陣選擇單元,所述混淆矩陣選擇單元根據(jù)從語(yǔ)言對(duì)確定單元接收的信 息選擇混淆矩陣。當(dāng)考慮用戶(hù)語(yǔ)言和交通工具正在行駛的國(guó)家的官方 語(yǔ)言,混淆矩陣選擇單元不能選擇混淆矩陣(即,當(dāng)所述國(guó)家具有多 于一種的官方語(yǔ)音)時(shí),能夠使用混淆確定單元來(lái)確定每個(gè)混淆矩陣 的混淆平均數(shù)?;煜仃囘x擇單元然后選擇具有最小混淆數(shù)的矩陣。15為此,能夠提供為每個(gè)混淆矩陣確定分?jǐn)?shù)的分?jǐn)?shù)確定單元,所述分?jǐn)?shù) 表示與用戶(hù)語(yǔ)言的符合度。應(yīng)當(dāng)理解并不需要整個(gè)時(shí)間都在語(yǔ)音識(shí)別 系統(tǒng)中提供分?jǐn)?shù)確定單元。只需提供一次,用于確定不同的分?jǐn)?shù)。在 己經(jīng)計(jì)算出分?jǐn)?shù)和為每個(gè)混淆矩陣確定分?jǐn)?shù)并且分?jǐn)?shù)被存儲(chǔ)到相應(yīng)的 矩陣之后,就不再需要分?jǐn)?shù)確定單元。根據(jù)不同矩陣的分?jǐn)?shù),混淆矩20 陣選擇單元從所述多個(gè)混淆矩陣選擇混淆矩陣。優(yōu)選地,語(yǔ)音識(shí)別系 統(tǒng)根據(jù)如上所述的方法工作。
參考下面的附圖和描述將更好地理解本發(fā)明。附圖中的部件不必 25成比例,而是用于強(qiáng)調(diào)說(shuō)明本發(fā)明的原理。 附圖中圖1呈現(xiàn)了本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)的示意圖;圖2示出了混淆矩陣,其包含圖1的系統(tǒng)中使用的兩種不同語(yǔ)言 的混淆概率;30 圖3是圖1中所示的語(yǔ)音識(shí)別系統(tǒng)的更詳細(xì)的視圖;圖4示出了使用圖2的矩陣識(shí)別語(yǔ)音以從元素列表中選擇列表元素的方法的流程圖;圖5示出了另一流程圖,更詳細(xì)地說(shuō)明了對(duì)元素列表的多語(yǔ)言非 母語(yǔ)識(shí)別的方法步驟。
具體實(shí)施方式
在圖1中示出了一種允許語(yǔ)音輸入的多語(yǔ)言識(shí)別的語(yǔ)音識(shí)別系 統(tǒng)。圖1中所示的系統(tǒng)尤其允許通過(guò)語(yǔ)音以不同于用戶(hù)語(yǔ)言的另一語(yǔ) 言從列表中選擇條目。在所示實(shí)施例中,示出了與引導(dǎo)用戶(hù)到預(yù)定目 的地點(diǎn)的導(dǎo)航系統(tǒng)相結(jié)合的系統(tǒng)。然而,本發(fā)明并不限制于經(jīng)由語(yǔ)音 10 輸入的目的地點(diǎn)的選擇。本發(fā)明能夠用在各種情況,其中與用戶(hù)語(yǔ)言 不同的語(yǔ)言的語(yǔ)音輸入將被正確地識(shí)別。在很多語(yǔ)音識(shí)別系統(tǒng)中,聲 學(xué)信號(hào)的最可能的譯碼被作為識(shí)別輸出向用戶(hù)輸出,或最佳匹配結(jié)果 被輸出給用戶(hù),使得用戶(hù)能夠選擇最佳匹配結(jié)果之一。本系統(tǒng)保持了 在識(shí)別處理中考慮的多種假定,這些多種假定,在當(dāng)前上下文中被稱(chēng)15為最佳匹配元素,提供了用于附加信息的已經(jīng)被檢索系統(tǒng)(retrieval system)探究的基礎(chǔ)。語(yǔ)音識(shí)別系統(tǒng)中的一個(gè)問(wèn)題是已知和未知詞匯術(shù) 語(yǔ)的概念,詞匯表是語(yǔ)音識(shí)別系統(tǒng)用于將語(yǔ)音轉(zhuǎn)換成文本的一組詞。 作為譯碼處理的一部分,語(yǔ)音識(shí)別系統(tǒng)將來(lái)自語(yǔ)音輸入的聲音與詞匯 表中的詞進(jìn)行比較。因此,僅詞匯表中的詞能夠被識(shí)別。不在詞匯表20中的詞通常將被錯(cuò)誤地識(shí)別為發(fā)音與語(yǔ)音識(shí)別系統(tǒng)未知的另一詞類(lèi)似 的已知的詞匯表的詞。詞匯表可以是任意詞匯表,例如,姓名、地址 或諸如一種語(yǔ)言的完整的一組詞之類(lèi)的任意其他詞匯表。因此,詞匯 表不限于描述目的地址的列表元素,詞匯表能夠包含任意類(lèi)型的列表 元素。25 圖1示意性地示出了一種語(yǔ)音識(shí)別系統(tǒng),其中語(yǔ)音輸入被輸入到子詞語(yǔ)音識(shí)別單元10。子詞語(yǔ)音識(shí)別單元10處理該語(yǔ)音輸入且產(chǎn)生子 詞單元串,在所示實(shí)施例中為音素串。音素串被饋入到匹配器11,在那里音素串與存儲(chǔ)在數(shù)據(jù)庫(kù)12中的元素列表相比較。在所示實(shí)施例中, 數(shù)據(jù)庫(kù)12包括在不同列表中的目的地址。舉例來(lái)說(shuō),對(duì)于列表A中的 30國(guó)家A,包含能夠在該國(guó)家中到達(dá)的所有可能的目的地址。這種列表 能夠具有大量的條目,例如,多于50000或150000個(gè)列表元素。在所示實(shí)施例中,列表包含導(dǎo)航數(shù)據(jù)。然而,列表也可以包括人名或電話(huà) 號(hào)碼或任意其他數(shù)據(jù)。在數(shù)據(jù)庫(kù)12中,以相應(yīng)國(guó)家的官方語(yǔ)言提供列 表。在所示的實(shí)施例中,國(guó)家A和B具有一種官方語(yǔ)言,使得為每個(gè) 國(guó)家提供一個(gè)列表。國(guó)家C具有兩種官方語(yǔ)言,使得對(duì)于第一和第二 5官方語(yǔ)言,存在不同的目的地列表。當(dāng)用戶(hù)想要選擇列表元素之一時(shí), 語(yǔ)音輸入將包含該列表元素。匹配器比較從子詞語(yǔ)音識(shí)別單元接收的 音素串且產(chǎn)生最佳匹配項(xiàng)目的候選列表,因而,如果最佳匹配項(xiàng)目的 候選列表包含少量元素,它能夠被直接呈現(xiàn)給用戶(hù)。然而,候選列表也可能包含更多的列表元素,例如500或2000個(gè)。在這種情況下,最 io佳匹配元素的候選列表形成第二識(shí)別步驟的基礎(chǔ),在該第二識(shí)別步驟 中,語(yǔ)音輸入與這個(gè)較小的列表進(jìn)行比較。導(dǎo)航系統(tǒng)的用戶(hù)現(xiàn)在可以在使用與用戶(hù)語(yǔ)言不同的其他語(yǔ)言的國(guó) 家中旅行。舉例來(lái)說(shuō),使用英語(yǔ)導(dǎo)航系統(tǒng)的英語(yǔ)司機(jī)能夠在德國(guó)或法 國(guó)旅行,或者德語(yǔ)用戶(hù)可以在法國(guó)或英國(guó)旅行。在這些示例中,存儲(chǔ)15 在列表中的目的地址是不同于用戶(hù)語(yǔ)音的另一語(yǔ)言的列表元素。為了允許較高的識(shí)別率,當(dāng)用戶(hù)發(fā)出另一語(yǔ)言的城市名稱(chēng)時(shí),提供包括不同混淆矩陣的存儲(chǔ)器13。在所示的實(shí)施例中,存儲(chǔ)器13包括 第一混淆矩陣(包括德語(yǔ)子詞單元和意大利語(yǔ)子詞單元)。而且,提供 比較德語(yǔ)和英語(yǔ)子詞單元的混淆矩陣和包括法語(yǔ)和英語(yǔ)音素組或子詞20 單元的混淆矩陣。也參考更詳細(xì)地示出混淆矩陣20的圖2?;煜仃嚢ǘ鄠€(gè)矩陣 元素21,混淆矩陣表示假定聲音屬于一個(gè)子詞單元時(shí)另一子詞單元被 識(shí)別的概率。每個(gè)矩陣元素21 Cij代表特定子詞單元對(duì)的混淆概率, 即,Cij=P(j/i),其中Cij數(shù)字地指定了子詞單元i與子詞單元j的混淆25 程度。P(j/i)是假定聲音屬于子詞單元i時(shí)子詞單元j被識(shí)別的概率。在 所示實(shí)施例中,左上部矩陣元素21代表了子詞單元對(duì)22的混淆概率。 在圖2中所示的實(shí)施例中,大寫(xiě)字符代表一種語(yǔ)言的子詞單元或音素, 小寫(xiě)字符代表另一語(yǔ)言的子詞單元或音素。第一語(yǔ)言具有可能的子詞 單元AA-ZZ,第二語(yǔ)言具有子詞單元ba-zz。因?yàn)閮煞N不同語(yǔ)言的音素30組通常在音素的數(shù)目中不同,因此混淆矩陣不再是正方的。圖1所示的系統(tǒng)現(xiàn)在包括這些混淆矩陣中的若干個(gè),每個(gè)混淆矩陣表示一種語(yǔ)言的子詞單元與另一語(yǔ)言的子詞單元的混淆概率。結(jié)合圖3,它更詳細(xì)地解釋了怎樣確定使用哪個(gè)混淆矩陣和哪個(gè) 列表。為了確定哪個(gè)混淆矩陣應(yīng)該用于確定最佳匹配結(jié)果,必須確定 語(yǔ)言對(duì)。語(yǔ)言對(duì)的一種語(yǔ)言能夠被確定,因?yàn)橛脩?hù)語(yǔ)言對(duì)于系統(tǒng)而言 5 是已知的,例如,系統(tǒng)知道用戶(hù)說(shuō)德語(yǔ),因?yàn)樵撜Z(yǔ)言被設(shè)置為缺省值。 現(xiàn)在以下面的方式確定語(yǔ)言對(duì)的另一語(yǔ)言。為此,提供語(yǔ)言對(duì)確定單 元31,語(yǔ)言對(duì)確定單元接收作為一個(gè)輸入的用戶(hù)語(yǔ)言。語(yǔ)言對(duì)確定單 元進(jìn)一步包括確定在哪個(gè)國(guó)家使用語(yǔ)音識(shí)別系統(tǒng)的國(guó)家確定單元32。 在導(dǎo)航應(yīng)用中,系統(tǒng)一般包括確定系統(tǒng)(當(dāng)用在交通工具中時(shí),為交io通工具)的當(dāng)前位置的位置確定單元33。當(dāng)交通工具或系統(tǒng)位置己知時(shí),通過(guò)比較交通工具位置與地圖數(shù)據(jù),能夠容易地確定國(guó)家。語(yǔ)言對(duì)確定單元現(xiàn)在知道語(yǔ)言對(duì)的兩種語(yǔ)言且然后能夠訪問(wèn)存儲(chǔ)器13以檢 索對(duì)應(yīng)的混淆矩陣。舉例而言,英語(yǔ)用戶(hù)正在法國(guó)旅行。因此,語(yǔ)言 對(duì)確定單元將檢索包含英語(yǔ)和法語(yǔ)子詞單元的混淆概率的混淆矩陣。 15 該混淆矩陣被發(fā)送到匹配器,在那里它與數(shù)據(jù)庫(kù)12的列表之一結(jié)合使 用。由于已知交通工具正在行駛的國(guó)家,列表也是已知的。在上述示 例中,這意味著英語(yǔ)用戶(hù)使用目的地址的法語(yǔ)列表在具有法語(yǔ)名稱(chēng)的 法國(guó)選擇目的地點(diǎn)。為此,使用包含英語(yǔ)一法語(yǔ)對(duì)的混淆矩陣。通常,這些混淆矩陣被提前確定且被存儲(chǔ)在系統(tǒng)中。為了確定混20 淆概率,系統(tǒng)必須被訓(xùn)練。根據(jù)本發(fā)明的另一方面,通過(guò)使用相同的但是用于外語(yǔ)的匹配器,能夠確定混淆矩陣的混淆概率。舉例而言, 英語(yǔ)匹配器用于識(shí)別法語(yǔ)數(shù)據(jù)的音素序列以評(píng)估混淆矩陣的混淆概 率。該方法的優(yōu)點(diǎn)在于它可以隱含地得知法語(yǔ)和英語(yǔ)之間最典型的語(yǔ)音混淆(phonetic confusion)。通過(guò)提供具有不同語(yǔ)言對(duì)的不同的混淆25 矩陣,系統(tǒng)允許與不同的語(yǔ)言匹配。然而,情況可能更加復(fù)雜。舉例而言,用戶(hù)可能正在具有多于一 種語(yǔ)言的外國(guó)使用語(yǔ)音識(shí)別系統(tǒng)。在所示實(shí)施例中,數(shù)據(jù)庫(kù)包括具有三種不同列表C1、 C2禾nC3的國(guó)家C。例如,當(dāng)系統(tǒng)用在瑞士時(shí),元 素(即,目的地)的瑞士語(yǔ)的列表可以以德語(yǔ)、法語(yǔ)和意大利語(yǔ)獲得。 30然而,在瑞士的英語(yǔ)旅行者可能不會(huì)說(shuō)這些語(yǔ)言中的任意一種。不過(guò), 存在用于英語(yǔ)-意大利語(yǔ)、英語(yǔ)-法語(yǔ)和英語(yǔ)-德語(yǔ)的語(yǔ)言對(duì)的任意一個(gè)的混淆矩陣?,F(xiàn)在的問(wèn)題是使用哪個(gè)列表用于匹配。一種方法將是簡(jiǎn)單地使用所有的列表并從所有的列表中編輯最佳 匹配條目。然而,該方法的缺點(diǎn)是必須搜索多于一個(gè)的列表,因而極大地增加了搜索時(shí)間。考慮到每個(gè)列表具有大于50000個(gè)條目,這種5 方法將并不是有效的。該方法的另一缺點(diǎn)在于將在每種語(yǔ)言中選擇相 同的條目,因而減小了最佳匹配結(jié)果中獨(dú)特條目的數(shù)目?,F(xiàn)在用戶(hù)可 能已經(jīng)指示了某些語(yǔ)言偏好(例如,英語(yǔ)旅行者能夠在瑞士說(shuō)官方語(yǔ) 言之一)。該偏好則能用于選擇合適的混淆矩陣和相應(yīng)的列表。舉例而 言,當(dāng)英語(yǔ)旅行者說(shuō)德語(yǔ)時(shí),英語(yǔ)-德語(yǔ)混淆矩陣和條目的德語(yǔ)列表將10 用于確定最佳匹配結(jié)果。然而,也可能不存在偏好。在這種情況下,該過(guò)程能夠如下進(jìn)行。 系統(tǒng)能夠以選擇具有最小平均混淆數(shù)的語(yǔ)言對(duì)的方式進(jìn)行配置。對(duì)于 上述示例,這意味著在英語(yǔ)-德語(yǔ)、英語(yǔ)-法語(yǔ)和英語(yǔ)-意大利語(yǔ)之間選 擇語(yǔ)言對(duì)。語(yǔ)言對(duì)和相應(yīng)的混淆矩陣以及相關(guān)列表必須被確定。通過(guò)15 提前確定代表與用戶(hù)語(yǔ)言符合度的分?jǐn)?shù)能夠選擇最好地匹配用戶(hù)語(yǔ)言 的語(yǔ)言。在圖3所示的實(shí)施例中,分?jǐn)?shù)與混淆矩陣一起存儲(chǔ)。為確定 分?jǐn)?shù),可以提供分?jǐn)?shù)確定單元。如果分?jǐn)?shù)與矩陣一起存儲(chǔ),在使用過(guò) 程中不需要計(jì)算分?jǐn)?shù)。然而,在語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)過(guò)程中必須以某 種方式確定分?jǐn)?shù)??梢允褂枚喾N方法來(lái)計(jì)算分?jǐn)?shù)。在正方矩陣的情況20 下,主對(duì)角線的條目對(duì)應(yīng)于自混淆概率,而對(duì)角線外的元素對(duì)應(yīng)于不 正確的識(shí)別,即存在識(shí)別錯(cuò)誤。計(jì)算矩陣中的所有錯(cuò)誤將是確定兩種 語(yǔ)言之間或列表與識(shí)別器之間的符合度的一種方法。不幸的是,可能 難以實(shí)現(xiàn)這種方法,因?yàn)樵诋?dāng)前情況下矩陣比較具有不同子詞單元組 的兩種不同語(yǔ)言。矩陣通常不再是正方的,所以難以確定非對(duì)角矩陣25元素。確定分?jǐn)?shù)的另一種可能是使用矩陣的熵測(cè)量。矩陣的熵是在矩 陣應(yīng)用之后剩余的不確定性的測(cè)量。不確定性剩余越少,符合度越好。 另一種可能的方法是計(jì)算共有信息。為了評(píng)估混淆矩陣的混淆概率,必須完成識(shí)別運(yùn)行(recognition run)。對(duì)于訓(xùn)練組中的每次發(fā)聲,正確 的和識(shí)別的音素序列是可用的。這使得可以計(jì)算音素序列之間的共有 30信息。共有信息越高,識(shí)別的音素序列的預(yù)測(cè)能力越好,且矩陣越好。 另一方法是對(duì)真實(shí)數(shù)據(jù)進(jìn)行實(shí)際的識(shí)別試驗(yàn)。盡管到目前為止該方法是最昂貴的,但它也獲得了最精確的分?jǐn)?shù)。在這種情況下,具有最高 識(shí)別率的矩陣勝出。為了選擇正確的矩陣,可以提供在可能存在若干混淆矩陣和若干 列表的情況下確定所需的矩陣和相應(yīng)列表的混淆矩陣選擇單元34?;?5 淆矩陣選擇單元選擇具有最小平均混淆數(shù)的混淆矩陣。用戶(hù)語(yǔ)言是已 知的,且當(dāng)前通過(guò)從使用系統(tǒng)的國(guó)家的官方語(yǔ)音中選擇最符合用戶(hù)語(yǔ) 言的語(yǔ)言確定語(yǔ)言對(duì)的另一語(yǔ)言。現(xiàn)在語(yǔ)言對(duì)的第二語(yǔ)言是已知的并 且相應(yīng)的列表用于從列表確定最佳匹配元素。最佳匹配元素可以被包括在列表元素的較小列表中,例如,100和2000個(gè)元素的列表中。第10 二語(yǔ)音識(shí)別步驟(在附圖中沒(méi)有示出)對(duì)較小列表?xiàng)l目應(yīng)用語(yǔ)音識(shí)別。在該第二步驟中,通過(guò)將候選列表中列出的條目的語(yǔ)音聲音表示與聲 音輸入進(jìn)行匹配并確定最佳匹配條目,為相同的語(yǔ)音輸入確定列表中 的最可能的條目。該方法節(jié)省了計(jì)算資源,因?yàn)閷?duì)在第一步驟中進(jìn)行 的音素識(shí)別要求較少,且計(jì)算昂貴的第二步驟僅在元素的大列表的小15的子集上進(jìn)行。這種兩步識(shí)別系統(tǒng)從DE 102 07 895 A1獲知,弓l用該 文獻(xiàn)以獲知兩步識(shí)別方案的進(jìn)一步的細(xì)節(jié)。在第二識(shí)別步驟中,再次比較兩種不同的語(yǔ)言。例如,德語(yǔ)識(shí)別 器可能接收英語(yǔ)音素。用于進(jìn)行從外語(yǔ)音素組到識(shí)別器的語(yǔ)言的音素 組的映射的方法可以在文獻(xiàn)中獲得。備選地,識(shí)別器能夠與不同語(yǔ)言 20的聲音模型一起使用以處理外語(yǔ)音素。兩種方法是可行的,因?yàn)槎塘?表僅包含列表元素的大列表的條目的一部分。在圖4示出了這種兩步識(shí)別方案。在歩驟41中啟動(dòng)處理之后,說(shuō)話(huà)者說(shuō)出所需列表元素的完整描述。當(dāng)從電話(huà)列表中選擇時(shí),所述列 表元素例如包括城市或街道名稱(chēng)或人名。該語(yǔ)音輸入在步驟41中被記25錄,用于第二識(shí)別步驟中的附加用途。在第一識(shí)別步驟中,在步驟42 中產(chǎn)生音素串。通常,獨(dú)立于數(shù)據(jù)庫(kù)12中存儲(chǔ)的列表元素的詞匯表產(chǎn) 生第一音素串。構(gòu)建包括連續(xù)音素部分序列、音素序列、字母序列、 音節(jié)序列等的語(yǔ)音子詞單元序列。在步驟43中,如上所述,使用多語(yǔ) 言混淆矩陣實(shí)施映射過(guò)程。在歩驟44中,產(chǎn)生的子詞單元串與元素列30表相比較且產(chǎn)生最佳匹配元素的候選列表。在步驟45中,實(shí)施第二識(shí) 別步驟,第二識(shí)別步驟基于最佳匹配結(jié)果的候選列表而不是第一匹配步驟43中使用的整個(gè)列表。在步驟45中,記錄的語(yǔ)音輸入被遞送到 配備有最佳匹配項(xiàng)目的候選列表的識(shí)別單元(未示出)。在步驟46中, 最可能的列表元素然后被呈現(xiàn)給用戶(hù),或者最可能的列表元素被使用 且能夠被進(jìn)一步處理。本方法在步驟47中結(jié)束。 5 在圖5中,以流程圖的形式總結(jié)了圖3中解釋的混淆矩陣和相應(yīng)的元素列表的選擇。在步驟51中啟動(dòng)處理之后并且在步驟52中已經(jīng) 從子詞語(yǔ)音識(shí)別單元接收音素串之后,必須確定用戶(hù)語(yǔ)言以確定語(yǔ)言 對(duì)的一種語(yǔ)言(步驟53)。語(yǔ)言對(duì)的確定對(duì)于混淆矩陣和元素列表的選 擇是必須的。在下一步驟中,在步驟54中確定使用識(shí)別系統(tǒng)的官方語(yǔ)io 音。在步驟55中,詢(xún)問(wèn)使用系統(tǒng)的國(guó)家是否存在多于一種的官方語(yǔ)音。 如果不存在,官方語(yǔ)音是己知的且可以在步驟56中確定語(yǔ)言對(duì)。 一旦 語(yǔ)言對(duì)己知,能夠在步驟57中確定相應(yīng)的混淆矩陣,并且能在步驟58 中確定最佳匹配元素的候選列表。如結(jié)合圖4所討論的,該候選列表 能夠被輸入到第二識(shí)別步驟(步驟59)。在一步識(shí)別過(guò)程的情況下,最15佳匹配元素被呈現(xiàn)給用戶(hù),以用于確認(rèn)或進(jìn)一步的選擇。在一個(gè)國(guó)家 中存在多于一種官方語(yǔ)言的情況下,在步驟60必須確定可用于識(shí)別處 理的可能的混淆矩陣。在上述示例中,對(duì)于在瑞士旅行的英語(yǔ)旅行者, 已確定的組包含英語(yǔ)-德語(yǔ)、英語(yǔ)-法語(yǔ)和英語(yǔ)-意大利語(yǔ)的矩陣元素。 為了確定哪個(gè)混淆矩陣將用于匹配過(guò)程,在步驟61中確定哪個(gè)矩陣具20 有最小混淆數(shù),表示哪種語(yǔ)言是最好地匹配用戶(hù)語(yǔ)言的語(yǔ)言。這能夠 通過(guò)比較矩陣的分?jǐn)?shù)完成。在步驟62中,根據(jù)分?jǐn)?shù)選擇矩陣。當(dāng)通過(guò) 計(jì)算分?jǐn)?shù)獲知最佳匹配語(yǔ)言時(shí),選擇所述語(yǔ)言的列表元素的列表且使 用所選的矩陣和相應(yīng)的元素列表確定最佳匹配條目的候選列表(步驟 63)。在步驟65中處理結(jié)束之前,在步驟64中能夠輸出結(jié)果以用于進(jìn)25 —步的處理。總而言之,本發(fā)明通過(guò)使用比較不同語(yǔ)言的混淆矩陣允許存儲(chǔ)器 和CPU有效地通過(guò)語(yǔ)音從不同于用戶(hù)語(yǔ)言的語(yǔ)言的列表選擇條目。
權(quán)利要求
1.用于經(jīng)由語(yǔ)音輸入從元素列表選擇列表元素的方法,該方法包括以下步驟為所述語(yǔ)音輸入識(shí)別子詞單元串,將識(shí)別的子詞單元串與所述元素列表相比較,并且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表,其中為產(chǎn)生最佳匹配元素的候選列表,使用包含矩陣元素的混淆矩陣,所述矩陣元素包括關(guān)于不同語(yǔ)言的子詞單元的混淆概率的信息。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述混淆矩陣中的每個(gè)矩陣元 素表示特定子詞單元對(duì)的混淆概率,所述子詞單元對(duì)包含第一語(yǔ)言的 子詞單元和第二語(yǔ)言的子詞單元。15
3.根據(jù)權(quán)利要求1或2所述的方法,其中所述混淆矩陣包含第一語(yǔ)言 的可能子詞單元以及所述第一語(yǔ)言的可能子詞單元與另一語(yǔ)言的子詞 單元混淆的概率。
4. 根據(jù)前面權(quán)利要求中任意一個(gè)所述的方法,其中使用被訓(xùn)練成識(shí)別 20第一語(yǔ)言的子詞單元的子詞單元語(yǔ)音識(shí)別單元來(lái)識(shí)別子詞單元串,以識(shí)別與第一語(yǔ)言不同的語(yǔ)言的語(yǔ)音輸入。
5. 根據(jù)前面權(quán)利要求中任意一個(gè)所述的方法,其中提供不同的混淆矩 陣,所述混淆矩陣提供用于不同語(yǔ)言對(duì)的混淆概率。25
6. 根據(jù)前面權(quán)利要求中任意一個(gè)所述的方法,其中通過(guò)確定用戶(hù)語(yǔ)言 和通過(guò)確定元素列表的語(yǔ)言來(lái)確定語(yǔ)言對(duì)和相應(yīng)的混淆矩陣。
7. 根據(jù)前面權(quán)利要求中任意一個(gè)所述的方法,其中所述元素列表包括 30用于引導(dǎo)用戶(hù)到列表的目的地點(diǎn)之一的導(dǎo)航系統(tǒng)中使用的不同目的地點(diǎn).
8. 根據(jù)權(quán)利要求5或7所述的方法,其中為確定使用哪個(gè)混淆矩陣, 確定使用導(dǎo)航系統(tǒng)的國(guó)家,所述信息用于確定包括不同目的地點(diǎn)的元 素列表的語(yǔ)言和/或用于確定語(yǔ)言對(duì)中的一種語(yǔ)言。5
9. 根據(jù)權(quán)利要求6至8中任意一個(gè)所述的方法,其中為了確定使用哪 個(gè)混淆矩陣,確定導(dǎo)航系統(tǒng)的用戶(hù)語(yǔ)言,并且所述用戶(hù)語(yǔ)言用于確定 語(yǔ)言對(duì)的另一語(yǔ) 曰。io
10.根據(jù)權(quán)利要求8或9所述的方法,其中,根據(jù)使用導(dǎo)航系統(tǒng)的國(guó) 家的語(yǔ)言且根據(jù)用戶(hù)語(yǔ)言選擇所述混淆矩陣。
11. 據(jù)前面權(quán)利要求中任意一個(gè)所述的方法,其中當(dāng)以不同的語(yǔ)言提供不同的元素列表并要確定最佳匹配項(xiàng)目的候選列表時(shí),不同的列15 表被組合并且基于來(lái)自于不同列表的元素產(chǎn)生最佳匹配項(xiàng)目的候選列表。
12. 根據(jù)前面權(quán)利要求中任意一個(gè)所述的方法,其中當(dāng)存在具有不同 的語(yǔ)言對(duì)的不同的混淆矩陣并且提供多個(gè)列表元素時(shí),并且當(dāng)必須選20擇混淆矩陣之一以用于確定候選列表時(shí),選擇具有最小平均混淆數(shù)的 混淆矩陣。
13. 根據(jù)權(quán)利要求12所述的方法,其中當(dāng)已經(jīng)選擇所述混淆矩陣之一 時(shí),根據(jù)所選的混淆矩陣選擇所述不同列表的元素列表。25
14. 根據(jù)權(quán)利要求12或13所述的方法,其中為確定所述最小平均混 淆數(shù),為每個(gè)矩陣計(jì)算分?jǐn)?shù),所述分?jǐn)?shù)表示與用戶(hù)語(yǔ)言的符合度。
15. 根據(jù)權(quán)利要求14所述的方法,其中通過(guò)確定每個(gè)矩陣的熵來(lái)確定 30所述分?jǐn)?shù),所述熵越低,與用戶(hù)語(yǔ)言的符合度越好。
16. 根據(jù)權(quán)利要求14或15所述的方法,其中通過(guò)確定共有信息來(lái)確定所述分?jǐn)?shù),共有信息越高,與用戶(hù)語(yǔ)言的符合度越好。
17. 根據(jù)權(quán)利要求14至16中任意一個(gè)所述的方法,其中通過(guò)使用不 同矩陣和使用測(cè)試數(shù)據(jù)實(shí)施識(shí)別試驗(yàn)來(lái)確定所述分?jǐn)?shù),具有最高識(shí)別5 率的矩陣用于產(chǎn)生候選列表。
18. 用于經(jīng)由語(yǔ)音輸入從元素列表選擇列表元素的語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)包括為所述語(yǔ)音輸入識(shí)別子詞單元串的子詞單元語(yǔ)音識(shí)別單元, 10 將識(shí)別的子詞單元串與所述元素列表進(jìn)行比較并且基于比較結(jié)果 產(chǎn)生最佳匹配元素的候選列表的子詞單元比較單元,存儲(chǔ)至少一個(gè)混淆矩陣的存儲(chǔ)器,每個(gè)混淆矩陣包含矩陣元素, 所述矩陣元素包括關(guān)于第一語(yǔ)言的子詞單元與另一語(yǔ)音的子詞單元混 淆的混淆概率的信息, 15 其中所述子詞單元比較單元基于所述至少一個(gè)混淆矩陣產(chǎn)生最佳 匹配元素的列表。
19. 根據(jù)權(quán)利要求18所述的語(yǔ)音識(shí)別系統(tǒng),其中所述混淆矩陣中的每個(gè)矩陣元素表示特定子詞單元對(duì)的混淆概率,所述子詞單元對(duì)包含20 第一語(yǔ)言的子詞單元和第二語(yǔ)言的子詞單元。
20. 根據(jù)權(quán)利要求18或19所述的語(yǔ)音識(shí)別系統(tǒng),其中所述混淆矩陣 包含表示第一語(yǔ)言的可能子詞單元與第二語(yǔ)言的子詞單元的混淆概率 的矩陣元素。25
21. 根據(jù)權(quán)利要求18至20中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中所 述子詞單元語(yǔ)音識(shí)別單元被訓(xùn)練成識(shí)別第一語(yǔ)言的子詞單元并且產(chǎn)生 用于不同于第一語(yǔ)言的語(yǔ)言的語(yǔ)音輸入的子詞單元串。
22.根據(jù)權(quán)利要求18至21中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中所 述存儲(chǔ)器包含不同的混淆矩陣,所述混淆矩陣提供用于不同語(yǔ)言的不 同子詞單元對(duì)的混淆概率。
23.根據(jù)權(quán)利要求22所述的語(yǔ)音識(shí)別系統(tǒng),其中所述系統(tǒng)進(jìn)一步包括確定子詞單元對(duì)的兩種語(yǔ)言的語(yǔ)言對(duì)確定單元。
24.根據(jù)權(quán)利要求18至23中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中提 供包含所述元素列表的數(shù)據(jù)庫(kù),所述元素列表對(duì)應(yīng)于用于引導(dǎo)用戶(hù)到 列表的目的地址之一的導(dǎo)航系統(tǒng)中使用的不同目的地點(diǎn)。
25. 根據(jù)權(quán)利要求23或24所述的語(yǔ)音識(shí)別系統(tǒng),其中所述語(yǔ)言對(duì)確 io定單元包括確定語(yǔ)音識(shí)別系統(tǒng)的用戶(hù)語(yǔ)言的用戶(hù)語(yǔ)言確定單元,所述用戶(hù)語(yǔ)言用于確定子詞單元對(duì)的語(yǔ)言之一。
26. 根據(jù)權(quán)利要求18至25中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中所 述語(yǔ)言對(duì)確定單元進(jìn)一步包括確定交通工具正在行駛的國(guó)家的官方語(yǔ)15言的國(guó)家確定單元,所述語(yǔ)言用于確定語(yǔ)言對(duì)的另一語(yǔ)言。
27. 根據(jù)權(quán)利要求26所述的語(yǔ)音識(shí)別系統(tǒng),其中所述國(guó)家確定單元包 括確定實(shí)際交通工具位置和推斷出交通工具正在行駛的國(guó)家的官方語(yǔ) 言的交通工具位置確定單元。20
28. 根據(jù)權(quán)利要求18至27中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中提 供從多個(gè)混淆矩陣選擇混淆矩陣的混淆矩陣選擇單元,所述混淆矩陣 選擇單元根據(jù)從語(yǔ)言對(duì)確定單元接收的信息選擇混淆矩陣。
29.根據(jù)權(quán)利要求18至28中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),進(jìn)一步 包括確定交通工具正在行駛的國(guó)家的官方語(yǔ)言的官方語(yǔ)言確定單元, 從混淆矩陣組中選擇混淆矩陣的混淆矩陣選擇單元,所述組包含 混淆矩陣,在混淆矩陣中,語(yǔ)言對(duì)中的一種語(yǔ)言是用戶(hù)語(yǔ)言并且語(yǔ)言30 對(duì)中的另一語(yǔ)言是交通工具正在行駛的國(guó)家的官方語(yǔ)言之一。
30.根據(jù)權(quán)利要求18至29中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中提5供確定每個(gè)混淆矩陣的混淆平均數(shù)的混淆確定單元。
31. 根據(jù)權(quán)利要求29或30所述的語(yǔ)音識(shí)別系統(tǒng),其中如果提供具有語(yǔ)言對(duì)的多個(gè)混淆矩陣,在其中語(yǔ)言對(duì)中的一種語(yǔ)言是用戶(hù)語(yǔ)言并且另一語(yǔ)言是使用所述語(yǔ)音識(shí)別系統(tǒng)的國(guó)家的官方語(yǔ)言,則所述混淆矩陣選擇單元選擇具有最小混淆數(shù)的矩陣。
32. 根據(jù)權(quán)利要求29至31中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中所 述混淆矩陣選擇單元依照提供具有最小混淆數(shù)的矩陣的信息的混淆確定單元的信息來(lái)選擇所述混淆矩陣。
33. 根據(jù)權(quán)利要求18至32中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中提 供為每個(gè)混淆矩陣確定分?jǐn)?shù)的分?jǐn)?shù)確定單元,所述分?jǐn)?shù)表示與用戶(hù)語(yǔ) 言的符合度。
34. 根據(jù)權(quán)利要求29至33中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中所 述混淆矩陣選擇單元根據(jù)不同矩陣的分?jǐn)?shù)從所述多個(gè)混淆矩陣中選擇 混淆矩陣。
35.根據(jù)權(quán)利要求18至34中任意一個(gè)所述的語(yǔ)音識(shí)別系統(tǒng),其中所 述語(yǔ)音識(shí)別系統(tǒng)根據(jù)權(quán)利要求1至17中任意一個(gè)所述的方法工作。
36.從元素列表產(chǎn)生最佳匹配元素的候選列表的方法,包括根據(jù)語(yǔ)音輸入產(chǎn)生子詞單元串; 25 使用將一種語(yǔ)言的子詞單元與另一語(yǔ)言的子詞單元相關(guān)聯(lián)的混淆 矩陣轉(zhuǎn)換所述子詞單元串;將轉(zhuǎn)換的串與所述元素列表進(jìn)行比較;以及基于比較結(jié)果創(chuàng)建最佳匹配元素的候選列表。
37.用于經(jīng)由語(yǔ)音輸入從元素列表選擇列表元素的語(yǔ)音識(shí)別系統(tǒng),所 述系統(tǒng)包括用于從所述語(yǔ)音輸入產(chǎn)生子詞單元串的裝置;用于存儲(chǔ)包括與不同語(yǔ)言的子詞單元相關(guān)的概率的至少一個(gè)混淆 矩陣的裝置;用于將所述子詞單元串與所述元素列表進(jìn)行比較的裝置,所述比 較利用所述至少一個(gè)混淆矩陣;以及 5 用于基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表的裝置。
38. 根據(jù)權(quán)利要求37所述的系統(tǒng),其中所述子詞單元串的語(yǔ)言不同于 元素列表的元素的語(yǔ)言,并且其中所述混淆矩陣包括用于所述兩種語(yǔ) 言的子詞單元的混淆概率。10
39. 根據(jù)權(quán)利要求38所述的系統(tǒng),進(jìn)一步包括 用于從候選列表選擇元素的識(shí)別裝置;以及 用于向識(shí)別裝置登記所述候選列表的裝置。
40. —種處理器可讀介質(zhì),具有用于經(jīng)由語(yǔ)音輸入從元素列表選擇列 表元素的處理器可執(zhí)行指令,當(dāng)所述指令在設(shè)備的處理器上執(zhí)行時(shí), 進(jìn)行以下步驟,包括為所述語(yǔ)音輸入識(shí)別子詞單元串,將識(shí)別的子詞單元串與所述元素列表進(jìn)行比較,并且基于比較結(jié) 20 果產(chǎn)生最佳匹配元素的候選列表,其中為了產(chǎn)生最佳匹配元素的候選 列表,使用包含矩陣元素的混淆矩陣,所述矩陣元素包括關(guān)于不同語(yǔ) 言的子詞單元的混淆概率的信息。
全文摘要
本發(fā)明涉及多語(yǔ)言非母語(yǔ)語(yǔ)音識(shí)別,具體涉及一種用于經(jīng)由語(yǔ)音輸入從元素列表選擇列表元素的方法,該方法包括以下步驟為所述語(yǔ)音輸入識(shí)別子詞單元串,將識(shí)別的子詞單元串與元素列表進(jìn)行比較,且基于比較結(jié)果產(chǎn)生最佳匹配元素的候選列表,其中為產(chǎn)生最佳匹配元素的候選列表,使用包含矩陣元素的混淆矩陣,所述矩陣元素包括關(guān)于不同語(yǔ)言的子詞單元(包括不同自然語(yǔ)言的子詞單元)的混淆概率的信息。
文檔編號(hào)G10L15/00GK101276585SQ200810086920
公開(kāi)日2008年10月1日 申請(qǐng)日期2008年3月28日 優(yōu)先權(quán)日2007年3月28日
發(fā)明者D·威利特, G·維爾申, M·亨內(nèi)克, M·施瓦茨 申請(qǐng)人:哈曼貝克自動(dòng)系統(tǒng)股份有限公司