用于激活和/或進行語音對話的裝置、系統(tǒng)和方法

文檔序號：2823909閱讀：246來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于激活和/或進行語音對話的裝置、系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及用于激活語音對話和/或進行語音對話的一種裝置、一種系統(tǒng)和一種方法。
背景技術(shù)：
語音對話系統(tǒng)用于電子儀器、例如車輛電腦，而不需要對觸覺的操作運行進行控制。根據(jù)現(xiàn)有技術(shù)已知，用于進行語音對話或用于激活語音對話的裝置根據(jù)指令搜索通過噪聲抑制或回波補償而變得清晰的語音信號。在用于激活語音對話的裝置中，根據(jù)確定的關(guān)鍵詞進行搜索，該關(guān)鍵詞用于激活語音對話。在用于進行語音對話的裝置中，檢查該語音信號是否包含作為指令而存儲在集成于語音對話系統(tǒng)中的指令數(shù)據(jù)庫中的單詞。如果識別出指令，那么執(zhí)行屬于該命令的行為。尤其在干擾噪聲作用于系統(tǒng)的應(yīng)用條件下，這樣的用于進行語音對話或用于激活語音對話的裝置是不可靠的。這尤其在應(yīng)用于轎車中時是不利的，因為在干擾影響下、例如乘客的談話，根據(jù)現(xiàn)有技術(shù)的裝置常常由于錯誤識別的命令而執(zhí)行不期望的功能。

發(fā)明內(nèi)容
因此本發(fā)明的目的在于，特別抗干擾地進行語音對話和/或激活語音對話。該目的通過一種根據(jù)權(quán)利要求1所述的裝置和一種根據(jù)權(quán)利要求19所述的方法實現(xiàn)。在從屬權(quán)利要求中給出有利的改進方案。指令分析的可靠性通過如下方式顯著提高，即該裝置不僅包括用于確定語音信號中是否包含指令的語音識別單元和用于取決于在語音信號中識別的指令而產(chǎn)生輸出信號的決策單元，還包括用于根據(jù)語音信號和至少一個存儲的講話者模型而識別講話者的講話者識別單元，其中這樣設(shè)計決策單元，即取決于指令的結(jié)果行為的執(zhí)行取決于，至少部分產(chǎn) 生語音信號的講話者是否被講話者識別單元識別為相應(yīng)于存儲的講話者模型的講話者。語音識別單元可理解為一個設(shè)計用于鑒定來自語音信號的指令和/或指令結(jié)構(gòu) 的單元。也就是說，根據(jù)語音模型和根據(jù)存儲的指令，分析語言信號中是否包含/包含哪些指令或指令結(jié)構(gòu)。如果包含指令，那么它被識別為相應(yīng)的有效指令。在這種情況下，指令不一定只是單個的詞。在此更確切地說意味著語音輸入的每種形式。例如，概念“指令”也意味著數(shù)列/號碼序列、句子成分和/或完整的句子。講話者識別單元可理解為可以特別設(shè)計用于從語音信號中提取講話者特征并用于把該講話者特征與之前存儲在至少一個講話者模型中的、取決于講話者的特征相比較的單元，其中根據(jù)比較確定當前的講話者和對應(yīng)于講話者模型的講話者一致或不一致。有利地這樣設(shè)計講話者識別單元，即當語音信號完全來自對應(yīng)于講話者模型的講話者時，也就是說多人同時講話而信號有利地不對應(yīng)于任何講話者時，才確定一致。待執(zhí)行的結(jié)果行為可以是不同類型的結(jié)果行為。在用于激活語音對話的裝置中，結(jié)果行為例如可以是雙重事件的輸出，這作為信息僅包括是否應(yīng)該進行語言對話的激活的決定?？商鎿Q地，該事件可以包括關(guān)于引起激活的講話者的信息，從而產(chǎn)生取決于講話者的激活信號。在用于進行語音對話的裝置中，作為結(jié)果行為的語音輸出尤其重要?？梢岳盟?將信息、例如其它選項通知給講話者。例如如果講話者要調(diào)用關(guān)于位于附近的餐館的信息并使用了與之相應(yīng)的指令，那么語音對話系統(tǒng)可以要求講話者從多個可能的餐館類型中作出選擇。其它的可能的結(jié)果行為是控制車輛功能的控制事件。例如可以向用于座位加熱的控制系統(tǒng)發(fā)送用于提高加熱溫度的事件。此外，可以輸出用于調(diào)用位于車輛中的其它系統(tǒng) 的信息的控制信號。此外結(jié)果行為還可能由控制事件和語音輸出組成。本領(lǐng)域技術(shù)人員由根據(jù)現(xiàn)有技術(shù)的用于進行語音對話的裝置還已知了其它的可能的輸出信號。此外，本發(fā)明還涉及一種方法其中首先接收語音信號；其中隨后識別存在于語音信號中的指令或指令結(jié)構(gòu)；并且其中根據(jù)語音信號和至少一個講話者模型識別講話者；其中在識別指令和講話者之后，取決于講話者和指令的識別的結(jié)果執(zhí)行結(jié)果行為。這樣有利地設(shè)計決策單元，即當由講話者識別單元將包含指令的語音信號鑒定為來自授權(quán)的講話者時，那么僅僅執(zhí)行取決于指令的結(jié)果行為。也就是說將講話者識別單元和語音識別單元的結(jié)果與存儲在使用者模型中的數(shù)據(jù)比較，并檢查講話者是否被授權(quán)。根據(jù)實施例，可以反饋缺乏授權(quán)的情況。這種反饋的優(yōu)點在于，講話者可以在未識別或識別之間區(qū)分作為未充分授權(quán)的講話者。重要的是，通過由無資格的講話者輸入的指令不會觸發(fā)對應(yīng)于指令的待執(zhí)行的結(jié) 果行為，也就是說，來自無資格的講話者的指令不會導(dǎo)致結(jié)果行為或?qū)е屡c授權(quán)的講話者不同的結(jié)果行為。在一個有利的實施例中，可以不取決于講話者執(zhí)行特定的指令。由此例如可以控制不對駕駛員造成妨礙的車輛功能。在這里對于用于進行語音對話的裝置來說，對副駕駛座和/或后排座的加熱可以作為一個實例，該加熱也可以由其他的作為授權(quán)的講話者的人員進行調(diào)節(jié)。然而有利地，在輸入這些指令時不進行語音對話，也就是說，語音對話系統(tǒng)對未識別的講話者的指令反應(yīng)為沒有語音輸出的純語音控制，以用于控制毫無疑問的車輛功能。在用于激活語音對話的裝置中也可以建立不取決于講話者的指令。因此例如可以這樣實現(xiàn)激活，即可接收通過指令分析單元產(chǎn)生的激活信號，可以期望的是具有縮小的功能范圍的乘客訪問(Passagierzugriff)。例如在這種乘客訪問中，進行作為純語音控制的激活，其絲毫沒有輸出聲學(xué)的反饋且僅設(shè)計用于執(zhí)行毫無疑問的車輛功能的控制指令。在另一有利的實施例中，裝置設(shè)計為用于激活-和進行語音對話的組合裝置。也就是說，在未激活狀態(tài)中，該裝置用于激活語音對話。如果該裝置通過關(guān)鍵詞由授權(quán)的講話者激活，那么其作為用于進行語音對話的裝置工作。對這樣作為組合系統(tǒng)的設(shè)計來說尤其可能的是，定義多個不同的關(guān)鍵詞。該裝置可以通過第一關(guān)鍵詞由授權(quán)的講話者這樣激活，即該裝置僅執(zhí)行授權(quán)的講話者的隨后的其它指令。此外，可以構(gòu)造第二關(guān)鍵詞，這使該裝置進入一種狀態(tài)，在該狀態(tài)中裝置執(zhí)行任意講話者的指令。然而有利地，授權(quán)的講話者的指令具有更高的優(yōu)先權(quán)，也就是說，授權(quán)的講話者的指令不會被其他人的隨后的指令打斷，然而甚至可以中斷執(zhí)行其他人的指令。在一個有利的實施例中，語音識別單元具有單詞識別單元和后續(xù)的結(jié)構(gòu)識別單元。單詞識別單元設(shè)計用于這樣識別來自語音信號的單詞，即從語音信號中提取語音特征并與儲存的語音特征比較。因此結(jié)構(gòu)識別單元通過單詞識別單元識別這樣檢查單詞序列，即該單詞序列是否包括包含指令的結(jié)構(gòu)。該裝置有利地具有前置于講話者識別單元和/或指令識別單元的回波補償單元。該回波補償單元具有至少一個用于單聲道_、立體聲-和/或多聲道-揚聲器信號的輸入端。由此可以補償揚聲器信號對語音信號的影響，其方法是計算或估算通過揚聲器信號產(chǎn) 生的分信號并將其從語音信號中減去。此外，回波補償單元可以包括用于補償由其他人產(chǎn)生的語音分量的子單元。該子單元有利地具有至少一個附加的麥克風(fēng)輸入端。該子單元可以設(shè)計用于補償通過與附加的麥克風(fēng)輸入端相連的其它麥克風(fēng)接收的、其他人的語音分量的影響。也就是說，該子單元設(shè) 計用于根據(jù)其它麥克風(fēng)的輸出信號，估算或計算其他講話者的語音分量對語音信號的影響并通過從語音信號中減去來補償該影響?？商鎿Q地，或除了使用其它麥克風(fēng)以補償其他講話者的語音分量之外，為了該目的該子單元還可以設(shè)計用于過濾與聲音基礎(chǔ)頻率同步的語音信號?？商鎿Q地或附加地在下面的情況下，即用于語音信號的輸入端設(shè)計用于多聲道-語音信號，或存在多個麥克風(fēng)輸入端，該子單元則可以設(shè)計用于根據(jù)之前確定的、估算的或給定的、講話者的地點來實現(xiàn)不同的語音聲道的在時間上的聯(lián)系作用。也就是說，如果使用了多個麥克風(fēng)，那么從語音信號中減去所有不是來自預(yù)期地點的講話者的語音信號分量?；夭ㄑa償單元設(shè)計用于將相應(yīng)的變得清晰的語音信號傳送至講話者識別單元和/ 或語音識別單元。此外，該裝置有利地包括尤其可以布置在回波補償單元之后的噪聲抑制單元。噪聲抑制單元設(shè)計用于抑制不變的和也有利的是似穩(wěn)的(也就是說在時間上緩慢變化的)噪聲分量。有利地，噪聲抑制單元尤其這樣設(shè)計用于通過頻率特性適應(yīng)來參數(shù)化地匹配語音信號的噪聲行為特性，即語音信號的噪聲屬性匹配于集成在語音識別單元中的語音模型的噪聲屬性。通過噪聲屬性的這樣的匹配確保了不會通過噪聲抑制而造成經(jīng)過噪聲抑制處理的語音信號與語音識別單元的語音模型的不兼容性。有利地，講話者識別單元和/或語音識別單元設(shè)計用于使被識別的講話者向決策單元的輸出與通過語音識別單元的被識別的指令的輸出同步。通過該同步確保了，結(jié)果行為的激活可靠地取決于，講話者和指令是否在語音信號的相同部段中被識別。有利地，在講話者識別單元中集成了另外的單元，該單元設(shè)計用于講話者適應(yīng) (Sprecheradaption)，也就是說用于不斷確定細化的取決于講話者的特征以及用于把該細化的取決于講話者的特征存儲在對應(yīng)于當前的講話者的講話者模型中。有利地，通過該另外的單元可以把取決于時間的變化作為屬性存儲在講話者模型中。尤其有利地，語音識別單元也包括用于講話者適應(yīng)的附加單元。由此可以通過語音識別單元與當前的講話者的匹配而顯著地提高指令識別的可靠性。有利地，并聯(lián)于講話者識別單元和語音識別單元布置了用于根據(jù)語音信號檢測駕駛員的狀態(tài)的駕駛員狀態(tài)檢測單元，該駕駛員狀態(tài)檢測單元設(shè)計用于根據(jù)語音信號來檢測駕駛員的狀態(tài)并發(fā)送至決策單元，其中駕駛員狀態(tài)的檢測有利地展示了至少關(guān)于行駛能力 (例如疲勞、吸毒和/或超載)或情緒狀況(例如激動、憤怒、精力集中、放松和/或平靜) 的信息。有利地，該裝置具有至少一個用于存儲使用者模型和/或至少一個講話者模型的存儲裝置。該存儲裝置可設(shè)計為中央存儲單元，其中講話者識別單元、語音識別單元和決策單元與該中央存儲單元連接。可替換地，該裝置具有多個存儲裝置，其中至少一個存儲裝置分別集成在講話者識別單元、語音識別單元和/或決策單元中。有利地，至少一個存儲裝置具有至少一個用于輸入或輸出數(shù)據(jù)的端口，從而能夠傳輸講話者和/或使用者模型。例如由于購買新車而更換車輛時，這是尤其有利的，這是因為因此可以避免完全重新設(shè)定講話者模型和使用者模型。在一個特別有利的實施例中，該裝置這樣設(shè)計，S卩如果通過決策單元來執(zhí)行結(jié)果行為，則也考慮輸入的語音信號，以及通過包含在語音信號中的指令至少部分地中斷由在前的指令觸發(fā)的結(jié)果行為的執(zhí)行。部分的中斷可以在于，即在繼續(xù)執(zhí)行通過在前的指令觸發(fā)的控制事件期間中斷語音輸出。因此，講話者不必完全等待語音輸出。由此可以明顯加速語音對話，尤其是當已經(jīng)熟悉該裝置的講話者已經(jīng)知道了通過語音輸出通知的選項時。此外有利的是，當使用者期望的選項已被讀出后，可以中斷列舉可能的選項。此外有利的是，用于激活語音對話和/或進行語音對話的系統(tǒng)具有至少一個揚聲器、至少一個麥克風(fēng)以及根據(jù)本發(fā)明的用于激活語音對話或進行語音對話的裝置。有利地，至少一個麥克風(fēng)具有自動的放大適配性(Verstaerkungsanpassung)。該系統(tǒng)可以用于通過至少一個揚聲器輸出單聲道_、立體聲-或多聲道-音頻信號，以及用于通過至少一個麥克風(fēng)采集單聲道_、立體聲-或多聲道-語音信號。此外取代或除了單個麥克風(fēng)之外，還可以包括麥克風(fēng)陣列。如果存在多個麥克風(fēng)，那么這些麥克風(fēng)有利地這樣布置或可這樣布置，即麥克風(fēng) 的最大靈敏性的區(qū)域相應(yīng)于其方向特性在授權(quán)的講話者的推測的或確定的停留區(qū)域中進行覆蓋，以及用于處理麥克風(fēng)信號的后續(xù)單元通過對信號的時間延遲的合計以及其它信號處理方法分離出授權(quán)的講話者的信號，每個授權(quán)的講話者的信號在其聲道中提高，并且所有其它講話者的信號和干擾信號減小(所謂的“beam forming (波束成形)”)。有利地，該系統(tǒng)包括用于使麥克風(fēng)自動對準授權(quán)的講話者的跟蹤裝置。該跟蹤裝置可以設(shè)計用于分析通過麥克風(fēng)接收的信號的渡越時間延遲從而獲得授權(quán)的講話者的位置，并且然后使麥克風(fēng)對準該位置。

下面根據(jù)圖1至4說明本發(fā)明的實施例。附圖示出圖1示出根據(jù)本發(fā)明的用于激活語音對話的系統(tǒng)的第一實施例；圖2示出根據(jù)本發(fā)明的用于進行語音對話的系統(tǒng)的第一實施例；圖3示出根據(jù)本發(fā)明的用于激活語音對話的系統(tǒng)的第二實施例；圖4示出根據(jù)本發(fā)明的用于進行語音對話的系統(tǒng)的第二實施例。
具體實施例方式圖1示出用于激活語音對話的系統(tǒng)1。該系統(tǒng)分析通過麥克風(fēng)2接收的語音信號 8。該語音信號包括通過使用者進行的聲學(xué)的語音輸入3以及多個干擾信號，即車輛內(nèi)部空間4中的其他人的語音分量、車輛周圍環(huán)境5的噪聲、通過揚聲器6的來自無線電收發(fā)設(shè) 備觀的音樂和/或來自語音對話輸出27的語音輸出信號、以及語音輸入和干擾信號的聲波反射7。語音信號8被輸入到回波補償單元9中?；夭ㄑa償單元9具有用于揚聲器信號 10的附加的輸入端?；夭ㄑa償單元利用揚聲器信號10計算干擾信號6對語音信號8的影響。此外，回波補償單元計算聲波反射7的通過干擾信號引起的分量以及其對語音信號8 的影響。由回波補償單元補償了因此是已知的影響，并且從回波補償單元9發(fā)出經(jīng)回波補償?shù)恼Z音信號11。經(jīng)回波補償?shù)恼Z音信號11在輸入端方面輸入噪聲抑制單元12中并經(jīng)歷噪聲補償。由此減去信號11的靜態(tài)背景。此外，補償似穩(wěn)的、也就是說緩慢變化的噪聲分量。此外，通過頻率特性適應(yīng)來參數(shù)化地匹配信號11的噪聲行為特性。由此，使信號11的噪聲屬性匹配關(guān)鍵詞識別單元的語音模型的噪聲屬性。這樣地經(jīng)噪聲補償?shù)男盘?5經(jīng)過第一輸出端13和第二輸出端16輸出。第一輸出端13與講話者識別單元14連接。講話者識別單元14設(shè)計用于從信號 15中提取講話者特征。該講話者識別單元把提取的講話者特征依次與在存儲裝置17里的講話者模型中存儲的特征這樣比較，即分別依次調(diào)出講話者模型并把存儲在其中的特征與提取的特征比較。對此重復(fù)操作，直到把提取的特征與所有存儲的講話者模型比較。這樣確定，提取的特征是否與講話者模型之一的特征一致。如果確定了這種一致，那么講話者識別單元通過輸出端23把關(guān)于識別的講話者的信息傳輸至語音對話激活單元四。此外，另一個用于講話者適應(yīng)的單元20集成在講話者識別單元14中，該另外的單元設(shè)計用于持續(xù)細化取決于講話者的特征。該另外的單元將細化的、取決于講話者的特征存儲在屬于講話者的、存儲在存儲裝置17上的講話者模型中。該另外的單元20設(shè)計用于，確定講話者內(nèi)容特征的取決于時間的變化并將之作為屬性存儲在存儲裝置17上的講話者模型中。關(guān)鍵詞識別單元M與講話者識別單元14并聯(lián)地布置。該關(guān)鍵詞識別單元設(shè)計用于識別，語音信號中是否包含或包含哪些有效的指令或有效的語音指令形式。通過輸出端 25輸出相應(yīng)確定的指令。此外，關(guān)鍵詞識別單元包含用于講話者適應(yīng)的附加單元18。附加單元設(shè)計用于對當前的授權(quán)的講話者的關(guān)鍵詞識別進行優(yōu)化。為此，附加單元從語音信號中提取語音特征，并將其與存儲在講話者模型中的單個的語音特征相比較。取決于比較結(jié)果對單個的語音特征進行細化和/或補充。由此可以將語音特征的在時間上的變化作為屬性進行檢測，并存儲在講話者模型中。在識別關(guān)鍵詞時會考慮這樣確定/補充的單個的語音特征。因為這樣用于關(guān)鍵詞識別的語音模型可以匹配當前的講話者，所以可以顯著提高關(guān)鍵詞識別的可靠性。在講話者識別單元14和關(guān)鍵詞識別單元M之后布置了語音對話激活單元四。當由關(guān)鍵詞識別單元M識別了相應(yīng)的指令并且同時由講話者識別單元識別了有權(quán)激活的講話者時，語音對話激活單元設(shè)計用于輸出一個或多個事件26。語音對話輸出27可激活事件中任一個，并且未示出的語音對話系統(tǒng)可激活另一事件。圖2示出用于進行語音對話的系統(tǒng)30的實施例。該系統(tǒng)取代關(guān)鍵詞識別單元M 而具有更復(fù)雜的語音識別單元31，以及取代語音對話激活單元四而具有語音對話單元32。語音識別單元31與第一實施例中的關(guān)鍵詞識別單元24的區(qū)別主要在于，不僅將一些關(guān)鍵詞、而且也將多個不同的指令識別為有效，以及不僅識別單詞自身、而且也識別了由單詞組成的結(jié)構(gòu)。為此，語音識別單元31劃分為用于識別單詞的單詞識別單元19以及用于識別通過單詞組成的結(jié)構(gòu)的結(jié)構(gòu)識別單元21。在用于語音對話激活的系統(tǒng)中這種劃分也是有利的。用于講話者適應(yīng)的附加單元18集成在單詞識別單元19中，并在那里起到與在第一實施例中相同的作用。語音對話單元32也具有相應(yīng)更大的功能范圍。語音對話單元設(shè)計用于進行與授權(quán)的講話者進行語音對話，其中語音對話流程適應(yīng)性地由授權(quán)的講話者控制。例如，使用者可以通過選擇菜單的不同選項來控制這種語音對話流程。例如在使用者選擇選項之后，他可以到達具有其它選項的其它菜單。除了進行語音對話之外，語音對話單元32還設(shè)計用于，根據(jù)授權(quán)的講話者的指令來輸出用于車輛功能的不同的控制信號。除了與第一實施例的上述區(qū)別之外，在圖2中示出的實施例的不同之處還在于，代替一個揚聲器6布置了多個揚聲器6。然而，如在第一實施例中那樣，這些揚聲器也僅設(shè) 計用于輸出單聲道信號。與前述實施例的區(qū)別還在于，噪聲抑制單元具有第三輸出端22。該輸出端連接至駕駛員狀態(tài)識別單元39。該駕駛員狀態(tài)識別單元用于識別駕駛員的狀態(tài)，如嘶啞、疲勞、醉酒、吸毒或憤怒。將識別出的駕駛員狀態(tài)傳輸?shù)秸Z音對話單元。語音對話單元設(shè)計用于在關(guān)于結(jié)果行為的決策方面對駕駛員狀態(tài)加以考慮。與圖1的實施例的區(qū)別還在于，該系統(tǒng)設(shè)計用于干涉，也就是說如果當還在基于前述指令進行語音輸出的同時識別出指令，則中止該語音輸出。圖3示出了語音對話激活系統(tǒng)的第二實施例。該實施例與圖1所示的實例的區(qū)別在于，代替揚聲器6而設(shè)有揚聲器組合33。揚聲器組合設(shè)計用于輸出單聲道_、立體聲-和多聲道信號34。相應(yīng)地，回波補償單元設(shè)計用于補償多聲道信號34。此外，正如在圖2中所示的實施例那樣，語音對話激活系統(tǒng)包括駕駛員狀態(tài)識別單元39。圖4示出用于進行語音對話的系統(tǒng)的第二實施例。在該實施例中代替單個麥克風(fēng) 2安裝了麥克風(fēng)陣列35以及一些另外的麥克風(fēng)36。麥克風(fēng)陣列以及另外的麥克風(fēng)這樣設(shè) 計，即它們具有方向特性，也就是說它們優(yōu)選地接收來自特定的空間區(qū)域的聲波。通過麥克風(fēng)陣列35接收了多聲道語音信號37，該多聲道語音信號取代語音信號8被傳輸至回波補償單元。此外，在此也使用揚聲器組合用于輸出單聲道_、立體聲-和多聲道信號。麥克風(fēng)陣列35可以包括未示出的麥克風(fēng)跟蹤裝置，該麥克風(fēng)跟蹤裝置使陣列的麥克風(fēng)自動跟蹤授權(quán)的講話者。為此，麥克風(fēng)跟蹤裝置分析語音信號相對于陣列的不同麥克風(fēng)的渡越時間差并因此確定授權(quán)的講話者的地點。
通過麥克風(fēng)陣列接收的語音信號在輸入到回波補償單元中之前，在連接在麥克風(fēng) 陣列之后的、用于處理麥克風(fēng)信號的單元中通過信號的時間延遲的相加得出總和來進一步處理。由此將授權(quán)的講話者的信號分離并減小所有其它的講話者信號和干擾信號。另外的麥克風(fēng)36中的任一個對齊每個其它的車輛位置?；夭ㄑa償單元包括子單元38，該子單元設(shè)計用于根據(jù)另外的麥克風(fēng)36的信號補償在車輛內(nèi)部空間中的其他人對信號37的影響。也就是說，該子單元根據(jù)另外的麥克風(fēng)36的信號計算其他人對信號37的可能的影響，并相應(yīng)地減去該信號分量。此外，回波補償單元分析多聲道語音信號37的不同聲道的渡越時間差，并且去除信號37的所有分量，這些分量相應(yīng)于其渡越時間差并不從授權(quán)的講話者的地點出發(fā)。附加地，在圖4中所示的實施例的不同之處在于，存儲裝置17與用于連接USB端口、讀卡器或光驅(qū)的輸出端40連接。由此，能夠?qū)崿F(xiàn)使用者模型的輸入和/或輸出。當然，揚聲器和麥克風(fēng)的選擇不取決于是否存在用于進行語音對話或激活語音對話的系統(tǒng)，也就是說，根據(jù)圖2或4的具有揚聲器/麥克風(fēng)布置的、用于激活語音對話的系統(tǒng)，或根據(jù)圖1或3的具有揚聲器/麥克風(fēng)布置的、用于進行語音對話的系統(tǒng)也都是有利的。
權(quán)利要求
1.一種用于激活語音對話和/或進行語音對話的裝置(1 ；30),尤其應(yīng)用在車輛內(nèi)部空間中，所述裝置具有-至少一個用于語音信號(8 ；37)的輸入端；-語音識別單元04 ；31)，用于確定在輸入的所述語音信號中是否包含以及包含哪些指令；以及-在輸入端方面與所述語音識別單元的輸出端連接的決策單元09 ；32)，所述決策單元適于取決于在所述語音信號(8;37)中識別出的指令執(zhí)行結(jié)果行為06)，其特征在于，-所述裝置附加地包括講話者識別單元(14)；-所述講話者識別單元適于根據(jù)所述語音信號和至少一個存儲的講話者模型確定當前的講話者；-其中所述決策單元附加地在輸入端方面與所述講話者識別單元連接并這樣設(shè)計，即取決于所述指令的所述結(jié)果行為06)的激活至少在一些指令中取決于，是否將所述指令鑒定為來自對應(yīng)于所述講話者模型的講話者。
2.根據(jù)權(quán)利要求1所述的裝置，其特征在于，所述決策單元09；32)設(shè)計用于把所述講話者識別單元(14)和所述語音識別單元04 ；31)的結(jié)果與之前存儲在使用者模型中的、針對講話者的信息相比較和相聯(lián)系，其中如果所述當前的講話者未被授權(quán)執(zhí)行所述結(jié)果行為，則抑制至少一個取決于指令的結(jié)果行為的執(zhí)行。
3.根據(jù)權(quán)利要求1或2所述的裝置，其特征在于，所述決策單元09;32)這樣設(shè)計，即不取決于對應(yīng)于所述講話者模型的所述講話者的所述識別來執(zhí)行一些指令。
4.根據(jù)權(quán)利要求1至3中任一項所述的裝置，其特征在于，所述裝置設(shè)計為用于進行語音對話和激活語音對話的組合裝置。
5.根據(jù)權(quán)利要求1至4中任一項所述的裝置，其特征在于，語音分析單元04；31)包括用于識別單詞的單詞識別單元(19)以及后續(xù)的、用于識別構(gòu)成指令的結(jié)構(gòu)的結(jié)構(gòu)分析單元01)。
6.根據(jù)權(quán)利要求1至5中任一項所述的裝置，其特征在于，回波補償單元(9)緊鄰或非緊鄰地前置于所述講話者識別單元(14)和/或所述語音識別單元04 ；31)，其中所述回波補償單元(9)具有一個或多個用于揚聲器信號(10 ；34)的、尤其是用于處理單聲道_、立體聲-和/或多聲道-揚聲器信號(10 ；34)的輸入端，以及設(shè)計用于補償所述揚聲器信號 (10 ；34)對所述語音信號(8 ；37)的影響。
7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述回波補償單元(9)具有用于補償其他人的語音分量的子單元(38)，所述子單元有利地與至少一個用于連接附加的麥克風(fēng)(36) 的輸入端連接。
8.根據(jù)前述權(quán)利要求中任一項所述的裝置，其特征在于，噪聲抑制單元(1 緊鄰或非緊鄰地前置于所述講話者識別單元(14)和/或所述語音識別單元04 ；31)。
9.根據(jù)權(quán)利要求1至8中任一項所述的裝置，其特征在于，所述講話者識別單元(14) 和/或所述語音識別單元04 ；31)設(shè)計用于使通過所述講話者識別單元(14)識別的所述講話者向所述決策單元位9 ；32)的輸出與由所述語音識別單元04 ；31)識別的指令的輸出同步。
10.根據(jù)權(quán)利要求1至9中任一項所述的裝置，其特征在于，所述講話者識別單元(14) 設(shè)計用于通過從所述語音信號中提取講話者特征并把所述講話者特征與存儲的取決于講話者的特征相比較來鑒定所述當前的講話者，以及所述講話者識別單元有利地包括另外的單元(20)，所述另外的單元設(shè)計用于講話者適應(yīng)，也就是說用于不斷確定的細化的取決于講話者的特征以及用于把所述細化的取決于講話者的特征存儲在存儲的所述講話者模型中。
11.根據(jù)權(quán)利要求1至10中任一項所述的裝置，其特征在于，并聯(lián)于所述講話者識別單元(14)和所述語音識別單元04 ；31)布置了用于根據(jù)所述語音信號(8 ；37)檢測駕駛員的狀態(tài)的駕駛員狀態(tài)檢測單元(39)。
12.根據(jù)權(quán)利要求1至11中任一項所述的裝置，其特征在于，所述語音識別單元包括附加單元(18)，所述附加單元設(shè)計用于檢測所述講話者的所述講話者特征的取決于時間的變化作為屬性并將所述變化存儲在對應(yīng)于所述講話者存儲的所述講話者模型中。
13.根據(jù)權(quán)利要求1至12中任一項所述的裝置，其特征在于，所述裝置具有至少一個存儲裝置(17)，所述存儲裝置尤其可以設(shè)計用于存儲所述使用者模型和/或所述講話者模型。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述至少一個存儲裝置(17)具有用于輸出和/或輸入存儲的所述講話者模型和/或所述使用者模型的輸入端和/或輸出端。
15.根據(jù)前述權(quán)利要求中任一項所述的裝置，其特征在于，所述裝置這樣設(shè)計，即在所述結(jié)果行為06)的所述執(zhí)行期間也激活所述裝置以用于分析所述語音信號(8;37)，所述裝置尤其這樣設(shè)計，即在識別來自授權(quán)的所述講話者的指令時，至少部分地中斷由在前的指令觸發(fā)的所述結(jié)果行為的所述執(zhí)行。
16.一種用于激活語音對話和/或進行語音對話的系統(tǒng)，所述系統(tǒng)具有根據(jù)權(quán)利要求 1至15中任一項所述的裝置；至少一個麥克風(fēng)O ；35)和至少一個揚聲器(6 ；33)。
17.根據(jù)權(quán)利要求16所述的系統(tǒng)，其特征在于，所述系統(tǒng)包括這樣布置的多個麥克風(fēng) (2)或至少一個麥克風(fēng)陣列(25)，即通過所述麥克風(fēng)的方向特性給定的最佳接收的區(qū)域覆蓋了在授權(quán)的講話者的推測的停留區(qū)域中的至少一些所述麥克風(fēng)O ；35)。
18.根據(jù)權(quán)利要求17所述的系統(tǒng)，其特征在于，所述麥克風(fēng)設(shè)計為自動地對準通過所述麥克風(fēng)檢測的、所述講話者的位置。
19.一種用于激活語音對話和/或進行語音對話的方法，包括以下步驟-接收語音信號(8 ；37)；-從所述語音信號(8 ；37)中識別指令或指令結(jié)構(gòu)；-根據(jù)所述語音信號(8 ；37)和至少一個存儲的講話者模型識別講話者；-隨后取決于識別的所述指令和識別的所述講話者執(zhí)行結(jié)果行為06)。
20.根據(jù)權(quán)利要求19所述的方法，其特征在于，識別所述指令或所述指令結(jié)構(gòu)的步驟包括子步驟-識別包含在所述語音信號中的單詞，-識別由所述單詞構(gòu)成的所述指令結(jié)構(gòu)。
21.根據(jù)權(quán)利要求19或20所述的方法，其特征在于，在識別所述指令之前和/或在識別所述講話者之前這樣進行回波補償，即從所述語音信號中去除由于在乘客車廂中的反射產(chǎn)生的揚聲器信號的疊加，其方法是計算由于所述揚聲器信號產(chǎn)生的所述疊加并從所述語音信號中減去所述疊加。
22.根據(jù)權(quán)利要求21所述的方法，其特征在于，確定所述語音信號(8;37)的由其他人引起的語音信號分量G)，并至少部分地從所述語音信號(8 ；37)中去除。
23.根據(jù)權(quán)利要求19至22中任一項所述的方法，其特征在于，所述語音信號(8；37)設(shè) 計為多聲道語音信號(37)。
24.根據(jù)權(quán)利要求23所述的方法，其特征在于，通過所述多聲道語音信號(37)的不同聲道的不同時間推移的信號的在時間上的聯(lián)系，提取并分離來自授權(quán)的所述講話者的地點之一的、所述語音信號(8 ；37)的所述分量。
25.根據(jù)權(quán)利要求19至M中任一項所述的方法，其特征在于，所述結(jié)果行為的所述執(zhí) 行與識別的所述指令之間的相關(guān)性在于，當沒有識別所屬的所述講話者時或所屬的所述講話者沒有授權(quán)對所述結(jié)果行為進行指示時，抑制所述結(jié)果行為06)的所述執(zhí)行。
26.根據(jù)權(quán)利要求19至25中任一項所述的方法，其特征在于，在識別所述指令或所述講話者之前進行噪聲抑制。
27.根據(jù)權(quán)利要求19至沈中任一項所述的方法，其特征在于，為了識別授權(quán)的所述講話者，從所述語音信號(8;37)中提取講話者特征并把所述講話者特征與存儲在所述講話者模型中的單個的講話者特征比較。
28.根據(jù)權(quán)利要求27所述的方法，其特征在于，進行講話者適應(yīng)，通過所述講話者適應(yīng)，持續(xù)地細化和補充了存儲在所述講話者模型中的所述單個的講話者特征。
29.根據(jù)權(quán)利要求19至觀中任一項所述的方法，其特征在于，檢測所述講話者特征的取決于時間的變化作為屬性并將所述變化存儲在所述講話者模型中。
30.根據(jù)權(quán)利要求19至四中任一項所述的方法，其特征在于，為了識別所述指令，從所述語音信號(8;37)中提取語音特征并把所述語音特征與存儲在所述講話者模型中的單個的語音特征相比較。
31.根據(jù)權(quán)利要求30所述的方法，其特征在于，進行所述講話者適應(yīng)，通過所述講話者適應(yīng)，持續(xù)地細化和補充了存儲在所述講話者模型中的所述單個的語音特征。
32.根據(jù)權(quán)利要求19至31中任一項所述的方法，其特征在于，檢測所述語音特征的取決于時間的變化作為屬性并存儲在所述講話者模型中。
33.根據(jù)權(quán)利要求19至32中任一項所述的方法，其特征在于，根據(jù)所述語音信號(8； 37)檢測駕駛員狀態(tài)。
34.根據(jù)權(quán)利要求19至33中任一項所述的方法，其特征在于，可通過輸入其它語音信號來中斷所述結(jié)果行為的后續(xù)的執(zhí)行，所述其它語音信號包含授權(quán)的所述講話者的其它指令。
35.根據(jù)權(quán)利要求19至34中任一項所述的方法，其特征在于，根據(jù)所述語音信號確定授權(quán)的所述講話者的所述地點，以及不取決于包含于所述語音信號中的所述指令而產(chǎn)生用于使至少一個麥克風(fēng)對準授權(quán)的所述講話者的所述地點的控制信號。
36.根據(jù)權(quán)利要求19至35中任一項所述的方法，其特征在于，所述結(jié)果行為的所述執(zhí) 行包括輸出語音對話信號。
37.根據(jù)權(quán)利要求19至36中任一項所述的方法，其特征在于，所述結(jié)果行為06)的所述執(zhí)行包括所述控制信號的信號輸出，所述控制信號用于控制集成于車輛中的裝置的功能。
全文摘要
本發(fā)明涉及用于激活和/或進行語音對話的一種裝置、一種系統(tǒng)和一種方法。根據(jù)本發(fā)明的用于激活和/或進行語音對話的裝置具有語音識別單元、講話者識別單元以及決策單元。該決策單元設(shè)計用于取決于語音識別單元和講話者識別單元的結(jié)果激活結(jié)果行為。
文檔編號G10L15/06GK102054481SQ20101052730
公開日2011年5月11日申請日期2010年10月29日優(yōu)先權(quán)日2009年10月30日
發(fā)明者卡爾-海因茨·克諾布爾, 哈爾羅·赫普肯, 戴維·肯普夫, 漢斯-威廉·呂爾申請人:大陸汽車有限責(zé)任公司

完整全部詳細技術(shù)資料下載