欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

自動語音-文本轉(zhuǎn)換系統(tǒng)和方法

文檔序號:2823260閱讀:404來源:國知局
專利名稱:自動語音-文本轉(zhuǎn)換系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及自動語音識別。更特別地,本發(fā)明涉及通過使用語音信號的最健壯和相關(guān)的特征(包括時間信息)以及根據(jù)感知聚類推導(dǎo)的模式、并使用新穎的機(jī)器學(xué)習(xí)技術(shù)處理該信息來改善自動語音識別的技術(shù)。
背景技術(shù)
語音感知信息不均勻地分布在頻率、振幅和時間中。在每個方面,語音都是高度可變的。大多數(shù)自動語音識別系統(tǒng)以單一標(biāo)度的均勻分隔的間隔來提取信息。在人類語音感知上,已知可以通過時間特征來辨別一些語音類型,但是在典型的現(xiàn)有技術(shù)語音識別系統(tǒng)中,并沒有充分利用語音的時間特征。大多數(shù)現(xiàn)有技術(shù)的自動語音識別系統(tǒng)包括使用均勻的短持續(xù)時間(典型地為 20-30毫秒)分析幀、以均勻的時間步長(典型地為10-15毫秒)從語音信號中提取信息的過程。基于單一短時觀測向量進(jìn)行語音分類是不可靠的,因?yàn)檎Z音信號是高度動態(tài)的,并且隨著各種語音的發(fā)出而不斷變換。事實(shí)上,必須使用長時模式來構(gòu)建可用的系統(tǒng)。本領(lǐng)域已知的一種可實(shí)現(xiàn)較長時模式的方法是,保存多個短時觀測向量,然后將其同時提供給語音分類器。這種方法使用的分類器通常為人工神經(jīng)網(wǎng)絡(luò)或相關(guān)模板。雖然保存短時觀測向量帶來了改善的結(jié)果,但是仍然存在一些問題。首先,對于所有基于幀的方法都常用的這種均勻時間步長采樣與語音信號不同步。因此,語音事件與觀測幀的關(guān)系是隨機(jī)的。這就導(dǎo)致增加了所提取特征和時間細(xì)節(jié)量化的可變性。其次,基于均勻分析幀的提取不是最優(yōu)的。用于感知人類語音的信息以許多不同的時間標(biāo)度產(chǎn)生。例如,發(fā)“t”音的爆破音的時長可能只有幾毫秒的持續(xù)時間,而一個元音可以維持超過一秒。一個由許多短時觀測構(gòu)成的序列不能提供與長時觀測相同的信息,反之亦然。語音的一些特征在時間維度上是高度可變的。例如,元音維持的長度取決于說話者、語速、該元音是否重音音節(jié)以及包含該音節(jié)的單詞位于語句中的什么位置。這種時間可變性使得語音信息移動到不同的相對觀測幀,顯著增加了相同語音類型的不同實(shí)例的提取值的可變性,并且使得在存儲器中檢測有意義的模式變得困難。此外,基于幀的系統(tǒng)還通常將所有幀看作是同等重要的。相反地,人類感知使用信號中具有最佳信噪比、并且包含與進(jìn)行所需要辨別最相關(guān)和最可靠的那些特征的部分。大多數(shù)現(xiàn)有技術(shù)的自動語音識別系統(tǒng)使用了隱馬爾可夫模型。隱馬爾可夫模型是隨機(jī)狀態(tài)機(jī)。隱馬爾可夫模型將從觀測向量估計的類型概率映射到隱含(未觀測到的)類型概率的可能序列。通過使用隱馬爾可夫模型,可以允許每個非輸出狀態(tài)轉(zhuǎn)移到其自身,從而解決了上述的時間可變性問題。通過使用自轉(zhuǎn)移狀態(tài),“吸收”了時間可變性。遺憾的是, 除非該方法被修正為清楚地提取時長信息,否則該方法會將不想要的和想要的時間信息一起去除。語音事件的時間關(guān)系攜帶了用于感知語音、特別是用于辨別爆破音、塞擦音和摩擦音的重要信息。另外,類型概率的健壯估計需要巨大數(shù)量的訓(xùn)練數(shù)據(jù)。當(dāng)使用條件與訓(xùn)練條件不同時,該概率估計會變的非常不準(zhǔn)確,從而導(dǎo)致識別效果很差。大多數(shù)現(xiàn)有技術(shù)的自動語音識別系統(tǒng)使用的特征主要是從短時譜輪廓推導(dǎo)出的。 這種方法被經(jīng)常使用,是因?yàn)樵S多語音具有某種特性頻率峰值,被稱為“共振峰”。目前的其他系統(tǒng)所采用的一種非常不同的方法的關(guān)注點(diǎn)在于頻帶的長時軌跡(trajectories)。在一種稱為TRAP(時間模式)的方法中,語音被建模為聲音實(shí)例的平均長時期( 1秒)軌跡。 基于語音信號包絡(luò)與每個TRAP模型的相關(guān)性來執(zhí)行分類。據(jù)報告,這種方法的一些版本獲得了可與短時譜方法相比的結(jié)果。這些結(jié)果表明,對于辨識語音有用的信息在時間上的分布超出了音素切分的邊界。由于在該方法中使用了平均和加窗,因此在TRAP中心附近的信息相對于更遠(yuǎn)處的信息被加強(qiáng)。TRAP捕獲總的趨勢,但是不捕獲時間細(xì)節(jié)。用于替代基于幀的特征提取的另一種方法是在被稱為“事件”的某些可檢測信號條件的位置處切分語音。每個被切分的部分被認(rèn)為具有單獨(dú)的類型特性。通常采用動態(tài)時間規(guī)整來執(zhí)行與模型的時間對齊,這使得能夠?qū)⒃撎卣鬈壽E投影到一個共同的時間標(biāo)度上。然后,在該規(guī)整后的時間標(biāo)度上,對該特征軌跡再次采樣,并將其與一個模板相關(guān),或者將其用作隱馬爾可夫模型的觀測量。該動態(tài)時間規(guī)整的過程去除了該語音切分的大部分的時間可變性。然而,對于基于事件的方法來說,尋找可靠的切分事件是一個難題。事件的插入或刪除會導(dǎo)致嚴(yán)重的錯位。很顯然,現(xiàn)在需要一種改進(jìn)的技術(shù)以提高自動語音識別的效率和有效性。人類語音感知在很大程度上依賴于語音信號中的事件的相對定時。語音感知的征兆存在于各種時間標(biāo)度上,并且可能在時間上與該感知本身偏移。改變語音事件的時間關(guān)系會改變該語音的感知。在B. R印ρ等人撰寫的Perceptual Integration of Acoustic Cues for Stop,Fricative,and Affricative Manner (Journal of Experimental Psychology :Human Perception and Performance 1978, Vol. 4,Num. 4,621-637)中通過感知實(shí)驗(yàn)對此進(jìn)行了證明,其中對靜音和摩擦的持續(xù)時間進(jìn)行了控制。一種這樣的實(shí)驗(yàn)在單詞“Say”和“Shop”之間插入了較短的靜音間隔,其導(dǎo)致聽眾聽成了“Say Chop”。關(guān)于事件的相對時間如何影響感知的另一個例子被稱為話音起始時間,通??s寫為V0T。VOT是從塞音被釋放到聲帶開始振動所經(jīng)歷的時間長度。VOT是用于辨別各種閉塞福音的重要特征。 定時的重要性還可從語音現(xiàn)象的持續(xù)時間可變性上得出。一些可察覺的語音現(xiàn)象是非常短暫的,而另一些是很長的。例如,音素標(biāo)記的英語語音的語料庫TIMIT具有時長小于5毫秒的塞音爆破段,而一些元音片段持續(xù)超過500毫秒。雖然相對事件定時是重要的感知提示,但是最常用的特征提取方法并不對語音事件的定時敏感。幾乎目前所有的語音和說話者識別應(yīng)用都是通過利用一種信號切分方法來提取特征,該信號切分方法基于以固定步長在時間上步進(jìn)的固定長度分析幀。因?yàn)檫@些分析幀的長度是固定的,所以它們幾乎總是顯著短于或長于它們試圖捕獲的感知現(xiàn)象的長
6
雖然該常用方法很容易實(shí)現(xiàn),但是該方法使得特征提取易受到信號與第一幀起始點(diǎn)之間的隨意關(guān)系以及該分析幀長度與各種語音現(xiàn)象的時間標(biāo)度之間的隨意關(guān)系的影響。 在 S. Basu 等人撰寫的 Time shift invariant speech recognition(ICSL P98)中描述的一種基于幀的語音識別系統(tǒng)是基于以10毫秒步進(jìn)的25毫秒幀,對于該信號與少于10毫秒的第一幀之間的起始關(guān)系的移動導(dǎo)致“前端所產(chǎn)生的譜估計和[me-頻率倒譜系數(shù)]的顯著改變,進(jìn)而使得該同一數(shù)據(jù)庫的單詞錯誤率出現(xiàn)達(dá)到[10% ]的變化”。語音信號中存在許多可變源例如說話者的聲道長度、口音、語速、健康狀況和情感狀態(tài)以及背景噪聲等。然而,Basu等人報告的變化完全是由于使用了一種特征提取方法造成的,其中幀尺寸和幀對齊與該信號的具有隨意的關(guān)系。在授予Ittycheriah等人的美國專利第5956671號(1997年6月4日提交)中公開了一種技術(shù),其目的是減少由分析幀與語音信號之間的隨意關(guān)系導(dǎo)致的特征可變性。他們的發(fā)明的一個方面通過將信號的多個時移(time-shifted)版本提交給固定幀分析過程作為單獨(dú)的訓(xùn)練實(shí)例,從而擴(kuò)大了訓(xùn)練集的可變性。他們還公開了一種用于識別時間的技術(shù),其中通過將固定幀分析的結(jié)果平均到該信號的多個時間延遲版本中來計算該特征值。這些技術(shù)不能徹底緩解由于使用固定幀和固定時間步長提取特征所導(dǎo)致的問題。 而且,擴(kuò)大實(shí)例的數(shù)量增加了訓(xùn)練時間,并且將原始語音信號中沒有的額外可變性加入到模型中。時移平均增加了計算復(fù)雜性,并且會將一些與感知相關(guān)的語音特性“平均掉”。在授予Moncur的美國專利第6470311號(1999年10月15日提交)中,一種濁音語音的基頻同步切分方法解決了同步問題,該方法是基于中心頻率約等于基頻(Pitch)的帶通濾波器的輸出的正過零點(diǎn)。使用在一些非特定時間幀上計算的平均基頻周期來切分清音語音。應(yīng)當(dāng)注意的是,已知低信噪比條件和具有小DC信號偏移的信號會使得基于過零點(diǎn)的切分產(chǎn)生問題。對于高質(zhì)量語音信號,Moncur的方法在濁音語音期間相對于常用的固定幀分析方法有所改善。遺憾的是,對于清音語音,該方法又恢復(fù)為隨意的固定幀和時間步長。該固定幀和時間步長的使用仍然不能解決例如閉塞和塞音爆破等事件的準(zhǔn)確位置。另外,也完全沒有提供對于耳語語音的解決方案。顯然,需要一種能夠與語音信號本身的事件同步地提取特征的解決方案,而不是通過與語音現(xiàn)象具有隨意和變化的關(guān)系的固定統(tǒng)一幀來實(shí)現(xiàn)。該切分技術(shù)應(yīng)當(dāng)應(yīng)用到包括濁音和清音語音的整個信號中。此外,應(yīng)當(dāng)在適合于每個被檢測的特定類型事件的時間標(biāo)度上進(jìn)行語音分析。目前典型的自動語音識別引擎要等待檢測到靜音后才分析和產(chǎn)生輸出,因?yàn)檫@樣就能夠自然切分,從而由于增加的語境而得到更高的準(zhǔn)確率。等待言語的結(jié)束會導(dǎo)致輸出存在從5秒到25秒不等的延遲。當(dāng)一個應(yīng)用必須近乎實(shí)時產(chǎn)生輸出時,例如在自動生成用于電視廣播的隱藏字幕的應(yīng)用中所需的,更小的切分將減少可用于分析的可用語境,并且預(yù)期和產(chǎn)生更低的準(zhǔn)確率。對于這些類型的應(yīng)用,需要較高的準(zhǔn)確率和較低的等待時間。

發(fā)明內(nèi)容
本發(fā)明的一些實(shí)施例涉及用于語音識別的檢測器和分類器的自動學(xué)習(xí)。更特別地,本發(fā)明是針對檢測器和分類器的自動學(xué)習(xí),其目的是獲得語音信號的最健壯和相關(guān)的方面以用于所面臨的特定檢測或分類任務(wù)。本發(fā)明的一些實(shí)施例涉及提取語音信號中表示該信號顯著特征的尖峰或事件。這些實(shí)施例還涉及捕獲事件之間的時間關(guān)系。在當(dāng)前優(yōu)選的實(shí)施例中,使用加權(quán)分類器的方案來提取事件。本發(fā)明的一些實(shí)施例涉及構(gòu)造用于自動語音識別引擎的加權(quán)分類器方案。 本發(fā)明的一些實(shí)施例涉及檢測事件序列而不是檢測單個事件,或者兩者都檢測。在本發(fā)明的一些實(shí)施例中,改進(jìn)了基于替代征兆(alternate cues)的檢測器。在本發(fā)明的一些實(shí)施例中,使用自適應(yīng)增強(qiáng)算法來提高識別性能。本發(fā)明的一些實(shí)施例包括用于降低由自適應(yīng)增強(qiáng)算法產(chǎn)生的組復(fù)雜性的過程。在本發(fā)明的一些實(shí)施例中,一種自動創(chuàng)建基于事件的檢測器級聯(lián)(detector cascades)解決了從高度不平衡的訓(xùn)練集學(xué)習(xí)或?qū)W習(xí)檢測稀少對象的問題。所得到的檢測器級聯(lián)通過在前期消除大部分無用實(shí)例而提供了對于稀少對象的有效檢測。在本發(fā)明的一些實(shí)施例中,執(zhí)行了將語音分類為感知聚類的過程。于是該過程就消除了候選感知之間的歧義。本發(fā)明的一些實(shí)施例涉及在感知重要的位置切分語音信號。這提供了一種不僅能夠提取感知相關(guān)的定時,并且能夠?qū)⒄Z音事件與信號分析同步的方式,從而避免了不同步固定幀分析的所有問題。該方法首先使用低復(fù)雜度濾波器基于人類感知的某些方面和他們希望檢測的語音現(xiàn)象來進(jìn)行預(yù)切分。這些濾波器檢測表示語音起始、閉塞、爆破、聲門脈沖和其他重要語音信號事件的感知模式的位置。該預(yù)切分事件定義了用于同步特定特征計算的時間間隔。已被同步提取的特征模式被進(jìn)一步處理以生成在更長時間標(biāo)度上的特征,并且檢測更高層次的感知事件例如音素邊界、音節(jié)核(syllable nuclei)等。優(yōu)選地,高級語音識別系統(tǒng)使用所有這些技術(shù)。在本發(fā)明的一些實(shí)施例中,在一個自動語音識別系統(tǒng)中使用多種方法。該系統(tǒng)接收語音輸入,對該語音輸入應(yīng)用一種或多種處理手段,判斷哪種處理手段是最正確的,并且輸出所得到的文本流。在目前優(yōu)選的本發(fā)明實(shí)施例中,在實(shí)時電視隱藏字幕和字詞識別環(huán)境中使用該自動語音識別系統(tǒng)。(其他實(shí)施例實(shí)際上可包括任意形式的語音轉(zhuǎn)寫(speech transcription),包括為會議或電話會議加字幕或轉(zhuǎn)寫、實(shí)時聽寫或?qū)⒖陬^電話消息轉(zhuǎn)換成文字形式。)本發(fā)明的一些實(shí)施例涉及使用η 個串連的并行自動語音識別引擎以時間交疊促發(fā)模式處理語音信號以減少等待時間。本發(fā)明的一些實(shí)施例涉及在未加標(biāo)點(diǎn)的文本中自動插入標(biāo)點(diǎn)符號。


圖1示出了根據(jù)本發(fā)明的一些實(shí)施例用于自動語音識別引擎的處理模塊中以構(gòu)建加權(quán)分類器方案的工作流程的示例;圖2示出了根據(jù)本發(fā)明的一些實(shí)施例用于在多個包含事件的語音信號中自動標(biāo)識區(qū)域的工作流程;圖3Α示出了根據(jù)本發(fā)明的一些實(shí)施例的事件的時間關(guān)系;圖;3Β示出了根據(jù)本發(fā)明的一些實(shí)施例計算出現(xiàn)在網(wǎng)格時間單元中的事件;圖3C示出了根據(jù)本發(fā)明的一些實(shí)施例的基于事件的總和映射的結(jié)構(gòu);圖4示出了根據(jù)本發(fā)明的一些實(shí)施例的用于構(gòu)建檢測器級聯(lián)的工作流程400 ;圖5示出了根據(jù)本發(fā)明的一些實(shí)施例的包含來自所有有效實(shí)例的事件的區(qū)域的例子;圖6A示出了根據(jù)本發(fā)明的一些實(shí)施例的、在時間特征空間中包含來自所有有效實(shí)例的事件的區(qū)域的例子;圖6B示出了根據(jù)本發(fā)明的一些實(shí)施例的包含來自所有有效實(shí)例的事件的非對齊區(qū)域的例子;圖6C示出了根據(jù)本發(fā)明的一些實(shí)施例的包含來自所有有效實(shí)例的事件的非矩形區(qū)域的例子;圖7示出了根據(jù)本發(fā)明的一些實(shí)施例的、在一個區(qū)域投影中的最大幾何邊界與最緊密和最松散邊界的關(guān)系;圖8A示出了根據(jù)本發(fā)明的一些實(shí)施例的自動語音-文本轉(zhuǎn)換系統(tǒng)的示意圖;圖8B示出了根據(jù)本發(fā)明的一些實(shí)施例的自動語音-文本轉(zhuǎn)換系統(tǒng)的示意圖;圖8C示出了根據(jù)本發(fā)明的一些實(shí)施例的用于事件識別和字詞識別的系統(tǒng)的示意圖;圖9示出了根據(jù)本發(fā)明的一些實(shí)施例的語音信號切分的示例;圖10示出了根據(jù)本發(fā)明的一些實(shí)施例用于計算感知變化的感知對比度公式;圖IlA示出了根據(jù)本發(fā)明的一些實(shí)施例的圓形隊列存儲器;圖IlB示出了根據(jù)本發(fā)明的一些實(shí)施例的更新的圓形隊列存儲器;圖IlC示出了根據(jù)本發(fā)明的一些實(shí)施例的更新的圓形隊列存儲器;圖12示出了根據(jù)本發(fā)明的一些實(shí)施例用于保持兩個運(yùn)行總和的分段圓形隊列;圖13示出了根據(jù)本發(fā)明的一些實(shí)施例的分段圓形隊列;圖14示出了根據(jù)本發(fā)明的一些實(shí)施例的聲門脈沖檢測器對于一個濁音語音小片段的輸出表示;圖15示出了根據(jù)本發(fā)明的一些實(shí)施例的音節(jié)核檢測器的示意圖;圖16示出了根據(jù)本發(fā)明的一些實(shí)施例用于執(zhí)行共振峰提取的工作流程;圖17示出了根據(jù)本發(fā)明的一些實(shí)施例用于執(zhí)行諧波提取的工作流程;圖18示出了根據(jù)本發(fā)明的一些實(shí)施例在時間上交疊對一個語句序列工作的兩個串連處理引擎的示意圖;圖19示出了根據(jù)本發(fā)明的一些實(shí)施例的包括自動標(biāo)點(diǎn)添加器的語音-文本轉(zhuǎn)換系統(tǒng)。
具體實(shí)施例方式本發(fā)明涉及用于語音識別的檢測器和分類器的自動學(xué)習(xí)。更特別地,本發(fā)明是針對檢測器和分類器的自動學(xué)習(xí),其目的是獲得語音信號的最健壯和相關(guān)的方面,包括用于即將發(fā)生的特定檢測或分類任務(wù)的時間信息。在當(dāng)前優(yōu)選的本發(fā)明實(shí)施例中,該自動語音識別系統(tǒng)被用于實(shí)時電視隱藏字幕和字詞識別環(huán)境中。雖然自動語音識別在這些年得到了一定的發(fā)展,但是它仍然不能達(dá)到人類的能力。對于人類聽眾不會造成困難的噪聲水平常常會導(dǎo)致現(xiàn)有的自動語音識別系統(tǒng)不能工作。而且,準(zhǔn)確率的提高是以增加處理時間和計算復(fù)雜度為成本而實(shí)現(xiàn)的。在很大程度上,
9這些困難是由于人類用于語音感知的信息不均勻地分布在頻率、振幅和時間上而導(dǎo)致的。 大多數(shù)自動語音識別系統(tǒng)將時間上的所有點(diǎn)視為與語音感知同等相關(guān),并且基于相同的特征集合進(jìn)行所有類型判定。另一方面,人類似乎能夠選擇語音信號中與實(shí)現(xiàn)感知所需的區(qū)別最相關(guān)和健壯的那些方面。人耳中的神經(jīng)接收元將聲學(xué)信號轉(zhuǎn)換為與其動態(tài)振幅和頻率分布特性相關(guān)的尖峰的時間模式。該尖峰時間模式編碼該信息并將其傳送給大腦神經(jīng)元以進(jìn)行進(jìn)一步處理。 該神經(jīng)元和突觸(synapses)構(gòu)成了大腦的計算單元,其使用尖峰模式對信息編碼并將該信息互相傳輸。人類神經(jīng)組織的模式識別的高效和有效性是非常卓越的。尖峰編碼生成了該信號的非常稀疏的表示。在人類感知的某些方面的啟示下,本發(fā)明將從語音信號中提取的信息編碼為尖峰,這里稱之為“事件”。在目前優(yōu)選的本發(fā)明實(shí)施例中,基于事件的提取關(guān)注于信號的顯著方面,并且捕獲這些方面的時間關(guān)系。一種事件的示例是頻率通帶的能量包絡(luò)中的峰值。該峰值是語音信號的每個頻帶中語音能力相對于背景噪聲最強(qiáng)的位置。峰值與事件序列之間的時間距離與所說的內(nèi)容非常相關(guān)。事件提取并不限于從帶通濾波器中尋找包絡(luò)峰值。其他事件包括起始、結(jié)束以及通過更復(fù)雜的信號分析生成的事件,包括子模式檢測器的輸出?;谌魏我阎椒ǖ姆诸惼骱蜋z測器通過當(dāng)檢測到它們被設(shè)計的條件時觸發(fā)它們,可以被結(jié)合到該事件模式中。構(gòu)建相關(guān)的自動檢測器和分類器如這里所使用的,術(shù)語“分類器,,是指將類型標(biāo)簽分配給特征向量、事件和/或事件序列的方法和設(shè)備。檢測器是將類型標(biāo)簽“存在”或“不存在”分配給特征向量、事件和/ 或事件序列的分類器。弱分類器是判定函數(shù),其執(zhí)行效果比偶然性(chance)好。通過組合多個弱分類器的結(jié)果可以形成分類器組(ensemble classifiers).增強(qiáng)(boosting)是現(xiàn)有技術(shù)已知的用于通過選擇和加權(quán)弱分類器來自動構(gòu)造分類器組的方法,其使得組判定好于任一弱分類器的判定。該選擇是這樣進(jìn)行的,即從一個相對較大的弱分類器的集合中循環(huán)評估每個弱分類器,并選擇對一個已標(biāo)記訓(xùn)練實(shí)例的加權(quán)分布具有最佳性能的那一個弱分類器。該選擇的弱分類器被添加到所述分類器組中,并且基于其錯誤率為它的判定結(jié)果分配一個權(quán)重。然后對該分布權(quán)重進(jìn)行調(diào)整以加強(qiáng)由該分類器組產(chǎn)生的錯誤,并且開始下一個循環(huán)。由于那些沒有被正確分類的實(shí)例在該分布中被強(qiáng)化,所以傾向于改正該分類器組錯誤的弱分類器就被添加到隨后的步驟中,從而改善該分類器組的整體判定。已經(jīng)證明,增強(qiáng)(boosting)可以產(chǎn)生具有良好泛化特性的分類器。該弱分類器可以采取任何形式,只要它們的性能比偶然性好即可。一種執(zhí)行時間模式分類的方法是以多個固定間隔采樣特征軌跡(feature trajectories),并且將所有時間特征點(diǎn)表示為單獨(dú)的特征。典型地,使用固定數(shù)量的時間特征點(diǎn)進(jìn)行分類。利用固定數(shù)量的時間特征點(diǎn),通過該特征向量的定義,建立一個實(shí)例中的信息與另一個實(shí)例中的信息之間的對應(yīng)關(guān)系。根據(jù)本發(fā)明當(dāng)前優(yōu)選的實(shí)施例,使用一種不同的方法。由于特征軌跡的均勻采樣會丟失采樣之間的細(xì)節(jié),并且均勻采樣產(chǎn)生許多包含小辨別信息的采樣,所以取而代之地, 本發(fā)明對與事件相關(guān)的特征軌跡進(jìn)行采樣。事件是該軌跡中顯著信息集中的點(diǎn)。基于事件的提取形成該信號的稀疏表示。這種方法需要改進(jìn)通常用于其它語境例如圖像處理中的定義弱分類器的方法,因?yàn)榻o定類型的實(shí)例可能具有給定種類的零、1或多于1個事件,所以需要一種建立一個實(shí)例中的信息與另一個實(shí)例中的信息之間的對應(yīng)關(guān)系的方法。特征值、事件和事件模式可以提供與該檢測器的目標(biāo)類型一致的證據(jù)(evidence) 或者可以提供相反證據(jù)。該事件的種類以及事件之間的時間關(guān)系構(gòu)成了檢測或未檢測到目標(biāo)類型的證據(jù)的重要部分。遺憾的是,未實(shí)現(xiàn)同一話語的不同實(shí)例中的事件模式之間的精確對應(yīng)。另外,噪聲會導(dǎo)致偽事件或丟失事件,并且語速會導(dǎo)致事件序列中的時間變化。通常機(jī)器學(xué)習(xí)技術(shù)被設(shè)計成使用固定長度的特征向量。利用固定長度的特征向量,每個有效和無效訓(xùn)練實(shí)例對于每個特征總是具有一個值,并且可以在該特征向量中的相同索引位置找到每個實(shí)例之間的特征值的對應(yīng)。與固定長度特征向量中的值不同,事件和事件模式可以存在或不存在,并且相互之間可以具有在一定程度上不同的時間關(guān)系,從而導(dǎo)致很難確定一個實(shí)例中的哪些事件對應(yīng)于另一實(shí)例中的事件。本發(fā)明提出了一種可以確定實(shí)例之間的事件對應(yīng)以及事件模式的方法,從而可以利用時間信息來生成用于已增強(qiáng)學(xué)習(xí)器組的弱檢測器。在本發(fā)明目前優(yōu)選的實(shí)施例中,時間起點(diǎn)與特定種類的事件相關(guān)聯(lián),并且所有實(shí)例的時間起點(diǎn)被對齊。利用相對于該時間起點(diǎn)定義的間隔來界定表示語音某個方面的事件的時間變化。對于給定的間隔,如果存在使得(特定種類的)的事件落入有效類型和無效類型的間隔內(nèi)的一致性方面的差別,則可以利用該差別來形成一個弱檢測器。在本發(fā)明的一些實(shí)施例中,基于實(shí)例的音節(jié)核事件的位置來對齊這些。在本發(fā)明的一些實(shí)施例中,相對于每個集合中的事件之一來對齊具有兩個或更多事件的多個集合。為了基于與事件相關(guān)的肯定信息形成可用的弱檢測器,定義該弱檢測器的間隔必須包含大部分有效實(shí)例中的事件,并且必須不包含大部分無效實(shí)例中的事件??梢酝ㄟ^評估包含大部分有效實(shí)例的事件的所有間隔來系統(tǒng)地確定這種間隔。首先,通過基于特定的共同事件對齊而使這些實(shí)例變成大致時間對應(yīng)??蛇x地,可以對不同總時長的實(shí)例進(jìn)行縮放以使其具有共同長度。通過以下操作可以有效地發(fā)現(xiàn)一致的間隔首先對于所有實(shí)例,在二維空間中排列來自不同傳感器(例如頻帶傳感器)的事件,并且在每一事件的左側(cè)記錄上述事件的加權(quán)數(shù)量的累積和。然后可以通過該累積加權(quán)計數(shù)中的簡單差別來確定任意矩形間隔內(nèi)的事件數(shù)量。對基于包含了大部分實(shí)例的事件的每個間隔的弱檢測器進(jìn)行評估, 并且保留對于當(dāng)前加權(quán)分布效果最好的檢測器。對于整個訓(xùn)練集評估該組合檢測器,并且針對所產(chǎn)生的錯誤調(diào)節(jié)該分布權(quán)重。根據(jù)上述過程添加弱檢測器,直到該檢測器的性能對于訓(xùn)練樣本達(dá)到完美或者到達(dá)最大迭代數(shù)。圖1示出了用于構(gòu)造自動語音識別引擎的處理模塊中使用的加權(quán)分類器方案的工作流程100的例子。在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,該加權(quán)分類方案被用于自動語音識別引擎的分類模塊中,如以下參照圖9所解釋的。圖1的流程100開始于將多個語音信號存儲為訓(xùn)練集101、然后從該訓(xùn)練集中提取事件模式102開始,其中所述事件模式包括該語音信號的特性方面。接著,訪問具有相匹配事件模式的語音信號樣本103,并且基于該語音信號中發(fā)生該事件的時間位置將其對齊104。然后可選地將每個信號縮放為共同的時間長度 105。
一旦該提取的信號被縮放到具有匹配事件位置的共同時長,就對該信號應(yīng)用多個弱檢測器,并且測試每個弱分類器自身檢測事件的能力的有效性106?;谠摐y量的有效性對該弱分類器加權(quán),其中使那些性能較好的弱分類器獲得較高的系數(shù),而那些性能較差的弱分類器獲得較低的系數(shù)。接著,測試該加權(quán)方案的有效性,以基于預(yù)定的有效性閾值來判斷該加權(quán)是否足以識別出該訓(xùn)練集中的事件108。該流程詢問(query)該加權(quán)是否足以識別出事件109。如果該加權(quán)方案足以完成該任務(wù),則流程100存儲該加權(quán)方案并結(jié)束110。另一方面,如果該加權(quán)方案不足以完成該任務(wù),則向之前應(yīng)用的弱分類器群組中增加額外的弱分類器111,并且該流程重復(fù)直到滿足該有效性閾值水平。給定話語的不同實(shí)例的事件模式具有一些相似性,然而在任意兩個語音事件之間都未發(fā)生事件的準(zhǔn)確對應(yīng)。如果對不同實(shí)例的事件指定共同的時間參照,例如使其相對于音節(jié)中心,則給定語句的不同實(shí)例的對應(yīng)事件將出現(xiàn)在該時間傳感器平面中的一個區(qū)域內(nèi)。語音是高度變化的,并且對于感知最有用的信息不均勻地分布在頻率、振幅、時間和時間標(biāo)度上。因此,使用單個恒定的標(biāo)度或形狀不能有效地在該時間傳感器平面中規(guī)定包含提供某些感知信息的事件的區(qū)域。然而,在計算上很難實(shí)現(xiàn)完全評估可能包含相關(guān)對應(yīng)事件的集合的所有可能的位置、形狀和區(qū)域標(biāo)度。因此,定義了一個過程,其自動標(biāo)識對于語音感知有用的對應(yīng)事件的區(qū)域。多個有效訓(xùn)練實(shí)例中的第一個事件被設(shè)置成相對于一個共同的時間參照點(diǎn)例如音節(jié)中心,并且將該事件投影到該時間軌跡平面上??蛇x地,在投影之前,可以對該多個模式進(jìn)行縮放以使它們的時長都等于1。時間軌跡平面中包含大部分有效實(shí)例中的事件的區(qū)域被保留為對應(yīng)事件的潛在聚類。這些區(qū)域的列表被形成并且被用于構(gòu)造弱檢測器的所有隨后步驟。圖2示出了根據(jù)本發(fā)明一些實(shí)施例的用于自動標(biāo)識多個語音信號中包含事件模式的區(qū)域的工作流程200。該流程200從將語音信號訓(xùn)練集中的一組語音信號相對于一個共同時間軸對齊201開始。接著,該流程200可選地將該組中的每個單獨(dú)語音信號的時長縮放到一個共同的時間單位時長202,并且將該語音信號的音節(jié)中心和該語音信號的事件中心投影到該共同的時間軸203。最后,該時間軸上音節(jié)中心和事件中心高度密集的區(qū)域就被標(biāo)識為包含事件模式的區(qū)域204。除了所述的用于標(biāo)識事件高度密集區(qū)域的技術(shù)之外,本發(fā)明還涉及用于排除不可能獲得健壯的弱檢測器的區(qū)域的多種技術(shù),包括但不限于事件集成映射、實(shí)例密度約束的應(yīng)用、排除冗余區(qū)域以及這些技術(shù)的組合。事件集成映射在本發(fā)明的一些實(shí)施例中,使用一種事件集成映射過程來排除那些不可能獲得有用的弱檢測器的區(qū)域。圖像處理技術(shù)領(lǐng)域中已知的一種能夠迅速計算矩形區(qū)域上的像素密度值之和的技術(shù)被改進(jìn),以使得能夠基于該區(qū)域中的事件計數(shù)來迅速排除不可用區(qū)域。在原始的圖像處理技術(shù)中,第一步是計算“總和映射”,其中該映射的每個單元對應(yīng)于由該單元處的拐角以及原點(diǎn)處的對角方向相對的拐角所限定的矩形區(qū)域中的像素值之和。當(dāng)計算出這種總和映射之后,就可以通過兩個減法和一個加法操作來確定該圖像的任一矩形子區(qū)域的像素
12和。該“總和映射”技術(shù)被修改以適用于迅速消除那些無法包含多于特定數(shù)量實(shí)例中的證據(jù)的區(qū)域,這通過用疊加在該時間軌跡平面上的網(wǎng)格的每個網(wǎng)格單元中的事件計數(shù)來替換該像素密度值而實(shí)現(xiàn)。當(dāng)計算出網(wǎng)格單元事件計數(shù)的總和映射后,就可以僅僅使用兩個減法和一個加法操作來確定任一矩陣區(qū)域中的事件數(shù)量。獲知該區(qū)域中的事件數(shù)量并不等同于獲知該區(qū)域中的實(shí)例數(shù)量,但是它建立了上限。因此,任何不具有大于或等于所需實(shí)例數(shù)量的事件計數(shù)的區(qū)域都不可能包含所需數(shù)量的實(shí)例。圖3A-3C示出了根據(jù)本發(fā)明一些實(shí)施例的基于事件的總和映射的結(jié)構(gòu)。在圖3A 中顯示了該時間軌跡平面中的事件模式。在圖3B中,疊加網(wǎng)格的邊界內(nèi)出現(xiàn)的事件計數(shù)被確定。在圖3C中示出了一個總和映射,其中每個單元包含以原點(diǎn)為一個拐角并以該單元作為對角方向的相對拐角的矩形區(qū)域中的計數(shù)總和。為了確定圖3C的中央四個單元中的事件數(shù)量,從待處理區(qū)域的右上單元中的值(在本例中為“7”)中減去其左邊的未包含區(qū)域的值(在本例中為“3”),同時減去其下方的未包含區(qū)域的值(在本例中為“4”),再加上處于該兩個被減去區(qū)域的交叉點(diǎn)的被過多減去的區(qū)域(在本例中為“2”)。該結(jié)果是該區(qū)域中的事件數(shù)量,在本例中為“2” (7-3-4+2 = 2)。確定任何大小或形狀的區(qū)域的事件數(shù)的計算量與此相同。事件密度約束在本發(fā)明的一些其他實(shí)施例中,利用事件密度約束的應(yīng)用來排除那些不可能獲得有用弱檢測器的區(qū)域。例如,可選地,可以應(yīng)用最小密度約束來排除事件密度低于特定量的區(qū)域。冗余區(qū)域排除在本發(fā)明的一些實(shí)施例中,那些不可能獲得有用弱檢測器的冗余區(qū)域被排除。那些包含其他區(qū)域但是相對于已包含區(qū)域沒有再增加額外有效事件的區(qū)域不被添加到該區(qū)域列表中。再次參照圖2,一旦該區(qū)域被標(biāo)識出來,它們就形成了用于產(chǎn)生弱檢測器的約束條件。該弱檢測器可以包括一個簡單測試以用于判斷給定實(shí)例是否具有該區(qū)域內(nèi)的任何事件,或者可以基于具有該區(qū)域內(nèi)事件的有效實(shí)例的特征值范圍將其擴(kuò)展為包括額外的約束條件?;谑录蛄械恼Z音識別一般地,在自動語音識別中,事件序列是比它們所包含的單個事件更強(qiáng)大的辨別器。本發(fā)明的一些實(shí)施例涉及檢測事件序列而不是檢測單個的事件,或者兩者同時檢測。在本發(fā)明的一些實(shí)施例中,通過使用時間傳感器空間中的(可能被縮放的)間隔作為坐標(biāo),將事件序列定位為超空間中的點(diǎn)。為了理解這個概念,考慮由單個傳感器產(chǎn)生的包含三個事件的序列,其中第二個事件在第一個事件之后兩個時間單元,第三個事件在第二個之后四個時間單元。這三個事件相對于彼此的時間序列被表示為坐標(biāo)0,4)??梢酝ㄟ^計算投影點(diǎn)之間的距離函數(shù)來判斷該時間序列的相似性。例如,可以使用歐幾里得距離來實(shí)現(xiàn)這一目的。為了評估哪些序列可以一致地出現(xiàn)(或不出現(xiàn))在該實(shí)例中,按照如前所述地投影一個有效實(shí)例中的事件序列以形成一組標(biāo)準(zhǔn)點(diǎn),其表示可與該有效實(shí)例相關(guān)聯(lián)的可能序列。標(biāo)準(zhǔn)點(diǎn)是基于該第一實(shí)例中的每個點(diǎn)的坐標(biāo)而定義的,并且每個標(biāo)準(zhǔn)點(diǎn)的相關(guān)計數(shù)都被設(shè)為1。以與第一實(shí)例相似的方式使用其間隔為坐標(biāo)將其余有效事件的事件序
13列投影為超空間點(diǎn)。當(dāng)每個序列點(diǎn)被生成時,將其與最接近的標(biāo)準(zhǔn)點(diǎn)相關(guān)聯(lián)。該序列點(diǎn)被添加到與該標(biāo)準(zhǔn)點(diǎn)相關(guān)聯(lián)的列表中,并且將該標(biāo)準(zhǔn)點(diǎn)計數(shù)增加1。然后調(diào)整該標(biāo)準(zhǔn)點(diǎn)的坐標(biāo)以使其變?yōu)槠湎嚓P(guān)聯(lián)的實(shí)例點(diǎn)的坐標(biāo)的中間值。當(dāng)所有實(shí)例都處理完以后,具有最高計數(shù)的標(biāo)準(zhǔn)點(diǎn)就表示與該類型高度相關(guān)的事件序列。該標(biāo)準(zhǔn)點(diǎn)的坐標(biāo)表示與該序列中第一個事件相關(guān)的區(qū)域的相對中心??梢酝ㄟ^該相關(guān)實(shí)例序列的變化來確定該區(qū)域的大小和形狀。 在本發(fā)明的一些實(shí)施例中,可以希望合并類似的序列。通過其在投影超空間中的距離可以很容易地確定用于合并的候選者。在本發(fā)明的一些實(shí)施例中,該過程尋找區(qū)域的組合,其檢測那些看起來頻繁與目標(biāo)類型同時出現(xiàn)的事件序列。這些作為弱檢測器的有用性取決于當(dāng)不存在目標(biāo)類型時較低頻率的同時出現(xiàn)性。這里所述的該過程包括用于發(fā)現(xiàn)那些提供有效類型的確切證據(jù)的事件序列的過程。相反證據(jù)也是有價值的。為了發(fā)現(xiàn)相反證據(jù),上述過程被重復(fù),但是這次是使用無效實(shí)例來執(zhí)行。基于在無效實(shí)例中以一定頻率重現(xiàn)但是從不或很少出現(xiàn)在有效實(shí)例中的序列, 來形成抑制性弱檢測器。在本發(fā)明的一些實(shí)施例中,可通過使用自適應(yīng)增強(qiáng)算法形成弱檢測器組,以處理不平衡的訓(xùn)練集或者獲得更低復(fù)雜性的檢測器。通過簡化增強(qiáng)組來改進(jìn)性能在本發(fā)明的一些實(shí)施例中,使用自適應(yīng)增強(qiáng)算法來提高識別性能。自適應(yīng)增強(qiáng)算法涉及順序調(diào)用弱分類器、測試這些分類器以及由此調(diào)整加權(quán)系數(shù)的迭代過程。自適應(yīng)增強(qiáng)算法通過每次迭代增加一個弱檢測器來形成分類器組,不預(yù)測也不糾正之前的權(quán)值。因此,最后的分類器組將會比所需要的更復(fù)雜。本發(fā)明的一些實(shí)施例包括減少通過自適應(yīng)增強(qiáng)算法生成的組的復(fù)雜性的過程。根據(jù)這些實(shí)施例,在該檢測器對訓(xùn)練集獲得完美結(jié)果或者達(dá)到最大數(shù)量循環(huán)后,執(zhí)行一個簡化過程。將該復(fù)合檢測器的性能與其自身迭代地比較,其中每次去除其弱檢測器中的不同的一個。如果去除任一個弱檢測器會提高錯誤率,則執(zhí)行獲得最大改進(jìn)的去除,否則,如果去除任一弱檢測器都不會增加錯誤率,則去除一個這種弱檢測器。該過程繼續(xù)直到不再有弱檢測器被去除。在本發(fā)明的一些實(shí)施例中,使用一種在增加新檢測器時更新該組的所有權(quán)值的線性編程增強(qiáng)算法來構(gòu)建組。替代征兆檢測當(dāng)語音信號的一些方面被破壞時,人類語音感知能夠依賴于替代征兆 (alternative cues)實(shí)現(xiàn)。類似地,可以在語音樣本中找到替代征兆,并且可以在自動語音識別系統(tǒng)中檢測它。在本發(fā)明的一些實(shí)施例中,通過按照上述形成檢測器組的步驟,并且重復(fù)該過程, 以便利用不會被在前生成檢測器所使用過的弱檢測器用于構(gòu)建后續(xù)檢測器的約束條件來形成后續(xù)檢測器,從而改進(jìn)基于替代征兆的檢測器。這將最大化該檢測器的獨(dú)立性。然后可以將多個替代征兆檢測器組合成一個組以形成能夠容忍這些變化的檢測器。將組自動轉(zhuǎn)換為級聯(lián)檢測器該組的總判定是該單個檢測器的加權(quán)和。在該組的標(biāo)準(zhǔn)形式中,必須對所有弱檢測器進(jìn)行評估以獲得語音判定。在本發(fā)明的一些實(shí)施例中,將該檢測器組轉(zhuǎn)換為級聯(lián)檢測器,這樣減少了必須平均評估的弱檢測器數(shù)量。通過將該弱檢測器從強(qiáng)到弱排列并且分析在每一階段的和與最后結(jié)果之間的關(guān)系,可以建立“早出(early out) ”閾值以將該組轉(zhuǎn)換為檢測器級聯(lián)。各個事件的相對定時包含對于語音感知很重要的信息??梢酝ㄟ^考察給定單詞、 音節(jié)、音素等的多個實(shí)例中的對應(yīng)事件的持續(xù)模式來利用這種信息。這種分析是很有挑戰(zhàn)性的,因?yàn)檎Z音在每個方面都具有可變性并且不同的感知征兆出現(xiàn)在不同的時間標(biāo)度上。然而,如這里所解釋的,大多數(shù)機(jī)器學(xué)習(xí)分類技術(shù)被設(shè)計成基于同質(zhì)信息 (homogenous information)的固定長度向量來學(xué)習(xí)判斷。利用基于事件的提取,根據(jù)信號條件發(fā)生或不發(fā)生事件。這就意味著給定實(shí)例可以具有比同一音節(jié)、單詞、音素等的另一實(shí)例更多或更少的事件。為了有效地使用基于事件的提取來訓(xùn)練檢測器,有必要發(fā)現(xiàn)來自音節(jié)、單詞、音素等的一個實(shí)例中的哪個事件對應(yīng)于其他實(shí)例中的相同感知支持(support)。 在本文的稍后部分描述了自動定位這些對應(yīng)事件的邊界的方法。自動使用訓(xùn)練實(shí)例發(fā)現(xiàn)相關(guān)支持和相反信息并且確定權(quán)值以做出檢測判斷的方法和技術(shù)用于高度不平衡訓(xùn)練集的基于事件的級聯(lián)在本發(fā)明的一些實(shí)施例中,一種自動生成基于事件的檢測器級聯(lián)的方法解決了從高度不平衡的訓(xùn)練集學(xué)習(xí)或者學(xué)習(xí)檢測稀疏對象的問題。所得到的檢測器級聯(lián)通過在前期消除大部分無效實(shí)例而提供了對于稀少對象的有效檢測。在本發(fā)明的一些實(shí)施例中,生成基于事件的檢測器級聯(lián)涉及生成用于很少出現(xiàn)的特定單詞的檢測器。檢測稀少單詞僅僅是用于例示本發(fā)明,在本發(fā)明的啟示下,其他檢測應(yīng)用對于本領(lǐng)域普通技術(shù)人員來說也是顯而易見的。例如,其他一些技術(shù)包括檢測子單詞 (sub-word)語音類型,例如特定音節(jié)、特定音素、寬(broad)音節(jié)類型和寬語音類型。此外, 本發(fā)明還可用于許多與語音識別不相關(guān)的應(yīng)用,例如工業(yè)過程監(jiān)控、自動系統(tǒng)故障檢測和機(jī)械裝置監(jiān)控。利用試圖最小化錯誤總數(shù)的機(jī)器學(xué)習(xí)技術(shù)不能很好地處理具有較少有效實(shí)例和許多無效實(shí)例的高度不平衡訓(xùn)練集。當(dāng)有效實(shí)例很少出現(xiàn)時,例如出現(xiàn)率為100,000,000 分之一,則不能檢測到其出現(xiàn)的檢測器將具有非常低的錯誤率(錯誤率=0. 00000001)。然而,即使因?yàn)樗鼜牟粫龀鲥e誤檢測而具有低錯誤率,它實(shí)質(zhì)上也是沒用的。屬于一個類型的成員的對象共享其值落在特定范圍內(nèi)的特性。因而,具有其值落在那些范圍之外的特性的對象將被完全排除,因?yàn)槠洳粚儆谠擃愋?。然而,具有其值不完全在該范圍?nèi)的特性的對象可以具有一些其值落在與該類型相關(guān)的范圍內(nèi)的特性。因此,如果一個對象具有單個范圍外的特征值,就有可能取消它的類型身份。事實(shí)上,在本發(fā)明的一些實(shí)施例中,確認(rèn)類型身份通常需要所有相關(guān)的特征值都處于與該類型一致的范圍內(nèi)。當(dāng)應(yīng)用到語音識別中時,基于事件的特征提取生成了一個稀疏表示,其保存了與識別包括該時間信息的語音類型最相關(guān)的信息。一種可被提取的事件的一個實(shí)例是在特定特征軌跡的包絡(luò)中出現(xiàn)峰值。特征軌跡包絡(luò)例如可以在該語音信號通過特定的帶通濾波器時,根據(jù)其輸出計算出來。當(dāng)許多這種軌跡被計算出來時,該事件就被分布在時間軌跡空間中。對于單詞類型標(biāo)識有用的所有證據(jù)都與時間軌跡空間中的事件相關(guān)。當(dāng)相對于一個共同的時間參照例如音節(jié)中心來形成事件時間,并且來自該同一類型的多個實(shí)例的事件被繪制在時間軌跡空間中時,就形成了包含相關(guān)事件的聚類的區(qū)域。這些包含聚類的區(qū)域的位置、形狀和標(biāo)度都是該類型特有的。這些區(qū)域中的一些將與該類型強(qiáng)烈相關(guān),其中該類型的所有有效實(shí)例都具有落在該區(qū)域中的事件。如上所述, 不具有落在這種區(qū)域中的事件的對象將被排除而不能作為該類型的一員。大量特征值可以與每個事件相關(guān)。與落在區(qū)域內(nèi)的有效類型實(shí)例中的事件相關(guān)的每個特征的值的范圍形成了在空間的額外維度中的間隔。一個對象必須具有如下的事件,該事件具有屬于每個相關(guān)特征維度的范圍內(nèi)的值從而被接受為類型成員。將一個非類型對象與該類型的所有對象區(qū)分開的特性可以與將另一個非類型對象與該類型的所有對象區(qū)分開的特性不同。根據(jù)本發(fā)明的一些實(shí)施例,可以自動發(fā)現(xiàn)這些相關(guān)的考慮因素以生成檢測器。圖 4示出了根據(jù)本發(fā)明一些實(shí)施例生成檢測器級聯(lián)的工作流程400。該工作流程400通過初始化該檢測器級聯(lián)以包含零檢測器階段開始401。接著,該時間軌跡空間中的包含所有有效訓(xùn)練實(shí)例中的事件的所有區(qū)域被標(biāo)識,并且計算具有落在每個被標(biāo)識區(qū)域內(nèi)的事件的無效實(shí)例的數(shù)量。然后,對于每個包含所有有效訓(xùn)練實(shí)例中的事件的區(qū)域,可選地,可以擴(kuò)展該區(qū)域的定義以包括額外的特征維度403。該區(qū)域的用于任何額外維度的邊界被選擇以使其包括該有效實(shí)例的值的完全范圍。接著,不包括落在所有這樣建立的邊界內(nèi)的特征值的無效實(shí)例被排除,并且由此減少了該區(qū)域中包括的無效實(shí)例的數(shù)量。如果有的話,所述額外維度被選擇以最小化對于給定維度數(shù)量所包括的無效實(shí)例的數(shù)量。這就意味著用于不同區(qū)域的特征維度是那些辨別性能最好的維度,并且可以隨著區(qū)域不同而改變。然后,選擇該列表中包含來自最少無效訓(xùn)練實(shí)例的事件的區(qū)域作為一個檢測器級聯(lián)階段(Stage)405。在本發(fā)明的一些實(shí)施例中,預(yù)先確定最大數(shù)量的檢測器階段。然后,從進(jìn)一步的考慮中除去不具有在該選擇區(qū)域中的事件的無效實(shí)例406。接著,該流程查詢還剩余多少無效實(shí)例407。如果沒有無效實(shí)例剩余,則已經(jīng)生成了對于該訓(xùn)練實(shí)例完美執(zhí)行的檢測器級聯(lián);該流程400輸出該檢測器408并停止。如果無效實(shí)例不比前一次迭代更少,那么可以不進(jìn)行任何改進(jìn)。在這種情況下,該流程400去除剛剛添加的階段,取消該不完美的檢測器409,并停止。相反地,如果無效實(shí)例比前一次迭代更少,那么該流程查詢是否已經(jīng)添加了最大數(shù)量的檢測器階段410。如果已經(jīng)向該級聯(lián)中添加了最大數(shù)量的檢測器階段,則該流程400 輸出不完美的檢測器411并停止。如果還剩余無效實(shí)例并且還沒達(dá)到最大數(shù)量的檢測器階段,那么該流程400重復(fù)并繼續(xù),以通過回到步驟402添加額外的階段來構(gòu)建該檢測器級聯(lián)。在該檢測器級聯(lián)生成后,根據(jù)以下方法使用它們。首先,檢測事件并像訓(xùn)練過程期間那樣指定一個共同參照。接著,從該級聯(lián)的第一階段開始,評估該列表中的事件以確定是否有事件在該區(qū)域內(nèi)。如果發(fā)現(xiàn)有事件在該區(qū)域內(nèi),則只要發(fā)現(xiàn)有至少一個事件在該階段所使用的區(qū)域內(nèi),就通過隨后的階段來評估該列表中的事件。然后,如果該對象具有位于該級聯(lián)的所有階段的區(qū)域內(nèi)的事件,則將該對象檢測為該類型的一員。最后,如果該對象不具有在任一階段中的事件,則通過該階段將它從該類型成員中排除,并且不再執(zhí)行進(jìn)一步的處理。
在這些例子中,使用了軸對齊的(超)矩形區(qū)域。在本發(fā)明的其他一些實(shí)施例中, 使用了其他的邊界結(jié)構(gòu),例如(超)球體或(超)橢圓形,或者在不同區(qū)域或不同維度上混合的邊界形狀。另外,也可以使用不是軸對齊的(超)矩形區(qū)域。這種觀測應(yīng)用到所有弱檢測器參照中。圖5-6C示出了根據(jù)本發(fā)明一些實(shí)施例的訓(xùn)練實(shí)例事件投影在時間特征值平面上的各個例子。圖5示出了包含來自所有有效實(shí)例的事件的區(qū)域的例子。圖6A示出了包含來自所有有效實(shí)例的事件的區(qū)域的另一例子。圖6B示出了包含來自所有有效實(shí)例的事件的不對齊區(qū)域。圖6C示出了包含來自所有有效實(shí)例的事件的非矩形區(qū)域的例子。通過增大幾何邊緣來改善泛化性(generalization)該用于標(biāo)識時間軌跡平面中的區(qū)域的方法導(dǎo)致邊界緊密配合在該區(qū)域中所包含的有效訓(xùn)練實(shí)例事件附近。當(dāng)用作檢測器時,這種緊密配合的邊界將排除其值僅與該區(qū)域外邊界處的訓(xùn)練實(shí)例事件略微不同的情形。如果盡可能地擴(kuò)張該邊界而不包括額外的無效實(shí)例事件,則該檢測器將能夠檢測其值類似于該區(qū)域中的任意有效訓(xùn)練實(shí)例的值范圍但超出該范圍的情形。然而,這些最寬松的邊界會導(dǎo)致錯誤檢測到其值僅與限制該邊界的無效實(shí)例事件的值略微不同的情形。通過調(diào)整該區(qū)域中的每個邊界可以改善泛化性,以最大化所檢測的有效實(shí)例事件與所排除的無效實(shí)例事件之間的幾何邊緣。該最大幾何邊緣邊界是在緊密的最小邊界與寬松的最大邊界之間的半途上。最大化幾何邊緣使得可以獲得泛化到訓(xùn)練實(shí)例中看不到的情形的最佳可能性。圖7示出了在區(qū)域的一個投影中該最大幾何邊界與最緊密和最寬松邊界之間的關(guān)系。使用可靠的一般種類序列來抑制感知典型的自動語音識別系統(tǒng)的工作過程是,識別細(xì)節(jié)例如音素或子音素類型,以及使用這些細(xì)節(jié)來確定更高層級的模式例如單詞。這些低層級細(xì)節(jié)不是被確定地辨別,而是根據(jù)給定的特征值觀測向量對每個類型進(jìn)行概率估計。隱馬爾可夫模型(HMM)使用該類型概率估計以及轉(zhuǎn)移概率來計算目標(biāo)語音的最可能序列。雖然該“根據(jù)細(xì)節(jié)構(gòu)建”的方法是常用的和相對有效的,但是它不能獲得能夠與人類感知匹敵的自動語音識別系統(tǒng)。這種方法的一個缺點(diǎn)是該細(xì)節(jié)分類(detailed classifications)不是非常可靠并且必須通過應(yīng)用更高層級的語境來彌補(bǔ)。并且,細(xì)節(jié)分類是與語境高度相關(guān)的,但是在確定語音類型的身份時語境是未知的。此外,語境可能被不準(zhǔn)確地表示或以低置信度表示。而且,準(zhǔn)確統(tǒng)計很難估計語境中很少出現(xiàn)的細(xì)節(jié)。在該模型統(tǒng)計分布中沒表示出來的聲學(xué)條件或者語音風(fēng)格的變化會導(dǎo)致該統(tǒng)計估計變得很不準(zhǔn)確。最后,替代(alternate)方案的巨大搜索空間在計算上是很難實(shí)現(xiàn)的。典型地,通過隨機(jī)方式例如僅保留最可能的“η”個來減少該搜索。本發(fā)明的目的是解決該常用方法中固有的問題和局限性。一般地,寬泛種類的分類比細(xì)節(jié)種類的分類能夠更可靠地執(zhí)行。例如,辨別魚和鳥比確定鳥或魚的特定種類能夠更可靠地完成。類似地,在語音識別中,寬泛歸類可以比細(xì)節(jié)歸類更準(zhǔn)確地執(zhí)行。此外,人類感知似乎主要進(jìn)行寬泛歸類,并且僅在具有關(guān)注理由時才考慮具體細(xì)節(jié)。在流暢的連續(xù)語音中,很少會按照詞典里說的那樣來產(chǎn)生單詞,但是這很少會導(dǎo)致人類聽眾產(chǎn)生問題,只要存在支持感知的足夠證據(jù)。事實(shí)上,人類聽眾可以容忍替代和省略,只要該語音的特征方面屬于預(yù)期的可靠寬泛種類并且通常具有預(yù)期的語音時間。例如,考慮這個問答“Why you cry in ? "See hit me ! ”。該問題省略了單詞 “are”并且用音節(jié)“in”替代了“ing”。這些改變都沒有對人類感知造成很大影響。類似地, 該回答更可能被感知為“She hit me ! ”,即使所需的“sh”發(fā)音已經(jīng)變?yōu)橄嗨频陌l(fā)音“S”。 這些例子中的細(xì)節(jié)替代和省略對感知幾乎沒有影響,也許都不會被人注意到。寬泛音節(jié)種類序列的模式似乎足以標(biāo)記感知單元,這些感知單元在許多情況下產(chǎn)生明確的感知而不需要對細(xì)節(jié)類型進(jìn)行特定標(biāo)識。本發(fā)明是基于以下觀察 在很大程度上,寬泛語音種類的序列模式會限制可能的感知選項 (alternatives)。該感知選項構(gòu)成感知聚類。 寬泛語音種類序列本身可以用于直接訪問該感知選項的列表。 僅在必要時應(yīng)用進(jìn)一步的計算工作以消除感知聚類內(nèi)的剩余選項之間的歧義。 由于在訓(xùn)練時間獲知了聚類中的各個選項,所以對于每個感知聚類,可以優(yōu)化該消除歧義過程以獲得最大可靠性或最小計算量。因此,可以應(yīng)用在任何環(huán)境下的最可靠區(qū)分。這就意味著可以應(yīng)用來自各個源的信息,包括單詞統(tǒng)計、韻律、語法等。眷當(dāng)消除感知選項之間的歧義時,獲知各個選項的語音和單詞語境,從而將區(qū)別特征的計算限制為那些相關(guān)的和最可靠的。而且,可以使用語境特定的檢測器和分類器以獲得更高的可靠性。根據(jù)這些實(shí)施例,僅當(dāng)寬泛種類的序列模式不能完全消除該感知的歧義時,才需要求助于細(xì)節(jié)。即使這樣,也可能優(yōu)選使用那些已知比其他具體辨別更可靠的具體辨別。 例如,考慮被標(biāo)記為兩個可能感知的寬泛音節(jié)種類的序列模式,該兩個可能感知可以通過兩個位置處的不同音素來彼此區(qū)分。如果已知該音素對中的一個比另一個得到更可靠的區(qū)分,則將基于該更可靠的分類進(jìn)行辨別。類似地,語境對于感知是非常重要的。如果在前面給出的例子中的回答是“cuz see hit me ! ”,那么它也許會被感知為“cause,he hit me ! ”。片段“see”的細(xì)節(jié)沒有改變,但是感知并不依賴于該片段的細(xì)節(jié)。在本發(fā)明的一些實(shí)施例中,使用一種獨(dú)特的算法將語音分類為感知聚類,并且通過最優(yōu)地訪問可靠信息來消除選項感知之間的歧義。根據(jù)這些實(shí)施例,在每個時間步驟 (即到達(dá)另一個音節(jié)模式,或者如果在特定時長內(nèi)沒有語音產(chǎn)生的話,到達(dá)空音節(jié)),該算法將語音分類為寬泛但可靠的模式的序列,例如寬泛音節(jié)種類。然后,使每個寬泛種類與一個種類序號相關(guān)聯(lián)。優(yōu)選地,相似的種類被分配相似的序號。接著,該算法通過使用該種類序號作為狀態(tài)空間中的坐標(biāo),將寬泛種類序列映射到感知模式中。狀態(tài)空間中的每個點(diǎn)與一個感知聚類和一個歧義消除策略相關(guān)。在訓(xùn)練期間建立的該歧義消除策略是在訪問該感知聚類時執(zhí)行的一系列步驟。該歧義消除策略的目的是消除選項感知之間的歧義以最優(yōu)地訪問可靠信息。通過評估以不同順序和不同組合應(yīng)用的各種歧義消除技術(shù)的計算需求和成功率來確定該歧義消除策略。應(yīng)用該策略的最終結(jié)果是將選項感知減少為較小的數(shù)量,優(yōu)選為1。如果所述選項被減少為唯一的感知,則以該感知為準(zhǔn)。在語音-文本轉(zhuǎn)換系統(tǒng)中, 這將包括輸出與該感知相對應(yīng)的單詞。在語音控制系統(tǒng)中,將執(zhí)行與該感知相關(guān)的動作。
如果所述選項沒有被減少為唯一的感知,并且達(dá)到了最大可能閾值,則將最可能的感知接受為該感知并且以此來產(chǎn)生動作。如果沒有達(dá)到最大可能閾值,則保留可能的剩余選項感知,并且與隨后的時間步驟相互作用,從而同時有助于在這些時間步驟中消除感知歧義以及通過在這些時間步驟中可用的信息來消除歧義。自動語音識別引擎在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,提供一種用于執(zhí)行本發(fā)明所有新穎方面的設(shè)備。 在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,在實(shí)時電視隱藏字幕和單詞識別環(huán)境中使用該自動語音識別系統(tǒng)。圖8A示出了一種自動語音-文本轉(zhuǎn)換系統(tǒng)800的示意圖,其包括基于事件的提取和在寬泛音節(jié)分類的音節(jié)級上的識別。該自動語音-文本轉(zhuǎn)換系統(tǒng)800使用寬泛音節(jié)分類的序列模式標(biāo)引到感知單元列表中,僅在需要消除歧義時參照音素級細(xì)節(jié)。在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,該自動語音-文本轉(zhuǎn)換系統(tǒng)800選擇做出哪個因素分類,或者基于那些分類或方法而選擇應(yīng)用其他消除歧義方法。該自動語音-文本轉(zhuǎn)換系統(tǒng)800包括聲學(xué)分析器802。該聲學(xué)分析器接收輸入語音信號801并數(shù)字化所述輸入信號801。該聲學(xué)分析器802可選地與韻律分析器803和事件提取器804連接。在本發(fā)明的一些實(shí)施例中,通過韻律分析器803處理該數(shù)字化信號, 從而提取說話者的各種語言學(xué)特性,包括但不限于節(jié)奏、重音、語調(diào)或反映以下方面的其他韻律信息說話者的感情狀態(tài),該語句是否陳述句、疑問句或祈使句,反話,諷刺,強(qiáng)調(diào),關(guān)注 (focus)等。根據(jù)這些實(shí)施例,將該韻律信息和數(shù)字化信號發(fā)送到事件提取器804。事件提取器804包括處理引擎,用于自動標(biāo)識多個語音信號中包含事件模式的區(qū)域并提取所述事件以用于語音識別。在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,該事件提取器804使用上述用于事件識別和提取的過程和方法。該事件提取器804與短時事件存儲器805連接以存儲該提取的語音事件。該短時事件存儲器805與多個事件-文本流處理模塊連接,以使用該提取的事件來輸出所得出的文本流。在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,該事件-文本流處理模塊包括音節(jié)核檢測器806、音節(jié)歸類器807、音節(jié)序列感知標(biāo)引模塊808和子音節(jié)細(xì)節(jié)歸類模塊809。該事件-文本流處理模塊輸出在其中嵌入了添加的韻律信息811的文本流。圖8A所示的自動語音-文本轉(zhuǎn)換系統(tǒng)800包括用于自動語音識別和對其進(jìn)行改進(jìn)的設(shè)備的一個例子。本領(lǐng)域普通技術(shù)人員在本說明書的基礎(chǔ)上將會清楚,可以使用任意數(shù)量的系統(tǒng)、結(jié)構(gòu)、硬件部件等來執(zhí)行這些用于語音識別和對其進(jìn)行改進(jìn)的方法和過程。圖8B示出了一個根據(jù)本發(fā)明一些實(shí)施例的自動語音-文本轉(zhuǎn)換系統(tǒng)820的示意圖,其包括用于處理輸入語音信號821的語音識別引擎824。在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,聲學(xué)分析器822接收該輸入語音信號821并數(shù)字化所述輸入語音信號821。該聲學(xué)分析器822與韻律分析器823和語音識別引擎擬4連接。在本發(fā)明的一些實(shí)施例中,通過韻律分析器823處理該數(shù)字化信號,從而提取韻律信息,如上所述。在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,該語音識別引擎擬4包括用于執(zhí)行各種語音識別處理步驟的多個處理模塊。如圖所示,該語音識別處理引擎擬4包括事件提取器825,模式標(biāo)識器826,弱區(qū)域排除器827,增強(qiáng)組簡化器828,事件序列識別器829,替代征兆檢測器 830,級聯(lián)檢測器組生成器831,語音泛化器832,和感知聚類歧義消除模塊833。雖然這里列
19出了特定的處理模塊,但是本領(lǐng)域普通技術(shù)人員在本說明書的基礎(chǔ)上將會清楚,可以將現(xiàn)在已知或以后發(fā)展的任何語音識別工具作為該語音識別引擎824中的處理模塊。在本發(fā)明的一些實(shí)施例中,該事件提取器825包括基于事件的語音識別模塊,用于執(zhí)行在語音識別引擎824中使用的加權(quán)分類器方案。在本發(fā)明的一些實(shí)施例中,該模式標(biāo)識器826自動標(biāo)識多個語音信號中包含事件模式的區(qū)域。在本發(fā)明的一些實(shí)施例中,該弱區(qū)域排除器827應(yīng)用各種技術(shù)來排除不可能獲得健壯弱檢測器的區(qū)域。在本發(fā)明的一些實(shí)施例中,該增強(qiáng)組簡化器828降低由自適應(yīng)增強(qiáng)算法產(chǎn)生的檢測器組的復(fù)雜性。在本發(fā)明的一些實(shí)施例中,事件序列識別器8 檢測事件序列而不是檢測單個事件,或者二者都檢測。在本發(fā)明的一些實(shí)施例中,替代征兆檢測器830識別當(dāng)語音信號的特征方面被破壞時的替代語音征兆。在本發(fā)明的一些實(shí)施例中,級聯(lián)檢測器組生成器831自動生成檢測器組。在本發(fā)明的一些實(shí)施例中,語音泛化器832通過最大化幾何邊緣來改善泛化,如上所述。在本發(fā)明的一些實(shí)施例中,感知聚類歧義消除模塊833使用感知聚類來消除語音歧義, 如上所述。根據(jù)本發(fā)明的這些實(shí)施例,該語音識別引擎擬4輸出語音數(shù)據(jù)。在本發(fā)明的一些實(shí)施例中,將該識別的語音數(shù)據(jù)存儲在一個或多個數(shù)據(jù)庫834 中,其中該一個或多個數(shù)據(jù)庫834優(yōu)選地與網(wǎng)絡(luò)835連接。在本發(fā)明的其他一些實(shí)施例中, 將該識別的語音數(shù)據(jù)自動發(fā)送到短時事件存儲器836中以用于語音-文本轉(zhuǎn)換處理。在本發(fā)明的一些實(shí)施例中,該短時事件存儲器836與多個事件-文本流處理模塊連接以使用該提取的事件來輸出所得的文本流。在本發(fā)明當(dāng)前優(yōu)選的實(shí)施例中,該事件-文本流處理模塊包括音節(jié)核檢測器837,音節(jié)歸類器838,音節(jié)序列感知標(biāo)引模塊839, 和子音節(jié)細(xì)節(jié)歸類模塊840。該事件-文本流處理模塊輸出在其中嵌入了添加有韻律信息 841的文本流。在本發(fā)明的其他一些實(shí)施例中,提供一種從語音信號中提取事件數(shù)據(jù)并且識別出其中的單詞的設(shè)備。圖8C示出了用于事件識別和單詞識別的系統(tǒng)850,其包括基于事件的提取和對特定單詞的識別。該自動語音-文本轉(zhuǎn)換系統(tǒng)850包括用于接收輸入語音信號 851的聲學(xué)分析器852。該聲學(xué)分析器852可選地與韻律分析器853和事件提取器邪4連接。該事件提取器邪4包括用于自動標(biāo)識多個語音信號中包含事件模式的區(qū)域并提取所述事件用于單詞識別的處理引擎。該事件提取器邪4與短時事件存儲器855連接以存儲該提取的語音事件。該短時事件存儲器855與多個單詞識別處理引擎連接。在本發(fā)明的一些實(shí)施例中,該單詞識別處理引擎包括音節(jié)核檢測器856和單詞檢測器857。該單詞識別處理模塊在識別出一個單詞時激活一個或多個動作。第二處理模塊862包括脈沖神經(jīng)網(wǎng)絡(luò)分類器。用于語音感知的信息不均勻地分布在頻率、振幅和時間上。事件模式對于語音識別來說是非常重要的。該脈沖神經(jīng)網(wǎng)絡(luò)允許對脈沖時間模式中的語音信息進(jìn)行編碼,而模糊存儲結(jié)構(gòu)使得能夠容忍時間可變性。第三處理模塊863包括一個或多個串連的語音識別引擎,如下所述。替代性語音-文本轉(zhuǎn)換系統(tǒng)860也包括用于分析和數(shù)字化輸入語音信號867的聲學(xué)分析器866。通過三個處理模塊861、862或863中的一個或多個處理該數(shù)字化語音信號, 并將其結(jié)果送入判斷模塊868,該判斷模塊868選擇最佳識別結(jié)果并輸出文本輸出869。本發(fā)明的一些實(shí)施例包括在感知重要的位置處切分語音信號。這就提供了一種不僅提取感知相關(guān)定時、而且還可以使該信號的分析與語音事件同步的方式,從而避免了不同步固定幀分析的所有問題,如上所述。該方法首先使用低復(fù)雜度濾波器執(zhí)行預(yù)切分濾波,該低復(fù)雜度濾波器基于人類感知的特定方面和他們希望檢測的語音現(xiàn)象。這些濾波器檢測表示語音起始、閉塞、爆破、聲門脈沖和其他重要語音信號事件的感知模式的位置。該預(yù)切分事件濾波定義了用于同步某些特征計算的間隔。已被同步提取的特征模式被進(jìn)一步處理以生成在更長時間標(biāo)度上的特征,并且檢測更高層級感知事件例如音素邊界、音節(jié)核等。圖9示出了根據(jù)本發(fā)明一些實(shí)施例切分語音信號的例子。圖9的語音信號包含話語“Once”。該信號以觀看波形時能清楚看到的方式在該話語的過程中多次改變特征。在該圖形底部用短垂直標(biāo)記表示的切分對應(yīng)于在該單詞的“濁音”部分期間的聲門脈沖事件。長垂直線對應(yīng)于各種類型的語音邊界事件。為了參考,片段標(biāo)簽被放置在該圖形上表示該切分的語音學(xué)標(biāo)記。在音素之間的過渡處的信號條件隨著過渡類型而變化。在一些邊界處,總能量陡峭變化,而對于其他位置,譜變化與事件相關(guān)??傊?,這些各種事件能夠使得特征提取與語音事件同步執(zhí)行,并且提供與感知相關(guān)的切分。在本發(fā)明的一些實(shí)施例中,信號切分是基于語音信號中存在的感知差別。通常,用于語音感知的信息不均勻地分布在時間上。人類感知對激勵(stimuli)變化敏感。在時間信號例如語音中,具有重要變化(即事件)的時間位置用于該信號的感知組織。事件的相對定時和它們附近的激勵特性對大部分感知信息進(jìn)行編碼。一般地,振幅感知是非線性的。 例如,已知對于聲音強(qiáng)度的感知是對數(shù)的,并且通常以分貝來量度。可以證明,對于寬范圍的感知,激勵的勉強(qiáng)能注意到的區(qū)別(just-noticeable-difference)與該激勵的原始水平相關(guān)。然而,這并不保持在極值(extremes),并且在低端沒有感知直到該激勵水平到達(dá)神經(jīng)激勵的最低水平。在高端,一旦神經(jīng)元開始飽和,就不會感知到激勵的進(jìn)一步增加。在可操作范圍內(nèi),對于許多類型的激勵,感知反應(yīng)所需的變化可以近似表示為韋伯定律K = Δ Ι/Ι0 ;其中Ici是原始激勵水平,Δ I是激勵水平的變化,K是定義勉強(qiáng)能注意到的區(qū)別的閾值的經(jīng)驗(yàn)確定常數(shù)。韋伯定律公式的右側(cè)可以被識別為對比度。在本發(fā)明中,當(dāng)相關(guān)特性的變化超出感知閾值時就確定為事件(即檢測器啟動)。在本發(fā)明中,使用與韋伯定律相關(guān)的感知對比度計算來計算該感知變化。圖10示出了根據(jù)本發(fā)明一些實(shí)施例用于計算感知變化的感知對比度公式。在這個公式中,右側(cè)的比值的分母與標(biāo)準(zhǔn)韋伯定律公式在兩方面不同它包括被對比的值的和, 并且包括額外的因子ε。該因子ε將激發(fā)作用抑制在非常低的水平以便更好地模仿對于非常低激勵的感知反應(yīng)。它還通過避免了在沒有激勵時被零除而使得該公式在數(shù)值上是穩(wěn)定的。包含對比值的和還拉平了在非常低和非常高水平上的感知對比反應(yīng)。對于每個測量的感知特性(例如能量或頻率),通過經(jīng)驗(yàn)確定ε和感知閾值的適當(dāng)值。在本發(fā)明的一些實(shí)施例中,生成了多個不同種類的感知事件檢測器,其中每個都基于在一些特定事件標(biāo)度上測量的一些特定的信號特性,并且具有其自己的特定的ε和感知閾值。本發(fā)明的事件檢測器以各種標(biāo)度對該信號的各個方面進(jìn)行操作。首先,通過利用低復(fù)雜度濾波器處理能量值來執(zhí)行預(yù)切分,其檢測爆破、閉塞和聲門脈沖的時間位置。然后相對于該預(yù)切分事件執(zhí)行特征提取。將額外的濾波器和檢測器應(yīng)用到該同步檢測的特征上以提取更高層級的特征和事件。額外特征提取和處理技術(shù)分段圓形隊列存儲器事件檢測器的多個部件涉及比較所計算的特征值的和,這是使用按照相對于彼此的特定時間關(guān)系對齊的各種長度的分析窗來計算的。為了最小化事件檢測器的計算負(fù)荷, 使用分段圓形隊列存儲器來保持這些和。圓形隊列是先進(jìn)先出(FIFO)存儲結(jié)構(gòu),其中新信息被寫入到該存儲器中最舊信息的索引Itl處。在將該新信息寫入到存儲器中后,索引Itl被遞增并對該存儲器的長度求模數(shù)(即當(dāng)該索引Itl到達(dá)存儲器末端時又繞回到零)。根據(jù)如下所述的過程可以保持該存儲器中的值的實(shí)時和(running sums)。首先,將該圓形隊列存儲器位置、實(shí)時和以及索引Itl初始化為零。接著,在每個時間步驟從該實(shí)時和中減去所索引的值,將新值增加到該實(shí)時和中,將該新值寫入到圓形隊列中,然后將該索引Itl遞增并對該存儲器的長度求模數(shù)。圖11A-11C中示出了圓形隊列的操作及其在高效計算實(shí)時和上的使用。圖IlA示出了根據(jù)本發(fā)明一些實(shí)施例的圓形隊列存儲器。在圖IlA中顯示了一個5元素圓形隊列存儲器,在時間“t”要存儲一個新值“7”。該新值將覆蓋該存儲器中最舊的值,在所示示例中為值“9”。在存儲該新值之前,該示例存儲器中的值的和是25。因?yàn)樵撔轮蹈采w了最舊的值,所以可以通過減去最舊值和加上新值來保持實(shí)時和。如圖可以看到的,以這種方式保持實(shí)時和的計算復(fù)雜性與該存儲器的長度無關(guān)。不論存儲器長度多長,只需要一次減法和一次加法。圖IlB和圖IlC示出了根據(jù)本發(fā)明一些實(shí)施例的更新的圓形隊列存儲器。更特別地,圖IlB和圖IlC示出了通過接下來的兩個時間步驟繼續(xù)的更新過程。為了在該存儲器的各個子分段上保持值的多個實(shí)時和,通過使用額外的索引來對該圓形隊列分段,其中每個索引與索引Itl都具有固定的偏差。通過僅僅減去將要從該子分段中移出的值、并加上將要成為該子分段一部分的值,來保持每個子分段的實(shí)時和。圖12示出了根據(jù)本發(fā)明一些實(shí)施例用于保持兩個實(shí)時和的分段圓形隊列。該分段圓形隊列被設(shè)置成幫助保持兩個實(shí)時和,一個是為該圓形隊列中的最舊的一半值(即子分段A)計算的,另一個是為該圓形隊列中最新的一半值(即子分段B)計算的。這些和分別被稱為Σ A和Σ B?,F(xiàn)在,在與索引Itl偏離等于該存儲器長度一半的位置處具有第二索引I。在每個時間步驟,從Σ A中減去由Itl所索引的值(即整個存儲器中最舊的值),并將由I1索引的值加到Σ A上,同時從Σ B中減去由I1索引的值并將要寫入到存儲器中的新值加到Σ B上。該新值被寫入到索引Itl的位置,然后對該索引Itl和I1遞增并對該存儲器的長度求模數(shù)。在剛才給出的例子中,該存儲器的子分段是相同尺寸的,形成不相交的集合, 并且一起覆蓋了整個存儲器。所有這些條件并不是本方法所必要的。圖13示出了根據(jù)本發(fā)明一些實(shí)施例的分段圓形隊列。在圖13中,子分段“Α”被設(shè)置成使其完全落在子分段“B”中。根據(jù)保持該和的目的來確定該存儲器的整體大小以及每個子分段的大小和子分段的時間排列。在本發(fā)明的一些實(shí)施例中,使用該圓形隊列以檢測突變位置。多個重要的語音事件例如起始、閉塞、阻塞爆破等都與該信號的一些特性的級別的陡峭準(zhǔn)單調(diào)變化相關(guān)。通常如圖13所設(shè)置的分段圓形隊列可用于檢測陡峭的準(zhǔn)單調(diào)變化。通過適當(dāng)設(shè)置子分段“A”和 “B”的長度,可以在每個時間步驟計算子分段“A”和“B”的實(shí)時和之間的感知差別。該感知差別達(dá)到最大值及其幅度超過其感知閾值的時間就成為候選的切分點(diǎn)??梢詰?yīng)用進(jìn)一步的合格條件以便通過加強(qiáng)所檢測事件之間的最小時間分隔來更逼真地模仿人類感知特性。在這個階段,已經(jīng)可以開始基于在事件處的變化方向?qū)@些事件進(jìn)行粗分類。例如,從按照在過渡期間能量變化方向的起始和爆破來區(qū)分由于閉塞引起的事件。在本發(fā)明的其他一些實(shí)施例中,使用該圓形隊列來檢測語音信號中的沖擊 (impulses)和間隙(gaps)。一些重要的語音事件與以下時間位置相關(guān)該信號的一些特性在非常短時間內(nèi)突然變化并隨后恢復(fù)到與其變化之前相似的水平。如果該短暫變化是變化到更高的值,該變化就被稱為“沖擊”。如果該短暫變化是變化到更低的值,該變化就被稱為 “間隙”??梢允褂猛ǔH鐖D5設(shè)置的分段圓形隊列來檢測沖擊和/或間隙。通過適當(dāng)設(shè)置子分段“A”和“B”的長度,當(dāng)子分段“A”中的平均值比子分段“B”中的平均值高(低)過一個感知自適應(yīng)閾值時,定位沖擊(間隙)。如前所述,根據(jù)經(jīng)驗(yàn)確定該閾值函數(shù)。根據(jù)人類感知的本質(zhì)和要檢測的信號特征方面的時間特性,來確定該子分段“A”和“B”的長度。聲門脈沖檢測示出了使用這種方法的一個重要特定情形是檢測聲門脈沖事件。通過以下過程來定位聲門脈沖事件。首先,在第一共振峰的范圍內(nèi)對該信號進(jìn)行帶通濾波。接著,根據(jù)該帶通濾波器的輸出計算Teager能量。該Teager能量計算為Teager(t)= X(t)*x(t)-X(t-1)*x(t+1),其中X(t)是在時間t處的輸入值。作為振幅和頻率的函數(shù),該Teager能量強(qiáng)調(diào)了聲門脈沖的位置,其與能量和高頻分量的局部最大值相關(guān)。最后,使用通常如圖13所設(shè)置的沖擊檢測器來切分該信號。該檢測器基于該Teager能量的絕對值的實(shí)時和。在該優(yōu)選實(shí)施例中,子分段“A”和“B”的長度分別被設(shè)置為2ms和10ms。只要子分段“Α”中的Teager能量均值大于該感知閾值K乘以子分段“B”中的Teager能量均值,該檢測器就處于高狀態(tài)。K值被選擇為1.3。已經(jīng)發(fā)現(xiàn)子分段“A”和“B”的長度以及乘數(shù)K的值對于檢測聲門脈沖位置有用。在本發(fā)明的范圍內(nèi), 也可以使用與這里所述值不同的值。上述聲門脈沖檢測器對于每個聲門脈沖生成了兩個事件位置,一個在該賣場的上升邊緣,一個在該脈沖的下降邊緣。該基頻周期被定義為兩個連續(xù)上升邊緣事件之間的時間期間。通過該上升邊緣與隨后的下降邊緣之間的時間估計該脈沖的時長。該脈沖時長與總基頻周期的比被稱為“開商(open quotient)”,這是一個對一些語音處理應(yīng)用有用的濁音語音的特征。而且,在該基頻周期的打開部分期間,聲門下空腔(sub-glottal cavities) 與口腔聲學(xué)連接,在該部分期間形成了與閉合部分的模式相比有一定不同的共振峰模式。 可以通過設(shè)置與這些事件相關(guān)的特征提取來有利地利用這一事實(shí)。圖14示出了根據(jù)本發(fā)明一些實(shí)施例的聲門脈沖檢測器對于一小段濁音語音的輸出的示意圖。在圖14中,該聲門脈沖檢測器輸出將信號分為“高”和“低”片段。該高片段表示相關(guān)特征(在這一例子中為Teager能量)在感知上超過標(biāo)準(zhǔn)(norm)的時間。這種設(shè)置形成了關(guān)于該脈沖或間隙的時長的片段。對于一些應(yīng)用,優(yōu)選的是可標(biāo)記脈沖或間隙而不是片段。在這種情況下,可以通過多個可選方法中的一個來確定特定事件時間的選擇,這些方法包括但不限于
選擇上升(下降)和下降(上升)邊緣之間的中點(diǎn); 選擇片段的上升邊緣; 選擇片段的下降邊緣; 選擇片段內(nèi)的最大(最小)特征值;和 選擇片段內(nèi)的最大感知對比度的點(diǎn)。如上所述的聲門脈沖檢測基于的是檢測某個信號特性(例如Teager能量)在一個中心設(shè)置的窗口內(nèi)的均值何時顯著偏離在更長時間周期上平均的同一特性??梢允褂猛ǔH鐖D13設(shè)置的分段圓形隊列,通過標(biāo)識所選擇語音特性(例如能量或共振峰頻率)在感知上偏離其更長時期標(biāo)準(zhǔn)的區(qū)域,來切分任何調(diào)制信號。因?yàn)楸3钟蓹z測器使用的實(shí)時和所需的計算量與該子分段的長度無關(guān),所以可以使用它們來切分較大標(biāo)度的調(diào)制以及較短的沖擊。音節(jié)核檢測為了說明這一點(diǎn),使用通常如圖13設(shè)置的分段圓形隊列來構(gòu)建音節(jié)核檢測器,以保持與聲門脈沖檢測器一樣準(zhǔn)確計算的Teager能量的實(shí)時和,除了子分段“A”的長度被設(shè)為60ms,子分段“B”的長度被設(shè)為100ms。圖15示出了根據(jù)本發(fā)明一些實(shí)施例的波形輸出的示意圖。圖15示出了關(guān)于兩次說出的單詞“Once”的波形和檢測器輸出,第一次是正常的,第二次是輕聲說的。如圖可見, 該檢測器通常將音節(jié)的中心部分歸為同類。本發(fā)明的一些實(shí)施例包括使用共振峰提取來識別語音模式的方法。當(dāng)語音產(chǎn)生時,發(fā)音器官(即舌、下頌、嘴唇)的結(jié)構(gòu)形成了在頻譜上的共振和反共振的動態(tài)模式,稱為共振峰。在濁音語音期間,通過散播的“空氣噪聲”和高度組織的諧振結(jié)構(gòu)兩者來產(chǎn)生聲音。該散播和諧振成分都有助于語音理解,并且二者都可變地依賴于不同的噪聲條件。該散播的“空氣噪聲”與共振峰相互作用并且被這些共振峰限定形狀,將它們顯示為相對平滑的。該高度分解的諧波在頻譜中形成了相對尖銳的峰值,并且如果沒有被適當(dāng)處理,將會導(dǎo)致很難準(zhǔn)確地定位相鄰的共振峰。該諧波系列提供了一種即使當(dāng)該基頻周期頻率自身從該信號中丟失時也能確定基頻的極好方式。實(shí)驗(yàn)證明,該振幅調(diào)制的諧波可用于再現(xiàn)“忽略”噪聲的可理解的語音。在清音語音期間,可感知的變化在時間上將該信號分割為準(zhǔn)同質(zhì) (quasi-homogenous)片段。共振法提取在本發(fā)明的一些實(shí)施例中,執(zhí)行了一種共振峰提取過程,如圖16所示。圖16示出了根據(jù)本發(fā)明一些實(shí)施例的用于進(jìn)行共振峰提取的工作流程1600。當(dāng)利用等于該片段長度的窗長度對該片段的采樣進(jìn)行哈明窗處理160時,該流程 1600開始,其中該片段對應(yīng)于濁音語音期間的一個基頻周期。然后通過一個由寬帶通濾波器構(gòu)成的濾波器組處理該加窗后的采樣。在一些實(shí)施例中,該帶通濾波器具有400Hz的帶寬,并且被分布在50Hz的中心上,覆蓋了從450Hz到4000Hz的范圍。接著,該流程使用 DESA-I技術(shù)計算每個濾波器的瞬時振幅和頻率1603。基于它們的數(shù)值質(zhì)量,在步驟1604 將該計算的值判斷為“有效”或“無效”。接著,對“有效”估計進(jìn)行計數(shù)并將其存儲在臨時緩沖器中。然后,對各個柱表示頻率范圍的柱狀圖1606進(jìn)行初始化,其中對于每個有效估
24計,使該柱狀圖中表示該估計瞬時頻率的柱遞增所對應(yīng)的對數(shù)壓縮的估計瞬時振幅。接著, 將該平滑柱狀圖的峰值選擇為共振峰候選1607,將共振峰頻率、帶寬(sigmas)和振幅保存為特征1608,并且通過線性擬合根據(jù)該共振峰軌跡計算delta特征1609。最后,在該共振峰模式中的可感知變化的位置中,生成事件1610。12倍頻濾波器組處理在本發(fā)明的其他一些實(shí)施例中,對該切分的信號執(zhí)行12倍頻濾波器組處理的過程,其中在低頻使用窄通帶、在高頻使用較寬通帶以模仿在人類聽覺中發(fā)現(xiàn)的頻率分辨率趨勢。圖17示出了根據(jù)本發(fā)明一些實(shí)施例執(zhí)行共振峰提取的工作流程1700。該流程1700開始于利用等于該片段長度的窗長度對與該信號同步的片段的采樣進(jìn)行哈明窗處理1701,其中該片段對應(yīng)于一個基頻周期。接著,通過12倍頻濾波器組1702 處理該加窗的采樣1702,并且使用DESA-I技術(shù)計算每個濾波器的瞬時振幅和頻率1703?;谒鼈兊臄?shù)值性質(zhì),在步驟1704將該計算的值判斷為“有效”或“無效”,其中對“有效”估計進(jìn)行計數(shù)并將其存儲在用于該間隔的臨時緩沖器中1705中。然后,構(gòu)建柱狀圖1706,其各個柱對應(yīng)于該12倍頻濾波器組中每個濾波器的中心頻率,其中對于每個有效估計,使該柱狀圖中其范圍包括該估計瞬時頻率的柱遞增所對應(yīng)的對數(shù)壓縮的估計瞬時振幅。接著,基于耳朵在不同頻率的靈敏度使該柱狀圖權(quán)值乘以一個加權(quán)函數(shù)1707。在計算該柱狀圖后,在諧波組合中對該柱狀圖中的柱能量模式求和,以檢測具有最強(qiáng)能量的最強(qiáng)諧波序列1708,其中使用該最強(qiáng)諧波序列的基頻作為基頻的估計。 如果該應(yīng)用需要更準(zhǔn)確的估計,則將窄帶通濾波器的中心設(shè)置在該估計的諧波頻率上,并重新計算1709。該過程很快收斂到高度精確的估計。最后,計算諧波能量與總能量的比值作為合聲(voicing)的量度1710,其中將該諧波的振幅比模式保存為特征,其中在自動語音識別中使用該比值?;l周期的使用在本發(fā)明的一些實(shí)施例中,通過從基頻周期對基頻周期的相對振幅,可以確定諧波軌跡的起始和結(jié)束。該諧波軌跡的振幅中的陡峭變化與該諧波和共振峰的相互作用相關(guān),并且該陡峭變化表示該相互作用的變化,其可以是由于該基頻變化或共振峰變化所導(dǎo)致的。這種變換表示過渡位置。使用前述的濾波器方法可以響應(yīng)于這些變化而產(chǎn)生事件。 要注意的是,當(dāng)這些事件發(fā)生時,它們將與聲門脈沖時間同步。聲道歸一化和軟音素片段識別在本發(fā)明的一些實(shí)施例中,應(yīng)用一種聲道歸一化和軟音素片段識別的過程以彌補(bǔ)使用共振峰模式作為特征所固有的復(fù)雜性。由說話者產(chǎn)生的共振峰模式同時地對與正在產(chǎn)生的語音和說話者的聲道長度有關(guān)的信息進(jìn)行編碼。這就導(dǎo)致使用共振峰模式作為特征變得復(fù)雜。在 Watanabe 等人撰寫的 Reliable methods for estimating relative vocal tract lengths from formant trajectories of common words, (IEEE transactions on audio, speech, and language processing, 2006, vol. 14,pp. 1193-1204)中己經(jīng)觀察至[|,產(chǎn)生同一語音的兩個說話者的共振峰具有與他們的聲道長度成反比的關(guān)系La/Lb = F1^Ff當(dāng)發(fā)出不同的語音時,說話者的聲道長度通過發(fā)音器官的動態(tài)重組而連續(xù)改變。 對于一個給定的說話者,當(dāng)產(chǎn)生每個聲音時,該共振峰將上下移動,因?yàn)樗鼈冊诟淖兟暤篱L度。將Watanabe的公式應(yīng)用到發(fā)出某個語音的說話者“A”的共振峰模式和發(fā)出相同聲音的說話者“B”的共振峰模式上,對于每個測量的共振峰,提供了對于他們的相對聲道長度的一個估計。本發(fā)明的一些方面基于以下觀察。首先,如果說話者“A”和說話者“B”正在發(fā)出相同的聲音,那么基于各個測量的共振峰的每個的相對聲道估計將近似于真實(shí)值,并且因而將彼此相似。接著,如果說話者“A”和說話者“B”在發(fā)出不同的聲音,那么基于各個測量的共振峰的每個的相對聲道的估計將偏離。此外,如果從某個語音開始的過渡包括在說話者“A”說話時拉長(縮短)聲道長度,那么它也將涉及拉長(縮短)說話者“B”的聲道長度,只是根據(jù)他們的生理不同而拉長(縮短)不同的量。在一些實(shí)施例中,對參照說話者說出的每個語音的共振峰值進(jìn)行記錄。該參照說話者的共振峰測量可以基于一個或多個說話者,優(yōu)選是作為許多說話者的測量結(jié)果的平均值。在識別時間,如前所述地處理每個片段以產(chǎn)生共振峰值。每個語音(即音素或部分音素)隨后被假定為被說出的那個,并且使用該當(dāng)前片段的共振峰值來計算當(dāng)前說話者相對于該參照說話者的相對聲道長度的估計。為每個聲音記錄該估計的一致性?;谠撘恢滦缘牧斜恚梢越⒚總€語音的相對似然度。當(dāng)該語音軌跡接近每個標(biāo)準(zhǔn)共振峰模式的目標(biāo)結(jié)構(gòu)時,該估計的一致性將增加,并且在這種目標(biāo)時間,對于所感知的語音將傾向于是最大的??捎糜谶@種感知的置信度取決于該語音和噪聲條件。當(dāng)以高置信度確定語音時,它們就變?yōu)樵撔盘栔械膮⒄拯c(diǎn),這對于約束在具有更小置信度的區(qū)域中的可能模式是有用的。串連并行自動語音識別弓丨擎本發(fā)明的一些實(shí)施例包括以時間交疊激活模式使用多個串連并行自動語音識別 (ASR)引擎來減少等待時間和提高準(zhǔn)確率。每個ASR引擎可以是相似或不相似的設(shè)計和起源,但是都必須能夠在最小切分時間幀內(nèi)的該片段的中心部分中的目標(biāo)語言中產(chǎn)生可接受的結(jié)果。通過對在每個片段中心部分期間產(chǎn)生的單詞比在開始和結(jié)束時的單詞更高地加權(quán),以及通過最佳擬合來同步該片段來分析該串連處理器的結(jié)果,并且選擇具有更高權(quán)值的單詞用于輸出。這些實(shí)施例包括在交疊音頻語音片段上使用多個ASR引擎來減少等待時間和提高準(zhǔn)確率。該串連并行方法在減少等待時間的同時提高了準(zhǔn)確率。例如,如果一個ASR隨意地在χ秒切分了一個到來的語音信號,則該輸出將會在 x/2位置處是最準(zhǔn)確的,而在該片段開始和結(jié)束時是最不準(zhǔn)確的,因?yàn)樵谠撝行奈恢冒l(fā)現(xiàn)了向前和向后方向的最高語境。根據(jù)這種觀測行為,我們就應(yīng)當(dāng)能夠使用這種信息作為杠桿, 從而簡單地以批模式運(yùn)行一個ASR引擎的η個實(shí)例,將該到來的信號切分為以χ/η秒交疊的χ秒激發(fā)(bursts),并且在每個引擎之間交替這些片段的路由。如果η = 2,當(dāng)引擎B正在工作以識別其片段時,對引擎A的輸出與之前輸出的單詞流一起分析以在統(tǒng)計上提高、 校正和輸出來自引擎A的單詞。然后,在該η秒輸入邊界,該輸出分析器和處理任務(wù)在該引擎之間切換工作。在觀察在串連配置中有用的典型ASR引擎時,我們看到當(dāng)使用一個三千單詞的 WSJ英語模型時,X顯示為在設(shè)定為3秒左右時工作最好。這就使得有可能使用這種被設(shè)計和優(yōu)化用于對較長話語進(jìn)行處理的引擎,將其修改適用于需要較少等待時間的場合。換句話說,如果χ = 3,在0.0-3. 0秒處的第一語音片段將被提供給引擎Α。然后從1. 5-4. 5秒的片段將被提供給引擎B,等等。
圖18示出了根據(jù)本發(fā)明一些實(shí)施例的在時間上交疊且對話語序列進(jìn)行操作的兩個串連處理引擎。如圖18所示,從引擎A輸出單詞“is falling from the sky”,從引擎B 輸出“done the sky today at”。通過應(yīng)用對每個片段末端的每個單詞的權(quán)值進(jìn)行減少的統(tǒng)計方法,其考慮了對于那些單詞的可靠性因素,我們可以以3秒地固定等待時間獲得明顯連續(xù)的單詞流例如 “is falling from the sky today at”。該加權(quán)分析和輸出引擎可以包括以下種類的一個或多個算法以及其他用于判斷將哪些單詞添加到最終輸出流中的其他算法。例如,一種算法可以包括簡單地對片段的中心單詞賦予比該片段邊緣處的單詞更高的權(quán)值,從原始語音信號獲得的聲學(xué)和韻律線索, 對將要輸出的單詞進(jìn)行統(tǒng)計分析以提高更可能輸出的權(quán)值,用于選擇該更可能輸出的語法規(guī)則,或者其他機(jī)器學(xué)習(xí)和統(tǒng)計方法。自動加標(biāo)點(diǎn)器本發(fā)明的一些實(shí)施例涉及向無標(biāo)點(diǎn)文本中自動插入標(biāo)點(diǎn)符號。自動加標(biāo)點(diǎn)器是向無標(biāo)點(diǎn)文本中自動插入標(biāo)點(diǎn)符號(句號,逗號,問號,感嘆號,撇號,引號,括號,省略號,分號,冒號)的系統(tǒng)。圖19示出了根據(jù)本發(fā)明一些實(shí)施例的一種包括自動加標(biāo)點(diǎn)器的語音-文本轉(zhuǎn)換系統(tǒng)1900。在本發(fā)明的一些實(shí)施例中,無標(biāo)點(diǎn)文本可以產(chǎn)生為文本1901,或者是口語語言 1902,其隨后通過自動語音識別系統(tǒng)1903轉(zhuǎn)寫為文本。該轉(zhuǎn)寫的文本或來自1901的自然文本被發(fā)送到自動加標(biāo)點(diǎn)器1905。該自動加標(biāo)點(diǎn)器1905生成由于正確設(shè)置了標(biāo)點(diǎn)符號而更容易閱讀和更少歧義的文本。在本發(fā)明的一些實(shí)施例中,該自動加標(biāo)點(diǎn)器1905與包含訓(xùn)練數(shù)據(jù)的數(shù)據(jù)庫1904 連接。該自動加標(biāo)點(diǎn)器使用根據(jù)大量正確加標(biāo)點(diǎn)的訓(xùn)練文本訓(xùn)練過的一個或多個貝葉斯算法。該訓(xùn)練數(shù)據(jù)中的標(biāo)點(diǎn)模式被分析以生成一組描述該文本中的標(biāo)點(diǎn)模式的規(guī)則。一旦已根據(jù)足夠數(shù)量的文本訓(xùn)練過該加標(biāo)點(diǎn)器后,它的規(guī)則就能夠被應(yīng)用到新文本上以預(yù)測應(yīng)當(dāng)在哪里插入標(biāo)點(diǎn)符號。在本發(fā)明的一些實(shí)施例中,該自動加標(biāo)點(diǎn)器1905包括多個處理模塊。如圖所示, 該自動加標(biāo)點(diǎn)器包括第一統(tǒng)計處理器1906、第二統(tǒng)計處理器1907和第三統(tǒng)計處理器1908。在一些實(shí)施例中,第一統(tǒng)計處理器1906基于統(tǒng)計規(guī)則標(biāo)識應(yīng)當(dāng)插入標(biāo)點(diǎn)的地方。 執(zhí)行訓(xùn)練過程以發(fā)展這些規(guī)則。該訓(xùn)練過程包括分析大量正確加標(biāo)點(diǎn)文本中的特定單詞與標(biāo)點(diǎn)符號之間的相關(guān)性。該組規(guī)則是根據(jù)這種分析得出的。然后可以將該組規(guī)則應(yīng)用到新的無標(biāo)點(diǎn)文本上,以預(yù)測標(biāo)點(diǎn)符號的可能位置。該過程的輸出是關(guān)于應(yīng)當(dāng)在哪里插入標(biāo)點(diǎn)符號的一系列意見。在一些實(shí)施例中,該第二統(tǒng)計處理器1907對于詞性(parts-of-speech)與標(biāo)點(diǎn)符號之間的相關(guān)性進(jìn)行訓(xùn)練。該過程依賴于詞性標(biāo)記器,該詞性標(biāo)記器分析訓(xùn)練數(shù)據(jù)中的句子結(jié)構(gòu)并且為每個單詞分配一個詞性標(biāo)簽。詞性標(biāo)簽的例子是名詞、動詞、形容詞、介詞等。然后該過程基于其對特定詞性如何與標(biāo)點(diǎn)符號相關(guān)的觀察結(jié)果建立一組規(guī)則。然后可以將該組規(guī)則應(yīng)用到新文本上。該過程的輸出是關(guān)于應(yīng)當(dāng)在文本的何處插入標(biāo)點(diǎn)符號的一系列意見。在一些實(shí)施例中,第三統(tǒng)計處理器1908基于平均句子長度來使用加權(quán)。統(tǒng)計加標(biāo)點(diǎn)器的第三個組件是基于通常構(gòu)成特定文本中的句子的單詞數(shù)量。與其他過程類似,它根據(jù)大量正確加標(biāo)點(diǎn)的文本進(jìn)行訓(xùn)練?;谠谝詷?biāo)點(diǎn)限定邊界的文本單元中出現(xiàn)的n-gram 數(shù)量來發(fā)展規(guī)則。在本發(fā)明的一些實(shí)施例中,來自第一統(tǒng)計處理器1906和第二統(tǒng)計處理器1907的結(jié)果是兩組關(guān)于應(yīng)當(dāng)在文本何處插入標(biāo)點(diǎn)符號的一系列意見。然后使用來自第三統(tǒng)計處理器1908的結(jié)果作為一種連接中斷器(tie-breaker),以解決當(dāng)判定發(fā)生沖突的情形。例如,如果第一統(tǒng)計處理器1906預(yù)測在一個文本串的第五個單詞后需要句號,而第二統(tǒng)計處理器1907預(yù)測在第三個單詞后需要句號,則來自第三統(tǒng)計處理器1908的結(jié)果將被調(diào)用以做出決定,因?yàn)椴豢赡軆烧叨颊_,因?yàn)閷纬蓛蓚€單詞的句子。在一些實(shí)施例中,第三統(tǒng)計處理器1908基于它對這種文檔中的典型句子長度的知識,為來自第一統(tǒng)計處理器1906或第二統(tǒng)計處理器1907的結(jié)果分配更高的權(quán)值。如果該文檔類型中的句子典型地為非常短,則第三統(tǒng)計處理器1908可能對第二統(tǒng)計處理器1907 的輸出分配更大的權(quán)值。另一方面,如果該文檔類型中的句子通常為5個單詞或更長,則它將為第一統(tǒng)計處理器1906生成的意見分配更大的權(quán)值。一旦完成該決定做出步驟,就將該結(jié)果傳送到?jīng)Q定模塊1909,其將做出與來自基于規(guī)則的加標(biāo)點(diǎn)模塊1910和基頻/暫停模塊1911的信息一致的、關(guān)于在哪里插入標(biāo)點(diǎn)的最終決定。在一些實(shí)施例中,基于規(guī)則的加標(biāo)點(diǎn)模塊1910使用一組關(guān)于語言學(xué)結(jié)構(gòu)的規(guī)則來判斷應(yīng)當(dāng)在文本何處插入標(biāo)點(diǎn)符號。該基于規(guī)則的加標(biāo)點(diǎn)模塊1910與詞典數(shù)據(jù)庫1916 連接。該基于規(guī)則的加標(biāo)點(diǎn)模塊1910可以標(biāo)識出單詞的多個功能類型,包括主格代詞、 賓格代詞、關(guān)系代詞、情態(tài)詞、連詞、定冠詞、日期和特定種類動詞。在一些實(shí)施例中,該詞典數(shù)據(jù)庫1916包括詞性信息。一旦該程序已經(jīng)標(biāo)識出功能種類之一的成員,它就繼續(xù)搜索附近的語境,考察包括該標(biāo)識項的文本窗以及之前和之后的兩個單詞。出現(xiàn)在語境窗中的單詞的特定種類或詞性將指示在該文本串中的一些點(diǎn)需要逗號。該語言學(xué)規(guī)則用作關(guān)于應(yīng)當(dāng)在哪里插入逗號的指示列表。例如,當(dāng)該程序標(biāo)識出主格代詞(I,he, she, we, they),它就檢查該語境窗是否出現(xiàn)其他種類。例如,如果主格代詞前面是一個副詞或分詞(預(yù)計會具有某些動詞分詞), 則該程序?qū)㈩A(yù)測在該標(biāo)識單詞前面的單詞后應(yīng)當(dāng)是逗號。該基于規(guī)則的加標(biāo)點(diǎn)器可以處理文本流或預(yù)先存在的文本文件。該基于規(guī)則的加標(biāo)點(diǎn)器的輸出是一系列關(guān)于應(yīng)當(dāng)在哪里插入逗號的意見。在一些實(shí)施例中,基頻/暫停模塊1911與其他組件不同,因?yàn)樗妮斎胧前祟愓Z音的音頻文件。其他組件對文本操作,雖然該文本可以源于音頻數(shù)據(jù),這種音頻數(shù)據(jù)隨后再轉(zhuǎn)寫。該基頻/暫停模塊1911是基于以下觀察結(jié)果操作的在人類語音中,在較短時間段內(nèi)發(fā)生并且與一段靜音時間相關(guān)的顯著基頻變化通常表示需要標(biāo)點(diǎn)。例如,如果該音頻文件中的給定點(diǎn)顯示在較短時間段(275ms)中出現(xiàn)了基頻陡降(30%或更多),這就是說話者到達(dá)句子末尾的一種可能標(biāo)志。按照這種模式的暫停存在傾向于確定已經(jīng)識別出標(biāo)點(diǎn)符號的位置。當(dāng)已經(jīng)遇到指示標(biāo)點(diǎn)的正確條件時,該基頻/暫停加標(biāo)點(diǎn)器追蹤音頻文件和信號的基頻。該基頻/暫停加標(biāo)點(diǎn)器輸出關(guān)于應(yīng)當(dāng)在哪里插入標(biāo)點(diǎn)符號的意見。
在一些實(shí)施例中,決定模塊1909接收來自自動加標(biāo)點(diǎn)器1905、基于規(guī)則的加標(biāo)點(diǎn)器1910和基頻/暫停模塊1911的輸入?;谠撐谋绢愋偷囊阎匦?,該決定模塊1909向這些結(jié)果中的每個分配更高或更低的權(quán)值以作出關(guān)于是否應(yīng)當(dāng)在該文本中的給定點(diǎn)插入標(biāo)點(diǎn)的最終判斷。
權(quán)利要求
1.一種語音識別引擎,包括聲學(xué)分析器,用于接收和數(shù)字化語音編碼信號;事件提取器,用于從所述語音信號中提取事件,其中所述事件或事件模式與語音識別高度相關(guān);和連接到所述事件提取器的語音識別模塊,其中所述語音識別模塊響應(yīng)于所檢測的內(nèi)容,使用所述事件發(fā)起至少一個操作。
2.如權(quán)利要求1所述的語音識別引擎,其中所述發(fā)起的操作是將所述信號的語音內(nèi)容轉(zhuǎn)換為至少一個文本流。
3.如權(quán)利要求1所述的語音識別引擎,其中所述發(fā)起的操作是當(dāng)檢測到特定單詞時壓縮系統(tǒng)的音頻輸出。
4.如權(quán)利要求1所述的語音識別引擎,其中所述發(fā)起的操作是響應(yīng)于所檢測的命令。
5.如權(quán)利要求1所述的語音識別引擎,其中所述事件提取器還包括已知類型的數(shù)字化語音話語的訓(xùn)練語料庫;多個弱檢測器,其中每個弱檢測器包括一種確定事件存在的方法;和組成檢測器組的裝置,所述檢測器組包括一組弱檢測器,其一起工作時比包含的任一個弱檢測器都能更好地確定事件存在。
6.如權(quán)利要求5所述的語音識別引擎,其中使用增強(qiáng)算法迭代生成所述檢測器組,從而形成增強(qiáng)的檢測器組。
7.如權(quán)利要求6所述的語音識別引擎,其中所述事件提取器包括用于簡化所述增強(qiáng)的檢測器組的裝置,從而形成簡化的檢測器組。
8.如權(quán)利要求7所述的語音識別引擎,其中所述事件提取器包括用于將所述簡化的檢測器組自動轉(zhuǎn)換為級聯(lián)檢測器的裝置。
9.如權(quán)利要求1所述的語音識別引擎,其中所述事件提取器還包括用于將語音分類為感知聚類并在替代感知之間消除歧義的裝置。
10.如權(quán)利要求1所述的語音識別引擎,其中所述事件提取器還包括弱區(qū)域排除器,用于排除數(shù)字化語音信號中不包含事件和不可能獲得健壯檢測器的區(qū)域。
11.如權(quán)利要求1所述的語音識別引擎,其中所述事件提取器還包括事件序列識別器, 其中所述事件序列識別器檢測事件序列。
12.如權(quán)利要求1所述的語音識別引擎,其中所述事件提取器還包括替代征兆檢測器, 其配置成例如在該語音信號的特征方面被破壞時,識別替代的語音征兆以增強(qiáng)識別。
13.如權(quán)利要求1所述的語音識別引擎,還包括信號同步引擎,其包括預(yù)切分濾波器,其定義用于同步特征計算的間隔;基于所述間隔的感知差別而切分所述數(shù)字化信號從而形成切分信號的裝置;和特征提取器,用于從所述切分信號中提取相對于事件的特征。
14.如權(quán)利要求1所述的語音識別引擎,還包括自動加標(biāo)點(diǎn)器,用于向至少一個文本流中自動插入標(biāo)點(diǎn)。
15.一種語音識別方法,包括基于訓(xùn)練實(shí)例估計對于弱分類器的訓(xùn)練;構(gòu)造檢測器組;接收語音信號; 數(shù)字化所述語音信號;使用所述弱檢測器組處理所述語音信號,從而識別至少一個事件的存在,其中所述事件包括在所述語音信號中的與語音識別高度相關(guān)的模式;和處理所述事件以識別語音。
16.如權(quán)利要求15所述的方法,其中該構(gòu)造檢測器組的步驟包括以下步驟 存儲多個語音信號,其中所述語音信號包括存儲在自動語音識別系統(tǒng)中的訓(xùn)練實(shí)例; 從所述多個語音信號中提取事件模式,其中所述事件模式包括所述語音信號中的區(qū)別特征位置;訪問所述多個語音信號中具有匹配事件模式的采樣;對齊所述采樣之中的單個語音信號中的事件,其中所述對齊包括基于所述匹配事件模式,在時間上排列來自所述單個語音信號的所述事件; 可選地將所述單個信號縮放到共同的時間長度; 評估多個弱檢測器檢測所述事件模式的效率;基于所述弱檢測器的相對有效性對所述多個弱檢測器應(yīng)用加權(quán)方案,其中對最有效的弱檢測器加權(quán)最高;將至少一個額外的弱檢測器添加到所述多個弱檢測器中;和迭代以下所述步驟訪問所述多個語音信號中具有匹配事件模式的采樣;對齊所述采樣之中的單個語音信號中的事件;可選地將所述單個信號縮放到共同的時間長度;評估多個弱檢測器檢測所述事件模式的效率;基于所述弱檢測器的相對有效性對所述多個弱檢測器應(yīng)用加權(quán)方案;和將至少一個額外的弱檢測器添加到所述多個弱檢測器中;其中執(zhí)行所述迭代步驟直到所述加權(quán)方案檢測所述事件模式的所述有效性達(dá)到了設(shè)定的有效性標(biāo)準(zhǔn)。
17.如權(quán)利要求16所述的方法,其中訪問所述多個語音信號中具有匹配事件模式的采樣的步驟還包括自動標(biāo)識所述多個語音信號中包含所述事件模式的區(qū)域,其包括以下步驟相對于共同的時間軸對齊所述多個語音信號; 可選地將所述多個語音信號中的每個單個語音信號的時長縮放到1 ; 將所述單個語音信號的音節(jié)中心和/或其他事件位置以投影音節(jié)中心和投影事件位置的形式投影到所述時間軸上;和以所述多個語音信號中包含所述事件模式的區(qū)域的形式,在所述時間軸上標(biāo)識具有一定密集度的音節(jié)中心或其他事件位置的區(qū)域。
18.如權(quán)利要求15所述的方法,其中訪問所述多個語音信號中具有匹配事件模式的采樣的步驟還包括自動標(biāo)識所述多個語音信號中包含所述事件模式的區(qū)域,其包括以下步驟訪問訓(xùn)練集;將所述語音信號轉(zhuǎn)換為包含有效訓(xùn)練實(shí)例中的所有事件的時間軌跡空間區(qū)域; 對于全部所述區(qū)域計算無效實(shí)例的數(shù)量; 從無效訓(xùn)練實(shí)例中選擇該時間軌跡空間的具有最少事件的區(qū)域; 通過進(jìn)一步的考慮在該選擇區(qū)域中去除不具有事件的無效實(shí)例;和重復(fù)以下步驟在每個區(qū)域中計算剩余無效實(shí)例中的事件的數(shù)量; 從無效訓(xùn)練實(shí)例中選擇該時間軌跡空間的具有最少事件的區(qū)域;和通過進(jìn)一步的考慮在該選擇區(qū)域中去除不具有事件的無效實(shí)例; 直到生成根據(jù)所述訓(xùn)練集獲得完美結(jié)果的級聯(lián)。
19.一種用于操作串連的兩個或更多語音識別系統(tǒng)的方法,其中所述兩個或更多語音識別系統(tǒng)在交疊的時間間隔上檢測和分析語音信號,所述方法包括配置在每個語音識別引擎中使用的時間間隔,其中所述間隔是可重置的; 配置該間隔的交疊,其中該交疊是可重置的,并且其中將該交疊設(shè)置為反映所述語音信號的信息最豐富部分;在所述語音識別引擎之間路由所述檢測和分析;對所述語音識別引擎的結(jié)果加權(quán),其中對取自該間隔中間部分的結(jié)果賦予更高的權(quán)值,并且對于單個時間間隔內(nèi)的單詞標(biāo)識生成至少兩個意見;和判斷該至少兩個意見中的哪一個意見更好地估計所述語音信號的文本表示。
20.一種語音識別引擎,包括聲學(xué)分析器,用于接收語音信號并以數(shù)字話語形式數(shù)字化該語音信號; 連接到所述聲學(xué)分析器的語音識別模塊,其中所述語音識別模塊將所述數(shù)字話語轉(zhuǎn)換為至少一個文本流;自動加標(biāo)點(diǎn)引擎,其與包含訓(xùn)練數(shù)據(jù)的數(shù)據(jù)庫連接,其中所述自動加標(biāo)點(diǎn)引擎包括至少一個統(tǒng)計處理器,該統(tǒng)計處理器用于使用所述訓(xùn)練數(shù)據(jù)以基于統(tǒng)計的標(biāo)點(diǎn)文本形式向所述文本流中添加標(biāo)點(diǎn);基于規(guī)則的加標(biāo)點(diǎn)器,其與詞典規(guī)則數(shù)據(jù)庫連接,其中所述基于規(guī)則的加標(biāo)點(diǎn)器使用來自所述詞典規(guī)則數(shù)據(jù)庫的規(guī)則以基于規(guī)則的標(biāo)點(diǎn)文本形式向所述文本流中添加標(biāo)點(diǎn);和決定模塊,用于判斷所述加標(biāo)點(diǎn)文本和所述基于統(tǒng)計的標(biāo)點(diǎn)文本中的哪一個產(chǎn)生了更好的加標(biāo)點(diǎn)結(jié)果。
全文摘要
通過以下操作以接近實(shí)時的方式執(zhí)行和改進(jìn)語音識別利用事件和事件序列,應(yīng)用包括增強(qiáng)分類器、組合、檢測器和級聯(lián)的機(jī)器學(xué)習(xí)技術(shù),和使用感知聚類。還使用串連的處理來改進(jìn)語音識別。一種自動加標(biāo)點(diǎn)器將標(biāo)點(diǎn)插入到所識別的文本流中。
文檔編號G10L15/16GK102227767SQ200980148155
公開日2011年10月26日 申請日期2009年11月12日 優(yōu)先權(quán)日2008年11月12日
發(fā)明者沙洛克·馬坎范德, 瑪麗·弗拉納根, 老戴維·品森, 馬克·品森 申請人:Scti控股公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
息烽县| 定安县| 疏附县| 嘉祥县| 同心县| 当阳市| 永平县| 佛学| 鹤峰县| 本溪| 沙田区| 阜城县| 正镶白旗| 饶阳县| 大英县| 宁津县| 肇东市| 阿尔山市| 冕宁县| 米易县| 喀喇沁旗| 托克逊县| 济阳县| 民乐县| 上栗县| 阿合奇县| 崇明县| 小金县| 福海县| 安宁市| 尉氏县| 香格里拉县| 军事| 孝义市| 吴江市| 汝南县| 酒泉市| 嵊泗县| 中山市| 静宁县| 蒙自县|