專利名稱:語音信號檢測系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及一種語音信號檢測系統(tǒng)及方法,具體地講,涉及一種使用時間軸上的峰值信息來檢測語音信號的語音信號檢測系統(tǒng)及方法。
背景技術(shù):
最近,對使用語音信號的系統(tǒng)的開發(fā)日益增加,在該使用語音信號的系統(tǒng)中,基于語音信號執(zhí)行各種處理,諸如編碼、識別和增強。因此,對準(zhǔn)確檢測語音信號的方法的研究也越來越多。
檢測語音信號的兩種傳統(tǒng)方法是使用輸入信號的能量的方法和使用零交叉率的方法。使用能量的方法是這樣一種方法測量輸入信號的能量,并且如果測量出的能量值較高則檢測測量出的能量較高的部分作為語音信號。使用零交叉率的方法是這樣一種方法測量輸入信號的零交叉率,并檢測零交叉率較高的部分作為語音信號。最近,為了增加語音信號檢測的準(zhǔn)確性,也在頻繁使用一種將上述兩種方法組合的方法。
在輸入信號中包括噪聲信號的情況下,上述兩種方法的準(zhǔn)確性較低。例如,由于檢測測量出的能量值較高的部分作為語音信號的方法未考慮到因噪聲而導(dǎo)致的能量,因此,如果因噪聲而導(dǎo)致的能量較高,則可能將噪聲信號識別為語音信號,反之亦然。
另外,由于檢測零交叉率較高的部分作為語音信號的方法不能確定零交叉率是由噪聲信號導(dǎo)致的還是由語音信號導(dǎo)致的,所以如果因噪聲信號而導(dǎo)致零交叉率較高,則可能將噪聲信號識別為語音信號,反之亦然。
在上述方法中,識別為語音信號的噪聲信號被稱為加性誤差,識別為噪聲信號的語音信號被稱為減性誤差。對于加性誤差,能夠通過另外的處理來消除噪聲信號。然而,對于減性誤差,由于語音信號已被識別為噪聲信號并被消除,所以在多數(shù)情況下無法恢復(fù)語音信號。因此,需要一種從根本上防止減性誤差的語音檢測技術(shù)。
另外,多數(shù)的傳統(tǒng)語音信號檢測方法以幀為單位對語音信號進(jìn)行檢測。在這種情況下,即使在比幀單位小的單位中發(fā)生誤差,仍將該誤差識別為幀單位的誤差。另外,由于上述傳統(tǒng)語音信號檢測方法使用固定的方法來檢測語音信號,所以如果確定的算法失敗,則因為該失敗而導(dǎo)致誤差被傳遞至后續(xù)階段的處理,由此導(dǎo)致多級誤差。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決至少上述問題和/或缺點,并提供至少以下的優(yōu)點。因此,本發(fā)明的目的在于提供一種在存在噪聲的狀態(tài)下正確檢測語音信號的語音信號檢測系統(tǒng)以及該語音信號檢測系統(tǒng)中使用時間軸的峰值信息的語音信號檢測方法。
本發(fā)明的另一目的在于提供一種防止導(dǎo)致將語音信號識別為噪聲信號的減性誤差的語音信號檢測系統(tǒng)以及該語音信號檢測系統(tǒng)中使用時間軸的峰值信息的語音信號檢測方法。
本發(fā)明的另一目的在于提供一種通過以采樣為單位而非以幀為單位來檢測語音信號從而接收較少誤差的語音信號檢測系統(tǒng)以及該語音信號檢測系統(tǒng)中使用時間軸的峰值信息的語音信號檢測方法。
本發(fā)明的另一目的在于提供一種防止誤差累積從而在先前語音信號檢測中產(chǎn)生的誤差不影響當(dāng)前語音信號檢測的語音信號檢測系統(tǒng)以及該語音信號檢測系統(tǒng)中使用時間軸的峰值信息的語音信號檢測方法。
根據(jù)本發(fā)明,提供了一種語音信號檢測系統(tǒng),包括峰值提取器,用于從輸入信號提取峰值;峰值檢測器,用于將每個提取的峰值的電壓電平與閾值電壓電平比較,并將比較結(jié)果轉(zhuǎn)換成二進(jìn)制序列;微事件檢測器,用于確定用于檢查轉(zhuǎn)換的二進(jìn)制序列的測試窗的長度,并以測試窗長度為單位檢測微事件;微事件鏈接模塊,用于鏈接檢測出的微事件;和語音信號開始點和結(jié)束點檢測器,用于通過檢測鏈接的微事件的開始點和結(jié)束點來確定語音信號的開始點和結(jié)束點。
根據(jù)本發(fā)明,提供了一種語音信號檢測方法,包括下述步驟從輸入信號提取峰值;將每個提取的峰值的電壓電平與閾值電壓電平比較,并將比較結(jié)果轉(zhuǎn)換成二進(jìn)制序列;確定用于檢查轉(zhuǎn)換的二進(jìn)制序列的測試窗的長度,并以測試窗長度為單位檢測微事件;鏈接檢測出的微事件;和通過檢測鏈接的微事件的開始點和結(jié)束點來確定語音信號的開始點和結(jié)束點。
通過下面結(jié)合附圖進(jìn)行的詳細(xì)描述,本發(fā)明的以上和其他目的、特點和優(yōu)點將會變得更加清楚,其中圖1是根據(jù)本發(fā)明的語音信號檢測系統(tǒng)的方框圖;圖2是表示根據(jù)本發(fā)明使用背景噪聲的峰值分布來確定閾值電壓電平的過程的流程圖;圖3A和圖3B是表示根據(jù)本發(fā)明的背景噪聲信號的峰值和峰值的電壓電平的直方圖;圖4是表示根據(jù)本發(fā)明的使用閾值電壓電平的語音信號檢測方法的流程圖;圖5A和圖5B是根據(jù)本發(fā)明的背景噪聲信號的峰值的概率密度函數(shù)的曲線圖;圖6是根據(jù)本發(fā)明的純噪聲信號(noise-only signal)和信號加噪聲信號(signal-plus-noise signal)的概率密度函數(shù)的曲線圖;圖7A至7C是表示根據(jù)本發(fā)明的通過使用各種設(shè)置來檢測語音信號所獲得的結(jié)果的曲線圖。
具體實施例方式
這里,將在下文參照附圖對本發(fā)明的優(yōu)選實施例進(jìn)行描述。在附圖中,相同或相似的部件即使在不同的圖中被描述,但仍由相同的標(biāo)號來表示。在下面的描述中,為了清楚和簡明而未對公知功能或結(jié)構(gòu)進(jìn)行詳細(xì)描述。
圖1是根據(jù)本發(fā)明的語音信號檢測系統(tǒng)的方框圖。參照圖1,該語音信號檢測系統(tǒng)包括峰值提取器102、背景噪聲直方圖產(chǎn)生器122、峰值檢測閾值電壓電平確定器124、峰值檢測器104、微事件檢測器106、微事件鏈接模塊108以及語音開始點和結(jié)束點確定器110。
峰值提取器102確定用于提取輸入信號的峰值的窗長度T,并從輸入信號提取峰值。在本實施例中,當(dāng)在輸入信號中僅存在背景噪聲時(虛假設(shè),nullhypothesis),輸入信號由H0表示,并且當(dāng)在輸入信號中背景噪聲和語音并存時(假設(shè),alternative hypothesis),輸入信號由H1表示。
背景噪聲直方圖產(chǎn)生器122使用從其中僅存在背景噪聲的輸入信號提取的峰值和提取的峰值的電壓電平來產(chǎn)生直方圖。也就是說,背景噪聲直方圖產(chǎn)生器122使用從其中僅存在背景噪聲的輸入信號提取的峰值和提取的峰值的電壓電平來產(chǎn)生表示峰值幅度的概率密度函數(shù)(PDF)的估計值的直方圖。
峰值檢測閾值電壓電平確定器124使用從其中僅存在背景噪聲的輸入信號提取的峰值的電壓電平的直方圖來確定與預(yù)設(shè)的峰值計數(shù)比(peak countratio)r對應(yīng)的閾值電壓電平L。例如,如果假定從其中僅存在背景噪聲的輸入信號提取的峰值的數(shù)量是100,則當(dāng)r是0.05時,峰值檢測閾值電壓電平確定器124確定閾值電壓電平L以使得具有比閾值電壓電平L大的電壓電平的峰值的數(shù)量為5,并且r是0.02時,峰值檢測閾值電壓電平確定器124確定閾值電壓電平L以使得具有比閾值電壓電平L大的電壓電平的峰值的數(shù)量為2。
大于閾值電壓電平L的部分中的峰值的存在概率能夠使用方程1中所示的二項系數(shù)(binominal coefficient)之和來計算,基于這種情況,能夠確定閾值電壓電平L。
P(r,N,W)=Σi=NWWiri(1-r)W-i···(1)]]>在方程1中,W表示按一個峰值移動的測試窗的長度,r表示具有比閾值電壓電平L大的電壓電平的峰值的數(shù)量與提取的峰值的數(shù)量之比,P表示具有長度W的峰值序列包含多于N個的具有比閾值電壓電平L大的電壓電平的峰值的概率。
如果確定了閾值電壓電平L,則峰值檢測器104將從其中背景噪聲和語音并存的輸入信號提取的峰值的電壓電平與確定的閾值電壓電平L比較,并檢測具有比閾值電壓電平L大的電壓電平的峰值。峰值檢測器104根據(jù)從其中背景噪聲和語音并存的輸入信號提取的峰值序列的電壓電平是否大于閾值電壓電平L來將該峰值序列轉(zhuǎn)換成二進(jìn)制序列。也就是說,如果從其中背景噪聲和語音并存的輸入信號提取的峰值序列的電壓電平大于閾值電壓電平L,則該電壓電平被轉(zhuǎn)換成“1”,并且如果從其中背景噪聲和語音并存的輸入信號提取的峰值序列的電壓電平小于閾值電壓電平L,則該電壓電平被轉(zhuǎn)換成“0”。例如,該峰值序列被轉(zhuǎn)換成二進(jìn)制序列“1100011110001111”,該二進(jìn)制序列被輸入給微事件檢測器106。
微事件檢測器106檢測用于檢查輸入的二進(jìn)制序列的測試窗長度W,并通過以測試窗長度為單位檢查輸入的二進(jìn)制序列來在每個測試窗中獲得具有值“1”的峰值的數(shù)量。當(dāng)每個測試窗中的全部峰值之中具有值“1”的峰值的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量時,微事件檢測器106將這樣的結(jié)果檢測為微事件。
例如,在本實施例中,可以確定當(dāng)測試窗長度W被設(shè)置為4峰值長度時,如果在測試窗中存在3個具有值“1”的峰值,則微事件檢測器106檢測這樣的結(jié)果作為微事件。另外,可以確定當(dāng)測試窗長度W被設(shè)置為5峰值長度時,如果在測試窗中存在3個具有值“1”的峰值,則微事件檢測器106檢測這樣的結(jié)果作為微事件。微事件可以是能夠被檢測為語音的峰值的最小單位,并且作為語音檢測的單位檢測出的微事件被輸入給微事件鏈接模塊108。
微事件鏈接模塊108將輸入的微事件之中彼此滿足時間關(guān)系閾值的微事件鏈接。這里,鏈接的微事件的鏈條對應(yīng)于發(fā)音的各部分。
當(dāng)鏈接微事件時,如果在鏈接的微事件之間存在間隙,則在鏈接的微事件和原始語音信號之間出現(xiàn)差異,由此導(dǎo)致原始語音信號的開始點和結(jié)束點的檢測中的不確定性。為了解決這個問題,需要用于鏈接微事件的鏈接準(zhǔn)則。可參照下面的參考文獻(xiàn)中對語音屬性和時間一致性的研究來確定鏈接準(zhǔn)則B.Reaves,“Comments onAn Improved Endpoint Detector for Isolated WordRecognition”,IEEE Transactions on Signal Processing,Vol.39 No.2,F(xiàn)ebruary1991。(以下簡稱為Reaves)在Reaves中,描述了這樣的特征兩個分離的語音信號能夠被鏈接。在本實施例中,最好按照40ms的鏈接規(guī)則來鏈接語音信號。也就是說,如果兩個微事件之間的間隙在40ms之內(nèi),則鏈接這兩個微事件(實際上,可以在25-150ms的范圍中鏈接這兩個微事件)。這里,鏈接閾值能夠根據(jù)L或r來改變。如上所述,根據(jù)鏈接規(guī)則鏈接的微事件被輸入給語音開始點和結(jié)束點確定器110。
語音開始點和結(jié)束點確定器110檢測鏈接的微事件的開始點和結(jié)束點。語音開始點和結(jié)束點確定器110能夠根據(jù)語音信號的特性來控制鏈接的微事件的開始點和結(jié)束點的檢測的準(zhǔn)確性。例如,根據(jù)語音信號的特性非常準(zhǔn)確地檢測鏈接的微事件的開始點和結(jié)束點(最佳),或者按照滿足檢測結(jié)果不影響語音信號檢測的性能的這種條件的準(zhǔn)確性檢測鏈接的微事件的開始點和結(jié)束點(次佳)。語音開始點和結(jié)束點確定器110使用檢測出的鏈接的微事件的開始點和結(jié)束點來確定語音信號的開始點和結(jié)束點,并使用確定的語音信號的開始點和結(jié)束點來從其中并存有背景噪聲和語音的輸入信號檢測語音信號部分。
具有上述結(jié)構(gòu)的根據(jù)本發(fā)明的語音信號檢測系統(tǒng)在僅存在背景噪聲的情況下使用背景噪聲的峰值分布來確定峰值計數(shù)比r,確定與峰值計數(shù)比r對應(yīng)的閾值電壓電平L,從包括在背景噪聲和語音并存的輸入信號中的與語音信號對應(yīng)的峰值之中檢測具有比確定的閾值電壓電平L大的電壓電平的峰值,并通過從與語音信號對應(yīng)的峰值檢測語音的開始點和結(jié)束點來檢測語音。
因此,由于根據(jù)本實施例的語音信號檢測系統(tǒng)使用輸入信號的時間軸的峰值信息來檢測語音信號,所以計算量最小并且背景噪聲的影響最小,最優(yōu)的語音信號檢測方法能夠應(yīng)用于各種噪聲環(huán)境。
圖2是表示根據(jù)本發(fā)明使用背景噪聲的峰值分布來確定閾值電壓電平L的過程的流程圖。
參照圖2,在步驟202中,語音信號檢測系統(tǒng)接收其中僅存在背景噪聲信號的輸入信號,并提取背景噪聲信號的峰值。
在步驟204中,語音信號檢測系統(tǒng)使用背景噪聲信號的峰值和該峰值的電壓電平來產(chǎn)生直方圖。
在步驟206中,語音信號檢測系統(tǒng)根據(jù)預(yù)設(shè)的峰值計數(shù)比r來確定閾值電壓電平L,以便在如圖3B中所示的全部背景噪聲的峰值分布中與峰值計數(shù)比r對應(yīng)的峰值大于閾值電壓電平L。
在確定閾值電壓電平L之后,語音信號檢測系統(tǒng)通過使用確定的閾值電壓電平L確定包括在輸入信號中的語音信號的開始點和結(jié)束點來檢測語音。
圖3A和圖3B表示背景噪聲信號的峰值和該峰值的電壓電平的直方圖。在圖3A和圖3B中,水平軸表示電壓電平,垂直軸表示峰值分布。圖3A表示根據(jù)電壓電平的峰值分布。
圖4是表示根據(jù)本發(fā)明的使用閾值電壓電平L的語音信號檢測方法的流程圖。參照圖4,在步驟212中,語音信號檢測系統(tǒng)接收信號。在步驟214中,該系統(tǒng)確定用于提取輸入信號的峰值的窗長度T。
在步驟216中,該系統(tǒng)基于確定的窗長度T從輸入信號提取峰值。在步驟218中,該系統(tǒng)通過將提取的峰值的電壓電平與閾值電壓電平L比較來檢測具有比閾值電壓電平L大的電壓電平的峰值。
在步驟220中,語音信號檢測系統(tǒng)根據(jù)檢測出的峰值序列的電壓電平是否大于閾值電壓電平L來將檢測出的峰值序列轉(zhuǎn)換成二進(jìn)制序列。這里,如果從輸入信號提取的峰值序列的電壓電平大于閾值電壓電平L,則該電壓電平被轉(zhuǎn)換成“1”,并且如果從輸入信號提取的峰值序列的電壓電平小于閾值電壓電平L,則該電壓電平被轉(zhuǎn)換成“0”。例如,該峰值序列被轉(zhuǎn)換成二進(jìn)制序列“1100011110001111”。
在步驟222中,語音信號檢測系統(tǒng)使用轉(zhuǎn)換的二進(jìn)制序列來檢測微事件。也就是說,檢測用于檢查輸入的二進(jìn)制序列的測試窗長度W,并通過以測試窗長度為單位檢查輸入的二進(jìn)制序列來在每個測試窗中獲得具有值“1”的峰值的數(shù)量。當(dāng)每個測試窗中的全部峰值之中具有值“1”的峰值的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量時,微事件檢測器106檢測這樣的結(jié)果作為微事件。微事件可以是能夠被檢測為語音的峰值的最小單位。
在檢測微事件之后,在步驟224中,語音信號檢測系統(tǒng)鏈接微事件。這里,鏈接的微事件的鏈條對應(yīng)于發(fā)音的各部分。當(dāng)鏈接微事件時,如果在鏈接的微事件之間存在間隙,則在鏈接的微事件和原始語音信號之間出現(xiàn)差異,由此導(dǎo)致原始語音信號的開始點和結(jié)束點的檢測中的不確定性。為了解決這個問題,設(shè)置了鏈接微事件的鏈接準(zhǔn)則,并且如果滿足了該鏈接準(zhǔn)則則執(zhí)行鏈接處理。在本實施例中,如果兩個微事件之間的間隙在40ms之內(nèi),則鏈接這兩個微事件(實際上,可以在25-150ms的范圍中鏈接這兩個微事件)。
在根據(jù)鏈接準(zhǔn)則鏈接微事件之后,在步驟226中,語音信號檢測系統(tǒng)檢測鏈接的微事件的開始點和結(jié)束點。這里,能夠根據(jù)語音信號的特性來控制鏈接的微事件的開始點和結(jié)束點的檢測的準(zhǔn)確性。語音信號檢測系統(tǒng)使用檢測出的鏈接的微事件的開始點和結(jié)束點來確定語音信號的開始點和結(jié)束點。
在步驟228中,語音信號檢測系統(tǒng)使用確定的語音信號的開始點和結(jié)束點來從輸入信號檢測語音信號部分。
語音信號檢測系統(tǒng)在僅存在背景噪聲的情況下使用背景噪聲的峰值分布來確定峰值計數(shù)比r,確定與峰值計數(shù)比r對應(yīng)的閾值電壓電平L,從包括在輸入信號中的與語音信號對應(yīng)的峰值之中檢測具有比確定的閾值電壓電平L大的電壓電平的峰值,并通過從與語音信號對應(yīng)的峰值檢測語音的開始點和結(jié)束點來檢測語音。
因此,由于語音信號檢測系統(tǒng)使用輸入信號的時間軸的峰值信息來檢測語音信號,所以計算量最小并且背景噪聲的影響最小,最優(yōu)的語音信號檢測方法能夠應(yīng)用于各種噪聲環(huán)境。
現(xiàn)在將更詳細(xì)地描述根據(jù)本實施例的語音信號檢測方法。語音是基于根據(jù)預(yù)設(shè)的峰值計數(shù)比r所確定的閾值電壓電平L被檢測的。通過使用參數(shù)在高斯噪聲背景中分析白色高斯信號能夠得到這種非參數(shù)處理(non-parametricprocess)的工作范圍的理論。也就是說,根據(jù)該理論,能夠非常準(zhǔn)確地檢測出高斯噪聲背景中的爆破音?,F(xiàn)在將描述能夠使用該理論選擇工作參數(shù)的分析示例。
在該語音信號檢測方法中,必須選擇關(guān)系密切的兩個參數(shù),即用于確定背景噪聲信號和輸入信號之間的幅度邊界的幅度閾值設(shè)置和峰值頻率(或產(chǎn)生率)閾值。
這里,幅度密度閾值(amplitude consistency threshold)的決定類似于聲納檢測中的通常檢測閾值。這意味著,在特定噪聲的情況下能夠使用傳統(tǒng)方法來確定本發(fā)明的檢測閾值。根據(jù)由一組N個統(tǒng)計獨立值構(gòu)成的簡單二元假設(shè),純噪聲信號和信號加噪聲信號能夠使用方程2來表示。
H0:ri=ni(i=1,2,...,N), (2)H1:ri=si+ni(i=1,2,...,N)在方程2中,信號加噪聲信號和純噪聲信號可根據(jù)白色高斯過程由方程3的密度函數(shù)來表示。
Pri|H0(X|H0)=12πσ0exp(-X22σ02)]]>Pri|H1(X|H1)=12πσ1exp(-X22σ12)]]>(3)在方程3中,即使信號增加,噪聲的平均值仍然不變。在這種情況下,信號和噪聲的平均值為0。然而,如果存在高斯信號,則噪聲具有變化量。
最常用于檢測噪聲變化的方法是通過使總的誤差最小化來確定最優(yōu)決定規(guī)則的Bayer準(zhǔn)則方法。根據(jù)最優(yōu)Bayer決定規(guī)則的中間形式由方程4來表示。
H1> (4)<Λ(R)H0η方程4是公知的似然比檢驗形式,其中,Λ(R)表示似然比,η表示似然比檢驗的幅度閾值。方程4是二元假設(shè)檢驗的基本形式。通過使用似然比檢驗,一組觀測結(jié)果r的概率比能夠由方程5來定義。
Λ(R)≡Pr|H1(R|H1)Pr|H0(R|H0)···(5)]]>通過將噪聲和信號的PDF代入經(jīng)驗值并獲得結(jié)合了經(jīng)驗值的PDF來得到似然比的經(jīng)驗形式(experimental form)。幅度閾值適合于使決定成本和先前概率的誤差最小化的Bayer準(zhǔn)則。
通常,為了設(shè)置這些項,事先需要對于信號和噪聲進(jìn)行一些假設(shè)。通過計算結(jié)合了一組N個經(jīng)驗值的密度函數(shù)來執(zhí)行獲得對于最優(yōu)決定方法可用的方程的過程。由于假設(shè)經(jīng)驗值是統(tǒng)計獨立的,所以結(jié)合的密度分布能夠用作單個的采樣密度分布。
Pr|H0(R|H0)=Πi=1N12πσ0exp(-Ri22σ02)···(6)]]>Pr|H1(R|H1)=Πi=1N12πσ1exp(-Ri22σ12)···(7)]]>如果將方程6和方程7代入至方程5和作為似然比檢驗形式的方程4,則結(jié)果可表示為方程8。
Πi=1N12πσ1exp(-Ri22σ12)H1><H0ηΠi=1N12πσ0exp(-Ri22σ02)···(8)]]>通常,可以使用包含充分統(tǒng)計值(sufficient statistic value)的形式重新整理方程8,這使得可確定標(biāo)準(zhǔn)檢測方法。
為了簡化與根據(jù)本發(fā)明的語音信號檢測方法的關(guān)系,需要方程8保持為如上所述的中間形式。
這里,在方程9中使用用于獲得錯誤警報(false alarm)的概率的噪聲的二元系數(shù)(binary coefficient)。
P(FA)=Σk=immkpnkqnm-k···(9)]]>在方程9中,qn表示成功的概率(POS),pn表示失敗的概率(POF)。
也就是說,如果方程9中的qn和pn分別是0.995和0.005,則10個峰值之中超過8個峰值大于噪聲閾值的概率是1.74E-17。在這個示例中,重要的是,確定僅存在0.5%的峰值大于噪聲閾值。為了檢測語音,通過增加POS使其大于POF,即增加qn使其大于0.005,而使得存在用于改變潛在分布狀態(tài)的信號。這種分析提供了將似然比檢驗與兩種不同的二元系數(shù)之和進(jìn)行比較的動機。
因此,在本發(fā)明中,將噪聲的二元系數(shù)與信號和噪聲的二元系數(shù)比較。使用方程10來執(zhí)行噪聲的二元系數(shù)與信號和噪聲的二元系數(shù)的比較。
Σk=inmkpskqsn-kH1><H0Σk=innkpnkqnn-k···(10)]]>在方程10中,將基于兩種不同分布(信號和噪聲)的尾部(trailing portion)區(qū)域的兩種不同的二元系數(shù)之和彼此比較。在似然比檢驗中,兩種不同的二元系數(shù)之和中的每一個是二元和(binary sum)或者充分統(tǒng)計值。
當(dāng)實際應(yīng)用本發(fā)明時,替代于使用方程10直接進(jìn)行計算,可使用查詢表來確定噪聲峰值分布的閾值設(shè)置。
所述閾值設(shè)置基于峰值直方圖,并且實際上通過峰值幅度設(shè)置而被確定。
為了使用方程10,pn和qn互相關(guān)聯(lián),其中,pn是噪聲中具有比閾值大的值的峰值的概率,qn是信號中具有比閾值大的值的峰值的概率。為此,需要一種在數(shù)學(xué)上使方程3的信號和噪聲的峰值PDF與方程10的二元參數(shù)關(guān)聯(lián)的形式。
為了得到峰值PDF,可以使用階數(shù)統(tǒng)計(Order Statistics,OS)作為方便的統(tǒng)計平臺。OS是一種用于描述數(shù)據(jù)采樣集的階數(shù)的數(shù)學(xué)統(tǒng)計方法。這里,峰值定義為三個點的集合,其中,中間值比兩側(cè)的兩個點都大。
峰值的定義引自參考文獻(xiàn),例如,‘H.J.Larson,“Introduction to ProbabilityTheory and Statistical Inference”,3rded.,NYWiley,1982.’和‘R.J.Larsen andM.L.Marx,“An Introduction to Mathematical Statistics and its Applications”2ndedition,Prentice-Hall Inc.,Engelwood Cliffs N.J.,1986.’,這里省略詳細(xì)的描述。
令X為具有概率分布函數(shù)fx(x)的連續(xù)隨機變量。如果從fx(x)抽取大小為n的隨機采樣,則i階OS的邊緣PDF由下式給出fxi(y)=n!(i-1)!(n-1)![Fx(y)]i-1[1-Fx(y)]n-1fx(y)···(11)]]>其中,1≤i≤n。
考慮從噪聲背景抽取三點大小的采樣,則興趣量(quantity of interest)是三階OS。在該定理中設(shè)置n=3,i=3并簡化給出
fx3(y)=3[Fx(y)]2fx(y)···(12)]]>方程12是對于連續(xù)隨機變量(對于幀長度3)[3]的一階峰值的PDF的解析表達(dá)式。為了得到峰值的PDF,需要插入背景噪聲的表達(dá)式,即方程(2)中示出的零均值高斯PDF。這給出了下面的三階OS的形式,fx3(y)=3[∫-∞y12πσ0exp(-x22σ02)dx]212πσ0exp(-y22σ02)···(13)]]>在方程13中,必須計算使用正交方法(quadrature technique)或變換方法(transformation approach)的積分值。在變換方法中,必須將當(dāng)前積分值變換成能夠使用可鏈接程序庫容易地計算當(dāng)前積分值的另一積分形式。
為此,可將x=tσ0變換成方程14。
dx=(σ0)dt(14)為了容易地計算方程13,可如方程15所示應(yīng)用積分的極限(limit)。
fx3(y)=3[∫-∞y2σ02πexp(-t2)dt]212πσ0exp(-y22σ02)···(15)]]>另外,可使用誤差函數(shù)將方程12的累積分布函數(shù)變換成方程16。
fx3(y)=3[12+12erf(y2σ0)]212πσ0exp(-y22σ02),for0≤y]]>fx3(y)=3[12erfc(y2σ0)]212πσ0exp(-y22σ02),for0>y]]>(16)方程16的PDF表示在圖5A、5B中。參照圖5A、5B,圖5A是使用‘三階OS’的PDF的曲線圖,圖5B是使用修正的‘三階OS’的PDF的曲線圖。
在圖5A、5B的每一個中,顯示了兩個概率密度曲線。兩個概率密度曲線之中的不規(guī)則曲線是平均值為0并且標(biāo)準(zhǔn)差為30的高斯噪聲背景的峰值的實驗概率密度曲線,該實驗概率密度曲線是通過對于高斯隨機數(shù)的序列峰值采用直方圖方法來產(chǎn)生的。
規(guī)則曲線是使用方程16產(chǎn)生的概率密度曲線,并根據(jù)‘三階OS(3rdOS)’的定義表示峰值幅度的理論概率密度曲線。
根據(jù)‘三階OS’的定義,所述不規(guī)則曲線和規(guī)則曲線必須很好地匹配,然而,由于在實驗分析中存在對‘i階OS’的定義的限制,所以這并非實際情況。理論上,‘i階OS’包括這樣的內(nèi)容‘有序集中兩個確定值不相同’(two certainvalues are not the same in an ordered set)。然而,在實驗分析中,限定為-128和+128之間的整數(shù)的8比特數(shù)字被用于存儲隨機數(shù)。由于這種限制,可能發(fā)生這樣的情況構(gòu)成峰值的三點之中的兩點相同。
為了解決這個問題,在本發(fā)明中使用指示修正的‘三階OS’的方程17。
fx3(y)=3C[Fx(y)-fx(y)]2fx(y)···(17)]]>在方程17中,C表示使方程17成為實際PDF的標(biāo)準(zhǔn)化常量。通過識別fx(y)以除0外的概率發(fā)生,方程17變?yōu)樾拚摹AOS’。
因此,為了使構(gòu)成‘三階OS’的三個點的集合最大化,必須從累積分布函數(shù)Fx(y)中減去fx(y)。
通過將三個概率相乘來計算方程17。例如,現(xiàn)在將描述這樣的情況從具有相同峰值的概率密度中選擇三個隨機數(shù)。
以概率fx(y)來選擇第一隨機數(shù),然后,選擇比第一隨機數(shù)小的第二隨機數(shù)所用的概率是[Fx(y)-fx(y)]。選擇比第一隨機數(shù)小的第三隨機數(shù)所用的概率也是[Fx(y)-fx(y)]。由于用于選擇這三個隨機數(shù)的概率是獨立的,所以通過將三個概率相乘來計算這三個隨機數(shù)的連續(xù)的概率。
存在六種滿足‘三階OS’并選擇三個隨機數(shù)的方法。然而,實際峰值對應(yīng)于這樣的情況最高點位于中間。因此,實際峰值存在的概率為2/6=1/3。因此,如果方程18以下的區(qū)域約為1/3,則標(biāo)準(zhǔn)化常量的適當(dāng)選擇為3C。
2fx(y)(18)在圖5A和圖5B中,使用了相同的實驗峰值PDF,并且使用了平均值為0并且標(biāo)準(zhǔn)差為30的高斯信號作為背景噪聲。圖5B中示出的規(guī)則曲線表示使用方程17,即C=1.029時的修正的‘三階OS’,產(chǎn)生的理論峰值PDF。這里,通過使方程17標(biāo)準(zhǔn)化并且估計反函數(shù)值以使得方程17變?yōu)楹线m的PDF來計算參數(shù)C。因此,在圖5B中,理論PDF非常準(zhǔn)確地與實驗PDF匹配。
也就是說,方程17準(zhǔn)確地與峰值PDF的實驗直方圖匹配?;谶@點,方程17能夠用于噪聲峰值和單峰值高斯密度函數(shù)。
這提供了描述與pn=1-qn和qn=1-pn相關(guān)的似然比檢驗的操作所必需的“丟失鏈接(missing link)”。
當(dāng)通過確定POS pn而確定了噪聲閾值時,也確定了噪聲峰值的POF qn。
這里,噪聲閾值具有根據(jù)物理電壓電平確定的“軌(rail)”形,并且可使用“軌”下和“軌”上的噪聲峰值的百分比來描述。如果存在高斯信號,則產(chǎn)生新的信號噪聲高斯密度函數(shù)。這個新曲線具有“軌”下和“軌”上的不同峰值的百分比。因此,如果定義了噪聲閾值的POS pn,則也定義了整個信號加噪聲(signal-plus-noise)密度的潛在POS ps。
圖6是根據(jù)本發(fā)明的純噪聲信號(noise-only signal)和信號加噪聲信號(signal-plus-noise signal)的PDF的曲線圖。在圖6中,示出了基于方程17的作為修正的‘三階OS’形式的PDF。圖6中具有較高峰值的曲線是噪聲峰值的PDF,具有較低峰值的曲線是信號加噪聲(signal-plus-noise)峰值的PDF。在圖6中,純噪聲信號和信號加噪聲信號(signal-plus-noise signal)是零均值高斯信號,并且標(biāo)準(zhǔn)差在純噪聲信號的情況下是20以及在信號加噪聲信號(signal-plus-noise signal)的情況下是40。結(jié)果的信噪比(SNR)是4.8dB,并成為相對于其他檢測方法的改進(jìn)峰值檢測而言的最小可接受目標(biāo)SNR。圖6中的直線表示當(dāng)pn=0.10時噪聲峰值之中的高電平峰值的POS的閾值設(shè)置值。相應(yīng)地,POF qn=0.9,這表示90%的噪聲峰值存在于所述閾值設(shè)置值以下。
通過將閾值表示為直線,使用積分來容易地計算存在于信號加噪聲密度的閾值以上的峰值的百分比。在這種情況下,在純噪聲信號中將POF設(shè)置為0.9,因此,信號加噪聲信號(signal-plus-noise signal)的POF是0.46。
Σk=innkpskqsn-kH1><H0Σk=innkpnkqnn-k···(19)]]>如上所述,由于方程19表示有效的統(tǒng)計并定義了檢測和失敗的概率,所以方程19能夠用于產(chǎn)生接收機工作特性(ROC)曲線。在高斯噪聲的高斯信號的標(biāo)準(zhǔn)檢測器分析中,由于坐標(biāo)系統(tǒng)是似然比檢驗中的項(term)的子集,所以坐標(biāo)系統(tǒng)必須改變以支持充分統(tǒng)計。
由于方程19中右側(cè)的項表示由所述直線和噪聲峰值的PDF的曲線所隔開的區(qū)域,所以方程19中右側(cè)的項變成方程20,其是錯誤警報的概率P(FA)。
P(FA)=Σk=innkpnkqnn-k···(20)]]>另外,根據(jù)在確定噪聲閾值之后檢測的信號的電平和類型來確定ps。這里,必須根據(jù)檢測的信號的屬性來確定參數(shù)“n選k(k out ofn)”。因此,語音信號檢測的性能依賴于n和k的正確設(shè)置。
方程19中左側(cè)的項表示由所述直線和信號加噪聲峰值的PDF的曲線所隔開的區(qū)域,所以方程19中左側(cè)的項可使用方程21來表示。
P(D)=Σk=innkpskqsn-k···(21)]]>
當(dāng)根據(jù)方程21中相對于噪聲的信號的幅度確定了POS和POF時,n和k確定P(D),并且P(D)的結(jié)果能夠被預(yù)測。例如,如果信號加噪聲峰值PDF向右移遠(yuǎn),則表示輸入很大的信號,并且P(D)=1。然而,由于P(FA)僅依賴于噪聲峰值PDF位于閾值以上的部分,所以P(FA)仍然不為0。
如果在圖6中閾值為0.9,即如果90%的噪聲峰值存在于閾值以下,則6dB高斯信號中的結(jié)果ps為1.0-0.46=0.54。該信息用于在n和k的各種設(shè)置下產(chǎn)生ROC曲線。每個“n選k”方案能夠?qū)崿F(xiàn)為一個獨立的檢測器。
作為“n選k”方案的一個示例,表1示出在三種POF閾值0.9、0.95和0.98情況下的“5選k”的多種參數(shù)設(shè)置的P(D)和與P(D)對應(yīng)的P(FA)。
表1
表2示出在三種POF閾值0.9、0.95和0.98情況下的“10選k”的多種參數(shù)設(shè)置的P(D)和與P(D)對應(yīng)的P(FA)。
表2
根據(jù)本發(fā)明,使用上述根據(jù)“n選k”的表,能夠通過將n和k設(shè)置為適合具體情況的適當(dāng)值來檢測語音信號。
圖7A至7C是表示根據(jù)本發(fā)明的通過使用表1和表2的各種設(shè)置來檢測語音信號所獲得的結(jié)果的曲線圖。
在圖7A至7C中,根據(jù)峰值計數(shù)比r=0.1、0.05和0.02時的各種設(shè)置示出檢測值,其中,n=10和5,k從1至10變化以及從1至5變化。
參照圖7A至7C,由于從峰值(三個數(shù)據(jù)點)檢測語音的結(jié)束點,所以必須設(shè)置最大錯誤警報(FA)率以便對鏈接哪個檢測進(jìn)行控制。每個峰值檢測是基于測試窗長度W的單個微事件。連續(xù)的或相鄰的微事件自然地彼此鏈接,不相鄰的微事件也能夠彼此鏈接。在這種情況下,不可以將能夠產(chǎn)生語音錯誤的微事件彼此鏈接。
可用的FA范圍通過使用下面的實驗結(jié)果來獲得分開超過150ms的語音能量脈沖幾乎總是屬于不同的發(fā)音。因此,如果FA分開超過150ms,則不發(fā)生錯誤的鏈接。這里,150ms對應(yīng)于8KHz下的1200個點,并且對應(yīng)于白色噪聲中的大約400個峰值。每150ms中的單個FA對應(yīng)于6.67個FA/秒,根據(jù)這些設(shè)置,這里的語音信號檢測方法能夠正確地執(zhí)行結(jié)束點檢測。為了將這種FA限制與表中的設(shè)置比較,必須將表中的P(FA)值從測試窗的FA轉(zhuǎn)換成時間的FA。這些轉(zhuǎn)換FA率的信息表示在表3中。
表3
表3具有表1的轉(zhuǎn)換FA率信息。帶有‘*’標(biāo)記的部分表示在8KHz采樣率的情況下根據(jù)FA設(shè)置滿足本發(fā)明的工作點(假設(shè)每150ms中存在一個或少于一個的FA)。
峰值序列基于閾值電壓電平L被轉(zhuǎn)換成二進(jìn)制序列。如果選擇了測試窗,則檢查測試窗中的“1”的數(shù)量以確定是否存在信號,并且如果閾值設(shè)置L將峰值的最高20%分離,則在當(dāng)前噪聲背景中10個峰值之中至少8個峰值大于該閾值的概率是7.79E-05。這個非常低的概率表示包含10個峰值中的8個峰值的測試窗對應(yīng)于新信號而非對應(yīng)于背景噪聲。
這里,從10峰值窗的角度,可以將該數(shù)字概率視為P(FA)。由于測試窗(例如“5選4”里面的5)由按照每三個數(shù)據(jù)點為一個峰值的比率存在的1階峰值構(gòu)成,所以FA率為每30個數(shù)據(jù)點7.79E-05。
誤差包括導(dǎo)致將噪聲信號識別為語音信號的加性誤差和導(dǎo)致將語音信號識別為噪聲信號的減性誤差,不產(chǎn)生導(dǎo)致信息丟失的減性誤差是很重要的。因此,在低SNR的狀態(tài)下,閾值非常高。在較長的測試窗的情況下,當(dāng)正弦波的頻率較高時,用于檢測的峰值簇(peak cluster)較少。因此,通過使用較短的測試窗而非較長的測試窗,能夠減小FA率,并且能夠提高檢測峰值簇的可靠性。例如,通過減小測試窗的長度,在“5選4”的情況下FA率能夠改進(jìn)至3.0E-05。這種“5選4”測試窗的標(biāo)準(zhǔn)化的FA率為每秒0.12。因此,對于大于閾值的峰值的數(shù)量,如果將測試窗的長度最小化,則P(FA)最小化。
基本的概念為,測試窗長度W與將被檢測的峰值簇或微事件匹配。這個信息用于在短時間內(nèi)可靠地檢測低SNR的正弦波。如果正弦波具有較長的波長,則處理增益(processing gain)在檢測之前實現(xiàn),因此,能夠使用頻譜方法。然而,如果正弦波具有較短的波長,則必須在時間軸執(zhí)行檢測。如果測試窗長度W減小至5,則可能存在這樣的區(qū)域,在該區(qū)域中,在具有較低頻率的正弦波的峰值之間不執(zhí)行檢測。只要要求每個測試窗包含完美檢測的信號,則這就成為一個問題。如果在幾個測試窗保持信號,則第一測試窗和最后的測試窗能夠用于定義該信號的開始點和結(jié)束點。在參考文獻(xiàn)中,發(fā)音是彼此關(guān)聯(lián)的,并且參數(shù)被選擇以確定該參數(shù)是否能夠用作用于檢測語音的鏈接準(zhǔn)則。這里,語音通過相對的機械過程產(chǎn)生,并且發(fā)音部分相對地操作較慢。例如,語音發(fā)音的陡變時間(ramp-up time)是40ms,即12KHz采樣情況下的480個數(shù)據(jù)點。
在480個數(shù)據(jù)點期間,從白色高斯數(shù)據(jù)產(chǎn)生大約160個峰值,并且具有較低能量的相關(guān)語音信號之間所允許的時間為大約150ms。因此,如果在“5選4”測試窗和隨后的“5選4”測試窗之間不存在30ms的語音,則可將這兩個窗鏈接為單個事件。在本發(fā)明中使用這種方法。
在本發(fā)明中,將滿足諸如“4選3”或“5選4”的小測試窗的峰值序列稱為微事件。微事件是包含能夠被實際檢測的最小數(shù)量的峰值的包。為了從FA的角度使這種具有較短長度的測試窗強壯(robust),可以將具有比直方圖閾值小的電平的峰值的百分比(即,峰值計數(shù)比r)設(shè)置得較小。如果這些微事件被檢測,則可以使用用于確定檢測出的微事件是否在時間軸上彼此相關(guān)的理論。如果微事件滿足時間關(guān)系閾值,則可以鏈接這些微事件。鏈接的微事件的鏈條使得能夠有效地檢測發(fā)音的一部分。這里,由于根據(jù)微事件的集合來執(zhí)行檢測,所以可根據(jù)鏈接準(zhǔn)則檢測幾個語音開始點和結(jié)束點。因此,通過應(yīng)用適合具體情況的特性提取參數(shù)能夠執(zhí)行靈活的、最佳的語音檢測。
性能比較的實驗結(jié)果示于表4和表5中。
表4
表5
參照表4和表5,標(biāo)號1表示理想情況,圓括號中的數(shù)字表示誤差量。標(biāo)號2表示通過使用能量檢測方法獲得的語音檢測結(jié)果。標(biāo)號3表示通過使用零交叉方法獲得的語音檢測結(jié)果。標(biāo)號4表示通過同時使用能量檢測方法和零交叉方法獲得的語音檢測結(jié)果。標(biāo)號5表示通過使用根據(jù)本發(fā)明的語音信號檢測方法獲得的語音檢測結(jié)果。
在表4中,將單詞“eight”發(fā)音兩次,A(A’)表示第一次發(fā)音的開始點,B(B’)表示第一次發(fā)音的結(jié)束點,C(C’)表示第二次發(fā)音的開始點,D(D’)表示第二次發(fā)音的結(jié)束點,其中,A、B、C和D是在存在非常小的噪聲(30dB)時得到的,A’、B’、C’和D’是在存在強噪聲(5dB)時得到的。與傳統(tǒng)方法不同,在根據(jù)本發(fā)明的語音檢測結(jié)果中,沒有產(chǎn)生導(dǎo)致信息丟失的減性噪聲。在表5中,將單詞“nine”發(fā)音兩次,并且如同在表4中一樣,沒有產(chǎn)生減性誤差。也就是說,與傳統(tǒng)方法相比,根據(jù)本發(fā)明的語音信號檢測方法在噪聲環(huán)境下具有顯著提高的性能,不產(chǎn)生減性噪聲,并且計算的復(fù)雜程度很低。
如上所述,通過提出使用時間軸的峰值特性信息的提取和分析的語音信號檢測方法,能夠通過執(zhí)行簡單的采樣大小比較而以少量的計算來檢測語音,并且通過使語音總是存在于噪聲電平以上使得語音檢測的抗噪聲能力很強。
另外,與傳統(tǒng)的基于幀的檢測不同,基于采樣的語音檢測被執(zhí)行,因此,能夠?qū)崿F(xiàn)少量采樣內(nèi)的更準(zhǔn)確的檢測。
根據(jù)噪聲的狀態(tài),可以優(yōu)化特性提取變量(峰值計數(shù)比),并且通過提供最佳和次佳的語音檢測開始點和結(jié)束點增加了靈活性。
通過使用峰值信息的特性,能夠防止可能導(dǎo)致丟失語音信息的減性誤差。
可使用該語音信號檢測方法而不需另外的參數(shù)定義,并且與傳統(tǒng)的語音信號檢測方法不同,不需要對信號的假設(shè)。
由于能夠通過選擇適合于具體狀態(tài)的最佳檢測方法來執(zhí)行靈活的語音檢測,所以該語音信號檢測方法能夠在語音編碼、識別、增強和合成的前端使用。
此外,由于能夠以少量的計算來準(zhǔn)確地檢測語音,所以該語音信號檢測方法適用于所有具有高移動性、有限存儲容量并需要快速處理的應(yīng)用,例如移動終端、車載電信息通信系統(tǒng)(telematics)、個人數(shù)字助理(PDA)和MP3。
盡管已參照本發(fā)明的特定優(yōu)選實施例表示和描述了本發(fā)明,但本領(lǐng)域技術(shù)人員應(yīng)該理解,在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對這些實施例進(jìn)行各種形式和細(xì)節(jié)上的修改。
權(quán)利要求
1.一種語音信號檢測系統(tǒng),包括峰值提取器,用于從輸入信號提取峰值;峰值檢測器,用于將每個提取的峰值的電壓電平與閾值電壓電平比較,并將比較結(jié)果轉(zhuǎn)換成二進(jìn)制序列;微事件檢測器,用于確定用于檢查轉(zhuǎn)換的二進(jìn)制序列的測試窗的長度,并以測試窗長度為單位檢測微事件;微事件鏈接模塊,用于鏈接檢測出的微事件;和語音信號開始點和結(jié)束點檢測器,用于通過檢測鏈接的微事件的開始點和結(jié)束點來確定語音信號的開始點和結(jié)束點。
2.如權(quán)利要求1所述的語音信號檢測系統(tǒng),其中,所述微事件是被檢測為語音的峰值的最小單位。
3.如權(quán)利要求1所述的語音信號檢測系統(tǒng),還包括閾值電壓電平確定器,用于使用從背景噪聲信號提取的峰值的電壓電平的直方圖來確定與峰值計數(shù)比對應(yīng)的閾值電壓電平。
4.如權(quán)利要求1所述的語音信號檢測系統(tǒng),還包括背景噪聲直方圖產(chǎn)生器,用于使用從背景噪聲信號提取的峰值和提取的峰值的電壓電平來產(chǎn)生直方圖。
5.如權(quán)利要求1所述的語音信號檢測系統(tǒng),其中,所述微事件檢測器在每個測試窗中獲得具有比閾值電壓電平大的電平的一些峰值的序列,并且如果在每個測試窗中的具有比閾值電壓電平大的電平的峰值的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量,則所述微事件檢測器將該序列檢測為微事件。
6.如權(quán)利要求1所述的語音信號檢測系統(tǒng),其中,所述微事件鏈接模塊將檢測出的微事件之中彼此滿足時間關(guān)系閾值的微事件鏈接。
7.如權(quán)利要求6所述的語音信號檢測系統(tǒng),其中,所述時間關(guān)系閾值為40ms。
8.如權(quán)利要求1所述的語音信號檢測系統(tǒng),其中,所述語音信號開始點和結(jié)束點檢測器根據(jù)語音信號的特性來改變鏈接的微事件的開始點和結(jié)束點的檢測的準(zhǔn)確性。
9.一種語音信號檢測方法,包括下述步驟從輸入信號提取峰值;將每個提取的峰值的電壓電平與閾值電壓電平比較,并將比較結(jié)果轉(zhuǎn)換成二進(jìn)制序列;確定用于檢查轉(zhuǎn)換的二進(jìn)制序列的測試窗的長度,并以測試窗長度為單位檢測微事件;鏈接檢測出的微事件;和通過檢測鏈接的微事件的開始點和結(jié)束點來確定語音信號的開始點和結(jié)束點。
10.如權(quán)利要求9所述的語音信號檢測方法,其中,所述微事件是被檢測為語音的峰值的最小單位。
11.如權(quán)利要求9所述的語音信號檢測方法,還包括使用從背景噪聲信號提取的峰值的電壓電平的直方圖來確定與峰值計數(shù)比對應(yīng)的閾值電壓電平。
12.如權(quán)利要求11所述的語音信號檢測方法,還包括使用從背景噪聲信號提取的峰值和提取的峰值的電壓電平來產(chǎn)生直方圖。
13.如權(quán)利要求9所述的語音信號檢測方法,還包括在每個測試窗中獲得具有比閾值電壓電平大的電平的一些峰值的序列;和如果在每個測試窗中的具有比閾值電壓電平大的電平的峰值的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量,則將該序列檢測為微事件。
14.如權(quán)利要求9所述的語音信號檢測方法,其中,鏈接檢測出的微事件的步驟包括確定檢測出的微事件是否彼此滿足時間關(guān)系閾值;和如果檢測出的微事件彼此滿足時間關(guān)系閾值,則鏈接檢測出的微事件。
15.如權(quán)利要求14所述的語音信號檢測方法,其中,所述時間關(guān)系閾值為40ms。
16.如權(quán)利要求9所述的語音信號檢測方法,還包括根據(jù)語音信號的特性來改變鏈接的微事件的開始點和結(jié)束點的檢測的準(zhǔn)確性。
全文摘要
提供了一種語音信號檢測系統(tǒng)和一種語音信號檢測方法,在所述系統(tǒng)和方法中從輸入信號提取峰值;將每個提取的峰值的電壓電平與閾值電壓電平比較,并將比較結(jié)果轉(zhuǎn)換成二進(jìn)制序列;確定用于檢查轉(zhuǎn)換的二進(jìn)制序列的測試窗的長度,并以測試窗長度為單位檢測微事件;鏈接檢測出的微事件;和通過檢測鏈接的微事件的開始點和結(jié)束點來確定語音信號的開始點和結(jié)束點。因此,通過提取和分析時間軸的峰值特性信息,能夠以最小的計算量和噪聲干擾來檢測語音。
文檔編號G10L21/00GK1956055SQ20061014270
公開日2007年5月2日 申請日期2006年10月26日 優(yōu)先權(quán)日2005年10月28日
發(fā)明者金炫秀 申請人:三星電子株式會社