基于車聯(lián)網(wǎng)的語音處理方法
【專利摘要】本發(fā)明提供了一種基于車聯(lián)網(wǎng)的語音處理方法,該方法包括:在車載語音識別系統(tǒng)的前端處理過程中,通過成分分析對帶噪語音信號進行頻域分離,獲得純凈語音信號;對所獲得的純凈語音信號進行端點檢測;提取所獲語音段的特征參數(shù),并導(dǎo)入車載語音識別系統(tǒng)中進行識別。本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音處理方法,減弱了背景噪聲對車載語音識別系統(tǒng)的干擾,有效地改善了在噪聲環(huán)境下車載語音識別系統(tǒng)的性能。
【專利說明】
基于車聯(lián)網(wǎng)的語音處理方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語音信號處理,特別涉及一種基于車聯(lián)網(wǎng)的語音處理方法。
【背景技術(shù)】
[0002] 語音識別是通過利用識別算法讓機器能夠準(zhǔn)確地識別出人類所發(fā)出的語音命令 并執(zhí)行相應(yīng)的操作。目前,隨著語音信號處理技術(shù)的發(fā)展,一些較成熟的語音識別系統(tǒng)相繼 誕生。然而在車載現(xiàn)場環(huán)境下使用時,其識別性能會急劇下降。假設(shè)一個孤立詞識別系統(tǒng)是 由純凈語音訓(xùn)練得到的,那么它在相對安靜環(huán)境下進行語音識別,其識別率可達到100%, 但是如果在以90Km/h行駛的汽車內(nèi),其識別率下降到了30%。從上述對比數(shù)據(jù)中可以發(fā)現(xiàn), 在行駛中的車輛等噪聲環(huán)境下語音識別系統(tǒng)性能無法滿足人們的需求。在真實環(huán)境中,語 音信號不可避免地受到各種外部噪聲的干擾,而這些噪聲的存在會使得帶噪語音與原先由 純凈語音訓(xùn)練出的模型之間失配,從而影響車載語音識別系統(tǒng)性能。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音處理方 法,包括:
[0004] 在車載語音識別系統(tǒng)的前端處理過程中,通過成分分析對帶噪語音信號進行頻域 分離,獲得純凈語音信號;對所獲得的純凈語音信號進行端點檢測;提取所獲語音段的特征 參數(shù),并導(dǎo)入車載語音識別系統(tǒng)中進行識別。
[0005] 所述車載語音識別系統(tǒng)包括卷積混合單元、分離單元、端點檢測單元和語音識別 單元,所述卷積混合單元進行語音信號與噪聲的仿真卷積混合,以獲得帶噪語音信號;所述 分離單元:對帶噪語音信號進行頻域分離,以獲得純凈的語音信號;所述端點檢測單元采用 語音端點檢測算法,選擇待檢測的語音信號、調(diào)整端點檢測參數(shù)、并在檢測后將檢測到的有 效語音段保存為語音文件;所述語音識別單元進行語音識別、顯示識別結(jié)果和計算識別率, 選擇多個語音文件導(dǎo)入車載語音識別系統(tǒng)中識別;
[0006] 其中,在所述語音端點檢測過程中,利用以下基于動態(tài)峰度和能量雙閾值的端點 檢測算法:
[0007] 首先計算出語音信號的滑動窗峰度值,記為Kt(n),并同時記錄下中間值s2(n),其 中η是語音信號的長度;
[0008] 利用公式th=max(Kt)/10來計算整個語音信號的峰度閾值;
[0009] 將η記為起點start,在η不斷遞增的過程中,開始向后檢索,
[0010]若η為空白段,則判斷空白段樣本點數(shù)nc與空白段所允許的最大樣本點常數(shù) maxnc,以及語音段樣本點數(shù)sc與語音段所允許的最小樣本點常數(shù)minsc;
[0011 ]僅當(dāng)滿足nc>maxnc并且sc>minsc時,輸入語音段[start,start+sc+nc-1 ] 〇。
[0012] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
[0013] 本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音處理方法,減弱了背景噪聲對車載語音識別 系統(tǒng)的干擾,有效地改善了在噪聲環(huán)境下車載語音識別系統(tǒng)的性能。
【附圖說明】
[0014] 圖1是根據(jù)本發(fā)明實施例的基于車聯(lián)網(wǎng)的語音處理方法的流程圖。
【具體實施方式】
[0015] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描 述。結(jié)合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利 要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié)以 提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細節(jié),并且無這些具體細節(jié)中的一 些或者所有細節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0016] 本發(fā)明的一方面提供了一種基于車聯(lián)網(wǎng)的語音處理方法。圖1是根據(jù)本發(fā)明實施 例的基于車聯(lián)網(wǎng)的語音處理方法流程圖。
[0017] 本發(fā)明首先在車載語音識別系統(tǒng)的前端處理過程中增加了成分分析,對帶噪語音 信號進行頻域分離從而獲得純凈的語音信號;對所獲得的純凈語音信號進行端點檢測;最 后提取所獲語音段的特征參數(shù),并導(dǎo)入車載語音識別系統(tǒng)中進行識別。
[0018] 車載語音識別系統(tǒng)包括四個單元。卷積混合單元,進行語音信號與噪聲的仿真卷 積混合,以獲得帶噪語音信號;分離單元:對帶噪語音信號進行頻域分離,以獲得純凈的語 音信號;端點檢測單元,采用語音端點檢測算法,并選擇待檢測的語音信號、調(diào)整端點檢測 參數(shù)、并在檢測后將檢測到的有效語音段保存為語音文件。語音識別單元,用于語音識別、 顯示識別結(jié)果和計算識別率,可以選擇多個語音文件導(dǎo)入車載語音識別系統(tǒng)中識別。
[0019] 本發(fā)明利用基于動態(tài)峰度和能量雙閾值的端點檢測算法。首先計算出語音信號的 滑動窗峰度值,記為Kt(n),并同時記錄下中間值s 2(n),其中η是語音信號的長度。利用公式 th=max(Kt)/10來計算整個語音信號的峰度閾值。
[0020] 將η記為起點start,在η不斷遞增的過程中,開始向后檢索,若η為空白段,貝lj判斷 空白段樣本點數(shù)nc與空白段所允許的最大樣本點常數(shù)maxnc,以及語音段樣本點數(shù)sc與語 音段所允許的最小樣本點常數(shù)minsc ;僅當(dāng)滿足nc>maxnc并且sc>minsc,輸入語音段 [start,start+sc+nc-Ι]〇
[0021] 考慮到混合系統(tǒng)對源信號產(chǎn)生的延遲和卷積效應(yīng),本發(fā)明采用以下方法提取相對 純凈的語音特征參數(shù)。首先利用短時FFT將帶噪語音信號1 1,(1 = 1,2)從時域變換到頻域, 生成LXM點采樣信號矩陣,其中L表示FFT變換后頻域下的頻點個數(shù),Μ表示對信號加窗分幀 后的幀數(shù);然后實現(xiàn)混合信號的頻域分離,對提取出的頻域分量進行FFT逆變換得到時域獨 立成分;最后對獲得的MFL域特征和其對應(yīng)的一階差分系數(shù)進行線性組合,并將組合后的特 征用于后續(xù)識別過程中。在特征提取前端,獨立成分分析可以有效地減少噪聲對源語音信 號的干擾,使得在卷積噪聲環(huán)境下所提取的語音特征參數(shù)也能較好地反映語音信號的本質(zhì) 特征。
[0022] 本發(fā)明對語音信號進行FFT變換時是逐段進行的。對語音信號加窗,并讓該窗在時 間軸上平移。卷積混合過程可以描述為:
[0024]其中P為卷積混合濾波器階數(shù),為第j個聲源到第i個傳感器的沖激響應(yīng),N為聲 源數(shù)量。對上式進行短時FFT變換,所得信號可以表示為:
[0026]其中,win表示在預(yù)處理過程中所加的窗口函數(shù),τ為窗口函數(shù)的位置;fs為采樣頻 率,f為離散頻點,其取值為f = f Sl/L; 1 = 0,1,…L-1。
[0027]對輸入的語音進行短時FFT變換之后,將時域采樣信號Xi(t)變換到時頻域,得到 一個L*M點的采樣信號矩陣:
[0029] 將同頻點fk(ke[0,L_l])的Xdfk)作為該頻點進行獨立成分提取的新采樣數(shù)據(jù), 對新采樣數(shù)據(jù)進行頻域分離矩陣W(f k)的估計,進而實現(xiàn)對信號頻域分量Kfk)的提取。
[0030] 其中獨立成分分析算法對各頻點進行頻域分離,得到了短時頻域分量¥1^1),再 消除幅值和排序模糊性之后得到iMf,T),它們是對純凈頻域源信號&(?·, τ)的逼近。
[0031] 接下來就是將信號從頻域轉(zhuǎn)換到時域,則對進行短時FFT逆變換,即按列 對Ui(f,τ)時頻矩陣求逆離散FFT運算,得到在不同時窗位置(,m = 0,1,. . .Μ-1)上的時間 f曰^TUi(f,Tm):
[0033] 然后按從小到大的順序?qū)l(f,im)進行拼接,得到源的完整時間信號,即:
[0034] Ui(t) = Ui(t, x〇)+Ui(t-xi, τι)Η-----i-Ui(t-TM-i, ^μ-ι)
[0035] 如果進行拼接處理時,相鄰窗口內(nèi)的時間信號出現(xiàn)部分重疊,則對重疊區(qū)域的數(shù) 據(jù)采用相加求平均的處理方法。
[0036]為了提取語音MEL參數(shù),首先對經(jīng)過頻域去卷積的處理的語音信號進行預(yù)加重處 理,再使其通過MEL濾波器組,對每組輸出結(jié)果做對數(shù)運算后再進行DCT變換,最后輸出即為 語音信號的MFL域特征。
[0037]此外,為了獲得語音信號的動態(tài)信息,算法對提取出的MEL參數(shù)進行了差分運算, 計算過程如下:
[0039]其中R是MEL系數(shù)的階數(shù),d反映信號的動態(tài)特征,α表示加權(quán)因子,Κ為進行一階差 分求取的幀的長度,U表示信號倒譜。經(jīng)過上式計算可以獲得與MFL域特征參數(shù)階數(shù)R相同 的差分MEL參數(shù)。最后將所得MEL參數(shù)和差分MEL參數(shù)進行組合得到2*R維的新組合特征作為 語音信號特征矢量。
[0040] 其中,頻域去卷積處理是用于實現(xiàn)卷積混合信號的分離,具體包括,首先利用短時 FFT將時域下的卷積混合變換成頻域下的瞬時混合,然后采用獨立成分分析對其中每個頻 點進行頻域分離。最后為了獲得時域下對應(yīng)的語音信號,還通過短時FFT逆變換將頻域信號 變換成時域信號。
[0041] 首先對采樣信號進行FFT變換,可得:
[0042] X(f)=A(f)S(f)
[0043] 其中,X(f)和S(f)分別表示采樣信號和源信號經(jīng)FFT變換后得到的頻域信號,A(f) 是各混合濾波器頻率響應(yīng)構(gòu)成的矩陣,經(jīng)過FFT之后,語音信號從時域下的卷積混合變成了 頻域下的瞬時混合。對每個頻點fk(k = 0,l,. . .,i-l)利用瞬時獨立成分分析算法進行頻域 分離,如下所示
[0044] X(fk)=A(fk)S(fk),k = 0,l,.",L_lk 為頻點序號
[0045]經(jīng)過FFT變換后,采樣信號從時域變到頻域,同時也使得待處理數(shù)據(jù)的數(shù)值從實數(shù) 域變到了復(fù)數(shù)域,對于復(fù)數(shù)域的獨立成分分析,本發(fā)明引入了多變量數(shù)據(jù)的四維累加量矩 陣,并對其做特征分解,從而實現(xiàn)對信號的分離。
[0046]令;1=[^^_別]為一組采樣信號,對其進行白化處理,即找到一個使得的自相 關(guān)矩陣為單位矩陣I的線性變換矩陣B。其中,
[0047] z = Bx = BAs = Vs
[0048] 令Μ是NXN維的矩陣,則z的四階累加矩陣為Qz(M),其第ij個元素定義如下:
[0050]式中,Cu為四階累加量矩陣中第(k,l)個位置的累加量子矩陣的第i行第j列的元 素。ΠΜ為矩陣Μ中(k,l)個元素。
[0051] 令¥=[¥1,2'"%],取矩陣1=[]?1,]\1 2"?],對每個姐求取比(]^),計算使得比(]^)非 對角元素平方和即VH QKMOV出現(xiàn)極小值的矩陣V,最后提取獨立成分u=W'x = VhBx
[0052] 對于幅值模糊性的出現(xiàn),本發(fā)明通過幅值補償來消除這種幅值模糊性問題,補償 算法如下:
[0053]設(shè)W(fk)是對頻點fk對應(yīng)的頻域采樣信號進行獨立成分提取過程中計算得到的分 離矩陣,則所提取的各通道獨立成分構(gòu)成向量:Y(fk,i),其中τ表示滑動窗的位置,則該頻 點上的混合矩陣A(fk)可計算為
[0054] A(fk)=ff_1(fk)
[0055] 利用混合矩陣A(fk)對對應(yīng)頻點獨立成分進行補償,計算如下:
[0057]其中Y」(fk,T)表示幅值補償前所提取的第j通道頻域分量,V^(fk,T)表示經(jīng)過幅值 補償后第i個頻域采樣信號中實際上屬于第j通道頻域分量的部分。經(jīng)過幅值補償后,fk頻 點對應(yīng)的獨立成分會產(chǎn)生N個補償分量,經(jīng)過一系列的后續(xù)處理,最終可以得到N個對應(yīng)于 同一個信號源的純凈語音信號。最后從N個信號求取平均作為最終輸出信號。
[0058] 在對各頻點進行頻域分離后得到的對應(yīng)頻點的分離結(jié)果是隨機分配的,所以在分 離之后對各頻點的分離結(jié)果進行重新組合時可能會出現(xiàn)不同頻點分離信號對應(yīng)不同的源 信號。本發(fā)明采用一種基于相鄰頻點相關(guān)性檢測的方法來消除排序模糊性的問題。假設(shè)經(jīng) 獨立成分提取后得到的信號分量為YakXYKHhYKH)] 1
[0059] 則根據(jù)幅值補償公式可得
[0062]假設(shè)Ri(fk,T)為獨立成分Yi(fk,T)的包絡(luò):
[0064] 式中d表示平均寬度。根據(jù)上式可得包絡(luò)函數(shù)1?(€1<,1) = [1?1(&,1),1?2(&,1)]。通過 對相鄰頻點的包絡(luò)函數(shù)R(fk,i)和R(fk+1,i)進行匹配,并根據(jù)匹配結(jié)果對頻域分量進行排 序。
[0065]排序算法如下:
[0066]首先根據(jù)選定的匹配方法計算包絡(luò)參數(shù)。定義相鄰頻點fdPfk+1之間的包絡(luò)參數(shù) Pij定義如下:
[0068] 式中Μ表示在對信號進行加窗FFT變換后的語音幀數(shù)。
[0069] 根據(jù)所定義的包絡(luò)參數(shù)構(gòu)造調(diào)整矩陣Ρ。對于相鄰頻點fdPfk+1的包絡(luò)系數(shù)m構(gòu)成 一個如下調(diào)整矩陣
[0071] 根據(jù)調(diào)整矩陣判斷是否要進行重新排序。若pn+p22>p12+p21,則表示相鄰頻點中,同 源獨立成分位置一致,則無需調(diào)整。若PU+P22小于p 12+p21,則表示相鄰頻點中,同源獨立成分 的位置不一致,需要重新進行排序。若經(jīng)過幅值補償后的輸出成分為
[0072] V(fk) = [Vi(fk,T),V2(fk,T)]T
[0073] V(fk+i) = [Vi(fk+i,T),V2(fk+i,T)]T
[0074] 則利用P對后一個頻點fk+^V(fk+1)進行左乘,即
[0075] PXV(fk+i)^V(fk+i)
[0076] 綜上所述,本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音處理方法,減弱了背景噪聲對車 載語音識別系統(tǒng)的干擾,有效地改善了在噪聲環(huán)境下車載語音識別系統(tǒng)的性能。
[0077]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各單元或各步驟可以用通用 的計算系統(tǒng)來實現(xiàn),它們可以集中在單個的計算系統(tǒng)上,或者分布在多個計算系統(tǒng)所組成 的網(wǎng)絡(luò)上,可選地,它們可以用計算系統(tǒng)可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲 在存儲系統(tǒng)中由計算系統(tǒng)來執(zhí)行。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0078]應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項】
1. 一種基于車聯(lián)網(wǎng)的語音處理方法,其特征在于,包括: 在車載語音識別系統(tǒng)的前端處理過程中,通過成分分析對帶噪語音信號進行頻域分 離,獲得純凈語音信號;對所獲得的純凈語音信號進行端點檢測;提取所獲語音段的特征參 數(shù),并導(dǎo)入車載語音識別系統(tǒng)中進行識別。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述車載語音識別系統(tǒng)包括卷積混合單 元、分離單元、端點檢測單元和語音識別單元,所述卷積混合單元進行語音信號與噪聲的仿 真卷積混合,以獲得帶噪語音信號;所述分離單元:對帶噪語音信號進行頻域分離,以獲得 純凈的語音信號;所述端點檢測單元采用語音端點檢測算法,選擇待檢測的語音信號、調(diào)整 端點檢測參數(shù)、并在檢測后將檢測到的有效語音段保存為語音文件;所述語音識別單元進 行語音識別、顯示識別結(jié)果和計算識別率,選擇多個語音文件導(dǎo)入車載語音識別系統(tǒng)中識 別; 其中,在所述語音端點檢測過程中,利用以下基于動態(tài)峰度和能量雙閾值的端點檢測 算法: 首先計算出語音信號的滑動窗峰度值,記為Kt(n),并同時記錄下中間值s2(n),其中η是 語音信號的長度; 利用公式th=max(Kt)/10來計算整個語音信號的峰度閾值; 將η記為起點start,在η不斷遞增的過程中,開始向后檢索, 若η為空白段,則判斷空白段樣本點數(shù)nc與空白段所允許的最大樣本點常數(shù)maxnc,以 及語音段樣本點數(shù)sc與語音段所允許的最小樣本點常數(shù)minsc; 僅當(dāng)滿足nc>maxnc并且sc>minsc時,輸入語音段[start,start+sc+nc-1 ] 〇
【文檔編號】G10L15/04GK105869627SQ201610281160
【公開日】2016年8月17日
【申請日】2016年4月28日
【發(fā)明人】謝欣霖, 陳波
【申請人】成都之達科技有限公司, 成都同創(chuàng)合科技有限公司, 成都同創(chuàng)合一科技有限公司