本發(fā)明屬于語音信號處理技術領域,具體涉及一種口語識別校正系統(tǒng)。
背景技術:
作為人際交流的重要媒介,口語語言在實際生活中占有極其重要的地位。隨著社會經濟的不斷發(fā)展和全球化趨勢的加劇,人們對語言學習的效率以及語言評估的客觀性、公正性和規(guī)?;瘻y試提出了越來越高的要求。傳統(tǒng)的人工口語水平評測方法使教師和學生在教學時間和空間上受到很大限制,在師資力量、教學場地、經費支出等方面也存在諸多硬件上的差距和不平衡;人工評測無法避免評估者自身的個體偏差,從而不能保證評分標準的統(tǒng)一,有時甚至無法準確反映被測者的真實水平;而對于大規(guī)模口語測試,則需要大量的人力、物力和財力支持,限制了經常性、規(guī)模性的評估測試。為此,業(yè)界相繼開發(fā)出了一些語言教學和評測系統(tǒng)。
在現(xiàn)有技術中,口語評測系統(tǒng)通常采用的識別器往往識別能力交叉,對接收到的語音信號進行語音識別會存在錯誤識別,而在口語教學中,最為關鍵的即是識別過程和匹配過程的準確性,系統(tǒng)從各語音片斷中分別提取描述各基本語音單元發(fā)音標準度或流暢度等衡量口語評測標準的特征,最后基于所述特征通過匹配輸出正確語音內容。在安靜的環(huán)境下使用高保真的錄音設備時,語音識別系統(tǒng)由于能提供較高的識別準確率因而后續(xù)口語評測也能提供較為客觀準確的結果。然而在實際應用中特別是對于大規(guī)模口語考試或其他公共場合進行口語訓練學習,錄音環(huán)境不可避免會受到考場噪聲、環(huán)境噪聲等因素的影響,語音識別準確率下降導致口語評測過程中會出現(xiàn)一定比例的異常評分語音。顯然這種現(xiàn)象使得大規(guī)??谡Z考試中計算機自動評分很難真正實用,限制了口語學習。
技術實現(xiàn)要素:
為了解決上述問題,本發(fā)明提供一種口語識別校正系統(tǒng),所述系統(tǒng)對接收到的口語語音信號進行多通道加強降噪,再將加強降噪后的模擬信號進行組合特征參數(shù)提取,通過自適應轉換和參數(shù)轉換將其轉換為優(yōu)化特征參數(shù),最后將優(yōu)化特征參數(shù)和與標準庫中的口語數(shù)據(jù)進行匹配,完成口語校正輸出;
進一步地,所述系統(tǒng)包括語音輸入模塊、加強減噪模塊、識別匹配模塊和校正輸出模塊,所述語音輸入模塊、加強減噪模塊、識別匹配模塊和校正輸出模塊依次連接,其中;
語音輸入模塊,所述語音輸入模塊包括多個麥克風,所述多個麥克風用于接收需要校正的口語語音信息;
加強減噪模塊,所述加強減噪模塊用于將語音輸入模塊接收的口語語音信息進行多通道加強處理和減噪處理;
識別匹配模塊,所述識別匹配模塊用于將加強減噪模塊輸出的模擬信號進行預處理,再對預處理過的信號進行LPC、MFCC、LPMFCC和TEOCC四種特征參數(shù)提取,并對提取的特征參數(shù)進行方差比計算,按照方差比從大到小排列,接著將按方差比從大到小排列的特征參數(shù)按比例進行提取,獲得組合特征參數(shù),然后對組合特征參數(shù)進行參數(shù)自適應和識別分類,最后對識別分類后的數(shù)據(jù)進行樣本匹配,獲取最后輸出的參數(shù)信息;
校正輸出模塊,所述校正輸出模塊用于將所述識別匹配模塊輸出的參數(shù)信息轉換為語音進行校正輸出;
進一步地,所述加強減噪模塊中包括多個語音通道,每個所述語音通道中包括加強單元和減噪單元,所述加強單元一端連接多個麥克風的輸入信號,另一端連接減噪單元,其中,
加強單元,所述加強單元通過對所述多個語音通道的語音信號依次進行排列實現(xiàn)和陣列實現(xiàn),獲得加強后的噪聲子通道和混合子通道;
減噪單元,所述減噪單元通過對噪聲子通道和混合子通道的信號進行加權失真,獲得減噪后的模擬信號;
進一步地,令fi(i=1、2、3....m)為相鄰兩個麥克風的聲音到達時間差,s(t)為期望語音信號;xm(t)為各麥克風接收到的含噪語音,nm(t)為各麥克風接收到的噪聲信號;
f1=(d1cosθ)/v,其中v為聲速,d1為第1個麥克風和第2個麥克風之間的距離,θ為聲源與第2個麥克風的連線和第1個麥克風與第2個麥克風連線所成夾角;
fm-1=(dm-1cosθ)/v,其中v為聲速,dm-1為第m-1個麥克風和第m個麥克風之間的距離,θ為聲源與第m個麥克風的連線和第m-1個麥克風與第m個麥克風連線所成夾角;
陣列實現(xiàn)輸出信號:
y1(t)=x1(t)-x2(t-T)
=s(t)+n1(t)-s[s-d(1+cosθ)/v]-n2(t-d/v) (7)
y2(t)=x2(t)-x1(t-T)
=s(t-dcosθ/v)+n2(t)-s(t-d/v)-n1(t-d/v) (8)
其中(8)式中期望聲源一般被放置在陣列沿線,因此簡化為:
y2(t)≈n2(t)-n1(t-d/v) (9);
進一步地,所述加權失真方法具體為:
S1:定義信噪比為:
其中,T計算方法為:
S2:輸出語音模擬信號:
對|S|2進行開方,獲得S(t,k);
其中,S(t,k)、Y1(t,k)、Y2(t,k)分別對應時域信號s(t)、y1(t)、y2(t)的STFT;
進一步地,所述識別匹配模塊包括預處理單元、特征提取單元、參數(shù)自適應單元、識別分類單元和樣本匹配單元,所述預處理單元、特征提取單元、參數(shù)自適應單元、參數(shù)轉換單元和樣本匹配單元依次連接;
進一步地,所述預處理單元對加強減噪模塊發(fā)送的模擬信號進行采樣量化、預加重和分幀加窗,對模擬信號進行采樣量化時依據(jù)帶寬和采樣率對輸入的模擬信號進行采樣,使之轉換為數(shù)字信號,再通過預加重數(shù)字濾波器進行加重處理,通過交替分段方法和漢明窗進行分幀加窗;
進一步地,所述特征提取單元以10:10:4:1的比例對分幀加窗的數(shù)字信號進行MFCC、LPMFCC、LPC和TEOCC特征參數(shù)提取,分別進行方差比計算,按照方差比從大到小對提取的特征參數(shù)進行排列,再以5:5:2:1的比例從MFCC、LPMFCC、LPC和TEOCC四種特征參數(shù)中共計提取13個特征參數(shù),即為組合特征參數(shù),所述方差比計算方法如下:
其中,mk為語音特征第k維分量在所有類上的均值;mk(i)為語音特征第k維分量第i類的均值;wi為第i類的語音特征序列;c、ni分別為語音特征序列的類別數(shù)和各類的樣本數(shù);ck(i)為第i類語音特征的第k維分量,σbetween為特征分量的類間方差,σwithin為特征分量的類內方差;
進一步地,所述參數(shù)自適應單元通過EigenVoice模型將不等長的語音序列轉換為定長的優(yōu)化特征參數(shù)(xj,yj),所述參數(shù)轉換單元將所述優(yōu)化特征參數(shù)(xj,yj)進行參數(shù)轉換,輸出轉換后的優(yōu)化特征參數(shù)K(xj·yj),所述參數(shù)轉換計算方法如下:
K(xj·yj)=a[(xj·yj)+1]q+(1-a)exp(||xj-yj||2/2β2)
其中a>0,表示比例系數(shù),β是徑向基核函數(shù)的寬度系數(shù),q是冪指數(shù),q和β均為可調節(jié)參數(shù),(xj·yj)為線性內積核函數(shù)運算;
進一步地,所述樣本匹配單元中設有口語轉化標準庫,所述樣本匹配單元將參數(shù)轉換單元轉換的優(yōu)化特征參數(shù)K(xj·yj)與口語轉化標準庫中存儲的樣本優(yōu)化特征參數(shù)E(xj·yj)進行比較,輸出相同的樣本優(yōu)化特征參數(shù)E(xj·yj);
本發(fā)明通過對學生口語的輸入信息進行一系列的信號變換,使得可能口音不準的學生,同樣能夠通過本系統(tǒng)中的轉換和匹配功能,跟隨系統(tǒng)進行口語學習和校正。
附圖說明
圖1為本發(fā)明系統(tǒng)結構圖;
圖2為本發(fā)明中對麥克風進行排列實現(xiàn)的方法圖;
圖3為本發(fā)明中對麥克風進行陣列實現(xiàn)的方法圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細描述。應當理解,此處所描述的具體實施例僅僅用于解釋本發(fā)明,并不用于限定本發(fā)明。相反,本發(fā)明涵蓋任何由權利要求定義的在本發(fā)明的精髓和范圍上做的替代、修改、等效方法以及方案。進一步,為了使公眾對本發(fā)明有更好的了解,在下文對本發(fā)明的細節(jié)描述中,詳盡描述了一些特定的細節(jié)部分。對本領域技術人員來說沒有這些細節(jié)部分的描述也可以完全理解本發(fā)明。
下面結合附圖和具體實施例對本發(fā)明作進一步說明,但不作為對本發(fā)明的限定。下面為本發(fā)明的舉出最佳實施例:
如圖1-圖3所示,本發(fā)明提供一種口語識別校正系統(tǒng)及校正方法,所述系統(tǒng)包括語音輸入模塊、加強減噪模塊、識別匹配模塊和校正輸出模塊,所述加強減噪模塊一端連接語音輸入模塊,另一端通過識別匹配模塊連接校正輸出模塊。
所述語音輸入模塊由多個麥克風組成,所述多個麥克風接收學生口述的口語語音信息,該口語語音信息可以由一個人或多個人組成,人數(shù)不限。
所述加強減噪模塊中包括多個語音通道,所述多個語音通道由所述語音輸入模塊的多個麥克風與其一一對應連接,將學生口述的語音信息轉換為語音信號,每個所述語音通道中接收的信號為:
x1(t)=s(t)h1(t)+n1(t);(1)
x2(t)=s(t)h2(t)+n2(t);(2)
......
xm(t)=s(t)hm(t)+nm(t)(m>2,m∈N+);(3)
其中,s(t)為期望語音信號;h1(t)為聲源到達第1個麥克風的脈沖響應,h2(t)聲源到達第2個麥克風的脈沖響應,hm(t)聲源到達第m個麥克風的脈沖響應,xm(t)為各麥克風接收到的含噪語音,nm(t)為各麥克風接收到的噪聲信號;
上述(1)、(2)、(3)式在不考慮聲學反射的條件下,簡化為:
x1(t)=s(t)+n1(t);(4)
x2(t)=s(t-f1)+n2(t);(5)
xm(t)=s(t-fm-1)+nm(t);(6)
將多個麥克風進行排列實現(xiàn),如圖2所示,其中,fi(i=1、2、3....m)為相鄰兩個麥克風的聲音到達時間差;則
f1=(d1cosθ)/v,其中v為聲速,d1為第1個麥克風和第2個麥克風之間的距離,θ為聲源與第2個麥克風的連線和第1個麥克風與第2個麥克風連線所成夾角;
fm-1=(dm-1cosθ)/v,其中v為聲速,dm-1為第m-1個麥克風和第m個麥克風之間的距離,θ為聲源與第m個麥克風的連線和第m-1個麥克風與第m個麥克風連線所成夾角;
對(4)、(5)、(6)進行陣列實現(xiàn),如圖3所示,輸出信號為:
y1(t)=x1(t)-x2(t-T)
=s(t)+n1(t)-s[s-d(1+cosθ)/v]-n2(t-d/v)(7)
y2(t)=x2(t)-x1(t-T)
=s(t-dcosθ/v)+n2(t)-s(t-d/v)-n1(t-d/v)(8)
其中,因為在進行陣列實現(xiàn)時,期望聲源一般被放置在陣列的沿線方向,即θ約為0,因此(8)可以簡化為:
y2(t)≈n2(t)-n1(t-d/v) (9)
y2(t)中只包含了噪聲項,y1(t)通道既包含了經空間波束加強后的語音又包含了部分殘留噪聲,因此y2(t)為噪聲子通道,y1(t)為混合子通道,所述噪聲子通道和混合子通道中的信號輸出均為加強后的信號輸出。
對(7)、(9)進行傅立葉變換,可得,
Y1(t,k)=S(t,k){1-exp[-jkd(1+cosθ)/c]}+N1(t,k)-N2(t,k)exp(-jkd/c)
(10)
Y2(t,k)=N2(t,k)-N1(t,k)exp(-jkd/c) (11),
其中,S(t,k)、Y1(t,k)、Y2(t,k)、N1(t,k)和N2(t,k)分別對應時域信號s(t)、y1(t)、y2(t)、n1(t)和n2(t)的STFT(短時傅里葉變換),
對(10)、(11)輸出的信號進行進行加權失真降噪,獲得模擬信號。
所述加權失真降噪方法為:
S1:定義信噪比為:
其中T計算方法如下:
S2:輸出語音模擬信號:
對|S|2進行開方,獲得
S(t,k),即輸出語音模擬信號,所述加權失真降噪方法利用y2(t)噪聲子通道的參考噪聲來抵消y1(t)混合子通道的殘留噪聲,實現(xiàn)減噪,避免了常規(guī)自適應濾波的方法中性能會受到濾波器是否收斂以及收斂速度快慢等因素的影響的問題以及收斂過程中的噪聲泄漏問題。
所述識別匹配模塊包括預處理單元、特征提取單元、參數(shù)自適應單元、識別分類單元和樣本匹配單元,所述預處理單元、特征提取單元、參數(shù)自適應單元、參數(shù)轉換單元和樣本匹配單元依次連接。
所述預處理單元對加強減噪模塊發(fā)送的模擬信號進行采樣量化、預加重和分幀加窗,對模擬信號進行采樣量化時依據(jù)帶寬和采樣率對輸入的模擬信號進行采樣,使之轉換為數(shù)字信號,再通過預加重數(shù)字濾波器進行加重處理,處理后的數(shù)字信號包含大量的個性特性,以利于特征提取,由于語音信號典型的非平穩(wěn)特性,需要加窗分幀處理,通過交替分段方法和漢明窗進行分幀加窗,體現(xiàn)信號的短時平穩(wěn)特征。
所述特征提取單元通過LPC參數(shù)提取、MFCC參數(shù)提取、LPMFCC參數(shù)提取和TEOCC參數(shù)提取四種方法對所述預處理單元處理的數(shù)字信號進行參數(shù)提取,由于MFCC考慮了人耳的聽覺特性,將頻譜轉化為基于Mel頻標的非線性頻譜,然后轉換到倒譜域上,由于充分考慮了人的聽覺特性,而且沒有任何提前假設,MFCC參數(shù)具有良好的識別性能和抗噪能力,LPC在所有頻率上都是線性逼近語音的,這與人耳的聽覺特性不一致,并且它對噪聲的影響特別敏感,包含了語音高頻部分的大部分噪聲細;LPMFCC參數(shù)主要集中在低頻部分,Mel濾波器組在低頻區(qū)域的分布比較集中,所以借鑒MFCC,將實際頻率的LPC系數(shù)轉化為Mel頻率的LPC系數(shù),得到線性預測梅爾參數(shù),這樣使聲道特征和人耳聽覺特征結合了起來,應用于說話人識別系統(tǒng)會有更好的識別效果;TEOCC參數(shù)提取提出的一種非線性差分算子,不僅具有非線性能量跟蹤信號特性,能夠合理地呈現(xiàn)信號能量的變換,而且能夠消除信號的零均值噪聲影響,增強語音信號,同時進行信號特征提取。由于特征參數(shù)對識別的貢獻程度不一樣,有些參數(shù)可能包含大量的冗余信息甚至是干擾信息,如果將它們同等對待,最終會影響識別效果,所以必須對各維參數(shù)進行特征選擇,選出那些可分離性最優(yōu)且能有效地表征語音信號的特征分量,從而達到降維的目的并得到最優(yōu)的識別性能。因此分別提取10維MFCC參數(shù)、10維LPMFCC參數(shù)、4維LPC參數(shù)和1維TEOCC參數(shù),對這25組特征參數(shù)進行方差比計算,所述方差比計算方法如下:
其中,
mk表示語音特征第k維分量在所有類上的均值;mk(i)表示語音特征第k維分量第i類的均值;wi表示第i類的語音特征序列;c、ni分別表示語音特征序列的類別數(shù)和各類的樣本數(shù);ck(i)表示第i類語音特征的第k維分量,σbetween為特征分量的類間方差,即不同語音特征分量均值的方差,其代表的是不同語音樣本之間的差異程度,σwithin為特征分量的類內方差,其代表的是同一語音特征分量的方差的均值,即同一語音樣本之間的密集程度。
由于方差比在這個參數(shù)的類別區(qū)分度越大越好,因此將方差比從大到小排列,并以5:2:5的比例從MFCC、LPC和LPMFCC三種特征參數(shù)中分別選擇其中方差比最大的12個維數(shù)分量,將其與TEOCC參數(shù)組合成13維的組合特征參數(shù),
所述參數(shù)自適應單元通過EigenVoice模型進行對所述特征提取單元提取的組合特征參數(shù)進行參數(shù)自適應,將不等長的語音序列轉換為定長的優(yōu)化特征參數(shù)(xj,yj)。
所述參數(shù)轉換單元將參數(shù)自適應單元轉換的優(yōu)化特征參數(shù)(xj,yj)進行參數(shù)轉換,輸出轉換后的優(yōu)化特征參數(shù)K(xj·yj),所述參數(shù)轉換計算方法如下:
K(xj·yj)=a[(xj·yj)+1]q+(1-a)exp(||xj-yj||2/2β2),其中β>0,表示比例系數(shù),β是徑向基核函數(shù)的寬度系數(shù),q是冪指數(shù),q和β均為可調節(jié)參數(shù),(xj·yj)為線性內積核函數(shù)運算。K(xj·yj)為輸出的最后信號,通過本發(fā)明中所述的參數(shù)轉換方法,將數(shù)據(jù)庫中存儲樣本E(xj·yj)與其進行精確查找對比,識別率高達90%。
所述樣本匹配單元將優(yōu)化特征參數(shù)K(xj·yj)與數(shù)據(jù)庫中的存儲的樣本優(yōu)化特征參數(shù)E(xj·yj)進行比較,輸出相同的樣本優(yōu)化特征參數(shù)E(xj·yj)。
所述校正輸出模塊連接樣本匹配單元,并將樣本匹配單元中的樣本優(yōu)化特征參數(shù)E(xj·yj)通過語音庫中的數(shù)據(jù)轉換,輸出為語音輸出,讓口語學習者完成校正過程,快速改正自己口語中的不足。
以上所述的實施例,只是本發(fā)明較優(yōu)選的具體實施方式的一種,本領域的技術人員在本發(fā)明技術方案范圍內進行的通常變化和替換都應包含在本發(fā)明的保護范圍內。