本發(fā)明屬于聲頻測量領(lǐng)域,特別涉及一種基于傳輸系統(tǒng)聲學(xué)參量的漢語語音清晰度客觀評測算法。
背景技術(shù):
語音清晰度是衡量語音傳輸系統(tǒng)性能優(yōu)劣的重要評價(jià)指標(biāo),清晰度評測在通信、擴(kuò)聲、音質(zhì)設(shè)計(jì)等領(lǐng)域廣泛應(yīng)用,一般用聽者正確接收的語言單位(比如單音節(jié))與全部發(fā)送語言單位的比值度量清晰度。清晰度的評測方法分為主觀評測和客觀評測兩類,主觀評測方法是組織人員進(jìn)行現(xiàn)場清晰度測試打分,主觀評測結(jié)果直接對應(yīng)清晰度,直接準(zhǔn)確,但實(shí)際操作困難,因此工程中更多采用客觀評測方法。清晰度客觀評測是用某個客觀量反映系統(tǒng)的清晰度,這個客觀量是根據(jù)一定的計(jì)算模型計(jì)算得到的,并且是與主觀評測結(jié)果高度相關(guān)的。聲頻技術(shù)領(lǐng)域使用的語音清晰度客觀評測指標(biāo)主要有:清晰度指數(shù)AI(Articulation Index),輔音損失率%Alcon(Articulation loss of consonant),語言傳輸指數(shù)STI(Speech Transmission Index)等,這些客觀評測方法均有其各自的計(jì)算模型,采用不同的信號處理方法,適用于不同的條件和場合。然而,將這些評測方法直接應(yīng)用到漢語聲傳播環(huán)境的清晰度評測時會出現(xiàn)失效的問題,即客觀評測結(jié)果與漢語語音清晰度主觀測試結(jié)果不匹配,客觀評測結(jié)果較差對應(yīng)的漢語實(shí)際聽聞感受可能尚可,而客觀評測結(jié)果較好對應(yīng)的漢語實(shí)際聽感可能不佳。
分析現(xiàn)有技術(shù)評測漢語語音清晰度失效原因可知清晰度客觀評測算法的可靠性與評測對象自身的特性有關(guān),現(xiàn)有的清晰度客觀評測方法是根據(jù)荷蘭語或英語等印歐語系語言特性提出的,并沒有考慮漢語的語音學(xué)和語言學(xué)特性。漢語屬于漢藏語系,是一種聲調(diào)語言,聲調(diào)起到辨義作用,漢語以單音節(jié)為主,一個漢字就是一個單音節(jié),每個音節(jié)包含聲母、韻母和聲調(diào)三個部分,有別于傳統(tǒng)輔-元-輔的音節(jié)構(gòu)造,由于存在較多的同音字,漢語的單字可以視作無語義,這些語音特點(diǎn)都與外語存在顯著區(qū)別,因此在語音傳輸過程中各干擾要素對漢語語音清晰度的影響結(jié)果與外語會有所不同。此外,傳統(tǒng)的清晰度客觀評測算法是將語音傳輸系統(tǒng)視作一個整體,饋給系統(tǒng)一個標(biāo)準(zhǔn)測試信號,根據(jù)系統(tǒng)的輸出信號相對輸入信號的變化衰減程度,進(jìn)而給出一個具體的客觀量值,計(jì)算過程中不涉及傳輸系統(tǒng)中干擾因素的聲學(xué)屬性,因此不能反映傳輸系統(tǒng)的聲學(xué)特性是如何影響語音清晰度的下降,評測結(jié)果難以對清晰度降低的原因起到“診斷”和“治療”作用,無法指導(dǎo)聲傳輸系統(tǒng)的功能設(shè)計(jì)。因此,針對漢語的語音學(xué)和語言學(xué)特性,并根據(jù)傳輸系統(tǒng)的聲學(xué)要素對漢語語音清晰度的影響方式,提出一種適合漢語的語音清晰度客觀評測算法是解決當(dāng)前問題的一種重要途徑。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有技術(shù)的缺陷,本發(fā)明提出一種以傳輸通道聲學(xué)參量為自變量的漢語語音清晰度評測方法,建立了噪聲掩蔽、混響混疊和頻帶有限單一或復(fù)合聲學(xué)傳遞條件下的漢語語音清晰度評測模型,包括漢語單音節(jié)清晰度,聲母清晰度,韻母清晰度和聲調(diào)清晰度。只需要測量傳輸系統(tǒng)的信噪比,混響時間和帶頻比就可以直接計(jì)算出相應(yīng)的漢語語音清晰度值,該方法針對漢語的語音學(xué)和聽感特性,適用于漢語傳播為主的聲傳輸系統(tǒng),同時計(jì)算結(jié)果還有助于對系統(tǒng)的語音傳輸質(zhì)量進(jìn)行針對性的優(yōu)化。
提出一種漢語語音清晰度客觀評測算法,包括測量能夠表征傳輸系統(tǒng)中漢語語音清晰度干擾條件的客觀聲學(xué)參數(shù)的步驟,其特征在于,根據(jù)所建立的客觀聲學(xué)參數(shù)與漢語的主觀聽感清晰度間的對應(yīng)函數(shù)關(guān)系,得到當(dāng)前傳輸系統(tǒng)的漢語語音清晰度,其中,客觀聲學(xué)參數(shù)為自變量,所述函數(shù)為分段函數(shù),不同段函數(shù)具有相應(yīng)的約束條件,所述的語音清晰度干擾條件包括噪聲掩蔽,混響混疊和頻帶限制,其中,信噪比SNR對應(yīng)噪聲掩蔽干擾條件下的客觀聲學(xué)參數(shù),混響時間T對應(yīng)混響混疊干擾條件下的客觀聲學(xué)參數(shù),帶頻比RBF對應(yīng)頻帶限制干擾條件下的客觀聲學(xué)參數(shù)。
進(jìn)一步給出了漢語單音節(jié)清晰度Q與信噪比SNR,混響時間T,和帶頻比RBF之間的函數(shù)關(guān)系,并且給出了漢語單音節(jié)清晰度Q與聲母清晰度Qsm之間的線性函數(shù)關(guān)系、與韻母清晰度Qym和聲調(diào)清晰度Qsd的指數(shù)函數(shù)關(guān)系。
附圖說明
圖1為本發(fā)明所用到的漢語語音清晰度主觀聽感實(shí)驗(yàn)示意圖
圖2為漢語單音節(jié)清晰度與聲母、韻母和聲調(diào)清晰度的關(guān)系圖
具體實(shí)施方式
本發(fā)明的思路是從傳輸系統(tǒng)內(nèi)部干擾清晰度的聲學(xué)要素和漢語的實(shí)際聽感清晰度的關(guān)系出發(fā),提出一種符合漢語語音清晰度感知規(guī)律并且能對傳輸系統(tǒng)起到診斷和改進(jìn)作用的清晰度客觀評測方法。實(shí)際情況下,語音傳輸系統(tǒng)中影響清晰度的聲學(xué)要素主要有三類,噪聲掩蔽,混響混疊和頻帶限制,通過開展噪聲、混響和頻帶受限單一干擾或復(fù)合干擾條件下的漢語語音清晰度主觀聽感實(shí)驗(yàn),得到漢語語音清晰度與客觀量信噪比、混響時間和帶頻比的關(guān)系,建立以信噪比、混響時間和帶頻比為自變量的函數(shù)模型,依據(jù)此計(jì)算模型可以實(shí)現(xiàn)對噪聲、混響和頻帶受限條件下的漢語語音清晰度的評測,并能夠根據(jù)清晰度預(yù)測結(jié)果對傳輸系統(tǒng)的功能設(shè)計(jì)進(jìn)行針對性的調(diào)整。需要說明的是本發(fā)明所指的漢語語音清晰度指的是漢語主觀聽感清晰度,具體指的是漢語單音節(jié)清晰度,語料使用的是不涉及語義的漢語單音節(jié),與語言可懂度有所不同。
漢語語音清晰度主觀聽感實(shí)驗(yàn)示意圖如圖1所示,實(shí)驗(yàn)方法參照國家標(biāo)準(zhǔn)GB-T 15508-1995《聲學(xué)語言清晰度測試方法》進(jìn)行。預(yù)先錄制純凈的語音信號,通過信號處理把錄制的語音信號分別與噪聲按一定的信噪比疊加,或與具有一定混響時間的房間沖擊響應(yīng)進(jìn)行卷積,或按照一定的頻帶限制條件進(jìn)行濾波,以模擬受到噪聲、混響和頻帶受限這三類聲學(xué)干擾要素單一或綜合影響的語音信號,主觀聽感實(shí)驗(yàn)涉及的各類傳遞條件包括不同頻譜特性,不同信噪比的噪聲,不同混響時間的房間脈沖響應(yīng)函數(shù),以及不同中心頻率,不同帶寬的濾波條件,傳遞條件類型充足以確保清晰度分布范圍足夠廣。在聽音室用隔聲性能較好的監(jiān)聽耳機(jī)將這些語音信號回放給聽音人進(jìn)行清晰度測試。聽音人應(yīng)當(dāng)聽力正常,熟悉漢語普通話,聽音人在答題紙上記錄下自認(rèn)為聽到的音節(jié)拼音。比如聽到:“序號X切哈宗”,被試記錄“qièhāzōng”。只有當(dāng)被試記錄的拼音與實(shí)際播放的拼音一致時,才認(rèn)為聽對,否則記為錯。為保證實(shí)驗(yàn)的信度,當(dāng)某一被試記錄表的得分與全體被試清晰度平均得分相差大于標(biāo)準(zhǔn)差3倍時,剔除掉該被試數(shù)據(jù),重新計(jì)算清晰度得分。實(shí)驗(yàn)結(jié)束后通過多元回歸等統(tǒng)計(jì)分析方法建立漢語語音清晰度與聲學(xué)參量的函數(shù)關(guān)系,以及漢語單音節(jié)清晰度與聲母、韻母和聲調(diào)清晰度的統(tǒng)計(jì)關(guān)系,最終建立漢語語音清晰度的客觀評測模型。
本發(fā)明提出的漢語語音清晰度客觀評測算法模型可概括為式(1)所示的函數(shù)形式,其中Q為漢語語音清晰度(單音節(jié)清晰度)客觀評價(jià)指數(shù),選取信噪比SNR對應(yīng)噪聲傳遞條件的客觀控制變量,混響時間T對應(yīng)混響傳遞條件的客觀控制變量,帶頻比RBF對應(yīng)頻帶有限傳遞條件的客觀控制變量。
Q=f(SNR,T,RBF,…) (1)
本發(fā)明所指的帶頻比RBF是對傳輸頻帶帶寬與中心頻率的比值的修正,如式(2)所示,其中B=fH-fL為系統(tǒng)帶寬,是系統(tǒng)的中心頻率,a、b為常數(shù),fH為頻率上限,fL為頻率下限,經(jīng)主觀實(shí)驗(yàn)評價(jià)比較,推薦a值取500,b值取800。
本發(fā)明提出的漢語語音清晰度客觀評測算法模型如式(3)所示,該算法給出了漢語單音節(jié)清晰度Q與信噪比SNR,混響時間T,和帶頻比RBF的函數(shù)關(guān)系。漢語單音節(jié)清晰度與傳輸系統(tǒng)客觀聲學(xué)量呈指數(shù)關(guān)系,擬合精度R2可以達(dá)到0.90。
本算法采用分段函數(shù)的形式,不同的函數(shù)有相應(yīng)的約束條件,約束條件的范圍是在主觀實(shí)驗(yàn)比較之后獲得的最優(yōu)值。清晰度評測時,首先確定傳輸系統(tǒng)客觀聲學(xué)參量信噪比SNR,混響時間T,帶頻比RBF的取值,隨后根據(jù)約束條件選取相應(yīng)的算法模型,計(jì)算結(jié)果直接就是漢語聽感清晰度。算法模型存在上、下飽和值,當(dāng)信噪比達(dá)到24dB以上,且混響時間小于0.04s,且?guī)ьl比大于4.38時,清晰度存在上限飽和值0.86。當(dāng)信噪比低于-14dB以上,且混響時間小于12.18s,且?guī)ьl比小于0.06時,清晰度存在下飽和值0.05。
本發(fā)明進(jìn)一步建立了漢語音位清晰度即聲母、韻母和聲調(diào)清晰度的評測模型,漢語單音節(jié)清晰度與音位清晰度的關(guān)系如圖2所示。單音節(jié)清晰度與聲母清晰度為線性關(guān)系,與韻母清晰度和聲調(diào)清晰度均為指數(shù)關(guān)系。單音節(jié)清晰度與三種音位清晰度的函數(shù)模型如式(4)所示,擬合精度R2=0.99。單音節(jié)清晰度與聲母清晰度的函數(shù)模型如式(5)所示,擬合精度R2=0.95。單音節(jié)清晰度與韻母清晰度的函數(shù)模型如式(6)所示,擬合精度R2=0.93。單音節(jié)清晰度與聲母清晰度的函數(shù)模型如式(7)所示,擬合精度R2=0.77。其中Qsm表示聲母清晰度,Qym表示韻母清晰度,Qsd表示聲調(diào)清晰度。
進(jìn)一步的,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)知曉,語音傳輸系統(tǒng)中影響漢語語音清晰度的聲學(xué)要素可能并不僅限于噪聲,混響和頻帶有限,還存在其它類型的干擾條件,另外表征傳輸系統(tǒng)的噪聲、混響及頻帶有限干擾條件的客觀參量也存在除信噪比SNR、混響時間T及帶頻比RBF以外的客觀參量,本發(fā)明僅針對噪聲(用信噪比SNR表征),混響(用混響時間T表征)和頻帶有限(用帶頻比RBF表征)情況下的漢語語音清晰度評測,增加其他干擾條件下的評測方法與本發(fā)明類似,本領(lǐng)域技術(shù)人員完全可以根據(jù)本發(fā)明給出的方法得到對應(yīng)的評測算法。