專利名稱:漢語(yǔ)識(shí)別合成型聲碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電通信技術(shù),特別是涉及極低比特率聲碼器。
近年來(lái),比特率低于1000bps(比特/秒)的極低比特率語(yǔ)音編碼技術(shù)的研究受到普遍關(guān)注,因?yàn)槎滩ㄐ诺乐械脑捯敉ㄐ拧㈦娮余]箱中的語(yǔ)音郵件業(yè)務(wù)等許多場(chǎng)合都迫切需要這種技術(shù)。如果語(yǔ)音的比特率可以壓縮到200bps以下,則其比特率可以與電報(bào)相比擬,這時(shí)還可開發(fā)許多前所未有的新型語(yǔ)音處理應(yīng)用。
但是,近十幾年來(lái)發(fā)表的大量文獻(xiàn)表明要將語(yǔ)音數(shù)據(jù)的比特率壓縮到400bps以下,采用基于語(yǔ)音分析與合成的各種編碼算法所能獲得的輸出語(yǔ)音質(zhì)量很差,很難達(dá)到能讓公從接受的程度。其原因是因?yàn)檫@種分析合成型聲碼器的編碼單元是一幀或幾幀語(yǔ)音信號(hào)。一幀語(yǔ)音信號(hào)通常是10毫秒到30毫秒的一段信號(hào),其特性變化無(wú)究,用一個(gè)有限符號(hào)集來(lái)編碼即意味著恢復(fù)的語(yǔ)音信號(hào)難免產(chǎn)生不可容忍的失真。
與此相對(duì)應(yīng)的識(shí)別合成型聲碼器是以語(yǔ)音單位(或稱語(yǔ)音基元,如音素、音節(jié)或詞)為編碼單元編碼的。任一種語(yǔ)言的音素或音節(jié)是一個(gè)有限數(shù)目的集合。這種聲碼器在發(fā)送部分采用語(yǔ)音識(shí)別技術(shù)進(jìn)行語(yǔ)音基元識(shí)別和編碼,接收部分根據(jù)收到的語(yǔ)音基元代碼串和某些附加的韻律信息重新合成語(yǔ)音。這種聲碼器需要在信道中傳輸?shù)膮?shù)很少,而在接收端是按規(guī)則合成語(yǔ)音,因此可以以極低的比特率傳輸或存貯語(yǔ)音參數(shù)卻能恢復(fù)出高質(zhì)量的語(yǔ)音。
1986年8月6日公開的中國(guó)發(fā)明專利——極低數(shù)碼率漢語(yǔ)識(shí)別聲碼器(專利號(hào)CN85.1.00576A)就是根據(jù)這個(gè)原理提出的將漢語(yǔ)連續(xù)語(yǔ)音以音節(jié)、聲母、韻母為基礎(chǔ)進(jìn)行識(shí)別、編碼、合成以構(gòu)成極低比特率聲碼器的基本思想,但這一專利尚存在某些缺陷,使之難于實(shí)施,即使實(shí)施成功也不能保證獲得高可懂度的輸出語(yǔ)音。其缺陷主要表現(xiàn)在1.音節(jié)表中的音節(jié)只考慮了普通話中的1300個(gè)常規(guī)有調(diào)節(jié)音節(jié),沒有考慮一般使用者所說(shuō)普通話口語(yǔ)中經(jīng)常出現(xiàn)的特殊音節(jié),如兒化音節(jié)、輕聲音節(jié),以及因使用者發(fā)音習(xí)慣或語(yǔ)言環(huán)境影響而產(chǎn)生的在常規(guī)音節(jié)之外的音節(jié)。這一缺陷必然導(dǎo)致輸出語(yǔ)音自然度、可懂充降低,甚至因所缺音節(jié)的錯(cuò)誤取代而產(chǎn)生語(yǔ)意表達(dá)錯(cuò)誤。
2.沒有考慮到韻律特征對(duì)合成語(yǔ)句的可懂度的重要作用,遣漏或忽視了一些關(guān)鍵性的韻律參數(shù)的運(yùn)用,因而無(wú)法保證輸出語(yǔ)音的高可懂度。例如信道中沒有傳輸能反映語(yǔ)句中詞語(yǔ)劃分的參數(shù),接收端便無(wú)法進(jìn)行詞語(yǔ)劃分,合成單元也就無(wú)法區(qū)分同一詞中兩個(gè)相鄰音節(jié)間和不同詞的兩個(gè)相鄰節(jié)間在協(xié)同發(fā)音影響方面的重大差別,不得不將語(yǔ)句中每一音節(jié)同等看待進(jìn)行合成,其結(jié)果是嚴(yán)重?fù)p害合成語(yǔ)句中多音節(jié)詞的清晰度和自然度,同時(shí)也將嚴(yán)重?fù)p害整個(gè)語(yǔ)句的自然度和可懂度,因?yàn)槿鄙僭~語(yǔ)劃分依據(jù)的語(yǔ)句,常常無(wú)法解決語(yǔ)意上多義性的問(wèn)題。無(wú)論是由人來(lái)聽辨,還是用一個(gè)自動(dòng)語(yǔ)音理解系統(tǒng)來(lái)處理都是這樣。實(shí)測(cè)表明這種合成語(yǔ)音的可懂度低于70%。
3.只考慮了連續(xù)語(yǔ)音輸入的方式,沒有考慮因連續(xù)語(yǔ)音輸入時(shí)漢語(yǔ)全音節(jié)識(shí)別器的識(shí)別率無(wú)法保證,而不得不采用一個(gè)音節(jié)一個(gè)音節(jié)或一個(gè)詞一個(gè)詞地?cái)嗬m(xù)地輸入的方式。此時(shí)如何保證輸出語(yǔ)音流暢而自然的問(wèn)題,該發(fā)明沒有提出任何措施。
本發(fā)明的目的之一是提供一種能克服上述缺陷的漢語(yǔ)識(shí)別合成型聲碼器的新結(jié)構(gòu),目的之二是設(shè)計(jì)漢語(yǔ)識(shí)別合成型聲碼器的一種韻律信息處理方法。
本發(fā)明的漢語(yǔ)識(shí)別合成型聲碼器是由發(fā)送和接收兩大部分和一個(gè)漢語(yǔ)音節(jié)表構(gòu)成的,發(fā)送部分包括語(yǔ)音識(shí)別、韻律分析和參數(shù)編碼三個(gè)單元,接收部分包括參數(shù)譯碼、韻律參數(shù)轉(zhuǎn)換和語(yǔ)音合成三個(gè)單元,如
圖1所示。
輸入語(yǔ)音經(jīng)發(fā)端的發(fā)送部分逐個(gè)音節(jié)地進(jìn)行自動(dòng)識(shí)別,編碼為音節(jié)代碼,同時(shí)提取語(yǔ)音中的韻律特征參數(shù),進(jìn)行壓縮編碼;收端進(jìn)行參數(shù)譯碼后,利用其中的音節(jié)代碼串和韻律參數(shù)重新合成為語(yǔ)句輸出。
音節(jié)表是發(fā)送和接收兩部分共用的,表中包括了一般使用者普通話口語(yǔ)中常用的各種音節(jié)共1866個(gè),即包括普通話中1300個(gè)常規(guī)有調(diào)音節(jié),332個(gè)因發(fā)音人方言習(xí)慣或語(yǔ)音環(huán)境而產(chǎn)生的額外的有調(diào)音節(jié),還有94個(gè)兒化音節(jié)和140個(gè)輕聲音節(jié)。從表中可根據(jù)各音節(jié)的序號(hào)查到它的聲、韻、調(diào)和是否兒化音節(jié),反過(guò)也可以由聲、韻、調(diào)和是否兒化音節(jié)確定其音節(jié)序號(hào)。
韻律信號(hào)處理單元包括發(fā)送部分韻律分析單元和接收部分的韻律參數(shù)轉(zhuǎn)換單元,它們配合語(yǔ)音識(shí)別、語(yǔ)音合成以及參數(shù)編譯碼單元實(shí)現(xiàn)以下韻律信息處理方法①在發(fā)端自動(dòng)檢測(cè)音聯(lián)參數(shù),以標(biāo)明當(dāng)前音節(jié)與下一音節(jié)是否屬于同一個(gè)多音節(jié)(包括雙音節(jié))詞,收端利用這個(gè)音聯(lián)參數(shù)進(jìn)行詞語(yǔ)劃分,利用詞內(nèi)音節(jié)協(xié)同發(fā)音規(guī)則合成高質(zhì)量的詞語(yǔ),進(jìn)而構(gòu)成語(yǔ)句。
②在發(fā)端逐幀地進(jìn)行基音檢測(cè),并將每個(gè)音節(jié)的基音輪廓線(即基音周期隨時(shí)間而變化的曲線)進(jìn)行壓縮編碼,收端還原出基音輪廓線后,控制合成音節(jié)的基音輪廓線與原音節(jié)的基音輪廓線相似。
③在發(fā)端進(jìn)行信號(hào)強(qiáng)度(短時(shí)能量或短時(shí)幅度)的逐幀檢測(cè),并將每個(gè)音節(jié)的幅度輪廓線(即信號(hào)強(qiáng)度隨時(shí)間而變化的曲線)進(jìn)行壓縮編碼,收端還原幅度輪廓線后,控制各合成音節(jié)的幅度輪廓線與原輸入音節(jié)的幅度輪廓線相似。
識(shí)別單元中的端點(diǎn)檢測(cè)方法和語(yǔ)音識(shí)別方法能兼容連續(xù)語(yǔ)音輸入和孤立詞(包括單音節(jié)詞)輸入兩種方式,而通過(guò)利用音聯(lián)參數(shù)來(lái)保證合成的語(yǔ)句流暢性和自然度。
本發(fā)明有益效果如下1.音節(jié)表中的音節(jié)包括一般使用者普通話口語(yǔ)中經(jīng)常出現(xiàn)的音節(jié),避免了因音節(jié)不全而造成的識(shí)別錯(cuò)誤,其中兒化音節(jié)和輕聲音節(jié)的運(yùn)用,明顯地改善了合成語(yǔ)句自然度和可懂度。
2.本發(fā)明的發(fā)送和接收部分都設(shè)有韻律信息處理單元,采用了多種韻律信息處理方法,在發(fā)端的發(fā)送部分提取韻律特征參數(shù),并壓縮碼傳輸?shù)绞斩?,收端的接收部分有效地利用它們進(jìn)行合成語(yǔ)音的韻律調(diào)整,因而對(duì)改善這種聲碼器輸出語(yǔ)音質(zhì)量起了關(guān)鍵性的作用。具體地說(shuō),有①音聯(lián)參數(shù)的利用使合成語(yǔ)句的可懂度提高21.4%,即由68.5%提高到89.9%。其中后一數(shù)據(jù)為本組參加全國(guó)性測(cè)評(píng)的結(jié)果,登載在《智能機(jī)研究動(dòng)態(tài)》1994年第6期上。前一數(shù)據(jù)是本組采用同樣測(cè)試方法測(cè)得的。測(cè)聽隊(duì)反映不用音聯(lián)參數(shù)時(shí),合成語(yǔ)音給人以一個(gè)字一個(gè)字地蹦出來(lái)的感覺,采用音聯(lián)參數(shù)后,語(yǔ)句自然度顯著地改善了。
②各音節(jié)的基音輪廓線信息的利用,明顯地改善了輸出語(yǔ)音的自然度和語(yǔ)調(diào)表達(dá)能力,同時(shí)使語(yǔ)句可懂度提高到99.6%,這是實(shí)測(cè)結(jié)果。
③各音節(jié)信號(hào)強(qiáng)度輪廓線的利用,進(jìn)一步改善了輸出語(yǔ)音的自然度和語(yǔ)氣表達(dá)能力。
3.語(yǔ)音輸入方式兼容孤立詞輸入方式,顯著地增強(qiáng)了這種聲碼器的實(shí)用性和現(xiàn)實(shí)可行性,它使這種聲碼器的實(shí)施能打破連續(xù)語(yǔ)音中全音節(jié)識(shí)別技術(shù)困難的限制,而使它能立足于當(dāng)前已成熟的技術(shù),而且在應(yīng)用中能適應(yīng)語(yǔ)言不夠標(biāo)準(zhǔn)的使用者。
下面結(jié)合圖解進(jìn)一步敘述各單元的結(jié)構(gòu)及其實(shí)施方式
圖1是由一個(gè)識(shí)別合成型聲碼器的發(fā)送部分與另一個(gè)同類聲碼器的接收部分構(gòu)成的單工方式語(yǔ)音通信系統(tǒng)的總體框2是音節(jié)表結(jié)構(gòu)3是語(yǔ)音識(shí)別單元的結(jié)構(gòu)框4是韻律分析單元的框5是合成單元的結(jié)構(gòu)框圖1.音節(jié)表圖1中音節(jié)表的結(jié)構(gòu)如圖2所示,它是一個(gè)24×35×6的三維陣列,三維的下標(biāo)分別表示聲母、韻母和聲調(diào)的序號(hào)。其中聲母中有一個(gè)零聲母;韻母中將資韻(即ZI,Ci,Si,Zhi,Chi,Shi,ri)單列為一個(gè)韻母,而不屬韻母i;聲調(diào)本來(lái)只有4種聲調(diào),考慮輕聲和兒化音,所以排了6個(gè)元素。本方案定義了1866個(gè)音節(jié),每個(gè)音節(jié)有一個(gè)序號(hào),這些序號(hào)就按照其聲、韻、調(diào)以及是否兒化存于上述三維陣列之中,三維陣列中沒有相應(yīng)音節(jié)的元素取為0值。如果已知一個(gè)音節(jié)的序號(hào)可以直接由這個(gè)表查到聲、韻、調(diào)和是否兒化,反之亦然。顯然,這個(gè)音節(jié)表是音節(jié)編譯碼過(guò)程不可缺少的。同時(shí)也在音節(jié)識(shí)別和語(yǔ)音合成過(guò)程中用作操作數(shù)據(jù)庫(kù)的索引。
2.語(yǔ)音識(shí)別單元圖1中的語(yǔ)音識(shí)別單元的結(jié)構(gòu)如圖3所示。
語(yǔ)音識(shí)別單元的目的是對(duì)輸入語(yǔ)音中每個(gè)音節(jié)進(jìn)行自動(dòng)識(shí)別,以便進(jìn)行編碼。作為聲碼器應(yīng)用,應(yīng)該考慮詞匯量不受限制,而且希望遲延盡可能小,因此要求識(shí)別單元能準(zhǔn)實(shí)時(shí)地識(shí)別全部漢語(yǔ)音節(jié)。
由于漢語(yǔ)聽寫機(jī)研制的推動(dòng),漢語(yǔ)全音節(jié)識(shí)別技術(shù)已經(jīng)部分地成熟起來(lái),并且還在迅速改進(jìn)之中。因此本方案的實(shí)施有許多成熟的技術(shù)可供借鑒。本方案的重點(diǎn)是針對(duì)漢語(yǔ)識(shí)別合成型聲碼器的一些特殊要求來(lái)進(jìn)行結(jié)構(gòu)和實(shí)施途徑的設(shè)計(jì),其中一個(gè)最突出的問(wèn)題是語(yǔ)音輸入方式問(wèn)題。
作為聲碼器應(yīng)用,語(yǔ)音識(shí)別單元通常都認(rèn)為其輸入語(yǔ)音的方式是連續(xù)的自然語(yǔ)言。因此,本方案中全音節(jié)識(shí)別器也針對(duì)連續(xù)語(yǔ)音中漢語(yǔ)全音節(jié)識(shí)別進(jìn)行設(shè)計(jì)。但是,本方案也考慮到連續(xù)語(yǔ)音中的漢語(yǔ)全音節(jié)比孤立音節(jié)的識(shí)別要困難得多,為確保各種不同的使用者都能達(dá)到足夠高的音節(jié)識(shí)別正確率,本方案還設(shè)計(jì)了另一種輸入方式——孤立音節(jié)或孤立詞輸入方式,即既允許一個(gè)字一個(gè)字地說(shuō),也允許一個(gè)詞一個(gè)詞地說(shuō),如果仍然發(fā)生個(gè)別錯(cuò)誤,還可在發(fā)現(xiàn)錯(cuò)誤時(shí)用最簡(jiǎn)單的鍵盤操作糾正之。所謂最簡(jiǎn)單的鍵盤操作是指用數(shù)字鍵從識(shí)別結(jié)果中的四個(gè)候選音節(jié)中挑出那個(gè)正確的音節(jié)來(lái)頂替主選音節(jié)。這樣,如果主選音節(jié)正確率可達(dá)90%,加上四個(gè)候選音節(jié)之后正確率可達(dá)99%,那末只有10%的機(jī)會(huì)是要打一個(gè)數(shù)字鍵糾錯(cuò)的,而結(jié)果可達(dá)到99%的正確率。這樣的狀況在目前的技術(shù)水平下已經(jīng)達(dá)到。在允許以多音節(jié)詞為單位進(jìn)行識(shí)別時(shí),由于可利用詞一級(jí)的語(yǔ)言模型,其音節(jié)識(shí)別率更高。只是這時(shí)的時(shí)延要增大到一個(gè)詞語(yǔ)的持續(xù)長(zhǎng)度,不適于全雙工語(yǔ)音通信應(yīng)用。不過(guò),識(shí)別合成型聲碼器獨(dú)特之處在于其比特率特別低,音質(zhì)可以任意改善,完全可以基于半雙工或單工通信方式得到廣泛應(yīng)用。
圖3所示的結(jié)構(gòu)是兼容上述兩種語(yǔ)音輸入方式的語(yǔ)音識(shí)別單元實(shí)施例。其硬件結(jié)構(gòu)是由一個(gè)或兩個(gè)并行方式工作的32位高速信號(hào)處理器子系統(tǒng),配以前置放大器、防混疊濾波器、數(shù)/模和模/數(shù)轉(zhuǎn)換器、顯示器和簡(jiǎn)單鍵盤等外圍設(shè)備構(gòu)成的;或者將上述設(shè)備中除顯示器和鍵盤以外的部分做成個(gè)人微機(jī)插件板形式,配合個(gè)人微機(jī)的操作環(huán)境而構(gòu)成。
按照?qǐng)D3的結(jié)構(gòu),輸入語(yǔ)音信號(hào)經(jīng)前置放大、防混濾波、模/數(shù)變換、預(yù)加重等預(yù)處理后,由實(shí)時(shí)端點(diǎn)檢測(cè)方法檢測(cè)到語(yǔ)音后開始進(jìn)行特征提取,提取的基音參數(shù)用于聲調(diào)識(shí)別,提取的聲學(xué)特征矢量序列用于進(jìn)行相似度計(jì)算以判別當(dāng)前音節(jié)屬于哪個(gè)無(wú)調(diào)音節(jié)。
相似度計(jì)算方法用復(fù)合隱馬爾可夫模型法(HMM)或加權(quán)動(dòng)態(tài)時(shí)間彎折法(DTW)或神經(jīng)網(wǎng)絡(luò)法(NN),其中當(dāng)前最成熟的方法是隱馬爾可夫模型法,但神經(jīng)網(wǎng)絡(luò)法尚有較大發(fā)展?jié)摿?,特別是與HMM法相結(jié)合時(shí)效果很好。本方案采用前半音節(jié)模型與后半音節(jié)模型復(fù)合構(gòu)成全音節(jié)模型的方法的主要優(yōu)點(diǎn)是與獨(dú)立的全音節(jié)模型相比,其參數(shù)占用存貯空間大小、相似度計(jì)算的計(jì)算量、模型訓(xùn)練的計(jì)算開銷以及訓(xùn)練模型所需的訓(xùn)練樣本數(shù)量都可以減少一個(gè)數(shù)量級(jí)以上,而不降低識(shí)別精度,這是漢語(yǔ)音節(jié)的有規(guī)則結(jié)構(gòu)所帶來(lái)的巨大優(yōu)越性。
聲調(diào)識(shí)別采用HMM法,實(shí)驗(yàn)已證明可獲得97%以上的正確識(shí)別率。
語(yǔ)音輸入方式的選擇主要在于端點(diǎn)檢測(cè)法。下面具體介紹三種輸入方式①連續(xù)語(yǔ)音輸入方式;采用端點(diǎn)檢測(cè)1實(shí)現(xiàn),它采用多門限過(guò)零率法判斷一個(gè)語(yǔ)句或短語(yǔ)的開始,然后在轉(zhuǎn)入音節(jié)切分算法的同時(shí)進(jìn)行聲學(xué)和韻律特征實(shí)時(shí)提取,音節(jié)切分算法是根據(jù)短時(shí)能量和清濁判別結(jié)果,隨時(shí)判斷前一音節(jié)是否結(jié)束并已進(jìn)入下一音節(jié)之中,一旦找到當(dāng)前音節(jié)末點(diǎn),便隨時(shí)通知另一個(gè)與之并行處理的高速信號(hào)處理子系統(tǒng)進(jìn)行相性度計(jì)算。在進(jìn)行自動(dòng)切分音節(jié)的同時(shí),還判斷是否已到達(dá)語(yǔ)句或短語(yǔ)的未尾,一旦到達(dá),又重新開始上述整個(gè)過(guò)程。
②孤立音節(jié)或孤立詞輸入方式采用端點(diǎn)檢測(cè)方法2。它也用多門限過(guò)零率法判斷每一個(gè)孤立音節(jié)或孤立詞的開始、然后轉(zhuǎn)入末點(diǎn)檢測(cè),同時(shí)進(jìn)行聲學(xué)特征和韻律特征提取,它也用多門限過(guò)零率法判斷每一孤立音節(jié)或孤立詞的起點(diǎn),然后轉(zhuǎn)入末點(diǎn)檢測(cè),同時(shí)開始進(jìn)行特征提取。末點(diǎn)檢測(cè)方法只用短時(shí)能量就能較好判斷音節(jié)結(jié)尾,一旦找到末點(diǎn)再繼續(xù)檢測(cè)是否又有語(yǔ)音開始,如果這個(gè)停頓時(shí)間超過(guò)一定的門限ΔT0(我們?nèi)ˇ0=0.2秒)仍沒有語(yǔ)音出現(xiàn),就判定這個(gè)音節(jié)或詞語(yǔ)已經(jīng)結(jié)束,立即通知相似度計(jì)算單元進(jìn)行計(jì)算和識(shí)別,當(dāng)然,為改善實(shí)時(shí)性也可在特征提取的同時(shí)進(jìn)行相似度計(jì)算。這種算法可以自動(dòng)判斷當(dāng)前輸入的是單節(jié)詞還是用多音節(jié)詞,以決定用哪種識(shí)別方法來(lái)識(shí)別。
③半連續(xù)多音節(jié)詞輸入方式也采用端點(diǎn)檢測(cè)2實(shí)現(xiàn),注意到多音節(jié)詞識(shí)別法的優(yōu)點(diǎn)是能借助詞一級(jí)的語(yǔ)言統(tǒng)計(jì)模型提高識(shí)別率,但存在時(shí)延較大的缺點(diǎn)。因此,在實(shí)際應(yīng)用中,為了縮短時(shí)延可以根本不用多音節(jié)詞識(shí)別部分,只用孤立音節(jié)識(shí)別部分,但輸入語(yǔ)音仍然可以是以單音節(jié)或多音節(jié)詞方式輸入,只是在發(fā)音時(shí)稍加注意,多音節(jié)詞的發(fā)音每?jī)蓚€(gè)相鄰音節(jié)間稍有停頓但不要長(zhǎng)于門限ΔT0(這時(shí)我們?nèi)ˇ=0.25秒),同時(shí)保證兩個(gè)不同的詞之間的停頓總是大于ΔT0,這就可以把多音節(jié)詞中的音節(jié)可以與孤立音節(jié)基本等同看待了,而且可以自動(dòng)檢出音聯(lián)參數(shù)。
需要說(shuō)明的是上述三種情況中所用的半音節(jié)模型是不同的,連續(xù)語(yǔ)音輸入方式中半音節(jié)模型必須更多,劃分得更細(xì)一些,第二種輸入方式次之,第三種輸入方式與通常的孤立音節(jié)的全音節(jié)識(shí)別方法基本相同,前、后半音節(jié)模型各取100個(gè)左右就足夠了。已通過(guò)實(shí)驗(yàn)證明采用半音節(jié)模型效果優(yōu)于聲母、韻母模型,因?yàn)槁?、韻、調(diào)的相互影響,根據(jù)聲學(xué)特征的相似性程度,每個(gè)聲母和每個(gè)韻母劃分為多個(gè)子類,每個(gè)子類生成一個(gè)半音節(jié)模型,統(tǒng)計(jì)特性更加穩(wěn)定。
3.韻律信息處理單元韻律信息處理單元涉及圖1中韻律分析、參數(shù)編碼、參數(shù)譯碼和韻律參數(shù)轉(zhuǎn)換等單元的內(nèi)容,并與語(yǔ)音識(shí)別單元和語(yǔ)言合成單元配合,實(shí)現(xiàn)韻律特征參數(shù)的提取、壓縮編碼和運(yùn)用。
圖4是韻律分析單元的結(jié)構(gòu)框圖。它包括四種主要韻律特征參數(shù)的提取,即音長(zhǎng)參數(shù)、基音參數(shù)、音強(qiáng)參數(shù)和音聯(lián)參數(shù)。下面敘述這些韻律參數(shù)的作用、提取方法、壓縮編碼傳輸和運(yùn)用等方面的細(xì)節(jié)
①音長(zhǎng)參數(shù)碼長(zhǎng)6比特,以幀為單位表示當(dāng)前音節(jié)的時(shí)長(zhǎng),結(jié)合端點(diǎn)檢測(cè)或音節(jié)切分法求得。還可結(jié)合基音檢測(cè)中清濁判別法求出當(dāng)前音節(jié)濁音段時(shí)長(zhǎng)、清音段時(shí)長(zhǎng)。在合成單元中主要控制濁音段時(shí)長(zhǎng)與輸入音節(jié)一致,而對(duì)清音段時(shí)長(zhǎng)的調(diào)整是按組詞規(guī)則調(diào)整的。
②基音參數(shù)音節(jié)中濁音段基音周期值隨時(shí)間而變的曲線,(簡(jiǎn)稱基音輪廓線),它對(duì)聲調(diào)起決定性作用。但每一種有調(diào)音節(jié)的基音輪廓線并不是一成不變的,它受語(yǔ)音環(huán)境和語(yǔ)調(diào)的影響,特別在多音節(jié)詞中相鄰音節(jié)的協(xié)同發(fā)音影響可使基音輪廓線產(chǎn)生明顯的變異,甚至變成另一種聲調(diào)。因此,各音節(jié)的基音輪廓線是一種對(duì)語(yǔ)音質(zhì)量起決定性作用的重要韻律參數(shù)。本方案采用最通用的一種算法——中心削波自相關(guān)法進(jìn)行基音周期檢測(cè),用自適應(yīng)增量調(diào)制編碼法或矢量量化編碼法對(duì)基音輪廓線進(jìn)行壓縮編碼,或者只傳基音周期一個(gè)最小值和一個(gè)最大值,用以控制調(diào)值的范圍?;魠?shù)用于控制合成語(yǔ)音的基音輪廓線相似于輸入音節(jié)的基音輪廓線。
③音強(qiáng)參數(shù)反映音強(qiáng)的參數(shù)有兩種,一種是短時(shí)能量,一種是短時(shí)信號(hào)幅度,本方案根據(jù)合成器類型選擇其中一種。每幀求一個(gè)音強(qiáng)參數(shù),整個(gè)音節(jié)的音強(qiáng)參數(shù)值即構(gòu)成一條平滑的音強(qiáng)隨間而變的曲線,簡(jiǎn)稱為音強(qiáng)輪廓線,音節(jié)的音強(qiáng)輪廓線對(duì)聲調(diào)的感覺有一定的作用,對(duì)語(yǔ)句的流暢性也有一定影響,本方案考慮了用壓縮編碼方法傳輸音強(qiáng)輪廓信息,但為了減少編碼比特?cái)?shù),當(dāng)應(yīng)用中對(duì)語(yǔ)音質(zhì)量要求不很高時(shí),我們只取一個(gè)典型的音強(qiáng)值。這個(gè)參數(shù)在合成單元中用于控制合成音節(jié)的音強(qiáng)。
④音聯(lián)參數(shù)碼長(zhǎng)1比特,它反映當(dāng)前音節(jié)與下一個(gè)音節(jié)是否連成一個(gè)詞。本方案采用自動(dòng)檢測(cè)方法獲得這種特殊的韻律參數(shù)。這就是結(jié)合端點(diǎn)檢測(cè)和音節(jié)切分方法,計(jì)算當(dāng)前音節(jié)與下一音節(jié)間的停頓的時(shí)長(zhǎng)。當(dāng)此停頓時(shí)長(zhǎng)小于某一門限ΔT0(本方案選ΔT0=0.2~0.25秒)時(shí),即認(rèn)為下一個(gè)音節(jié)與本音節(jié)同屬一詞,置音聯(lián)參數(shù)為1,否則認(rèn)為不屬同一詞,置音聯(lián)參數(shù)為0。音聯(lián)參數(shù)在合成單元起兩個(gè)作用a)控制音節(jié)間協(xié)同發(fā)音的規(guī)則;b)控制音節(jié)間是否停頓及停頓時(shí)長(zhǎng)。
4.語(yǔ)音合成單元圖1中的語(yǔ)音合成單元的結(jié)構(gòu)如圖5所示。
語(yǔ)音合成單元是這種聲碼器接收部分的主體,它必須能利用發(fā)送端傳轉(zhuǎn)來(lái)的參數(shù),準(zhǔn)實(shí)時(shí)地合成詞匯量不受限制的漢語(yǔ)語(yǔ)音。
語(yǔ)音合成單元本質(zhì)上是一個(gè)以音節(jié)或半音節(jié)為合成基元的無(wú)限詞匯漢語(yǔ)語(yǔ)音合成器。當(dāng)然也不排除設(shè)一個(gè)常用詞組語(yǔ)音庫(kù),直接合成一些詞組以便進(jìn)一步改善常用語(yǔ)的自然度。如前所述,發(fā)送端傳來(lái)的參數(shù)不僅包括語(yǔ)句中各音節(jié)的代碼,而且包括有一些對(duì)合成語(yǔ)句的可懂度、自然度起決定性作用的韻律參數(shù)。因此,只要合成方法能充分運(yùn)用這些信息,輸出語(yǔ)音質(zhì)量是可以任意地提高,而不受信道的限制的。
語(yǔ)音合成單元要滿足的起碼要求是它必須能合成如前所述的漢語(yǔ)口語(yǔ)中常用的各種各樣的漢語(yǔ)音節(jié),包括1632個(gè)有調(diào)音節(jié)、常用的兒化音節(jié)和輕聲音節(jié)。
如果要保證輸出語(yǔ)音具有高可懂度(>90%),要求合成單元具有基本的韻律調(diào)整能力①合成的任一音節(jié),其音強(qiáng)、音長(zhǎng)可以隨意改變而仍能保持它的高清晰度和良好自然度;②要能在一定程度上考慮音節(jié)間協(xié)同發(fā)音影響合成多音節(jié)詞(包括雙音節(jié)詞),并能保證常用多音節(jié)詞合成語(yǔ)音的清晰度達(dá)90%以上,自然度達(dá)8.0分以上。
要想獲得可懂度更高、自然度更好的輸出語(yǔ)音,合成器除滿足上述所有要求之外,還必須具有更高一級(jí)的韻律調(diào)整能力①合成音節(jié)的基音輪廓線允許隨意改變而仍能保持合成音節(jié)的高清晰度和自然度;②要求合成音節(jié)的韻母部分的共振峰軌跡可以隨意修改,或有足夠多的韻母——聲母過(guò)渡段供選用來(lái)解決音節(jié)間協(xié)同發(fā)音影響。這兩種韻律調(diào)整能力對(duì)于高質(zhì)量的多音節(jié)詞的合成、語(yǔ)句自然度的改善以及語(yǔ)調(diào)的表達(dá)來(lái)說(shuō),都是十分重要的。合成方法可用基音同步疊接相加法、共振峰合成法或線性預(yù)測(cè)合成法。
圖5給出了一種滿足上述要求的無(wú)限詞匯漢語(yǔ)合成器的結(jié)構(gòu)框圖。
在這個(gè)合成器方案中,全音節(jié)參數(shù)數(shù)據(jù)庫(kù)可以以兩種方式存貯,一種是每個(gè)音節(jié)作為一個(gè)整體存貯,另一種是分解為若干個(gè)公用的前半音節(jié)和后半音存貯,合成時(shí)按規(guī)則組合成全音節(jié)。前者有利于保證音節(jié)的合成質(zhì)量,后者能有效地減少存貯要求。同時(shí),為了更好地合成多音節(jié)詞,還存貯了一些協(xié)同發(fā)音過(guò)渡段的合成參數(shù),它是由各種雙音節(jié)詞中前一音節(jié)的尾部受后一音節(jié)影響產(chǎn)生共振峰特性明顯變異的情況中提取得到的。圖中韻律參數(shù)轉(zhuǎn)換單元將譯碼單元譯出的韻律參數(shù),按照韻律調(diào)整規(guī)則轉(zhuǎn)換為各種各樣的控制信息,在詞和語(yǔ)句合成的過(guò)程中發(fā)揮作用。
5.編碼和譯碼單元①音節(jié)編碼編碼單元若是將語(yǔ)音識(shí)別結(jié)果以聲、韻、調(diào)為單位進(jìn)行編碼,每個(gè)音節(jié)需14比特,而若用前述的音節(jié)表以音節(jié)為單位進(jìn)行編碼,每個(gè)音節(jié)只需11比特,可以節(jié)省3比特。
②韻律參數(shù)的編碼韻律參數(shù)的編碼的靈活性很大,與識(shí)別合成型聲碼器所達(dá)到的性能指標(biāo)有直接關(guān)系,我們用兩個(gè)典型的實(shí)施例來(lái)說(shuō)明編碼效果a)一種最低比特率編碼實(shí)施方式這里所說(shuō)的最低比特率是指這種聲碼器實(shí)施結(jié)果能保證輸出語(yǔ)句可懂度達(dá)到90%以上的情況下的最低比特率要求。為了盡可能壓縮比特率,我們從上述四種韻律參數(shù)中挑選兩個(gè)最關(guān)鍵的,一個(gè)是音聯(lián)參數(shù),碼長(zhǎng)1比特,另一個(gè)是信號(hào)強(qiáng)度,我們選用本音節(jié)最大信號(hào)幅度的PCM—A律變換,取5比特量化結(jié)果,這樣總共只有6比特韻律參數(shù),再加上11比特音節(jié)代碼,總共17比特/音節(jié),按每秒5個(gè)音節(jié)的最快說(shuō)話速度來(lái)算,其比特率仍然只有85比特/秒。而這樣實(shí)施的聲碼器實(shí)測(cè)的語(yǔ)句可懂度高于90%。這與美國(guó)2.4千比特/秒的LPC—10聲碼器相當(dāng)。這里所用合成方法采用基音同步疊接相加法,并利用一些詞內(nèi)音節(jié)間協(xié)同發(fā)音規(guī)則。這里起決定性作用的是音聯(lián)信息的利用。
b)一種高質(zhì)量語(yǔ)音輸出的極低比特率編碼實(shí)施方式為要使輸出語(yǔ)音質(zhì)量達(dá)到較高質(zhì)量,我們選用以下四幾種韻律參數(shù)濁音段音長(zhǎng)6比特、音強(qiáng)參數(shù)(同上)5比特、基音輪廓線壓縮編碼25比特、音聯(lián)參數(shù)1比特,再加音節(jié)代碼11比特總共48比特/音節(jié)。實(shí)施中合成方法采用基音同步疊接相加法,這樣構(gòu)成的識(shí)別合成型聲碼器的輸出語(yǔ)音可懂度實(shí)測(cè)結(jié)果為99.6%。這里起關(guān)鍵作用的是基音輪廓線參數(shù)的運(yùn)用,它使語(yǔ)調(diào)逼真,音節(jié)間聲調(diào)過(guò)渡平滑。
以上只是給出了如何選擇韻律參數(shù)的示范,還可靈活地調(diào)整,以獲得希望達(dá)到的性能。關(guān)于譯碼單元,它只不過(guò)是編碼的逆過(guò)程,在此不再出贅述。
權(quán)利要求
1.一種漢語(yǔ)識(shí)別合成型聲碼器,包括發(fā)送和接收兩部分以及一個(gè)兩部分共用的漢語(yǔ)音節(jié)表,通信時(shí),發(fā)端的發(fā)送部分采用語(yǔ)音分析與語(yǔ)音識(shí)別技術(shù)將輸入語(yǔ)音以音節(jié)為單位進(jìn)行編碼,收端的接收部分根據(jù)接收到的音節(jié)代碼串重新合成語(yǔ)音,音節(jié)表中的音節(jié)設(shè)有普通話中1300個(gè)常規(guī)的有調(diào)音節(jié),其特征在于①發(fā)送和接收均設(shè)有韻律信息處理單元,以傳輸和利用韻律信息保證輸出語(yǔ)音質(zhì)量;②音節(jié)表中增設(shè)有一般使用者的普通話口語(yǔ)中因方言習(xí)慣或語(yǔ)言環(huán)境影響可能發(fā)出的數(shù)百個(gè)其它有調(diào)音節(jié),以及普通話口語(yǔ)中常用的兒化音節(jié)和輕聲音節(jié)。
2.漢語(yǔ)識(shí)別合成型聲碼器中的一種韻律信息處理方法,其韻律信息處理單元在發(fā)端對(duì)輸入語(yǔ)音中各音節(jié)的音長(zhǎng)、幅度值進(jìn)行自動(dòng)檢測(cè)編碼,在收端利用這些參數(shù)控制音節(jié)的合成,其特征在于①在發(fā)端進(jìn)行音聯(lián)參數(shù)的自動(dòng)檢測(cè)和編碼,以標(biāo)明當(dāng)前音節(jié)與下一音節(jié)是否屬于同一個(gè)多音節(jié)詞,在收端利用該參數(shù)劃分詞以便進(jìn)行詞語(yǔ)和語(yǔ)句的合成;②在發(fā)端進(jìn)行基音檢測(cè)與壓縮編碼,在收端將收到的基音參數(shù)進(jìn)行轉(zhuǎn)換以控制所合成的音節(jié)的基音輪廓線相似于原輸入音節(jié)的基音輪廓線;③在發(fā)端進(jìn)行音節(jié)信號(hào)強(qiáng)度的自動(dòng)檢測(cè)與壓縮編碼,在收端對(duì)收到的強(qiáng)度參數(shù)進(jìn)行轉(zhuǎn)換,以控制所合成音節(jié)的強(qiáng)度輪廓線相似于原輸入音節(jié)的強(qiáng)度輪廓線。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于輸入語(yǔ)音的方式,兼容連續(xù)語(yǔ)音輸入方式以及基于孤立音節(jié)或孤立詞的斷續(xù)輸入方式,收端都可利用音聯(lián)參數(shù)合成出流暢的語(yǔ)句。
全文摘要
本發(fā)明屬于電通信技術(shù),特別是涉及極低比特率聲碼器,目的是為了制造比特率低于250比特/秒而能輸出高質(zhì)量語(yǔ)音的通信設(shè)備。本發(fā)明基于語(yǔ)音識(shí)別與合成技術(shù)實(shí)現(xiàn)以音節(jié)為單位的編碼,音節(jié)種類包括了普通話口語(yǔ)中的各種音節(jié),運(yùn)用音聯(lián)、基音輪廓線、強(qiáng)度輪廓線等韻律特征以確保輸出語(yǔ)音的高可懂度,語(yǔ)音輸入方式兼容連續(xù)語(yǔ)音與基于孤立詞的斷續(xù)語(yǔ)音兩種輸入方式,都能輸出流暢的語(yǔ)句,從而成為一種現(xiàn)實(shí)可行的語(yǔ)音通信手段。
文檔編號(hào)G10L17/00GK1122936SQ94118778
公開日1996年5月22日 申請(qǐng)日期1994年12月6日 優(yōu)先權(quán)日1994年12月6日
發(fā)明者易克初, 程俊 申請(qǐng)人:西安電子科技大學(xué)