專利名稱:計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法
傳統(tǒng)的計(jì)算機(jī)由于受到其中央處理器的速度限制和存儲(chǔ)裝置(如硬盤等)的存儲(chǔ)容量限制,計(jì)算機(jī)語音合成的運(yùn)算法及所使用的基本合成單元較簡單,致使所合成出文字語音的效果與原聲相距甚遠(yuǎn),雖有部分業(yè)者為獲得較符合原聲效果的語音而設(shè)計(jì)有許多新的運(yùn)算法,可是,至今不僅仍不能徹底解決問題,甚至語音效果上亦無明顯的改善。
由于現(xiàn)今計(jì)算機(jī)科技在相關(guān)硬件設(shè)備迅速進(jìn)步之情形下,為設(shè)計(jì)者提供了更快的處理器及更大的存儲(chǔ)空間,因此,對(duì)于語音合成技術(shù)而言,設(shè)計(jì)者不僅可采用復(fù)雜的合成和壓縮運(yùn)算法,且用來合成語音的單元也可更大,從而使這些單元中包含更多的語音信息,所以現(xiàn)今計(jì)算機(jī)科技確實(shí)塑造了一個(gè)極佳的設(shè)計(jì)環(huán)境。雖然如此,現(xiàn)今語音合成技術(shù)在制作合成語音時(shí)卻仍存在著發(fā)音失真的問題,這種失真問題主要是由語音合成技術(shù)中的語音合成運(yùn)算法及壓縮運(yùn)算法所造成。
以英文單詞“HELLO”為例,傳統(tǒng)的語音合成技術(shù)在針對(duì)英文單詞找出其國際音標(biāo)<halo>后,首先按照傳統(tǒng)的切分方法切分出<h>、<a>、<l>及<o>等組成音素,并找出其分界點(diǎn),根據(jù)這些音素從相關(guān)的發(fā)音數(shù)據(jù)庫中提取相關(guān)的發(fā)音,但實(shí)際上在這些音素相互合并連接時(shí),由于各音素間交互影響,并不存在分界段,而存在一個(gè)交互影響的區(qū)段,且按采樣點(diǎn)分?jǐn)嘁羲?,必然?dǎo)致音素不純,不純的音素在連接時(shí),自然清晰度低、噪音大、聲音粗糙且機(jī)器聲明顯。
因此,本發(fā)明的目的在于提供一種計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法,通過本發(fā)明的方法,能有效提高單詞合成的準(zhǔn)確率,令其發(fā)音產(chǎn)生更接近真人說話的效果,并有效增加合成發(fā)音的作業(yè)速度,從而克服上述傳統(tǒng)方法對(duì)英語單詞進(jìn)行計(jì)算機(jī)語音合成處理時(shí)所產(chǎn)生的各種缺點(diǎn)。
本發(fā)明的計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法包括首先將單詞的真人正確發(fā)音輸入語音接收裝置,該單詞的語音信號(hào)經(jīng)模/數(shù)轉(zhuǎn)換器采樣處理后,產(chǎn)生該單詞的數(shù)字語音數(shù)據(jù);經(jīng)由聲音編輯器,該數(shù)據(jù)按各元音或子音的位置及其與前后元音或子音間之相互影響關(guān)系,由相鄰兩個(gè)音節(jié)中前一個(gè)音節(jié)中間位置至后一個(gè)音節(jié)中間位置的過渡部分,切分出一個(gè)以上的雙音素;根據(jù)所切分出的各雙音素,通過音質(zhì)校正裝置適當(dāng)調(diào)整不同單詞中相同雙音素的語音信號(hào),并將該雙音素的語音信號(hào)錄制成發(fā)音數(shù)據(jù)庫,從而使發(fā)音數(shù)據(jù)庫中所采集的雙音素更適合作為合成不同單詞語音時(shí)的基本單元;在利用雙音素合成單詞語音時(shí),首先由計(jì)算機(jī)讀入單詞,通過分析單詞得到其對(duì)應(yīng)的國際音標(biāo),再將所對(duì)應(yīng)的國際音標(biāo)分解成雙音素,并經(jīng)轉(zhuǎn)換為雙音素序號(hào)后,計(jì)算機(jī)即按照該序號(hào)自所錄制成的發(fā)音數(shù)據(jù)庫中提取相對(duì)應(yīng)的數(shù)字語音信號(hào),并借助解壓縮程序予以解壓縮,以取得該雙音素的語音信號(hào),然后再將所取得的語音信號(hào)合并,并經(jīng)平滑處理,從而合成該單詞的正確發(fā)音。
圖1所示是本發(fā)明中采集雙音素單元的流程示意圖;圖2是說明本發(fā)明的雙音素單元分析構(gòu)成的示意圖;圖3所示是本發(fā)明利用雙音素單元合成單詞發(fā)音的流程示意圖;圖4和5是母音“O”的波形圖和對(duì)應(yīng)的能量譜;圖6和7是經(jīng)過降調(diào)處理后的母音“O”的波形圖和對(duì)應(yīng)的能量譜。
以下,將結(jié)合附圖詳細(xì)敘述本發(fā)明的一個(gè)較佳實(shí)施例。
本發(fā)明主要在于利用雙音素作為英語單詞合成發(fā)音的基本單元,其中所謂雙音素是指英語單詞中相鄰兩個(gè)音節(jié)的過渡部分,亦即英語單詞的相鄰兩個(gè)音節(jié)中由前一個(gè)音節(jié)中間位置至后一個(gè)音節(jié)中間位置的過渡部分,如以單詞“HELLO”為例,其國際音標(biāo)為<halo>,則該單詞中相鄰兩個(gè)音節(jié)的過渡部分表示如下
其中*符號(hào)代表空音或靜音。若以國際音標(biāo)表示,則該單詞“HELLO”即系由<*h>、<ha>、<al>、<lo>及<o*>等雙音素所組成。
由此可知,英語單詞的發(fā)音即由各雙音素單元所組成,而采集雙音素之方法,參見第1圖所示,主要是先將單詞經(jīng)由真人以正確發(fā)音輸入語音接收裝置,單詞的語音信號(hào)經(jīng)模/數(shù)轉(zhuǎn)換器的采樣處理后,產(chǎn)生該單詞的數(shù)字語音數(shù)據(jù),該數(shù)據(jù)再經(jīng)聲音編輯器按照本發(fā)明方法進(jìn)行切分處理,以切分出組成該單詞語音信號(hào)的雙音素。由于不同單詞中相同雙音素在發(fā)音上仍可能存在有若干差異,因而,借助音質(zhì)校正裝置適當(dāng)調(diào)整不同單詞中相同雙音素的語音信號(hào),就可使所獲得的雙音素能更適用于合成不同單詞語音時(shí)的基本單元。最后,再將所采集的各雙音素利用錄音及壓縮技術(shù)將其錄制于一發(fā)音數(shù)據(jù)庫中,在合成語音時(shí),即可利用該發(fā)音數(shù)據(jù)庫中的雙音素,以合成單詞的正確發(fā)音。
本發(fā)明依據(jù)前述雙音素原理可由8萬個(gè)英語單詞中歸納出約1600個(gè)雙音素,并利用這些雙音素合成單詞的發(fā)音,因此,欲針對(duì)英語單詞合成出更逼近真人發(fā)音效果的計(jì)算機(jī)語音,應(yīng)完全取決于這些雙音素之采集方式。因此,如何獲得所需之雙音素,將是決定本發(fā)明雙音素合成法中合成音質(zhì)好壞的關(guān)鍵,所以,在利用語音合成及錄音技術(shù)錄制雙音素的發(fā)音數(shù)據(jù)庫時(shí),必需適當(dāng)控制雙音素的音速(發(fā)音的長短)與音量。
本發(fā)明的雙音素單元主要由英語國際音標(biāo)最基本的母音和子音所組成,其組成方式包括子母音、母子音、母母音及子子音等組成方式,其中母音也稱元音,子音也稱輔音,一般來說,母音與子音各有其發(fā)音特色,母音振幅較大,波形較有規(guī)則,周期亦較明顯,于音振幅小,波形不規(guī)則,周期較無規(guī)律性。
然而,無論是子音或母音,其振幅仍大致有一個(gè)由低而高,由高而低的變化過程,因而在本發(fā)明中為保證所采樣的雙音素有足夠的變化幅度及相關(guān)性,在選擇用來切分雙音素的語音段時(shí),應(yīng)按以下步驟進(jìn)行(參見圖2)1)先準(zhǔn)備一個(gè)大容量的語音庫,并得出與其對(duì)應(yīng)的參數(shù)信息-音素編號(hào)(PhonemeLabel),音調(diào)級(jí)別(PitchLevel),能量級(jí)別(PowerLevel)。
2)對(duì)語音庫進(jìn)行LPC(16階)頻譜分析。
3)對(duì)相同音素編號(hào)的語音段計(jì)算出平均頻譜特性,所得結(jié)果的平均值A(chǔ)verageK為各頻譜參數(shù)的加權(quán)和。
4)以頻譜特性最接近AverageK的語音段作為合成單元數(shù)據(jù)。
5)在選定語音段后,開始切分雙音素。
在切分雙音素時(shí),必須依據(jù)下列規(guī)則
1)自前一個(gè)音節(jié)的波峰切分到后一個(gè)音節(jié)的波峰。
2)由于英語單詞是由幾個(gè)雙音素拼接而成,因此,每個(gè)雙音素的幅度、長度必需十分相當(dāng)。
3)為令雙音素在拼接時(shí)保持其周期的完整,切分雙音素開始和結(jié)束的兩端均為波形周期起始點(diǎn),意即組成該雙音素的單音素兩端為波形周期起始點(diǎn),且其波形相接點(diǎn)必須相位相同。否則,若前一音素以正變化率上升,第二音素馬上以負(fù)變化率連接,則將出現(xiàn)雜音。
4)不同雙音素的同一音節(jié)應(yīng)有大致相同的周期,因此,將這些雙音素拼接時(shí),語調(diào)才會(huì)統(tǒng)一。
與傳統(tǒng)使用的半音素和單音素相比,本發(fā)明之雙音素由于是從英語單詞中各音節(jié)的平穩(wěn)段切分下來的,因而可最大程度地保留英語單詞中各音節(jié)間的變化信息,因此,利用本發(fā)明將可針對(duì)英語單詞合成出更逼近真人發(fā)音的計(jì)算機(jī)語音。
以英語單詞“HELLO”為例,本發(fā)明的雙音素切分是按照下列步驟進(jìn)行的1)首先,針對(duì)該英語單詞“HELLO”找出其正確的國際音標(biāo)<halo>;2)再根據(jù)該國際音標(biāo)<halo>各元音或子音的位置及其與前后元音或子音間的相互影響關(guān)系,按照讀音規(guī)則切分成<*h>、<ha>、<al>、<lo>及<o*>等區(qū)段,其中符號(hào)*代表空音或靜音,而所切分出的<*h>、<ha>、<al>、<lo>及<o*>等區(qū)段,即本發(fā)明所稱的雙音素。
特別需要注意的是,各區(qū)段的切分點(diǎn)是在純音素的平穩(wěn)段中點(diǎn),如此,將該區(qū)段的發(fā)音拼接合成時(shí),由于是以同一個(gè)音素連接,所以,連接比較平穩(wěn)。
本發(fā)明在利用雙音素合成單詞語音時(shí),其處理步驟參見圖3所示,首先,由計(jì)算機(jī)讀入單詞,通過分析單詞得到其對(duì)應(yīng)的國際音標(biāo),再將所對(duì)應(yīng)的國際音標(biāo)分解成雙音素,并經(jīng)轉(zhuǎn)換為雙音素序號(hào)后,計(jì)算機(jī)即依雙音素序號(hào)自本發(fā)明所錄制成之發(fā)音數(shù)據(jù)庫中檢索相對(duì)應(yīng)的語音數(shù)字編碼信號(hào)。若檢索到,則提取所尋得的數(shù)字信號(hào),并借助解壓縮程序予以解壓縮,以取得雙音素的語音數(shù)據(jù),然后,將所取得的語音數(shù)據(jù)予以合并,再經(jīng)平滑處理,即合成該單詞的正確發(fā)音。
例如,將這些數(shù)據(jù)合并后所得到的、合并的語音信號(hào)稱為S(i),對(duì)S(i)做均值平滑濾波處理。取該信號(hào)中鄰近3幀(一幀指一個(gè)采樣周期)做計(jì)算當(dāng)前幀的語音信號(hào)S(i)=A1S(p)+A2S(i)+A3S(s)。
A1,A2,A3-加權(quán)系數(shù)S(p)-前一幀語音數(shù)據(jù)S(s)-后一幀語音數(shù)據(jù)由于語音信號(hào)是以脈沖編碼調(diào)制(PCM)為基礎(chǔ)的音調(diào)同步差分編碼PSDC(Pitch Synchronized Differential Coding),合成時(shí)可方便地實(shí)現(xiàn)音調(diào)控制。將語音信號(hào)由周期長度Torg調(diào)整到目標(biāo)周期長度Ttar時(shí),使用一個(gè)長度為T=2Torg的哈明窗Hamming window W(i),變換后信號(hào)S(i)=W(i)S(i)+W(T/2-i)S(i+a),其中a=Ttar-Torg。為避免合成語音質(zhì)量變壞,限制Torg/2<Ttar<2Torg。
圖4,5為母音“O”的波形圖和對(duì)應(yīng)的能量譜。
圖6,7為經(jīng)降調(diào)處理后的母音“O”的波形圖和對(duì)應(yīng)的能量譜,與圖4,5對(duì)比可看出,變換后的信號(hào)保留了原信號(hào)所有頻帶的語音特性,失真很小。
仍以單詞“HELLO”為例,其所對(duì)應(yīng)的國際音標(biāo)為<halo>,本發(fā)明在利用雙音素合成單詞語音時(shí),系按以下步驟1)先將該音標(biāo)<halo>切分出<*h>、<he>、<el>、<lo>及<o*>等雙音素;2)再按照各雙音素對(duì)應(yīng)至發(fā)音數(shù)據(jù)庫中的雙音素序號(hào)12、19、23、33及78等,從該發(fā)音數(shù)據(jù)庫中提取這些雙音素的數(shù)字語音信號(hào);3)再借助解壓縮程序就所提取的數(shù)字語音信號(hào)予以解壓縮,以取得雙音素的語音信號(hào),然后,將所取得之語音信號(hào)予以合并,再經(jīng)平滑處理,即合成該單詞的正確發(fā)音。
以上所述,僅是本發(fā)明的一個(gè)較佳實(shí)施例,正因如此,本發(fā)明的權(quán)利要求范圍并不局限于此,凡是本領(lǐng)域的熟練技術(shù)人員,依據(jù)本發(fā)明所公開的技術(shù)內(nèi)容所作出的修改和等效變化,均應(yīng)不脫離本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法,包括首先將單詞的真人正確發(fā)音輸入語音接收裝置,該單詞的語音信號(hào)經(jīng)模/數(shù)轉(zhuǎn)換器采樣處理后,產(chǎn)生該單詞的數(shù)字語音數(shù)據(jù);經(jīng)由聲音編輯器,該數(shù)據(jù)按各元音或子音的位置及其與前后元音或子音間之相互影響關(guān)系,由相鄰兩個(gè)音節(jié)中前一個(gè)音節(jié)中間位置至后一個(gè)音節(jié)中間位置的過渡部分,切分出一個(gè)以上的雙音素;根據(jù)所切分出的各雙音素,通過音質(zhì)校正裝置適當(dāng)調(diào)整不同單詞中相同雙音素的語音信號(hào),并將該雙音素的語音信號(hào)錄制成發(fā)音數(shù)據(jù)庫,從而使發(fā)音數(shù)據(jù)庫中所采集的雙音素更適合作為合成不同單詞語音時(shí)的基本單元;在利用雙音素合成單詞語音時(shí),首先由計(jì)算機(jī)讀入單詞,通過分析單詞得到其對(duì)應(yīng)的國際音標(biāo),再將所對(duì)應(yīng)的國際音標(biāo)分解成雙音素,并經(jīng)轉(zhuǎn)換為雙音素序號(hào)后,計(jì)算機(jī)即按照該序號(hào)自所錄制成的發(fā)音數(shù)據(jù)庫中提取相對(duì)應(yīng)的數(shù)字語音信號(hào),并借助解壓縮程序予以解壓縮,以取得該雙音素的語音信號(hào),然后再將所取得的語音信號(hào)合并,并經(jīng)平滑處理,從而合成該單詞的正確發(fā)音。
2.如權(quán)利要求1所述的計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法,其特征在于,其中雙音素的切分可由前一個(gè)音節(jié)的波峰切分到后一個(gè)音節(jié)的波峰。
3.如權(quán)利要求1所述的計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法,其特征在于,所述雙音素的幅度、長度必須相當(dāng)。
4.如權(quán)利要求1所述的計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法,其特征在于,其中組成所述雙音素的單音素的兩端為波形周期起始點(diǎn),且其波形相接點(diǎn)必須相位相同。
5.如權(quán)利要求1所述的計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法,其特征在于,其中不同雙音素的同一音節(jié),應(yīng)有大致相同的周期。
全文摘要
本發(fā)明為一種計(jì)算機(jī)語音信號(hào)的發(fā)音合成方法,主要利用英語單詞中的相鄰兩個(gè)音節(jié)中由前一個(gè)音節(jié)中間位置至后一個(gè)音節(jié)中間位置的過渡部分,作為英語單詞合成發(fā)音的雙音素。相對(duì)于傳統(tǒng)使用的半音素和單音素而言,由于雙音素是從英語單詞中各音節(jié)的平穩(wěn)段切分下來的,因而可最大程度地保留英語單詞中各音節(jié)間的變化信息,因此,通過本發(fā)明將可針對(duì)英語單詞合成出更逼近真人發(fā)音效果的計(jì)算機(jī)語音。
文檔編號(hào)G06F17/00GK1196531SQ9711008
公開日1998年10月21日 申請日期1997年4月14日 優(yōu)先權(quán)日1997年4月14日
發(fā)明者張景嵩, 曹洪, 張金玉 申請人:英業(yè)達(dá)股份有限公司