韻律圖樣產(chǎn)生裝置、語音合成裝置及其方法

文檔序號：2830832閱讀：225來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：韻律圖樣產(chǎn)生裝置、語音合成裝置及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及韻律圖樣(prosody-pattern)產(chǎn)生裝置、語音合成裝置及其方法。
背景技術(shù)：
將用于語音識別的隱馬爾可夫模型(HMM)應(yīng)用到從文本合成語音的語音合成技術(shù)的技術(shù)已經(jīng)受到關(guān)注。具體地，通過使用作為一種HMM 的韻律^t型產(chǎn)生定義語音特征的韻律圖樣(基本頻率圖樣和音素持續(xù)時間圖樣)來合成語音(例如，參見非專利文獻1: T. Yoshimura， K. Tokuda， T. Masuko， T. Kobayashi和T. Kitamura在1999年9月的Proc. EUROSPEECH ，99的第2347 — 2350頁的"Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis")。利用通過使用HMM本身來輸出語音參數(shù)進而合成語音的語音合成技術(shù)，可以容易地實現(xiàn)各種說話者的各種語音風(fēng)格。除了上述的基于HMM的基本頻率圖樣的產(chǎn)生，還提出了一種4支術(shù)，利用該技術(shù)，通過考慮整個句子的基本頻率分布來產(chǎn)生圖樣，可以提高基本頻率圖樣的自然度(例如，參見非專利文獻2: T. Toda和K. Tokuda 在2005年9月的Proc. INTERSPEECH 2005的第2801 - 2804頁的"Speech parameter generation algorithm considering global variance for HMM-based speech synthesis")。但是，在非專利文獻2提出的技術(shù)中存在一個問題。由于通過重復(fù)使用一些算法來搜索最佳參數(shù)串，因此在產(chǎn)生基本頻率圖樣的時候，計算量會增加。此外，由于非專利文獻2的技術(shù)利用了整個文本句子的基本頻率的分布，因此，不能順序地為句子的每個片段或相似物產(chǎn)生圖樣。因此，存在整個文本的基本頻率圖樣不完成就不能輸出語音的問題。發(fā)明內(nèi)容根據(jù)本發(fā)明一個方面，一種韻律圖樣產(chǎn)生裝置包括初始韻律圖樣產(chǎn) 生單元，該單元基于語言信息和韻律模型產(chǎn)生初始韻律圖樣，所述韻律模型是通過以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位對韻律信息進行建模而獲得的；歸一化參數(shù)產(chǎn)生單元，該單元分別產(chǎn)生初始韻律圖樣的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù)；歸一化參數(shù)存儲單元，該單元存儲歸一化參數(shù)；以及韻律圖樣歸一化單元，該單元才艮據(jù)所述歸一化參數(shù)對初始韻律圖樣的變化范圍或變化寬度進行歸一化。根據(jù)本發(fā)明另一方面，一種語音合成裝置包括韻律模型存儲單元，該單元存儲韻律才莫型，在該韻律模型中韻律信息以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位被建模；文本分析單元，該單元分析輸入到其中的文本，并輸出語言信息；根據(jù)權(quán)利要求l的韻律圖樣產(chǎn)生裝置，該裝置通過使用韻律模型根據(jù)所述語言信息來產(chǎn)生指示語音方式的特征的韻律圖樣；以及語音合成單元，該單元通過使用該韻律圖樣來合成語音。根據(jù)本發(fā)明又一方面，一種韻律圖樣產(chǎn)生方法包括基于語言信息和韻律模型產(chǎn)生初始韻律圖樣，所述韻律模型是通過以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位對韻律信息進行建模而獲得的；分別產(chǎn)生初始韻律圖樣的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù)；將歸一化^lt存儲在存儲單元中；以及根據(jù)所述歸一化參數(shù)對初始韻律圖樣的變化范圍或變化寬度進行歸一化。

圖1是根據(jù)本發(fā)明一個實施例的語音合成裝置的硬件結(jié)構(gòu)的框圖；圖2是所述語音合成裝置的功能結(jié)構(gòu)的框圖；圖3是示出HMM的一個示例的示意圖；圖4是韻律圖樣產(chǎn)生單元的功能結(jié)構(gòu)的框圖；以及圖5是產(chǎn)生歸一化參數(shù)的過程的流程圖。具體實施方案以下參照附圖解釋本發(fā)明所述的韻律圖樣產(chǎn)生裝置、語音合成裝置及其方法的示例性實施例?，F(xiàn)在參照圖1 - 5解釋本發(fā)明的一個實施例。圖1是根據(jù)本發(fā)明實施例的語音合成裝置1的硬件結(jié)構(gòu)的框圖?；镜?，根據(jù)本實施例的語音合成裝置1被配置為使用隱馬爾可夫模型(HMM)執(zhí)行語音合成處理，以從文本中合成語音。如圖1所示，語音合成裝置1可以是個人計算機，該個人計算機包括中央處理單元(CPU) 2， CPU 2用作計算機的主要部件并處于中心地位以控制計算機的其他單元。存儲BIOS和類似內(nèi)容的只讀存儲器(ROM) 3和以可重寫方式存儲各種數(shù)據(jù)的隨機訪問存儲器(RAM) 4通過總線5 #皮連接到CPU 2。此外，通過未示出的1/0連接到總線5的有存儲各種程序以及類似內(nèi)容的硬盤驅(qū)動器(HDD) 6，用作讀取計算機軟件(即，被派發(fā)的程序) 的機構(gòu)并讀取CD-ROM7的CD (致密光盤)-ROM驅(qū)動器S，控制語音合成裝置1和網(wǎng)絡(luò)9之間的通信的通信控制設(shè)備10，諸如鍵盤和鼠標(biāo)的用來指令進行各種操作的輸入設(shè)備11,以及顯示各種信息的顯示設(shè)備12，諸如陰極射線管(CRT)以及液晶顯示器(LCD)。RAM4具有以可重寫方式在其中存儲各種數(shù)據(jù)的性質(zhì)，因此為CPU2 提供一個工作區(qū)域，作用為一個緩沖器。圖1中示出的CD-ROM7用作本發(fā)明的記錄介質(zhì)，其中記錄了操作系統(tǒng)(OS )和各種程序。CPU 2在CD - ROM驅(qū)動器8上讀取記錄在CD - ROM 7中的程序并將他們安裝在HDD 6上。不僅是CD-ROM7，還有各種光盤，諸如DVD,各種》茲光盤，各種磁盤，諸如軟磁盤，以及各種系統(tǒng)的介質(zhì)，諸如半導(dǎo)體存儲器都可以被采用作為記錄介質(zhì)。并且，可以利用通信控制設(shè)備10通過諸如互聯(lián)網(wǎng)的網(wǎng) 絡(luò)9將程序下栽，并安裝到HDD6上。如果是這種情況，存儲有程序的發(fā) 送方的服務(wù)器的存^i殳備也包括在本發(fā)明的記錄介質(zhì)中。所述程序可以是在特定操作系統(tǒng)(OS)上運行的類型，可以執(zhí)行一些各種處理，這將在稍后進行論述，或者所述程序可以包含在構(gòu)成特定應(yīng)用軟件程序或OS的程序文件組中?？刂普麄€系統(tǒng)的操作的CPU 2基于載入到用作系統(tǒng)的主要存儲器的 HDD 6中的程序執(zhí)行各種處理。在CPU 2根據(jù)安裝到語音合成裝置1的HDD6中的程序而實現(xiàn)的功能中，現(xiàn)在要解釋根據(jù)實施例的語音合成裝置1的特征性功能。圖2是語音合成裝置1的功能結(jié)構(gòu)的框圖。當(dāng)語音合成裝置1執(zhí)行語音合成程序時，在其中體現(xiàn)出學(xué)習(xí)單元21和合成單元22。接下來是對學(xué) 習(xí)單元21和合成單元22的簡單解釋。學(xué)習(xí)單元21包括韻律模型學(xué)習(xí)單元31和韻律模型存儲單元32。韻律模型學(xué)習(xí)單元31執(zhí)行與韻律模型(HMM)的參數(shù)有關(guān)的訓(xùn)練。對于該訓(xùn) 練，要求語音數(shù)據(jù)、音素標(biāo)簽串和語言信息。如圖3所示，韻律模型(HMM) 被定義為在狀態(tài)轉(zhuǎn)換概率aij = P (qt-JlqtM-i)的條件下組^來的若干個信號源(狀態(tài))，在所述信號源(狀態(tài))處輸出一個輸出向量Ot的概率分布為bj(Ot) 。 i， j的每一個代表一個狀態(tài)號。輸出向量Ot是表達短時間語音頻譜和基本頻率的參數(shù)。在這樣的HMM中，在時間方向上和參數(shù) 方向上的狀態(tài)轉(zhuǎn)換被依照統(tǒng)計學(xué)建模，因此HMM適合于表達由于不同因素而變化的語音參數(shù)。為了對基本頻率建^^,采用不同空間的概率分布。 HMM中的模型參數(shù)學(xué)習(xí)是公知技術(shù)，因此省略對其的解釋。以上述方式，韻律模型(HMM)由韻律模型學(xué)習(xí)單元31產(chǎn)生，并存儲在韻律模型存儲單元32,在所述韻律模型(HMM)中對構(gòu)成語音數(shù)據(jù)的音素的參數(shù)串建模。合成單元22包括文本分析單元33，作為韻律圖樣產(chǎn)生裝置的韻律圖樣產(chǎn)生單元34，和語音合成單元35。文本分析單元33分析輸入其中的曰文文本，并輸出語言信息?；谟晌谋痉治鰡卧?3通過分析獲得的語言信息，韻律圖樣產(chǎn)生單元34通過利用存儲在韻律模型存儲單元32中的韻律模型(HMM)產(chǎn)生確定語音特征的韻律圖樣(基本頻率圖樣和音素持續(xù) 時間圖樣)。可以采用非專利文獻l中描述的技術(shù)來產(chǎn)生韻律圖樣。語音合成單元35基于韻律圖樣產(chǎn)生單元34產(chǎn)生的韻律圖樣來合成語音，并輸出該合成的語音?，F(xiàn)在解釋執(zhí)行根據(jù)本實施例的語音合成裝置i的特征功能的韻律圖樣產(chǎn)生單元34。圖4是韻律圖樣產(chǎn)生單元34的功能結(jié)構(gòu)框圖。韻律圖樣產(chǎn)生單元34 包括初始韻律圖樣產(chǎn)生單元41，歸一化參數(shù)產(chǎn)生單元42，歸一化參數(shù)存儲單元43以及韻律圖樣歸一化單元44。初始韻律圖樣產(chǎn)生單元41從存儲在韻律模型存儲單元32中的韻律模型(HMM)和語言信息(從文本分析單元33獲得的語言信息或用于歸一化參數(shù)訓(xùn)練的語言信息)產(chǎn)生初始韻律圖樣。歸一化參數(shù)產(chǎn)生單元42利用用于歸一化參數(shù)訓(xùn)練的語音文集(speech corpus)來產(chǎn)生歸一化參數(shù)，用于將初始韻律圖樣歸一化。該語音文集是通過將預(yù)先記錄的語音波形剪切為音素并逐個地定義這些音素而創(chuàng)建的數(shù) 據(jù)庫。圖5是產(chǎn)生歸一化參數(shù)的處理的流程圖。如圖5所示，歸一化參數(shù)產(chǎn) 生單元42從初始韻律圖樣產(chǎn)生單元41接收根據(jù)用于歸一化參數(shù)訓(xùn)練的語言信息而產(chǎn)生的初始韻律圖樣(步驟S1)。接下來，歸一化a產(chǎn)生單元42從用于歸一化參數(shù)訓(xùn)練的語音文集中提取對應(yīng)于用于歸一化參數(shù)訓(xùn)練的語言信息的訓(xùn)練句子的韻律圖樣(步驟S2)。所述語音文集的所述訓(xùn)練句子并不必須完全與用于訓(xùn)練的語言信息匹配。在步驟S3，產(chǎn)生歸一化參數(shù)。所述歸一化參數(shù)是在步驟Sl接收到的初始韻律圖樣的平均值和標(biāo)準偏差，以及在步驟S2中從用于歸一化參數(shù)訓(xùn)練的語音文集中提取的對應(yīng)于所述語言信息的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差。歸一化參數(shù)存儲單元43在其中存儲由歸一化參數(shù)產(chǎn)生單元42產(chǎn)生的歸一化參數(shù)。韻律圖樣歸一化單元44通過使用存儲在韻律模型存儲單元32中的韻律模型(HMM)和語言信息(由文本分析單元33提供的語言信息)，根據(jù)存儲在歸一化^lt存儲單元43中的歸一化參數(shù)，對初始韻律圖樣產(chǎn)生單元41產(chǎn)生的初始韻律圖樣的變化范圍或變化寬度進行歸一化。換句話說，韻律圖樣歸一化單元44對初始韻律圖樣產(chǎn)生單元41產(chǎn)生的初始韻律圖樣的變化范圍或變化寬度進行歸一化，用以將其調(diào)到與語音文集的訓(xùn)練句子韻律圖樣的變化范圍或變化寬度同樣的級別?，F(xiàn)在解釋歸一化處理。當(dāng)要對初始韻律圖樣的變化范圍進^f亍歸一化時，采用下面的公式用于歸一化。 F(n)=(f(n)-mg)/ a g x CT t+mt其中f ( n )是在第n個采樣點的初始韻律圖樣的值； F (n)是歸一化之后韻律圖樣的值； mt是訓(xùn)練句子的韻律圖樣的平均值； cJt是訓(xùn)練句子的韻律圖樣的標(biāo)準偏差； mg是初始韻律圖樣的平均值；以及CJg是初始韻律圖樣的標(biāo)準偏差。另一方面，當(dāng)要對初始韻律圖樣的變化寬度進行歸一化時，采用下面的公式用于歸一化。F(n)=(f(n)-mg)/ a g x a t+mg在這個公式中，對于不同特質(zhì)的聲音(諸如音素、音拍以及重讀短語) 歸一化參數(shù)mt、 at、 mg和(Jg可被賦予不同的值。在這種情況下，通過施用線性內(nèi)插技術(shù)或類似方法，每一采樣點處的歸一化參數(shù)的變異能夠被平滑化。根據(jù)該實施例，對初始韻律圖樣和語音文集的訓(xùn)練句子的韻律圖樣計算平均值和標(biāo)準偏差，并采用該平均值和標(biāo)準偏差作為歸一化參數(shù)。初始韻律圖樣的變化范圍或變化寬度根據(jù)這些歸一化參數(shù)被歸一化。這使得該語音聲音與人類語音相接近，并提高其自然度，同時降低了產(chǎn)生韻律圖樣時的計算量。此外，歸一化參數(shù)，即初始韻律圖樣的平均值和標(biāo)準偏差以及語音文集的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差，獨立于初始韻律圖樣。因此，對每個采樣點執(zhí)行所述處理，語音可以以音素、單詞或句子片段為單位4皮相繼輸出。
權(quán)利要求
1.一種韻律圖樣產(chǎn)生裝置，包括初始韻律圖樣產(chǎn)生單元，該單元基于語言信息和韻律模型產(chǎn)生初始韻律圖樣，所述韻律模型是通過以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位對韻律信息進行建模而獲得的；歸一化參數(shù)產(chǎn)生單元，該單元分別產(chǎn)生初始韻律圖樣的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù)；歸一化參數(shù)存儲單元，該單元存儲所述歸一化參數(shù)；以及韻律圖樣歸一化單元，該單元根據(jù)所述歸一化參數(shù)對所述初始韻律圖樣的變化范圍或變化寬度進行歸一化。
2. 如權(quán)利要求1所述的裝置，其中由所述歸一化參數(shù)產(chǎn)生單元產(chǎn)生的歸一化參數(shù)對構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞單位具有不同的值。
3. 如權(quán)利要求1所述的裝置，其中所述韻律信息是基本頻率。
4. 如權(quán)利要求1所述的裝置，其中所述韻律模型是隱馬爾可夫模型 (HMM)。
5. —種語音合成裝置，包括韻律才莫型存儲單元，該單元存儲韻律模型，在該韻律模型中韻律信息以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位被建模；文本分析單元，該單元分析輸入到其中的文本，并輸出語言信息；根據(jù)權(quán)利要求1所述的韻律圖樣產(chǎn)生裝置，該裝置通過使用所述韻律模型根據(jù)所述語言信息來產(chǎn)生指示語音方式的特征的韻律圖樣；以及語音合成單元，該單元通過^^用所述韻律圖樣來合成語音。
6. —種韻律圖樣產(chǎn)生方法，包括基于語言信息和韻律模型產(chǎn)生初始韻律圖樣，所述韻律模型是通過以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位對韻律信息進行建模而獲得的；分別產(chǎn)生所述初始韻律圖樣的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù)；將該歸一化參數(shù)存儲在存儲單元中；以及根據(jù)所述歸一化>|*對所述初始韻律圖樣的變化范圍或變化寬度進行歸一化。
全文摘要
本發(fā)明涉及韻律圖樣產(chǎn)生裝置、語音合成裝置及其方法，通過計算初始韻律圖樣和語音文集的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差在歸一化參數(shù)產(chǎn)生單元產(chǎn)生歸一化參數(shù)。然后根據(jù)所述歸一化參數(shù)在韻律圖樣歸一化單元對初始韻律圖樣的變化范圍或變化寬度進行歸一。結(jié)果，使用很小的計算量可以產(chǎn)生接近于人類語音的、自然度提高的韻律圖樣。
文檔編號G10L13/08GK101276584SQ20081008693
公開日2008年10月1日申請日期2008年3月28日優(yōu)先權(quán)日2007年3月28日
發(fā)明者益子貴史, 赤嶺政巳申請人:株式會社東芝

完整全部詳細技術(shù)資料下載