欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

韻律圖樣產(chǎn)生裝置、語音合成裝置及其方法

文檔序號:2830832閱讀:225來源:國知局
專利名稱:韻律圖樣產(chǎn)生裝置、語音合成裝置及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及韻律圖樣(prosody-pattern)產(chǎn)生裝置、語音合成裝置及 其方法。
背景技術(shù)
將用于語音識別的隱馬爾可夫模型(HMM)應(yīng)用到從文本合成語音 的語音合成技術(shù)的技術(shù)已經(jīng)受到關(guān)注。具體地,通過使用作為一種HMM 的韻律^t型產(chǎn)生定義語音特征的韻律圖樣(基本頻率圖樣和音素持續(xù)時間 圖樣)來合成語音(例如,參見非專利文獻1: T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi和T. Kitamura在1999年9月的Proc. EUROSPEECH ,99的第2347 — 2350頁的"Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis")。利用通過使用HMM本身來輸出語音參數(shù)進而合成語音的語音合成技 術(shù),可以容易地實現(xiàn)各種說話者的各種語音風(fēng)格。除了上述的基于HMM的基本頻率圖樣的產(chǎn)生,還提出了一種4支術(shù), 利用該技術(shù),通過考慮整個句子的基本頻率分布來產(chǎn)生圖樣,可以提高基 本頻率圖樣的自然度(例如,參見非專利文獻2: T. Toda和K. Tokuda 在2005年9月的Proc. INTERSPEECH 2005的第2801 - 2804頁的"Speech parameter generation algorithm considering global variance for HMM-based speech synthesis")。但是,在非專利文獻2提出的技術(shù)中存在一個問題。由于通過重復(fù)使 用一些算法來搜索最佳參數(shù)串,因此在產(chǎn)生基本頻率圖樣的時候,計算量 會增加。此外,由于非專利文獻2的技術(shù)利用了整個文本句子的基本頻率的分 布,因此,不能順序地為句子的每個片段或相似物產(chǎn)生圖樣。因此,存在整個文本的基本頻率圖樣不完成就不能輸出語音的問題。 發(fā)明內(nèi)容根據(jù)本發(fā)明一個方面, 一種韻律圖樣產(chǎn)生裝置包括初始韻律圖樣產(chǎn) 生單元,該單元基于語言信息和韻律模型產(chǎn)生初始韻律圖樣,所述韻律模 型是通過以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位對韻律信息進行建模 而獲得的;歸一化參數(shù)產(chǎn)生單元,該單元分別產(chǎn)生初始韻律圖樣的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù);歸一化參數(shù)存儲單元,該單元存儲歸一化參數(shù);以 及韻律圖樣歸一化單元,該單元才艮據(jù)所述歸一化參數(shù)對初始韻律圖樣的變 化范圍或變化寬度進行歸 一化。根據(jù)本發(fā)明另一方面, 一種語音合成裝置包括韻律模型存儲單元, 該單元存儲韻律才莫型,在該韻律模型中韻律信息以構(gòu)成語音數(shù)據(jù)的音素、 音節(jié)和單詞為單位被建模;文本分析單元,該單元分析輸入到其中的文本,并輸出語言信息;根據(jù)權(quán)利要求l的韻律圖樣產(chǎn)生裝置,該裝置通過使用 韻律模型根據(jù)所述語言信息來產(chǎn)生指示語音方式的特征的韻律圖樣;以及語音合成單元,該單元通過使用該韻律圖樣來合成語音。根據(jù)本發(fā)明又一方面, 一種韻律圖樣產(chǎn)生方法包括基于語言信息和 韻律模型產(chǎn)生初始韻律圖樣,所述韻律模型是通過以構(gòu)成語音數(shù)據(jù)的音素、 音節(jié)和單詞為單位對韻律信息進行建模而獲得的;分別產(chǎn)生初始韻律圖樣 的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù);將歸一化^lt存儲在存儲單元中;以及根 據(jù)所述歸一化參數(shù)對初始韻律圖樣的變化范圍或變化寬度進行歸一化。


圖1是根據(jù)本發(fā)明一個實施例的語音合成裝置的硬件結(jié)構(gòu)的框圖; 圖2是所述語音合成裝置的功能結(jié)構(gòu)的框圖; 圖3是示出HMM的一個示例的示意圖;圖4是韻律圖樣產(chǎn)生單元的功能結(jié)構(gòu)的框圖;以及 圖5是產(chǎn)生歸 一化參數(shù)的過程的流程圖。具體實施方案以下參照附圖解釋本發(fā)明所述的韻律圖樣產(chǎn)生裝置、語音合成裝置及 其方法的示例性實施例?,F(xiàn)在參照圖1 - 5解釋本發(fā)明的一個實施例。圖1是根據(jù)本發(fā)明實施例 的語音合成裝置1的硬件結(jié)構(gòu)的框圖?;镜?,根據(jù)本實施例的語音合成 裝置1被配置為使用隱馬爾可夫模型(HMM)執(zhí)行語音合成處理,以從 文本中合成語音。如圖1所示,語音合成裝置1可以是個人計算機,該個人計算機包括 中央處理單元(CPU) 2, CPU 2用作計算機的主要部件并處于中心地位 以控制計算機的其他單元。存儲BIOS和類似內(nèi)容的只讀存儲器(ROM) 3和以可重寫方式存儲各種數(shù)據(jù)的隨機訪問存儲器(RAM) 4通過總線5 #皮連接到CPU 2。此外,通過未示出的1/0連接到總線5的有存儲各種程序以及類似 內(nèi)容的硬盤驅(qū)動器(HDD) 6,用作讀取計算機軟件(即,被派發(fā)的程序) 的機構(gòu)并讀取CD-ROM7的CD (致密光盤)-ROM驅(qū)動器S,控制語 音合成裝置1和網(wǎng)絡(luò)9之間的通信的通信控制設(shè)備10,諸如鍵盤和鼠標(biāo)的 用來指令進行各種操作的輸入設(shè)備11,以及顯示各種信息的顯示設(shè)備12, 諸如陰極射線管(CRT)以及液晶顯示器(LCD)。RAM4具有以可重寫方式在其中存儲各種數(shù)據(jù)的性質(zhì),因此為CPU2 提供一個工作區(qū)域,作用為一個緩沖器。圖1中示出的CD-ROM7用作本發(fā)明的記錄介質(zhì),其中記錄了操作 系統(tǒng)(OS )和各種程序。CPU 2在CD - ROM驅(qū)動器8上讀取記錄在CD - ROM 7中的程序并將他們安裝在HDD 6上。不僅是CD-ROM7, 還有各種光盤,諸如DVD,各種》茲光盤,各 種磁盤,諸如軟磁盤,以及各種系統(tǒng)的介質(zhì),諸如半導(dǎo)體存儲器都可以被采用作為記錄介質(zhì)。并且,可以利用通信控制設(shè)備10通過諸如互聯(lián)網(wǎng)的網(wǎng) 絡(luò)9將程序下栽,并安裝到HDD6上。如果是這種情況,存儲有程序的發(fā) 送方的服務(wù)器的存^i殳備也包括在本發(fā)明的記錄介質(zhì)中。所述程序可以是 在特定操作系統(tǒng)(OS)上運行的類型,可以執(zhí)行一些各種處理,這將在稍 后進行論述,或者所述程序可以包含在構(gòu)成特定應(yīng)用軟件程序或OS的程 序文件組中??刂普麄€系統(tǒng)的操作的CPU 2基于載入到用作系統(tǒng)的主要存儲器的 HDD 6中的程序執(zhí)行各種處理。在CPU 2根據(jù)安裝到語音合成裝置1的HDD6中的程序而實現(xiàn)的功能 中,現(xiàn)在要解釋根據(jù)實施例的語音合成裝置1的特征性功能。圖2是語音合成裝置1的功能結(jié)構(gòu)的框圖。當(dāng)語音合成裝置1執(zhí)行語 音合成程序時,在其中體現(xiàn)出學(xué)習(xí)單元21和合成單元22。接下來是對學(xué) 習(xí)單元21和合成單元22的簡單解釋。學(xué)習(xí)單元21包括韻律模型學(xué)習(xí)單元31和韻律模型存儲單元32。韻律 模型學(xué)習(xí)單元31執(zhí)行與韻律模型(HMM)的參數(shù)有關(guān)的訓(xùn)練。對于該訓(xùn) 練,要求語音數(shù)據(jù)、音素標(biāo)簽串和語言信息。如圖3所示,韻律模型(HMM) 被定義為在狀態(tài)轉(zhuǎn)換概率aij = P (qt-JlqtM-i)的條件下組^來的若干 個信號源(狀態(tài)),在所述信號源(狀態(tài))處輸出一個輸出向量Ot的概率 分布為bj(Ot) 。 i, j的每一個代表一個狀態(tài)號。輸出向量Ot是表達短時 間語音頻譜和基本頻率的參數(shù)。在這樣的HMM中,在時間方向上和參數(shù) 方向上的狀態(tài)轉(zhuǎn)換被依照統(tǒng)計學(xué)建模,因此HMM適合于表達由于不同因 素而變化的語音參數(shù)。為了對基本頻率建^^,采用不同空間的概率分布。 HMM中的模型參數(shù)學(xué)習(xí)是公知技術(shù),因此省略對其的解釋。以上述方式, 韻律模型(HMM)由韻律模型學(xué)習(xí)單元31產(chǎn)生,并存儲在韻律模型存儲 單元32,在所述韻律模型(HMM)中對構(gòu)成語音數(shù)據(jù)的音素的參數(shù)串建 模。合成單元22包括文本分析單元33,作為韻律圖樣產(chǎn)生裝置的韻律圖 樣產(chǎn)生單元34,和語音合成單元35。文本分析單元33分析輸入其中的曰文文本,并輸出語言信息?;谟晌谋痉治鰡卧?3通過分析獲得的語言信 息,韻律圖樣產(chǎn)生單元34通過利用存儲在韻律模型存儲單元32中的韻律 模型(HMM)產(chǎn)生確定語音特征的韻律圖樣(基本頻率圖樣和音素持續(xù) 時間圖樣)。可以采用非專利文獻l中描述的技術(shù)來產(chǎn)生韻律圖樣。語音 合成單元35基于韻律圖樣產(chǎn)生單元34產(chǎn)生的韻律圖樣來合成語音,并輸 出該合成的語音?,F(xiàn)在解釋執(zhí)行根據(jù)本實施例的語音合成裝置i的特征功能的韻律圖樣 產(chǎn)生單元34。圖4是韻律圖樣產(chǎn)生單元34的功能結(jié)構(gòu)框圖。韻律圖樣產(chǎn)生單元34 包括初始韻律圖樣產(chǎn)生單元41,歸一化參數(shù)產(chǎn)生單元42,歸一化參數(shù)存儲 單元43以及韻律圖樣歸一化單元44。初始韻律圖樣產(chǎn)生單元41從存儲在韻律模型存儲單元32中的韻律模 型(HMM)和語言信息(從文本分析單元33獲得的語言信息或用于歸一 化參數(shù)訓(xùn)練的語言信息)產(chǎn)生初始韻律圖樣。歸一化參數(shù)產(chǎn)生單元42利用用于歸一化參數(shù)訓(xùn)練的語音文集(speech corpus)來產(chǎn)生歸一化參數(shù),用于將初始韻律圖樣歸一化。該語音文集是 通過將預(yù)先記錄的語音波形剪切為音素并逐個地定義這些音素而創(chuàng)建的數(shù) 據(jù)庫。圖5是產(chǎn)生歸一化參數(shù)的處理的流程圖。如圖5所示,歸一化參數(shù)產(chǎn) 生單元42從初始韻律圖樣產(chǎn)生單元41接收根據(jù)用于歸一化參數(shù)訓(xùn)練的語言信息而產(chǎn)生的初始韻律圖樣(步驟S1)。接下來,歸一化a產(chǎn)生單元42從用于歸 一化參數(shù)訓(xùn)練的語音文集中提取對應(yīng)于用于歸 一化參數(shù)訓(xùn)練 的語言信息的訓(xùn)練句子的韻律圖樣(步驟S2)。所述語音文集的所述訓(xùn)練 句子并不必須完全與用于訓(xùn)練的語言信息匹配。在步驟S3,產(chǎn)生歸一化參 數(shù)。所述歸一化參數(shù)是在步驟Sl接收到的初始韻律圖樣的平均值和標(biāo)準偏 差,以及在步驟S2中從用于歸一化參數(shù)訓(xùn)練的語音文集中提取的對應(yīng)于所 述語言信息的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差。歸一化參數(shù)存儲單元43在其中存儲由歸一化參數(shù)產(chǎn)生單元42產(chǎn)生的歸一化參數(shù)。韻律圖樣歸一化單元44通過使用存儲在韻律模型存儲單元32中的韻 律模型(HMM)和語言信息(由文本分析單元33提供的語言信息),根 據(jù)存儲在歸一化^lt存儲單元43中的歸一化參數(shù),對初始韻律圖樣產(chǎn)生單 元41產(chǎn)生的初始韻律圖樣的變化范圍或變化寬度進行歸一化。換句話說, 韻律圖樣歸一化單元44對初始韻律圖樣產(chǎn)生單元41產(chǎn)生的初始韻律圖樣 的變化范圍或變化寬度進行歸一化,用以將其調(diào)到與語音文集的訓(xùn)練句子 韻律圖樣的變化范圍或變化寬度同樣的級別?,F(xiàn)在解釋歸 一化處理。當(dāng)要對初始韻律圖樣的變化范圍進^f亍歸 一化時,采用下面的公式用于歸一化。 F(n)=(f(n)-mg)/ a g x CT t+mt其中f ( n )是在第n個采樣點的初始韻律圖樣的值; F (n)是歸一化之后韻律圖樣的值; mt是訓(xùn)練句子的韻律圖樣的平均值; cJt是訓(xùn)練句子的韻律圖樣的標(biāo)準偏差; mg是初始韻律圖樣的平均值;以及CJg是初始韻律圖樣的標(biāo)準偏差。另一方面,當(dāng)要對初始韻律圖樣的變化寬度進行歸一化時,采用下面 的公式用于歸一化。F(n)=(f(n)-mg)/ a g x a t+mg在這個公式中,對于不同特質(zhì)的聲音(諸如音素、音拍以及重讀短語) 歸一化參數(shù)mt、 at、 mg和(Jg可被賦予不同的值。在這種情況下,通過施 用線性內(nèi)插技術(shù)或類似方法,每一采樣點處的歸一化參數(shù)的變異能夠被平 滑化。根據(jù)該實施例,對初始韻律圖樣和語音文集的訓(xùn)練句子的韻律圖樣計 算平均值和標(biāo)準偏差,并采用該平均值和標(biāo)準偏差作為歸一化參數(shù)。初始 韻律圖樣的變化范圍或變化寬度根據(jù)這些歸一化參數(shù)被歸一化。這使得該語音聲音與人類語音相接近,并提高其自然度,同時降低了產(chǎn)生韻律圖樣 時的計算量。此外,歸一化參數(shù),即初始韻律圖樣的平均值和標(biāo)準偏差以及語音文 集的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差,獨立于初始韻律圖樣。因 此,對每個采樣點執(zhí)行所述處理,語音可以以音素、單詞或句子片段為單 位4皮相繼輸出。
權(quán)利要求
1.一種韻律圖樣產(chǎn)生裝置,包括初始韻律圖樣產(chǎn)生單元,該單元基于語言信息和韻律模型產(chǎn)生初始韻律圖樣,所述韻律模型是通過以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位對韻律信息進行建模而獲得的;歸一化參數(shù)產(chǎn)生單元,該單元分別產(chǎn)生初始韻律圖樣的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù);歸一化參數(shù)存儲單元,該單元存儲所述歸一化參數(shù);以及韻律圖樣歸一化單元,該單元根據(jù)所述歸一化參數(shù)對所述初始韻律圖樣的變化范圍或變化寬度進行歸一化。
2. 如權(quán)利要求1所述的裝置,其中由所述歸一化參數(shù)產(chǎn)生單元產(chǎn)生的 歸一化參數(shù)對構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞單位具有不同的值。
3. 如權(quán)利要求1所述的裝置,其中所述韻律信息是基本頻率。
4. 如權(quán)利要求1所述的裝置,其中所述韻律模型是隱馬爾可夫模型 (HMM)。
5. —種語音合成裝置,包括韻律才莫型存儲單元,該單元存儲韻律模型,在該韻律模型中韻律信息以構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位被建模;文本分析單元,該單元分析輸入到其中的文本,并輸出語言信息; 根據(jù)權(quán)利要求1所述的韻律圖樣產(chǎn)生裝置,該裝置通過使用所述韻律模型根據(jù)所述語言信息來產(chǎn)生指示語音方式的特征的韻律圖樣;以及 語音合成單元,該單元通過^^用所述韻律圖樣來合成語音。
6. —種韻律圖樣產(chǎn)生方法,包括基于語言信息和韻律模型產(chǎn)生初始韻律圖樣,所述韻律模型是通過以 構(gòu)成語音數(shù)據(jù)的音素、音節(jié)和單詞為單位對韻律信息進行建模而獲得的; 分別產(chǎn)生所述初始韻律圖樣的平均值和標(biāo)準偏差以及包括在語音文集中的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差作為歸一化參數(shù); 將該歸一化參數(shù)存儲在存儲單元中;以及根據(jù)所述歸一化>|*對所述初始韻律圖樣的變化范圍或變化寬度進行 歸一化。
全文摘要
本發(fā)明涉及韻律圖樣產(chǎn)生裝置、語音合成裝置及其方法,通過計算初始韻律圖樣和語音文集的訓(xùn)練句子的韻律圖樣的平均值和標(biāo)準偏差在歸一化參數(shù)產(chǎn)生單元產(chǎn)生歸一化參數(shù)。然后根據(jù)所述歸一化參數(shù)在韻律圖樣歸一化單元對初始韻律圖樣的變化范圍或變化寬度進行歸一。結(jié)果,使用很小的計算量可以產(chǎn)生接近于人類語音的、自然度提高的韻律圖樣。
文檔編號G10L13/08GK101276584SQ20081008693
公開日2008年10月1日 申請日期2008年3月28日 優(yōu)先權(quán)日2007年3月28日
發(fā)明者益子貴史, 赤嶺政巳 申請人:株式會社東芝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
黔西县| 禹城市| 即墨市| 大兴区| 泽普县| 焉耆| 建阳市| 崇信县| 东辽县| 河北省| 安国市| 泰兴市| 五寨县| 苏州市| 敦化市| 绥棱县| 蓝田县| 蕉岭县| 通河县| 陕西省| 连州市| 专栏| 天峨县| 应用必备| 肇东市| 南投市| 四平市| 宝山区| 乌兰察布市| 资中县| 龙山县| 广河县| 清镇市| 那曲县| 株洲市| 阜城县| 兴城市| 江源县| 安多县| 凤城市| 泸定县|