語音合成裝置及方法
【技術領域】
[0001] 本發(fā)明涉及語音合成領域,具體涉及一種語音合成裝置及方法。
【背景技術】
[0002] 語音合成又稱文語轉換,其主要功能是將文本轉換成語音,并盡可能使合成語音 有較高的可懂度和自然度。隨著語音合成需求的日益增加,人們對合成語音的要求越來越 多樣性。合成語音應該以一種能夠重新產生自然重讀和感情的方式傳遞信息,最好可以體 現(xiàn)出較強的韻律感,合成具有獨特特征風格的語音,如感情色彩較重的小說朗讀風格、評書 風格,及不同表現(xiàn)的幽默風格等非正式的合成語音風格,從而增加合成語音的多樣性,滿足 人們的不同需求。
[0003]目前,合成不同風格的語音主要做法是基于規(guī)則的方法對合成語音進行調整,比 如將合成后的語音數(shù)據(jù)的基頻調整為80到150之間。這種方法不能考慮到每種風格語音 的細節(jié),從而使特定風格在合成語音上不能很好的體現(xiàn),造成調整后的語音自然度較低,進 而降低了用戶體驗。
【發(fā)明內容】
[0004] 本發(fā)明提供一種語音合成裝置及方法,以解決現(xiàn)有技術中基于規(guī)則的方法調整后 的語音自然度較低的問題。
[0005] 為此,本發(fā)明提供如下技術方案:
[0006] 一種語音合成裝置,包括:
[0007] 模型構建模塊,用于預先根據(jù)收集的大量發(fā)音人語音數(shù)據(jù)構建語音合成模型;
[0008] 接收模塊,用于接收用戶的待合成文本;
[0009] 風格確定模塊,用于確定合成語音風格;
[0010] 模型修正模塊,用于根據(jù)合成語音風格對所述語音合成模型進行修正,以使修正 后的語音合成模型適應所述合成語音風格;
[0011] 合成模塊,用于利用所述修正后的語音合成模型對所述待合成文本進行語音合 成,得到合成語音數(shù)據(jù)。
[0012] 優(yōu)選地,所述風格確定模塊包括以下任意一種或多種子模塊:
[0013] 第一確定子模塊,用于向用戶提供可選的合成語音風格類型或風格語音數(shù)據(jù),根 據(jù)用戶的選擇確定待合成文本的合成語音風格;
[0014] 第二確定子模塊,用于根據(jù)用戶提供的風格語音數(shù)據(jù)確定待合成文本的合成語音 風格,所述用戶提供的風格語音數(shù)據(jù)是用戶通過朗讀文本并錄音得到的,所述文本是推薦 給用戶的文本或者是用戶自選的文本;
[0015] 第三確定子模塊,用于根據(jù)待合成文本的風格標注信息或內容確定待合成文本的 合成語音風格,所述待合成文本對應一個或多個風格標注信息,不同風格標注信息對應所 述待合成文本中不同的文本段;
[0016] 第四確定子模塊,用于根據(jù)用戶的日志信息確定待合成文本的合成語音風格。
[0017] 優(yōu)選地,所述模型修正模塊包括:
[0018] 語音數(shù)據(jù)獲取單元,用于獲取與所述合成語音風格對應的風格語音數(shù)據(jù);
[0019] 語音識別單元,用于對所述風格語音數(shù)據(jù)進行語音識別,得到識別文本;
[0020] 特征提取單元,用于分別提取所述識別文本的韻律特征及所述風格語音數(shù)據(jù)的聲 學特征;
[0021] 修正單元,用于將所述韻律特征和聲學特征作為風格特征對所述語音合成模型進 行修正,得到修正后的語音合成模型。
[0022] 優(yōu)選地,所述語音合成模型包括:時長合成模型、基頻合成模型、頻譜合成模型;
[0023] 所述修正單元利用最大似然線性回歸MLLR算法或最大后驗概率MAP算法對所述 時長合成模型、基頻合成模型、頻譜合成模型的能量維進行修正。
[0024] 優(yōu)選地,所述模型修正模塊還包括:
[0025] 預處理單元,用于去除所述語音數(shù)據(jù)獲取單元獲取的風格語音數(shù)據(jù)中的噪聲,并 將去噪后的風格語音數(shù)據(jù)傳送給所述語音識別單元。
[0026] 一種語音合成方法,包括:
[0027] 預先根據(jù)收集的大量發(fā)音人語音數(shù)據(jù)構建語音合成模型;
[0028] 接收用戶的待合成文本;
[0029] 確定合成語音風格;
[0030] 根據(jù)合成語音風格對所述語音合成模型進行修正,以使修正后的語音合成模型適 應所述合成語音風格;
[0031] 利用所述修正后的語音合成模型對所述待合成文本進行語音合成,得到合成語音 數(shù)據(jù)。
[0032] 優(yōu)選地,所述確定合成語音風格包括以下任意一種或多種:
[0033] 向用戶提供可選的合成語音風格類型或風格語音數(shù)據(jù),根據(jù)用戶的選擇確定待合 成文本的合成語音風格;
[0034] 根據(jù)用戶提供的風格語音數(shù)據(jù)確定待合成文本的合成語音風格,所述用戶提供的 風格語音數(shù)據(jù)是用戶通過朗讀風格文本并錄音得到的,所述風格文本是推薦給用戶的文本 或者是用戶自選的文本;
[0035] 根據(jù)待合成文本的風格標注信息或內容確定待合成文本的合成語音風格,所述待 合成文本對應一個或多個風格標注信息,不同風格標注信息對應所述待合成文本中不同的 文本段;
[0036] 根據(jù)用戶的日志信息確定待合成文本的合成語音風格。
[0037] 優(yōu)選地,所述根據(jù)合成語音風格對所述語音合成模型進行修正包括:
[0038] 獲取與所述合成語音風格對應的風格語音數(shù)據(jù);
[0039] 對所述風格語音數(shù)據(jù)進行語音識別,得到識別文本;
[0040] 分別提取所述識別文本的韻律特征及所述風格語音數(shù)據(jù)的聲學特征;
[0041] 將所述韻律特征和聲學特征作為風格特征對所述語音合成模型進行修正,得到修 正后的語音合成模型。
[0042] 優(yōu)選地,所述語音合成模型包括:時長合成模型、基頻合成模型、頻譜合成模型;
[0043] 所述將所述韻律特征和聲學特征作為風格特征對所述語音合成模型進行修正包 括:
[0044] 利用最大似然線性回歸MLLR算法或最大后驗概率MAP算法對所述時長合成模型、 基頻合成模型、頻譜合成模型的能量維進行修正。
[0045] 優(yōu)選地,所述根據(jù)合成語音風格對所述語音合成模型進行修正還包括:
[0046] 去除所述語音數(shù)據(jù)獲取單元獲取的風格語音數(shù)據(jù)中的噪聲,得到去噪后的風格語 音數(shù)據(jù);
[0047] 所述對所述風格語音數(shù)據(jù)進行語音識別包括:
[0048] 對所述去噪后的風格語音數(shù)據(jù)進行語音識別。
[0049] 本發(fā)明實施例提供的語音合成裝置及方法,在接收到用戶的待合成文本后,首先 確定目標語音的合成語音風格,然后根據(jù)該合成語音風格對預先根據(jù)收集的大量發(fā)音人 語音數(shù)據(jù)構建的語音合成模型修正,使修正后的語音合成模型更加適合于所述合成語音風 格。最后,利用修正后的語音合成模型對所述待合成文本進行語音合成,得到合成語音數(shù) 據(jù)。由于是直接對語音合成模型進行與合成語音風格相適應的修正,從而可以使合成語音 更加自然,大大提升用戶體驗。
[0050] 進一步地,合成語音風格的確定可以根據(jù)應用環(huán)境及用戶需求有多種不同實