專利名稱:語調(diào)生成方法、應(yīng)用該方法的語音合成裝置及語音服務(wù)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音合成方法及其裝置,特別涉及在語音的語調(diào)的生成方法中具有特征的語音合成方法及其裝置。
背景技術(shù):
在利用對文本數(shù)據(jù)進行語音輸出的語音合成方式的語音合成(文本語音合成)技術(shù)中,生成接近人講話的自然語調(diào)是一個很大的課題。
歷來,廣泛利用的語調(diào)控制方法,是以藤崎模型為代表的重音分量和聲調(diào)分量重疊產(chǎn)生的語調(diào)模式的生成模型。此模型,可與物理的說話現(xiàn)象相對應(yīng),可以靈活表現(xiàn)位置、語調(diào)的重建等等。
不過,這種模型,與語音的語言信息的對應(yīng)很復(fù)雜,所以很困難。因此,控制在語音合成之際實際使用的重音、聲調(diào)分量的大小、時間上的配置等等的參數(shù),基于言語信息的精密控制是困難的,結(jié)果,進行過度簡化而只表現(xiàn)基本的韻律特征的情況很多。這種情況,在歷來的語音合成中,成為難以控制講話者特征及講話風(fēng)格等一個原因。
與此相對,近年來,為了生成自然性更高的韻律,提出了采用基于實際語音現(xiàn)象的數(shù)據(jù)庫(素材庫)的技術(shù)。
作為這種現(xiàn)有技術(shù),比如,存在在特開2000-250570號公報公開的技術(shù)及在特開平10--116089號公報中公開的技術(shù)。
在這些公報中所描述的技術(shù),是從存儲于數(shù)據(jù)庫中的實際語音的語調(diào)的基頻(F0)模式之中選擇適當?shù)腇0模式,應(yīng)用于作為語音合成對象的文本(以下稱其為對象文本),判斷模式并進行語音合成。由此,與由上述的重音分量和聲調(diào)分量產(chǎn)生的語調(diào)模式的生成模型相比較,可實現(xiàn)由良好韻律產(chǎn)生的語音合成。
利用這些F0模式的語音合成技術(shù)中的任何一種都是根據(jù)對象文本的語言信息(詞類、重音位置、重音短語等的信息),判斷或預(yù)測規(guī)定韻律的范疇,將屬于數(shù)據(jù)庫的該韻律范疇F0模式應(yīng)用于對象文本作為語調(diào)模式。
另外,在有多個F0模式屬于預(yù)定的韻律范疇時,以平均化及采用平均最接近的采樣等適當方法選擇一個具有代表性的F0應(yīng)用于對象文本。
不過,利用現(xiàn)有的F0模式的語音合成技術(shù),如上所述,因為是利用韻律范疇使語言信息與F0模式直接對應(yīng)而判斷對象文本的語調(diào)模式,所以存在合成語音的品質(zhì)依賴于針對對象文本進行的韻律范疇的判斷,或者不能將適當?shù)腇0模式應(yīng)用于不能分類為數(shù)據(jù)庫中的F0模式的韻律范疇的限制。
此外,在判斷對象文本的韻律范疇時,該對象文本的語言信息,即重音的位置、及短音節(jié)(mora)和在語音的前后是否存在停頓(靜音區(qū)間)這樣一些信息有很大的影響。因此,即使是存在具有與實際講話的音調(diào),高度類似的模式形狀的F0模式,因為這些語言信息不同,也會產(chǎn)生不能應(yīng)用于韻律范疇不同的場合的徒勞無功。
另外,在上述現(xiàn)有的語音合成技術(shù)中,由于重視作為F0模式的數(shù)據(jù)的處理難易程度,進行模式形狀本身的平均化及模型化,在表現(xiàn)數(shù)據(jù)庫的F0變動上是受到限制的。
就是說,合成的語音,很難靈活地合成為以如朗讀樣的標準的語調(diào)統(tǒng)一的、具有動態(tài)特征的語音(比如,含有感情的講話的語音及賦予以配音等進行的特定的角色為特征的語音)。
但是,文本語音合成(TTSText-speech Synthesis),是以任意的文句的語音合成為目的的技術(shù),但在實際上應(yīng)用合成語音的領(lǐng)域中,也有很多比較有限的語匯及句型可以應(yīng)用的情況。比如,CTI(Computer Telephony Intergration)系統(tǒng)及汽車導(dǎo)航系統(tǒng)等的應(yīng)答語音及機器人的語音對話功能的應(yīng)答句就是典型的例子。
在將語音合成技術(shù)應(yīng)用于這些領(lǐng)域時,因為對于確定的語匯及句型可以預(yù)先準備實際語音的數(shù)據(jù),所以在強烈要求語音的自然性時,優(yōu)先利用的不是合成語音而是實際語音(錄音語音)。不過,如果考慮未登錄語的合成、語匯·句型的添加變更等的處理的難易程度以及任意文句的擴展,則合成語音擔(dān)負的作用極大。
從這一背景出發(fā),在語匯比較有限的任務(wù)中,研究了利用錄音語音提高合成語音的自然性的方法。作為混合錄音語音和合成語音的現(xiàn)有技術(shù),比如,存在在下面的文獻1-3中公開的技術(shù)。
文獻1A.W.Black et al.,″Limited Domain Synthesis″,Proc.of ICSLP 2000.
文獻2R.E.Donovan et al.,″Phrase Splicing and VariableSubstitution Using the IBM Trainable Speech Sythesis System″,Proc.of ICASSP 2000。
文獻3片江他利用句型-韻律數(shù)據(jù)庫的定型句合成系統(tǒng),音響學(xué)會講演論文集,2-4-6,Mar,1996。
在文獻1或文獻2公開的現(xiàn)有技術(shù),錄音語音的語調(diào),基本上按照其原樣利用。因而,作為錄音語音使用的短語,必須在實際使用的語境中錄音。另一方面,在文獻3中公開的技術(shù),是將生成F0模式用的模型的參數(shù)從實際語音中抽取而應(yīng)用于具有可變空位的定型句的合成。因而,如果是相同形式的句子,即使是對于不同的短語也可能生成語調(diào),但仍然遺留有只能處理對應(yīng)的定型句的限制。
此處,如果考慮將合成語音的短語插入到錄音語音的短語之間,或連接到其前后的情況,假如實際語音的各個講話的抑揚頓挫、強調(diào)及感情的程度、講話意圖的差異等等種種講話的動作,則不能說固定值的合成短語的語調(diào)一定適合各個錄音短語的環(huán)境。
不過,在上述文獻1-3中公開的現(xiàn)有技術(shù)中,為考慮這些實際語音的講話的動作,就成為語音合成的語調(diào)生成的很大的限制。
于是,本發(fā)明的一個目的是要在語音合成的語調(diào)模式的生成中,實現(xiàn)一種自然性高并且可以靈活而正確地再現(xiàn)講話者的講話特征的語音合成系統(tǒng)。
另外,本發(fā)明的另一目的是在語音合成中,對于實際講話語調(diào)的F0模式的數(shù)據(jù)庫(素材庫),可以通過不取決于韻律范疇而收縮F0模式,有效地活用存儲于數(shù)據(jù)庫中的實際講話的F0模式。
此外,本發(fā)明的另一目的是在混合錄音語音和合成語音的語調(diào)時進行平滑連接。
發(fā)明內(nèi)容
為達到上述目的的本發(fā)明的特征在于,在生成語音合成的語調(diào)的語調(diào)生成方法中,根據(jù)作為語音合成的對象的文本的語言信息,預(yù)測該文本的語調(diào)的輪廓,根據(jù)預(yù)測的語調(diào)的輪廓,從存儲實際講話的語調(diào)模式數(shù)據(jù)庫中選擇語調(diào)模式作為文本的語調(diào)模式。
此處,這種語調(diào)輪廓的預(yù)測,可以根據(jù)利用文本的語言信息進行分類的韻律范疇進行。
此外,在此語調(diào)生成方法中,其構(gòu)成可以是,在選擇語調(diào)模式之后,根據(jù)預(yù)測的上述語調(diào)的輪廓,對所選擇的該語調(diào)模式的頻率級進行調(diào)整。
另外,本發(fā)明的特征在于,在進行語音合成的語調(diào)生成的語調(diào)生成方法中,包含對構(gòu)成作為語音合成的對象的文本的每個假定重音短語預(yù)測語調(diào)的輪廓的步驟;根據(jù)預(yù)測的每個假定重音短語的語調(diào)的輪廓,從存儲實際講話的語調(diào)的數(shù)據(jù)庫中選擇語調(diào)模式的步驟;和將選擇的每個假定重音短語的語調(diào)模式進行連接的步驟。
更優(yōu)選的是這一預(yù)測語調(diào)輪廓的步驟,包含在預(yù)測預(yù)定的上述假定重音短語的輪廓之際,在上述文本中該假定重音短語的緊前方存在另一個假定重音短語的場合,對該緊前方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果進行參考而對該預(yù)定的假定重音短語的語調(diào)的輪廓進行預(yù)測的步驟。
再更優(yōu)選的是這一預(yù)測語調(diào)輪廓的步驟,在假定重音短語存在于存儲于預(yù)定的存儲裝置中的預(yù)先被錄音的錄音語音的短語中的場合,從存儲裝置取得與此短語的此假定重音短語相對應(yīng)的部分的語調(diào)有關(guān)的信息并將此語調(diào)的輪廓作為預(yù)測結(jié)果。
于是,此外,這一預(yù)測語調(diào)輪廓的步驟,在上述文本中在該假定重音短語的緊前方存在另一個假定重音短語的場合,對該緊前方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果進行參考而對假定重音短語的語調(diào)的輪廓進行預(yù)測的步驟;在文本中預(yù)定的假定重音短語的前后至少一方存在與存儲于預(yù)定的存儲裝置中的預(yù)先被錄音的錄音語音的短語相對應(yīng)的另一個假定重音短語的場合,參考針對與該錄音語音的短語相對應(yīng)的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果而預(yù)測假定重音短語的語調(diào)的輪廓的步驟。
另外,此語調(diào)模式選擇步驟,更詳言之,包含從存儲于數(shù)據(jù)庫中的實際講話的語調(diào)模式之中,選擇始端終端間距離接近假定重音短語的語調(diào)的輪廓的語調(diào)模式的步驟以及在所選擇的語調(diào)模式中選擇針對假定重音短語的音韻類的距離最小的語調(diào)模式的步驟。
另外,本發(fā)明可以包括分析作為處理對象的文本取得語言信息的文本分析單元;存儲實際講話的語調(diào)模式的數(shù)據(jù)庫;用來生成對文本進行語音輸出的韻律的韻律控制單元;以及根據(jù)由此韻律控制單元生成的韻律生成語音的語音生成單元的語音合成裝置而實現(xiàn)。此韻律控制單元包括根據(jù)由文本分析單元取得的語言信息對構(gòu)成此文本的每個假定重音短語預(yù)測語調(diào)的輪廓的輪廓預(yù)測單元;根據(jù)由此輪廓預(yù)測單元預(yù)測的語調(diào)的輪廓從數(shù)據(jù)庫中選擇語調(diào)模式的形狀元素選擇單元;以及將此形狀元素選擇單元所選擇的每個假定重音短語的語調(diào)模式連接起來生成全部文本的語調(diào)模式的形狀元素連接單元。
更詳言之,此輪廓預(yù)測單元,至少利用對假定重音短語的音段內(nèi)的頻率級的最大值、此音段的始端及終端的相對級偏移規(guī)定此假定重音短語的語調(diào)的輪廓。
另外,此形狀元素選擇單元,不是利用韻律范疇,而是從存儲于數(shù)據(jù)庫中的實際講話的全部語調(diào)模式之中選擇形狀近似語調(diào)的輪廓者作為語調(diào)模式。
此外,此形狀元素連接單元,將所選擇的每個假定重音短語的語調(diào)模式,根據(jù)語調(diào)的輪廓調(diào)整頻率級之后進行連接。
此外,此語音合成裝置,其構(gòu)成可以還包括容納有關(guān)預(yù)先被錄音的錄音語音的語調(diào)的信息的另外的數(shù)據(jù)庫。在此場合,輪廓預(yù)測單元,在假定重音短語存在于登錄于另外的數(shù)據(jù)庫中的錄音短語中時,從這樣的另外的數(shù)據(jù)庫取得有關(guān)此錄音短語的與此假定重音短語相對應(yīng)的部分的語調(diào)的信息。
另外,本發(fā)明可以包括分析作為處理對象的文本取得語言信息的文本分析單元;存儲根據(jù)講話特征準備多個實際講話的語調(diào)模式的數(shù)據(jù)庫;利用存儲于此數(shù)據(jù)庫中的語調(diào)模式生成用來對上述對文本進行語音輸出的韻律的韻律控制單元;以及根據(jù)由此韻律控制單元生成的韻律生成語音的語音生成單元的語音合成裝置而實現(xiàn)。此語音合成裝置的特征在于通過切換使用這些多個數(shù)據(jù)庫,進行反映存儲于數(shù)據(jù)庫中的實際講話的語調(diào)的講話特征的語音合成。
此外,本發(fā)明可以作為進行文本語音合成的具有如下的構(gòu)成的語音合成裝置而實現(xiàn)。此語音合成裝置的特征在于其構(gòu)成包括分析作為處理對象的文本取得語言信息的文本分析單元;存儲有關(guān)講話特征的信息的第一數(shù)據(jù)庫;存儲有關(guān)預(yù)先被錄音的錄音語音的波形的信息的第二數(shù)據(jù)庫;選擇針對作為處理對象的文本的合成單元的波形元素的合成單位選擇單元;將由此合成單位選擇單元所選擇的波形元素結(jié)合生成合成語音的語音生成單元;合成單位選擇單元從上述第一及第二數(shù)據(jù)庫的信息中選擇針對與錄音語音的邊界部分相對應(yīng)的文本的合成單位的波形元素。
此外還有,本發(fā)明可以作為利用計算機執(zhí)行上述的語調(diào)生成方法或使計算機作為上述語音合成裝置工作的程序而實現(xiàn)。
此程序,可通過存儲于磁盤、光碟、半導(dǎo)體存儲器及其他記錄媒體上進行分發(fā)或經(jīng)由網(wǎng)絡(luò)分發(fā)而提供。
此外,本發(fā)明,可以作為配備上述語音合成裝置的功能而提供電話對應(yīng)型的服務(wù)的語音服務(wù)器而實現(xiàn)。
圖1為示出適于實現(xiàn)本實施方式的語音合成技術(shù)的計算機裝置的硬件構(gòu)成例的示意圖。
圖2為示出利用圖1所示的計算機裝置實現(xiàn)的本實施方式的語音合成系統(tǒng)的構(gòu)成圖。
圖3為說明在本實施方式中預(yù)測F0形狀目標之際將講話方面的限制組合到預(yù)測模型中的方式的說明圖。
圖4為說明利用本實施方式的韻律控制單元進行的語音合成的動作的流程的流程圖。
圖5為示出利用本實施方式的輪廓預(yù)測單元所預(yù)測的F0形狀目標的模式形狀的示例的示圖。
圖6為示出利用本實施方式的最優(yōu)形狀元素選擇單元所選擇的最優(yōu)F0形狀元素的模式形狀的示例的示圖。
圖7為示出將圖6所示的最優(yōu)F0形狀元素的F0模式與位于其緊前方的假定重音短語的F0模式相連接的情況的示圖。
圖8為示出利用本實施方式生成的語調(diào)模式和實際講話生成的語調(diào)模式的比較例的示圖。
圖9為示出利用本實施方式對圖8的每個對象文本的假定重音短語選擇的最優(yōu)F0形狀元素的示圖。
圖10為示出安裝本實施方式的語音合成系統(tǒng)的語音服務(wù)器的構(gòu)成例的示圖。
圖11為示出利用本發(fā)明的另一實施方式的語音合成系統(tǒng)的構(gòu)成的示圖。
圖12為說明在本實施方式中在利用錄音語音產(chǎn)生的兩個短語中間插入由合成語音產(chǎn)生的短語時的F0模式的輪廓預(yù)測的示圖。
圖13為說明利用本實施方式的F0模式生成單元產(chǎn)生的F0模式的生成處理的流程的流程圖。
圖14為說明利用本實施方式的合成單位選擇單元產(chǎn)生的合成單位元素的生成處理的流程的流程圖。
具體實施例方式
下面根據(jù)附圖示出的實施方式對本發(fā)明予以詳細說明。
圖1為示出適于實現(xiàn)本實施方式的語音合成技術(shù)的計算機裝置的硬件構(gòu)成例的示意圖。
圖1所示的計算機裝置的構(gòu)成包括CPU(中央處理裝置)101、經(jīng)系統(tǒng)總線與CPU101相連接的M/B(主板)芯片組102及主存儲器103、經(jīng)PCI總線等高速總線與M/B(主板)芯片組102相連接的視頻卡104、聲卡105、硬盤106及網(wǎng)絡(luò)接口107、還有從此高速總線經(jīng)橋接電路110及ISA總線等低速總線與M/B(主板)芯片組102相連接的軟盤驅(qū)動器108及鍵盤109。另外,聲卡105與進行語音輸出的揚聲器111相連接。
另外,圖1不過是實現(xiàn)本實施方式的計算機裝置的構(gòu)成的示例,如果可以應(yīng)用本實施方式,也可以采取其他種種的系統(tǒng)構(gòu)成。比如,可以設(shè)置語音機構(gòu)作為M/B(主板)芯片組102的功能來代替聲卡105。
圖2為示出利用圖1所示的計算機裝置實現(xiàn)的本實施方式的語音合成系統(tǒng)的構(gòu)成圖。
參照圖2,可知本實施方式的語音合成系統(tǒng)包含分析作為語音合成的對象的文本的文本分析單元10;用來添加語音合成的講話的韻律的韻律控制單元20;生成語音波形的語音生成單元30以及存儲利用實際講話產(chǎn)生的語調(diào)的F0模式的F0形狀數(shù)據(jù)庫40。
圖2所示的文本分析單元10及韻律控制單元20,是通過由擴展到圖1所示的主存儲器103的程序控制CPU101而實現(xiàn)的虛擬軟件塊??刂艭PU101而使這些功能實現(xiàn)的該程序,可通過存儲于磁盤及光碟、半導(dǎo)體存儲器及其他記錄媒體上進行分發(fā)或經(jīng)由網(wǎng)絡(luò)分發(fā)而提供。在本實施方式中,是經(jīng)圖1所示的網(wǎng)絡(luò)接口107及軟盤驅(qū)動器108、未圖示的CD-ROM驅(qū)動器等輸入該程序而存放于硬盤106中。于是,將存放于硬盤106中的程序讀入到主存儲器103、進行擴展并由CPU101執(zhí)行而實現(xiàn)圖2所示的各構(gòu)成單元的功能。
文本分析單元10,輸入成為語音合成的對象的文本(輸入文本串)進行句法分析等語言分析處理。由此,作為處理對象的輸入的文本串被分解為各個單詞而被賦予有關(guān)讀音及重音的信息。
韻律控制單元20,根據(jù)由文本分析單元10產(chǎn)生的分析結(jié)果,進行添加講話韻律的處理,具體言之,就是對構(gòu)成發(fā)聲的各音素確定音高、音長及音強,進行語音位置的設(shè)定處理。在本實施方式中,為了實施這一處理,如圖2所示,設(shè)置有輪廓預(yù)測單元21、最優(yōu)形狀元素選擇單元22及形狀元素連接單元23。
語音生成單元30,比如,由圖1所示的聲卡105實現(xiàn),接受由韻律控制單元20進行的處理的結(jié)果,將音素相應(yīng)于以音節(jié)等存儲的合成單位進行連接并進行生成語音波形(語音信號)的處理。所生成的語音波形,經(jīng)揚聲器111輸出。
F0形狀數(shù)據(jù)庫40,比如,由圖1所示的硬盤106實現(xiàn),將利用預(yù)先收集的實際講話產(chǎn)生的語調(diào)的F0模式分類為韻律范疇進行存儲。并且,此F0形狀數(shù)據(jù)庫40,相應(yīng)于意欲合成的語音的風(fēng)格準備數(shù)個種類,可以切換使用。比如,除了存儲標準的朗讀調(diào)的F0模式的F0形狀數(shù)據(jù)庫40之外,可以還準備陽剛調(diào)的講話及陰沉調(diào)的講話、包含發(fā)怒的講話這樣一些帶有感情的講話的F0模式的F0形狀數(shù)據(jù)庫40。另外,也可以使用存儲有以動畫及電影的配音方式進行的那種帶有特定的角色的特征的特殊的講話的F0模式的F0形狀數(shù)據(jù)庫40。
下面對本實施方式的韻律控制單元20的功能予以詳細說明。
韻律控制單元20,對于每一句都將由文本分析單元10分析的對象文本取出,通過應(yīng)用存儲于F0形狀數(shù)據(jù)庫40中的語調(diào)的F0模式而生成該對象文本的語調(diào)(關(guān)于韻律的重音及停頓的信息可由利用文本分析單元10分析的語言信息得到)。
在本實施方式中,在由存儲于數(shù)據(jù)庫中的實際講話的語調(diào)的F0模式中抽出F0模式之際,進行不取決于韻律范疇的檢測。不過,在本實施方式中,取決于這一韻律范疇的文本的區(qū)別本身對于利用輪廓預(yù)測單元21進行F0形狀目標預(yù)測的處理也是必需的。
然而,由于對韻律范疇的選擇,重音的位置及短音節(jié)、以及在語音的前后是否有停頓這樣的語言信息具有很大的影響,所以如果在抽取F0模式之際也利用韻律范疇,則除了語調(diào)的模式形狀之外,重音的位置及有無短音節(jié)這樣的要素對檢索都有影響,具有最優(yōu)模式形狀的F0模式會從檢索中漏掉。
因此,在確定F0模式的階段,本實施方式提供的不取決于模式形狀的只與模式形狀對稱的檢索是有用的。
下面,對于在本實施方式的韻律控制中,作為針對對象文本應(yīng)用F0模式之際的單位的F0形狀元素單位予以定義。
在本實施方式中,不管在實際的講話中是否形成重音短語,是以可形成重音短語的語言上的音段單位(以下稱此音段單位為假定重音短語)切出的實際語音的F0音段作為F0形狀元素的單位。各F0形狀元素,是由在構(gòu)成短音節(jié)的元音的中心部的F0值(三點中值)采樣表示的。另外,在F0形狀數(shù)據(jù)庫40中,以此F0形狀元素作為單位存儲實際講話的語調(diào)的F0模式。
在本實施方式的韻律控制單元20中,輪廓預(yù)測單元21,輸入有關(guān)作為利用文本分析單元10產(chǎn)生的語言處理的結(jié)果給出的假定重音短語的語言信息(重音型、短語的長度(短音節(jié)數(shù))、構(gòu)成短語的短音節(jié)的音韻類)和關(guān)于在假定重音短語之間有無停頓的信息,根據(jù)這些信息,預(yù)測每個假定重音短語的F0模式的輪廓。將此預(yù)測的F0模式的輪廓稱為F0形狀目標。
此處,預(yù)定的假定重音短語的F0形狀目標,是由該假定重音短語的音段內(nèi)的頻率級的最大值(最大F0值)、自模式始端點的最大F0值的相對級偏移(始端偏移)、自模式終端點的最大F0值的相對級偏移(終端偏移)三個參數(shù)規(guī)定的。
就是說,F(xiàn)0形狀目標的預(yù)測,是根據(jù)以上述語言信息進行分類的韻律范疇,利用統(tǒng)計模型對此三個參數(shù)進行預(yù)測的處理。
預(yù)測的F0形狀目標,臨時保持于圖1所示的CPU101的高速緩存及主存儲器103中。
另外,在本實施方式中,在上述語言信息之外,將講話方面的限制組合到預(yù)測模型中。就是說,采納一直到現(xiàn)在的假定重音短語的緊前方實現(xiàn)的語調(diào)對下一個講話的語調(diào)級等給予影響的假定,將對于緊前方的假定重音短語的音段的預(yù)測結(jié)果反映在對于處理中的假定重音短語的音段的F0形狀目標的預(yù)測上。
圖3為說明將講話方面的限制組合到預(yù)測模型中的方式的說明圖。
如圖3所示,對于正在執(zhí)行預(yù)測的假定重音短語(當前假定重音短語)的最大F0值的預(yù)測上合并已經(jīng)結(jié)束預(yù)測的緊前方的假定重音短語的最大F0值。另外,在當前假定重音短語的始端偏移及終端偏移的預(yù)測上合并緊前方的假定重音短語的最大F0值及當前假定重音短語的最大F0值。
另外,輪廓預(yù)測單元21的預(yù)測模型的學(xué)習(xí),是利用對每個假定重音短語得到的最大F0值的實測值范疇化的值。就是說,輪廓預(yù)測單元21,將F0形狀目標作為預(yù)測之際的預(yù)測主要因素,在基于上述的語言信息的韻律范疇之上增加此假定重音短語每一個的最大F0值的實測值的范疇執(zhí)行用于預(yù)測的統(tǒng)計處理。
最優(yōu)形狀元素選擇單元22,從存儲于F0形狀數(shù)據(jù)庫40中的F0形狀元素(F0模式)之中,選擇對處理中的當前假定重音短語適用的F0形狀元素的候補。此選擇,包括根據(jù)利用輪廓預(yù)測單元21預(yù)測的F0形狀目標大致抽取F0形狀元素的預(yù)備選擇和根據(jù)當前假定重音短語的音韻類進行適用于該當前假定重音短語的最佳F0形狀元素的選擇。
在預(yù)備選擇中,最優(yōu)形狀元素選擇單元22,首先取得利用輪廓預(yù)測單元21預(yù)測的當前假定重音短語的F0形狀目標,在規(guī)定該F0形狀目標的參數(shù)之中,利用兩個始端偏移和終端偏移,計算始端和終端間的距離。于是,從存儲于F0形狀數(shù)據(jù)庫40中的F0形狀目標之中,選擇計算出的始端終端間距離接近F0形狀目標的始端終端間距離(比如小于預(yù)先設(shè)定的閾值)的全部F0形狀元素作為最優(yōu)F0形狀元素的候補。所選擇的F0形狀元素,相應(yīng)于與F0形狀目標的輪廓的距離進行排位,并保持于CPU101的高速緩存及主存儲器103中。
此處所謂的F0形狀元素和F0形狀目標的輪廓之間的距離,是規(guī)定該F0形狀目標的參數(shù)之中的始端偏移及終端偏移和與所選擇的F0形狀元素的參數(shù)相當?shù)闹祷ハ嘟频某潭?。利用這兩個參數(shù),表示F0形狀元素和F0形狀目標的輪廓的形狀的差異。
之后,最優(yōu)形狀元素選擇單元22,對作為通過預(yù)備選擇按照和目標輪廓的距離進行排位的最優(yōu)F0形狀元素的候補的各F0形狀元素,計算構(gòu)成當前假定重音短語的音韻類的距離。此處所謂的音韻類的距離,是F0形狀元素和當前假定重音短語的音韻(音素)的排列上的近似的程度。在此音韻排列的評價中,使用對每個短音節(jié)定義的音韻類。此音韻類,是考慮到有無輔音及對輔音進行調(diào)音的樣式的差異對短音節(jié)進行分類的結(jié)果。
就是說,此處,對于在預(yù)備選擇中所選擇的全部F0形狀元素,計算與當前假定重音短語的短音節(jié)序列的音韻類的一致度,求出音韻類的距離,對各F0形狀元素的音韻的排列進行評價。于是,將所得到的音韻類的距離最小的F0形狀元素選擇為最優(yōu)F0形狀元素。利用此音韻類間距離的比較,可反映出F0形狀易于受到與該F0形狀元素相對應(yīng)的假定重音短語的構(gòu)成音韻的影響。所選擇的最優(yōu)F0形狀元素,保持于CPU101的高速緩存及主存儲器103中。
形狀元素連接單元23,利用最優(yōu)形狀元素選擇單元22取得所選擇的最優(yōu)F0形狀元素進行順序連接,可得到針對作為韻律控制單元20的處理單位的一句的最終的語調(diào)模式。
最優(yōu)F0形狀元素的連接,具體言之,可通過下面的兩種處理進行。
首先,將所選擇的最優(yōu)F0形狀元素設(shè)定在合適的頻率級上。這就是使所選擇的最優(yōu)F0形狀元素的頻率級的最大值與經(jīng)過輪廓預(yù)測單元21處理而得到的對應(yīng)的假定重音短語的音段的最大F0值匹配。此時,該最優(yōu)F0形狀元素本身沒有任何變形。
其次,形狀元素連接單元23,對每個短音節(jié)調(diào)整F0形狀元素的時間軸,以使與應(yīng)該合成的音韻串的時間配置相符合。此處所謂的應(yīng)該合成的音韻串的時間配置,是根據(jù)對象文本的音韻串設(shè)定的各個音韻的持續(xù)時長。此音韻串的時間配置,是利用未圖示的現(xiàn)有技術(shù)的音韻時長預(yù)測模塊進行設(shè)定的。
之后,在此階段,對F0的實際模式(由實際講話產(chǎn)生的語調(diào)模式)施加變形。不過,在本實施方式中,因為是由最優(yōu)形狀元素選擇單元22利用音韻類間距離選擇最優(yōu)F0形狀元素,對該F0模式而言難以產(chǎn)生過度的變形。
以如上所述方式生成全部對象文本的語調(diào)模式并輸出到語音生成單元30。
如上所述,在本實施方式中,利用最優(yōu)形狀元素選擇單元22,從存儲于F0形狀數(shù)據(jù)庫40中的全部F0形狀元素之中,與韻律范疇無關(guān)地選擇模式形狀最近似F0形狀目標的F0形狀元素,用作假定重音短語的語調(diào)模式。就是說,作為最優(yōu)F0形狀元素選擇的F0形狀元素,與重音的位置及有無停頓等語言信息分離,只根據(jù)F0模式的形狀進行選擇。
因此,從生成語調(diào)模式的觀點出發(fā),可以不受語言信息的影響而有效地活用存儲于F0形狀數(shù)據(jù)庫40中的F0形狀元素。
此外,由于在選擇F0形狀元素時不考慮韻律范疇,在對開放數(shù)據(jù)的文本進行語音合成時,即使是不存在適合預(yù)定的假定重音短語的韻律范疇,也可以選擇與F0形狀目標相對應(yīng)的F0形狀元素而應(yīng)用于該假定重音短語。在此場合,由于該假定重音短語不與既存的韻律范疇相當,可以認為該F0形狀目標的預(yù)測本身的準確度降低。不過,與歷來在這種場合,由于韻律范疇不能分類而不能合適地使用存儲于數(shù)據(jù)庫中的F0模式的情況不同,根據(jù)本實施方式,由于是只根據(jù)F0形狀元素的模式形狀進行檢索,在預(yù)測的F0形狀目標的準確度范圍內(nèi),可以選擇合適的F0形狀元素。
另外,在本實施方式中,從存儲于F0形狀數(shù)據(jù)庫40中的實際講話產(chǎn)生的全部F0形狀元素之中,選擇最優(yōu)F0形狀元素而不進行平均化及模型化的處理。所以,雖然通過調(diào)整形狀元素連接單元23的時間軸多少可使F0形狀元素發(fā)生變形,但由實際講話產(chǎn)生的F0模式的細節(jié)可以在合成語音上得到一定程度的反映。
因此,可以生成接近實際講話的自然性高的語調(diào)模式。特別是,可以靈活而正確地再現(xiàn)由于語尾的音高上揚或延伸的語調(diào)的微妙的差異而產(chǎn)生的講話特征(講話者的習(xí)慣)。
由此,可以準備存儲包含感情的講話的F0形狀元素的F0形狀數(shù)據(jù)庫40及存儲動畫等的配音的具有特征的角色的特殊的講話的F0形狀元素的F0形狀數(shù)據(jù)庫40,通過適當?shù)厍袚Q,可能合成講話特征不同的多種語音。
圖4為說明利用上述的韻律控制單元20進行的語音合成的動作的流程的流程圖。另外,圖5至圖7為示出在圖4所示的動作的各個階段取得的F0模式的形狀的示圖。
如圖4所示,韻律控制單元20,如果將關(guān)于對象文本的由文本分析單元10得到的分析結(jié)果輸入(步驟401),則首先,由輪廓預(yù)測單元21,對每一個假定重音短語進行F0形狀目標的預(yù)測。
就是說,根據(jù)作為由文本分析單元10產(chǎn)生的分析結(jié)果的語言信息,預(yù)測假定重音短語的音段內(nèi)的最大F0值(步驟402),接著,根據(jù)由該語言信息及在步驟402中決定的最大F0值來預(yù)測始端偏移及終端偏移(步驟403)。此F0形狀目標的預(yù)測,是從前頭開始順序地對構(gòu)成對象文本的假定重音短語執(zhí)行。所以,關(guān)于第二個以下的假定重音短語,由于在其緊前方已經(jīng)存在預(yù)測處理結(jié)束的假定重音短語,如上所述,最大F0值、始端偏移及終端偏移的預(yù)測,也可利用此緊前方的假定重音短語的預(yù)測結(jié)果。
圖5為示出如此得出的F0形狀目標的模式形狀的一例。
之后,關(guān)于各假定重音短語,根據(jù)F0形狀目標,由最優(yōu)形狀元素選擇單元22進行預(yù)備選擇(步驟404)。具體說,首先,將始端終端間距離接近F0形狀目標的F0形狀元素,從F0形狀數(shù)據(jù)庫40中檢出作為最優(yōu)F0形狀元素。于是,對于所選擇的全部F0形狀元素,將作為始端偏移及終端偏移的要素的二維矢量定義為形狀矢量。其次,對F0形狀目標和各F0形狀元素,計算形狀矢量間的距離,并將F0形狀元素按照其距離降序排列。
之后,對于通過預(yù)備選擇抽取的最優(yōu)F0形狀元素的候補,進行音韻排列評價,將與F0形狀目標對應(yīng)的假定重音短語的音韻排列中的音韻類的距離最小的F0形狀元素選作最優(yōu)F0形狀元素(步驟405)。
圖6為示出如此選擇的最優(yōu)F0形狀元素的模式形狀的示例的示圖。
其后,由形狀元素連接單元23將對于各假定重音短語選擇的最優(yōu)F0形狀元素進行連接。
就是說,對各最優(yōu)F0形狀元素的頻率級的最大值進行設(shè)定使其與對應(yīng)的F0形狀目標的最大F0值符合(步驟406),接著,對各最優(yōu)F0形狀元素的時間軸進行調(diào)整使其與應(yīng)該合成的音韻串的時間配置符合(步驟407)。
圖7為示出將圖6所示的最優(yōu)F0形狀元素的F0模式與位于其緊前方的假定重音短語的F0模式相連接的情況的示圖。
下面,對于將本實施方式應(yīng)用于實際的文本而生成語調(diào)模式的具體示例予以說明。
圖8為示出利用本實施方式生成的語調(diào)模式和實際講話生成的語調(diào)模式的比較例的示圖。
在圖8中,對“それは泥沼のような逆境から抜け出したという、切ないほどの願望たろうか”這樣的文本進行語調(diào)模式比較。
如圖所示,這一段文本,可分解為10個假定重音短語“それわ”、“どろぬまの”、“よ^—な”、“ぎやつきよ—”、“から”、“ぬけだした^いと”、“いう”、“せつな^いほどの”、“がんぼ—”及“だろおか”。
于是,以各假定重音短語作為對象,進行最優(yōu)F0形狀元素的檢出。
圖9為示出利用本實施方式對上述的每個對象文本的假定重音短語選擇的最優(yōu)F0形狀元素的示圖。在各假定重音短語的一欄中,上段表示輸入的假定重音短語的環(huán)境屬性,下段表示所選擇的最優(yōu)F0形狀元素的屬性信息。
參照圖9,可見,對于上述10個假定重音短語分別選擇的F0形狀元素并列如下“それわ”對“これが”、“どろぬまの”對“よろこびも”、“よ^—な”對“ま^つき”、“ぎやつきよ—”對“しゆつきん”、“から”對“よび”、“ぬけだした^いと”對“ねじまげた^のだ”、“いう”對“いう”、“せつな^いほどの”對“じゆつぷ^んかんの”、“がんぼ—”對“ほんぼい”、“だろ^おか”對“みえ^ると”。
連接這些F0形狀元素而得到的文本的全部語調(diào)模式,如圖8所示,成為極接近實際講話的同一文本的語調(diào)模式。
如上合成的語音合成系統(tǒng),可以用在將合成語音作為輸出的種種系統(tǒng)中及采用這種系統(tǒng)的服務(wù)中。比如,向作為來自電話網(wǎng)的訪問提供電話對應(yīng)型的服務(wù)的語音服務(wù)器的TTS(Text-speech Synthesis)引擎,就可以采用本實施方式的語音合成系統(tǒng)。
圖10為示出安裝本實施方式的語音合成系統(tǒng)的語音服務(wù)器的構(gòu)成例的示圖。
圖10所示的語音服務(wù)器1010,在與WEB應(yīng)用服務(wù)器1020相連接的同時,經(jīng)過VoIP(Voice over IP)(基于網(wǎng)際協(xié)議的語音傳輸)網(wǎng)關(guān)1030與公共線路電話網(wǎng)(PSTN公用交換電話網(wǎng))1040相連接而提供電話對應(yīng)型的服務(wù)。
另外,在圖10所示的構(gòu)成中,分別設(shè)置有語音服務(wù)器1010、WEB應(yīng)用服務(wù)器1020及VoIP網(wǎng)關(guān)1030,實際上也可能是在一臺硬件(計算機裝置)中設(shè)置各種功能的構(gòu)成。
語音服務(wù)器1010,是對經(jīng)過電話網(wǎng)1040實現(xiàn)的訪問提供利用語音對話的服務(wù)(內(nèi)容)的服務(wù)器,可由個人計算機及工作站、其他計算機裝置實現(xiàn)。如圖10所示,語音服務(wù)器1010,具備由該計算機裝置的硬件及軟件實現(xiàn)的系統(tǒng)管理部件1011、電話/媒體部件1012以及VoiceXML(語音可擴展置標語言)瀏覽器1013。
WEB應(yīng)用服務(wù)器1020,容納作為以VoiceXML記述的電話對應(yīng)型的應(yīng)用軟件群的VoiceXML應(yīng)用軟件1021。
另外,VoIP網(wǎng)關(guān)1030,接受來自既有的電話網(wǎng)1040的訪問,進行變換連接處理,以便接受利用語音服務(wù)器1010的指向IP網(wǎng)絡(luò)的語音服務(wù)。為了實現(xiàn)這一功能,VoIP網(wǎng)關(guān)1030,主要備有作為和IP網(wǎng)絡(luò)之間的接口的VoIP軟件1031和作為和電話網(wǎng)1040之間的接口的電話接口1032。
在此構(gòu)成中,如后所述,VoiceXML瀏覽器1013的功能,由圖2所示的文本分析單元10、韻律控制單元20及語音生成單元30實現(xiàn)。于是,不是從揚聲器111輸出語音,語音信號是經(jīng)VoIP網(wǎng)關(guān)1030輸出到電話網(wǎng)1040。另外,雖然在圖10中未明示記載,但語音服務(wù)器1010,具備與F0形狀數(shù)據(jù)庫40相當?shù)拇娣艑嶋H講話的語調(diào)的F0模式的數(shù)據(jù)存放單元,在利用VoiceXML瀏覽器1013進行語音合成之際進行參照。
在語音服務(wù)器1010的構(gòu)成中,進行對系統(tǒng)管理部件1011、VoiceXML瀏覽器1013的啟動、停止及監(jiān)視。
電話/媒體部件1012,在VoIP網(wǎng)關(guān)1030和VoiceXML瀏覽器1013之間進行電話呼叫的電話管理。
VoiceXML瀏覽器1013,由經(jīng)電話網(wǎng)1040及VoIP網(wǎng)關(guān)1030接收到的來自電話機1050的電話呼叫的發(fā)出而啟動并執(zhí)行WEB應(yīng)用服務(wù)器1020上的VoiceXML應(yīng)用軟件1021。
此處,VoiceXML瀏覽器1013,為了執(zhí)行此對話處理,具有TTS引擎1014及Reco引擎1015。
TTS引擎1014,對于由VoiceXML應(yīng)用軟件1021輸出的文本進行語音合成處理。作為這一TTS引擎1014,可采用本實施方式的語音合成系統(tǒng)。
Reco引擎1015,對經(jīng)電話網(wǎng)1040及VoIP網(wǎng)關(guān)1030輸入的電話語音進行識別。
在包含如上構(gòu)成的語音服務(wù)器1010的提供電話對應(yīng)型的服務(wù)的系統(tǒng)中,在從電話機1050發(fā)送電話呼叫經(jīng)電話網(wǎng)1040及VoIP網(wǎng)關(guān)1030訪問語音服務(wù)器1010時,在系統(tǒng)管理部件1011及電話/媒體部件1012的控制下,VoiceXML瀏覽器1013,執(zhí)行WEB應(yīng)用服務(wù)器1020上的VoiceXML應(yīng)用軟件1021。于是,按照VoiceXML應(yīng)用軟件1021指定的VoiceXML文檔的描述,執(zhí)行各呼叫的對話處理。
在此對話處理中,裝載于VoiceXML瀏覽器1013上的TTS引擎1014,利用與圖2所示的韻律控制單元20的輪廓預(yù)測單元21相當?shù)墓δ茴A(yù)測F0形狀目標,利用與最優(yōu)形狀元素選擇單元22相當?shù)墓δ軓腇0形狀數(shù)據(jù)庫40選擇最優(yōu)F0形狀元素,利用與形狀元素連接單元23相當?shù)墓δ苓B接各F0形狀元素的語調(diào)模式而生成句子單位的語調(diào)模式。于是,根據(jù)所生成的語調(diào)模式合成語音,輸出到VoIP網(wǎng)關(guān)1030。
下面對利用上述的語音合成方法對錄音語音和合成語音進行無縫平滑連接的其他實施方式予以說明。
圖11為示出利用本實施方式的語音合成系統(tǒng)的構(gòu)成的示圖。
參照圖11。本實施方式的語音合成系統(tǒng)的構(gòu)成包括對作為語音合成對象的的文本進行分析的文本分析單元10、用來生成輸出的語音的韻律特征(音韻時長及F0模式)的音韻時長預(yù)測單元50及F0模式生成單元60、用來生成輸出的語音的音響特征(合成單位元素)的合成單位選擇單元70以及生成輸出的語音的語音波形的語音生成單元30。另外,還設(shè)置有用來存放在音韻時長預(yù)測單元50、F0模式生成單元60及合成單位選擇單元70的處理中使用的聲音類型的聲音類型數(shù)據(jù)庫80及存放錄音語音的域語音數(shù)據(jù)庫90。此處,圖11的音韻時長預(yù)測單元50及F0模式生成單元60相當于圖2的韻律控制單元20,F(xiàn)0模式生成單元60具有圖2所示的韻律控制單元20的功能(與輪廓預(yù)測單元21、最優(yōu)形狀元素選擇單元22及形狀元素連接單元23相對應(yīng)的功能)。
另外,本實施方式的語音合成系統(tǒng),與圖2所示的語音合成系統(tǒng)一樣,是以圖1所示的計算機裝置等實現(xiàn)的。
在上述構(gòu)成中,文本分析單元10及語音生成單元30,與圖2所示的實施方式的對應(yīng)的構(gòu)成要素相同。因此,采用同樣的符號,而其說明省略。
音韻時長預(yù)測單元50,F(xiàn)0模式生成單元60及合成單位選擇單元70,是由擴展到圖1所示的主存儲器103的程序通過對CPU101進行控制而實現(xiàn)的虛擬軟件塊。通過控制CPU101而使這些功能實現(xiàn)的該程序,可通過存儲于磁盤及光碟、半導(dǎo)體存儲器及其他記錄媒體上進行分發(fā)或經(jīng)由網(wǎng)絡(luò)分發(fā)而提供。
另外,在圖11的構(gòu)成中,聲音類型數(shù)據(jù)庫80,比如,由圖1所示的硬盤106實現(xiàn),存放有關(guān)從語音素材中抽出并生成的講話者的講話特征的信息(聲音類型)。另外,圖2所示的F0形狀數(shù)據(jù)庫40,包含于此聲音類型數(shù)據(jù)庫80中。
域語音數(shù)據(jù)庫90,比如,由圖1所示的硬盤106實現(xiàn),存放有關(guān)適用任務(wù)用而收錄的錄音語音的數(shù)據(jù)。此域語音數(shù)據(jù)庫90,可以說,是包含一直到錄音語音的韻律、波形為止的擴展的用戶辭典,在登錄條目中,除了導(dǎo)詞、讀法、重音、品詞這些信息之外,還存放分層次的波形及韻律信息這些信息。
在本實施方式中,文本分析單元10,對作為處理對象的文本進行語言分析,將讀法及重音等的音素信息發(fā)送到音韻時長預(yù)測單元50,將F0元素音段(假定重音音段)發(fā)送到F0模式生成單元60,而將該文本的音素串的信息發(fā)送到合成單位選擇單元70。另外,在進行語言分析之際,調(diào)研各個短語(與假定重音音段相當于)是否登錄在域語音數(shù)據(jù)庫90之中。于是,在語言分析中命中登錄條目時,就將在域語音數(shù)據(jù)庫90存在有關(guān)該短語的韻律特征(音韻時長、F0模式)以及音響特征(合成單位元素)這一點通知音韻時長預(yù)測單元50、F0模式生成單元60及合成單位選擇單元70。
音韻時長預(yù)測單元50,根據(jù)從文本分析單元10接收到的音素信息,生成應(yīng)該合成的音韻串的時長(時間配置),存放于CPU101的高速緩存及主存儲器103的預(yù)定區(qū)域中。該時長,在F0模式生成單元60、合成單位選擇單元70及語音生成單元30中讀出,在各個處理中使用。時長的生成方法可以采用公知的既有技術(shù)。
此處,在由文本分析單元10對于與要生成時長的F0元素音段相對應(yīng)的短語存放于域語音數(shù)據(jù)庫90中這一點進行通知的場合,不生成有關(guān)該短語的音韻串的時長,而代之以訪問域語音數(shù)據(jù)庫90取得該短語的時長并存放于CPU101的高速緩存及主存儲器103的預(yù)定區(qū)域中,供F0模式生成單元60、合成單位選擇單元70及語音生成單元30使用。
F0模式生成單元60,具有與圖2所示的語音合成系統(tǒng)的韻律控制單元20的輪廓預(yù)測單元21、最優(yōu)形狀元素選擇單元22以及形狀元素連接單元23相對應(yīng)的功能同樣的功能,將利用文本分析單元10分析的對象文本按照F0元素音段讀入,通過命中存儲于與聲音類型數(shù)據(jù)庫80的F0形狀數(shù)據(jù)庫40相對應(yīng)的部分中的語調(diào)的F0模式而生成對象文本的語調(diào)。所生成的語調(diào)模式保持于CPU101的高速緩存及主存儲器103的預(yù)定區(qū)域中。
此處,與F0模式生成單元60的輪廓預(yù)測單元21相對應(yīng)的功能,在由文本分析單元10就與要生成語調(diào)的F0元素音段相對應(yīng)的短語存放于域語音數(shù)據(jù)庫90中這一點進行通知的場合,不生成語言信息和有關(guān)有無停頓的信息,而代之以訪問域語音數(shù)據(jù)庫90取得該短語的F0值作為F0模式的輪廓。
圖2的語音處理系統(tǒng)的韻律控制單元20的輪廓預(yù)測單元21,如參照圖3所說明的,假設(shè)針對緊前方的假定重音短語的音段的預(yù)測結(jié)果可反映于處理中的對于假定重音短語的音段(F0元素音段)的F0形狀目標的預(yù)測中。所以,在緊前方的F0元素音段的F0模式的輪廓是從域語音數(shù)據(jù)庫90取得的場合,在處理中的對于F0元素音段的F0形狀目標中將會反映出該緊前方的F0元素音段的錄音語音的F0值。
在此之上,在本實施方式中,在處理中的F0元素音段的緊后方存在從域語音數(shù)據(jù)庫90取得的F0值的場合,該緊后方的F0元素音段即F0值還反映在處理中的對F0元素音段的F0形狀目標的預(yù)測中。另一方面,對于從域語音數(shù)據(jù)庫90取得的F0值,不反映在從語言信息等的信息預(yù)測的F0模式的輪廓的預(yù)測結(jié)果中。由此,在由F0模式生成單元60生成的語調(diào)模式中,更進一步反映存放于域語音數(shù)據(jù)庫90中的錄音語音的講話上的特征。
圖12為說明在利用錄音語音產(chǎn)生的兩個短語中間插入由合成語音產(chǎn)生的短語時的F0模式的輪廓預(yù)測的示圖。
如圖12所示,在夾著要進行F0模式的輪廓的合成語音產(chǎn)生的的假定重音短語的前后存在錄音語音的短語的場合,在合成語音產(chǎn)生的的假定重音短語的最大F0值、始端及終端偏移的預(yù)測上要加上前方的錄音語音的最大F0值,同時還要加上后方的錄音語音的F0值。
雖然在圖中未示出,與此相反,在對夾著錄音語音產(chǎn)生的預(yù)定的短語的由合成語音產(chǎn)生的假定重音短語的F0模式的輪廓進行預(yù)測的場合,由該錄音語音產(chǎn)生的短語的最大F0值將加到前后的假定重音短語的F0模式的輪廓預(yù)測中。
此外,在合成語音產(chǎn)生的短語是連續(xù)的的場合,位于前頭的假定重音短語的緊前方的錄音語音的F0再的特征,也順序反映在各假定重音短語中。
另外,F(xiàn)0模式的輪廓預(yù)測的預(yù)測模型的學(xué)習(xí),是利用對每個假定重音短語得到的最大F0值的實測值的范疇化的值進行的。就是說,作為對輪廓預(yù)測的F0形狀目標進行預(yù)測之際的預(yù)測要因,對根據(jù)上述語言信息的韻律范疇加上此假定重音短語每一個的最大F0值的實測值的范疇而執(zhí)行用于預(yù)測的統(tǒng)計處理。
其后,F(xiàn)0模式生成單元60,利用與圖2所示的韻律控制單元20的最優(yōu)形狀元素選擇單元22及形狀元素連接單元23相對應(yīng)的功能,選擇最優(yōu)F0形狀元素,順序進行連接而得到作為處理對象的句子的F0模式(語調(diào)模式)。
圖13為說明利用F0模式生成單元產(chǎn)生的F0模式的生成處理的流程的流程圖。
如圖13所示,首先在文本分析單元10中,調(diào)研與作為處理對象的F0元素音段相對應(yīng)的短語是否登錄在域語音數(shù)據(jù)庫90上(步驟1301、1302)。
在與作為處理對象的F0元素音段相對應(yīng)的短語未在域語音數(shù)據(jù)庫90中登錄的場合(未從文本分析單元10接受到通知的場合),F(xiàn)0模式生成單元60,調(diào)研與處理中的F0元素音段的緊后方的F0元素音段相對應(yīng)的短語是否在域語音數(shù)據(jù)庫90中登錄(步驟1303)。于是,如果未登錄,在反映對緊前方的F0元素音段的F0形狀目標的輪廓預(yù)測的結(jié)果(在與緊前方的F0元素音段相對應(yīng)的短語在域語音數(shù)據(jù)庫90中登錄的場合該短語的F0值)的同時,對該處理中的F0元素音段預(yù)測F0形狀目標的輪廓(步驟1305)。之后,選擇最優(yōu)F0形狀元素(步驟1306),對所選擇的最優(yōu)F0形狀元素的頻率級進行設(shè)定(步驟1307),根據(jù)由音韻時長預(yù)測單元50得到的時長的信息進行時間軸的調(diào)整而對最優(yōu)F0形狀元素進行連接(步驟1308)。
在步驟1303中,在與處理中的F0元素音段的緊后方的F0元素音段相對應(yīng)的短語登錄在域語音數(shù)據(jù)庫90中的場合,除了對緊前方的F0元素音段的F0形狀目標的輪廓預(yù)測的結(jié)果之外,還反映在從域語音數(shù)據(jù)庫90取得的與該緊后方的F0元素音段相對應(yīng)的短語的F0值上,對該處理中的F0元素音段的F0形狀目標的輪廓進行預(yù)測(步驟1304、1305)。于是,像通常一樣,選擇最優(yōu)F0形狀元素(步驟1306),對所選擇的最優(yōu)F0形狀元素進行頻率級設(shè)定(步驟1307),根據(jù)由音韻時長預(yù)測單元50得到的時長的信息進行時間軸的調(diào)整而對最優(yōu)F0形狀元素進行連接(步驟1308)。
另外,在步驟1302中,與作為處理對象的F0元素音段相對應(yīng)的短語已在域語音數(shù)據(jù)庫90中登錄的場合,不通過上述處理選擇最優(yōu)F0形狀元素,而代之以取得登錄在域語音數(shù)據(jù)庫90中的該短語的F0值(步驟1309)。于是,將所取得的F0值用作最優(yōu)F0形狀元素,根據(jù)在音韻時長預(yù)測單元50中得到的時長的信息進行時間軸的調(diào)整而進行連接(步驟1308)。
如上取得的整個句子的語調(diào)模式,保持于CPU101的高速緩存及主存儲器103的預(yù)定區(qū)域中。
合成單位選擇單元70,接受由音韻時長預(yù)測單元50得到的時長信息和由F0模式生成單元60得到的語調(diào)模式的F0值的輸入,訪問聲音類型數(shù)據(jù)庫80,選擇并取得作為處理對象的F0元素音段的各音的合成單位元素(波形元素)。此處,在實際講話中,預(yù)定的短語的邊界部分的語音,受到連接的其他短語的語音及有無停頓的影響。因此,合成單位選擇單元70,根據(jù)連接的其他F0元素音段的邊界部分的語音及有無停頓選擇預(yù)定的F0元素音段的邊界部分的音的合成單位元素,以使F0元素音段的語音平滑連接。這一影響,在短語的終端部分的語音中表現(xiàn)得特別顯著。因此,至少關(guān)于F0元素音段的終端部分的音的合成單位元素,最好是考慮到緊后方的F0元素區(qū)間的始端的音的影響進行選擇。所選擇的合成單位元素,保持于CPU101的高速緩存及主存儲器103的預(yù)定區(qū)域中。
另外,合成單位選擇單元70,在對于與要生成合成單位元素的F0元素音段相對應(yīng)的短語存放于域語音數(shù)據(jù)庫90中這一點進行通知的場合,不從聲音類型數(shù)據(jù)庫80選擇合成單位元素,而代之以訪問域語音數(shù)據(jù)庫90取得該短語的波形元素。這種場合也與該F0元素音段的終端的音的場合一樣,相應(yīng)于該F0元素音段的緊后方的狀態(tài)進行調(diào)整。就是說,作為合成單位選擇單元70的處理,只不過是添加域語音數(shù)據(jù)庫90的波形元素作為選擇候補而已。
圖14為說明由合成單位選擇單元70產(chǎn)生的合成單位元素的生成處理的流程的流程圖。
如圖14所示,合成單位選擇單元70,首先將作為處理對象的文本的音素串分割為合成單位(步驟1401),并調(diào)研所關(guān)注的合成單位是否是與登錄到域語音數(shù)據(jù)庫90上的短語相對應(yīng)(步驟1402)。這一判斷,可以根據(jù)來自文本分析單元10的通知進行。
假如了解到與所關(guān)注的合成單位相對應(yīng)的短語未登錄在域語音數(shù)據(jù)庫90上,則合成單位選擇單元70,其次,就進行合成單位的預(yù)備選擇(步驟1403)。此處,參照聲音類型數(shù)據(jù)庫80,選擇應(yīng)該合成的最優(yōu)合成單位元素。作為選擇條件,考慮音素環(huán)境的適合性和韻律環(huán)境的適合性。所謂音素環(huán)境,是指通過文本分析單元10的分析得到的音素環(huán)境和各個合成單位的音素數(shù)據(jù)的原環(huán)境的類似性。另外,所謂韻律環(huán)境的適合性,是指作為目標給予的各音素的F0值及時長和各個合成單位的音素數(shù)據(jù)的F0值及時長的類似性。
假如通過預(yù)備選擇找到合適的合成單位,就將該合成單位選作最優(yōu)合成單位元素(步驟1404、1405)。所選擇的合成單位元素,保持于CPU101的高速緩存及主存儲器103的預(yù)定區(qū)域中。
另一方面,在找不到合適的合成單位的場合,就改變選擇條件,反復(fù)進行預(yù)備選擇,一直到找到合適的合成單位為止(步驟1404、1406)。
在步驟1402中,假如通過來自文本分析單元10的通知判斷與所關(guān)注的合成單位相對應(yīng)的短語已登錄在域語音數(shù)據(jù)庫90中,之后,合成單位選擇單元70就調(diào)研所關(guān)注的合成單位是否是該短語的邊界部分(步驟1407)。在是邊界部分的單位的場合,合成單位選擇單元70,就將登錄到域語音數(shù)據(jù)庫90的該短語的該語音的波形元素加到候補中,執(zhí)行合成單位的預(yù)備選擇(步驟1403)。以下的處理與對合成語音的處理相同(步驟1404-1406)。
另一方面,在所關(guān)注的合成單位,雖然包含于登錄到域語音數(shù)據(jù)庫90的短語之中,但卻不是其邊界部分的單位時,合成單位選擇單元70,為了忠實地再現(xiàn)該短語的錄音語音,就將存放于域語音數(shù)據(jù)庫90中的該語音的波形元素按照原樣選擇作為合成單位元素(步驟1407、1408)。所選擇的合成單位元素,保持于CPU101的高速緩存及主存儲器103的預(yù)定區(qū)域中。
語音生成單元30,按照以上方式接受由音韻時長預(yù)測單元50得到的時長信息、由F0模式生成單元60得到的語調(diào)模式的F0值以及由合成單位選擇單元70得到的合成單位元素的輸入,利用波形重疊法進行語音合成。所合成的語音波形,經(jīng)圖1所示的揚聲器111作為語音輸出。
如上所述,根據(jù)本實施方式,由于在生成合成語音的語調(diào)模式之際,可使其充分反映錄音的實際語音的講話上的特征,所以可以生成更接近錄音語音的合成語音。
特別是,在本實施方式中,錄音語音不是原樣照用,而是作為韻律信息的數(shù)據(jù)進行處理,為了在文本分析中在檢出作為錄音語音登錄的短語之際,利用該錄音語音的數(shù)據(jù)合成語音,可以藉助與生成錄音語音以外的自由的合成語音的場合一樣的處理進行語音合成,作為系統(tǒng)的處理,沒有必要去意識錄音語音或合成語音。所以,可以削減系統(tǒng)的開發(fā)成本。
另外,在本實施方式中,由于不區(qū)別錄音語音和合成語音,是根據(jù)F0元素音段的終端偏移的值和緊后方的的狀態(tài)進行調(diào)整,所以對于與各F0元素音段的相對應(yīng)的語音可進行語音合成而得到平滑連接的自然性較高的無錯感的合成語音。
如上所述,根據(jù)本發(fā)明,在生成語音合成的語調(diào)模式中,可以實現(xiàn)靈活而正確地再現(xiàn)講話者的講話特征的語音合成系統(tǒng)。
另外,根據(jù)本發(fā)明,在語音合成中,對于實際講話的語調(diào)的F0模式的數(shù)據(jù)庫(素材庫),通過與韻律范疇無關(guān)的縮小到F0模式,可以有效地活用存儲于數(shù)據(jù)庫中的實際講話的F0模式。
此外還有,根據(jù)本發(fā)明,可以將錄音語音和合成語音的語調(diào)適當混合而進行平滑連接的語音合成。
權(quán)利要求
1.一種語調(diào)生成方法,利用計算機生成語音合成中的語調(diào),其特征在于根據(jù)作為語音合成的對象的文本中的語言信息,預(yù)測該文本的語調(diào)的輪廓并將預(yù)測結(jié)果存儲于存儲器中,將預(yù)測的上述語調(diào)的輪廓從上述存儲器中讀出,根據(jù)該語調(diào)的輪廓,從存儲實際講話的語調(diào)模式數(shù)據(jù)庫中選擇語調(diào)模式作為上述文本的語調(diào)模式。
2.如權(quán)利要求1所述的語調(diào)生成方法,其特征在于根據(jù)利用上述文本的語言信息分類的韻律范疇預(yù)測上述語調(diào)的輪廓。
3.如權(quán)利要求1所述的語調(diào)生成方法,其特征在于在選擇語調(diào)模式之后,根據(jù)預(yù)測的上述語調(diào)的輪廓,對所選擇的語調(diào)模式的頻率級進行調(diào)整。
4.一種語調(diào)生成方法,利用計算機生成語音合成中的語調(diào),其特征在于包含,對構(gòu)成作為語音合成的對象的文本的每個假定重音短語預(yù)測語調(diào)的輪廓,將預(yù)測結(jié)果存儲于存儲器中的步驟;從上述存儲器中對于上述每個假定重音短語讀出預(yù)測的語調(diào)的輪廓,根據(jù)該語調(diào)的輪廓,從存儲實際講話的語調(diào)的數(shù)據(jù)庫中選擇語調(diào)模式,并將選擇結(jié)果存儲于存儲器中的步驟;以及從上述存儲器中對于所選擇的上述每個假定重音短語讀出語調(diào)模式并進行連接的步驟。
5.如權(quán)利要求4所述的語調(diào)生成方法,其特征在于上述預(yù)測語調(diào)輪廓并將預(yù)測結(jié)果存儲于存儲器中的步驟,在預(yù)測預(yù)定的上述假定重音短語的輪廓之際,在上述文本中在該假定重音短語的緊前方存在另一個假定重音短語的場合,對該緊前方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果進行參考,對該預(yù)定的假定重音短語的語調(diào)的輪廓進行預(yù)測。
6.如權(quán)利要求4所述的語調(diào)生成方法,其特征在于上述預(yù)測語調(diào)輪廓并將預(yù)測結(jié)果存儲于存儲器中的步驟,在上述假定重音短語存在于存儲于預(yù)定的存儲裝置中的預(yù)先被錄音的錄音語音的短語中的場合,從該存儲裝置取得與該短語的該假定重音短語相對應(yīng)的部分的語調(diào)有關(guān)的信息,并將該語調(diào)的輪廓的預(yù)測結(jié)果存儲于上述存儲器中。
7.如權(quán)利要求6所述的語調(diào)生成方法,其特征在于上述預(yù)測語調(diào)輪廓并將預(yù)測結(jié)果存儲于存儲器中的步驟,包含如下步驟,在上述文本中在預(yù)定的上述假定重音短語的緊前方存在另一個假定重音短語的場合,對該緊前方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果進行參考,對假定重音短語的語調(diào)的輪廓進行預(yù)測的步驟;在上述文本中在預(yù)定的上述假定重音短語的緊后方存在與存儲于上述預(yù)定的存儲裝置中的預(yù)先被錄音的錄音語音的短語相對應(yīng)的另一個假定重音短語的場合,再參考針對該緊后方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果而預(yù)測該假定重音短語的語調(diào)的輪廓的步驟。
8.如權(quán)利要求6所述的語調(diào)生成方法,其特征在于上述預(yù)測語調(diào)輪廓并將預(yù)測結(jié)果存儲于存儲器中的的步驟,在上述文本中在預(yù)定的上述假定重音短語的前后至少一方存在與存儲于上述預(yù)定的存儲裝置中的預(yù)先被錄音的錄音語音的短語相對應(yīng)的另一個假定重音短語的場合,參考針對與該錄音語音的短語相對應(yīng)的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果而預(yù)測該假定重音短語的語調(diào)的輪廓。
9.如權(quán)利要求4所述的語調(diào)生成方法,其特征在于選擇上述語調(diào)模式、將選擇結(jié)果存儲于存儲器中的步驟,包含從存儲于上述數(shù)據(jù)庫中的實際講話的語調(diào)模式之中,選擇始端終端間距離接近上述假定重音短語的語調(diào)的輪廓的語調(diào)模式的步驟;以及在所選擇的上述語調(diào)模式中選擇針對上述假定重音短語的音韻類的距離最小的語調(diào)模式作為上述語調(diào)模式的步驟。
10.一種語音合成裝置,用于進行文本語音合成,其特征在于包括,分析作為處理對象的文本取得語言信息的文本分析單元;存儲實際講話的語調(diào)模式的數(shù)據(jù)庫;用來生成對上述文本進行語音輸出的韻律的韻律控制單元;以及根據(jù)由上述韻律控制單元生成的韻律生成語音的語音生成單元,上述韻律控制單元具有,根據(jù)由上述文本分析單元取得的語言信息對構(gòu)成上述文本的每個假定重音短語預(yù)測語調(diào)的輪廓的輪廓預(yù)測單元;根據(jù)由上述輪廓預(yù)測單元預(yù)測的上述語調(diào)的輪廓從上述數(shù)據(jù)庫中選擇語調(diào)模式的形狀元素選擇單元;以及將上述形狀元素選擇單元所選擇的上述每個假定重音短語的語調(diào)模式連接起來生成上述文本整體的語調(diào)模式的形狀元素連接單元。
11.如權(quán)利要求10所述的語音合成裝置,其特征在于上述輪廓預(yù)測單元,至少利用上述假定重音短語的音段內(nèi)的頻率級的最大值、該音段的始端及終端的相對級偏移,規(guī)定上述語調(diào)的輪廓。
12.如權(quán)利要求10所述的語音合成裝置,其特征在于上述形狀元素選擇單元,從存儲于上述數(shù)據(jù)庫中的實際講話的全部語調(diào)模式之中選擇形狀近似于利用上述輪廓預(yù)測單元預(yù)測的上述語調(diào)的輪廓的語調(diào)模式。
13.如權(quán)利要求10所述的語音合成裝置,其特征在于上述形狀元素連接單元,將由上述形狀元素選擇單元所選擇的上述每個假定重音短語的上述語調(diào)模式,根據(jù)由上述輪廓預(yù)測單元預(yù)測的上述語調(diào)的輪廓調(diào)整頻率級之后進行連接。
14.如權(quán)利要求10所述的語音合成裝置,其特征在于還包括容納有關(guān)預(yù)先被錄音的錄音語音的語調(diào)的信息的另一個數(shù)據(jù)庫,上述輪廓預(yù)測單元,在上述假定重音短語存在于登錄于上述另一個數(shù)據(jù)庫中的錄音短語中時,從上述另一個數(shù)據(jù)庫取得有關(guān)與該錄音短語的該假定重音短語相對應(yīng)的部分的語調(diào)的信息。
15.一種語音合成裝置,進行文本語音合成,其特征在于包括,分析作為處理對象的文本取得語言信息的文本分析單元;存儲根據(jù)講話特征準備的多個實際講話的語調(diào)模式的數(shù)據(jù)庫;利用存儲于上述數(shù)據(jù)庫中的語調(diào)模式生成用來對上述文本進行語音輸出的韻律的韻律控制單元;以及根據(jù)由上述韻律控制單元生成的韻律生成語音的語音生成單元,通過切換使用上述數(shù)據(jù)庫,進行反映上述講話特征的語音合成。
16.一種語音合成裝置,在進行文本語音合成,其特征在于包括,分析作為處理對象的文本取得語言信息的文本分析單元;存儲有關(guān)講話特征的信息的第一數(shù)據(jù)庫;存儲有關(guān)預(yù)先被錄音的錄音語音的波形的信息的第二數(shù)據(jù)庫;選擇針對上述文本的合成單元的波形元素的合成單位選擇單元;將由上述合成單位選擇單元所選擇的波形元素結(jié)合生成合成語音的語音生成單元;上述合成單位選擇單元從上述第一及第二數(shù)據(jù)庫的信息中選擇針對與錄音語音的邊界部分相對應(yīng)的上述文本的合成單位的波形元素。
17.一種語音服務(wù)器,對應(yīng)于經(jīng)電話網(wǎng)實現(xiàn)的訪問要求提供語音對話型的內(nèi)容,其特征在于包括,用來合成輸出到上述電話網(wǎng)的語音的語音合成引擎和用來識別經(jīng)上述電話網(wǎng)輸入的語音的語音合成引擎;上述語音合成引擎,根據(jù)執(zhí)行應(yīng)用程序得到的文本的語言信息,對構(gòu)成該文本的每個假定重音短語預(yù)測語調(diào)的輪廓,根據(jù)預(yù)測的上述每個假定重音短語的語調(diào)的輪廓,從存儲實際講話的語調(diào)模式的數(shù)據(jù)庫中選擇語調(diào)模式,將所選擇的上述每個假定重音短語的語調(diào)連接起來而生成針對上述文本的語調(diào)模式,根據(jù)該語調(diào)模式合成語音并輸出到電話網(wǎng)。
18.一種程序,該程序是控制計算機生成語音合成中的語調(diào)的程序,其特征在于使計算機執(zhí)行如下的處理輸入作為語音合成的對象的文本的語言信息,根據(jù)該語言信息對構(gòu)成該文本的每個假定重音短語預(yù)測語調(diào)的輪廓,將預(yù)測結(jié)果存放到存儲器中的處理;從上述存儲器中讀出預(yù)測的上述每個假定重音短語的語調(diào),根據(jù)該語調(diào)的輪廓從存儲實際講話的語調(diào)模式的數(shù)據(jù)庫中選擇語調(diào)模式,將選擇結(jié)果存放到存儲器中的處理;以及從上述存儲器中讀出所選擇的上述每個假定重音短語的語調(diào)模式進行連接,作為針對上述文本的語調(diào)模式輸出的處理。
19.如權(quán)利要求18所述的程序,其特征在于由上述程序進行的上述語調(diào)的輪廓的預(yù)測、將預(yù)測結(jié)果存放于存儲器中的處理包含在預(yù)測預(yù)定的上述假定重音短語的語調(diào)的輪廓之際,在上述文本中該假定重音短語的緊前方存在另一個假定重音短語的場合,參照針對該緊前方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果對該預(yù)定的假定重音短語的語調(diào)的輪廓進行預(yù)測的處理。
20.如權(quán)利要求18所述的程序,其特征在于由上述程序進行的上述語調(diào)的輪廓的預(yù)測、將預(yù)測結(jié)果存放于存儲器中的處理,在上述假定重音短語在預(yù)定的存儲裝置中存放的預(yù)先被錄音的錄音語音的短語中存在的場合,從該存儲裝置中取得有關(guān)與該短語的該假定重音短語相對應(yīng)的語調(diào)的信息,作為該語調(diào)的輪廓的預(yù)測結(jié)果存放到上述存儲器中。
21.如權(quán)利要求20所述的程序,其特征在于由上述程序進行的上述語調(diào)的輪廓的預(yù)測、將預(yù)測結(jié)果存放于存儲器中的處理包含在上述文本中預(yù)定的上述假定重音短語的緊前方存在另一個假定重音短語的場合,參照針對該緊前方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果對該假定重音短語的語調(diào)的輪廓進行預(yù)測的處理;在上述文本中預(yù)定的上述假定重音短語的緊后方存在與在上述預(yù)定的存儲裝置中存放的預(yù)先被錄音的錄音語音的短語相對應(yīng)的另一個假定重音短語的場合,還參照針對該緊后方的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果對該假定重音短語的語調(diào)的輪廓進行預(yù)測的處理。
22.如權(quán)利要求20所述的程序,其特征在于由上述程序進行的上述語調(diào)的輪廓的預(yù)測、將預(yù)測結(jié)果存放于存儲器中的處理,在上述文本中預(yù)定的上述假定重音短語的前后的至少一方存在與在上述預(yù)定的存儲裝置中存放的預(yù)先被錄音的錄音語音的短語相對應(yīng)的另一個假定重音短語的場合,參照針對與該錄音語音的短語相對應(yīng)的另一個假定重音短語的語調(diào)的輪廓的預(yù)測結(jié)果,對該預(yù)定的假定重音短語的語調(diào)的輪廓進行預(yù)測的處理。
23.如權(quán)利要求18所述的程序,其特征在于由上述程序進行的上述語調(diào)模式的選擇處理,是在存儲于上述數(shù)據(jù)庫中的實際講話的語調(diào)模式之中,選擇形狀近似于預(yù)測的上述語調(diào)模式的輪廓的語調(diào)模式。
24.一種程序,該程序是控制計算機進行文本語音合成的程序,其特征在于為使上述計算機具有功能其構(gòu)成包括分析作為處理對象的文本取得語言信息的文本分析單元;根據(jù)由上述文本分析單元取得的語言信息對構(gòu)成上述文本的每個假定重音短語預(yù)測語調(diào)的輪廓的輪廓預(yù)測單元;根據(jù)由輪廓預(yù)測單元預(yù)測的上述語調(diào)的輪廓從存儲實際講話的語調(diào)模式的數(shù)據(jù)庫中選擇語調(diào)模式的形狀元素選擇單元;將上述形狀元素選擇單元所選擇的上述每個假定重音短語的語調(diào)模式連接起來生成上述文本整體的語調(diào)模式的形狀元素連接單元;以及根據(jù)上述形狀元素連接單元生成的語調(diào)模式生成語音的語音生成單元。
25.如權(quán)利要求24所述的程序,其特征在于由上述程序?qū)崿F(xiàn)的上述輪廓預(yù)測單元,在上述假定重音短語與預(yù)先被錄音的錄音語音的預(yù)定的短語相當?shù)膱龊希瑥拇鎯τ嘘P(guān)該錄音語音的語調(diào)的信息的另一個數(shù)據(jù)庫中,取得與該錄音短語的該假定重音短語相對應(yīng)的部分的語調(diào)的信息。
26.一種程序,該程序是控制計算機進行文本語音合成的程序,其特征在于使計算機作為如下單元工作分析作為處理對象的文本取得語言信息的文本分析單元;選擇針對上述文本的合成單位的波形元素的合成單位選擇單元;將由上述合成單位選擇單元選擇的波形元素結(jié)合生成合成語音的語音生成單元;上述合成單位選擇單元從存放有關(guān)講話特征的信息的第一數(shù)據(jù)庫和存放有關(guān)預(yù)先被錄音的錄音語音的波形的信息的第二數(shù)據(jù)庫中選擇針對與錄音語音的邊界部分相對應(yīng)的上述文本的合成單位的波形元素。
27.一種記錄媒體,該記錄媒體是將控制計算機進行文本語音合成的程序以該計算機可讀的方式記錄的記錄媒體,其特征在于上述程序,為使上述計算機具有功能其構(gòu)成包括分析作為處理對象的文本取得語言信息的文本分析單元;根據(jù)存儲由上述文本分析單元取得的語言信息對構(gòu)成上述文本的每個假定重音短語預(yù)測語調(diào)的輪廓的輪廓預(yù)測單元;根據(jù)由上述輪廓預(yù)測單元預(yù)測的上述語調(diào)的輪廓從存儲實際講話的語調(diào)模式的數(shù)據(jù)庫中選擇語調(diào)模式的形狀元素選擇單元;將上述形狀元素選擇單元所選擇的上述每個假定重音短語的語調(diào)模式連接起來生成上述全部文本的語調(diào)模式的形狀元素連接單元;以及根據(jù)上述形狀元素連接單元生成的語調(diào)模式生成語音的語音生成單元。
28.如權(quán)利要求27所述的記錄媒體,其特征在于由上述程序?qū)崿F(xiàn)的上述輪廓預(yù)測單元,在上述假定重音短語與預(yù)先被錄音的錄音語音的預(yù)定的短語相當?shù)膱龊?,從存放有關(guān)該錄音語音的語調(diào)的信息的另一數(shù)據(jù)庫中取得與該錄音短語的該假定重音短語相對應(yīng)的部分的語調(diào)模式有關(guān)的信息。
29.一種記錄媒體,該記錄媒體是將控制計算機進行文本語音合成的程序以該計算機可讀的方式記錄的記錄媒體,其特征在于使計算機作為如下單元工作分析作為處理對象的文本取得語言信息的文本分析單元;選擇針對上述文本的合成單位的波形元素的合成單位選擇單元;將由上述合成單位選擇單元選擇的波形元素結(jié)合生成合成語音的語音生成單元;上述合成單位選擇單元從存放有關(guān)講話特征的信息的第一數(shù)據(jù)庫和存放有關(guān)預(yù)先被錄音的錄音語音的波形的信息的第二數(shù)據(jù)庫中選擇針對與錄音語音的邊界部分相對應(yīng)的上述文本的合成單位的波形元素。
全文摘要
本發(fā)明可提供一種能夠?qū)崿F(xiàn)一種在語音合成的語調(diào)模式的生成中,有效地活用存儲于數(shù)據(jù)庫中的實際講話的F0模式,自然性高并且可以靈活而正確地再現(xiàn)講話者的講話特征的語音合成系統(tǒng)。在生成語音合成的語調(diào)的語調(diào)生成方法中,根據(jù)作為語音合成的對象的文本的語言信息,預(yù)測該文本的語調(diào)的輪廓,根據(jù)預(yù)測的語調(diào)的輪廓,從存儲實際講話的語調(diào)模式數(shù)據(jù)庫中選擇語調(diào)模式作為文本的語調(diào)模式。并且,在語調(diào)模式的輪廓預(yù)測及語音的波形元素的選擇中反映預(yù)先被錄音的語音的特征。
文檔編號G10L13/00GK1545693SQ02816339
公開日2004年11月10日 申請日期2002年8月1日 優(yōu)先權(quán)日2001年8月22日
發(fā)明者齊藤隆, 阪本正治, 治 申請人:國際商業(yè)機器公司