欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng)的制作方法

文檔序號:2821274閱讀:227來源:國知局
專利名稱:可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明是關(guān)于一種語音合成方法、裝置及其對話系統(tǒng),特別是關(guān)于一種在語音對話中通過擷取用戶輸入的韻律逐步調(diào)適與提升語音合成品質(zhì)的韻律的語音合成方法、裝置及其對話系統(tǒng)。
背景技術(shù)
隨著時代的腳步,信息技術(shù)的進步,信息化與自動化的時代來臨,人類與電腦的互動越來越頻繁,因此,一種與電腦方便且自然的人性化溝通方式亦隨之產(chǎn)生。
請參見圖1所示,其是為以語音為溝通介面的對話系統(tǒng)的流程示意圖。其中該對話系統(tǒng)10主要是將用戶所輸入的語音語句通過一語音辨識處理裝置11與一語音合成裝置15進行處理后產(chǎn)生一語音回復(fù)語句,其中該語音辨識處理裝置11主要包含有一語音辨識模組12、一語意理解模組13、一對話流程控制模組14,而該語音辨識模組12是將用戶所輸入的語音語句轉(zhuǎn)為文字輸出,而該語意理解模組13將在該語音辨識模組12中所辨識出的文字轉(zhuǎn)為有意義的結(jié)構(gòu)化信息(例如時間、地點或用戶的意圖等),如此才能做后續(xù)的處理。而該對話流程控制模組14則是管理用戶產(chǎn)生那些事件,所以相對應(yīng)要產(chǎn)生那些對話來回應(yīng),如果用戶所提供的信息仍然不足,對話流程控制模組14會依照其所需要的信息對用戶詢問或是直接提供對應(yīng)的答復(fù),在這一問一答的過程中,形成了對話流程,至于,該語音合成裝置15則是依照在該對話流程控制模組14所產(chǎn)生的文字語句,通過其中的一文字處理模組16來分析該文字語句的語法與語意后通過一韻律模型17運算出其中各音素的韻律參數(shù),再經(jīng)過一韻律調(diào)整模組18和一音素連結(jié)模組19的調(diào)整與連結(jié)處理,最后產(chǎn)生了回復(fù)語句的一語音輸出。
此外,一般語音對話系統(tǒng)除了要對用戶所輸入的語音語句具備強大的理解能力外,在輸出回復(fù)語句時不僅是要到正確無誤的發(fā)音,也要提升發(fā)音的自然度,即可轉(zhuǎn)換成清晰、流暢、自然的語音輸出,而為了進一步提升回復(fù)語句在文意上的可理解性以及聽覺上的舒適性,這時就更須兼顧語句的韻律(prosody)表現(xiàn)。
以現(xiàn)今的語音合成技術(shù)的進展而言,合理可靠的韻律參數(shù)值可經(jīng)由訓練精良的模型估測得來。惟,目前的語音對話系統(tǒng)里,專司合成回復(fù)語句的裝置(即圖1中的語音合成裝置15)都是獨立運作。因此,以圖1為例,只要將待回復(fù)內(nèi)容的文字語句輸入該語音合成裝置15,隨即可從輸出端取得其語音回復(fù)語句。該語音合成裝置15在這種運作的模式下,對輸入的文字是送往迎來,而和外界的互動也就僅止于此。如此一來,便失去隨環(huán)境做出適當調(diào)適的機會,所以合成語句的韻律參數(shù)值,始終就得決定于該語音合成裝置15內(nèi)部的韻律模型17的原始設(shè)計,若設(shè)計得當,所求得的韻律是不難維持在四平八穩(wěn)的水準。不過為求韻律的平穩(wěn),如此的韻律模型17沒有理由要偏愛任何一套對話系統(tǒng)的回復(fù)語句,因此對其韻律的估測就不見得能有出色的表現(xiàn),換句話說,即使該對話系統(tǒng)10在日經(jīng)月累的使用后,其語音合成裝置15對處理該對話系統(tǒng)10內(nèi)的回復(fù)語句仍舊不偏不倚,未曾精進。
縱上所述,由于現(xiàn)今語音對話系統(tǒng)在實際應(yīng)用上仍具有缺失,因此發(fā)明人有鑒于上述習知技術(shù)的缺失而發(fā)明出本申請「對話系統(tǒng)中可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng)」。

發(fā)明內(nèi)容
本申請的主要目的在于提供一種可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng),其在對話中通過對用戶輸入語句中相關(guān)韻律信息的擷取,并將其整合在語音合成中的回復(fù)語句的韻律參數(shù)的計算中,藉以兼顧語句的韻律表現(xiàn),提升語音合成的自然流暢度。
本申請的另一目的在于提供一種可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng),可以在與多個用戶語音對話后逐步調(diào)適語音合成中音素的韻律參數(shù)運算以有效提升語音合成品質(zhì)。
本申請的又一目的為提供一種可調(diào)適韻律的語音合成方法,用以在一語音對話系統(tǒng)中產(chǎn)生一語音回復(fù)語句,其中該語音對話系統(tǒng)更具有一語音辨識處理程序供一用戶輸入一語音輸入語句經(jīng)過辨識分析后以產(chǎn)生一文字化的回復(fù)語句,該方法是包含下列步驟(a)擷取該語音輸入語句中各音素的語音韻律信息;(b)將該語音輸入語句中的該等語音韻律信息儲存于一數(shù)據(jù)庫中;(c)提供一韻律模型,該韻律模型響應(yīng)該回復(fù)語句的文字組成以計算出對應(yīng)該文字組成的多個音素的運算韻律信息;(d)響應(yīng)該回復(fù)語句的文字組成,在該數(shù)據(jù)庫中搜尋以擷取出至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息;(e)整合由該韻律模型所取得的運算韻律信息與由該數(shù)據(jù)庫所搜尋出的語音韻律信息以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息;以及(f)將對應(yīng)該文字組成的該等多個音素的整合韻律信息加以連結(jié)以產(chǎn)生該語音回復(fù)語句。
根據(jù)上述構(gòu)想,該步驟(b)更包含計算該語音輸入語句中該等音素的語音韻律信息的韻律參數(shù)值。
根據(jù)上述構(gòu)想,該步驟(d)更包含分析該文字組成的語法與語意。
根據(jù)上述構(gòu)想,該步驟(e)的整合方式更包含下列步驟(e1)計算對應(yīng)該文字組成的其中一音素在該數(shù)據(jù)庫中的出現(xiàn)機率;(e2)依據(jù)該出現(xiàn)機率,賦予由該數(shù)據(jù)庫所擷取出的該音素的語音韻律信息一特定權(quán)重;(e3)響應(yīng)該特定權(quán)重,賦予由該韻律模型所取得的對應(yīng)該文字組成的該音素的運算韻律信息一對應(yīng)權(quán)重;以及(e4)根據(jù)一加權(quán)函數(shù),計算出該音素加權(quán)后的整合韻律信息,且其中該特定權(quán)重加上該對應(yīng)權(quán)重是等于一定值,其該定值是為1。
根據(jù)上述構(gòu)想,該步驟(f)更包含調(diào)整該回復(fù)語句中的對應(yīng)該等多個音素的整合韻律信息。
根據(jù)上述構(gòu)想,該等韻律信息是包含音長、基周軌跡、音量和停頓長度的韻律參數(shù)。
根據(jù)上述構(gòu)想,該語音辨識處理程序是包含有一語音辨識步驟、一語意理解步驟和一對話流程控制步驟。
本申請的再一目的為提供一種可調(diào)適韻律的語音合成裝置,適用于一語音對話系統(tǒng)中以產(chǎn)生一語音回復(fù)語句,其中該語音系統(tǒng)更包含一語音辨識處理裝置,用以供一用戶輸入一語音輸入語句并經(jīng)過辨識處理以產(chǎn)生一文字化的回復(fù)語句,該語音合成裝置包含一韻律模型,響應(yīng)該回復(fù)語句的文字組成以計算出對應(yīng)該文字組成的多個音素的運算韻律信息;一擷取模組,用以擷取該語音輸入語句中各音素的語音韻律信息;一數(shù)據(jù)庫,用以儲存由該擷取單元所擷取的語音韻律信息;一控制模組,是與該韻律模型和該數(shù)據(jù)庫分別連結(jié),響應(yīng)該語音辨識處理裝置所產(chǎn)生的該文字化的回復(fù)語句的文字組成,分別取得該韻律模型所計算的對應(yīng)該文字組成的多個音素的運算韻律信息與該數(shù)據(jù)庫中所搜尋出至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息,并加以整合以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息;以及一音素連結(jié)模組,用以將對應(yīng)該文字組成的該等多個音素的整合韻律信息加以連結(jié)以產(chǎn)生該語音回復(fù)語句。
根據(jù)上述構(gòu)想,該語音合成裝置更包含一文字處理模組和一韻律調(diào)整模組,該文字處理模組用以調(diào)整對應(yīng)該等多個音素的整合韻律信息,而該韻律調(diào)整模組用以來分析該回復(fù)語句的語法與語意。
根據(jù)上述構(gòu)想,該控制模組更包含一判斷單元和一計算單元,其中該判斷單元是判斷該對應(yīng)該文字組成的任一音素在該數(shù)據(jù)庫中的出現(xiàn)機率,并賦予由該數(shù)據(jù)庫所擷取的該音素的語音韻律信息一特定權(quán)重,同時響應(yīng)該特定權(quán)重,賦予由該韻律模型所取得的對應(yīng)該文字組成的該音素的運算韻律信息一對應(yīng)權(quán)重,而該計算單元依據(jù)該判斷單元所決定的該特定權(quán)重與該對應(yīng)權(quán)重以計算出該音素加權(quán)后的整合韻律信息。
根據(jù)上述構(gòu)想,該語音辨識處理裝置是包含一語音辨識模組、一語意理解模組和一對話流程控制模組。
本申請的又一目的為提供一種具可調(diào)適韻律語音合成的對話系統(tǒng),其是包含一語音辨識處理裝置,用以供一用戶輸入一語音輸入語句并經(jīng)過辨識處理以產(chǎn)生一文字化的回復(fù)語句;以及一語音合成裝置,用以將該回復(fù)語句轉(zhuǎn)換成一語音回復(fù)語句,該語音合成裝置包含一韻律模型和一數(shù)據(jù)庫,該韻律模型是響應(yīng)該文字化的回復(fù)語句的文字組成以計算出對應(yīng)該文字組成的多個音素的運算韻律信息以及該數(shù)據(jù)庫儲存有從該語音輸入語句所擷取的語音韻律信息;及其中,響應(yīng)該文字化的回復(fù)語句的文字組成,分別取得該韻律模型所計算的對應(yīng)該文字組成的多個音素的運算韻律信息與該數(shù)據(jù)庫中所搜尋出至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息,并加以整合以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息。
根據(jù)上述構(gòu)想,該語音合成裝置更包含一擷取模組,用以擷取該語音輸入語句中各音素的語音韻律信息并儲存在該數(shù)據(jù)庫中。
根據(jù)上述構(gòu)想,該語音合成裝置更包含一控制模組以響應(yīng)該語音辨識處理裝置所產(chǎn)生的該文字化的回復(fù)語句的文字組成,從該韻律模型中取得對應(yīng)該文字組成的多個音素的運算韻律信息與從該數(shù)據(jù)庫中擷取至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息,加以整合以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息。
本申請的又一目的為提供一種具可調(diào)適韻律語音合成的對話系統(tǒng),其至少包含一語音辨識處理裝置以及一語音合成裝置,該語音辨識處理裝置是供一用戶輸入一語音輸入語句經(jīng)過辨識處理以產(chǎn)生一文字化的回復(fù)語句,其特征為該語音合成裝置擷取該用戶所輸入的語音輸入語句中的語音韻律信息并與響應(yīng)該文字化的回復(fù)語句由一韻律模型所運算出的運算韻律信息進行整合,以產(chǎn)生結(jié)合有該用戶語音輸入語句的一語音回復(fù)語句。
本申請的功效與目的,可藉由下列實施方式說明,俾有更深入的了解。


圖1是為習用的語音對話系統(tǒng)的流程示意圖。
圖2是為本申請較佳實施例的一種具有可調(diào)適韻律語音合成的對話系統(tǒng)的流程示意圖。
主要元件符號說明10對話系統(tǒng)11、20語音辨識處理裝置12、21語音辨識模組13、22語意理解模組14、23對話流程控制模組15、30語音合成裝置16、31文字處理模組
17、32韻律模型18、36韻律調(diào)整模組19、37音素連結(jié)模組33擷取模組34數(shù)據(jù)庫35控制模組351判斷單元352計算單元具體實施方式
將于下文中說明本發(fā)明,熟悉本技術(shù)者須了解下文中的說明僅是作為例證用,而不用于限制本發(fā)明。
以下針對本申請較佳實施例的對話系統(tǒng)進行描述,但實際的系統(tǒng)配置及所采行的方法并不必須完全符合描述的架構(gòu)與方法,熟習本技藝者當能在不脫離本發(fā)明的實際精神及范圍的情況下,做出種種變化及修改。
請參見圖2,其是為本申請較佳實施例的一種具有可調(diào)適韻律語音合成的對話系統(tǒng)的流程示意圖,本申請對話系統(tǒng)主要具有一語音辨識處理裝置20與一語音合成裝置30,該語音辨識處理裝置20是用以供一用戶輸入一語音輸入語句,經(jīng)過該語音辨識處理裝置20辨識處理后產(chǎn)生一文字化的回復(fù)語句來供該語音合成裝置30將該回復(fù)語句轉(zhuǎn)換成一語音回復(fù)語句的輸出。
其中該語音辨識處理裝置20包含有一語音辨識模組21、一語音理解模組22和一對話流程控制模組23,此部份與習用技術(shù)相近似,該語音辨識模組21是將用戶所輸入的語音語句轉(zhuǎn)為文字輸出,而該語意理解裝置22將在該語音辨識裝置21中所辨識出的文字轉(zhuǎn)為有意義的結(jié)構(gòu)化信息,并通過該對話流程控制裝置23進行后續(xù)處理以對應(yīng)產(chǎn)生一文字化的回復(fù)語句。
此外,該語音合成裝置30則是包含了一文字處理模組31、一韻律模型32、一擷取模組33、一數(shù)據(jù)庫34、一控制模組35、一韻律調(diào)整模組36和一音素連結(jié)模組37,其中該文字處理模組31是分析該文字化的回復(fù)語句中的文字組成的語法與語意后轉(zhuǎn)成語言特征參數(shù),用以讓對話系統(tǒng)知道該回復(fù)語句中哪些是詞,哪些是句子,發(fā)什么音,怎么發(fā)音,發(fā)音時到哪應(yīng)該停頓,停頓多長等等,隨后,將這些語言特征參數(shù)送入該韻律模型32以運算出這些文字的各種韻律信息的韻律參數(shù),譬如音長(duration)、基周軌跡(pitchcontour)、音量(intensity)和停頓長度(break或pause)等等韻律信息的各種韻律參數(shù)。而本申請的韻律模型32也是與習用技術(shù)中的韻律模型17(請參見圖1)功能相似,即內(nèi)建有一些運算函數(shù),通過由該文字處理模組31所送入的語言特征參數(shù)而自動計算出這些文字可能的各種韻律信息參數(shù)。
由于本申請的技術(shù)重點在于不同來源的韻律信息的整合,因此為了便于區(qū)別其韻律信息的來源,茲將該韻律模型32所運算出的韻律信息稱為“運算韻律信息”,該數(shù)據(jù)庫34所儲存的韻律信息則是“語音韻律信息”,而整合后的韻律信息而稱為“整合韻律信息”。
而該控制模組35則從該韻律模型32中取得其所運算出的運算韻律信息后,并響應(yīng)該文字處理模組31處理后的文字組成的語言特征而從該數(shù)據(jù)庫34中搜尋是否有對應(yīng)該文字組成其中任一部份的語音韻律信息并加以擷取,隨后對這兩個來源(韻律模型32與數(shù)據(jù)庫34)的各種韻律信息經(jīng)過整合運算后而產(chǎn)生對應(yīng)該文字組成的多個音素的整合韻律信息。接著,通過該韻律調(diào)整模組36對該整合韻律信息進行調(diào)整,再通過該音素連結(jié)模組37將對應(yīng)該文字組成的該等多個音素的韻律信息加以連結(jié)以產(chǎn)生該語音回復(fù)語句。
其中,與該韻律模型32不同者,本申請的數(shù)據(jù)庫34則是通過該擷取模組33,在該用戶輸入該語音輸入語句時同時去擷取該語音輸入語句中各音素的語音韻律信息并儲存在其中,由于在一般對話系統(tǒng)而言,其回復(fù)語句和用戶的輸入語句一般而言都具有相當?shù)年P(guān)聯(lián)性,于是本申請所揭示的對話系統(tǒng)就有效運用用戶所提供的此項信息,進而整合在語音合成的韻律參數(shù)的計算上,藉以讓語音合成后所輸出的語音回復(fù)語句的韻律能更貼近真實用戶所使用的韻律。
至于,關(guān)于本申請對輸入語句的語音韻律信息的擷取,在擷取輸入語句中每一音素的語音韻律信息的韻律參數(shù)時,首先必須界定出每一音素在輸入語句中開始(Begin)和結(jié)束(End)的時間,而這項信息在輸入語句的辨識過程中便可獲得,所以系統(tǒng)也不需負擔額外的運算。每一音素的各種語音韻律信息的韻律參數(shù)計算方式如下假設(shè)輸入語句訊號為[S1,S2,S3,....SN],則音長Duration=End-Begin (1)基周軌跡Pitch_contour=GetPitchContour[SBegin...SEnd] (2)音量Intensity=10log(Σi=BeginEndSi2End-Begin)12---(3)]]>停頓長度Break=Begin(i+1)-End(i)(4)其中,End(i)此音素的結(jié)束時間,Begin(i+1)下一音素的開始時間。
于是,該擷取單元33即依照前述方式將該用戶所輸入的語音輸入語句中各音素的語音韻律信息擷取并經(jīng)過運算后存放在該數(shù)據(jù)庫34中,經(jīng)過與多個用戶相互對話后,該數(shù)據(jù)庫的所累積的語音韻律信息也就更多、更具可信度。
因此,由前面所述,該控制模組35依據(jù)該文字處理模組31處理后的文字組成的語言特征以從該數(shù)據(jù)庫34擷取對應(yīng)該文字組成其中任一部份的語音韻律信息,并取得該韻律模型32中所運算出的運算韻律信息,經(jīng)過整合計算后以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息。而其整合計算的方式則是通過該控制模組35的的判斷單元351和一計算單元352來執(zhí)行,其中該判斷單元351是判斷該對應(yīng)該文字組成的任一特定音素在該數(shù)據(jù)庫34中的出現(xiàn)機率,并賦予由該數(shù)據(jù)庫34所擷取的該特定音素的語音韻律信息一特定權(quán)重,同時響應(yīng)該特定權(quán)重,賦予由該韻律模型32所取得的該特定音素的運算韻律信息一對應(yīng)權(quán)重。此外,該計算單元352是依據(jù)該判斷單元351所決定的該特定權(quán)重與該對應(yīng)權(quán)重以計算出該音素加權(quán)后的整合韻律信息。
對于各個音素的韻律信息的整合運算機制則是可由下列式子所表示W(wǎng)eightDB=f(number_of_prosody_samples)∝number_of_prosody_samples (5)WeightDB+Weightmodel=1(6)Prosody=WeightDB×PSB+Weightmodel×Pmodel(7)
其中,Weightmodel在韻律模型的權(quán)重、WeightDB在數(shù)據(jù)庫的權(quán)重、Pmodel于韻律模型的韻律信息、PDB于數(shù)據(jù)庫的韻律信息以及Prosody整合后的韻律信息。
其中式(5)即表示了WeightDB是為正比于從取樣數(shù)量的函數(shù),即對于同樣的音素,若可由用戶中擷取到語音韻律信息的機會越多,則其權(quán)重將越高。且由于在式(6)中WeightDB+Weightmodel是為一定值,所以只要決定了WeightDB的數(shù)值,Weightmodel隨之產(chǎn)生,因此此音素的整合韻律信息即可決定(如式(7)的權(quán)重函數(shù)所示)。
舉例而言,以回復(fù)語句欲合成“臺達電子”為例,若“臺達電子”在用戶所輸入的語音輸入語句中出現(xiàn)的次數(shù)甚為頻繁,那么取自數(shù)據(jù)庫34的語音數(shù)據(jù)自然極具可靠性,所以理應(yīng)給予較高的權(quán)重(如式(5)所示),而原先預(yù)設(shè)韻律運算方式的韻律模型32的權(quán)重也就相對變小(如式(6)所示)。相反的,如果這個語句在用戶所輸入的語音輸入語句中并不常見,零星的樣本在統(tǒng)計學上已失去參考價值,此時就應(yīng)保守看待這項數(shù)據(jù),減低權(quán)重。
于是,在語音合成中的各項韻律參數(shù)的計算上,此項整合運算機制便發(fā)揮了“進可攻退可守”的效用,即使該數(shù)據(jù)庫34內(nèi)完全沒有相關(guān)的韻律信息可用,原有的韻律模型32仍會安穩(wěn)的守住最后一道防線,而本申請的對話系統(tǒng)即可根據(jù)此項機制,逐步地對語音合成韻律計算進行調(diào)整以有效提升語音合成品質(zhì)。
因此,本申請是設(shè)計出一種可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng)以改良原有語音合成部分在合成語音時的呆板與缺乏靈活度,本申請在語音對話中擷取用戶的輸入語句的韻律信息,并將其整合于回復(fù)語句的語音合成的計算上,藉以增進求得的韻律更近真實,提升語音合成時的自然流暢度。
綜上所述,本申請確實可提供一種可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng),是于語音合成裝置中額外增設(shè)一數(shù)據(jù)庫來儲存用戶所輸入的語音輸入語句,并利用整合運算機制來計算出語音合成的輸出韻律,于是所輸出的回復(fù)語句的韻律可以從對話過程中能獲得調(diào)適而逐步改善,此方法技術(shù)簡單,可運用領(lǐng)域廣泛,實具產(chǎn)業(yè)的價值,故依法提出發(fā)明專利申請。
以上所述是利用較佳實施例詳細說明本發(fā)明,而非限制本發(fā)明的范圍,因此熟知此技藝的人士應(yīng)能明了,適當而作些微的改變與調(diào)整,仍將不失本發(fā)明的要義所在,亦不脫離本發(fā)明的精神和范圍,故都應(yīng)視為本發(fā)明的進一步實施狀況。
本申請得由熟習此技術(shù)的人士任施匠思而為諸般修飾,然皆不脫本申請權(quán)利要求所欲保護者。
權(quán)利要求
1.一種可調(diào)適韻律的語音合成方法,用以在一語音對話系統(tǒng)中產(chǎn)生一語音回復(fù)語句,其中該語音對話系統(tǒng)更具有一語音辨識處理程序供一用戶輸入一語音輸入語句經(jīng)過辨識分析后以產(chǎn)生一文字化的回復(fù)語句,該方法是包含下列步驟(a)擷取該語音輸入語句中各音素的語音韻律信息;(b)將該語音輸入語句中的該等語音韻律信息儲存于一數(shù)據(jù)庫中;(c)提供一韻律模型,該韻律模型響應(yīng)該回復(fù)語句的文字組成以計算出對應(yīng)該文字組成的多個音素的運算韻律信息;(d)響應(yīng)該回復(fù)語句的文字組成,在該數(shù)據(jù)庫中搜尋以擷取出至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息;(e)整合由該韻律模型所取得的運算韻律信息與由該數(shù)據(jù)庫所搜尋出的語音韻律信息以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息;以及(f)將對應(yīng)該文字組成的該等多個音素的整合韻律信息加以連結(jié)以產(chǎn)生該語音回復(fù)語句。
2.如權(quán)利要求1所述的語音合成方法,其中該步驟(b)更包含計算該語音輸入語句中該等音素的語音韻律信息的韻律參數(shù)值。
3.如權(quán)利要求1所述的語音合成方法,其中該步驟(d)更包含分析該文字組成的語法與語意。
4.如權(quán)利要求1所述的語音合成方法,其中該步驟(e)的整合方式更包含下列步驟(e1)計算對應(yīng)該文字組成的其中一音素在該數(shù)據(jù)庫中的出現(xiàn)機率;(e2)依據(jù)該出現(xiàn)機率,賦予由該數(shù)據(jù)庫所擷取出的該音素的語音韻律信息一特定權(quán)重;(e3)響應(yīng)該特定權(quán)重,賦予由該韻律模型所取得的對應(yīng)該文字組成的該音素的運算韻律信息一對應(yīng)權(quán)重;以及(e4)根據(jù)一加權(quán)函數(shù),計算出該音素加權(quán)后的整合韻律信息;及/或該特定權(quán)重加上該對應(yīng)權(quán)重是等于一定值,而該定值可為1。
5.如權(quán)利要求1所述的語音合成方法,其中該等韻律信息是包含音長(duration)、基周軌跡(pitch contour)、音量(intensity)和停頓長度(break)的韻律參數(shù)。
6.如權(quán)利要求1所述的語音合成方法,其中該語音辨識處理程序是包含有一語音辨識步驟、一語意理解步驟和一對話流程控制步驟。
7.如權(quán)利要求1所述的語音合成方法,其中該步驟(f)更包含調(diào)整該回復(fù)語句中的對應(yīng)該等多個音素的整合韻律信息。
8.一種可調(diào)適韻律的語音合成裝置,適用于一語音對話系統(tǒng)中以產(chǎn)生一語音回復(fù)語句,其中該語音系統(tǒng)更包含一語音辨識處理裝置,用以供一用戶輸入一語音輸入語句并經(jīng)過辨識處理以產(chǎn)生一文字化的回復(fù)語句,該語音合成裝置包含一韻律模型,響應(yīng)該回復(fù)語句的文字組成以計算出對應(yīng)該文字組成的多個音素的運算韻律信息;一擷取模組,用以擷取該語音輸入語句中各音素的語音韻律信息;一數(shù)據(jù)庫,用以儲存由該擷取單元所擷取的語音韻律信息;一控制模組,是與該韻律模型和該數(shù)據(jù)庫分別連結(jié),響應(yīng)該語音辨識處理裝置所產(chǎn)生的該文字化的回復(fù)語句的文字組成,分別取得該韻律模型所計算的對應(yīng)該文字組成的多個音素的運算韻律信息與該數(shù)據(jù)庫中所搜尋出至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息,并加以整合以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息;以及一音素連結(jié)模組,用以將對應(yīng)該文字組成的該等多個音素的整合韻律信息加以連結(jié)以產(chǎn)生該語音回復(fù)語句。
9.如權(quán)利要求8所述的語音合成裝置,更包含一文字處理模組,用以來分析該回復(fù)語句的語法與語意。
10.如權(quán)利要求8所述的語音合成裝置,更包含一韻律調(diào)整模組,用以調(diào)整對應(yīng)該等多個音素的整合韻律信息。
11.如權(quán)利要求8所述的語音合成裝置,其中該控制模組更包含一判斷單元和一計算單元;該判斷單元是判斷該對應(yīng)該文字組成的任一音素在該數(shù)據(jù)庫中的出現(xiàn)機率,并賦予由該數(shù)據(jù)庫所擷取的該音素的語音韻律信息一特定權(quán)重,同時響應(yīng)該特定權(quán)重,賦予由該韻律模型所取得的對應(yīng)該文字組成的該音素的運算韻律信息一對應(yīng)權(quán)重;及/或該計算單元是依據(jù)該判斷單元所決定的該特定權(quán)重與該對應(yīng)權(quán)重以計算出該音素加權(quán)后的整合韻律信息。
12.一種具可調(diào)適韻律語音合成的對話系統(tǒng),其是包含一語音辨識處理裝置,用以供一用戶輸入一語音輸入語句并經(jīng)過辨識處理以產(chǎn)生一文字化的回復(fù)語句;以及一語音合成裝置,用以將該回復(fù)語句轉(zhuǎn)換成一語音回復(fù)語句,該語音合成裝置包含一韻律模型和一數(shù)據(jù)庫,該韻律模型是響應(yīng)該文字化的回復(fù)語句的文字組成以計算出對應(yīng)該文字組成的多個音素的運算韻律信息以及該數(shù)據(jù)庫儲存有從該語音輸入語句所擷取的語音韻律信息;及其中,響應(yīng)該文字化的回復(fù)語句的文字組成,分別取得該韻律模型所計算的對應(yīng)該文字組成的多個音素的運算韻律信息與該數(shù)據(jù)庫中所搜尋出至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息,并加以整合以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息。
13.如權(quán)利要求12所述的對話系統(tǒng),其中該語音合成裝置更包含一擷取模組,用以擷取該語音輸入語句中各音素的語音韻律信息并儲存在該數(shù)據(jù)庫中。
14.如權(quán)利要求12所述的對話系統(tǒng),其中該語音合成裝置更包含一控制模組以響應(yīng)該語音辨識處理裝置所產(chǎn)生的該文字化的回復(fù)語句的文字組成,從該韻律模型中取得對應(yīng)該文字組成的多個音素的運算韻律信息與從該數(shù)據(jù)庫中擷取至少部分對應(yīng)該文字組成的對應(yīng)音素的語音韻律信息,加以整合以產(chǎn)生對應(yīng)該文字組成的該等音素的整合韻律信息;及/或該語音合成裝置更包含一音素連結(jié)模組,用以將該控制模組所產(chǎn)生的對應(yīng)該文字組成的該等多個音素的整合韻律信息加以連結(jié)以產(chǎn)生該語音回復(fù)語句。
15.一種具可調(diào)適韻律語音合成的對話系統(tǒng),其至少包含一語音辨識處理裝置以及一語音合成裝置,該語音辨識處理裝置是供一用戶輸入一語音輸入語句經(jīng)過辨識處理以產(chǎn)生一文字化的回復(fù)語句,其特征為該語音合成裝置擷取該用戶所輸入的語音輸入語句中的語音韻律信息并與響應(yīng)該文字化的回復(fù)語句由一韻律模型所運算出的運算韻律信息進行整合,以產(chǎn)生結(jié)合有該用戶語音輸入語句的一語音回復(fù)語句。
全文摘要
本發(fā)明是為一種可調(diào)適韻律的語音合成方法、裝置及其對話系統(tǒng),其在對話中通過對用戶輸入語句中相關(guān)韻律信息的擷取,并將其整合在語音合成中回復(fù)語句的韻律參數(shù)的計算中,藉以兼顧語句的韻律表現(xiàn),提升語音合成的自然流暢度。
文檔編號G10L13/00GK1825430SQ200510052568
公開日2006年8月30日 申請日期2005年2月23日 優(yōu)先權(quán)日2005年2月23日
發(fā)明者廖文偉, 沈家麟 申請人:臺達電子工業(yè)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
静宁县| 慈利县| 昔阳县| 北碚区| 阿坝县| 西华县| 疏附县| 镇江市| 张家界市| 东阳市| 南岸区| 陆丰市| 新源县| 西乌珠穆沁旗| 阿鲁科尔沁旗| 安顺市| 都匀市| 霍林郭勒市| 星子县| 永平县| 鞍山市| 政和县| 南部县| 苏尼特右旗| 榕江县| 金堂县| 玛曲县| 刚察县| 贵港市| 新绛县| 凤庆县| 沂水县| 徐汇区| 太原市| 宜州市| 辉县市| 江油市| 花莲市| 临颍县| 安吉县| 三明市|