欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

嵌入式設(shè)備、雙模態(tài)語(yǔ)音合成系統(tǒng)和方法

文檔序號(hào):2837487閱讀:411來(lái)源:國(guó)知局
專利名稱:嵌入式設(shè)備、雙模態(tài)語(yǔ)音合成系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及嵌入式設(shè)備上任意文本到自然語(yǔ)音轉(zhuǎn)換的語(yǔ)音合成 技術(shù),更具體地,涉及一種嵌入式設(shè)備、 一種雙模態(tài)語(yǔ)音合成系統(tǒng)和 一種雙模態(tài)語(yǔ)音合成方法,可以在滿足用戶對(duì)實(shí)時(shí)性和音質(zhì)要求的基
10礎(chǔ)上,為用戶提供高音質(zhì)的語(yǔ)音合成輸出。
背景技術(shù)
隨著數(shù)字時(shí)代的來(lái)臨,語(yǔ)音交互技術(shù)得到了越來(lái)越多的應(yīng)用,從 文本到語(yǔ)音的語(yǔ)音合成技術(shù)作為語(yǔ)音交互的重要一環(huán),受到了學(xué)術(shù)界
15 和產(chǎn)業(yè)界越來(lái)越多的重視。國(guó)內(nèi)外很多公司、大學(xué)以及科研院所針對(duì) 語(yǔ)音合成技術(shù)做了廣泛深入地研究,提出了基于預(yù)錄制語(yǔ)音庫(kù)的波形 拼接合成技術(shù)(參見參考文獻(xiàn)[1][2])、基于語(yǔ)音參數(shù)的語(yǔ)音合成技 術(shù)(參見參考文獻(xiàn)[3] [4])以及基于人類語(yǔ)音產(chǎn)生機(jī)理的語(yǔ)音合成(參 見參考文獻(xiàn)[5])等多種方法。除基于人類語(yǔ)音產(chǎn)生機(jī)理的語(yǔ)音合成方
20 法僅處在研究階段外,其他兩種方法均已有多年的研究歷史并且在近 幾年取得了較大的進(jìn)展,實(shí)現(xiàn)了一些具體應(yīng)用。
波形拼接語(yǔ)音合成技術(shù)需要預(yù)先按照合成單元,存儲(chǔ)語(yǔ)音數(shù)據(jù) (即語(yǔ)音庫(kù)),在合成時(shí),根據(jù)文本分析和韻律預(yù)測(cè)的結(jié)果,從預(yù)存的 語(yǔ)音數(shù)據(jù)中選擇出合適的拼接單元,最后將所選的拼接單元按照時(shí)間
25序列拼接在一起,從而得到最終的合成語(yǔ)音。這種方法的優(yōu)點(diǎn)在于 最終合成語(yǔ)音為真實(shí)的錄音數(shù)據(jù),結(jié)合準(zhǔn)確的韻律預(yù)測(cè)模塊,最終產(chǎn) 生的語(yǔ)音非常接近于自然語(yǔ)音。而缺點(diǎn)在于要得到較好的合成結(jié)果, 需要事先存儲(chǔ)大量的語(yǔ)音數(shù)據(jù),合成結(jié)果與存儲(chǔ)數(shù)據(jù)量的大小直接相 關(guān),即當(dāng)語(yǔ)音庫(kù)大幅減小后,其音質(zhì)也會(huì)大幅下降。目前基于大語(yǔ)音
30庫(kù)拼接技術(shù)的語(yǔ)音合成技術(shù),以其自然的韻律和高質(zhì)量的音質(zhì)成為了服務(wù)器版和桌面版語(yǔ)音合成的主流。
參數(shù)合成法(也被稱為分析合成方法)把語(yǔ)音參數(shù)根據(jù)語(yǔ)音產(chǎn)生 的數(shù)學(xué)模型轉(zhuǎn)換為語(yǔ)音數(shù)據(jù)。參數(shù)合成預(yù)先存儲(chǔ)的不是語(yǔ)音數(shù)據(jù)本身, 而是提取出的語(yǔ)音參數(shù),因此參數(shù)合成法對(duì)于存儲(chǔ)空間的要求較波形 5 拼接要小得多。在合成階段,系統(tǒng)將根據(jù)語(yǔ)音模型把語(yǔ)音參數(shù)轉(zhuǎn)換為 語(yǔ)音數(shù)據(jù)。由于參數(shù)合成所采用的語(yǔ)音模型只能近似模擬人的發(fā)音機(jī) 理,因此參數(shù)合成法生成的語(yǔ)音音質(zhì)較差。最近幾年隨著語(yǔ)音模型的 深入研究、語(yǔ)音信號(hào)處理技術(shù)以及統(tǒng)計(jì)技術(shù)的發(fā)展,參數(shù)合成法的音 質(zhì)也得到了很大的提高。除了存儲(chǔ)空間要求小以外,參數(shù)合成法相對(duì) 10 于波形拼接的另外一個(gè)優(yōu)點(diǎn)是得到的合成語(yǔ)音連貫性較好。
而隨著軟、硬件技術(shù)的發(fā)展,目前嵌入式設(shè)備(如PDA、車載終
端和智能手機(jī)等)的計(jì)算能力和存儲(chǔ)能力已經(jīng)有了很大的改善,進(jìn)而 使得改善用戶界面的需求更加強(qiáng)烈。最近幾年語(yǔ)音合成技術(shù)在嵌入式 設(shè)備上的應(yīng)用已經(jīng)成為了語(yǔ)音研究領(lǐng)域的熱點(diǎn)。對(duì)于語(yǔ)音合成技術(shù)來(lái)
15 說(shuō),嵌入式設(shè)備相對(duì)于計(jì)算機(jī)有計(jì)算能力低、存儲(chǔ)空間小等特點(diǎn)。根 據(jù)嵌入式設(shè)備的特點(diǎn),已有研究者(參見參考文獻(xiàn)[6])通過(guò)簡(jiǎn)化文本 分析和韻律預(yù)測(cè)模塊以及減少音庫(kù)中語(yǔ)音單元數(shù)量的方法,將拼接語(yǔ) 音合成技術(shù)移植到了嵌入式設(shè)備中,但是隨之而來(lái)的是合成音質(zhì)和自 然度的大幅度下降。參數(shù)合成應(yīng)用在嵌入式設(shè)備(參見參考文獻(xiàn)[7])
20 中時(shí),資源占用并不是問(wèn)題,但在很多情況下其提供的合成語(yǔ)音并不 能讓用戶滿意。如何在嵌入式設(shè)備現(xiàn)有的資源下獲得高質(zhì)量的合成語(yǔ) 音已成為了當(dāng)前嵌入式語(yǔ)音合成領(lǐng)域最棘手的問(wèn)題。

發(fā)明內(nèi)容
25 本發(fā)明提出了一種在嵌入式設(shè)備上進(jìn)行雙模態(tài)語(yǔ)音合成的解決 方案來(lái)提高嵌入式設(shè)備上語(yǔ)音合成的性能。所謂雙模態(tài)語(yǔ)音合成指的 是在嵌入式設(shè)備端的參數(shù)合成和在服務(wù)器端的大音庫(kù)波形拼接合成, 而雙模態(tài)之間的切換是系統(tǒng)根據(jù)實(shí)時(shí)性、對(duì)音質(zhì)的要求和用戶選擇等
因素自動(dòng)進(jìn)行的。本發(fā)明的目的在于在滿足實(shí)時(shí)性的要求時(shí),利用
30服務(wù)器端的波形拼接合成,向嵌入式設(shè)備用戶提供音質(zhì)最好的合成語(yǔ)音;當(dāng)不滿足實(shí)時(shí)性要求時(shí),在滿足音質(zhì)要求的情況下,利用設(shè)備自 身的參數(shù)合成提供稍差的合成語(yǔ)音,這樣就可以在各種情況下向用戶 提供盡可能好的語(yǔ)音合成服務(wù)。
本發(fā)明既利用大音庫(kù)拼接合成音質(zhì)好的特點(diǎn),又利用了參數(shù)合成 5 占用資源少速度快的特點(diǎn),將兩者結(jié)合在一起的雙模態(tài)語(yǔ)音合成系統(tǒng) 可以在滿足用戶對(duì)實(shí)時(shí)性和音質(zhì)要求的基礎(chǔ)上,為用戶提供高音質(zhì)的 語(yǔ)音合成輸出。與在嵌入式設(shè)備中單獨(dú)使用參數(shù)合成、以及在嵌入式 設(shè)備中單獨(dú)使用拼接合成相比,本發(fā)明提出的雙模態(tài)語(yǔ)音合成系統(tǒng)在 嵌入式設(shè)備中具有更為明顯的優(yōu)勢(shì)。
10 根據(jù)本發(fā)明的第一方案,提出了一種嵌入式設(shè)備,包括網(wǎng)絡(luò)可
用性檢測(cè)單元,用于在接收到待合成的文本時(shí),檢測(cè)網(wǎng)絡(luò)的可用性, 如果網(wǎng)絡(luò)可用,則將接收到的待合成的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器側(cè) 的拼接合成單元;如果網(wǎng)絡(luò)不可用,則將接收到的待合成的文本輸入 到參數(shù)合成單元中;參數(shù)合成單元,用于對(duì)來(lái)自網(wǎng)絡(luò)可用性檢測(cè)單元
15 的輸入文本進(jìn)行參數(shù)語(yǔ)音合成處理,并將處理后所得到的語(yǔ)音輸出提 供給音質(zhì)檢測(cè)單元;音質(zhì)檢測(cè)單元,用于在實(shí)時(shí)性允許的范圍內(nèi),接 收來(lái)自嵌入式設(shè)備側(cè)的參數(shù)合成單元的參數(shù)合成結(jié)果和來(lái)自服務(wù)器側(cè) 的拼接合成單元的拼接合成結(jié)果,對(duì)上述結(jié)果進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),選 擇語(yǔ)音質(zhì)量最好的合成結(jié)果進(jìn)行輸出。
20 優(yōu)選地,所述嵌入式設(shè)備還包括實(shí)時(shí)性檢測(cè)單元,用于在從網(wǎng)
絡(luò)可用性檢測(cè)單元接收到準(zhǔn)備進(jìn)行實(shí)時(shí)性檢測(cè)的通知時(shí),啟動(dòng)實(shí)時(shí)性 檢測(cè)處理,檢查服務(wù)器側(cè)的拼接合成單元的語(yǔ)音拼接合成進(jìn)度,由此
確定是否滿足實(shí)時(shí)性的要求;其中所述網(wǎng)絡(luò)可用性檢測(cè)單元在將接收 到的待合成的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器側(cè)的拼接合成單元的同時(shí),
25 通知所述實(shí)時(shí)性檢測(cè)單元準(zhǔn)備進(jìn)行實(shí)時(shí)性檢測(cè)處理。
更優(yōu)選地,當(dāng)實(shí)時(shí)性檢測(cè)單元確定滿足實(shí)時(shí)性要求時(shí),等待至下 一預(yù)定時(shí)刻再次進(jìn)行實(shí)時(shí)性檢測(cè)處理,直至服務(wù)器側(cè)的拼接合成單元 通知其已完成語(yǔ)音拼接合成處理為止;當(dāng)實(shí)時(shí)性檢測(cè)單元確定不滿足 實(shí)時(shí)性要求時(shí),通知服務(wù)器側(cè)的拼接合成單元停止語(yǔ)音拼接合成處理、
30并返回此時(shí)的中間結(jié)果;并在接收到從服務(wù)器側(cè)的拼接合成單元返回的中間結(jié)果時(shí),實(shí)時(shí)性檢測(cè)單元將返回的中間結(jié)果提供給參數(shù)合成單 元。
優(yōu)選地,所述嵌入式設(shè)備側(cè)的實(shí)時(shí)性檢測(cè)單元首先根據(jù)所接收到 的、由服務(wù)器側(cè)的拼接合成單元在完成預(yù)定處理時(shí)、自動(dòng)發(fā)送的指示 5 當(dāng)前所處狀態(tài)的數(shù)據(jù)包來(lái)確定是否滿足實(shí)時(shí)性要求;當(dāng)經(jīng)過(guò)了預(yù)定時(shí) 間仍未接收到上述數(shù)據(jù)包時(shí),向服務(wù)器側(cè)的拼接合成單元發(fā)送査詢命 令,并根據(jù)服務(wù)器側(cè)的拼接合成單元對(duì)所述查詢命令的響應(yīng)來(lái)確定是 否滿足實(shí)時(shí)性要求。
更優(yōu)選地,所述實(shí)時(shí)性要求是用戶預(yù)先指定的或系統(tǒng)缺省設(shè)置
10 的。
優(yōu)選地,所述音質(zhì)檢測(cè)單元在評(píng)價(jià)參數(shù)合成結(jié)果和拼接合成結(jié)果 的語(yǔ)音質(zhì)量時(shí),選擇其語(yǔ)音質(zhì)量?jī)?yōu)于用戶預(yù)設(shè)或系統(tǒng)缺省設(shè)置的語(yǔ)音 質(zhì)量的合成結(jié)果進(jìn)行輸出。
優(yōu)選地,所述音質(zhì)檢測(cè)單元基于離線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),
15 其中預(yù)先離線設(shè)置系統(tǒng)的音質(zhì)等級(jí),在使用中,在具有不低于用戶所 設(shè)定的可接受音質(zhì)等級(jí)的多個(gè)合成結(jié)果中,選擇具有最高音質(zhì)等級(jí)的 合成結(jié)果進(jìn)行輸出;或者所述音質(zhì)檢測(cè)單元基于在線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音 質(zhì)量評(píng)價(jià),其中從合成語(yǔ)音結(jié)果中提取多個(gè)預(yù)定參數(shù),根據(jù)所述預(yù)定 參數(shù)的模型和分布情況,估計(jì)所述合成語(yǔ)音結(jié)果的音質(zhì),在具有不低
20 于用戶所設(shè)定的可接受音質(zhì)等級(jí)的多個(gè)合成結(jié)果中,選擇具有最高音 質(zhì)等級(jí)的合成結(jié)果進(jìn)行輸出。
根據(jù)本發(fā)明的第二方案,提出了一種雙模態(tài)語(yǔ)音合成系統(tǒng),包括 根據(jù)上述本發(fā)明所述的嵌入式設(shè)備;和服務(wù)器,包括拼接合成單元, 用于接收來(lái)自網(wǎng)絡(luò)可用性檢測(cè)單元的輸入文本,對(duì)其進(jìn)行語(yǔ)音拼接合
25成處理,并將處理后所得到的語(yǔ)音輸出提供給音質(zhì)檢測(cè)單元。
根據(jù)本發(fā)明的第三方案,提出了一種雙模態(tài)語(yǔ)音合成方法,包括 以下步驟在接收到待合成的文本時(shí),檢測(cè)網(wǎng)絡(luò)的可用性;如果網(wǎng)絡(luò) 可用,則將接收到的待合成的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器,由服務(wù)器 對(duì)待合成的文本進(jìn)行語(yǔ)音拼接合成處理,并在完成語(yǔ)音拼接合成處理
30時(shí),將合成語(yǔ)音通過(guò)網(wǎng)絡(luò)傳輸至嵌入式設(shè)備;如果網(wǎng)絡(luò)不可用,則對(duì)待合成的文本進(jìn)行參數(shù)語(yǔ)音合成處理,并輸出處理后所得到的語(yǔ)音合 成結(jié)果;以及在實(shí)時(shí)性允許的范圍內(nèi),接收來(lái)自嵌入式設(shè)備自身的參 數(shù)合成結(jié)果和來(lái)自服務(wù)器的拼接合成結(jié)果,并對(duì)上述結(jié)果進(jìn)行語(yǔ)音質(zhì) 量評(píng)價(jià),選擇語(yǔ)音質(zhì)量最好的合成結(jié)果進(jìn)行輸出。 5 優(yōu)選地,所述雙模態(tài)語(yǔ)音合成方法還包括在將接收到的待合成
的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器的同時(shí),啟動(dòng)實(shí)時(shí)性檢測(cè)處理,檢查服 務(wù)器的語(yǔ)音拼接合成進(jìn)度,由此確定是否滿足實(shí)時(shí)性的要求。
更優(yōu)選地,當(dāng)滿足實(shí)時(shí)性要求時(shí),等待至下一預(yù)定時(shí)刻再次進(jìn)行 實(shí)時(shí)性檢測(cè)處理,直至服務(wù)器通知其己完成語(yǔ)音拼接合成處理為止; 10 當(dāng)確定不滿足實(shí)時(shí)性要求時(shí),通知服務(wù)器停止語(yǔ)音拼接合成處理、并 返回此時(shí)的中間結(jié)果;并在接收到從服務(wù)器返回的中間結(jié)果時(shí),將返 回的中間結(jié)果輸入所述參數(shù)語(yǔ)音合成處理步驟。
優(yōu)選地,首先根據(jù)所接收到的、由服務(wù)器在完成所述語(yǔ)音拼接合 成處理中的預(yù)定子處理步驟時(shí)、自動(dòng)發(fā)送的指示當(dāng)前所處狀態(tài)的數(shù)據(jù) 15包來(lái)確定是否滿足實(shí)時(shí)性要求;當(dāng)經(jīng)過(guò)了預(yù)定時(shí)間仍未接收到上述數(shù) 據(jù)包時(shí),向所述服務(wù)器發(fā)送查詢命令,并根據(jù)所述服務(wù)器對(duì)所述查詢 命令的響應(yīng)來(lái)確定是否滿足實(shí)時(shí)性要求。
更優(yōu)選地,所述實(shí)時(shí)性要求是用戶預(yù)先指定的或系統(tǒng)缺省設(shè)置的。
20 優(yōu)選地,在所述合成結(jié)果評(píng)價(jià)和選擇步驟中,選擇其語(yǔ)音質(zhì)量?jī)?yōu)
于用戶預(yù)設(shè)或系統(tǒng)缺省設(shè)置的語(yǔ)音質(zhì)量的合成結(jié)果進(jìn)行輸出。
優(yōu)選地,基于離線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),其中預(yù)先離線設(shè)置 系統(tǒng)的音質(zhì)等級(jí),在使用中,在具有不低于用戶所設(shè)定的可接受音質(zhì) 等級(jí)的多個(gè)合成結(jié)果中,選擇具有最高音質(zhì)等級(jí)的合成結(jié)果進(jìn)行輸出;
25 或者基于在線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),其中從合成語(yǔ)音結(jié)果中提取 多個(gè)預(yù)定參數(shù),根據(jù)所述預(yù)定參數(shù)的模型和分布情況,估計(jì)所述合成 語(yǔ)音結(jié)果的音質(zhì),在具有不低于用戶所設(shè)定的可接受音質(zhì)等級(jí)的多個(gè) 合成結(jié)果中,選擇具有最高音質(zhì)等級(jí)的合成結(jié)果進(jìn)行輸出。
本發(fā)明提供的雙模態(tài)語(yǔ)音合成系統(tǒng)和方法的特點(diǎn)主要在于
30 a、嵌入式設(shè)備提供基于語(yǔ)音參數(shù)的語(yǔ)音合成,服務(wù)器提供基于大音庫(kù)的拼接語(yǔ)音合成,嵌入式設(shè)備和服務(wù)器通過(guò)標(biāo)準(zhǔn)的網(wǎng)絡(luò)通訊協(xié) 議進(jìn)行通訊,傳輸內(nèi)容包括文本數(shù)據(jù)、語(yǔ)音數(shù)據(jù)和控制數(shù)據(jù)等;
b、嵌入式設(shè)備收到用戶請(qǐng)求進(jìn)行一段文本的語(yǔ)音合成時(shí),最終 的合成語(yǔ)音來(lái)自于設(shè)備端的參數(shù)合成還是服務(wù)器端的拼接合成取決于 5 實(shí)時(shí)性、音質(zhì)以及用戶選擇的要求等各種因素;
C、實(shí)時(shí)性要求受到網(wǎng)絡(luò)傳輸能力、服務(wù)器端的負(fù)載以及拼接合 成速度、設(shè)備端負(fù)載以及參數(shù)合成速度等因素的影響;
d、音質(zhì)要求由服務(wù)器端拼接合成的音質(zhì)、嵌入式設(shè)備端參數(shù)合 成的音質(zhì)以及用戶可接受音質(zhì)等因素決定。 10 本發(fā)明所描述的雙模態(tài)語(yǔ)音合成系統(tǒng)和方法是針對(duì)嵌入式設(shè)備 資源少、計(jì)算能力低的特點(diǎn)而提出的,在嵌入式設(shè)備上應(yīng)用本發(fā)明可 以在滿足實(shí)時(shí)性和音質(zhì)要求的基礎(chǔ)上,為用戶盡可能提供高質(zhì)量的語(yǔ) 音合成輸出。同現(xiàn)有技術(shù)相比,本發(fā)明具有以下顯著的有益效果
1. 提出了嵌入式設(shè)備上雙模態(tài)語(yǔ)音合成的概念,根據(jù)系統(tǒng)實(shí)時(shí) 15 性和音質(zhì)要求自動(dòng)選擇是采用遠(yuǎn)程服務(wù)器端波形拼接的合成語(yǔ)音還是
采用本地嵌入式設(shè)備參數(shù)合成的合成語(yǔ)音。在條件受限的情況下為用 戶提供盡可能好的語(yǔ)音合成服務(wù)。
2. 考慮到了嵌入式設(shè)備語(yǔ)音合成實(shí)時(shí)性的要求。在嵌入式設(shè)備 上進(jìn)行語(yǔ)音合成時(shí),如果等待時(shí)間太長(zhǎng)用戶會(huì)失去耐心。本發(fā)明通過(guò)
20 實(shí)時(shí)性判斷模塊可以盡快提供合成語(yǔ)音。
3. 考慮到了嵌入式設(shè)備語(yǔ)音合成音質(zhì)的要求。嵌入式設(shè)備由于
資源有限,自身語(yǔ)音合成技術(shù)提供的合成音質(zhì)較差,本發(fā)明利用網(wǎng)絡(luò) 和服務(wù)器端波形拼接合成,在一定條件下可以為嵌入式設(shè)備用戶提供
高質(zhì)量的語(yǔ)音合成。
2

圖1是根據(jù)本發(fā)明的嵌入式設(shè)備雙模態(tài)語(yǔ)音合成系統(tǒng)的示意圖。 圖2是根據(jù)本發(fā)明的嵌入式設(shè)備雙模態(tài)語(yǔ)音合成系統(tǒng)的系統(tǒng)方框圖。
30 圖3示出了根據(jù)本發(fā)明的嵌入式設(shè)備雙模態(tài)語(yǔ)音合成方法的流程圖。
圖4是由參數(shù)語(yǔ)音合成模塊130所執(zhí)行的參數(shù)合成步驟S103的 詳細(xì)流程圖。
圖5是由拼接合成模塊210所執(zhí)行的拼接語(yǔ)音合成步驟S104的 5 詳細(xì)流程圖。
具體實(shí)施例方式
圖1是根據(jù)本發(fā)明的嵌入式設(shè)備雙模態(tài)語(yǔ)音合成系統(tǒng)的示意圖。 在圖1中,用戶l擁有嵌入式設(shè)備l,用戶2擁有嵌入式設(shè)備2。嵌入 10式設(shè)備1和2均可以通過(guò)無(wú)線連接與服務(wù)器1和2相連。
圖2是根據(jù)本發(fā)明的嵌入式設(shè)備雙模態(tài)語(yǔ)音合成系統(tǒng)的系統(tǒng)方框 圖。如圖2所示,根據(jù)本發(fā)明的嵌入式設(shè)備雙模態(tài)語(yǔ)音合成系統(tǒng)分為 嵌入式設(shè)備側(cè)100和服務(wù)器側(cè)200。在用戶設(shè)備側(cè)100,主要包括文本 預(yù)處理模塊110、網(wǎng)絡(luò)可用性檢測(cè)模塊120、參數(shù)合成模塊130、實(shí)時(shí) 15 性檢測(cè)模塊140、音質(zhì)檢測(cè)模塊150和語(yǔ)音輸出模塊160。在服務(wù)器側(cè) 200,主要包括拼接合成模塊210。當(dāng)然,如本領(lǐng)域普通技術(shù)人員所公
知,嵌入式設(shè)備和服務(wù)器還應(yīng)當(dāng)包括用于實(shí)現(xiàn)其它功能的各個(gè)模塊, 由于與本發(fā)明的技術(shù)方案無(wú)關(guān)聯(lián),在此省略對(duì)其的詳細(xì)描述。
文本預(yù)處理模塊IIO用于對(duì)用戶所發(fā)出的請(qǐng)求進(jìn)行處理,以獲得 20待合成的文本,并將所得到的文本提供給網(wǎng)絡(luò)可用性檢測(cè)模塊120。 網(wǎng)絡(luò)可用性檢測(cè)模塊120在從文本預(yù)處理模塊110接收到文本 曰寸,檢測(cè)網(wǎng)絡(luò)的可用性,即檢測(cè)與服務(wù)器側(cè)200的拼接合成模塊210 之間是否存在可用的網(wǎng)絡(luò)連接,如果與拼接合成模塊210間存在或可 建立可用的網(wǎng)絡(luò)連接,則將接收到的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器側(cè) 25200的拼接合成模塊210,并通知實(shí)時(shí)性檢測(cè)模塊140準(zhǔn)備進(jìn)行實(shí)時(shí)性 檢測(cè)。另一方面,如果與拼接合成模塊210間不存在可用的網(wǎng)絡(luò)連接 且不能建立可用的網(wǎng)絡(luò)連接,則將接收到的文本輸入到嵌入式設(shè)備側(cè) 100的參數(shù)合成模塊130中。
參數(shù)合成模塊130用于對(duì)來(lái)自網(wǎng)絡(luò)可用性檢測(cè)模塊120的輸入文 30本進(jìn)行參數(shù)語(yǔ)音合成處理,并將處理后所得到的語(yǔ)音輸出提供給音質(zhì)檢測(cè)模塊150。
實(shí)時(shí)性檢測(cè)模塊140在從網(wǎng)絡(luò)可用性檢測(cè)模塊120接收到準(zhǔn)備進(jìn) 行實(shí)時(shí)性檢測(cè)的通知時(shí),啟動(dòng)實(shí)時(shí)性檢測(cè)處理,檢查拼接合成模塊210 的語(yǔ)音拼接合成進(jìn)度,由此,確定是否滿足實(shí)時(shí)性的要求(所述實(shí)時(shí) 5 性要求是用戶預(yù)先指定的或系統(tǒng)缺省設(shè)置的)。當(dāng)滿足實(shí)時(shí)性要求時(shí), 實(shí)時(shí)性檢測(cè)模塊140等待至下一預(yù)定時(shí)刻再次進(jìn)行實(shí)時(shí)性檢測(cè)處理, 直至拼接合成模塊210通知其己完成語(yǔ)音拼接合成處理為止。另一方 面,當(dāng)實(shí)時(shí)性檢測(cè)模塊140確定不滿足實(shí)時(shí)性要求時(shí),通知拼接合成 模塊210停止語(yǔ)音拼接合成處理、并返回此時(shí)的中間結(jié)果;并在接收
10 到從拼接合成模塊210返回的中間結(jié)果時(shí),實(shí)時(shí)性檢測(cè)模塊140將返 回的中間結(jié)果提供給參數(shù)合成模塊130 (稍后將對(duì)實(shí)時(shí)性檢測(cè)的具體 操作進(jìn)行詳細(xì)描述)。
音質(zhì)檢測(cè)模塊150在實(shí)時(shí)性允許的范圍內(nèi),接收來(lái)自嵌入式設(shè)備 側(cè)100的參數(shù)合成模塊130的參數(shù)合成結(jié)果和來(lái)自服務(wù)器側(cè)200的拼
15接合成模塊210的拼接合成結(jié)果,對(duì)上述結(jié)果進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),選 擇語(yǔ)音質(zhì)量最好的合成結(jié)果,輸出至語(yǔ)音輸出模塊160。更好的是, 選擇其語(yǔ)音質(zhì)量?jī)?yōu)于用戶預(yù)設(shè)或系統(tǒng)缺省設(shè)置的語(yǔ)音質(zhì)量的合成結(jié)果 輸出至輸出模塊160。
語(yǔ)音輸出模塊160用于輸出由音質(zhì)檢測(cè)模塊150在實(shí)時(shí)性允許的
20 范圍內(nèi)所選擇出的語(yǔ)音質(zhì)量最好的合成結(jié)果。
拼接合成模塊210接收來(lái)自網(wǎng)絡(luò)可用性檢測(cè)模塊120的輸入文 本,對(duì)其進(jìn)行語(yǔ)音拼接合成處理,并將處理后所得到的語(yǔ)音輸出提供 給音質(zhì)檢測(cè)模塊150。在語(yǔ)音拼接合成處理的過(guò)程中,拼接合成模塊 210在完成預(yù)定處理時(shí),自動(dòng)發(fā)送指示當(dāng)前所處狀態(tài)的數(shù)據(jù)包;還響
25 應(yīng)來(lái)自實(shí)時(shí)性檢測(cè)模塊140的拼接合成進(jìn)度檢查命令,向?qū)崟r(shí)性檢測(cè) 模塊140報(bào)告拼接合成進(jìn)度;且根據(jù)實(shí)時(shí)性檢測(cè)模塊140的通知指令, 在不滿足實(shí)時(shí)性要求的情況下,停止語(yǔ)音拼接合成處理,返回中間結(jié) 果。
圖3示出了根據(jù)本發(fā)明的嵌入式設(shè)備雙模態(tài)語(yǔ)音合成方法的流程
30 圖。具體地,在步驟S101,用戶發(fā)出文本合成請(qǐng)求,對(duì)用戶請(qǐng)求進(jìn)行 處理,以獲得待合成的文本;
在步驟S102,檢測(cè)網(wǎng)絡(luò)的可用性,如果網(wǎng)絡(luò)可用,則執(zhí)行步驟 S104,否則執(zhí)行步驟S103;
5 在步驟S103,對(duì)待合成的文本進(jìn)行參數(shù)語(yǔ)音合成處理,并輸出處
理后所得到的語(yǔ)音合成結(jié)果;
在步驟S104,將待合成的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器側(cè),由服務(wù) 器對(duì)待合成的文本進(jìn)行語(yǔ)音拼接合成處理;
在步驟S105,根據(jù)用戶預(yù)先指定的或系統(tǒng)缺省設(shè)置的實(shí)時(shí)性要 10求,每隔預(yù)定時(shí)間,向服務(wù)器發(fā)送合成進(jìn)度檢查命令,檢查是否滿足 實(shí)時(shí)性要求;如果滿足實(shí)時(shí)性要求,則執(zhí)行步驟S108,否則執(zhí)行步驟 S106;
在步驟S106,服務(wù)器停止語(yǔ)音拼接合成處理,并將語(yǔ)音合成的中 間結(jié)果返回至嵌入式設(shè)備; 15 在步驟S107 ,接收服務(wù)器返回的中間結(jié)果,并執(zhí)行上述步驟S103;
在步驟S108,如果服務(wù)器尚未完成語(yǔ)音拼接合成處理,則返回步 驟S105,如果服務(wù)器已完成語(yǔ)音拼接合成處理,則將合成語(yǔ)音通過(guò)網(wǎng) 絡(luò)傳輸?shù)角度胧皆O(shè)備;
在步驟S109,嵌入式設(shè)備在實(shí)時(shí)性允許的范圍內(nèi),接收來(lái)自嵌入 20式設(shè)備自身的參數(shù)合成結(jié)果和來(lái)自服務(wù)器的拼接合成結(jié)果,并對(duì)上述 結(jié)果進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),以選擇語(yǔ)音質(zhì)量最好的合成結(jié)果;更好的是, 選擇其語(yǔ)音質(zhì)量?jī)?yōu)于用戶預(yù)設(shè)或系統(tǒng)缺省設(shè)置的語(yǔ)音質(zhì)量的合成結(jié) 果;
最后,在步驟SllO,由嵌入式設(shè)備輸出所選擇的具有最佳語(yǔ)音質(zhì) 25量的合成結(jié)果,本次用戶的語(yǔ)音合成請(qǐng)求結(jié)束。
圖4是由參數(shù)語(yǔ)音合成模塊130所執(zhí)行的參數(shù)合成步驟S103的 詳細(xì)流程圖,由圖4可知,參數(shù)合成步驟S103由文本處理、韻律預(yù)測(cè)、 參數(shù)生成和語(yǔ)音生成四個(gè)子步驟組成。文本處理子步驟包括輸入文本 的規(guī)范化、韻律詞/韻律短語(yǔ)的劃分、拼音標(biāo)注和詞性標(biāo)注等功能;韻 30律預(yù)測(cè)子步驟主要指根據(jù)拼音序列以及詞性、停頓等信息預(yù)測(cè)韻律參數(shù),這里的韻律參數(shù)包括基頻、時(shí)長(zhǎng)以及音強(qiáng)等參數(shù);參數(shù)生成子步 驟根據(jù)要合成的語(yǔ)音序列以及預(yù)測(cè)的韻律參數(shù)生成合成所需的語(yǔ)音參 數(shù),語(yǔ)音參數(shù)從大類上可分為聲源參數(shù)和聲道參數(shù),聲源參數(shù)主要由 基頻決定,而聲道參數(shù)一般由倒譜、LPC系數(shù)及其推導(dǎo)形式、共振峰 5 參數(shù)等組成,在某些參數(shù)合成系統(tǒng)中韻律預(yù)測(cè)和參數(shù)生成是集成在一 個(gè)模塊中的;語(yǔ)音生成子步驟進(jìn)行由語(yǔ)音參數(shù)到語(yǔ)音數(shù)據(jù)的轉(zhuǎn)換,該
子步驟的基本原理是人類語(yǔ)音產(chǎn)生機(jī)理的數(shù)學(xué)模型。
圖5是由拼接合成模塊210所執(zhí)行的拼接語(yǔ)音合成步驟S104的 詳細(xì)流程圖,由圖5可以看出拼接語(yǔ)音合成步驟S104由文本處理、韻
10 律預(yù)測(cè)、單元選擇和波形拼接四個(gè)子步驟組成,其中的文本處理、韻 律預(yù)測(cè)子步驟的功能和操作在參數(shù)合成步驟S103和拼接合成步驟 S104中是一致的,因此拼接合成處理中這兩個(gè)模塊的結(jié)果可以作為輔 助信息用于嵌入式設(shè)備側(cè)100的參數(shù)合成模塊130。單元選擇子步驟 的目的是在預(yù)存的大語(yǔ)音庫(kù)中搜索最符合文本處理和韻律預(yù)測(cè)結(jié)果的
15 語(yǔ)音單元,波形拼接子步驟將單元選擇子步驟中選中的單元的語(yǔ)音按 照文本序列拼接在一起,最終得到了拼接的合成語(yǔ)音。
實(shí)時(shí)性檢測(cè)模塊140的主要目的是確保在實(shí)時(shí)性要求范圍內(nèi)得到 合成語(yǔ)音。實(shí)時(shí)性和網(wǎng)絡(luò)傳輸能力、服務(wù)器端的負(fù)載以及拼接合成速 度、設(shè)備端負(fù)載以及參數(shù)合成速度等因素有關(guān)。因?yàn)樵谠O(shè)備端進(jìn)行參
20 數(shù)合成所需的時(shí)間基本是固定的,所以實(shí)時(shí)性檢測(cè)主要是判斷當(dāng)前的 服務(wù)器端拼接合成速度和網(wǎng)絡(luò)傳輸速度能否在給定的時(shí)間內(nèi)提供拼接 合成結(jié)果。實(shí)時(shí)性檢測(cè)的具體過(guò)程如下服務(wù)器端收到合成文本語(yǔ)音 合成啟動(dòng)以后,每個(gè)合成子步驟結(jié)束后都會(huì)向設(shè)備端發(fā)送簡(jiǎn)單的狀態(tài) 數(shù)據(jù)包表明現(xiàn)在的合成進(jìn)度,另外當(dāng)收到設(shè)備端的査詢命令時(shí)也會(huì)發(fā)
25送當(dāng)前所在狀態(tài)的數(shù)據(jù)包;設(shè)備端接收來(lái)自服務(wù)器端的狀態(tài)數(shù)據(jù)包, 并且在一段時(shí)間沒(méi)有收到狀態(tài)數(shù)據(jù)包時(shí)會(huì)向服務(wù)器發(fā)送查詢命令;只 有設(shè)備端在合成開始后指定的時(shí)間(該時(shí)間取決于用戶的實(shí)時(shí)性要求) 內(nèi)接收到服務(wù)器發(fā)送的各狀態(tài)數(shù)據(jù)包時(shí),實(shí)時(shí)性檢測(cè)模塊140才認(rèn)為 目前的服務(wù)器合成符合實(shí)時(shí)性要求,否則判定當(dāng)前的服務(wù)器合成狀態(tài)
30 不符合實(shí)時(shí)性的要求。音質(zhì)檢測(cè)模塊150的目的在于保證用戶最終得到合成語(yǔ)音其音質(zhì) 為用戶所能接受的、系統(tǒng)能夠提供的、最好的合成語(yǔ)音。音質(zhì)評(píng)價(jià)是 一項(xiàng)比較困難的工作,原因在于音質(zhì)的好壞是人類的主觀感受,而這 種主觀感受很難用語(yǔ)音參數(shù)和數(shù)學(xué)模型進(jìn)行描述。在本發(fā)明中音質(zhì)評(píng) 5 價(jià)模塊有兩種方法,分別是離線評(píng)價(jià)和在線評(píng)價(jià)。離線評(píng)價(jià)是指,一 個(gè)語(yǔ)音合成系統(tǒng)開發(fā)完成后,對(duì)一批精選的測(cè)試文本進(jìn)行語(yǔ)音合成測(cè) 試,合成結(jié)果由多個(gè)專業(yè)測(cè)聽人員進(jìn)行打分,綜合所有測(cè)試文本所有 測(cè)聽人員的分?jǐn)?shù)即可得到該系統(tǒng)的音質(zhì)等級(jí),嵌入式設(shè)備用戶會(huì)設(shè)定 一個(gè)可以接受的音質(zhì)等級(jí),音質(zhì)評(píng)價(jià)模塊會(huì)在不低于用戶可接受音質(zhì) 10 等級(jí)的合成語(yǔ)音中選取最高的一個(gè)合成結(jié)果進(jìn)行輸出。在線評(píng)價(jià)是通 過(guò)對(duì)合成語(yǔ)音提取一些參數(shù),根據(jù)這些參數(shù)的模型以及該參數(shù)的分布 情況,估計(jì)該語(yǔ)音的音質(zhì),目前該方法的效果還有待提高。
網(wǎng)絡(luò)連接300用于在設(shè)備端和服務(wù)器端之間傳輸合成文本、合成 語(yǔ)音、狀態(tài)數(shù)據(jù)以及查詢命令等。網(wǎng)絡(luò)連接300可以是基于TCP/IP 15協(xié)議的以太網(wǎng),但不限于此,也可以由任何可以完成以上數(shù)據(jù)傳輸?shù)?系統(tǒng)構(gòu)成,例如藍(lán)牙、GPRS等。
本發(fā)明可以由用戶設(shè)定完成一次語(yǔ)音合成請(qǐng)求可以接受的等待 時(shí)間(實(shí)時(shí)性要求)以及可以接受的合成音質(zhì),不但為用戶提供了方 便,而且具有很強(qiáng)的定制性。本發(fā)明綜合利用了目前兩種語(yǔ)音合成方 20法的優(yōu)點(diǎn),可以在滿足用戶對(duì)實(shí)時(shí)性和音質(zhì)要求的基礎(chǔ)上,為用戶提 供高音質(zhì)的語(yǔ)音合成輸出。參考文獻(xiàn)列表
1. 張鵬、王琳、劉勝,《基于韻律匹配代價(jià)和韻律拼接代價(jià)的漢
語(yǔ)語(yǔ)音合成》,哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006年38巻11期,2006-2008;
2. 望月亮、.'.野敏幸、西村洋文,《語(yǔ)音合成裝置和方法》,申 5請(qǐng)?zhí)朇N01140652.6;
3. 楊紅云、向茂楠,《LSP參數(shù)的語(yǔ)音分析和合成研究》,北京理 工大學(xué)學(xué)報(bào),1992年12巻l期,71-77;
4. 魯弘茂,《混合參數(shù)模式的語(yǔ)音合成系統(tǒng)及方法》,申請(qǐng)?zhí)?CN200510005145. 1;
10 5. Dang, J. and Honda, K. , J p力/sic^(9^7'csJ邁ooW o/s oy/j柳j.c
raca2 trsct /ar 5"/ eec/ /77Y t/i/c"(9/7, Acoust. Sic. & Tech, 22, 6,
415-425, 2001/12;
6.劉建、汪俊杰、顏永紅、張建平,《一種嵌入式語(yǔ)音合成方法
及系統(tǒng)》,申請(qǐng)?zhí)朇N02146655.6; 15 7.李晶皎,《嵌入式語(yǔ)音技術(shù)及凌陽(yáng)16位單片機(jī)應(yīng)用》,北京航
空航天大學(xué)出版社。
權(quán)利要求
1.一種嵌入式設(shè)備,包括網(wǎng)絡(luò)可用性檢測(cè)單元,用于在接收到待合成的文本時(shí),檢測(cè)網(wǎng)絡(luò)的可用性,如果網(wǎng)絡(luò)可用,則將接收到的待合成的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器側(cè)的拼接合成單元;如果網(wǎng)絡(luò)不可用,則將接收到的待合成的文本輸入到參數(shù)合成單元中;參數(shù)合成單元,用于對(duì)來(lái)自網(wǎng)絡(luò)可用性檢測(cè)單元的輸入文本進(jìn)行參數(shù)語(yǔ)音合成處理,并將處理后所得到的語(yǔ)音輸出提供給音質(zhì)檢測(cè)單元;音質(zhì)檢測(cè)單元,用于在實(shí)時(shí)性允許的范圍內(nèi),接收來(lái)自嵌入式設(shè)備側(cè)的參數(shù)合成單元的參數(shù)合成結(jié)果和來(lái)自服務(wù)器側(cè)的拼接合成單元的拼接合成結(jié)果,對(duì)上述結(jié)果進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),選擇語(yǔ)音質(zhì)量最好的合成結(jié)果進(jìn)行輸出。
2. 根據(jù)權(quán)利要求l所述的嵌入式設(shè)備,還包括 實(shí)時(shí)性檢測(cè)單元,用于在從網(wǎng)絡(luò)可用性檢測(cè)單元接收到準(zhǔn)備進(jìn)行實(shí)時(shí)性檢測(cè)的通知時(shí),啟動(dòng)實(shí)時(shí)性檢測(cè)處理,檢査服務(wù)器側(cè)的拼接合 成單元的語(yǔ)音拼接合成進(jìn)度,由此確定是否滿足實(shí)時(shí)性的要求; 20 其中所述網(wǎng)絡(luò)可用性檢測(cè)單元在將接收到的待合成的文本通過(guò) 網(wǎng)絡(luò)傳輸至服務(wù)器側(cè)的拼接合成單元的同時(shí),通知所述實(shí)時(shí)性檢測(cè)單 元準(zhǔn)備進(jìn)行實(shí)時(shí)性檢測(cè)處理。
3. 根據(jù)權(quán)利要求2所述的嵌入式設(shè)備,其特征在于當(dāng)實(shí)時(shí)性檢測(cè)單元確定滿足實(shí)時(shí)性要求時(shí),等待至下一預(yù)定時(shí)刻 25再次進(jìn)行實(shí)時(shí)性檢測(cè)處理,直至服務(wù)器側(cè)的拼接合成單元通知其已完 成語(yǔ)音拼接合成處理為止;當(dāng)實(shí)時(shí)性檢測(cè)單元確定不滿足實(shí)時(shí)性要求時(shí),通知服務(wù)器側(cè)的拼 接合成單元停止語(yǔ)音拼接合成處理、并返回此時(shí)的中間結(jié)果;并在接 收到從服務(wù)器側(cè)的拼接合成單元返回的中間結(jié)果時(shí),實(shí)時(shí)性檢測(cè)單元 30將返回的中間結(jié)果提供給參數(shù)合成單元。
4. 根據(jù)權(quán)利要求2或3所述的嵌入式設(shè)備,其特征在于 所述嵌入式設(shè)備側(cè)的實(shí)時(shí)性檢測(cè)單元首先根據(jù)所接收到的、由服務(wù)器側(cè)的拼接合成單元在完成預(yù)定處理時(shí)、自動(dòng)發(fā)送的指示當(dāng)前所處 狀態(tài)的數(shù)據(jù)包來(lái)確定是否滿足實(shí)時(shí)性要求;當(dāng)經(jīng)過(guò)了預(yù)定時(shí)間仍未接 5 收到上述數(shù)據(jù)包時(shí),向服務(wù)器側(cè)的拼接合成單元發(fā)送查詢命令,并根 據(jù)服務(wù)器側(cè)的拼接合成單元對(duì)所述査詢命令的響應(yīng)來(lái)確定是否滿足實(shí) 時(shí)性要求。
5. 根據(jù)權(quán)利要求3或4所述的嵌入式設(shè)備,其特征在于 所述實(shí)時(shí)性要求是用戶預(yù)先指定的或系統(tǒng)缺省設(shè)置的。
6.根據(jù)權(quán)利要求1 5之一所述的嵌入式設(shè)備,其特征在于所述音質(zhì)檢測(cè)單元在評(píng)價(jià)參數(shù)合成結(jié)果和拼接合成結(jié)果的語(yǔ)音 質(zhì)量時(shí),選擇其語(yǔ)音質(zhì)量?jī)?yōu)于用戶預(yù)設(shè)或系統(tǒng)缺省設(shè)置的語(yǔ)音質(zhì)量的 合成結(jié)果進(jìn)行輸出。
7. 根據(jù)權(quán)利要求1 6之一所述的嵌入式設(shè)備,其特征在于- 所述音質(zhì)檢測(cè)單元基于離線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),其中預(yù)先離線設(shè)置系統(tǒng)的音質(zhì)等級(jí),在使用中,在具有不低于用戶所設(shè)定的可 接受音質(zhì)等級(jí)的多個(gè)合成結(jié)果中,選擇具有最高音質(zhì)等級(jí)的合成結(jié)果進(jìn)行輸出;或者所述音質(zhì)檢測(cè)單元基于在線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),其中從合 20成語(yǔ)音結(jié)果中提取多個(gè)預(yù)定參數(shù),根據(jù)所述預(yù)定參數(shù)的模型和分布情 況,估計(jì)所述合成語(yǔ)音結(jié)果的音質(zhì),在具有不低于用戶所設(shè)定的可接 受音質(zhì)等級(jí)的多個(gè)合成結(jié)果中,選擇具有最高音質(zhì)等級(jí)的合成結(jié)果進(jìn) 行輸出。
8. —種雙模態(tài)語(yǔ)音合成系統(tǒng),包括 根據(jù)權(quán)利要求1 7之一所述的嵌入式設(shè)備;和服務(wù)器,包括拼接合成單元,用于接收來(lái)自網(wǎng)絡(luò)可用性檢測(cè)單元的輸入文本,對(duì)其進(jìn)行語(yǔ)音拼接合成處理,并將處理后所得到的語(yǔ) 音輸出提供給音質(zhì)檢測(cè)單元。
9. 一種雙模態(tài)語(yǔ)音合成方法,包括以下步驟 在接收到待合成的文本時(shí),檢測(cè)網(wǎng)絡(luò)的可用性;如果網(wǎng)絡(luò)可用,則將接收到的待合成的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù) 器,由服務(wù)器對(duì)待合成的文本進(jìn)行語(yǔ)音拼接合成處理,并在完成語(yǔ)音 拼接合成處理時(shí),將合成語(yǔ)音通過(guò)網(wǎng)絡(luò)傳輸至嵌入式設(shè)備;如果網(wǎng)絡(luò)不可用,則對(duì)待合成的文本進(jìn)行參數(shù)語(yǔ)音合成處理,并 5 輸出處理后所得到的語(yǔ)音合成結(jié)果;以及在實(shí)時(shí)性允許的范圍內(nèi),接收來(lái)自嵌入式設(shè)備自身的參數(shù)合成結(jié) 果和來(lái)自服務(wù)器的拼接合成結(jié)果,并對(duì)上述結(jié)果進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià), 選擇語(yǔ)音質(zhì)量最好的合成結(jié)果進(jìn)行輸出。
10. 根據(jù)權(quán)利要求9所述的雙模態(tài)語(yǔ)音合成方法,還包括 在將接收到的待合成的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器的同時(shí),啟動(dòng)實(shí)時(shí)性檢測(cè)處理,檢查服務(wù)器的語(yǔ)音拼接合成進(jìn)度,由此確定是否滿 足實(shí)時(shí)性的要求。
11. 根據(jù)權(quán)利要求IO所述的雙模態(tài)語(yǔ)音合成方法,其特征在于 當(dāng)滿足實(shí)時(shí)性要求時(shí),等待至下一預(yù)定時(shí)刻再次進(jìn)行實(shí)時(shí)性檢測(cè) 處理,直至服務(wù)器通知其已完成語(yǔ)音拼接合成處理為止;當(dāng)確定不滿足實(shí)時(shí)性要求時(shí),通知服務(wù)器停止語(yǔ)音拼接合成處 理、并返回此時(shí)的中間結(jié)果;并在接收到從服務(wù)器返回的中間結(jié)果時(shí),將返回的中間結(jié)果輸入所述參數(shù)語(yǔ)音合成處理步驟。
12. 根據(jù)權(quán)利要求10或11所述的雙模態(tài)語(yǔ)音合成方法,其特征 在于首先根據(jù)所接收到的、由服務(wù)器在完成所述語(yǔ)音拼接合成處理中 的預(yù)定子處理步驟時(shí)、自動(dòng)發(fā)送的指示當(dāng)前所處狀態(tài)的數(shù)據(jù)包來(lái)確定是否滿足實(shí)時(shí)性要求;當(dāng)經(jīng)過(guò)了預(yù)定時(shí)間仍未接收到上述數(shù)據(jù)包時(shí), 向所述服務(wù)器發(fā)送查詢命令,并根據(jù)所述服務(wù)器對(duì)所述查詢命令的響 25 應(yīng)來(lái)確定是否滿足實(shí)時(shí)性要求。
13. 根據(jù)權(quán)利要求11或12所述的雙模態(tài)語(yǔ)音合成方法,其特征在于所述實(shí)時(shí)性要求是用戶預(yù)先指定的或系統(tǒng)缺省設(shè)置的。
14. 根據(jù)權(quán)利要求9 13之一所述的雙模態(tài)語(yǔ)音合成方法,其特 征在于在所述合成結(jié)果評(píng)價(jià)和選擇步驟中,選擇其語(yǔ)音質(zhì)量?jī)?yōu)于用戶預(yù) 設(shè)或系統(tǒng)缺省設(shè)置的語(yǔ)音質(zhì)量的合成結(jié)果進(jìn)行輸出。
15.根據(jù)權(quán)利要求9 14之一所述的雙模態(tài)語(yǔ)音合成方法,其特征在于 基于離線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),其中預(yù)先離線設(shè)置系統(tǒng)的音質(zhì)等級(jí),在使用中,在具有不低于用戶所設(shè)定的可接受音質(zhì)等級(jí)的多個(gè)合成結(jié)果中,選擇具有最高音質(zhì)等級(jí)的合成結(jié)果進(jìn)行輸出;或者基于在線評(píng)價(jià)來(lái)進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),其中從合成語(yǔ)音結(jié)果中提取 多個(gè)預(yù)定參數(shù),根據(jù)所述預(yù)定參數(shù)的模型和分布情況,估計(jì)所述合成 10語(yǔ)音結(jié)果的音質(zhì),在具有不低于用戶所設(shè)定的可接受音質(zhì)等級(jí)的多個(gè) 合成結(jié)果中,選擇具有最高音質(zhì)等級(jí)的合成結(jié)果進(jìn)行輸出。
全文摘要
本發(fā)明提出了一種嵌入式設(shè)備、一種雙模態(tài)語(yǔ)音合成系統(tǒng)和一種雙模態(tài)語(yǔ)音合成方法。根據(jù)本發(fā)明,所述嵌入式設(shè)備包括網(wǎng)絡(luò)可用性檢測(cè)單元,用于檢測(cè)網(wǎng)絡(luò)的可用性,如果網(wǎng)絡(luò)可用,則將接收到的文本通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器側(cè)的拼接合成單元;如果網(wǎng)絡(luò)不可用,則將文本輸入到參數(shù)合成單元中;參數(shù)合成單元,用于對(duì)輸入文本進(jìn)行參數(shù)語(yǔ)音合成處理,并將處理后所得到的語(yǔ)音輸出提供給音質(zhì)檢測(cè)單元;音質(zhì)檢測(cè)單元,用于在實(shí)時(shí)性允許的范圍內(nèi),接收來(lái)自參數(shù)合成單元的參數(shù)合成結(jié)果和來(lái)自服務(wù)器側(cè)的拼接合成單元的拼接合成結(jié)果,對(duì)上述結(jié)果進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià),選擇語(yǔ)音質(zhì)量最好的合成結(jié)果進(jìn)行輸出。
文檔編號(hào)G10L13/00GK101409072SQ20071018012
公開日2009年4月15日 申請(qǐng)日期2007年10月10日 優(yōu)先權(quán)日2007年10月10日
發(fā)明者夏海榮 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
田阳县| 宁国市| 嘉兴市| 八宿县| 开封县| 庄浪县| 涞源县| 探索| 醴陵市| 密云县| 敖汉旗| 广平县| 永川市| 霍林郭勒市| 扬州市| 中山市| 玛纳斯县| 富宁县| 张北县| 永清县| 兴化市| 磐石市| 西藏| 上思县| 鹤岗市| 贵溪市| 阿坝县| 襄垣县| 宜君县| 宝应县| 武安市| 琼中| 新宾| 广丰县| 鄄城县| 五大连池市| 桂平市| 乡城县| 和静县| 乐清市| 昭平县|