欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

合成語音的傳輸方法、云端服務(wù)器和終端設(shè)備與流程

文檔序號:12128579閱讀:579來源:國知局
合成語音的傳輸方法、云端服務(wù)器和終端設(shè)備與流程

本公開涉及語音合成技術(shù)領(lǐng)域,尤其涉及一種合成語音的傳輸方法及裝置。



背景技術(shù):

語音合成技術(shù)(又稱文語轉(zhuǎn)換技術(shù))是將計(jì)算機(jī)內(nèi)部生成或者外部輸入的文字信息轉(zhuǎn)換為用戶可以理解的聲音信息的漢語輸出技術(shù)。

由于云端處理具有運(yùn)行資源占用小等優(yōu)勢,因此,基于云端處理的語音合成已得到較為廣泛地應(yīng)用。該基于云端處理的語音合成過程包括:終端設(shè)備將待合成的文本信息發(fā)送至云端服務(wù)器,由云端服務(wù)器將該待合成的文本信息通過語音合成技術(shù)合成為合成語音,再借助于網(wǎng)絡(luò)將合成語音返回至終端設(shè)備,以通過終端設(shè)備對接收到的合成語音進(jìn)行播報(bào),進(jìn)而使得用戶掌握播報(bào)內(nèi)容。

如果云端服務(wù)器待語音合成完畢之后,才一次性地將合成完畢的合成語音返回終端設(shè)備,則終端設(shè)備不僅需要等待語音合成完畢,還需要等待合成語音傳輸完畢,才能開始播報(bào)接收到的合成語音,因此,尚存在語音合成過程耗時(shí)過長的問題。如果將合成語音先壓縮再傳輸,雖然縮短了合成語音的傳輸時(shí)長,由于終端設(shè)備還需要對接收到的合成語音解壓縮后才能進(jìn)行播報(bào),而壓縮與解壓縮同樣會消耗大量的時(shí)間,仍然無法解決語音合成過程耗時(shí)過長的問題。

為了解決語音合成過程耗時(shí)過長的問題,利用未經(jīng)編碼的原始音頻數(shù)據(jù)傳輸合成語音的PCM數(shù)據(jù)傳輸方法應(yīng)運(yùn)而生,該P(yáng)CM數(shù)據(jù)傳輸方法能夠采用固定數(shù)據(jù)傳輸長度對合成語音進(jìn)行傳輸,即將合成語音劃分為固定長度的若干待傳輸語音片段進(jìn)行傳輸,使得云端服務(wù)器一邊進(jìn)行語音合成一邊進(jìn)行待傳輸語音片段的傳輸,而終端設(shè)備無需等待語音合成完畢,也無需等待合成語音傳輸完畢,僅在接收到固定長度的待傳輸語音片段之后即可開始播報(bào),由此有效地縮短了語音合成過程的時(shí)長。

然而,受限于終端設(shè)備所在的網(wǎng)絡(luò)環(huán)境,在網(wǎng)絡(luò)環(huán)境異常時(shí),例如,網(wǎng)速(即單位時(shí)間內(nèi)網(wǎng)絡(luò)的上行/下行數(shù)據(jù)量)較差,將造成終端設(shè)備接收到的固定長度的若干待傳輸語音片段之間不連續(xù),即存在隨機(jī)停頓,而可能破壞了待合成的文本信息原有的語義結(jié)構(gòu),進(jìn)而導(dǎo)致用戶無法理解終端設(shè)備所播報(bào)的合成語音。



技術(shù)實(shí)現(xiàn)要素:

基于此,本公開提供一種合成語音的傳輸方法、云端服務(wù)器和終端設(shè)備,用于解決現(xiàn)有技術(shù)中在網(wǎng)絡(luò)環(huán)境異常時(shí)經(jīng)傳輸?shù)暮铣烧Z音的可理解性較差的問題。

一方面,本公開提供一種應(yīng)用于云端服務(wù)器的合成語音的傳輸方法,包括:接收待合成的文本信息;對所述文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元;判斷所述文本信息對應(yīng)的合成語音的數(shù)據(jù)長度是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度;若為是,則根據(jù)所述預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元,將所述文本信息對應(yīng)的合成語音劃分為至少兩個(gè)待傳輸語音片段,所述待傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音;發(fā)送所述待傳輸語音片段。

另一方面,本公開提供一種應(yīng)用于云端服務(wù)器的合成語音的傳輸方法,包括:接收待合成的文本信息;對所述文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元;根據(jù)預(yù)設(shè)數(shù)據(jù)傳輸長度和所述語義單元生成待傳輸語音片段,所述待傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且所述若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于所述預(yù)設(shè)數(shù)據(jù)傳輸長度;發(fā)送所述待傳輸語音片段。

另一方面,一種應(yīng)用于終端設(shè)備的合成語音的傳輸方法,包括:向云端服務(wù)器發(fā)送語音合成請求,所述語音合成請求由待合成的文本信息生成,以使所述云端服務(wù)器通過響應(yīng)所述語音合成請求對所述文本信息進(jìn)行語音合成;接收所述云端服務(wù)器返回的傳輸語音片段,其中,所述傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且所述若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于預(yù)設(shè)數(shù)據(jù)傳輸長度;播報(bào)所述傳輸語音片段。

再一方面,本公開提供一種云端服務(wù)器,所述云端服務(wù)器包括:信息接收模塊,用于接收待合成的文本信息;分詞處理模塊,用于對所述文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元;判斷模塊,用于判斷所述文本信息對應(yīng)的合成語音的數(shù)據(jù)長度是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度;若為是,則通知語音片段劃分模塊;所述語音片段劃分模塊,用于根據(jù)所述預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元,將所述文本信息對應(yīng)的合成語音劃分為至少兩個(gè)待傳輸語音片段,所述待傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音;發(fā)送模塊,用于發(fā)送所述待傳輸語音片段。

再一方面,本公開提供一種云端服務(wù)器,所述云端服務(wù)器包括:信息接收模塊,用于接收待合成的文本信息;分詞處理模塊,用于對所述文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元;語音片段生成模塊,用于根據(jù)預(yù)設(shè)數(shù)據(jù)傳輸長度和所述語義單元生成待傳輸語音片段,所述待傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且所述若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于所述預(yù)設(shè)數(shù)據(jù)傳輸長度;發(fā)送模塊,用于發(fā)送所述待傳輸語音片段。

再一方面,本公開提供一種終端設(shè)備,所述終端設(shè)備包括:發(fā)送模塊,用于向云端服務(wù)器發(fā)送語音合成請求,所述語音合成請求由待合成的文本信息生成,以使所述云端服務(wù)器通過響應(yīng)所述語音合成請求對所述文本信息進(jìn)行語音合成;接收模塊,用于接收所述云端服務(wù)器返回的傳輸語音片段,其中,所述傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且所述若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于預(yù)設(shè)數(shù)據(jù)傳輸長度;語音播報(bào)模塊,用于播報(bào)所述傳輸語音片段。

與現(xiàn)有技術(shù)相比,本公開具有以下有益效果:

通過對待合成的文本信息進(jìn)行分詞處理,得到若干個(gè)語義單元,并通過預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元對文本信息對應(yīng)的合成語音進(jìn)行劃分,使得劃分得到的待傳輸語音片段是由若干個(gè)語義單元對應(yīng)的合成語音組成的,進(jìn)而傳輸該待傳輸語音片段至終端設(shè)備。可以理解,由于待傳輸語音片段是由若干個(gè)語義單元對應(yīng)的合成語音組成的,因此,無論網(wǎng)絡(luò)環(huán)境是否異常,該待傳輸?shù)恼Z音段都將保持文本信息原有的語義結(jié)構(gòu),從而保證了經(jīng)傳輸?shù)暮铣烧Z音的可理解性。

應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。

附圖說明

此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實(shí)施例,并于說明書一起用于解釋本公開的原理。

圖1是基于云端處理的語音合成過程所涉及的實(shí)施環(huán)境的示意圖;

圖2是現(xiàn)有技術(shù)所涉及的語音合成過程的流程圖;

圖2a是圖2所涉及的語音合成過程中步驟330在一個(gè)實(shí)施例的流程圖;

圖3是現(xiàn)有技術(shù)所涉及的HTS語音合成系統(tǒng)的示意圖;

圖3a是圖3所示出的HTS語音合成系統(tǒng)中合成聲碼器470的示意圖;

圖4是現(xiàn)有技術(shù)所涉及的按照固定數(shù)據(jù)傳輸長度劃分文本信息對應(yīng)的合成語音的示意圖;

圖5是根據(jù)一示例性實(shí)施例示出的一種云端服務(wù)器的框圖;

圖6是根據(jù)一示例性實(shí)施例示出的一種合成語音的傳輸方法的流程圖;

圖7是根據(jù)一示例性實(shí)施例示出的另一種合成語音的傳輸方法的流程圖;

圖8是根據(jù)一示例性實(shí)施例示出的另一種合成語音的傳輸方法的流程圖;

圖9是本公開所涉及的按照語義單元的發(fā)音時(shí)長劃分合成語音的示意圖;

圖10是圖6對應(yīng)實(shí)施例中步驟570在一個(gè)實(shí)施例的流程圖;

圖11是圖6對應(yīng)實(shí)施例中步驟570在另一個(gè)實(shí)施例的流程圖;

圖12是一應(yīng)用場景中一種合成語音的傳輸方法的具體實(shí)現(xiàn)示意圖;

圖13是根據(jù)一示例性實(shí)施例示出的另一種合成語音的傳輸方法的流程圖;

圖14是根據(jù)一示例性實(shí)施例示出的另一種合成語音的傳輸方法的流程圖;

圖15是圖13對應(yīng)實(shí)施例中步驟950在一個(gè)實(shí)施例的流程圖;

圖16是根據(jù)一示例性實(shí)施例示出的另一種合成語音的傳輸方法的流程圖;

圖17是根據(jù)一示例性實(shí)施例示出的一種合成語音的傳輸裝置的框圖;

圖18是根據(jù)一示例性實(shí)施例示出的另一種合成語音的傳輸裝置的框圖;

圖19是根據(jù)一示例性實(shí)施例示出的另一種合成語音的傳輸裝置的框圖。

通過上述附圖,已示出本公開明確的實(shí)施例,后文中將有更詳細(xì)的描述,這些附圖和文字描述并不是為了通過任何方式限制本公開構(gòu)思的范圍,而是通過參考特定實(shí)施例為本領(lǐng)域技術(shù)人員說明本公開的概念。

具體實(shí)施方式

這里將詳細(xì)地對示例性實(shí)施例執(zhí)行說明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本公開相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。

圖1為基于云端處理的語音合成過程所涉及的實(shí)施環(huán)境。該實(shí)施環(huán)境包括云端服務(wù)器100和終端設(shè)備200。

其中,云端服務(wù)器100用于對接收到的待合成的文本信息進(jìn)行語音合成得到合成語音,并通過網(wǎng)絡(luò)向終端設(shè)備200傳輸該合成語音。

終端設(shè)備200用于向云端服務(wù)器100發(fā)送待合成的文本信息,并對云端服務(wù)器100返回的合成語音進(jìn)行播報(bào),以使用戶掌握播報(bào)內(nèi)容。該終端設(shè)備200可以是智能手機(jī)、平板電腦、掌上電腦、筆記本電腦或者設(shè)置有音頻播放器的其它電子設(shè)備和嵌入式設(shè)備。

通過云端服務(wù)器100與終端設(shè)備200之間如上所述的交互,完成文字信息轉(zhuǎn)換為聲音信息的語音合成過程。

現(xiàn)結(jié)合圖1,對現(xiàn)有技術(shù)所涉及的語音合成過程加以詳細(xì)說明如下,如圖2所示,該語音合成過程可以包括以下步驟:

步驟310,接收由終端設(shè)備發(fā)送的待合成的文本信息。

待合成的文本信息可以是由終端設(shè)備200內(nèi)部生成的,也可以是由與終端設(shè)備200相連的外部設(shè)備輸入的,例如,外部設(shè)備為鍵盤等,本公開對待合成的文本信息的輸入方式不做限定。

在終端設(shè)備200得到待合成的文本信息之后,即可向云端服務(wù)器100發(fā)送該待合成的文本信息,以通過云端服務(wù)器100對該待合成的文本信息進(jìn)行后續(xù)的語音合成。

進(jìn)一步地,終端設(shè)備200通過發(fā)送語音合成請求至云端服務(wù)器100,實(shí)現(xiàn)待合成的文本信息的語音合成。其中,該語音合成請求是由待合成的文本信息生成的。

步驟330,對待合成的文本信息進(jìn)行文本分析,得到文本分析結(jié)果。

文本分析指的是模擬人對自然語言的理解過程,使云端服務(wù)器100可以在一定程度上對該待合成的文本信息進(jìn)行理解,從而知道該待合成的文本信息發(fā)什么音、怎么發(fā)音以及發(fā)音的方式。此外,還能夠使云端服務(wù)器100了解該待合成的文本信息中包含哪些詞、短語和句子、發(fā)音時(shí)哪里需要停頓、以及停頓的時(shí)間等等。

由此,如圖2a所示,文本分析過程可以包括以下步驟:

步驟331,對待合成的文本信息進(jìn)行規(guī)范化處理。

規(guī)范化處理是指將待合成的文本信息中不規(guī)范或者無法正常發(fā)音的字符過濾掉,例如,待合成的文本信息中出現(xiàn)的亂碼、或者其他無法進(jìn)行語音合成的語言類型等等。

步驟333,對規(guī)范化處理的文本信息進(jìn)行分詞處理,得到分詞文本。

分詞處理可以根據(jù)規(guī)范化處理的文本信息的上下文關(guān)系進(jìn)行,還可以根據(jù)預(yù)先構(gòu)建的詞典模型進(jìn)行。

具體地,通過分詞處理得到的分詞文本包含至少一個(gè)語義單元。該語義單元指的是用戶可理解的具有完整詞語解釋的單元,該語義單元可以由若干詞、若干短語、甚至于若干句子組成。

舉例來說,規(guī)范化處理的文本信息為“云端語音合成技術(shù),基于云端處理,將文字信息轉(zhuǎn)換為聲音信息?!?,經(jīng)分詞處理后,得到的分詞文本如表1所示。

表1 分詞文本

其中,“云端”、“語音”、“合成”、“技術(shù)”等等均可視為語義單元。

當(dāng)然,在不同的應(yīng)用場景中,分詞文本中包含的語義單元還可以是英文串、數(shù)字串、符號串等等。

步驟335,根據(jù)建立的韻律聲學(xué)模型確定分詞文本所對應(yīng)的文本分析結(jié)果。

由于分詞文本包含若干語義單元,該語義單元是用戶可理解的具有完整詞語解釋的單元,基于此,分詞文本能夠反映出待合成的文本信息原有的語義結(jié)構(gòu),而文本分析結(jié)果則能夠在一定程度上反映出待合成的文本信息原有的韻律信息。由于語音合成時(shí)更多的是基于人特有的韻律節(jié)奏來發(fā)音的,因此,在進(jìn)行語音合成之前,需要將分詞文本轉(zhuǎn)化為文本分析結(jié)果。

進(jìn)一步地,在確定分詞文本所對應(yīng)的文本分析結(jié)果之前,還需要建立語義結(jié)構(gòu)所對應(yīng)的韻律聲學(xué)模型。

韻律聲學(xué)模型的建立過程包括:根據(jù)韻律節(jié)奏對韻律短語和重音進(jìn)行預(yù)測,并通過預(yù)測結(jié)果與實(shí)際語境的相互結(jié)合來實(shí)現(xiàn)韻律聲學(xué)參數(shù)的預(yù)測和選取,從而根據(jù)得到的韻律聲學(xué)參數(shù)完成韻律聲學(xué)模型的建立。

在得到韻律聲學(xué)模型之后,即可通過韻律聲學(xué)模型對分詞文本的韻律邊界進(jìn)行調(diào)整,并對調(diào)整后的分詞文本進(jìn)行韻律信息的標(biāo)注,例如,韻律信息的標(biāo)注可以包括確定調(diào)整的分詞文本的發(fā)音、以及發(fā)音時(shí)的語氣變換和輕重方式,從而形成分詞文本對應(yīng)的文本分析結(jié)果,以供后續(xù)語音合成過程中使用。

舉例來說,如上表1所示的分詞文本中,“轉(zhuǎn)換|為”經(jīng)過韻律邊界調(diào)整之后調(diào)整為“轉(zhuǎn)換為”,再經(jīng)過韻律信息的標(biāo)注之后,其所對應(yīng)的文本分析結(jié)果為“zhuan3huan4wei2”。

步驟350,通過語音合成技術(shù)將文本分析結(jié)果合成為合成語音。

以語音合成技術(shù)采用HTS語音合成系統(tǒng)為例,對文本分析結(jié)果合成為合成語音的語音合成原理加以說明如下。

如圖3所示,HTS語音合成系統(tǒng)400包括模型訓(xùn)練部分和語音合成部分。其中,模型訓(xùn)練部分包括訓(xùn)練語料庫410、激勵(lì)參數(shù)提取單元420、頻譜參數(shù)提取單元430和HMM訓(xùn)練單元440。語音合成部分包括文本分析及狀態(tài)轉(zhuǎn)換單元450、合成參數(shù)生成器460和合成聲碼器470。

模型訓(xùn)練部分:在進(jìn)行隱馬爾可夫模型(HMM模型)訓(xùn)練之前,一方面,需要對訓(xùn)練語料庫410中存儲的訓(xùn)練語料進(jìn)行時(shí)間標(biāo)注,以生成具有時(shí)長信息的標(biāo)注序列(例如語音幀);另一方面,需要由訓(xùn)練語料中提取出語音合成所需要的參數(shù),該參數(shù)包括激勵(lì)參數(shù)、頻譜參數(shù)和狀態(tài)持續(xù)時(shí)間參數(shù)。

進(jìn)一步地,通過激勵(lì)參數(shù)提取單元420對訓(xùn)練語料進(jìn)行基頻特征的提取,形成激勵(lì)信息;通過頻譜參數(shù)提取單元430對訓(xùn)練語料進(jìn)行梅爾頻率倒譜系數(shù)(MFCC)的提取,形成頻譜參數(shù);狀態(tài)持續(xù)時(shí)間參數(shù)則是在隱馬爾可夫模型訓(xùn)練過程中生成的。

之后,將標(biāo)注序列、激勵(lì)參數(shù)和頻譜參數(shù)輸入至HMM訓(xùn)練單元440進(jìn)行隱馬爾可夫模型的訓(xùn)練,從而為每一個(gè)標(biāo)注序列(例如每一個(gè)語音幀)建立對應(yīng)的隱馬爾可夫模型,以供后續(xù)語音合成時(shí)使用。

語音合成部分:待合成的文本信息由文本分析及狀態(tài)轉(zhuǎn)換單元450進(jìn)行文本分析和狀態(tài)轉(zhuǎn)換,即待合成的文本信息經(jīng)文本分析得到文本分析結(jié)果,文本分析結(jié)果再經(jīng)狀態(tài)轉(zhuǎn)換形成對應(yīng)的隱馬爾可夫模型中的狀態(tài)序列。

然后,將狀態(tài)序列輸入至合成參數(shù)生成器460,基于狀態(tài)序列所包含的狀態(tài)持續(xù)時(shí)間參數(shù),通過參數(shù)生成算法計(jì)算出該狀態(tài)序列所對應(yīng)的激勵(lì)參數(shù)和頻譜參數(shù)。

進(jìn)一步地,如圖3a所示,合成聲碼器470包括濾波器參數(shù)校正器471、激勵(lì)信號生成器473和MLSA濾波器475。

其中,濾波器參數(shù)校正器471用于根據(jù)狀態(tài)序列對應(yīng)的頻譜參數(shù)校正MLSA濾波器475的系數(shù),從而使MLSA濾波器475能夠模仿人體口腔和聲道特征。

激勵(lì)信號生成器473用于根據(jù)狀態(tài)序列對應(yīng)的激勵(lì)參數(shù)來判斷清、濁音從而產(chǎn)生不同的激勵(lì)信號。若判斷為濁音,則產(chǎn)生以激勵(lì)參數(shù)周期為周期的脈沖序列作為激勵(lì)信號;若判斷為清音,則產(chǎn)生高斯白噪聲序列作為激勵(lì)信號。

具體而言,在計(jì)算得到狀態(tài)序列對應(yīng)的激勵(lì)參數(shù)和頻譜參數(shù)之后,將頻譜參數(shù)輸入濾波器參數(shù)校正器471以對MLSA濾波器475的系數(shù)進(jìn)行校正,將激勵(lì)參數(shù)輸入激勵(lì)信號生成器473產(chǎn)生激勵(lì)信號,進(jìn)而以該激勵(lì)信號作為激勵(lì)源通過校正后的MLSA濾波器475,即可合成得到該狀態(tài)序列所對應(yīng)的語音。

值得一提的是,文本分析結(jié)果經(jīng)狀態(tài)轉(zhuǎn)換可能形成若干狀態(tài)序列,每一狀態(tài)序列均能夠合成得到對應(yīng)的語音,相應(yīng)地,合成語音將由若干語音組成,使得合成語音具有一定的時(shí)長。

當(dāng)然,在其他應(yīng)用場景中,也可以采用其余語音合成系統(tǒng)進(jìn)行語音合成,本公開并不對此加以限制。

待完成上述步驟,即完成基于云端處理的語音合成過程。

由上可知,待合成的文本信息合成為合成語音需要消耗一定的時(shí)間,若云端服務(wù)器100待合成語音全部合成完畢才將合成語音返回至終端設(shè)備200,則可能導(dǎo)致語音合成過程耗時(shí)過長,而如果云端服務(wù)器100按照固定數(shù)據(jù)傳輸長度將文本信息對應(yīng)的合成語音劃分為待傳輸語音片段進(jìn)行傳輸,雖然有效地縮短了語音合成過程的時(shí)長,但是由于網(wǎng)絡(luò)環(huán)境的影響,可能導(dǎo)致待傳輸語音片段之間不連續(xù),而破壞了待合成的文本信息原有的語義結(jié)構(gòu),進(jìn)而導(dǎo)致用戶無法理解終端設(shè)備所播報(bào)的內(nèi)容。

舉例來說,圖4是現(xiàn)有技術(shù)所涉及的按照固定數(shù)據(jù)傳輸長度劃分文本信息對應(yīng)的合成語音的示意圖。其中,合成語音所對應(yīng)的文本信息的內(nèi)容為“云端語音合成技術(shù),基于云端處理,將文字信息轉(zhuǎn)換為聲音信息?!薄?/p>

如圖4所示,現(xiàn)有技術(shù)中,按照固定數(shù)據(jù)傳輸長度N對文本信息對應(yīng)的合成語音進(jìn)行待傳輸語音片段的劃分,將得到7個(gè)待傳輸語音片段,該7個(gè)待傳輸語音片段所對應(yīng)的文本信息的內(nèi)容分別為:“云端語音合”、“成技術(shù),基于”、“云端處理”、“,將文字”、“信息轉(zhuǎn)換”、“為聲音信”、“息?!薄?/p>

由此可知,在網(wǎng)絡(luò)環(huán)境異常時(shí),由于待傳輸語音片段之間不連續(xù),將導(dǎo)致待傳輸語音片段所對應(yīng)的文本信息的內(nèi)容中斷,例如,“云端語音合”、“成技術(shù),基于”之間的停頓即不符合待合成的文本信息原有的語義結(jié)構(gòu),而導(dǎo)致合成語音的可理解性大大降低,降低了用戶體驗(yàn)。

因此,為了在網(wǎng)絡(luò)環(huán)境異常時(shí)提高經(jīng)傳輸?shù)暮铣烧Z音的可理解性,特提出了一種合成語音的傳輸方法,該種合成語音的傳輸方法適用于圖1所示實(shí)施環(huán)境中的云端服務(wù)器100。

圖5是根據(jù)一示例性實(shí)施例示出的一種云端服務(wù)器100的框圖。該硬件結(jié)構(gòu)只是一個(gè)適用本公開的示例,不能認(rèn)為是對本公開的使用范圍的任何限制,也不能解釋為本公開需要依賴于該云端服務(wù)器100。

該云端服務(wù)器100可因配置或者性能的不同而產(chǎn)生較大的差異,如圖2所示,云端服務(wù)器100包括:電源110、接口130、至少一存儲介質(zhì)150、以及至少一中央處理器(CPU,Central Processing Units)170。

其中,電源110用于為云端服務(wù)器100上的各硬件設(shè)備提供工作電壓。

接口130包括至少一有線或無線網(wǎng)絡(luò)接口131、至少一串并轉(zhuǎn)換接口133、至少一輸入輸出接口135以及至少一USB接口137等,用于與外部設(shè)備通信。

存儲介質(zhì)150作為資源存儲的載體,可以是隨機(jī)存儲介質(zhì)、磁盤或者光盤等,其上所存儲的資源包括操作系統(tǒng)151、應(yīng)用程序153及數(shù)據(jù)155等,存儲方式可以是短暫存儲或者永久存儲。其中,操作系統(tǒng)151用于管理與控制云端服務(wù)器100上的各硬件設(shè)備以及應(yīng)用程序153,以實(shí)現(xiàn)中央處理器170對海量數(shù)據(jù)155的計(jì)算與處理,其可以是Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。應(yīng)用程序153是基于操作系統(tǒng)151之上完成至少一項(xiàng)特定工作的計(jì)算機(jī)程序,其可以包括至少一模塊(圖示未示出),每個(gè)模塊都可以分別包含有對云端服務(wù)器100的一系列操作指令。數(shù)據(jù)155可以是存儲于磁盤中的照片、圖片等等。

中央處理器170可以包括一個(gè)或多個(gè)以上的處理器,并設(shè)置為通過總線與存儲介質(zhì)150通信,用于運(yùn)算與處理存儲介質(zhì)150中的海量數(shù)據(jù)155。

如上面所描述的,適用本公開各示例性實(shí)施例的云端服務(wù)器100可以用于實(shí)現(xiàn)合成語音的動態(tài)長度傳輸,即通過中央處理器170讀取存儲介質(zhì)150中存儲的一系列操作指令的形式,按照預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元對文本信息對應(yīng)的合成語音進(jìn)行待傳輸語音片段的劃分,并傳輸該待傳輸語音片段至終端設(shè)備200,以通過終端設(shè)備200進(jìn)行語音播報(bào),使得用戶掌握播報(bào)內(nèi)容。

此外,通過硬件電路或者硬件電路結(jié)合軟件指令也能同樣實(shí)現(xiàn)本公開,因此,實(shí)現(xiàn)本公開并不限于任何特定硬件電路、軟件以及兩者的組合。

請參閱圖6,在一示例性實(shí)施例中,一種合成語音的傳輸方法適用于圖1所示實(shí)施環(huán)境中的云端服務(wù)器100,該種合成語音的傳輸方法可以由云端服務(wù)器100執(zhí)行,可以包括以下步驟:

步驟510,接收待合成的文本信息。

如前所述,待合成的文本信息可以是由終端設(shè)備內(nèi)部生成的,也可以是由與終端設(shè)備相連的外部設(shè)備輸入的,例如,外部設(shè)備為鍵盤等。

在終端設(shè)備得到待合成的文本信息之后,即可向云端服務(wù)器發(fā)送該待合成的文本信息,以通過云端服務(wù)器對該待合成的文本信息進(jìn)行后續(xù)的語音合成。

進(jìn)一步地,終端設(shè)備通過發(fā)送語音合成請求至云端服務(wù)器,實(shí)現(xiàn)待合成的文本信息的語音合成。其中,該語音合成請求是由待合成的文本信息生成的。

步驟530,對文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元。

如前所述,通過文本信息的分詞處理得到的分詞文本包含至少一個(gè)語義單元,該語義單元指的是用戶可理解的具有完整詞語解釋的單元,該語義單元可以由若干詞、若干短語、甚至于若干句子組成。例如,“云端”、“語音”、“合成”、“技術(shù)”等詞均屬于分詞文本中所包含的語義單元。

當(dāng)然,在不同的應(yīng)用場景中,分詞文本中包含的語義單元還可以是英文串、數(shù)字串、符號串等等。

步驟550,判斷文本信息對應(yīng)的合成語音的數(shù)據(jù)長度是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

可以理解,若文本信息對應(yīng)的合成語音的數(shù)據(jù)長度未超過預(yù)設(shè)數(shù)據(jù)傳輸長度,則表示云端服務(wù)器僅需要進(jìn)行一次傳輸,即可將合成語音全部發(fā)送至終端設(shè)備。此時(shí),云端服務(wù)器可以直接進(jìn)行文本信息對應(yīng)的合成語音的傳輸,而無需對文本信息對應(yīng)的合成語音進(jìn)行傳輸處理。

基于此,云端服務(wù)器將通過判斷文本信息對應(yīng)的合成語音的數(shù)據(jù)長度是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度,來判斷是否對文本信息對應(yīng)的合成語音進(jìn)行傳輸處理。

在判斷到文本信息對應(yīng)的合成語音的數(shù)據(jù)長度大于預(yù)設(shè)數(shù)據(jù)傳輸長度時(shí),則進(jìn)入步驟570,以對文本信息對應(yīng)的合成語音進(jìn)行傳輸處理。

反之,在判斷到文本信息對應(yīng)的合成語音的數(shù)據(jù)長度不大于預(yù)設(shè)數(shù)據(jù)傳輸長度時(shí),則進(jìn)入步驟590,直接發(fā)送文本信息對應(yīng)的合成語音,即文本信息對應(yīng)的合成語音即為待傳輸語音片段。

步驟570,根據(jù)預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元,將文本信息對應(yīng)的合成語音劃分為至少兩個(gè)待傳輸語音片段。

本實(shí)施例中,對文本信息對應(yīng)的合成語音進(jìn)行的傳輸處理是通過對文本信息對應(yīng)的合成語音進(jìn)行待傳輸語音片段的劃分完成。

所述劃分可以根據(jù)語義單元的數(shù)量進(jìn)行,也可以根據(jù)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度進(jìn)行。

由于每個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度各不相同,兩個(gè)語義單元和三個(gè)語義單元各自對應(yīng)的合成語音的數(shù)據(jù)長度可能非常接近。若僅根據(jù)語義單元的數(shù)量進(jìn)行文本信息對應(yīng)的合成語音的劃分,則可能導(dǎo)致劃分得到的待傳輸語音片段的數(shù)據(jù)長度差異太大,使得終端設(shè)備進(jìn)行語音播報(bào)時(shí)長時(shí)短而導(dǎo)致用戶體驗(yàn)差。

因此,較優(yōu)地,為了保證劃分所得到的待傳輸語音片段的數(shù)據(jù)長度大致相同,云端服務(wù)器將結(jié)合預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元進(jìn)行文本信息對應(yīng)的合成語音的劃分,即在待傳輸語音片段的數(shù)據(jù)長度不超過預(yù)設(shè)數(shù)據(jù)傳輸長度的前提下,使待傳輸語音片段由若干個(gè)語義單元對應(yīng)的合成語音組成。例如,待傳輸語音片段既可能由兩個(gè)語義單元對應(yīng)的合成語音組成,也可能由三個(gè)語義單元對應(yīng)的合成語音組成,甚至由更多個(gè)語義單元對應(yīng)的合成語音組成,以使終端設(shè)備進(jìn)行語音播報(bào)的時(shí)長大致相同,進(jìn)而提高用戶體驗(yàn)

需要說明的是,本實(shí)施例中,云端服務(wù)器是在文本信息已經(jīng)合成為對應(yīng)的合成語音之后,才開始合成語音的傳輸,以滿足對語音合成的質(zhì)量要求較高的應(yīng)用場景。

可以理解,云端服務(wù)器將首先存儲文本信息對應(yīng)的合成語音,待完成文信息對應(yīng)的合成語音的劃分之后,才開始傳輸劃分得到的待傳輸語音片段。

步驟590,發(fā)送待傳輸語音片段。

終端設(shè)備在接收到待傳輸語音片段,即根據(jù)該待傳輸語音片段進(jìn)行語音播報(bào)。

由于該待傳輸語音片段是由若干個(gè)語義單元對應(yīng)的合成語音組成的,因此,每一次播報(bào)內(nèi)容都是用戶所能理解的。例如,待傳輸語音片段所對應(yīng)的文本信息的內(nèi)容是“云端語音”。

通過如上所述的過程,實(shí)現(xiàn)了合成語音的動態(tài)長度傳輸,即待傳輸語音片段的數(shù)據(jù)長度并不是固定長度,而是由組成其的若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度決定的,由于語義單元遵循待合成的文本信息原有的語義結(jié)構(gòu),從而保證即使網(wǎng)絡(luò)環(huán)境異常導(dǎo)致若干待傳輸語音片段之間不連續(xù),也不會破壞待合成的文本信息原有的語義結(jié)構(gòu),以此有效地提高了經(jīng)傳輸?shù)暮铣烧Z音的可理解性,提高了用戶體驗(yàn)。

請參閱圖7,在一示例性實(shí)施例中,步驟550之前,如上所述的方法還可以包括以下步驟:

步驟610,監(jiān)測網(wǎng)絡(luò)狀態(tài)。

步驟630,根據(jù)監(jiān)測到的網(wǎng)絡(luò)狀態(tài)調(diào)整預(yù)設(shè)數(shù)據(jù)傳輸長度。

預(yù)設(shè)數(shù)據(jù)傳輸長度即為前述PCM數(shù)據(jù)傳輸方法進(jìn)行合成語音傳輸時(shí)所設(shè)置的固定數(shù)據(jù)傳輸長度。

如前所述,該預(yù)設(shè)數(shù)據(jù)傳輸長度在網(wǎng)絡(luò)環(huán)境正常時(shí),不會影響合成語音的傳輸,即終端設(shè)備能夠及時(shí)接收到由合成語音劃分為的固定長度的若干待傳輸語音片段,并播報(bào)該些待傳輸語音片段。若網(wǎng)絡(luò)環(huán)境異常,則可能導(dǎo)致終端設(shè)備接收到的固定長度的若干待傳輸語音片段不連續(xù),即存在隨機(jī)停頓,而可能破壞了待合成的文本信息原有的語義結(jié)構(gòu),進(jìn)而導(dǎo)致用戶無法正常理解終端設(shè)備所播報(bào)的內(nèi)容。

為此,本實(shí)施例中,將進(jìn)一步地結(jié)合當(dāng)前的網(wǎng)絡(luò)環(huán)境對該預(yù)設(shè)數(shù)據(jù)傳輸長度進(jìn)行調(diào)整,以此保證終端設(shè)備進(jìn)行語音播報(bào)的流暢性。

較優(yōu)地,當(dāng)前的網(wǎng)絡(luò)環(huán)境通過監(jiān)測網(wǎng)絡(luò)狀態(tài)實(shí)現(xiàn)。該監(jiān)測可以是對終端設(shè)備的當(dāng)前網(wǎng)速進(jìn)行監(jiān)測,也可以是對終端設(shè)備的當(dāng)前連接狀態(tài)進(jìn)行監(jiān)測,進(jìn)而根據(jù)監(jiān)測結(jié)果調(diào)整預(yù)設(shè)數(shù)據(jù)傳輸長度

舉例來說,通過網(wǎng)絡(luò)狀態(tài)監(jiān)測得到終端設(shè)備的當(dāng)前網(wǎng)速為S,而合成語音所需要的網(wǎng)速設(shè)置為M,則合成語音的預(yù)設(shè)數(shù)據(jù)傳輸長度可以按照下述公式進(jìn)行調(diào)整:

其中,N’為調(diào)整后的預(yù)設(shè)數(shù)據(jù)傳輸長度,N為預(yù)設(shè)數(shù)據(jù)傳輸長度。

應(yīng)當(dāng)理解,當(dāng)S小于M時(shí),N’小于N,表示調(diào)整后的預(yù)設(shè)數(shù)據(jù)傳輸長度N’小于預(yù)設(shè)數(shù)據(jù)傳輸長度N,以此適應(yīng)網(wǎng)速較差的網(wǎng)絡(luò)環(huán)境,即在網(wǎng)速較差時(shí)降低單位時(shí)間內(nèi)合成語音的傳輸數(shù)據(jù)量。同理,在網(wǎng)速較好時(shí)則提高單位時(shí)間內(nèi)合成語音的傳輸數(shù)據(jù)量,以此保證終端設(shè)備進(jìn)行語音播報(bào)的流暢性。

進(jìn)一步地,為預(yù)設(shè)數(shù)據(jù)傳輸長度N設(shè)置一最小值Nmin。當(dāng)N'<Nmin時(shí),令N'=Nmin。也就是說,若調(diào)整后的預(yù)設(shè)數(shù)據(jù)傳輸長度N’比最小的預(yù)設(shè)數(shù)據(jù)傳輸長度Nmin還小,則以最小的預(yù)設(shè)數(shù)據(jù)傳輸長度Nmin作為預(yù)設(shè)數(shù)據(jù)傳輸長度N,以此避免云端服務(wù)器與終端設(shè)備之間的交互過于頻繁,從而有效地提高云端服務(wù)器的處理效率。

進(jìn)一步地,在根據(jù)網(wǎng)絡(luò)環(huán)境對預(yù)設(shè)數(shù)據(jù)傳輸長度進(jìn)行調(diào)整之后,步驟550中的判斷即是基于調(diào)整后的預(yù)設(shè)數(shù)據(jù)傳輸長度進(jìn)行的,以此動態(tài)地適應(yīng)網(wǎng)絡(luò)環(huán)境,從而有利于后續(xù)的合成語音傳輸。

通過如上所述的過程,結(jié)合當(dāng)前的網(wǎng)絡(luò)環(huán)境,實(shí)現(xiàn)了對合成語音的預(yù)設(shè)數(shù)據(jù)傳輸長度的動態(tài)調(diào)整,使得合成語音在網(wǎng)絡(luò)異常時(shí)能夠以較小的傳輸長度進(jìn)行傳輸,進(jìn)而有利于保證待傳輸語音片段之間傳輸?shù)倪B續(xù)性,以此保證終端設(shè)備能夠不間斷地播報(bào)接收到的待傳輸語音片段,從而有利于提高經(jīng)傳輸?shù)暮铣烧Z音的可理解性。

請參閱圖8,在一示例性實(shí)施例中,步驟550之前,如上所述的方法可以包括以下步驟:

步驟710,根據(jù)漢語發(fā)音時(shí)長計(jì)算文本信息包括的各語義單元的發(fā)音時(shí)長。

如前所述,語義單元可以包括若干詞、若干短語、甚至是若干句子,而無論上述何種形式的語義單元均是由語法結(jié)構(gòu)中的基本單位——詞構(gòu)成的。

相應(yīng)地,詞的發(fā)音時(shí)長與漢語發(fā)音時(shí)長相關(guān),即與漢語的聲母、韻母的發(fā)音時(shí)長相關(guān)。可以理解,各詞之間具有不同的發(fā)音時(shí)長,如圖9所示,雙音節(jié)語素構(gòu)成的詞“云端”、“語音”、“合成”、“技術(shù)”對應(yīng)的雙音節(jié)分別為“yunduan”、“yuyin”、“hecheng”、“jishu”,其相應(yīng)的發(fā)音時(shí)長分別為l0、l1、l2、l3。因此,通過漢語發(fā)音時(shí)長即可計(jì)算得到各語義單元的發(fā)音時(shí)長。

步驟730,根據(jù)文本信息包括的各語義單元的發(fā)音時(shí)長之和,得到文本信息的發(fā)音時(shí)長。

由于文本信息包括若干個(gè)語義單元,因此,在計(jì)算得到文本信息包括的各語義單元的發(fā)音時(shí)長之后,即可進(jìn)一步地計(jì)算得到文本信息包括的所有語義單元的發(fā)音時(shí)長之和,亦即文本信息的發(fā)音時(shí)長。

如圖9所示,文本信息的發(fā)音時(shí)長l=l0+l1+l2+l3+……+li-2+li-1,i=16。

步驟750,根據(jù)文本信息的發(fā)音時(shí)長,確定文本信息對應(yīng)的合成語音的數(shù)據(jù)長度。

由于合成語音進(jìn)行傳輸時(shí),是以數(shù)據(jù)包的形式進(jìn)行傳輸?shù)模虼?,在得到文本信息的發(fā)音時(shí)長之后,需要對其進(jìn)行數(shù)據(jù)量轉(zhuǎn)化,即將文本信息的發(fā)音時(shí)長轉(zhuǎn)化為其所對應(yīng)的合成語音的數(shù)據(jù)長度,對于上述轉(zhuǎn)化過程,屬于現(xiàn)有技術(shù)的范疇,本發(fā)明實(shí)施例不做限定。

應(yīng)當(dāng)理解,若文本信息的發(fā)音時(shí)長較長,則其對應(yīng)的合成語音的數(shù)據(jù)長度較長,反之,若文本信息的發(fā)音時(shí)長較短,則其對應(yīng)的合成語音的數(shù)據(jù)長度也較短。

在確定文本信息對應(yīng)的合成語音的數(shù)據(jù)長度之后,云端服務(wù)器即可根據(jù)該文本信息對應(yīng)的合成語音的數(shù)據(jù)長度,判斷后續(xù)是否需要對文本信息對應(yīng)的合成語音進(jìn)行待傳輸語音片段的劃分。

如前所述,為了避免終端設(shè)備接收到的待傳輸語音片段的數(shù)據(jù)長度差異太大,使得語音播報(bào)時(shí)長時(shí)短而導(dǎo)致用戶的體驗(yàn)差,云端服務(wù)器將結(jié)合預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元進(jìn)行文本信息對應(yīng)的合成語音的劃分,即在待傳輸語音片段的數(shù)據(jù)長度不超過預(yù)設(shè)數(shù)據(jù)傳輸長度的前提下,使待傳輸語音片段由若干個(gè)語義單元對應(yīng)的合成語音組成。

進(jìn)一步地,對文本信息對應(yīng)的合成語音的劃分可以有兩種方案:第一種,通過對語義單元對應(yīng)的合成語音進(jìn)行組合,使其形成數(shù)據(jù)長度不超過預(yù)設(shè)數(shù)據(jù)傳輸長度的待傳輸語音片段;第二種,由文本信息對應(yīng)的合成語音中剔除若干語義單元對應(yīng)的合成語音,以使剩下的語義單元所對應(yīng)的合成語音組成數(shù)據(jù)長度不超過預(yù)設(shè)數(shù)據(jù)傳輸長度的待傳輸語音片段。

請參閱圖10,在一示例性實(shí)施例中,對文本信息對應(yīng)的合成語音的劃分采取上述第一種方案,相應(yīng)地,步驟570可以包括以下步驟:

步驟571,判斷文本信息中第一個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

若第一個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度不大于預(yù)設(shè)數(shù)據(jù)傳輸長度,則進(jìn)入步驟572,將該第一個(gè)語義單元和第二個(gè)語義單元分別對應(yīng)的合成語音的數(shù)據(jù)長度累加,得到第一數(shù)據(jù)長度累加和。

在得到第一數(shù)據(jù)長度累加和之后,進(jìn)入步驟573,進(jìn)一步判斷該第一數(shù)據(jù)長度累加和是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

若判斷到該第一數(shù)據(jù)長度累加和大于預(yù)設(shè)數(shù)據(jù)傳輸長度,基于待傳輸語音片段的數(shù)據(jù)長度不超過預(yù)設(shè)數(shù)據(jù)傳輸長度的原則,則進(jìn)入步驟574,以該第一個(gè)語義單元對應(yīng)的合成語音作為待傳輸語音片段。

反之,若判斷到該第一數(shù)據(jù)長度累加和不超過預(yù)設(shè)數(shù)據(jù)傳輸長度,則進(jìn)入步驟575,繼續(xù)對文本信息中的其余語義單元對應(yīng)的合成語音的數(shù)據(jù)長度進(jìn)行累加判斷,直至所有語義單元對應(yīng)的合成語音的數(shù)據(jù)長度均完成累加判斷。

舉例來說,將第一個(gè)語義單元、第二個(gè)語義單元和第三個(gè)語義單元分別對應(yīng)的合成語音的數(shù)據(jù)長度累加,得到第二數(shù)據(jù)長度累加和。

在得到第二數(shù)據(jù)長度累加和之后,進(jìn)一步判斷該第二數(shù)據(jù)長度累加和是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

若判斷到該第二數(shù)據(jù)長度累加和大于預(yù)設(shè)數(shù)據(jù)傳輸長度,基于待傳輸語音片段的數(shù)據(jù)長度不超過預(yù)設(shè)數(shù)據(jù)傳輸長度的原則,則以第一個(gè)語義單元和第二個(gè)語義單元所對應(yīng)的合成語音作為待傳輸語音片段。

以此類推,直至所有語義單元所對應(yīng)的合成語音均作為待傳輸語音片段的一部分,完成合成語音的傳輸。

具體而言,如圖9所示,如前所述,各語義單元的發(fā)音時(shí)長為li,(i=0~16),文本信息的發(fā)音時(shí)長為l==l0+l1+l2+l3+……+li-2+li-1,i=16。

相應(yīng)地,令各語義單元對應(yīng)的合成語音的數(shù)據(jù)長度為Li,(i=0~16),文本信息對應(yīng)的合成語音的數(shù)據(jù)長度為L=L0+L1+L2+L3+……+Li-2+Li-1,i=16,預(yù)設(shè)數(shù)據(jù)傳輸長度為N’。

當(dāng)L>N'時(shí),云端服務(wù)器將對文本信息對應(yīng)的合成語音進(jìn)行待傳輸語音片段的劃分,以通過多次傳輸將文本信息對應(yīng)的合成語音傳輸至終端設(shè)備。

第一次劃分時(shí),若L0+L1+L2>N'且L0+L1<N',即文本信息中第一個(gè)、第二個(gè)語義單元分別對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度累加和未超過預(yù)設(shè)數(shù)據(jù)傳輸長度,而前三個(gè)語義單元分別對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度累加和超過預(yù)設(shè)數(shù)據(jù)傳輸長度,則根據(jù)比較結(jié)果得到第一個(gè)待傳輸語音片段的數(shù)據(jù)長度為:N'0=L0+L1,即以第一個(gè)、第二個(gè)語義單元所對應(yīng)的合成語音作為待傳輸語音片段。

第二次劃分時(shí),若L2+L3+L4+L5>N'且L2+L3+L4<N',即文本信息中第三個(gè)、第四個(gè)、第五個(gè)語義單元分別對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度累加和未超過預(yù)設(shè)數(shù)據(jù)傳輸長度,而第三個(gè)、第四個(gè)、第五個(gè)、第六個(gè)語義單元分別對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度累加和超過預(yù)設(shè)數(shù)據(jù)傳輸長度,則根據(jù)比較結(jié)果得到第二個(gè)待傳輸語音片段的數(shù)據(jù)長度為:N1'=L2+L3+L4,即以第三個(gè)、第四個(gè)、第五個(gè)語義單元所對應(yīng)的合成語音作為待傳輸語音片段。

以此類推,直至所有語義單元所對應(yīng)的合成語音均作為待傳輸語音片段的一部分,完成合成語音的傳輸。

請參閱圖11,在另一示例性實(shí)施例中,對文本信息對應(yīng)的合成語音的劃分采取上述第二種方案,相應(yīng)地,步驟570可以包括以下步驟:

步驟576,將文本信息對應(yīng)的合成語音的數(shù)據(jù)長度減去倒數(shù)第一個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度,得到第一數(shù)據(jù)長度差值。

在得到第一數(shù)據(jù)長度差值之后,進(jìn)入步驟577,判斷該第一數(shù)據(jù)長度差值是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

若判斷到該第一數(shù)據(jù)長度差值不大于預(yù)設(shè)數(shù)據(jù)傳輸長度,則進(jìn)入步驟578,將倒數(shù)第一個(gè)語義單元之前的所有語義單元對應(yīng)的合成語音作為待傳輸語音片段。

反之,若判斷到該第一數(shù)據(jù)長度差值大于預(yù)設(shè)數(shù)據(jù)傳輸長度,則進(jìn)入步驟579,基于該第一數(shù)據(jù)長度繼續(xù)對文本信息中其余語音單元對應(yīng)的合成語音的數(shù)據(jù)長度進(jìn)行相減判斷,直至所有語義單元對應(yīng)的合成語音的數(shù)據(jù)長度均完成相減判斷。

舉例來說,將該第一數(shù)據(jù)長度差值減去倒數(shù)第二個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度,得到第二數(shù)據(jù)長度差值。

在得到第二數(shù)據(jù)長度差值之后,進(jìn)一步判斷該第二數(shù)據(jù)長度差值是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

若判斷到該第二數(shù)據(jù)長度差值不大于預(yù)設(shè)數(shù)據(jù)傳輸長度,則將倒數(shù)第二個(gè)語義單元之前的所有語義單元對應(yīng)的合成語音作為待傳輸語音片段。

以此類推,直至所有語義單元所對應(yīng)的合成語音作為待傳輸語音片段的一部分,完成合成語音的傳輸。

具體而言,如圖9所示,如前所述,各語義單元的發(fā)音時(shí)長為li,(i=0~16),文本信息的發(fā)音時(shí)長為l==l0+l1+l2+l3+……+li-2+li-1,i=16。

相應(yīng)地,令各語義單元對應(yīng)的合成語音的數(shù)據(jù)長度為Li,(i=0~16),文本信息對應(yīng)的合成語音的數(shù)據(jù)長度為L=L0+L1+L2+L3+……+Li-2+Li-1,i=16,預(yù)設(shè)數(shù)據(jù)傳輸長度為N’。

當(dāng)L>N'時(shí),云端服務(wù)器將對文本信息對應(yīng)的合成語音進(jìn)行待傳輸語音片段的劃分,以通過多次傳輸將文本信息對應(yīng)的合成語音傳輸至終端設(shè)備。

第一次劃分時(shí),若L-L15-L14-L13>N'且L-L15-L14-L13-L12<N',即文本信息對應(yīng)的合成語音的數(shù)據(jù)長度減去倒數(shù)第一個(gè)、第二個(gè)、第三個(gè)、第四個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度差值未超過預(yù)設(shè)數(shù)據(jù)傳輸長度,而減去倒數(shù)第一個(gè)、第二個(gè)、第三個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度差值超過預(yù)設(shè)數(shù)據(jù)傳輸長度,則根據(jù)比較結(jié)果得到第一個(gè)待傳輸語音片段的數(shù)據(jù)長度為:N'0=L-L15-L14-L13-L12,即以倒數(shù)第四個(gè)語義單元之前的所有語義單元所對應(yīng)的合成語音作為第一個(gè)待傳輸語音片段。

第二次劃分時(shí),由于第一待傳輸語音片段已劃分完畢,則文本信息對應(yīng)的合成語音的數(shù)據(jù)長度更新為L’=L12+L13+L14+L15,則基于該文本信息對應(yīng)的合成語音的數(shù)據(jù)長度L’繼續(xù)進(jìn)行劃分,若L'-L15>N'且L'-L15-L14<N',即文本信息對應(yīng)的合成語音的數(shù)據(jù)長度減去倒數(shù)第一個(gè)、第二個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度差值未超過預(yù)設(shè)數(shù)據(jù)傳輸長度,而減去倒數(shù)第一個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度的數(shù)據(jù)長度差值超過預(yù)設(shè)數(shù)據(jù)傳輸長度,則根據(jù)比較結(jié)果得到第二個(gè)待傳輸語音片段的數(shù)據(jù)長度為:N1'=L'-L15-L14,即以倒數(shù)第二個(gè)語義單元之前的所有語義單元所對應(yīng)的合成語音作為第二個(gè)待傳輸語音片段。

以此類推,直至所有語義單元所對應(yīng)的合成語音均作為待傳輸語音片段的一部分,完成合成語音的傳輸。

通過如上所述的過程,實(shí)現(xiàn)了合成語音的動態(tài)長度傳輸,即每一次待傳輸語音片段的數(shù)據(jù)長度都不相同,由其所包含的語義單元對應(yīng)的合成語音的數(shù)據(jù)長度決定,并且傳輸過程中始終保持了語義單元的完整性,并不會破壞文本信息原有的語義結(jié)構(gòu),從而提高了經(jīng)傳輸?shù)暮铣烧Z音的可理解性。

圖12是一應(yīng)用場景中上述合成語音的傳輸方法的具體實(shí)現(xiàn)示意圖,現(xiàn)結(jié)合圖1所示的實(shí)施環(huán)境和圖12所示的具體應(yīng)用場景對本公開上述實(shí)施例中語音合成過程加以說明如下。

終端設(shè)備200通過執(zhí)行步驟801,將待合成的文本信息通過語音合成請求發(fā)送至云端服務(wù)器100。

云端服務(wù)器100通過執(zhí)行步驟802和步驟803,將接收到的待合成的文本信息合成為合成語音,并通過執(zhí)行步驟804對合成語音進(jìn)行存儲,以利于后續(xù)合成語音的動態(tài)長度傳輸。

云端服務(wù)器100通過執(zhí)行步驟805,按照網(wǎng)絡(luò)狀態(tài)對合成語音的預(yù)設(shè)數(shù)據(jù)傳輸長度進(jìn)行調(diào)整,以基于該調(diào)整后的預(yù)設(shè)數(shù)據(jù)傳輸長度對文本信息對應(yīng)的合成語音進(jìn)行待傳輸語音片段的劃分。

進(jìn)一步地,云端服務(wù)器100通過執(zhí)行步驟806進(jìn)行待傳輸語音片段的劃分,即根據(jù)調(diào)整后的預(yù)設(shè)數(shù)據(jù)傳輸長度以及文本信息中包含的若干語義單元,對文本信息對應(yīng)的合成語音進(jìn)行劃分。

在劃分得到待傳輸語音片段之后,云端服務(wù)器100即通過執(zhí)行步驟807,將待傳輸語音片段傳輸至終端設(shè)備200。

更進(jìn)一步地,若文本信息對應(yīng)的合成語音未全部劃分完畢,則云端服務(wù)器100將通過執(zhí)行步驟808,返回步驟806,繼續(xù)進(jìn)行劃分,直至文本信息包含的所有語義單元均作為待傳輸語音片段的一部分,并傳輸至終端設(shè)備200。

終端設(shè)備200通過執(zhí)行步驟809,利用內(nèi)部設(shè)置的音頻播放器對接收到的傳輸語音片段進(jìn)行播報(bào),以使用戶根據(jù)播報(bào)內(nèi)容了解待合成的文本信息的內(nèi)容。

待執(zhí)行完上述步驟,即完成語音合成過程。

在本公開實(shí)施例中,實(shí)現(xiàn)了合成語音的雙動態(tài)長度傳輸,即根據(jù)網(wǎng)絡(luò)狀態(tài)和文本信息中包含的語義單元進(jìn)行合成語音的動態(tài)長度傳輸,保證了即使網(wǎng)絡(luò)環(huán)境異常,也不會破壞文本信息原有的語義結(jié)構(gòu),既保證了終端設(shè)備進(jìn)行語音播報(bào)的流暢性,還提高了經(jīng)傳輸?shù)暮铣烧Z音的可理解性。

請參閱圖13,在一示例性實(shí)施例中,一種合成語音的傳輸方法適用于圖1所示實(shí)施環(huán)境中的云端服務(wù)器100,該種合成語音的傳輸方法可以由云端服務(wù)器100執(zhí)行,可以包括以下步驟:

步驟910,接收待合成的文本信息。

步驟930,對文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元。

步驟950,根據(jù)預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元生成待傳輸語音片段,待傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

步驟970,發(fā)送待傳輸語音片段。

請參閱圖14,在一示例性實(shí)施例中,步驟930之前,如上所述的方法還可以包括以下步驟:

步驟1010,根據(jù)漢語發(fā)音時(shí)長計(jì)算文本信息中第一個(gè)語義單元的發(fā)音時(shí)長。

步驟1030,根據(jù)第一個(gè)語義單元的發(fā)音時(shí)長確定第一個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度。

請參閱圖15,在一示例性實(shí)施例中,步驟950可以包括以下步驟:

步驟951,判斷文本信息中第一個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

若為否,則進(jìn)入步驟953。

步驟953,將第一個(gè)語義單元和第二個(gè)語義單元分別對應(yīng)的合成語音的數(shù)據(jù)長度累加,得到第一數(shù)據(jù)長度累加和。

步驟955,判斷第一數(shù)據(jù)長度累加和是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。若為是,則進(jìn)入步驟957。

步驟957,以第一個(gè)語義單元對應(yīng)的合成語音作為待傳輸語音片段。

通過如上所述的過程,實(shí)現(xiàn)了合成語音的動態(tài)長度傳輸,即待傳輸語音片段的數(shù)據(jù)長度并不是固定長度,而是由組成其的若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度決定的,由于語義單元遵循待合成的文本信息原有的語義結(jié)構(gòu),從而保證即使網(wǎng)絡(luò)環(huán)境異常導(dǎo)致若干待傳輸語音片段之間不連續(xù),也不會破壞待合成的文本信息原有的語義結(jié)構(gòu),以此有效地提高了經(jīng)傳輸?shù)暮铣烧Z音的可理解性,提高了用戶體驗(yàn)。

此外,在上述各實(shí)施例中,云端服務(wù)器是一邊進(jìn)行語音合成,一邊對已合成好的部分合成語音進(jìn)行傳輸?shù)?,以此有效地縮短了語音合成過程所消耗的時(shí)間,能夠很好地滿足于對語音合成的時(shí)間要求比較高的應(yīng)用場景。

請參閱圖16,在一示例性實(shí)施例中,一種合成語音的傳輸方法適用于圖1所示實(shí)施環(huán)境中的終端設(shè)備200,該種合成語音的傳輸方法可以由終端設(shè)備200執(zhí)行,可以包括以下步驟:

步驟1110,向云端服務(wù)器發(fā)送語音合成請求,語音合成請求由待合成的文本信息生成,以使云端服務(wù)器通過響應(yīng)語音合成請求對文本信息進(jìn)行語音合成。

步驟1130,接收云端服務(wù)器返回的傳輸語音片段,其中,傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

步驟1150,播報(bào)傳輸語音片段。

通過如上所述的過程,有效地提高了終端設(shè)備所播報(bào)內(nèi)容的可理解性,從而提高了用戶體驗(yàn)。

下述為本公開裝置實(shí)施例,可以用于執(zhí)行本公開所涉及的合成語音的傳輸方法。對于本公開裝置實(shí)施例中未披露的細(xì)節(jié),請參照本公開所涉及的合成語音的傳輸方法實(shí)施例。

請參閱圖17,在一示例性實(shí)施例中,一種云端服務(wù)器包括但不限于:信息接收模塊1210、分詞處理模塊1230、判斷模塊1250、語音片段劃分模塊1270和發(fā)送模塊1290。

其中,信息接收模塊1210用于接收待合成的文本信息。

分詞處理模塊1230用于對文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元。

判斷模塊1250用于判斷文本信息對應(yīng)的合成語音的數(shù)據(jù)長度是否大于預(yù)設(shè)數(shù)據(jù)傳輸長度。若為是,則通知語音片段劃分模塊1270。

語音片段劃分模塊1270用于根據(jù)預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元,將文本信息對應(yīng)的合成語音劃分為至少兩個(gè)待傳輸語音片段,待傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音。

發(fā)送模塊1290用于發(fā)送待傳輸語音片段。

請參閱圖18,在一示例性實(shí)施例中,一種云端服務(wù)器包括但不限于:信息接收模塊1310、分詞處理模塊1330、語音片段生成模塊1350和發(fā)送模塊1370。

其中,信息接收模塊1310用于接收待合成的文本信息。

分詞處理模塊1330用于對文本信息進(jìn)行分詞處理,得到至少一個(gè)語義單元。

語音片段生成模塊1350用于根據(jù)預(yù)設(shè)數(shù)據(jù)傳輸長度和語義單元生成待傳輸語音片段,待傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

發(fā)送模塊1370用于發(fā)送待傳輸語音片段。

請參閱圖19,在一示例性實(shí)施例中,一種終端設(shè)備包括但不限于:發(fā)送模塊1410、接收模塊1430和語音播報(bào)模塊1450。

其中,發(fā)送模塊1410用于向云端服務(wù)器發(fā)送語音合成請求,語音合成請求由待合成的文本信息生成,以使云端服務(wù)器通過響應(yīng)語音合成請求對文本信息進(jìn)行語音合成。

接收模塊1430用于接收云端服務(wù)器返回的傳輸語音片段,其中,傳輸語音片段是若干個(gè)語義單元對應(yīng)的合成語音,且若干個(gè)語義單元對應(yīng)的合成語音的數(shù)據(jù)長度之和不大于預(yù)設(shè)數(shù)據(jù)傳輸長度。

語音播報(bào)模塊1450用于播報(bào)傳輸語音片段。

需要說明的是,上述實(shí)施例所提供的合成語音的傳輸裝置(云端服務(wù)器、終端設(shè)備)在進(jìn)行合成語音的傳輸時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即合成語音的傳輸裝置的內(nèi)部結(jié)構(gòu)將劃分為不同的功能模塊,以完成以上描述的全部或者部分功能。

另外,上述實(shí)施例所提供的合成語音的傳輸裝置與合成語音的傳輸方法的實(shí)施例屬于同一構(gòu)思,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在方法實(shí)施例中進(jìn)行了詳細(xì)描述,此處不再贅述。

上述內(nèi)容,僅為本公開的較佳示例性實(shí)施例,并非用于限制本公開的實(shí)施方案,本領(lǐng)域普通技術(shù)人員根據(jù)本公開的主要構(gòu)思和精神,可以十分方便地進(jìn)行相應(yīng)的變通或修改,故本公開的保護(hù)范圍應(yīng)以權(quán)利要求書所要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
敦化市| 上栗县| 嘉定区| 怀仁县| 德令哈市| 溆浦县| 梅州市| 望谟县| 尼勒克县| 涡阳县| 乌拉特前旗| 张家口市| 西安市| 依兰县| 孝义市| 莲花县| 长垣县| 莱州市| 田阳县| 佛冈县| 丰顺县| 天津市| 天门市| 中西区| 沐川县| 朝阳县| 西乡县| 惠安县| 霍城县| 贵港市| 桃园市| 上蔡县| 西贡区| 盐池县| 甘德县| 石狮市| 繁峙县| 迭部县| 钟山县| 平罗县| 额济纳旗|