本申請實施例涉及信息,尤其涉及一種高效文字轉(zhuǎn)語音的方法及系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,文字轉(zhuǎn)語音技術(shù)在多個領(lǐng)域得到了廣泛應(yīng)用,如智能客服、有聲讀物、語音助手、導(dǎo)航系統(tǒng)等。在這些應(yīng)用場景中,用戶不僅希望聽到清晰、自然的語音,還期望語音能夠準確傳達文本中的情感色彩和語氣特征,以增強溝通的親和力和可信度。因此,開發(fā)一種能夠高效、準確地將文本轉(zhuǎn)換為帶有情感色彩的語音的技術(shù),成為了當前的研究熱點和技術(shù)需求。
2、目前,主流的文字轉(zhuǎn)語音技術(shù)主要分為兩類:基于規(guī)則的方法和基于統(tǒng)計的方法。基于規(guī)則的方法通過預(yù)定義的規(guī)則庫來生成語音,雖然能夠保證一定的語音質(zhì)量,但在處理復(fù)雜情感表達時顯得力不從心?;诮y(tǒng)計的方法則通過大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)語音生成模型,能夠生成較為自然的語音,但在情感表達方面仍存在不足。近年來,深度學(xué)習(xí)技術(shù)在語音合成領(lǐng)域的應(yīng)用取得了顯著進展,通過神經(jīng)網(wǎng)絡(luò)模型可以更好地捕捉文本的情感特征,生成帶有情感的語音。
3、盡管現(xiàn)有的文字轉(zhuǎn)語音技術(shù)已經(jīng)取得了一定的進展,但仍存在以下主要缺陷:
4、大多數(shù)現(xiàn)有技術(shù)在處理情感色彩和語氣特征時,往往只能生成較為單一的語音,難以準確傳達文本中的豐富情感,導(dǎo)致生成的語音缺乏感染力和真實感。
5、在合成語音時,不同情感色彩的基礎(chǔ)語音片段之間的銜接常常不夠平滑,容易出現(xiàn)突兀的切換,影響語音的自然度和連貫性。
6、現(xiàn)有技術(shù)在調(diào)整語音語速時,往往忽略了情感色彩的一致性,導(dǎo)致在改變語速時情感表達失真,影響了語音的整體質(zhì)量和用戶體驗。
技術(shù)實現(xiàn)思路
1、本申請實施例提供一種高效文字轉(zhuǎn)語音的方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中語音合成的情感表達能力不足、自然度和連貫性差,降低用戶體驗的問題。
2、第一方面,本申請實施例提供一種高效文字轉(zhuǎn)語音的方法,包括:
3、接收用戶輸入的文本信息,識別并分析所述文本信息中的情感色彩和語氣特征;
4、根據(jù)所述情感色彩和所述語氣特征,從預(yù)先構(gòu)建的情感語音庫中選擇相匹配的基礎(chǔ)語音片段;
5、利用動態(tài)時間規(guī)整算法調(diào)整所述基礎(chǔ)語音片段的時間軸,使所述基礎(chǔ)語音片段的時間軸與所述文本信息的語速相適應(yīng)的同時保持所述情感色彩的一致性;
6、采用頻譜融合技術(shù),將調(diào)整后的時間軸與所述文本信息的音素序列進行融合,生成語音輸出,其中,所述頻譜融合技術(shù)用以確保不同的情感色彩的基礎(chǔ)語音片段在連接處平滑過渡。
7、第二方面,本申請實施例提供一種高效文字轉(zhuǎn)語音的系統(tǒng),包括:
8、接受識別模塊,用于接收用戶輸入的文本信息,識別并分析所述文本信息中的情感色彩和語氣特征;
9、選擇模塊,用于根據(jù)所述情感色彩和所述語氣特征,從預(yù)先構(gòu)建的情感語音庫中選擇相匹配的基礎(chǔ)語音片段;
10、調(diào)整模塊,用于利用動態(tài)時間規(guī)整算法調(diào)整所述基礎(chǔ)語音片段的時間軸,使所述基礎(chǔ)語音片段的時間軸與所述文本信息的語速相適應(yīng)的同時保持所述情感色彩的一致性;
11、融合模塊,用于采用頻譜融合技術(shù),將調(diào)整后的時間軸與所述文本信息的音素序列進行融合,生成語音輸出,其中,所述頻譜融合技術(shù)用以確保不同的情感色彩的基礎(chǔ)語音片段在連接處平滑過渡。
12、第三方面,本申請實施例提供一種計算設(shè)備,包括處理組件以及存儲組件;所述存儲組件存儲一個或多個計算機指令;所述一個或多個計算機指令用以被所述處理組件調(diào)用執(zhí)行,實現(xiàn)如第一方面任一項所述的一種高效文字轉(zhuǎn)語音的方法。
13、第四方面,本申請實施例提供一種計算機存儲介質(zhì),存儲有計算機程序,所述計算機程序被計算機執(zhí)行時,實現(xiàn)如第一方面任一項所述的一種高效文字轉(zhuǎn)語音的方法。
14、本申請實施例中,接收用戶輸入的文本信息,識別并分析所述文本信息中的情感色彩和語氣特征;根據(jù)所述情感色彩和所述語氣特征,從預(yù)先構(gòu)建的情感語音庫中選擇相匹配的基礎(chǔ)語音片段;利用動態(tài)時間規(guī)整算法調(diào)整所述基礎(chǔ)語音片段的時間軸,使所述基礎(chǔ)語音片段的時間軸與所述文本信息的語速相適應(yīng)的同時保持所述情感色彩的一致性;采用頻譜融合技術(shù),將調(diào)整后的時間軸與所述文本信息的音素序列進行融合,生成語音輸出,其中,所述頻譜融合技術(shù)用以確保不同的情感色彩的基礎(chǔ)語音片段在連接處平滑過渡。本申請?zhí)峁┑募夹g(shù)方案提高了語音合成的情感表達能力、自然度和連貫性,從而大幅提升了用戶體驗。
15、本申請的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。
1.一種高效文字轉(zhuǎn)語音的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述接收用戶輸入的文本信息,識別并分析所述文本信息中的情感色彩和語氣特征,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述情感色彩和所述語氣特征,從預(yù)先構(gòu)建的情感語音庫中選擇相匹配的基礎(chǔ)語音片段,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用動態(tài)時間規(guī)整算法調(diào)整所述基礎(chǔ)語音片段的時間軸,使所述基礎(chǔ)語音片段的時間軸與所述文本信息的語速相適應(yīng)的同時保持所述情感色彩的一致性,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用頻譜融合技術(shù),將調(diào)整后的時間軸與所述文本信息的音素序列進行融合,生成語音輸出,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述應(yīng)用情感分析算法對所述文本信息進行情感分析,確定文本中表達的情感類型,并評估情感得分,包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述頻譜融合技術(shù)在生成語音輸出時,包括:
8.一種高效文字轉(zhuǎn)語音的系統(tǒng),其特征在于,包括:
9.一種計算設(shè)備,其特征在于,包括處理組件以及存儲組件;所述存儲組件存儲一個或多個計算機指令;所述一個或多個計算機指令用以被所述處理組件調(diào)用執(zhí)行,實現(xiàn)如權(quán)利要求1-7任一項所述的一種高效文字轉(zhuǎn)語音的方法。
10.一種計算機存儲介質(zhì),其特征在于,存儲有計算機程序,所述計算機程序被計算機執(zhí)行時,實現(xiàn)如權(quán)利要求1-7任一項所述的一種高效文字轉(zhuǎn)語音的方法。