本發(fā)明涉及直播系統(tǒng),尤其涉及一種通過在客戶端或服務(wù)端設(shè)定多個虛擬角色直播話術(shù)并生成音頻媒體的方法和系統(tǒng)。
背景技術(shù):
1、目前,借助ai語音生成技術(shù),將文本直播話術(shù)轉(zhuǎn)化為語音媒體,并在直播間使用的技術(shù)已經(jīng)相對成熟。這些ai生成的語音主要用于代替真人主播,實現(xiàn)自動化內(nèi)容的播報。然而,現(xiàn)有的技術(shù)方案通常只支持單一虛擬角色的語音播報,導(dǎo)致直播過程的互動性和趣味性不足,形式較為單一。
2、在真人直播中,采用多人語音播報的形式已經(jīng)逐漸成為一種趨勢。通過多個角色的互動可以增強觀眾的參與感和直播的生動性。然而,現(xiàn)有的ai技術(shù)尚未能有效實現(xiàn)多個虛擬角色的語音播報。如何在直播場景中,借助ai技術(shù)生成多個虛擬角色的語音,并在同一段話術(shù)中實現(xiàn)自然、連貫的多人播報,成為亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種支持多個虛擬角色語音播報的直播話術(shù)生成方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)中單一虛擬角色播報形式單調(diào)、缺乏互動性的問題。本發(fā)明通過創(chuàng)新的話術(shù)語法結(jié)構(gòu)和多角色語音配置,實現(xiàn)了在直播場景中多個虛擬角色的語音互動與播報,顯著提升了直播內(nèi)容的生動性。
2、本發(fā)明主要包括以下幾個方面的創(chuàng)新內(nèi)容:
3、多角色話術(shù)設(shè)定:?本發(fā)明設(shè)計了一種用于生成多角色直播對話內(nèi)容的語法結(jié)構(gòu)。該語法結(jié)構(gòu)包括開始標(biāo)識符(startmarker)、角色標(biāo)識符(roleid)、內(nèi)容標(biāo)識符(content)和結(jié)束標(biāo)識符(endmarker)。用戶可以通過這些標(biāo)識符在文本中定義多個虛擬角色的對話內(nèi)容。每個角色的臺詞被嵌入在對應(yīng)的標(biāo)識符之間,從而生成一個多角色對話的結(jié)構(gòu)化文本。通過這種語法結(jié)構(gòu),用戶可以輕松設(shè)定不同角色的對話內(nèi)容,使得多個角色之間的互動更加自然和靈活。
4、語法解析與語音配置:?系統(tǒng)通過解析用戶輸入的話術(shù)文本,生成對應(yīng)的語法樹結(jié)構(gòu),識別并拆分出默認(rèn)段落和各個虛擬角色的段落內(nèi)容。隨后,系統(tǒng)會根據(jù)每個角色的標(biāo)識符,提示用戶為不同的角色選擇相應(yīng)的語音特征,包括音色、語速、語調(diào)等。每個虛擬角色的語音特征可以根據(jù)用戶的需求進行個性化配置,確保不同角色在音頻中的聲音表現(xiàn)具有顯著差異,增強了角色之間的區(qū)分度和多樣性。
5、文本轉(zhuǎn)語音(tts)生成:?在生成語音的過程中,系統(tǒng)利用文本到語音轉(zhuǎn)換(tts)技術(shù),將解析后的多角色話術(shù)內(nèi)容分別轉(zhuǎn)換為獨立的音頻文件。系統(tǒng)能夠并行處理多個角色的音頻生成任務(wù),提升了音頻文件生成的效率。這一步驟確保了每個角色的臺詞都能夠以高質(zhì)量的語音形式呈現(xiàn),并且每個角色的語音特征都能準(zhǔn)確反映出用戶的設(shè)定。
6、音頻合并與輸出:?在所有角色的音頻文件生成完成后,系統(tǒng)將這些音頻文件按照預(yù)設(shè)的語法結(jié)構(gòu)順序進行合并,生成一個完整的音頻輸出文件。合并過程中,系統(tǒng)會自動調(diào)整音頻文件之間的銜接,確保角色對話的連貫性和自然流暢性。生成的合并音頻文件可以直接用于直播場景,用戶可以選擇將其播放于直播間中,或者保存以備后續(xù)使用。
7、即時反饋與高效應(yīng)用:?本發(fā)明的系統(tǒng)架構(gòu)設(shè)計確保了用戶在輸入話術(shù)文本后,能夠迅速獲得生成的多角色語音文件。用戶提交的文本通過系統(tǒng)處理后,將在短時間內(nèi)得到相應(yīng)的音頻反饋,滿足了直播場景對實時性和高效性的需求。此外,生成的音頻文件可直接應(yīng)用于各種直播平臺,或者用于其他需要多角色語音互動的場景中。
8、通過上述創(chuàng)新步驟,本發(fā)明實現(xiàn)了從原始文本到高質(zhì)量多角色語音播報的自動化處理流程,顯著提升了直播內(nèi)容的互動性和趣味性。本發(fā)明不僅適用于直播場景,還可廣泛應(yīng)用于智能客服、虛擬助理等需要多角色語音播報的領(lǐng)域。相比現(xiàn)有技術(shù),本發(fā)明在語音生成的多樣性、效率和用戶體驗上具有顯著優(yōu)勢,具有較高的技術(shù)進步性和應(yīng)用價值。
1.一種支持多個虛擬角色語音播報的直播話術(shù)生成系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述話術(shù)輸入模塊包括客戶端設(shè)備,允許用戶通過手機應(yīng)用或計算機終端輸入包含角色標(biāo)識符的話術(shù)文本。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述語法解析模塊能夠識別話術(shù)文本中的開始標(biāo)識符和結(jié)束標(biāo)識符,并將其對應(yīng)的內(nèi)容解析為語法樹結(jié)構(gòu)中的節(jié)點。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述角色語音配置模塊進一步包括音色選擇單元,用于為不同虛擬角色分配不同的語音特征,以增強角色之間的區(qū)分度和個性化。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述語音生成模塊采用文本到語音轉(zhuǎn)換(tts)技術(shù),基于角色語音配置模塊中的語音特征生成高質(zhì)量的虛擬角色音頻文件。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述音頻合并模塊能夠通過時間軸控制和語音特征匹配,確保合并后的音頻文件中虛擬角色之間的對話自然、連貫。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述音頻輸出模塊進一步包括流媒體接口,用于將合并后的音頻文件直接傳輸至用戶所需要的平臺進行實時播放。