一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)與流程

文檔序號：40444986發(fā)布日期：2024-12-24 15:19閱讀：32來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及音頻處理，特別是一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)。

背景技術(shù)：

1、音頻離散化重建是將連續(xù)音頻特征序列映射到有限的離散代碼空間，將連續(xù)音頻特征序列轉(zhuǎn)化為離散化特征（離散碼），對連續(xù)音頻特征序列進(jìn)行表征和重建，以實現(xiàn)音頻更有效的壓縮、生成和傳輸。

2、目前音頻離散化解決了音頻模態(tài)與大語言模型的結(jié)合，復(fù)雜且冗長的音頻無法直接輸入大模型中進(jìn)行學(xué)習(xí)，經(jīng)過音頻離散化壓縮后，音頻就能很好的與大模型結(jié)合，使能夠直接理解和生成音頻的端到端大模型真正落地。

3、現(xiàn)有技術(shù)中，音頻離散化重建系統(tǒng)，主要包括編碼器（encoder）、量化器（quantizer）和解碼器（decoder）。

4、編碼器（encoder）將高維的原始音頻壓縮到一個低維的特征空間，提取連續(xù)音頻特征序列，通常采用卷積神經(jīng)網(wǎng)絡(luò)（cnn）或?transformer?模型。編碼器（encoder）首先提取音頻的特征信息，例如時頻特征，提取的特征在傳輸?shù)搅炕鳎╭uantizer）之前是一個連續(xù)的潛在表示，即連續(xù)音頻特征序列。

5、量化器（quantizer）是現(xiàn)有音頻離散化重建系統(tǒng)的核心部分，將編碼器（encoder）輸出的連續(xù)音頻特征序列離散化，通過查找最接近特征的離散代碼向量（從代碼表中選擇），將連續(xù)音頻特征序列映射到離散空間，生成離散化特征。

6、解碼器（decoder），利用量化器（quantizer）得到的離散化特征進(jìn)行音頻重建。

7、現(xiàn)有音頻離散化重建系統(tǒng)，通過編碼器（encoder）、量化器（quantizer）和解碼器（decoder）對音頻壓縮、離散化并重建。解碼器（decoder）與編碼器（encoder）一樣，采用卷積神經(jīng)網(wǎng)絡(luò)（cnn）解碼器、反卷積解碼器或者基于自回歸結(jié)構(gòu)的解碼器，將離散化特征作為輸入，再現(xiàn)原始音頻波形或頻譜信息。

8、現(xiàn)有音頻離散化重建系統(tǒng)，能夠?qū)⑦B續(xù)音頻特征序列映射到有限的離散代碼空間，對連續(xù)音頻特征序列進(jìn)行表征和重建，但是目前的音頻離散化重建系統(tǒng)還存在如下不足：

9、（1）編碼器（encoder）和解碼器（decoder）基本上遵從鏡像對稱結(jié)構(gòu)。然而，音頻的特征提取和重建，在參數(shù)上可能會有不同側(cè)重點(diǎn)，編碼器（encoder）和解碼器（decoder）的對稱結(jié)構(gòu)無法同時滿足特征提取和重建的需要，從而影響編碼器的音頻特征提取和解碼器的音頻重建效果。

10、例如，解碼器（decoder）與編碼器（encoder）的鏡像對稱結(jié)構(gòu)，這種標(biāo)準(zhǔn)結(jié)構(gòu)一般由于上采樣的需求，會使用一系列時序上的操作，如空洞卷積（增加時序感受野）、轉(zhuǎn)制卷積（也叫反卷積，用于上采樣），增加感受野并逐步從特征上采樣到波形，這樣的結(jié)構(gòu)很容易產(chǎn)生混疊效應(yīng)，也就是在頻域上不能完全進(jìn)行足夠的采樣，造成較高的頻率成分“折疊”到較低的頻率范圍，與實際的低頻成分混淆，從而導(dǎo)致音頻重建時出現(xiàn)失真和噪聲，影響音頻重建的質(zhì)量。

11、（2）現(xiàn)有的解碼器（decoder）與編碼器（encoder）的鏡像對稱結(jié)構(gòu)，解碼器（decoder）不管是直接對音頻重建，還是對特征譜圖（如頻譜圖、梅爾譜圖）的還原，利用離散化特征進(jìn)行音頻重建的精度都比較有限，且為了達(dá)到高壓縮率的需求，音頻重建的質(zhì)量往往會受限于編碼器（encoder）過高的下采樣率和量化器（quantizer）有限的碼本參數(shù)量，在音頻重建時，重建的音頻存在部分細(xì)節(jié)失真的問題，無法生成高保真音頻。

技術(shù)實現(xiàn)思路

1、本發(fā)明提出了一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)，以解決現(xiàn)有音頻離散化重建，重建的音頻存在部分細(xì)節(jié)失真的問題，無法生成高保真音頻的技術(shù)問題。

2、本發(fā)明的一個方面在于提供一種用于音頻離散化重建的解碼器，所述解碼器包括：cnn層，用于輸入音頻的離散化特征，并將所述離散化特征進(jìn)行初步特征還原，生成還原特征；

3、stft預(yù)測層，用于對所述還原特征，在多個頻域尺度下預(yù)測傅立葉譜系數(shù)；其中，預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù)；

4、利用預(yù)測的傅立葉譜系數(shù)，在多個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù)，生成所述還原特征在多個頻域尺度下的stft頻譜圖；

5、istft層，用于將多個頻域尺度下的所述stft頻譜圖進(jìn)行逆短時傅里葉變換，將所述stft頻譜圖轉(zhuǎn)換回時間域，生成多個完整的候選音頻；

6、融合層，用于對多個所述候選音頻進(jìn)行融合，生成重建的音頻。

7、在一個優(yōu)選的實施例中，所述stft預(yù)測層包括堆疊的多個深度卷積層和多個逐點(diǎn)卷積層。

8、在一個優(yōu)選的實施例中，所述stft預(yù)測層，對所述還原特征，在一個頻域尺度下預(yù)測傅立葉譜系數(shù)；其中，預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù)；

9、利用預(yù)測的傅立葉譜系數(shù)，在一個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù)，生成所述還原特征在一個頻域尺度下的stft頻譜圖。

10、在一個優(yōu)選的實施例中，所述融合層采用加權(quán)平均、基于低頻保留高頻增強(qiáng)規(guī)則或者全連接層預(yù)測中的任一方式，對多個所述候選音頻進(jìn)行融合。

11、本發(fā)明的另一個方面在于提供一種音頻離散化重建的系統(tǒng)，所述系統(tǒng)包括編碼器、量化器，以及本發(fā)明提供的一種解碼器。

12、在一個優(yōu)選的實施例中，所述編碼器，用于獲取原始音頻；

13、對所述原始音頻下采樣，提取原始音頻的連續(xù)音頻特征序列；

14、所述量化器，用于對提取的所述連續(xù)音頻特征序列進(jìn)行離散化，生成音頻的離散化特征。

15、本發(fā)明的又一個方面在于提供一種音頻離散化重建的方法，所述方法包括如下方法步驟：

16、s1、獲取原始音頻；

17、對所述原始音頻下采樣，提取原始音頻的連續(xù)音頻特征序列；

18、s2、對提取的所述連續(xù)音頻特征序列進(jìn)行離散化，生成音頻的離散化特征；

19、s3、將所述離散化特征進(jìn)行初步特征還原，生成還原特征；

20、s4、對所述還原特征，在多個頻域尺度下預(yù)測傅立葉譜系數(shù)；其中，預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù)；

21、利用預(yù)測的傅立葉譜系數(shù)，在多個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù)，生成所述還原特征在多個頻域尺度下的stft頻譜圖；

22、s5、將多個頻域尺度下的所述stft頻譜圖進(jìn)行逆短時傅里葉變換，將所述stft頻譜圖轉(zhuǎn)換回時間域，生成多個完整的候選音頻；

23、s6、對多個所述候選音頻進(jìn)行融合，生成重建的音頻，完成音頻離散化重建。

24、在一個優(yōu)選的實施例中，在步驟s4中，對所述還原特征，在一個頻域尺度下預(yù)測傅立葉譜系數(shù)；其中，預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù)；

25、利用預(yù)測的傅立葉譜系數(shù)，在一個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù)，生成所述還原特征在一個頻域尺度下的stft頻譜圖。

26、在一個優(yōu)選的實施例中，在步驟s6中，采用加權(quán)平均、基于低頻保留高頻增強(qiáng)規(guī)則或者全連接層預(yù)測中的任一方式，對多個所述候選音頻進(jìn)行融合。

27、本發(fā)明的再一個方面在于提供一種計算機(jī)存儲介質(zhì)，所述計算機(jī)存儲介質(zhì)，用于存儲計算機(jī)執(zhí)行指令，所述計算機(jī)執(zhí)行指令，用于執(zhí)行本發(fā)明提供的一種音頻離散化重建的方法。

28、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：

29、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)，解碼器將離散化特征進(jìn)行初步特征還原，生成還原特征；對還原特征在多個頻域尺度下預(yù)測傅立葉譜系數(shù)，利用預(yù)測的傅立葉譜系數(shù)，在多個頻域尺度下對還原特征進(jìn)行頻譜恢復(fù)，生成還原特征在多個頻域尺度下的stft頻譜圖。將多個頻域尺度下的stft頻譜圖進(jìn)行逆短時傅里葉變換，將stft頻譜圖轉(zhuǎn)換回時間域，生成多個完整的候選音頻，最后對多個候選音頻進(jìn)行融合，生成重建的音頻，可以保證編碼器高壓縮率的前提下，實現(xiàn)高質(zhì)量的音頻重建。

30、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)，解碼器進(jìn)行音頻重建時，能夠避免重建的音頻出現(xiàn)失真和噪聲，實現(xiàn)重建高保真音頻，提高重建的音頻的質(zhì)量。

31、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)，可以顯著降低音頻數(shù)據(jù)的存儲需求，同時保持較高的重建質(zhì)量，適用于通信和存儲資源受限的場景，如語音通話、音頻流媒體等。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許暢,楊華
技術(shù)所有人：上海巖芯數(shù)智人工智能科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)與流程

一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)與流程