本發(fā)明涉及音頻處理,特別是一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)。
背景技術(shù):
1、音頻離散化重建是將連續(xù)音頻特征序列映射到有限的離散代碼空間,將連續(xù)音頻特征序列轉(zhuǎn)化為離散化特征(離散碼),對連續(xù)音頻特征序列進(jìn)行表征和重建,以實現(xiàn)音頻更有效的壓縮、生成和傳輸。
2、目前音頻離散化解決了音頻模態(tài)與大語言模型的結(jié)合,復(fù)雜且冗長的音頻無法直接輸入大模型中進(jìn)行學(xué)習(xí),經(jīng)過音頻離散化壓縮后,音頻就能很好的與大模型結(jié)合,使能夠直接理解和生成音頻的端到端大模型真正落地。
3、現(xiàn)有技術(shù)中,音頻離散化重建系統(tǒng),主要包括編碼器(encoder)、量化器(quantizer)和解碼器(decoder)。
4、編碼器(encoder)將高維的原始音頻壓縮到一個低維的特征空間,提取連續(xù)音頻特征序列,通常采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)或?transformer?模型。編碼器(encoder)首先提取音頻的特征信息,例如時頻特征,提取的特征在傳輸?shù)搅炕鳎╭uantizer)之前是一個連續(xù)的潛在表示,即連續(xù)音頻特征序列。
5、量化器(quantizer)是現(xiàn)有音頻離散化重建系統(tǒng)的核心部分,將編碼器(encoder)輸出的連續(xù)音頻特征序列離散化,通過查找最接近特征的離散代碼向量(從代碼表中選擇),將連續(xù)音頻特征序列映射到離散空間,生成離散化特征。
6、解碼器(decoder),利用量化器(quantizer)得到的離散化特征進(jìn)行音頻重建。
7、現(xiàn)有音頻離散化重建系統(tǒng),通過編碼器(encoder)、量化器(quantizer)和解碼器(decoder)對音頻壓縮、離散化并重建。解碼器(decoder)與編碼器(encoder)一樣,采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)解碼器、反卷積解碼器或者基于自回歸結(jié)構(gòu)的解碼器,將離散化特征作為輸入,再現(xiàn)原始音頻波形或頻譜信息。
8、現(xiàn)有音頻離散化重建系統(tǒng),能夠?qū)⑦B續(xù)音頻特征序列映射到有限的離散代碼空間,對連續(xù)音頻特征序列進(jìn)行表征和重建,但是目前的音頻離散化重建系統(tǒng)還存在如下不足:
9、(1)編碼器(encoder)和解碼器(decoder)基本上遵從鏡像對稱結(jié)構(gòu)。然而,音頻的特征提取和重建,在參數(shù)上可能會有不同側(cè)重點(diǎn),編碼器(encoder)和解碼器(decoder)的對稱結(jié)構(gòu)無法同時滿足特征提取和重建的需要,從而影響編碼器的音頻特征提取和解碼器的音頻重建效果。
10、例如,解碼器(decoder)與編碼器(encoder)的鏡像對稱結(jié)構(gòu),這種標(biāo)準(zhǔn)結(jié)構(gòu)一般由于上采樣的需求,會使用一系列時序上的操作,如空洞卷積(增加時序感受野)、轉(zhuǎn)制卷積(也叫反卷積,用于上采樣),增加感受野并逐步從特征上采樣到波形,這樣的結(jié)構(gòu)很容易產(chǎn)生混疊效應(yīng),也就是在頻域上不能完全進(jìn)行足夠的采樣,造成較高的頻率成分“折疊”到較低的頻率范圍,與實際的低頻成分混淆,從而導(dǎo)致音頻重建時出現(xiàn)失真和噪聲,影響音頻重建的質(zhì)量。
11、(2)現(xiàn)有的解碼器(decoder)與編碼器(encoder)的鏡像對稱結(jié)構(gòu),解碼器(decoder)不管是直接對音頻重建,還是對特征譜圖(如頻譜圖、梅爾譜圖)的還原,利用離散化特征進(jìn)行音頻重建的精度都比較有限,且為了達(dá)到高壓縮率的需求,音頻重建的質(zhì)量往往會受限于編碼器(encoder)過高的下采樣率和量化器(quantizer)有限的碼本參數(shù)量,在音頻重建時,重建的音頻存在部分細(xì)節(jié)失真的問題,無法生成高保真音頻。
技術(shù)實現(xiàn)思路
1、本發(fā)明提出了一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),以解決現(xiàn)有音頻離散化重建,重建的音頻存在部分細(xì)節(jié)失真的問題,無法生成高保真音頻的技術(shù)問題。
2、本發(fā)明的一個方面在于提供一種用于音頻離散化重建的解碼器,所述解碼器包括:cnn層,用于輸入音頻的離散化特征,并將所述離散化特征進(jìn)行初步特征還原,生成還原特征;
3、stft預(yù)測層,用于對所述還原特征,在多個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);
4、利用預(yù)測的傅立葉譜系數(shù),在多個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在多個頻域尺度下的stft頻譜圖;
5、istft層,用于將多個頻域尺度下的所述stft頻譜圖進(jìn)行逆短時傅里葉變換,將所述stft頻譜圖轉(zhuǎn)換回時間域,生成多個完整的候選音頻;
6、融合層,用于對多個所述候選音頻進(jìn)行融合,生成重建的音頻。
7、在一個優(yōu)選的實施例中,所述stft預(yù)測層包括堆疊的多個深度卷積層和多個逐點(diǎn)卷積層。
8、在一個優(yōu)選的實施例中,所述stft預(yù)測層,對所述還原特征,在一個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);
9、利用預(yù)測的傅立葉譜系數(shù),在一個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在一個頻域尺度下的stft頻譜圖。
10、在一個優(yōu)選的實施例中,所述融合層采用加權(quán)平均、基于低頻保留高頻增強(qiáng)規(guī)則或者全連接層預(yù)測中的任一方式,對多個所述候選音頻進(jìn)行融合。
11、本發(fā)明的另一個方面在于提供一種音頻離散化重建的系統(tǒng),所述系統(tǒng)包括編碼器、量化器,以及本發(fā)明提供的一種解碼器。
12、在一個優(yōu)選的實施例中,所述編碼器,用于獲取原始音頻;
13、對所述原始音頻下采樣,提取原始音頻的連續(xù)音頻特征序列;
14、所述量化器,用于對提取的所述連續(xù)音頻特征序列進(jìn)行離散化,生成音頻的離散化特征。
15、本發(fā)明的又一個方面在于提供一種音頻離散化重建的方法,所述方法包括如下方法步驟:
16、s1、獲取原始音頻;
17、對所述原始音頻下采樣,提取原始音頻的連續(xù)音頻特征序列;
18、s2、對提取的所述連續(xù)音頻特征序列進(jìn)行離散化,生成音頻的離散化特征;
19、s3、將所述離散化特征進(jìn)行初步特征還原,生成還原特征;
20、s4、對所述還原特征,在多個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);
21、利用預(yù)測的傅立葉譜系數(shù),在多個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在多個頻域尺度下的stft頻譜圖;
22、s5、將多個頻域尺度下的所述stft頻譜圖進(jìn)行逆短時傅里葉變換,將所述stft頻譜圖轉(zhuǎn)換回時間域,生成多個完整的候選音頻;
23、s6、對多個所述候選音頻進(jìn)行融合,生成重建的音頻,完成音頻離散化重建。
24、在一個優(yōu)選的實施例中,在步驟s4中,對所述還原特征,在一個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);
25、利用預(yù)測的傅立葉譜系數(shù),在一個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在一個頻域尺度下的stft頻譜圖。
26、在一個優(yōu)選的實施例中,在步驟s6中,采用加權(quán)平均、基于低頻保留高頻增強(qiáng)規(guī)則或者全連接層預(yù)測中的任一方式,對多個所述候選音頻進(jìn)行融合。
27、本發(fā)明的再一個方面在于提供一種計算機(jī)存儲介質(zhì),所述計算機(jī)存儲介質(zhì),用于存儲計算機(jī)執(zhí)行指令,所述計算機(jī)執(zhí)行指令,用于執(zhí)行本發(fā)明提供的一種音頻離散化重建的方法。
28、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
29、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),解碼器將離散化特征進(jìn)行初步特征還原,生成還原特征;對還原特征在多個頻域尺度下預(yù)測傅立葉譜系數(shù),利用預(yù)測的傅立葉譜系數(shù),在多個頻域尺度下對還原特征進(jìn)行頻譜恢復(fù),生成還原特征在多個頻域尺度下的stft頻譜圖。將多個頻域尺度下的stft頻譜圖進(jìn)行逆短時傅里葉變換,將stft頻譜圖轉(zhuǎn)換回時間域,生成多個完整的候選音頻,最后對多個候選音頻進(jìn)行融合,生成重建的音頻,可以保證編碼器高壓縮率的前提下,實現(xiàn)高質(zhì)量的音頻重建。
30、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),解碼器進(jìn)行音頻重建時,能夠避免重建的音頻出現(xiàn)失真和噪聲,實現(xiàn)重建高保真音頻,提高重建的音頻的質(zhì)量。
31、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),可以顯著降低音頻數(shù)據(jù)的存儲需求,同時保持較高的重建質(zhì)量,適用于通信和存儲資源受限的場景,如語音通話、音頻流媒體等。