本發(fā)明屬于圖像數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于脈沖擴散模型的幀間圖像輔助信息生成方法。
背景技術(shù):
1、圖像數(shù)據(jù)處理技術(shù)在幀間圖像輔助信息生成中得到了廣泛應(yīng)用,尤其是在視頻監(jiān)控、視頻會議和流媒體服務(wù)等領(lǐng)域,顯著提高了視頻數(shù)據(jù)的傳輸效率和質(zhì)量。在視頻監(jiān)控系統(tǒng)中,分布式圖像處理通過減少帶寬需求,確保遠(yuǎn)程攝像設(shè)備能夠?qū)崟r傳輸高質(zhì)量的圖像數(shù)據(jù)。在視頻會議中,該技術(shù)優(yōu)化了網(wǎng)絡(luò)資源的使用,確保多方通信的穩(wěn)定性和流暢性。在流媒體服務(wù)中,分布式圖像處理在網(wǎng)絡(luò)條件不穩(wěn)定的情況下,能夠維持視頻質(zhì)量,減少視頻卡頓和緩沖現(xiàn)象。
2、在幀間圖像輔助信息生成過程中,輔助信息生成是圖像處理中的關(guān)鍵環(huán)節(jié)。輔助信息生成是指在圖像處理和編碼過程中創(chuàng)建并傳輸描述圖像各部分關(guān)系的數(shù)據(jù),以幫助解碼端重建完整視頻。通常情況下,圖像數(shù)據(jù)被分為多個編碼單元,使用預(yù)測技術(shù)生成輔助信息。輔助信息可以包括運動矢量、殘差或其他預(yù)測誤差,用于描述各編碼單元之間的依賴關(guān)系。這些信息在解碼階段發(fā)揮至關(guān)重要的作用,通過減少數(shù)據(jù)冗余、提高壓縮比來優(yōu)化編碼和傳輸效率,并保證解碼時的圖像重建質(zhì)量。
3、輔助信息生成在圖像處理中具有廣泛的適用性,可以適應(yīng)不同的網(wǎng)絡(luò)環(huán)境和數(shù)據(jù)丟失條件,確保傳輸帶寬的有效利用和圖像質(zhì)量的穩(wěn)定性?,F(xiàn)有的輔助信息生成方法主要分為兩類:預(yù)測誤差編碼和參考幀差異編碼。預(yù)測誤差編碼通過對視頻幀的預(yù)測誤差進行建模,生成用于精確恢復(fù)丟失數(shù)據(jù)的輔助信息。其優(yōu)點在于能夠高效壓縮數(shù)據(jù),并保持較高的重建質(zhì)量,但在處理復(fù)雜動態(tài)場景時可能存在計算復(fù)雜度高的問題。參考幀差異編碼通過比較當(dāng)前幀與參考幀之間的差異生成輔助信息,適用于實時傳輸與解碼場景,能在不同網(wǎng)絡(luò)條件下穩(wěn)定傳輸數(shù)據(jù),但在多幀依賴的情況下可能產(chǎn)生誤差傳播問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提出一種基于脈沖擴散模型的幀間圖像輔助信息生成方法,通過模擬視頻信號在時間和空間維度上的擴散過程,生成更加精確的輔助信息,旨在提高視頻壓縮效率,優(yōu)化傳輸性能,并增強在復(fù)雜環(huán)境下的視頻解碼魯棒性。
2、本發(fā)明采取的技術(shù)方案是:
3、基于脈沖擴散模型的幀間圖像輔助信息生成方法,包括以下步驟:
4、步驟一,初始輔助信息生成:
5、基于幀間圖像的相似性,利用傳統(tǒng)壓縮算法生成初步的輔助信息,作為后續(xù)優(yōu)化處理的基礎(chǔ);這一初始步驟能夠快速生成初步預(yù)測,減少后續(xù)處理的計算負(fù)擔(dān)。
6、步驟二,脈沖神經(jīng)網(wǎng)絡(luò)編碼:
7、通過脈沖神經(jīng)網(wǎng)絡(luò)(snn)對初始輔助信息進行編碼,模擬生物神經(jīng)元的活動模式,優(yōu)化輔助信息的時序處理能力,從而提升數(shù)據(jù)表征的精確性和時空關(guān)聯(lián)度;
8、步驟三,基于擴散模型的噪聲注入:
9、采用擴散模型在脈沖神經(jīng)網(wǎng)絡(luò)編碼后的輔助信息中逐步注入噪聲,模擬真實環(huán)境中的隨機擾動,增強生成輔助信息在復(fù)雜場景下的魯棒性,確保在傳輸或解碼過程中能應(yīng)對外部干擾;
10、步驟四,優(yōu)化輔助信息解碼:
11、通過擴散模型的反向過程,從含噪聲的輔助信息恢復(fù)出高質(zhì)量的輔助信息,逐步消除噪聲并生成優(yōu)化的輔助信息;
12、通過脈沖神經(jīng)網(wǎng)絡(luò)對優(yōu)化后的輔助信息進行反向解碼,將其還原為具有物理意義的中間結(jié)果,確保解碼過程的穩(wěn)定性和精確性,為后續(xù)的視頻幀重構(gòu)提供可靠的輔助信息;
13、步驟五,重構(gòu)視頻幀生成:
14、結(jié)合優(yōu)化后的輔助信息與視頻塊的局部特征,應(yīng)用反卷積圖像處理技術(shù),重構(gòu)最終的視頻幀,完成壓縮視頻數(shù)據(jù)的高效傳輸和解碼重建。
15、進一步的,在步驟一中,所述初始的輔助信息,是根據(jù)當(dāng)前視頻幀序列的結(jié)構(gòu)和運動特征,利用線性或非線性插值方法生成,具體表示為:
16、,
17、其中,表示初始化的輔助信息,表示差值函數(shù),和分別表示前后幀。
18、進一步的,在步驟二中,具體采用脈沖發(fā)放模型模擬生物神經(jīng)元的活動,優(yōu)化輔助信息的表征,具體表示為:
19、,
20、式中,為神經(jīng)元i在時刻t的電位,為膜時間常數(shù),為反轉(zhuǎn)電位,為輸入電流;
21、在?snn?中,輸入電流是與初始化的輔助信息直接相關(guān)的,采用下式表示:
22、,
23、其中, α和 β是調(diào)節(jié)輔助信息影響的參數(shù)。
24、進一步的,在步驟三中,將snn編碼后的輔助信息輸入到擴散模型中,逐步注入噪聲以模擬隨機擾動的過程,產(chǎn)生更逼近真實分布的輔助信息,具體表示為:
25、,
26、式中,表示擴散系數(shù),表示高斯噪聲,表示當(dāng)前時刻的輔助信息狀態(tài),看作是snn神經(jīng)元電位的函數(shù)輸出;在每個時間步t,snn?網(wǎng)絡(luò)中的神經(jīng)元膜電位的狀態(tài)更新將影響最終的輔助信息,將神經(jīng)元的輸出(如脈沖發(fā)放率)映射到輔助信息,形成以下關(guān)系:
27、,
28、其中,是神經(jīng)元電位的非線性變換,可能基于脈沖發(fā)放頻率或者其他與神經(jīng)元狀態(tài)相關(guān)的度量。
29、進一步的,在步驟四中,所述生成優(yōu)化的輔助信息的過程,表示為:
30、,
31、其中,通過所述反向過程得到,具體表示為:
32、,
33、式中,表示經(jīng)過snn優(yōu)化后的輔助信息生成函數(shù), si opt?為最終優(yōu)化的輔助信息;表示通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的噪聲估計函數(shù);
34、所述生成函數(shù)的網(wǎng)絡(luò)架構(gòu)包括:
35、501:輸入層:接收輸入的輔助信息,并將其編碼為脈沖信號;
36、502:編碼層:通過?lif神經(jīng)元模型將輸入信號轉(zhuǎn)化為脈沖序列;
37、503:脈沖神經(jīng)元層:根據(jù)輸入的脈沖序列,模擬脈沖發(fā)放機制;
38、504:突觸權(quán)重層:通過stdp算法調(diào)整突觸權(quán)重;
39、505:膜電位累積層:神經(jīng)元的膜電位根據(jù)接收到的脈沖累積并更新,超過閾值時發(fā)放脈沖;
40、506:輸出層:通過將脈沖序列解碼為連續(xù)信號,生成最終優(yōu)化后的輔助信息 si opt?。
41、這一架構(gòu)通過模擬生物神經(jīng)網(wǎng)絡(luò)的工作機制,使視頻壓縮的輔助信息生成過
42、程更加高效和智能化。
43、進一步的,步驟五中,重構(gòu)最終視頻幀的過程,表示為:
44、,
45、式中,表示解碼后的重構(gòu)視頻幀,表示重構(gòu)函數(shù);所述重構(gòu)函數(shù)的網(wǎng)絡(luò)架構(gòu)包括:
46、601:輸入層:接收輸入的優(yōu)化輔助信息 si opt?,輸入維度為? h?×? w?×? c;
47、602:卷積層:多層卷積層從 si opt?提取低級空間特征,逐步深入提取更高層次的特征;
48、603:池化層:使用最大池化或平均池化進行下采樣,減少特征圖的尺寸和計算復(fù)雜度;
49、604:上采樣層:通過反卷積或雙線性插值恢復(fù)特征圖到原始分辨率,重構(gòu)圖像的細(xì)節(jié);
50、605:跳躍連接:將低級特征與高層次特征進行融合,保留細(xì)節(jié);
51、606:輸出層:最后一層生成最終重構(gòu)的視頻幀 f rec,用于視頻幀的恢復(fù)。
52、這些步驟利用脈沖神經(jīng)網(wǎng)絡(luò)和擴散模型結(jié)合,通過動態(tài)調(diào)整和優(yōu)化輔助信息,提高了分布式視頻壓縮的質(zhì)量和效率。
53、本發(fā)明的有益效果:
54、本發(fā)明通過模擬視頻信號的時空擴散行為生成輔助信息。該方法結(jié)合了脈沖神經(jīng)網(wǎng)絡(luò)和擴散過程,有效捕捉視頻信號中的復(fù)雜時序和空間特征,從而生成高效、魯棒的輔助信息,確保在高壓縮率條件下保持較高的圖像重構(gòu)質(zhì)量。與傳統(tǒng)的輔助信息生成方法相比,基于脈沖擴散模型的方法具有更高的壓縮效率,并能有效提高復(fù)雜動態(tài)場景下的數(shù)據(jù)處理能力。具體表現(xiàn)在:
55、(1)脈沖神經(jīng)網(wǎng)絡(luò)結(jié)合擴散模型的輔助信息生成機制:通過結(jié)合脈沖神經(jīng)網(wǎng)絡(luò)與擴散模型,模擬生物神經(jīng)元的發(fā)放機制和隨機噪聲注入過程,從而提高輔助信息生成的精度和有效性,顯著提升視頻壓縮性能。
56、(2)基于突觸可塑性的自適應(yīng)權(quán)重更新機制:引入突觸可塑性原理,利用脈沖時序依賴的突觸可塑性(stdp)算法,動態(tài)調(diào)整神經(jīng)元間的連接權(quán)重,實現(xiàn)自適應(yīng)的輔助信息生成和優(yōu)化,提高視頻壓縮過程中的數(shù)據(jù)還原度和網(wǎng)絡(luò)適應(yīng)性。
57、(3)輔助信息的自適應(yīng)優(yōu)化機制:根據(jù)視頻幀的內(nèi)容和特征,動態(tài)調(diào)整脈沖神經(jīng)網(wǎng)絡(luò)的參數(shù)和擴散過程,確保在不同壓縮條件下保持較高的視頻重構(gòu)質(zhì)量。