本發(fā)明涉及用于處理圖像的編碼和/或解碼裝置、方法和系統(tǒng)。
背景技術(shù):
1、圖像壓縮是一種信號(hào)處理操作,其可便于高效的圖像傳輸和存儲(chǔ)。已知的圖像壓縮標(biāo)準(zhǔn)包括聯(lián)合圖像專(zhuān)家組(jpeg)、聯(lián)合圖像專(zhuān)家組2000(jpeg2000)、hevc/h.265、多功能視頻編碼(vvc)等。這些標(biāo)準(zhǔn)大多依賴于具有基于塊的編碼而定制的編碼器/解碼器框架。盡管這些標(biāo)準(zhǔn)已被廣泛使用,但是對(duì)進(jìn)一步改進(jìn)編碼性能的需求正持續(xù)增長(zhǎng)。
2、近年來(lái),深度圖像壓縮(基于深度學(xué)習(xí)的圖像壓縮)開(kāi)始獲得關(guān)注。深度圖像壓縮主要包括基于自編碼器(autoencoder)的圖像壓縮和生成式(generative)圖像壓縮。一般而言,在基于自編碼器的圖像壓縮中,編碼器學(xué)習(xí)生成輸入圖像的緊湊表示,而解碼器則基于該緊湊表示重建接近輸入圖像的圖像。在一些示例中,與自編碼器(ae)模型相關(guān)的變分自編碼器(vae)側(cè)重于學(xué)習(xí)具有連續(xù)特征的表示。在一些示例中,矢量量化變分自編碼器(vq-vae)將潛在特征量化為整數(shù)標(biāo)記以獲得圖像的緊湊表示。另一方面,生成式圖像壓縮一般利用生成式模型對(duì)圖像進(jìn)行壓縮。在一些示例中,它可以表現(xiàn)出較高的壓縮效率并且即使在較低比特率下也能獲得視覺(jué)上良好的結(jié)果。
3、較為新興的方法包括具有跨模態(tài)表示的語(yǔ)義壓縮,其旨在提高不同方法的壓縮效率。作為示例,li等人在題為“cross?modal?compression:towards?human-comprehensiblesemantic?compression”(2021)的文章中提出了跨模態(tài)壓縮框架,其結(jié)合圖像到文本(i2t)翻譯和文本到圖像(t2i)的生成式模型,以達(dá)到人類(lèi)可理解的結(jié)果。然而,這種方法主要強(qiáng)調(diào)保存語(yǔ)義一致性而不是信號(hào)級(jí)的重建。為了解決這限制,作為示例,zhang等人在題為“rethinkingsemantic?image?compression:scalable?representation?with?cross-modality?transfer”(2023)的文章中提出了可擴(kuò)展的跨模態(tài)壓縮(scmc)范式,其利用不同的模態(tài)對(duì)圖像進(jìn)行分層勾畫(huà),以在不同階段實(shí)現(xiàn)語(yǔ)義、結(jié)構(gòu)和信號(hào)級(jí)的重建。盡管這些方法已經(jīng)取得了不錯(cuò)的結(jié)果,但是這些方法大多依賴于利用另一種模態(tài)(如文本)來(lái)直接表示視覺(jué)場(chǎng)景,使得細(xì)粒度的可擴(kuò)展性和互動(dòng)性沒(méi)有得到很好的支持。
技術(shù)實(shí)現(xiàn)思路
1、在第一方面,本發(fā)明提供了一種編碼裝置。該編碼裝置包括圖像編碼器、量化模塊、采樣模塊以及壓縮模塊。圖像編碼器用于從圖像提取圖像編碼特征。量化模塊用于基于潛在嵌入空間對(duì)圖像編碼特征進(jìn)行量化以將圖像編碼特征轉(zhuǎn)換為離散的潛在變量。采樣模塊用于利用與采樣因子相關(guān)的采樣掩膜對(duì)離散的潛在變量進(jìn)行采樣以獲得采樣潛在變量。壓縮模塊用于對(duì)采樣潛在變量進(jìn)行壓縮。壓縮后的采樣潛在變量可用于生成與圖像相關(guān)的比特流。優(yōu)選地,采樣因子是可以調(diào)節(jié)的。
2、在第一方面的一些實(shí)施方式中,采樣模塊還用于生成采樣掩膜,其包括:從圖像提取掩膜以將與圖像相關(guān)的前景信息和背景信息分離,處理所提取的掩膜以獲得錨點(diǎn)掩膜,根據(jù)采樣因子生成區(qū)間掩膜,以及將錨點(diǎn)掩膜和區(qū)間掩膜結(jié)合生成采樣掩膜。
3、在第一方面的一些實(shí)施方式中,采樣模塊調(diào)整所提取的掩膜的大小并對(duì)調(diào)整后的掩膜進(jìn)行二值化以處理所提取的掩膜。
4、在第一方面的一些實(shí)施方式中,至少圖像編碼器和潛在嵌入空間通過(guò)損失函數(shù)進(jìn)行訓(xùn)練。
5、在第一方面的一些實(shí)施方式中,通過(guò)損失函數(shù)進(jìn)行的訓(xùn)練是基于矢量量化的擴(kuò)散模型訓(xùn)練。
6、在第一方面的一些實(shí)施方式中,在訓(xùn)練基于矢量量化的擴(kuò)散模型時(shí),圖像編碼器和潛在嵌入空間的參數(shù)被固定。
7、在第一方面的一些實(shí)施方式中,采樣模塊利用顯著性檢測(cè)算法將離散的潛在變量相關(guān)的前景信息和背景信息分離。
8、在第一方面的一些實(shí)施方式中,從圖像提取的掩膜為顯著掩膜,其用于將特征空間中的語(yǔ)義信息局部化,從而將前景元素和背景元素分離。
9、在第一方面的一些實(shí)施方式中,區(qū)間掩膜為間隔掩膜,其通過(guò)采樣因子進(jìn)行控制,其中較大的采樣因子代表較大的間隔和較少的潛在變量被采樣。
10、在第二方面,本發(fā)明提供了一種解碼裝置。該解碼裝置包括圖像解碼器和基于矢量量化的擴(kuò)散模塊。圖像解碼器用于將與圖像相關(guān)的比特流解碼以獲得采樣潛在變量?;谑噶苛炕臄U(kuò)散模塊用于至少通過(guò)反向擴(kuò)散過(guò)程處理采樣潛在變量以對(duì)圖像進(jìn)行重建。
11、在第二方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模塊包括語(yǔ)義信息輸入,其用于編輯要被重建的圖像的背景。
12、在第二方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模塊用于通過(guò)正向擴(kuò)散過(guò)程和反向擴(kuò)散過(guò)程處理采樣潛在變量以對(duì)所述圖像進(jìn)行重建(例如,在訓(xùn)練基于矢量量化的擴(kuò)散模塊時(shí)),并且基于矢量量化的擴(kuò)散模塊在正向擴(kuò)散過(guò)程中使用馬爾可夫鏈依次對(duì)數(shù)據(jù)進(jìn)行采樣并逐步將噪聲引入到數(shù)據(jù)中。
13、在第二方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模塊在正向擴(kuò)散過(guò)程的每一個(gè)時(shí)間步驟都是高斯轉(zhuǎn)移分布。
14、在第二方面的一些實(shí)施方式中,在固定數(shù)量的t個(gè)時(shí)間步驟過(guò)去后,基于矢量量化的擴(kuò)散模塊在正向擴(kuò)散過(guò)程產(chǎn)生帶有逐漸增加的噪聲水平的潛在變量序列x1,…,xt。
15、在第二方面的一些實(shí)施方式中,解碼裝置還包括去噪網(wǎng)絡(luò)模塊,用于近似條件轉(zhuǎn)移分布其中是采樣潛在變量。
16、在第三方面,本發(fā)明提供了一種編解碼系統(tǒng)。該編解碼系統(tǒng)包括第一方面的編碼裝置以及第二方面的解碼裝置。優(yōu)選地,潛在嵌入空間由編碼裝置和解碼裝置共享。
17、在第四方面,本發(fā)明提供了一種編碼方法。該編碼方法包括:從圖像提取圖像編碼特征,基于潛在嵌入空間對(duì)圖像編碼特征進(jìn)行量化以將圖像編碼特征轉(zhuǎn)換為離散的潛在變量,利用與采樣因子相關(guān)的采樣掩膜對(duì)離散的潛在變量進(jìn)行采樣以獲得采樣潛在變量,以及對(duì)采樣潛在變量進(jìn)行壓縮。壓縮后的采樣潛在變量可用于生成與圖像相關(guān)的比特流。優(yōu)選地,采樣因子是可以調(diào)節(jié)的。
18、在第四方面的一些實(shí)施方式中,編碼方法還包括生成采樣掩膜,其包括:從圖像提取掩膜以將與圖像相關(guān)的前景信息和背景信息分離,處理所提取的掩膜以獲得錨點(diǎn)掩膜,根據(jù)采樣因子生成區(qū)間掩膜,以及將錨點(diǎn)掩膜和區(qū)間掩膜結(jié)合以生成采樣掩膜。
19、在第四方面的一些實(shí)施方式中,處理所提取的掩膜以獲得錨點(diǎn)掩膜包括:調(diào)整所提取的掩膜的大小并對(duì)調(diào)整后的掩膜進(jìn)行二值化以獲得錨點(diǎn)掩膜。
20、在第四方面的一些實(shí)施方式中,從圖像提取的掩膜為顯著掩膜,其用于將特征空間中的語(yǔ)義信息局部化,從而將前景元素和背景元素分離。
21、在第四方面的一些實(shí)施方式中,區(qū)間掩膜為間隔掩膜,其通過(guò)采樣因子進(jìn)行控制,其中較大的采樣因子代表較大的間隔和較少的潛在變量被采樣。
22、在第五方面,本發(fā)明提供了一種解碼方法。該解碼方法包括:將與圖像相關(guān)的比特流解碼以獲得采樣潛在變量,以及利用基于矢量量化的擴(kuò)散模型至少通過(guò)反向擴(kuò)散過(guò)程處理采樣潛在變量以對(duì)圖像進(jìn)行重建。
23、在第五方面的一些實(shí)施方式中,基于矢量量化的擴(kuò)散模型包括語(yǔ)義信息輸入,其用于編輯要被重建的圖像的背景。
24、在第五方面的一些實(shí)施方式中,利用基于矢量量化的擴(kuò)散模型對(duì)圖像進(jìn)行重建包括利用基于矢量量化的擴(kuò)散模型通過(guò)正向擴(kuò)散過(guò)程和反向擴(kuò)散過(guò)程處理采樣潛在變量以對(duì)所述圖像進(jìn)行重建(例如,在訓(xùn)練基于矢量量化的擴(kuò)散模型時(shí)),并且正向擴(kuò)散過(guò)程使用馬爾可夫鏈依次對(duì)數(shù)據(jù)進(jìn)行采樣并逐步將噪聲引入到數(shù)據(jù)中。
25、在第五方面的一些實(shí)施方式中,正向擴(kuò)散過(guò)程的每一個(gè)時(shí)間步驟都是高斯轉(zhuǎn)移分布。
26、在第五方面的一些實(shí)施方式中,在固定數(shù)量的t個(gè)時(shí)間步驟過(guò)去后,正向擴(kuò)散過(guò)程產(chǎn)生帶有逐漸增加的噪聲水平的潛在變量序列x1,…,xt。
27、在第五方面的一些實(shí)施方式中,解碼方法還包括近似條件轉(zhuǎn)移分布其中是采樣潛在變量。
28、在第六方面,本發(fā)明提供了一種編碼裝置。該編碼裝置包括:一個(gè)或多個(gè)處理器以及存儲(chǔ)器。存儲(chǔ)器存儲(chǔ)被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第四方面的編碼方法的指令。
29、在第七方面,本發(fā)明提供了一種解碼裝置。該解碼裝置包括:一個(gè)或多個(gè)處理器以及存儲(chǔ)器。存儲(chǔ)器存儲(chǔ)被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第五方面的解碼方法的指令。
30、在第八方面,本發(fā)明提供了一種編解碼系統(tǒng)。該編解碼系統(tǒng)包括第六方面的編碼裝置以及第七方面的解碼裝置。優(yōu)選地,潛在嵌入空間由編碼裝置和解碼裝置共享。
31、在第九方面,本發(fā)明提供了一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第四方面的編碼方法的指令。
32、在第十方面,本發(fā)明提供了一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)被配置為由一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序。該一個(gè)或多個(gè)程序包括用于執(zhí)行第五方面的解碼方法的指令。
33、通過(guò)考慮詳細(xì)描述和附圖,本發(fā)明的其他特征和方面將變得顯而易見(jiàn)。在適當(dāng)和適用的情況下,在本文關(guān)于一個(gè)方面或?qū)嵤┓绞矫枋龅娜魏我粋€(gè)或多個(gè)特征可以與本文關(guān)于任何一個(gè)或多個(gè)其他方面或?qū)嵤┓绞矫枋龅娜魏我粋€(gè)或多個(gè)其他特征組合。
34、與數(shù)量或條件相關(guān)的程度術(shù)語(yǔ)或相關(guān)性術(shù)語(yǔ)(例如“一般”、“大約”、“約”、“大體”等)用于考慮(根據(jù)上下文)以下至少一個(gè):制造公差、退化、組裝、使用、趨勢(shì)、傾向、不完美的實(shí)際情況等。