一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40506695發(fā)布日期：2024-12-31 13:15閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及視頻生成，具體而言，涉及一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、視頻空間擴(kuò)展（video?outpainting）是一種基于深度學(xué)習(xí)和計(jì)算機(jī)視覺的技術(shù)，旨在從現(xiàn)有的視頻內(nèi)容生成額外的區(qū)域，使其在空間上擴(kuò)展，從而獲得更大視角或填補(bǔ)視頻幀中缺失的部分。這種技術(shù)與圖像外擴(kuò)（image?outpainting）相似，常用于增強(qiáng)視頻內(nèi)容的豐富性或適應(yīng)不同的顯示設(shè)備。視頻空間擴(kuò)展與圖像外擴(kuò)相比更為復(fù)雜，因?yàn)橐曨l具有連續(xù)的幀，并且需要保證擴(kuò)展后的視頻在時(shí)間上具有連續(xù)性和一致性。

2、目前的視頻空間擴(kuò)展通常依賴于手動(dòng)編輯或基于規(guī)則的方法，例如插值技術(shù)，其對(duì)缺失或損壞的視頻幀進(jìn)行線性插值或基于鄰近幀的時(shí)間插值，或者基于紋理合成的補(bǔ)全，通過從現(xiàn)有圖像中復(fù)制紋理，手動(dòng)或半自動(dòng)填補(bǔ)缺失的區(qū)域。這些方法盡管可以應(yīng)對(duì)靜態(tài)場景，但對(duì)于動(dòng)態(tài)場景、復(fù)雜紋理和對(duì)象運(yùn)動(dòng)往往效果較差，無法處理細(xì)節(jié)豐富的視頻。

3、基于去噪模型的視頻生成技術(shù)在近年來取得了顯著進(jìn)展，可以利用文本或圖片輸入生成高質(zhì)量的視頻。然而，當(dāng)這些技術(shù)應(yīng)用于視頻的空間擴(kuò)展時(shí)會(huì)面臨一些挑戰(zhàn)，例如計(jì)算資源需求高、處理復(fù)雜度高、動(dòng)態(tài)內(nèi)容處理難度大，因此目前基于視頻生成模型的視頻空間擴(kuò)展方法在處理動(dòng)態(tài)視頻時(shí)效果較差，并且資源消耗過大。但要實(shí)現(xiàn)高質(zhì)量、低資源消耗的視頻空間擴(kuò)展仍然面臨許多技術(shù)挑戰(zhàn)。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)的目的在于，為了克服現(xiàn)有的技術(shù)缺陷，提供了一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，采用視頻生成模型并通過視頻下采樣進(jìn)行擴(kuò)展的策略，解決了目前視頻空間擴(kuò)展方法在動(dòng)態(tài)視頻中效果很差并且資源消耗過大的問題。

2、本技術(shù)目的通過下述技術(shù)方案來實(shí)現(xiàn)：

3、第一方面，本技術(shù)提出了一種視頻空間擴(kuò)展方法，所述方法包括：

4、通過視頻邊界檢測模型預(yù)測的視頻邊界時(shí)間點(diǎn)對(duì)原始視頻進(jìn)行切分得到多個(gè)視頻片段；

5、對(duì)視頻片段下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻；

6、從低分辨率外擴(kuò)視頻中提取出外擴(kuò)部分并通過視頻超分模型對(duì)外擴(kuò)部分進(jìn)行超分處理得到外擴(kuò)部分的高分辨率視頻；

7、使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息，基于梯度信息將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻。

8、在一種可能的實(shí)施方式中，視頻邊界檢測模型包括視頻特征提取主干、特征相似度計(jì)算模塊以及多個(gè)分類頭；

9、視頻特征提取主干包括3d卷積模塊和transformers模塊，用于計(jì)算視頻幀的特征；

10、特征相似度計(jì)算模塊計(jì)算相鄰幀的特征相似度向量以及相鄰幀的rgb直方圖相似度特征向量；

11、每個(gè)分類頭由多個(gè)全連接層組成，用于預(yù)測視頻幀是視頻邊界的概率。

12、在一種可能的實(shí)施方式中，生成式模型包括視頻描述模型和視頻外擴(kuò)模型，對(duì)視頻片段下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻的步驟，包括：

13、對(duì)視頻片段下采樣得到低分辨率原始視頻片段；

14、使用視頻描述模型對(duì)低分辨率原始視頻片段得到對(duì)應(yīng)的文本描述；

15、利用視頻外擴(kuò)模型結(jié)合低分辨率原始視頻片段和對(duì)應(yīng)的文本描述，進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻。

16、在一種可能的實(shí)施方式中，視頻外擴(kuò)模型包括文本特征提取器、視頻特征提取器、視頻編碼器、視頻解碼器以及視頻去噪模型，利用視頻外擴(kuò)模型結(jié)合文本描述和低分辨率原始視頻片段進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻的步驟，包括：

17、使用文本特征提取器對(duì)文本描述進(jìn)行特征提取得到文本特征；

18、使用視頻特征提取器對(duì)低分辨率原始視頻片段進(jìn)行逐幀處理得到視頻特征；

19、初始化低分辨率原始視頻片段的區(qū)域像素值為1，外擴(kuò)區(qū)域像素值為0的視頻外擴(kuò)掩碼；

20、基于視頻外擴(kuò)掩碼，將低分辨率原始視頻片段按照待擴(kuò)展的目標(biāo)尺寸進(jìn)行填充，之后采用視頻編碼器處理填充后的視頻片段得到第一潛空間特征；

21、通過高斯噪聲對(duì)待擴(kuò)展的目標(biāo)尺寸進(jìn)行隨機(jī)初始化得到第二潛空間特征；

22、將文本特征、視頻特征、視頻外擴(kuò)掩碼、第一潛空間特征以及第二潛空間特征輸入至視頻去噪模型進(jìn)行預(yù)測得到噪聲；

23、采用正向采樣器將第二潛空間特征減去噪聲得到第三潛空間特征，并將第三潛空間特征與文本特征、視頻特征、視頻外擴(kuò)掩碼、第一潛空間特征再次輸入至視頻去噪模型進(jìn)行噪聲預(yù)測循環(huán)迭代得到去噪結(jié)果；

24、使用視頻解碼器對(duì)去噪結(jié)果進(jìn)行處理得到低分辨率外擴(kuò)視頻。

25、在一種可能的實(shí)施方式中，視頻去噪模型采用u型網(wǎng)絡(luò)結(jié)構(gòu)，包括三維卷積模塊、空間注意力模塊、文本注意力模塊和布局注意力模塊。

26、在一種可能的實(shí)施方式中，使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息，基于梯度信息將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻的步驟，包括：

27、通過sobel算子逐幀計(jì)算視頻片段的梯度場，并使用拉普拉斯算子計(jì)算視頻片段的梯度散度；

28、基于梯度場和梯度散度，利用離散求解方程計(jì)算出外擴(kuò)部分的高分辨率視頻的邊緣像素值；

29、將邊緣像素值插入外擴(kuò)部分的高分辨率視頻得到融合后的高分辨率外擴(kuò)視頻。

30、在一種可能的實(shí)施方式中，離散求解方程的表達(dá)式為：++，其中，為像素橫坐標(biāo)，為像素縱坐標(biāo)，為求解后坐標(biāo)處的像素值，為處的像素值，為處的像素值，為處的像素值，為處的像素值，為視頻片段中處的梯度。

31、第二方面，本技術(shù)提出了一種視頻空間擴(kuò)展裝置，所述裝置包括：

32、視頻拆分模塊，用于通過視頻邊界檢測模型預(yù)測的視頻邊界時(shí)間點(diǎn)對(duì)原始視頻進(jìn)行切分得到多個(gè)視頻片段；

33、視頻外擴(kuò)模塊，用于對(duì)視頻片段下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻；

34、視頻超分模塊，用于從低分辨率外擴(kuò)視頻中提取出外擴(kuò)部分并通過視頻超分模型對(duì)外擴(kuò)部分進(jìn)行超分處理得到外擴(kuò)部分的高分辨率視頻；

35、視頻融合模塊，用于使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息，基于梯度信息將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻。

36、第三方面，本技術(shù)還提出了一種計(jì)算機(jī)設(shè)備，所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器，所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的視頻空間擴(kuò)展方法。

37、第四方面，本技術(shù)還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的視頻空間擴(kuò)展方法。

38、上述本技術(shù)主方案及其各進(jìn)一步選擇方案可以自由組合以形成多個(gè)方案，均為本技術(shù)可采用并要求保護(hù)的方案；且本技術(shù)，（各非沖突選擇）選擇之間以及和其他選擇之間也可以自由組合。本領(lǐng)域技術(shù)人員在了解本技術(shù)方案后根據(jù)現(xiàn)有技術(shù)和公知常識(shí)可明了有多種組合，均為本技術(shù)所要保護(hù)的技術(shù)方案，在此不做窮舉。

39、本技術(shù)公開了一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，涉及視頻生成技術(shù)領(lǐng)域，首先通過視頻邊界檢測模型預(yù)測的視頻邊界時(shí)間點(diǎn)對(duì)原始視頻進(jìn)行切分得到多個(gè)視頻片段，其次下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻，提取出外擴(kuò)部分并通過視頻超分模型對(duì)外擴(kuò)部分進(jìn)行超分處理得到外擴(kuò)部分的高分辨率視頻，使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息，將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻。通過視頻融合方法將原始視頻無縫替換到擴(kuò)展視頻中，保證了高質(zhì)量空間擴(kuò)展，保持原始視頻的內(nèi)容，利用了視頻生成模型的創(chuàng)造性并且極大減少了資源消耗。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉躍根,陳堯森,袁琦
技術(shù)所有人：成都索貝數(shù)碼科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種低壓微阻石英砂過濾裝置的制作方法
上一篇：一種用于水解爐的煙氣降溫凈化裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程