欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40506695發(fā)布日期:2024-12-31 13:15閱讀:16來源:國知局
一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及視頻生成,具體而言,涉及一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、視頻空間擴(kuò)展(video?outpainting)是一種基于深度學(xué)習(xí)和計(jì)算機(jī)視覺的技術(shù),旨在從現(xiàn)有的視頻內(nèi)容生成額外的區(qū)域,使其在空間上擴(kuò)展,從而獲得更大視角或填補(bǔ)視頻幀中缺失的部分。這種技術(shù)與圖像外擴(kuò)(image?outpainting)相似,常用于增強(qiáng)視頻內(nèi)容的豐富性或適應(yīng)不同的顯示設(shè)備。視頻空間擴(kuò)展與圖像外擴(kuò)相比更為復(fù)雜,因?yàn)橐曨l具有連續(xù)的幀,并且需要保證擴(kuò)展后的視頻在時(shí)間上具有連續(xù)性和一致性。

2、目前的視頻空間擴(kuò)展通常依賴于手動(dòng)編輯或基于規(guī)則的方法,例如插值技術(shù),其對(duì)缺失或損壞的視頻幀進(jìn)行線性插值或基于鄰近幀的時(shí)間插值,或者基于紋理合成的補(bǔ)全,通過從現(xiàn)有圖像中復(fù)制紋理,手動(dòng)或半自動(dòng)填補(bǔ)缺失的區(qū)域。這些方法盡管可以應(yīng)對(duì)靜態(tài)場景,但對(duì)于動(dòng)態(tài)場景、復(fù)雜紋理和對(duì)象運(yùn)動(dòng)往往效果較差,無法處理細(xì)節(jié)豐富的視頻。

3、基于去噪模型的視頻生成技術(shù)在近年來取得了顯著進(jìn)展,可以利用文本或圖片輸入生成高質(zhì)量的視頻。然而,當(dāng)這些技術(shù)應(yīng)用于視頻的空間擴(kuò)展時(shí)會(huì)面臨一些挑戰(zhàn),例如計(jì)算資源需求高、處理復(fù)雜度高、動(dòng)態(tài)內(nèi)容處理難度大,因此目前基于視頻生成模型的視頻空間擴(kuò)展方法在處理動(dòng)態(tài)視頻時(shí)效果較差,并且資源消耗過大。但要實(shí)現(xiàn)高質(zhì)量、低資源消耗的視頻空間擴(kuò)展仍然面臨許多技術(shù)挑戰(zhàn)。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)的目的在于,為了克服現(xiàn)有的技術(shù)缺陷,提供了一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),采用視頻生成模型并通過視頻下采樣進(jìn)行擴(kuò)展的策略,解決了目前視頻空間擴(kuò)展方法在動(dòng)態(tài)視頻中效果很差并且資源消耗過大的問題。

2、本技術(shù)目的通過下述技術(shù)方案來實(shí)現(xiàn):

3、第一方面,本技術(shù)提出了一種視頻空間擴(kuò)展方法,所述方法包括:

4、通過視頻邊界檢測模型預(yù)測的視頻邊界時(shí)間點(diǎn)對(duì)原始視頻進(jìn)行切分得到多個(gè)視頻片段;

5、對(duì)視頻片段下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻;

6、從低分辨率外擴(kuò)視頻中提取出外擴(kuò)部分并通過視頻超分模型對(duì)外擴(kuò)部分進(jìn)行超分處理得到外擴(kuò)部分的高分辨率視頻;

7、使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息,基于梯度信息將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻。

8、在一種可能的實(shí)施方式中,視頻邊界檢測模型包括視頻特征提取主干、特征相似度計(jì)算模塊以及多個(gè)分類頭;

9、視頻特征提取主干包括3d卷積模塊和transformers模塊,用于計(jì)算視頻幀的特征;

10、特征相似度計(jì)算模塊計(jì)算相鄰幀的特征相似度向量以及相鄰幀的rgb直方圖相似度特征向量;

11、每個(gè)分類頭由多個(gè)全連接層組成,用于預(yù)測視頻幀是視頻邊界的概率。

12、在一種可能的實(shí)施方式中,生成式模型包括視頻描述模型和視頻外擴(kuò)模型,對(duì)視頻片段下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻的步驟,包括:

13、對(duì)視頻片段下采樣得到低分辨率原始視頻片段;

14、使用視頻描述模型對(duì)低分辨率原始視頻片段得到對(duì)應(yīng)的文本描述;

15、利用視頻外擴(kuò)模型結(jié)合低分辨率原始視頻片段和對(duì)應(yīng)的文本描述,進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻。

16、在一種可能的實(shí)施方式中,視頻外擴(kuò)模型包括文本特征提取器、視頻特征提取器、視頻編碼器、視頻解碼器以及視頻去噪模型,利用視頻外擴(kuò)模型結(jié)合文本描述和低分辨率原始視頻片段進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻的步驟,包括:

17、使用文本特征提取器對(duì)文本描述進(jìn)行特征提取得到文本特征;

18、使用視頻特征提取器對(duì)低分辨率原始視頻片段進(jìn)行逐幀處理得到視頻特征;

19、初始化低分辨率原始視頻片段的區(qū)域像素值為1,外擴(kuò)區(qū)域像素值為0的視頻外擴(kuò)掩碼;

20、基于視頻外擴(kuò)掩碼,將低分辨率原始視頻片段按照待擴(kuò)展的目標(biāo)尺寸進(jìn)行填充,之后采用視頻編碼器處理填充后的視頻片段得到第一潛空間特征;

21、通過高斯噪聲對(duì)待擴(kuò)展的目標(biāo)尺寸進(jìn)行隨機(jī)初始化得到第二潛空間特征;

22、將文本特征、視頻特征、視頻外擴(kuò)掩碼、第一潛空間特征以及第二潛空間特征輸入至視頻去噪模型進(jìn)行預(yù)測得到噪聲;

23、采用正向采樣器將第二潛空間特征減去噪聲得到第三潛空間特征,并將第三潛空間特征與文本特征、視頻特征、視頻外擴(kuò)掩碼、第一潛空間特征再次輸入至視頻去噪模型進(jìn)行噪聲預(yù)測循環(huán)迭代得到去噪結(jié)果;

24、使用視頻解碼器對(duì)去噪結(jié)果進(jìn)行處理得到低分辨率外擴(kuò)視頻。

25、在一種可能的實(shí)施方式中,視頻去噪模型采用u型網(wǎng)絡(luò)結(jié)構(gòu),包括三維卷積模塊、空間注意力模塊、文本注意力模塊和布局注意力模塊。

26、在一種可能的實(shí)施方式中,使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息,基于梯度信息將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻的步驟,包括:

27、通過sobel算子逐幀計(jì)算視頻片段的梯度場,并使用拉普拉斯算子計(jì)算視頻片段的梯度散度;

28、基于梯度場和梯度散度,利用離散求解方程計(jì)算出外擴(kuò)部分的高分辨率視頻的邊緣像素值;

29、將邊緣像素值插入外擴(kuò)部分的高分辨率視頻得到融合后的高分辨率外擴(kuò)視頻。

30、在一種可能的實(shí)施方式中,離散求解方程的表達(dá)式為:++,其中,為像素橫坐標(biāo),為像素縱坐標(biāo),為求解后坐標(biāo)處的像素值,為處的像素值,為處的像素值,為處的像素值,為處的像素值,為視頻片段中處的梯度。

31、第二方面,本技術(shù)提出了一種視頻空間擴(kuò)展裝置,所述裝置包括:

32、視頻拆分模塊,用于通過視頻邊界檢測模型預(yù)測的視頻邊界時(shí)間點(diǎn)對(duì)原始視頻進(jìn)行切分得到多個(gè)視頻片段;

33、視頻外擴(kuò)模塊,用于對(duì)視頻片段下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻;

34、視頻超分模塊,用于從低分辨率外擴(kuò)視頻中提取出外擴(kuò)部分并通過視頻超分模型對(duì)外擴(kuò)部分進(jìn)行超分處理得到外擴(kuò)部分的高分辨率視頻;

35、視頻融合模塊,用于使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息,基于梯度信息將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻。

36、第三方面,本技術(shù)還提出了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的視頻空間擴(kuò)展方法。

37、第四方面,本技術(shù)還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的視頻空間擴(kuò)展方法。

38、上述本技術(shù)主方案及其各進(jìn)一步選擇方案可以自由組合以形成多個(gè)方案,均為本技術(shù)可采用并要求保護(hù)的方案;且本技術(shù),(各非沖突選擇)選擇之間以及和其他選擇之間也可以自由組合。本領(lǐng)域技術(shù)人員在了解本技術(shù)方案后根據(jù)現(xiàn)有技術(shù)和公知常識(shí)可明了有多種組合,均為本技術(shù)所要保護(hù)的技術(shù)方案,在此不做窮舉。

39、本技術(shù)公開了一種視頻空間擴(kuò)展方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),涉及視頻生成技術(shù)領(lǐng)域,首先通過視頻邊界檢測模型預(yù)測的視頻邊界時(shí)間點(diǎn)對(duì)原始視頻進(jìn)行切分得到多個(gè)視頻片段,其次下采樣之后利用生成式模型進(jìn)行視頻外擴(kuò)得到低分辨率外擴(kuò)視頻,提取出外擴(kuò)部分并通過視頻超分模型對(duì)外擴(kuò)部分進(jìn)行超分處理得到外擴(kuò)部分的高分辨率視頻,使用視頻融合模型計(jì)算并匹配視頻片段與外擴(kuò)部分的高分辨率視頻之間的梯度信息,將視頻片段擴(kuò)展至外擴(kuò)部分的高分辨率視頻中得到融合后的高分辨率外擴(kuò)視頻。通過視頻融合方法將原始視頻無縫替換到擴(kuò)展視頻中,保證了高質(zhì)量空間擴(kuò)展,保持原始視頻的內(nèi)容,利用了視頻生成模型的創(chuàng)造性并且極大減少了資源消耗。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
康定县| 南京市| 辽宁省| 扶余县| 扶余县| 那曲县| 蒙城县| 吉隆县| 芜湖县| 潍坊市| 远安县| 安庆市| 安龙县| 正安县| 旅游| 普兰县| 沙坪坝区| 微山县| 门头沟区| 庆云县| 韶关市| 简阳市| 黑山县| 阳谷县| 扎赉特旗| 颍上县| 个旧市| 黄梅县| 霍林郭勒市| 阳西县| 云林县| 鹤庆县| 河南省| 隆德县| 自治县| 上栗县| 宁化县| 南宁市| 宁城县| 敦化市| 莱西市|