本技術涉及數(shù)據(jù)處理,尤其涉及一種視頻處理方法、視頻生成方法及裝置。
背景技術:
1、目前,在電子設備上,可以對圖片和視頻進行混剪,配合音樂和動效,得到剪輯視頻。
2、但是這種方式中,需要用戶先選擇特定圖片并剪輯出視頻中的關鍵片段,因此存在操作復雜度較高的情況,影響用戶使用體驗。
技術實現(xiàn)思路
1、有鑒于此,本技術提供一種視頻處理方法、視頻生成方法及裝置,如下:
2、一種視頻處理方法,包括:
3、獲得輸入數(shù)據(jù);所述輸入數(shù)據(jù)表征用戶對生成視頻的目標意圖;
4、根據(jù)所述輸入數(shù)據(jù),從多媒體庫中獲得資源集合,所述資源集合包括至少一個多媒體數(shù)據(jù),所述多媒體數(shù)據(jù)至少包括如下一種:圖像類型或視頻類型;
5、基于所述輸入數(shù)據(jù)以及所述資源集合,生成與所述目標意圖對應的索引集合;
6、基于所述索引集合中的索引信息,從所述資源集合中的多媒體數(shù)據(jù)中提取每個所述索引信息對應的至少一個目標圖像;
7、基于所述目標圖像生成目標視頻。
8、上述方法,優(yōu)選的,在基于所述目標圖像生成目標視頻之后,所述方法還包括:
9、輸出所述目標視頻;
10、獲得針對所述目標視頻的調(diào)整數(shù)據(jù),所述調(diào)整數(shù)據(jù)表征用戶對所述目標視頻的調(diào)整意圖;
11、至少根據(jù)所述調(diào)整數(shù)據(jù),獲得更新數(shù)據(jù),將所述更新數(shù)據(jù)作為所述輸入數(shù)據(jù),返回執(zhí)行所述根據(jù)所述輸入數(shù)據(jù),從多媒體庫中獲得資源集合。
12、上述方法,優(yōu)選的,基于所述輸入數(shù)據(jù)以及所述資源集合,生成與所述目標意圖對應的索引集合,包括:
13、獲得所述資源集合中的多媒體數(shù)據(jù)對應的多媒體特征,所述多媒體特征包括:粗粒度特征和所述粗粒度特征對應的細粒度特征中的至少一項,所述細粒度特征包括:其對應的粗粒度特征在至少一個特征維度上的子特征;
14、將所述輸入數(shù)據(jù)和所述多媒體特征輸入第一處理模型,以得到所述第一處理模型輸出的所述目標意圖對應的索引集合,所述索引集合中包含至少一個索引信息;
15、其中,所述索引集合中的索引信息所表征的故事邏輯與所述目標意圖相匹配。
16、上述方法,優(yōu)選的,所述粗粒度特征在所述多媒體數(shù)據(jù)被采集的過程中得到;
17、所述細粒度特征在所述多媒體數(shù)據(jù)被采集到后利用第二處理模型進行特征提取得到;所述第二處理模型根據(jù)所述粗粒度特征從所述多媒體數(shù)據(jù)提取所述細粒度特征;
18、其中,所述特征維度包括:聲音、畫面和光流中的至少一項。
19、上述方法,優(yōu)選的,所述粗粒度特征按照文本格式保存;所述細粒度特征按照二進制格式保存。
20、上述方法,優(yōu)選的,所述索引信息至少包括:索引提取屬性;所述索引提取屬性包括圖像類型對應的圖像標識屬性或視頻類型對應的提取時間戳屬性;
21、其中,基于所述索引集合中的索引信息,從所述資源集合中的多媒體數(shù)據(jù)中提取每個所述索引信息對應的至少一個目標圖像,包括以下至少之一:
22、利用第三處理模型,根據(jù)所述圖像標識屬性,從所述資源集合中圖像類型的多媒體數(shù)據(jù)中提取所述圖像標識屬性對應的至少一個目標圖像;
23、利用所述第三處理模型,根據(jù)所述提取時間戳屬性,從所述資源集合中視頻類型的多媒體數(shù)據(jù)中提取相應時間戳的至少一個目標圖像。
24、上述方法,優(yōu)選的,所述目標圖像具有:拼接時間戳,所述拼接時間戳基于所述索引信息表征的故事邏輯確定,所述拼接時間戳表征所述目標圖像之間的拼接關系,且,所述拼接時間戳所組成的目標時長與所述目標意圖相匹配;
25、其中,基于所述目標圖像生成目標視頻,包括:
26、將所述目標圖像輸入所述第三處理模型,以使得所述第三處理模型按照所述拼接時間戳進行拼接,以得到目標視頻。
27、上述方法,優(yōu)選的,根據(jù)所述輸入數(shù)據(jù),從多媒體庫中獲得資源集合,包括:
28、解析所述輸入數(shù)據(jù),以得到至少一項關聯(lián)特征;其中,所述關聯(lián)特征包括:時間、人物、位置中的至少一項或任意多項;
29、利用第四處理模型,按照所述關聯(lián)特征,從多媒體庫中篩選出至少一項多媒體數(shù)據(jù),以得到資源集合,所述資源集合中的多媒體數(shù)據(jù)之間在所述關聯(lián)特征上相關聯(lián)。
30、上述方法,優(yōu)選的,所述輸入數(shù)據(jù)包括至少一項數(shù)據(jù)類型的數(shù)據(jù);
31、其中,所述數(shù)據(jù)類型包括語音類型和文本類型中的至少一項。
32、一種視頻生成方法,包括:
33、獲得輸入數(shù)據(jù);所述輸入數(shù)據(jù)表征用戶對生成視頻的目標意圖;
34、根據(jù)所述輸入數(shù)據(jù),從多媒體庫中獲得資源集合,所述資源集合包括至少一個多媒體數(shù)據(jù),所述多媒體數(shù)據(jù)至少包括如下一種:圖像類型或視頻類型;
35、至少基于目標模型,處理所述輸入數(shù)據(jù)以及所述資源集合,生成目標視頻,所述目標視頻中包含滿足所述目標意圖的多幀目標圖像,所述目標圖像來自于以下至少一種情況:
36、所述資源集合中匹配所述目標意圖的多媒體數(shù)據(jù);
37、所述資源集合中的多媒體數(shù)據(jù)中匹配所述目標意圖的部分數(shù)據(jù)。
38、一種視頻處理裝置,包括:
39、交互引擎,用于獲得輸入數(shù)據(jù);所述輸入數(shù)據(jù)表征用戶對生成視頻的目標意圖;
40、視頻處理模型,用于根據(jù)所述輸入數(shù)據(jù),從多媒體庫中獲得資源集合,所述資源集合包括至少一個多媒體數(shù)據(jù),所述多媒體數(shù)據(jù)至少包括如下一種:圖像類型或視頻類型;基于所述輸入數(shù)據(jù)以及所述資源集合,生成與所述目標意圖對應的索引集合;
41、圖像處理模型,用于基于所述索引集合中的索引信息,從所述資源集合中的多媒體數(shù)據(jù)中提取每個所述索引信息對應的至少一個目標圖像;基于所述目標圖像生成目標視頻。
42、一種視頻生成裝置,包括:
43、交互引擎,用于獲得輸入數(shù)據(jù);所述輸入數(shù)據(jù)表征用戶對生成視頻的目標意圖;
44、目標模型,用于根據(jù)所述輸入數(shù)據(jù),從多媒體庫中獲得資源集合,所述資源集合包括至少一個多媒體數(shù)據(jù),所述多媒體數(shù)據(jù)至少包括如下一種:圖像類型或視頻類型;處理所述輸入數(shù)據(jù)以及所述資源集合,生成目標視頻,所述目標視頻中包含滿足所述目標意圖的多幀目標圖像;
45、其中,所述目標圖像來自于以下至少一種情況:
46、所述資源集合中匹配所述目標意圖的多媒體數(shù)據(jù);
47、所述資源集合中的多媒體數(shù)據(jù)中匹配所述目標意圖的部分數(shù)據(jù)。
48、一種電子設備,包括:存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序以實現(xiàn)上述任意一項所述的視頻處理方法。
49、一種計算機存儲介質(zhì),其上存儲有計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述任意一項所述的視頻處理方法。
50、一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述任意一項所述的視頻處理方法。