本技術涉及人工智能開發(fā)與金融科技領域,尤其涉及基于人工智能的封面生成方法、裝置、計算機設備及存儲介質。
背景技術:
1、隨著人工智能生成內容技術的飛速發(fā)展,數字創(chuàng)意產業(yè)迎來了前所未有的變革。在這一浪潮中,文本、圖像乃至視頻內容的自動化生成已成為現實,極大地豐富了互聯網上的多媒體資源。尤其值得注意的是,短視頻作為當前最為流行的內容形式之一,其創(chuàng)作與消費均呈現出爆炸式增長的趨勢。為了適應快節(jié)奏的生活方式和碎片化的信息獲取習慣,大量長視頻內容被重新剪輯成短視頻,以滿足用戶在有限時間內高效獲取信息的需求。
2、然而,在視頻內容的制作與傳播過程中,視頻封面作為吸引觀眾點擊觀看的第一印象,其重要性不言而喻。傳統(tǒng)的視頻封面生成方式高度依賴于人工挑選。具體而言,人工挑選封面需要視頻制作者反復瀏覽視頻內容,從中挑選出最具代表性或吸引力的畫面作為封面,這一過程需要不僅耗時耗力,效率低下,還容易因個人審美差異而導致封面選擇的不一致性,難以保證封面選擇的準確性。
技術實現思路
1、本技術實施例的目的在于提出一種基于人工智能的封面生成方法、裝置、計算機設備及存儲介質,以解決現有的視頻封面生成方式高度依賴于人工挑選,不僅耗時耗力,效率低下,還容易因個人審美差異而導致封面選擇的不一致性,難以保證封面選擇的準確性的技術問題。
2、為了解決上述技術問題,本技術實施例提供一種基于人工智能的封面生成方法,采用了如下所述的技術方案:
3、獲取待處理的目標視頻,并對所述目標視頻進行抽幀處理得到對應的圖像幀;其中,所述圖像幀的數量包括多個;
4、基于預設的圖文理解模型中的圖像編碼器對所述圖像幀進行處理,得到對應的目標圖像特征;
5、基于所述圖文理解模型中的全連接層對所述目標圖像特征進行處理,得到對應的圖像質量評分;
6、獲取與所述目標視頻對應的文本信息,并基于所述文本信息構建查詢文本;
7、基于所述圖文理解模型中的文本編碼器對所述查詢文本進行處理,得到對應的目標文本特征;
8、計算所述目標圖像特征與所述目標文本特征之間的語義匹配度;
9、基于所述圖像質量評分與所述語義匹配度生成所述圖像幀的封面得分;
10、從所有所述圖像幀中篩選出封面得分最高的目標圖像幀,并將所述目標圖像幀作為所述目標視頻的封面。
11、進一步的,所述基于所述圖文理解模型中的全連接層對所述目標圖像特征進行處理,得到對應的圖像質量評分的步驟,具體包括:
12、基于所述全連接層對所述目標圖像特征進行預測處理,得到對應的清晰度預測值與壓縮比預測值;
13、對所述清晰度預測值與所述壓縮比預測值進行歸一化處理,得到對應的指定清晰度預測值與指定壓縮比預測值;
14、調用預設的轉換公式;
15、基于所述轉換公式對所述指定清晰度預測值與所述指定壓縮比預測值進行計算處理,得到對應的計算結果;
16、將所述計算結果作為所述圖像質量評分。
17、進一步的,所述計算所述目標圖像特征與所述目標文本特征之間的語義匹配度的步驟,具體包括:
18、調用預設的相似度算法;
19、基于所述相似度算法計算所述目標圖像特征與所述目標文本特征之間的相似度;
20、將所述相似度作為所述語義匹配度。
21、進一步的,所述基于所述圖像質量評分與所述語義匹配度生成所述圖像幀的封面得分的步驟,具體包括:
22、獲取預設的權重確定算法;
23、基于所述權重確定算法生成與圖像質量因素對應的第一權重,以及生成與語義匹配度因素對應的第二權重;
24、調用預設的得分計算公式;
25、基于所述得分計算公式對所述圖像質量評分、所述語義匹配度、所述第一權重以及所述第二權重進行處理,得到所述圖像幀的封面得分。
26、進一步的,在所述基于預設的圖文理解模型中的圖像編碼器對所述圖像幀進行處理,得到對應的目標圖像特征的步驟之前,還包括:
27、獲取預先構建的預訓練數據集,以及獲取預先構建的微調數據集;
28、將所述預訓練數據集劃分為多個批次的圖文對數據;
29、調用預設的多模態(tài)學習模型,并將所述圖文對數據輸入至所述多模態(tài)學習模型內得到對應的特征數據;其中,所述多模態(tài)學習模型至少包括圖像編碼器、文本編碼器以及全連接層;
30、基于所述特征數據計算回歸損失,以及基于所述特征數據計算對比損失;
31、基于所述回歸損失與所述對比損失構建綜合損失;
32、基于所述綜合損失對所述多模態(tài)學習模型進行訓練處理,直至符合預設的訓練批次,得到對應的第一學習模型;
33、基于預設的訓練策略,使用所述微調數據集對所述第一學習模型進行微調處理,得到滿足預期構建條件的第二學習模型;
34、將所述第二學習模型作為所述圖文理解模型。
35、進一步的,所述獲取預先構建的預訓練數據集的步驟,具體包括:
36、從目標網站上獲取指定數量的圖像數據;
37、基于預設的圖像降質算法對所述圖像數據進行預處理,得到對應的指定圖像數據;
38、生成與所述指定圖像數據對應的文本標簽;
39、基于所述指定圖像數據與所述文本標簽生成所述預訓練數據集。
40、進一步的,所述基于所述特征數據計算回歸損失的步驟,具體包括:
41、從所述特征數據中獲取圖像特征;
42、基于所述全連接層生成與所述圖像特征對應的預測值;
43、獲取與所述圖像特征對應的真實值;
44、計算所述真實值與所述預測值之間的歐幾里得距離;
45、將所述歐幾里得距離作為所述回歸損失。
46、為了解決上述技術問題,本技術實施例還提供一種基于人工智能的封面生成裝置,采用了如下所述的技術方案:
47、第一處理模塊,用于獲取待處理的目標視頻,并對所述目標視頻進行抽幀處理得到對應的圖像幀;其中,所述圖像幀的數量包括多個;
48、第二處理模塊,用于基于預設的圖文理解模型中的圖像編碼器對所述圖像幀進行處理,得到對應的目標圖像特征;
49、第三處理模塊,用于基于所述圖文理解模型中的全連接層對所述目標圖像特征進行處理,得到對應的圖像質量評分;
50、第一構建模塊,用于獲取與所述目標視頻對應的文本信息,并基于所述文本信息構建查詢文本;
51、第四處理模塊,用于基于所述圖文理解模型中的文本編碼器對所述查詢文本進行處理,得到對應的目標文本特征;
52、第一計算模塊,用于計算所述目標圖像特征與所述目標文本特征之間的語義匹配度;
53、生成模塊,用于基于所述圖像質量評分與所述語義匹配度生成所述圖像幀的封面得分;
54、第一確定模塊,用于從所有所述圖像幀中篩選出封面得分最高的目標圖像幀,并將所述目標圖像幀作為所述目標視頻的封面。
55、為了解決上述技術問題,本技術實施例還提供一種計算機設備,采用了如下所述的技術方案:
56、獲取待處理的目標視頻,并對所述目標視頻進行抽幀處理得到對應的圖像幀;其中,所述圖像幀的數量包括多個;
57、基于預設的圖文理解模型中的圖像編碼器對所述圖像幀進行處理,得到對應的目標圖像特征;
58、基于所述圖文理解模型中的全連接層對所述目標圖像特征進行處理,得到對應的圖像質量評分;
59、獲取與所述目標視頻對應的文本信息,并基于所述文本信息構建查詢文本;
60、基于所述圖文理解模型中的文本編碼器對所述查詢文本進行處理,得到對應的目標文本特征;
61、計算所述目標圖像特征與所述目標文本特征之間的語義匹配度;
62、基于所述圖像質量評分與所述語義匹配度生成所述圖像幀的封面得分;
63、從所有所述圖像幀中篩選出封面得分最高的目標圖像幀,并將所述目標圖像幀作為所述目標視頻的封面。
64、為了解決上述技術問題,本技術實施例還提供一種計算機可讀存儲介質,采用了如下所述的技術方案:
65、獲取待處理的目標視頻,并對所述目標視頻進行抽幀處理得到對應的圖像幀;其中,所述圖像幀的數量包括多個;
66、基于預設的圖文理解模型中的圖像編碼器對所述圖像幀進行處理,得到對應的目標圖像特征;
67、基于所述圖文理解模型中的全連接層對所述目標圖像特征進行處理,得到對應的圖像質量評分;
68、獲取與所述目標視頻對應的文本信息,并基于所述文本信息構建查詢文本;
69、基于所述圖文理解模型中的文本編碼器對所述查詢文本進行處理,得到對應的目標文本特征;
70、計算所述目標圖像特征與所述目標文本特征之間的語義匹配度;
71、基于所述圖像質量評分與所述語義匹配度生成所述圖像幀的封面得分;
72、從所有所述圖像幀中篩選出封面得分最高的目標圖像幀,并將所述目標圖像幀作為所述目標視頻的封面。
73、與現有技術相比,本技術實施例主要有以下有益效果:
74、本技術首先獲取待處理的目標視頻,并對所述目標視頻進行抽幀處理得到對應的圖像幀;其中,所述圖像幀的數量包括多個;然后基于預設的圖文理解模型中的圖像編碼器對所述圖像幀進行處理,得到對應的目標圖像特征;并基于所述圖文理解模型中的全連接層對所述目標圖像特征進行處理,得到對應的圖像質量評分;之后獲取與所述目標視頻對應的文本信息,并基于所述文本信息構建查詢文本;后續(xù)基于所述圖文理解模型中的文本編碼器對所述查詢文本進行處理,得到對應的目標文本特征;進一步計算所述目標圖像特征與所述目標文本特征之間的語義匹配度;最后基于所述圖像質量評分與所述語義匹配度生成所述圖像幀的封面得分,并從所有所述圖像幀中篩選出封面得分最高的目標圖像幀,進而將所述目標圖像幀作為所述視頻的封面。本技術通過獲取待處理的目標視頻,并對所述目標視頻進行抽幀處理得到對應的圖像幀,然后基于圖文理解模型的使用對圖像幀進行圖像質量分析以得到相應的圖像質量評分,并會同時獲取與所述目標視頻對應的文本信息,并基于所述文本信息構建查詢文本,之后基于圖文理解模型的使用對查詢文本與圖像幀進行語義匹配處理以得到相應的語義匹配度,后續(xù)基于所述圖像質量評分與所述語義匹配度生成所述圖像幀的封面得分,最后從所有所述圖像幀中篩選出封面得分最高的目標圖像幀,并將所述目標圖像幀作為所述目標視頻的封面,以實現自動快速且準確地生成目標視頻的封面,避免了人工挑選封面的操作,有效地提高了封面生成的效率,保證了封面生成的準確性。