本技術(shù)涉及人工智能,特別是涉及一種數(shù)據(jù)集獲取方法、裝置、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和規(guī)模對于模型的訓(xùn)練質(zhì)量至關(guān)重要。因而,視頻生成模型的發(fā)展受制于高質(zhì)量視頻-圖片-文本數(shù)據(jù)集的缺失。和圖片-文本數(shù)據(jù)相比,高質(zhì)量且大規(guī)模的視頻-文本數(shù)據(jù)更難獲取、且獲取的成本更高。
2、現(xiàn)有的視頻-文本數(shù)據(jù)集可以被分為兩類:一類是以標(biāo)簽的標(biāo)注為主,這類標(biāo)注多是以標(biāo)簽為主,由于是人工標(biāo)注,通常準(zhǔn)確率和質(zhì)量較高,但數(shù)量會比較少。另一類以視頻描述為主,這一類標(biāo)注可以自動標(biāo)注,但是在不同的方案中仍然因各種原因?qū)е聼o法完全滿足視頻生成模型的訓(xùn)練需求。
3、綜上所述,如何獲取滿足視頻生成模型訓(xùn)練需求的預(yù)訓(xùn)練數(shù)據(jù)集等問題,是目前本領(lǐng)域技術(shù)人員急需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的是提供一種數(shù)據(jù)集獲取方法、裝置、設(shè)備及可讀存儲介質(zhì),能夠獲取到滿足視頻生成模型訓(xùn)練需求的數(shù)據(jù)集。
2、為解決上述技術(shù)問題,本技術(shù)提供如下技術(shù)方案:
3、一種數(shù)據(jù)集獲取方法,包括:
4、獲取視頻集,并對所述視頻集中的視頻標(biāo)注文本;
5、刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,得到第一視頻集;其中,所述刪除條件為參照視頻生成模型的訓(xùn)練需求預(yù)先設(shè)置的;
6、計算所述第一視頻集中視頻與其標(biāo)注文本的關(guān)聯(lián)性分值;
7、基于所述關(guān)聯(lián)性分值,刪除所述第一視頻集中文本標(biāo)注不準(zhǔn)確的視頻,得到第二視頻集;
8、將所述第二視頻集中的視頻,按照所述視頻生成模型的樣本數(shù)據(jù)格式進(jìn)行保存;其中,所述數(shù)據(jù)格式為一條樣本數(shù)據(jù)包括一條視頻、該視頻中的關(guān)鍵幀和該視頻的標(biāo)注文本。
9、優(yōu)選地,在所述刪除條件對應(yīng)至少兩種條件的情況下,刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,得到第一視頻集,包括:
10、按照刪除順序,從所述刪除條件中確定當(dāng)前刪除條件;
11、利用多個與當(dāng)前刪除條件對應(yīng)的線程,從所述視頻集中檢出符合當(dāng)前刪除條件的視頻,并進(jìn)行刪除;
12、在刪除了符合當(dāng)前刪除條件的視頻后,判斷所述當(dāng)前刪除條件是否為最后一個刪除條件;
13、如果是,則將當(dāng)前的視頻集確定為所述第一視頻集;
14、如果否,則按照刪除順序,從所述刪除條件中重新確定當(dāng)前刪除條件。
15、優(yōu)選地,所述刪除條件包括靜止視頻判斷條件;相應(yīng)地,刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,包括:
16、計算所述視頻集中視頻的光流度,并對所述光流度進(jìn)行統(tǒng)計,得到統(tǒng)計值;
17、在所述統(tǒng)計值符合所述靜止視頻判斷條件吻合的情況下,從所述視頻集中刪除對應(yīng)視頻。
18、優(yōu)選地,所述刪除條件包括文字過多視頻判斷條件,相應(yīng)地,刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,包括:
19、對所述視頻集中視頻對應(yīng)的圖像幀進(jìn)行文字識別,得到視頻中圖像幀的文字量;
20、在一個圖像幀的文字量的文字量大于文字閾值的情況下,確定該圖像幀為多文字幀;
21、在視頻中多文字幀的比例符合所述文字過多視頻判斷條件的情況下,從所述視頻集中刪除該視頻。
22、優(yōu)選地,所述刪除條件包括單人講話視頻判斷條件,相應(yīng)地,刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,包括:
23、利用面部檢測庫,對所述視頻集中視頻對應(yīng)的圖像幀進(jìn)行人像識別;
24、對人像識別結(jié)果進(jìn)行統(tǒng)計,得到視頻中以面部或上半身為主的圖像幀比例;
25、在視頻中以面部或上半身為主的圖像幀比例符合所述單人講話視頻判斷條件的情況下,從所述視頻集中刪除該視頻。
26、優(yōu)選地,所述刪除條件包括不良視頻判斷條件,相應(yīng)地,刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,包括:
27、利用不良信息庫對所述視頻集中視頻的圖像幀進(jìn)行不良信息檢測;
28、在視頻的檢測結(jié)果符合所述不良視頻判斷條件的情況下,從所述視頻集中刪除該視頻。
29、優(yōu)選地,所述刪除條件包括特殊標(biāo)記視頻判斷條件,相應(yīng)地,刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,包括:
30、獲取所述視頻集中視頻的關(guān)鍵幀;
31、檢測所述關(guān)鍵幀是否存在與所述特殊標(biāo)記視頻判斷條件符合的標(biāo)志內(nèi)容,
32、在檢出所述標(biāo)志內(nèi)容后,確定涵蓋所述標(biāo)志內(nèi)容的定位框;
33、基于所述定位框?qū)υ撽P(guān)鍵幀所屬視頻進(jìn)行裁剪,得到無所述標(biāo)志內(nèi)容的視頻;
34、從所述視頻集中刪除具有所述標(biāo)志內(nèi)容的視頻,并在所述視頻集中添加無所述標(biāo)志內(nèi)容的視頻。
35、優(yōu)選地,獲取視頻集,包括:
36、獲取不同語言的關(guān)鍵詞;
37、基于所述關(guān)鍵詞在不同語言的視頻網(wǎng)站進(jìn)行檢索;
38、從檢索結(jié)果中收集視頻長度在指定范圍內(nèi)的原始視頻;
39、對所述原始視頻進(jìn)行分割;
40、將視頻分割所得的視頻存入所述視頻集;
41、其中,對所述原始視頻進(jìn)行分割,包括:
42、按照固定長度對所述原始視頻進(jìn)行分割,和/或,按照場景對所述原始視頻進(jìn)行分割;
43、其中,按照固定長度對所述原始視頻進(jìn)行分割,包括:
44、判斷所述原始視頻是否大于所述固定長度;
45、如果是,則從頭開始,以所述固定長度為間隔,逐一分割所述原始視頻;
46、如果否,則保留所述原始視頻;
47、其中,按照場景對所述原始視頻進(jìn)行分割,包括:
48、檢測所述原始視頻的場景;
49、在僅檢測到單一場景的情況下,保留所述原始視頻;
50、在檢測到至少2個場景的情況下,在場景切換位置,對所述原始視頻進(jìn)行分割。
51、一種視頻處理裝置,包括:
52、視頻集獲取模塊,用于獲取視頻集,并對所述視頻集中的視頻標(biāo)注文本;
53、第一清洗模塊,用于刪除所述視頻集中視頻內(nèi)容符合刪除條件的視頻,得到第一視頻集;所述刪除條件為參照視頻生成模型的訓(xùn)練需求預(yù)先設(shè)置的;
54、關(guān)聯(lián)性分析模塊,用于計算所述第一視頻集中視頻與其標(biāo)注文本的關(guān)聯(lián)性分值;
55、第二清洗模塊,用于基于所述關(guān)聯(lián)性分值,刪除所述第一視頻集中文本標(biāo)注不準(zhǔn)確的視頻,得到第二視頻集;
56、樣本保存模塊,用于將所述第二視頻集中的視頻,按照所述視頻生成模型的樣本數(shù)據(jù)格式進(jìn)行保存;其中,所述數(shù)據(jù)格式為一條樣本數(shù)據(jù)包括一條視頻、該視頻中的關(guān)鍵幀和該視頻的標(biāo)注文本。
57、優(yōu)選地,所述第一清洗模塊,具體用于在所述刪除條件對應(yīng)至少兩種條件的情況下,按照刪除順序,從所述刪除條件中確定當(dāng)前刪除條件;利用多個與當(dāng)前刪除條件對應(yīng)的線程,從所述視頻集中檢出符合當(dāng)前刪除條件的視頻,并進(jìn)行刪除;在刪除了符合當(dāng)前刪除條件的視頻后,判斷所述當(dāng)前刪除條件是否為最后一個刪除條件;如果是,則將當(dāng)前的視頻集確定為所述第一視頻集;如果否,則按照刪除順序,從所述刪除條件中重新確定當(dāng)前刪除條件。
58、一種電子設(shè)備,包括:
59、存儲器,用于存儲計算機(jī)程序;
60、處理器,用于執(zhí)行所述計算機(jī)程序時實現(xiàn)上述數(shù)據(jù)集獲取方法的步驟。
61、一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述數(shù)據(jù)集獲取方法的步驟。
62、一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序/指令,該計算機(jī)程序/指令被處理器執(zhí)行時,實現(xiàn)上述數(shù)據(jù)集獲取方法的步驟。
63、應(yīng)用本技術(shù)實施例所提供的方法,獲取視頻集,并對視頻集中的視頻標(biāo)注文本;刪除視頻集中視頻內(nèi)容符合刪除條件的視頻,得到第一視頻集;其中,刪除條件為參照視頻生成模型的訓(xùn)練需求預(yù)先設(shè)置的;計算第一視頻集中視頻與其標(biāo)注文本的關(guān)聯(lián)性分值;基于關(guān)聯(lián)性分值,刪除第一視頻集中文本標(biāo)注不準(zhǔn)確的視頻,得到第二視頻集;將第二視頻集中的視頻,按照視頻生成模型的樣本數(shù)據(jù)格式進(jìn)行保存;其中,數(shù)據(jù)格式為一條樣本數(shù)據(jù)包括一條視頻、該視頻中的關(guān)鍵幀和該視頻的標(biāo)注文本。
64、首先,獲取到大量的視頻集,然后,對視頻集中的視頻進(jìn)行標(biāo)注文本。為了使得最終的數(shù)據(jù)集能夠符合視頻生成模型的訓(xùn)練需求,需要對視頻集中的視頻進(jìn)行清洗。具體的,可以預(yù)先根據(jù)視頻生成模型的訓(xùn)練需求設(shè)置好視頻的刪除條件,然后,在獲取視頻集后,便可將其中符合刪除條件的視頻進(jìn)行刪除,從而得到與視頻生成模型的訓(xùn)練需求對應(yīng)的第一視頻集。得到符合視頻生成模型訓(xùn)練需求的第一視頻集之后,再對第一視頻集中視頻及其標(biāo)注文本的關(guān)聯(lián)性進(jìn)行打分。基于關(guān)聯(lián)性分值,可以將第一視頻集中文本標(biāo)注不準(zhǔn)確的視頻進(jìn)行刪除,從而得到視頻與標(biāo)注文本關(guān)聯(lián)性更強的第二視頻集。然后,按照視頻生成模型的樣本數(shù)據(jù)格式保存第二視頻集,即得到用于訓(xùn)練視頻生成模型,且高質(zhì)量的數(shù)據(jù)集。
65、本技術(shù)技術(shù)效果:通過對視頻集的視頻進(jìn)行多角度的清洗,可以有效提升視頻質(zhì)量。也就是說,本技術(shù)可以獲取到高質(zhì)量用于訓(xùn)練視頻生成模型的數(shù)據(jù)集。
66、相應(yīng)地,本技術(shù)實施例還提供了與上述數(shù)據(jù)集獲取方法相對應(yīng)的數(shù)據(jù)集獲取裝置、設(shè)備、可讀存儲介質(zhì)及計算機(jī)程序產(chǎn)品,具有上述技術(shù)效果,在此不再贅述。