本申請(qǐng)涉及數(shù)據(jù)集構(gòu)建,尤其涉及一種構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法。
背景技術(shù):
1、隨著科學(xué)技術(shù)的快速發(fā)展,ai(artificial?intelligence,人工智能)已成為創(chuàng)新的核心,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的發(fā)展,是當(dāng)前ai技術(shù)能夠進(jìn)入到工業(yè)界推動(dòng)技術(shù)大變革的關(guān)鍵環(huán)節(jié)。其中,以深度學(xué)習(xí)為代表的有監(jiān)督機(jī)器學(xué)習(xí)方法,依賴于大量標(biāo)注的高質(zhì)量數(shù)據(jù)集,它們是訓(xùn)練和評(píng)估ai模型的基石。
2、目前各個(gè)專業(yè)細(xì)分領(lǐng)域,都在建設(shè)自身的大規(guī)模數(shù)據(jù)集用于深度學(xué)習(xí),既包括大規(guī)模的機(jī)械化數(shù)據(jù)采集、大規(guī)模數(shù)據(jù)工廠進(jìn)行人力標(biāo)注,亦包括大規(guī)模的仿真數(shù)據(jù)集生成,例如自動(dòng)駕駛行業(yè)。其中,行為識(shí)別這個(gè)視覺問題,作為當(dāng)前人機(jī)交互、數(shù)字孿生與元宇宙應(yīng)用的細(xì)分基礎(chǔ)技術(shù)領(lǐng)域,其數(shù)據(jù)集建設(shè)遠(yuǎn)比大多數(shù)其它ai領(lǐng)域更為困難。因?yàn)樾袨閯?dòng)作在真實(shí)世界中采集困難,大規(guī)模人工標(biāo)注精度差,數(shù)據(jù)維度高導(dǎo)致工作量巨大,人類甚至無法精準(zhǔn)、高效地對(duì)空間數(shù)據(jù)進(jìn)行標(biāo)注;另一方面仿真領(lǐng)域雖然能夠生成準(zhǔn)確標(biāo)注的行為動(dòng)作數(shù)據(jù),但是由于數(shù)據(jù)維度高,仿真領(lǐng)域目前亦難生成合理的、具有良好泛化性能的數(shù)據(jù),往往僅限于少量固定動(dòng)作的仿真渲染輸出,數(shù)據(jù)重復(fù)度高,難以在ai訓(xùn)練中大規(guī)模推廣。
3、上述問題,既限制了相關(guān)機(jī)器學(xué)習(xí)方法的發(fā)展,亦限制了工業(yè)界在行為識(shí)別領(lǐng)域應(yīng)用發(fā)展的速度與成本。因此如何提高行為識(shí)別領(lǐng)域數(shù)據(jù)集的數(shù)據(jù)規(guī)模、標(biāo)注準(zhǔn)確性、數(shù)據(jù)泛化性以及構(gòu)建效率,成為了亟需解決的問題,具有極高的現(xiàn)實(shí)價(jià)值。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,旨在借助視覺大模型技術(shù),高效地生成高質(zhì)量、高規(guī)模的行為識(shí)別數(shù)據(jù),提高了相對(duì)于傳統(tǒng)人工或者仿真方法生成的數(shù)據(jù)集的數(shù)據(jù)規(guī)模、標(biāo)注準(zhǔn)確性、數(shù)據(jù)泛化性以及構(gòu)建效率,使得構(gòu)建的數(shù)據(jù)集在行為識(shí)別ai應(yīng)用對(duì)應(yīng)的機(jī)器學(xué)習(xí)訓(xùn)練中具有極高的使用價(jià)值。
2、第一方面,本申請(qǐng)?zhí)峁┝艘环N構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,所述方法包括:
3、基于預(yù)設(shè)的動(dòng)作生成大模型,對(duì)預(yù)設(shè)的動(dòng)作描述信息進(jìn)行處理,生成目標(biāo)動(dòng)作實(shí)例;
4、基于所述目標(biāo)動(dòng)作實(shí)例,構(gòu)建場(chǎng)景動(dòng)畫,并對(duì)所述場(chǎng)景動(dòng)畫進(jìn)行處理,獲得目標(biāo)參數(shù)數(shù)據(jù),基于所述目標(biāo)參數(shù)數(shù)據(jù),生成初始數(shù)據(jù)集;
5、對(duì)所述初始數(shù)據(jù)集進(jìn)行處理,獲得模型參數(shù),并基于預(yù)設(shè)的圖像生成大模型以及所述模型參數(shù),生成增廣數(shù)據(jù)集,作為目標(biāo)訓(xùn)練數(shù)據(jù)集。
6、第二方面,本申請(qǐng)還提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器;所述存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;所述處理器,用于執(zhí)行所述計(jì)算機(jī)程序并在執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法。
7、第三方面,本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如上述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法。
8、本申請(qǐng)公開了一種構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,基于預(yù)設(shè)的動(dòng)作生成大模型,對(duì)預(yù)設(shè)的動(dòng)作描述信息進(jìn)行處理,生成目標(biāo)動(dòng)作實(shí)例;基于所述目標(biāo)動(dòng)作實(shí)例,構(gòu)建場(chǎng)景動(dòng)畫,并對(duì)所述場(chǎng)景動(dòng)畫進(jìn)行處理,獲得目標(biāo)參數(shù)數(shù)據(jù),基于所述目標(biāo)參數(shù)數(shù)據(jù),生成初始數(shù)據(jù)集;對(duì)所述初始數(shù)據(jù)集進(jìn)行處理,獲得模型參數(shù),并基于預(yù)設(shè)的圖像生成大模型以及所述模型參數(shù),生成增廣數(shù)據(jù)集,作為目標(biāo)訓(xùn)練數(shù)據(jù)集。本申請(qǐng)可以根據(jù)實(shí)際需要生成目標(biāo)動(dòng)作實(shí)例,根據(jù)該目標(biāo)動(dòng)作實(shí)例獲得初始數(shù)據(jù)集,并借助視覺大模型對(duì)初始數(shù)據(jù)集進(jìn)行泛化生成增廣數(shù)據(jù)集作為目標(biāo)訓(xùn)練數(shù)據(jù),提高了數(shù)據(jù)在ai領(lǐng)域的使用價(jià)值,解決了傳統(tǒng)仿真數(shù)據(jù)泛化性差、規(guī)模小和生成成本高的缺陷;且該生成方法不依賴于人工標(biāo)注數(shù)據(jù)避免了因人工經(jīng)驗(yàn)誤差導(dǎo)致的錯(cuò)誤標(biāo)注、不一致標(biāo)注等問題,解決了人工標(biāo)注數(shù)據(jù)難以上規(guī)模、精準(zhǔn)度差、成本高和效率低的缺陷,提升了數(shù)據(jù)集的數(shù)據(jù)規(guī)模、準(zhǔn)確性、數(shù)據(jù)泛化性以及構(gòu)建效率。
1.一種構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,所述基于預(yù)設(shè)的動(dòng)作生成大模型,對(duì)預(yù)設(shè)的動(dòng)作描述信息進(jìn)行處理,生成目標(biāo)動(dòng)作實(shí)例,包括:
3.根據(jù)權(quán)利要求1所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,所述目標(biāo)參數(shù)數(shù)據(jù)包括視頻幀、同步標(biāo)注幀數(shù)據(jù)以及相機(jī)數(shù)據(jù),基于所述目標(biāo)動(dòng)作實(shí)例,構(gòu)建場(chǎng)景動(dòng)畫,并對(duì)所述場(chǎng)景動(dòng)畫進(jìn)行處理,獲得目標(biāo)參數(shù)數(shù)據(jù),基于所述目標(biāo)參數(shù)數(shù)據(jù),生成初始數(shù)據(jù)集,包括:
4.根據(jù)權(quán)利要求3所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,所述同步標(biāo)注幀數(shù)據(jù)包括動(dòng)作標(biāo)簽、目標(biāo)模型邊界框、表征動(dòng)作的骨骼關(guān)節(jié)點(diǎn)信息、場(chǎng)景深度圖像數(shù)據(jù)以及場(chǎng)景法向量圖像數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,所述對(duì)所述初始數(shù)據(jù)集進(jìn)行處理,獲得模型參數(shù),并基于預(yù)設(shè)的圖像生成大模型以及所述模型參數(shù),生成增廣數(shù)據(jù)集,作為目標(biāo)訓(xùn)練數(shù)據(jù)集,包括:
6.根據(jù)權(quán)利要求5所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,所述基于圖像生成控制模型對(duì)所述初始數(shù)據(jù)集中的目標(biāo)參數(shù)數(shù)據(jù)進(jìn)行處理,獲得所述圖像生成大模型的第一模型參數(shù),包括:
7.根據(jù)權(quán)利要求5所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,所述基于所述圖像生成大模型,對(duì)所述第一模型參數(shù)以及所述第二模型參數(shù)進(jìn)行處理,生成所述增廣數(shù)據(jù)集,包括:
8.根據(jù)權(quán)利要求5所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法,其特征在于,所述基于預(yù)設(shè)的樣本需求,獲得圖像生成提示詞,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器;
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如權(quán)利要求1至8中任一項(xiàng)所述的構(gòu)建用于訓(xùn)練動(dòng)作識(shí)別模型的訓(xùn)練數(shù)據(jù)集的方法。