本公開實施例涉及圖像處理,尤其涉及一種深度圖像質(zhì)量增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、目前,對人體行為理解的技術(shù)主要集中在通過傳統(tǒng)的可見光相機(jī)拍攝的視頻來識別人類活動。隨著成像技術(shù)的進(jìn)步,最近出現(xiàn)的深度傳感器為人體行為識別任務(wù)帶來了巨大優(yōu)勢。與人類活動識別中的常規(guī)彩色幀相比,深度圖對變化的光照條件具有更強(qiáng)的魯棒性,這對于在黑暗環(huán)境下工作的系統(tǒng)帶來了巨大幫助。更重要的是,深度傳感器相比可見光相機(jī)來說保護(hù)人體隱私,使得系統(tǒng)可以部署在一些敏感場景比如衛(wèi)生間,國家機(jī)構(gòu)等。人體行為理解在深度傳感器數(shù)據(jù)中的表征有多種形式,包括:最主要的方法是骨骼關(guān)節(jié)和點(diǎn)云?;诠趋赖闹髁鞣椒ㄊ褂藐P(guān)節(jié)差異來捕獲人靜態(tài)姿勢、連續(xù)運(yùn)動和整體動態(tài)的活動線索。也有方法使用關(guān)節(jié)的速度、配置和加速度的"移動姿態(tài)"。相比于骨骼關(guān)節(jié),點(diǎn)云對噪音和遮擋更加魯棒。主流方法用時空占用模式來劃分為時空單元并計算相應(yīng)的占用值,以此來描述深度外觀。
2、現(xiàn)有的方法直接采用基于3d骨骼建模的方法在多人場景下效果較差,因為低分辨率深度數(shù)據(jù)容易出現(xiàn)遮擋和精度問題,無法準(zhǔn)確恢復(fù)每個人的骨骼信息。而基于深度圖像特征的方法,雖然不依賴于精確的3d骨骼數(shù)據(jù),但低分辨率數(shù)據(jù)中的特征仍然較為粗糙,識別準(zhǔn)確率較低,同時也容易受到環(huán)境因素的影響。此外,低成本的深度傳感器本身分辨率較低、測量精度有限、數(shù)據(jù)噪音較大,這進(jìn)一步加劇了算法性能的瓶頸。
3、可見,亟需一種重建效率、精準(zhǔn)度和適應(yīng)性高的深度圖像質(zhì)量增強(qiáng)方法。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開實施例提供一種深度圖像質(zhì)量增強(qiáng)方法、系統(tǒng)、設(shè)備及介質(zhì),至少部分解決現(xiàn)有技術(shù)中存在重建效率、精準(zhǔn)度和適應(yīng)性較差的問題。
2、第一方面,本公開實施例提供了一種深度圖像質(zhì)量增強(qiáng)方法,包括:
3、步驟1,將初始深度數(shù)據(jù)集與對應(yīng)的可見光數(shù)據(jù)集進(jìn)行對齊,形成深度數(shù)據(jù)與可見光數(shù)據(jù)的數(shù)據(jù)對集;
4、步驟2,根據(jù)數(shù)據(jù)對集和預(yù)設(shè)模型獲得質(zhì)量增強(qiáng)之后的目標(biāo)深度圖像。
5、根據(jù)本公開實施例的一種具體實現(xiàn)方式,所述步驟1之前,所述方法還包括:
6、收集包含多種人體行為的低分辨率深度數(shù)據(jù)集作為初始深度數(shù)據(jù)集。
7、根據(jù)本公開實施例的一種具體實現(xiàn)方式,所述步驟1具體包括:
8、步驟1.1,將低分辨率深度數(shù)據(jù)集與可見光數(shù)據(jù)集進(jìn)行歸一化:
9、步驟1.2,采用特征點(diǎn)匹配方法對歸一化后的低分辨率深度數(shù)據(jù)集與可見光數(shù)據(jù)集進(jìn)行時間和空間的對齊;
10、步驟1.3,采用基于預(yù)訓(xùn)練的多模態(tài)編碼器,將低分辨率深度數(shù)據(jù)集和可見光數(shù)據(jù)集中數(shù)據(jù)映射到一個共享的特征嵌入空間,建立低分辨率深度數(shù)據(jù)集和可見光數(shù)據(jù)集之間的聯(lián)系;
11、步驟1.4,形成深度-可見光樣本的數(shù)據(jù)對集。
12、根據(jù)本公開實施例的一種具體實現(xiàn)方式,所述步驟1.2具體包括:
13、步驟1.2.1,對低分辨率深度數(shù)據(jù)集和可見光數(shù)據(jù)集分別進(jìn)行特征點(diǎn)提?。?/p>
14、步驟1.2.2,對每個特征點(diǎn)計算其特征向量;
15、步驟1.2.3,使用特征匹配算法將低分辨率深度數(shù)據(jù)集和可見光數(shù)據(jù)集中的特征點(diǎn)進(jìn)行匹配;
16、步驟1.2.4,使用匹配的特征點(diǎn)對低分辨率深度數(shù)據(jù)集與可見光數(shù)據(jù)集中配準(zhǔn)的數(shù)據(jù)進(jìn)行幾何校正。
17、根據(jù)本公開實施例的一種具體實現(xiàn)方式,所述步驟1.3具體包括:
18、步驟1.3.1,用transformer模型作為基座,通過端到端的訓(xùn)練,學(xué)習(xí)從可見光特征和深度特征到共享的特征嵌入空間的映射函數(shù),其中,所述映射函數(shù)為
19、zdepth=f(xdepth,xrgb)
20、其中,xdepth為低分辨率深度數(shù)據(jù)集,xrgb為可見光數(shù)據(jù)集,f(·)為跨模態(tài)映射函數(shù);
21、步驟1.3.2,利用映射函數(shù)建立低分辨率深度數(shù)據(jù)集和可見光數(shù)據(jù)集之間的聯(lián)系。
22、根據(jù)本公開實施例的一種具體實現(xiàn)方式,所述步驟2具體包括:
23、步驟2.1,構(gòu)建預(yù)設(shè)模型對應(yīng)的一個跨模態(tài)對比損失函數(shù),據(jù)此通過對比學(xué)習(xí)對預(yù)設(shè)模型進(jìn)行微調(diào);
24、步驟2.2,將數(shù)據(jù)對集輸入跨模態(tài)生成器進(jìn)行訓(xùn)練;
25、步驟2.3,采集目標(biāo)人體對應(yīng)的低分辨率深度圖像輸入訓(xùn)練好的跨模態(tài)生成器,生成高分辨率的目標(biāo)深度圖像,其中,所述目標(biāo)深度圖像的表達(dá)式為bf{z}_{depth}=g(xdepth|xrgb)
26、其中,g表示跨模態(tài)生成器。
27、根據(jù)本公開實施例的一種具體實現(xiàn)方式,所述步驟2.1具體包括:
28、構(gòu)建預(yù)設(shè)模型對應(yīng)的一個跨模態(tài)對比損失函數(shù),并通過對比學(xué)習(xí)對預(yù)設(shè)模型進(jìn)行微調(diào),使得對齊后的深度-可見光樣本在潛在特征空間中的距離盡可能小,而非配對樣本的距離盡可能大,其中,所述跨模態(tài)對比損失函數(shù)的表達(dá)式為
29、contrast=-logexp(sim(zdepth,zrgb)/τ)∑iexp(sim(zdepth,zrgbi)/τ)
30、其中,sim為相似性度量,τ為對比學(xué)習(xí)的溫度超參數(shù)zdepth和zrgb分別為對齊后的低分辨率深度數(shù)據(jù)和可見光數(shù)據(jù)。
31、第二方面,本公開實施例提供了一種深度圖像質(zhì)量增強(qiáng)系統(tǒng),包括:
32、對齊模塊,用于將初始深度數(shù)據(jù)集與對應(yīng)的可見光數(shù)據(jù)集進(jìn)行對齊,形成深度數(shù)據(jù)與可見光數(shù)據(jù)的數(shù)據(jù)對集;
33、增強(qiáng)模塊,用于根據(jù)數(shù)據(jù)對集和預(yù)設(shè)模型獲得質(zhì)量增強(qiáng)之后的目標(biāo)深度圖像。
34、第三方面,本公開實施例還提供了一種電子設(shè)備,該電子設(shè)備包括:
35、至少一個處理器;以及,
36、與該至少一個處理器通信連接的存儲器;其中,
37、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行前述第一方面或第一方面的任一實現(xiàn)方式中的深度圖像質(zhì)量增強(qiáng)方法。
38、第四方面,本公開實施例還提供了一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),該非暫態(tài)計算機(jī)可讀存儲介質(zhì)存儲計算機(jī)指令,該計算機(jī)指令用于使該計算機(jī)執(zhí)行前述第一方面或第一方面的任一實現(xiàn)方式中的深度圖像質(zhì)量增強(qiáng)方法。
39、第五方面,本公開實施例還提供了一種計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品包括存儲在非暫態(tài)計算機(jī)可讀存儲介質(zhì)上的計算程序,該計算機(jī)程序包括程序指令,當(dāng)該程序指令被計算機(jī)執(zhí)行時,使該計算機(jī)執(zhí)行前述第一方面或第一方面的任一實現(xiàn)方式中的深度圖像質(zhì)量增強(qiáng)方法。
40、本公開實施例中的深度圖像質(zhì)量增強(qiáng)方案,包括:步驟1,將初始深度數(shù)據(jù)集與對應(yīng)的可見光數(shù)據(jù)集進(jìn)行對齊,形成深度數(shù)據(jù)與可見光數(shù)據(jù)的數(shù)據(jù)對集;步驟2,根據(jù)數(shù)據(jù)對集和預(yù)設(shè)模型獲得質(zhì)量增強(qiáng)之后的目標(biāo)深度圖像。
41、本公開實施例的有益效果為:通過本公開的方案,利用大基礎(chǔ)模型的能力,實現(xiàn)了跨模態(tài)將低分辯率深度傳感器和可見光數(shù)據(jù)模態(tài)這兩種異構(gòu)數(shù)據(jù)整合到一個統(tǒng)一的嵌入空間中,以此解決低分辯率深度傳感器數(shù)據(jù)稀缺以及理解難度高的問題,利用圖像的固有關(guān)聯(lián)性質(zhì),將這兩種模態(tài)的嵌入與圖像嵌入進(jìn)行對齊,然后將對齊后的深度-可見光樣本通過對比學(xué)習(xí)進(jìn)行微調(diào),這種跨模態(tài)對齊方法能夠產(chǎn)生強(qiáng)大的零樣本行為,自動關(guān)聯(lián)訓(xùn)練數(shù)據(jù)中從未出現(xiàn)過的模態(tài)組合,提高了低分辨率深度圖像的重建效率、精準(zhǔn)度和適應(yīng)性。