本公開涉及計算機視覺領(lǐng)域,更具體地,涉及一種圖像關(guān)鍵點檢測方法、裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、手部關(guān)鍵點定位是計算機視覺領(lǐng)域的重要技術(shù),其是從圖像或視頻中提取手部關(guān)鍵點位置。該技術(shù)在手勢識別、人機交互、生物特征識別等眾多領(lǐng)域均有廣泛應(yīng)用。
2、常見的手部關(guān)鍵點定位可以分為二維手部關(guān)鍵點定位和三維手部關(guān)鍵點定位。其中,二維手部關(guān)鍵點定位是從圖像中提取手部關(guān)鍵點在二維坐標系下的坐標(即x、y坐標)。由于互聯(lián)網(wǎng)技術(shù)的發(fā)展和圖像采集設(shè)備的普及,二維手部關(guān)鍵點算法可以搜集到海量的、變化豐富的圖像數(shù)據(jù)用于訓練模型。但是由于二維圖像只是三維手部結(jié)構(gòu)在成像平面的一個投影,采集的圖像很容易出現(xiàn)手部遮擋問題,不能反映手部的完整三維結(jié)構(gòu)。三維手部關(guān)鍵點定位在提取x、y坐標的基礎(chǔ)上增加了對每個關(guān)鍵點的深度z的預(yù)測,可以更好地反映手部的空間結(jié)構(gòu),但是由于一般圖像中沒有深度信息,需要在實驗室中進行數(shù)據(jù)收集,導致無法包含豐富的環(huán)境變化,難以采集到貼近實際環(huán)境的樣本,影響模型最終的泛化能力。
3、因此,需要一種高效且準確的圖像關(guān)鍵點檢測方法。
技術(shù)實現(xiàn)思路
1、為了解決上述問題,本公開通過利用經(jīng)編碼一致的二維手部關(guān)鍵點樣本和三維手部關(guān)鍵點樣本同時進行手部關(guān)鍵點檢測與定位,以訓練包括手部檢測與手部關(guān)鍵點定位子網(wǎng)絡(luò)的單一的關(guān)鍵點預(yù)測模型。
2、本公開的實施例提供了一種圖像關(guān)鍵點檢測方法、裝置、設(shè)備和計算機可讀存儲介質(zhì)。
3、本公開的實施例提供了一種圖像關(guān)鍵點檢測方法,包括:獲取目標圖像;提取所述目標圖像的特征圖,所述特征圖中的每個像素具有與所述目標圖像中的對應(yīng)圖像區(qū)域相關(guān)聯(lián)的多維特征向量;以及對于所述特征圖中的每個像素:基于所述像素的多維特征向量,確定與所述像素相對應(yīng)的圖像區(qū)域的分類,所述分類包括左手和右手;基于所述像素的多維特征向量,預(yù)測與所述像素相對應(yīng)的圖像區(qū)域的分類為左手的情況下所述圖像區(qū)域中的第一關(guān)鍵點集合、以及所述圖像區(qū)域的分類為右手的情況下所述圖像區(qū)域中的第二關(guān)鍵點集合;以及基于所確定的與所述像素相對應(yīng)的所述圖像區(qū)域的分類,從所述第一關(guān)鍵點集合和所述第二關(guān)鍵點集合中選擇一個作為與所述像素相對應(yīng)的關(guān)鍵點集合。
4、本公開的實施例提供了一種圖像關(guān)鍵點檢測裝置,包括:圖像獲取模塊,被配置為獲取目標圖像;特征提取模塊,被配置為提取所述目標圖像的特征圖,所述特征圖中的每個像素具有與所述目標圖像中的對應(yīng)圖像區(qū)域相關(guān)聯(lián)的多維特征向量;以及關(guān)鍵點預(yù)測模塊,被配置為對于所述特征圖中的每個像素:基于所述像素的多維特征向量,確定與所述像素相對應(yīng)的圖像區(qū)域的分類,所述分類包括左手和右手;基于所述像素的多維特征向量,預(yù)測與所述像素相對應(yīng)的圖像區(qū)域的分類為左手的情況下所述圖像區(qū)域中的第一關(guān)鍵點集合、以及所述圖像區(qū)域的分類為右手的情況下所述圖像區(qū)域中的第二關(guān)鍵點集合;以及基于所確定的與所述像素相對應(yīng)的所述圖像區(qū)域的分類,從所述第一關(guān)鍵點集合和所述第二關(guān)鍵點集合中選擇一個作為與所述像素相對應(yīng)的關(guān)鍵點集合。
5、本公開的實施例提供了一種圖像關(guān)鍵點檢測設(shè)備,包括:一個或多個處理器;以及一個或多個存儲器,其中,所述一個或多個存儲器中存儲有計算機可執(zhí)行程序,當由所述處理器執(zhí)行所述計算機可執(zhí)行程序時,執(zhí)行如上所述的圖像關(guān)鍵點檢測方法。
6、本公開的實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機可執(zhí)行指令,所述指令在被處理器執(zhí)行時用于實現(xiàn)如上所述的圖像關(guān)鍵點檢測方法。
7、本公開的實施例提供了一種計算機程序產(chǎn)品或計算機程序,該計算機程序產(chǎn)品或計算機程序包括計算機指令,該計算機指令存儲在計算機可讀存儲介質(zhì)中。計算機設(shè)備的處理器從計算機可讀存儲介質(zhì)讀取該計算機指令,處理器執(zhí)行該計算機指令,使得該計算機設(shè)備執(zhí)行根據(jù)本公開的實施例的圖像關(guān)鍵點檢測方法。
8、本公開的實施例所提供的方法相比于傳統(tǒng)的手部關(guān)鍵點定位方法而言,能夠通過多任務(wù)學習訓練同時執(zhí)行手部檢測與手部關(guān)鍵點定位的單一的關(guān)鍵點預(yù)測模型,減少了算法開發(fā)周期與成本,有利于迭代優(yōu)化,并且同時利用二維和三維標記數(shù)據(jù),既能夠提供豐富的場景變化,又能夠準確描述手部結(jié)構(gòu)信息。此外,通過對左右手的關(guān)鍵點定位問題進行區(qū)分,降低了關(guān)鍵點定位的難度,并且提升了定位精度。
9、本公開的實施例所提供的方法通過針對從目標圖像提取的特征圖中的每個像素,基于該像素的多維特征向量對原始目標圖像中的對應(yīng)圖像區(qū)域進行手部檢測和關(guān)鍵點定位,其中,同步地執(zhí)行對圖像區(qū)域的分類和對圖像區(qū)域內(nèi)關(guān)于左右手的不同關(guān)鍵點預(yù)測,并基于分類的結(jié)果選擇關(guān)鍵點預(yù)測結(jié)果作為該像素下的關(guān)鍵點集合,從而實現(xiàn)對原始目標圖像中的所有手部關(guān)鍵點的檢測。通過本公開的實施例的方法能夠訓練同時執(zhí)行手部檢測與手部關(guān)鍵點定位的單一的關(guān)鍵點預(yù)測模型,減少了算法開發(fā)周期與成本,有利于迭代優(yōu)化,并且通過利用二維和三維標記數(shù)據(jù),既能夠提供豐富的場景變化,又能夠準確描述手部結(jié)構(gòu)信息。此外,通過對左右手的關(guān)鍵點定位問題進行區(qū)分,降低了關(guān)鍵點定位的難度,并且提升了定位精度。
1.一種圖像關(guān)鍵點檢測方法,包括:
2.如權(quán)利要求1所述的方法,其中,提取所述目標圖像的特征圖包括:
3.如權(quán)利要求1所述的方法,其中,所述確定與所述像素相對應(yīng)的圖像區(qū)域的分類由預(yù)先訓練的檢測子網(wǎng)絡(luò)執(zhí)行,確定與所述像素相對應(yīng)的圖像區(qū)域的分類包括:
4.如權(quán)利要求3所述的方法,其中,所述分類還包括背景;
5.如權(quán)利要求3所述的方法,其中,對所述第一關(guān)鍵點集合和所述第二關(guān)鍵點集合的預(yù)測由預(yù)先訓練的關(guān)鍵點定位子網(wǎng)絡(luò)執(zhí)行,其中,在所述關(guān)鍵點定位子網(wǎng)絡(luò)中,采用兩個不同的定位模型來分別預(yù)測與所述像素相對應(yīng)的圖像區(qū)域的分類為左手和右手的情況下所述圖像區(qū)域中的關(guān)鍵點集合。
6.如權(quán)利要求5所述的方法,其中,所述檢測子網(wǎng)絡(luò)和所述關(guān)鍵點定位子網(wǎng)絡(luò)構(gòu)成關(guān)鍵點預(yù)測模型,所述關(guān)鍵點預(yù)測模型以所述目標圖像的特征圖為輸入,并且以所述目標圖像中的關(guān)鍵點集合為輸出,其中,所述關(guān)鍵點集合中的每個關(guān)鍵點具有深度信息。
7.如權(quán)利要求6所述的方法,其中,所述預(yù)先訓練的檢測子網(wǎng)絡(luò)和所述預(yù)先訓練的關(guān)鍵點定位子網(wǎng)絡(luò)是通過對所述關(guān)鍵點預(yù)測模型的訓練而得到的;
8.如權(quán)利要求7所述的方法,其中,所述訓練圖像集中的每個訓練圖像包括一個或多個手部對象,所述一個或多個手部對象中的每個手部對象具有用于訓練的二維關(guān)鍵點樣本或三維關(guān)鍵點樣本;
9.如權(quán)利要求8所述的方法,其中,在所述關(guān)鍵點預(yù)測模型的訓練中,為所述訓練圖像集中的每個訓練圖像中的每個手部對象設(shè)置有具有統(tǒng)一格式的訓練標簽,所述格式為具有預(yù)定維度的向量,所述預(yù)定維度包括所述分類的維度、將與所述手部對象相對應(yīng)的圖像區(qū)域的分類預(yù)測為左手的情況下的關(guān)鍵點維度、以及將與所述手部對象相對應(yīng)的圖像區(qū)域的分類預(yù)測為右手的情況下的關(guān)鍵點維度,其中,所述關(guān)鍵點維度與所述手部對象的關(guān)鍵點數(shù)量和每個關(guān)鍵點的三維坐標的維度相關(guān)。
10.如權(quán)利要求9所述的方法,其中,在所述關(guān)鍵點預(yù)測模型的訓練中,還為所述訓練圖像集中的每個訓練圖像中的每個手部對象設(shè)置有與所述關(guān)鍵點維度的維度相同的掩碼向量,用于對所述二維關(guān)鍵點樣本和所述三維關(guān)鍵點樣本進行統(tǒng)一處理;
11.如權(quán)利要求10所述的方法,其中,在所述關(guān)鍵點預(yù)測模型的訓練中,基于所述關(guān)鍵點預(yù)測模型對每個手部對象的關(guān)鍵點集合的預(yù)測結(jié)果與所述手部對象的訓練標簽之間的差、以及所述掩碼向量,確定所述關(guān)鍵點預(yù)測模型對所述手部對象的關(guān)鍵點預(yù)測損失函數(shù),并基于對所述損失函數(shù)的優(yōu)化對所述關(guān)鍵點預(yù)測模型進行調(diào)整。
12.一種圖像關(guān)鍵點檢測裝置,包括:
13.一種圖像關(guān)鍵點檢測設(shè)備,包括:
14.一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品存儲在計算機可讀存儲介質(zhì)上,并且包括計算機指令,所述計算機指令在由處理器運行時使得計算機設(shè)備執(zhí)行權(quán)利要求1-11中任一項所述的方法。
15.一種計算機可讀存儲介質(zhì),其上存儲有計算機可執(zhí)行指令,所述指令在被處理器執(zhí)行時用于實現(xiàn)如權(quán)利要求1-11中任一項所述的方法。