基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的第一視角空中手寫和空中交互方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計算機視覺W及機器學習領(lǐng)域,特別設(shè)及一種基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò) 的第一視角空中手寫和空中交互方法。
【背景技術(shù)】
[0002] 近年來,隨著虛擬現(xiàn)實技術(shù)(Virtual Reality,VR)和增強現(xiàn)實技術(shù)(Augmenting Reality ,AR)的興起,第一視角巧gocentric Vision)手勢交互技術(shù)受到學術(shù)界和工業(yè)界的 廣泛關(guān)注,尤其是Google Glass、Mic;rosoft Hololens等智能可穿戴式設(shè)備W及Oculus等 虛擬現(xiàn)實設(shè)備的出現(xiàn)使得傳統(tǒng)的人機交互方式難W適用,急需一種算法來幫助設(shè)備理解人 的交互需要,如手勢操作等。手勢交互技術(shù)主要設(shè)及兩個方面,手勢識別和關(guān)鍵點定位,本 發(fā)明為結(jié)合手勢識別和關(guān)鍵點定位形成的一個綜合應(yīng)用,即指尖檢測獲得采樣點W及手勢 識別獲得書寫信號。假象如下使用場景:用戶在不方便使用觸摸屏的情境下,可W直接在空 中進行第一視角手寫,完成發(fā)送信息操作;用戶在需要對現(xiàn)實畫面進行某些圖像操作如拍 照,在不便于使用拍照設(shè)備情況下可直接利用指尖空中畫圈或其他手勢實現(xiàn)即時拍攝。
[0003] 過去一些年里,關(guān)于手勢交互的算法大多數(shù)考慮利用膚色先驗信息或者運動時序 信息,但是都只能使用在受限的實驗室環(huán)境,無法適應(yīng)室內(nèi)室外場景變化,光照變化等因 素。另外,傳統(tǒng)的人工特征提取無法充分刻畫不同使用者的膚色變化和手部姿態(tài)多樣性。最 近興起的深度學習技術(shù)正好可W解決運個特征提取問題。利用善于處理視覺信息的是深度 卷積神經(jīng)網(wǎng)絡(luò)(CNN)能訓練出一個能夠提取圖像淺層特征并逐層將淺層特征通過非線性變 換抽象成高級特征的神經(jīng)網(wǎng)絡(luò)。C順方法在各種視覺分類任務(wù),如多類別物體識別等,獲得 極佳表現(xiàn),同時在某些回歸問題,如人臉關(guān)鍵點檢測、行人檢測等任務(wù)中亦表現(xiàn)出非常好的 效果。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于級聯(lián)卷積神經(jīng) 網(wǎng)絡(luò)的第一視角空中手寫和空中交互方法,解決動態(tài)視頻流里面指尖檢測問題和手勢識別 的問題,并利用手勢識別作為信號,指尖檢測跟蹤作為采樣點集,實現(xiàn)一套第一視角的空中 手寫和空中交互方案。
[0005] 為了達到上述目的,本發(fā)明采用W下技術(shù)方案:
[0006] 本發(fā)明基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的第一視角空中手寫和空中交互方法,包括下述步 驟:
[0007] S1、獲取訓練數(shù)據(jù),人工標記包含手部區(qū)域的前景區(qū)域的左上角點和右下角點,人 工標記指尖所在坐標,人工標記不同手勢的類別;
[000引S2、設(shè)計一個深度卷積神經(jīng)網(wǎng)絡(luò)用于手部檢測,該神經(jīng)網(wǎng)絡(luò)輸入為第一視角下的 單帖圖像,輸出為手部前景矩形的左上角坐標和右下角坐標,投入訓練數(shù)據(jù)并優(yōu)化歐氏范 數(shù)損失函數(shù),迭代直至參數(shù)穩(wěn)定;
[0009] S3、設(shè)計一個深度卷積神經(jīng)網(wǎng)絡(luò)用于手勢識別和指尖檢測,該神經(jīng)網(wǎng)絡(luò)輸入為僅 包含手部區(qū)域的前景矩形,輸出為指尖坐標和手勢類別,投入訓練數(shù)據(jù)并優(yōu)化一個分段損 失函數(shù),迭代直至參數(shù)穩(wěn)定;
[0010] S4、將一級網(wǎng)絡(luò)和二級網(wǎng)絡(luò)級聯(lián),通過一級網(wǎng)絡(luò)輸出的前景外接矩形切割出感興 趣區(qū)域從而獲得包含手部的前景區(qū)域,然后將前景區(qū)域作為第二級卷積網(wǎng)絡(luò)的輸入進行指 尖檢測和手勢識別;
[0011] S5、判斷手勢類別,若為單指手勢,則輸出其指尖坐標并進行時序平滑和點間插 值;
[0012] S6、利用連續(xù)多帖的指尖采樣坐標進行文字識別。
[0013] 作為優(yōu)選的技術(shù)方案,步驟Sl具體為:
[0014] SI. 1、通過攝像頭處于人眼位置模擬第一視角,采集大規(guī)模數(shù)據(jù),覆蓋不同的場 景,包括多種不同的手勢,其中一種必須是單指手勢而且指尖可見;
[0015] SI. 2、人工標記包含手部區(qū)域的外接矩形左上角坐標和右下角坐標,人工標記手 勢類別,若手勢為單指手勢,人工標記指尖的位置;
[0016] Sl .3、按照鍵值對的方式,配對儲存圖像和對應(yīng)的標簽真實值。
[0017] 作為優(yōu)選的技術(shù)方案,在所述步驟SI. 1中,所采集的數(shù)據(jù)為第一視角的數(shù)據(jù),畫面 包含手勢。
[0018] 作為優(yōu)選的技術(shù)方案,在所述步驟SI. 2中,所采集的數(shù)據(jù)是通過人工標價手部前 景左上角坐標和右下角坐標,人工標記指尖坐標和人工標記手勢類別來進行監(jiān)督學習。
[0019] 作為優(yōu)選的技術(shù)方案,步驟S2具體為:
[0020] S2.1、合理設(shè)計一個深度卷積神經(jīng)網(wǎng)絡(luò),包括卷積層、池化層和全卷積層,使得網(wǎng) 絡(luò)輸入為立通道RGB圖像,輸出為兩個二維坐標(xti,yti)和(xbr,ybr),分別代表手部前景的 左上角右下角;
[0021] S2.2、其應(yīng)用損失函數(shù)為:
[0022]
[0023] 其中Pi代表預(yù)測的坐標值,ti代表訓練樣本中已經(jīng)標注的坐標真實值,N代表輸出 坐標的個數(shù),此處N為4,代表左上角和右下角坐標,對應(yīng)的反向傳播的殘差為
[0024] ei = pi-ti(l < i < 4)
[0025] S2.3、投入訓練數(shù)據(jù)并應(yīng)用梯度下降法優(yōu)化目標函數(shù)。
[0026] 作為優(yōu)選的技術(shù)方案,步驟S3具體為:
[0027] S3.1、合理設(shè)計一個深度卷積神經(jīng)網(wǎng)絡(luò),包括卷積層,池化層,全卷積層,使得網(wǎng)絡(luò) 輸入為立通道RGB圖像,輸出為指尖的二維坐標(Xft,yft)和手勢分類^gesture);
[00%] S3.2、確定其損失函數(shù),該損失函數(shù)表示為:
[0029]
[0030] E = O Cgesture 辛 CgroimcHruth
[0031] 其中Pi代表預(yù)測的坐標值,ti代表訓練樣本中已經(jīng)標注的坐標真實值,N代表輸出 坐標的個數(shù),此處N為2,Cgroundtruth代表手勢類別真實值,Cgesture代表網(wǎng)絡(luò)輸出的手勢,對應(yīng) 的反向傳播的殘差為:
[0032] £i = pi-ti
[0033] S3.3、投入訓練數(shù)據(jù)并應(yīng)用梯度下降法優(yōu)化目標函數(shù)。
[0034] 作為優(yōu)選的技術(shù)方案,步驟S4中,利用兩層卷積神經(jīng)網(wǎng)絡(luò)級聯(lián)的方法,先進行手部 檢測,獲取較小的前景區(qū)域,再進行指尖檢測和手勢識別。
[0035] 作為優(yōu)選的技術(shù)方案,步驟S5具體為:
[0036] S5.1、判斷手勢類別,若為單指,記錄采樣點坐標序列;
[0037] S5.2、進行一個滑動窗均值濾波;
[003引 Pi = pi-i+pi+pi+i。
[0039] 作為優(yōu)選的技術(shù)方案,步驟S5中,對每一帖圖像先進行手勢識別,若為單指手勢, 則輸出指尖坐柄。
[0040] 作為優(yōu)選的技術(shù)方案,步驟S6中,利用平滑的采樣點進行文字識別。
[0041] 本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:
[0042] 1、本發(fā)明采用了大規(guī)模數(shù)據(jù)采集人工標定的技術(shù)方案,從而能夠利用深度卷積神 經(jīng)網(wǎng)絡(luò)進行監(jiān)督學習。
[0043] 2、本發(fā)明采用了人工標定手部外接矩形坐標和指尖坐標的技術(shù)方案,從而能夠利 用深度卷積神經(jīng)網(wǎng)絡(luò)進行回歸問題的優(yōu)化訓練求解。
[0044] 3、本發(fā)明采用了兩層級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)方案,從而能夠分兩層分別著重處 理不同的檢測。
[0045] 4、本發(fā)明采用了第一級卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)手部檢測的技術(shù)方案,為后續(xù)的指尖檢 測濾除了70% W上的無用背景信息。
[0046] 5、本發(fā)明采用了第二級卷積神經(jīng)網(wǎng)絡(luò)同時進行指尖檢測和手勢識別的技術(shù)方案, 能夠穩(wěn)定的預(yù)測指尖的坐標同時預(yù)測手勢類型
[0047] 6、本發(fā)明采用了第二級卷積神經(jīng)網(wǎng)絡(luò)同時進行指尖檢測和手勢識別的技術(shù)方案, 能夠減少整體時間性能消耗。
[0048] 7、本發(fā)明采用了預(yù)測指尖坐標后進行采樣點平滑濾波,從而優(yōu)化空中手寫的視覺 效果W及優(yōu)化文字識別的準確率
【附圖說明】
[0049] 圖1(a)-圖1(b)是本發(fā)明的體驗者佩戴智能眼鏡的第一視角示意圖;
[0050] 圖2是本發(fā)明第一視角采集的樣本示意;
[0051 ]圖3是本發(fā)明第一視角空中手寫和交互算法流程圖;
[0052] 圖4是本發(fā)明求解手部檢測外接矩形的卷積神經(jīng)網(wǎng)絡(luò)示意圖;
[0053] 圖5是本發(fā)明求解指尖檢測和手勢分類所使用的卷積神經(jīng)網(wǎng)絡(luò)示意圖;
[0054] 圖6(a)-圖6(d)是本發(fā)明優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)可視化示意圖;
[0055] 圖7是本發(fā)明算法程序原型的連續(xù)多帖輸出示意圖。
【具體實施方式】
[0056] 下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限 于此。
[0057] 實施例
[0058] 本發(fā)明基于級聯(lián)卷積深度卷積神經(jīng)網(wǎng)絡(luò)的第一視角空中手寫和空中交互方法,如 圖3所示,包括如下步驟:
[0059] S1、獲取訓練數(shù)據(jù),人工標記包含手部區(qū)域的外接矩形(前景區(qū)域)的左上角點和 右下角點,人工標記指尖所在坐標,人工標記不同手勢的類別;
[0060] SI. 1通過攝像頭處于人眼位置模擬第一視角(如圖1(a)-圖1(b)所示),采集大規(guī) 模數(shù)據(jù),覆蓋不同的場景,包括多種不同的手勢(如圖2所示),其中一種必須是單指手勢而 且指尖可見;
[0061] SI. 2人工標記包含手部區(qū)域的外接矩形