本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,特別是涉及一種基于深度圖像的唇語交互方法以及交互裝置。
背景技術(shù):
在人工智能領(lǐng)域已經(jīng)圖像處理領(lǐng)域,利用目標(biāo)的圖像信息可以實(shí)現(xiàn)很多功能比如用來分析用戶的表情或動作信息等等。圖像獲取和識別一直是較為熱門的研究話題,涉及到用戶日常生活以及科學(xué)研究的多個方面。
例如,可通過對用戶面部進(jìn)行識別如唇語進(jìn)行識別的技術(shù)能提高體感交互、語音識別的準(zhǔn)確率,從而進(jìn)一步地帶來更加舒適的交互體驗(yàn)。
但是現(xiàn)有技術(shù)中,唇語識別一般是基于彩色相機(jī)來獲取用戶的面部信息,這種方式容易受到環(huán)境的影響,如光線太強(qiáng)或太弱都會直接影響到圖像獲取的精度,導(dǎo)致識率很低,最終導(dǎo)致交互的成功率并不高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明主要解決的技術(shù)問題是提供一種基于深度圖像的唇語交互方法以及唇語交互裝置,能夠有效提高通過唇語識別來進(jìn)行交互的成功率。
為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:提供一種基于深度圖像的唇語交互方法,所述交互方法包括:
獲取目標(biāo)人體對象的深度圖像信息;
從所述深度圖像信息中獲取所述目標(biāo)人體對象的唇部區(qū)域圖像;
從所述嘴唇區(qū)域圖像提取唇部特征,根據(jù)所述唇部特征進(jìn)行唇語識別;
將所述唇語識別的結(jié)果轉(zhuǎn)化成對應(yīng)的操作指令,并根據(jù)所述操作指令進(jìn)行交互。
其中,所述從所述深度圖像信息中獲取所述目標(biāo)人體對象的嘴唇區(qū)域圖像的步驟具體包括:
對所述深度圖像信息進(jìn)行分割得到所述目標(biāo)人體對象的人臉圖像;
從所述人臉圖像中獲取所述目標(biāo)人體對象的嘴唇區(qū)域圖像。
其中,所述對所述圖像信息進(jìn)行分割得到所述目標(biāo)人體對象的人臉圖像的步驟具體包括:
根據(jù)深度特征信息判斷所述圖像信息中是否包括所述目標(biāo)人體對象的鼻尖;
在所述深度圖像信息中包括所述目標(biāo)人體對象的鼻尖時,檢測所述鼻尖兩側(cè)是否存在橢圓的人臉輪廓區(qū)域;
如果存在所述人臉輪廓區(qū)域,獲取包括所述鼻尖以及人臉輪廓的區(qū)域圖像作為所述目標(biāo)人體對象的人臉圖像;
所述從所述人臉圖像中獲取所述目標(biāo)人體對象的嘴唇區(qū)域圖像的步驟包括:
提取所述人臉圖像中的所述鼻尖下方的區(qū)域作為嘴唇區(qū)域圖像。
所述提取所述人臉圖像中的所述鼻尖下方的區(qū)域作為嘴唇區(qū)域圖像的步驟之后還包括:
通過邊緣檢測或閾值分割的圖像處理方法從所述嘴唇區(qū)域圖像中獲取所述目標(biāo)人體對象的雙唇圖像。
其中,所述從所述嘴唇區(qū)域圖像中提取唇部特征,并對所述唇部特征進(jìn)行唇語識別的步驟具體包括:
通過外觀輪廓提取方法或輪廓特征提取方法中的至少一種從所述嘴唇區(qū)域圖像中提取唇部特征;
將所述唇部特征與設(shè)定識別模型數(shù)據(jù)庫中的識別信息進(jìn)行比對,得到所述唇部特征對應(yīng)的唇語識別結(jié)果。
其中,所述獲取目標(biāo)人體對象的深度圖像信息的步驟具體包括:
通過預(yù)先設(shè)置的雙攝像機(jī)同步采集所述目標(biāo)人體對象的第一圖像以及所述目標(biāo)人體對象的第二圖像;
根據(jù)所述第一圖像和所述第二圖像計(jì)算得到所述目標(biāo)人體對象的深度圖像信息。
其中,所述獲取目標(biāo)人體對象的深度圖像信息的步驟具體包括:
通過紅外相機(jī)獲取所述目標(biāo)人體對象的結(jié)構(gòu)光紅外圖像,從所述結(jié)構(gòu)光紅外圖像中獲取所述目標(biāo)人體對象的深度圖像信息。
其中,所述獲取目標(biāo)人體對象的深度圖像信息的步驟具體包括:
向所述目標(biāo)人體圖像所在的目標(biāo)區(qū)域投射紅外光;
通過紅外相機(jī)采集所述紅外光反射的光線,根據(jù)所述光線的傳輸時間計(jì)算得到所述目標(biāo)人體圖像的深度圖像信息。
為解決上述技術(shù)問題,本發(fā)明采用的另一個技術(shù)方案是:提供一種基于深度圖像的唇語交互裝置,
所述唇語交互裝置包括:深度圖像信息獲取模塊、唇部區(qū)域圖像確定模塊、唇語識別模塊以及交互模塊,
所述深度圖像信息獲取模塊用于獲取目標(biāo)人體對象的深度圖像信息;
所述唇部區(qū)域圖像確定模塊用于從所述深度圖像信息中獲取所述目標(biāo)人體對象的唇部區(qū)域圖像;
所述唇語識別模塊用于從所述嘴唇區(qū)域圖像提取唇部特征,根據(jù)所述唇部特征進(jìn)行唇語識別;
所述交互模塊用于將所述唇語識別的結(jié)果轉(zhuǎn)化成對應(yīng)的操作指令,并根據(jù)所述操作指令進(jìn)行交互。
其中,所述唇部區(qū)域圖像確定模塊具體用于對所述深度圖像信息進(jìn)行分割得到所述目標(biāo)人體對象的人臉圖像;從所述人臉圖像中獲取所述目標(biāo)人體對象的嘴唇區(qū)域圖像。
本發(fā)明的有益效果是:區(qū)別于現(xiàn)有技術(shù)的情況,本實(shí)施方式的唇語交互方法首先獲取目標(biāo)人體對象的深度圖像信息;從所述深度圖像信息中獲取所述目標(biāo)人體對象的唇部區(qū)域圖像;從所述嘴唇區(qū)域圖像提取唇部特征,根據(jù)所述唇部特征進(jìn)行唇語識別;將所述唇語識別的結(jié)果轉(zhuǎn)化成對應(yīng)的操作指令,并根據(jù)所述操作指令進(jìn)行交互。上述通過獲取深度圖像信息,從深度圖像中來提取唇部特征信息的方式,相對于傳統(tǒng)直接通過彩色相機(jī)獲取圖像信息的方式,不容易受到環(huán)境如光線強(qiáng)弱的影響,能夠有效提高圖像識別的命中率,進(jìn)一步提高唇語識別的命中率,最終可有效改善交互的執(zhí)行率和操作準(zhǔn)確率,有利于唇語識別應(yīng)用于交互技術(shù)中的推廣。
附圖說明
圖1是本發(fā)明基于深度圖像的唇語交互方法一實(shí)施方式的流程示意圖;
圖2是本發(fā)明基于深度圖像的唇語交互方法另一實(shí)施方式的流程示意圖;
圖3是本發(fā)明基于深度圖像的唇交互方法再一實(shí)施方式的流程示意圖;
圖4是本發(fā)明基于深度圖像的唇語交互裝置一實(shí)施方式的結(jié)構(gòu)示意圖;
圖5是本發(fā)明基于深度圖像的唇語交互裝置另一實(shí)施方式的結(jié)構(gòu)示意圖;
圖6是本發(fā)明基于深度圖像的唇語交互裝置再一實(shí)施方式的結(jié)構(gòu)示意圖。
具體實(shí)施方式
參閱圖1,圖1是本發(fā)明基于深度圖像的唇語交互方法一實(shí)施方式的流程示意圖。如圖1所示,本實(shí)施方式的唇語交互方法包括如下步驟:
101:獲取目標(biāo)人體對象的深度圖像信息。
唇語識別主要是通過對目標(biāo)人體對象的嘴唇的特征信息進(jìn)行提取,通過該特征信息以對目標(biāo)人體對象要表達(dá)的指令或語音進(jìn)行識別的過程。
通過唇語識別來實(shí)現(xiàn)交互由于其具有操作簡單方便,因此得到了廣泛應(yīng)用。
本實(shí)施方式中首先獲取目標(biāo)人體對象的深度圖像信息,具體地,該深度圖像信息包括深度相片以及視頻中的至少一種。
其中,該深度圖像信息可通過深度相機(jī)來獲取,在其他實(shí)施方式中,也可以通過其他方法來獲取,例如可通過通過雙目視覺的方法或基于結(jié)構(gòu)光的方法來獲取該深度圖像信息,還可以通過基于tof的方法來獲取該深度圖像信息等,在此不做限定,只要能夠獲取或通過計(jì)算得到該目標(biāo)人體圖像的深度圖像信息的方法都屬于本實(shí)施方式包含的范圍。
具體地,基于雙目視覺的方法是以模仿目標(biāo)人體對象的雙眼為原理,按照預(yù)先設(shè)定的位置放置兩臺相機(jī),通過該兩臺相機(jī)同步采集該目標(biāo)人體對象的第一圖像以及該目標(biāo)人體對象的第二圖像。再通過預(yù)定算法,對該第一圖像和第二圖像進(jìn)行處理,根據(jù)處理結(jié)果計(jì)算得到該目標(biāo)人體對象的深度圖像信息。其中,該第一目標(biāo)圖像和第二目標(biāo)圖像為彩色圖像。通過本實(shí)施方式的獲取到的深度圖像信息的精度高,但是計(jì)算量相對較大。
基于結(jié)構(gòu)光獲取深度圖像信息的方法是首先確定待獲取的目標(biāo)人體對象所處的目標(biāo)區(qū)域,對目標(biāo)區(qū)域投射結(jié)構(gòu)光圖案,其中,該結(jié)構(gòu)光圖案為隨機(jī)排列的散斑圖案,再通過紅外相機(jī)獲取該目標(biāo)區(qū)域內(nèi)的目標(biāo)對象的結(jié)構(gòu)光紅外圖像。
在得到目標(biāo)對象的結(jié)構(gòu)光紅外圖像后,再從該紅外結(jié)構(gòu)光紅外圖像中采集該目標(biāo)對象的散斑紅外圖像,將該目標(biāo)對象的散斑紅外圖像與參考散斑圖像按照預(yù)定算法進(jìn)行圖像數(shù)據(jù)計(jì)算,獲取目標(biāo)對象上散斑紅外圖像的各個散斑點(diǎn)相對于參考散斑點(diǎn)相對于參考散斑圖像的移動距離。最后根據(jù)該移動距離、參考散斑圖像與紅外相機(jī)的距離以及用于采集圖像的紅外相機(jī)以及紅外攝像機(jī)之間的相對間隔值,利用三角法得到散斑紅外圖像的各個散斑點(diǎn)的深度值,并根據(jù)該深度值得到所述目標(biāo)對象的深度圖像。
基于tof的方法是通過向目標(biāo)人體對象所處的目標(biāo)區(qū)域投射紅外光,再通過紅外相機(jī)采集該紅外光反射的光線,根據(jù)該紅外光線飛行的時間即紅外光傳輸?shù)臅r間來計(jì)算目標(biāo)人體對象對應(yīng)的深度,即得到目標(biāo)人體對象的深度圖像信息。
102:從所述深度圖像信息中獲取所述目標(biāo)人體對象的唇部區(qū)域圖像。
為了從該目標(biāo)人體對象的的深度圖像信息中獲取到精準(zhǔn)的嘴唇區(qū)域圖像,進(jìn)一步地如圖2,圖2是本發(fā)明基于深度圖像的唇語交互方法另一實(shí)施方式的流程示意圖。其中圖2是圖1的唇語交互方法的細(xì)化流程圖,在步驟201之后,還包括如下步驟:
202:對所述深度圖像信息進(jìn)行分割得到所述目標(biāo)人體對象的人臉圖像。
為了縮小從圖像信息中獲取嘴唇區(qū)域圖像的有效范圍,提高獲取精度,本實(shí)施方式在獲取到目標(biāo)人體對象的深度圖像信息后,先對該圖像信息進(jìn)行分割,得到該目標(biāo)人體對象的人臉圖像。
在一個具體的實(shí)施方式中,由于在人的人臉圖像中,一般情況下,人的鼻尖深度相對是最小的,因此,本實(shí)施方式首先根據(jù)深度特征信息判斷該深度圖像信息中是否包括該目標(biāo)人體對象的鼻尖,如果在該深度圖像信息信息中檢測到目標(biāo)人體對象的鼻尖,進(jìn)一步檢測鼻尖兩側(cè)是否存在橢圓的人臉輪廓區(qū)域。如果存在該人臉輪廓區(qū)域,則獲取包括該鼻尖以及人臉輪廓的區(qū)域圖像作為該目標(biāo)人體對象的人臉圖像。
203:從所述人臉圖像中獲取所述目標(biāo)人體對象的嘴唇區(qū)域圖像。
具體地,在獲取到該目標(biāo)人體圖像的人臉圖像后,進(jìn)一步地從該人臉圖像中來提取該人臉圖像中鼻尖下方的區(qū)域圖像,并將該區(qū)域圖像作為該嘴唇區(qū)域圖像。
嘴唇區(qū)域一般是指雙唇以及雙唇中間的區(qū)域,在上述實(shí)施方式中,有時候人在講話時,周邊的部分可能也會有較大幅度的動作,因此,在上述實(shí)施方式中,嘴唇區(qū)域包括嘴唇周圍的部位,如下巴以及嘴唇兩邊的臉部。但是在其他實(shí)施方式中,考慮到人在說話時可能出現(xiàn)頭部傾斜或扭動的情形,從圖像信息中不能得到完整的嘴唇的圖像。但是由于嘴唇一般具有對稱性,在特殊情況下,也可以通過獲取半個嘴唇圖像或包括半個嘴唇周邊范圍內(nèi)人臉的圖像作為嘴唇區(qū)域。
如果是將雙唇以及雙唇中間的區(qū)域作為嘴唇區(qū)域圖像,在獲取到包括嘴唇周圍的部位的嘴唇區(qū)域圖像后,進(jìn)一步如圖3所示還包括如下步驟304:
通過邊緣檢測或閾值分割的圖像處理方法從所述嘴唇區(qū)域圖像中獲取所述目標(biāo)人體對象的雙唇圖像。
步驟204~205以及步驟305~306與步驟103~104相同,具體請參閱下方的實(shí)施方式以及相關(guān)文字描述。
103:從所述嘴唇區(qū)域圖像提取唇部特征,根據(jù)所述唇部特征進(jìn)行唇語識別。
在獲取到嘴唇區(qū)域圖像后,進(jìn)一步地從該嘴唇區(qū)域圖像中提取唇部特征。具體地,可通過外觀輪廓提取方法或輪廓特征提取方法中的至少一種對所述嘴唇區(qū)域圖像進(jìn)行唇部特征提取,得到特征提取結(jié)果。
例如通過主動形狀模型法asm、主動外觀模型法aam、主成分分析法pca、離散余弦變換法dct等等方法對嘴唇區(qū)域圖像進(jìn)行唇部特征提取,在此不做限定。
進(jìn)一步地,根據(jù)該特征提取結(jié)果與與設(shè)定識別模型數(shù)據(jù)庫中的識別信息進(jìn)行比對,得到該特征提取結(jié)果對應(yīng)的唇語識別結(jié)果。該設(shè)定識別模型包括隱馬爾可夫模型、高斯混合模型等模型中的至少一種。
104:將所述唇語識別的結(jié)果轉(zhuǎn)化成對應(yīng)的操作指令,并根據(jù)所述操作指令進(jìn)行交互。
在對唇部特征進(jìn)行提取,得到唇部特征對應(yīng)的識別結(jié)果后,進(jìn)一步地根據(jù)實(shí)際需求對識別結(jié)果進(jìn)行處理。如將該識別結(jié)果轉(zhuǎn)換成用戶交互的操作指令,如識別結(jié)果進(jìn)行語言識別或?qū)⒃摬僮髦噶钷D(zhuǎn)換為控制遠(yuǎn)程設(shè)備的操作指令,控制體感游戲的操作指令,或控制智能設(shè)備如手機(jī)的操作指令等,在此不做限定。
在得到該操作指令后,進(jìn)一步地通過該操作指令對對應(yīng)的設(shè)備進(jìn)行交互控制,比如根據(jù)唇語識別技術(shù)控制手機(jī),如通過特定的唇語識別實(shí)現(xiàn)手機(jī)的翻頁或撥打接聽電話等,在此不做限定。
在其他實(shí)施方式中,還可以直接將通過識別結(jié)果判斷出該當(dāng)前唇語的內(nèi)容,對語音進(jìn)行識別或通過語音來實(shí)現(xiàn)交互等。
區(qū)別于現(xiàn)有技術(shù),本實(shí)施方式的交互方法首先獲取目標(biāo)人體對象的深度圖像信息;從所述深度圖像信息中獲取所述目標(biāo)人體對象的唇部區(qū)域圖像;從所述嘴唇區(qū)域圖像提取唇部特征,根據(jù)所述唇部特征進(jìn)行唇語識別;將所述唇語識別的結(jié)果轉(zhuǎn)化成對應(yīng)的操作指令,并根據(jù)所述操作指令進(jìn)行交互。上述通過獲取深度圖像信息,從深度圖像中來提取唇部特征信息的方式,相對于傳統(tǒng)直接通過彩色相機(jī)獲取圖像信息的方式,不容易受到環(huán)境如光線強(qiáng)弱的影響,能夠有效提高圖像識別的命中率,進(jìn)一步提高唇語識別的命中率,最終可有效改善交互的執(zhí)行率和操作準(zhǔn)確率,有利于唇語識別應(yīng)用于交互技術(shù)中的推廣。
另外,本實(shí)施方式根據(jù)深度特征信息判斷所述圖像信息中是否包括所述目標(biāo)人體對象的鼻尖,在圖像信息中包括所述目標(biāo)人體對象的鼻尖時,檢測所述鼻尖兩側(cè)是否存在橢圓的人臉輪廓區(qū)域,并在存在所述人臉輪廓區(qū)域,獲取包括所述鼻尖以及人臉輪廓的區(qū)域圖像作為所述目標(biāo)人體對象的人臉圖像,提取所述人臉圖像中的所述鼻尖下方的區(qū)域圖像作為嘴唇區(qū)域圖像。上述實(shí)施方式不僅能夠縮小從圖像信息中獲取嘴唇區(qū)域圖像的有效范圍,提高獲取精度,而且,采用鼻尖深度信息特征的特殊性,能夠更加精確的獲取到嘴唇區(qū)域圖像,進(jìn)一步提高唇語識別的命中率。
參閱圖4,圖4是本發(fā)明基于唇語的交互裝置一實(shí)施方式的結(jié)構(gòu)示意圖。本實(shí)施方式的交互裝置包括深度圖像信息獲取模塊401、唇部區(qū)域圖像確定模塊402、唇語識別模塊403以及交互模塊404,
深度圖像信息獲取模塊401用于獲取目標(biāo)人體對象的深度圖像信息。
唇語識別主要是通過對目標(biāo)人體對象的嘴唇的特征信息進(jìn)行提取,通過該特征信息以對目標(biāo)人體對象要表達(dá)的指令或語音進(jìn)行識別的過程。
通過唇語識別來實(shí)現(xiàn)交互由于其具有操作簡單方便,因此得到了廣泛應(yīng)用。
本實(shí)施方式中深度圖像信息獲取模塊401首先獲取目標(biāo)人體對象的深度圖像信息,具體地,該深度圖像信息包括深度相片以及視頻中的至少一種。
其中,深度圖像信息獲取模塊401可通過深度相機(jī)來獲取該深度圖像信息,在其他實(shí)施方式中,深度圖像信息獲取模塊401也可以通過其他方法來獲取,例如可通過通過雙目視覺的方法或基于結(jié)構(gòu)光的方法來獲取該深度圖像信息,還可以通過基于tof的方法來獲取該深度圖像信息等,在此不做限定,只要能夠獲取或通過計(jì)算得到該目標(biāo)人體圖像的深度圖像信息的方法都屬于本實(shí)施方式包含的范圍。
具體地,基于雙目視覺的方法是以模仿目標(biāo)人體對象的雙眼為原理,按照預(yù)先設(shè)定的位置放置兩臺相機(jī),深度圖像信息獲取模塊401通過該兩臺相機(jī)同步采集該目標(biāo)人體對象的第一圖像以及該目標(biāo)人體對象的第二圖像。再通過預(yù)定算法,對該第一圖像和第二圖像進(jìn)行處理,根據(jù)處理結(jié)果計(jì)算得到該目標(biāo)人體對象的深度圖像信息。其中,該第一目標(biāo)圖像和第二目標(biāo)圖像為彩色圖像。通過本實(shí)施方式的獲取到的深度圖像信息的精度高,但是計(jì)算量相對較大。
基于結(jié)構(gòu)光獲取深度圖像信息的方法是首先確定待獲取的目標(biāo)人體對象所處的目標(biāo)區(qū)域,對目標(biāo)區(qū)域投射結(jié)構(gòu)光圖案,其中,該結(jié)構(gòu)光圖案為隨機(jī)排列的散斑圖案,深度圖像信息獲取模塊401通過紅外相機(jī)獲取該目標(biāo)區(qū)域內(nèi)的目標(biāo)對象的結(jié)構(gòu)光紅外圖像。
深度圖像信息獲取模塊401在得到目標(biāo)對象的結(jié)構(gòu)光紅外圖像后,再從該紅外結(jié)構(gòu)光紅外圖像中采集該目標(biāo)對象的散斑紅外圖像,將該目標(biāo)對象的散斑紅外圖像與參考散斑圖像按照預(yù)定算法進(jìn)行圖像數(shù)據(jù)計(jì)算,獲取目標(biāo)對象上散斑紅外圖像的各個散斑點(diǎn)相對于參考散斑點(diǎn)相對于參考散斑圖像的移動距離。最后根據(jù)該移動距離、參考散斑圖像與紅外相機(jī)的距離以及用于采集圖像的紅外相機(jī)以及紅外攝像機(jī)之間的相對間隔值,利用三角法得到散斑紅外圖像的各個散斑點(diǎn)的深度值,并根據(jù)該深度值得到所述目標(biāo)對象的深度圖像。
基于tof的方法是通過向目標(biāo)人體對象所處的目標(biāo)區(qū)域投射紅外光,深度圖像信息獲取模塊401再通過紅外相機(jī)采集該紅外光反射的光線,根據(jù)該紅外光線飛行的時間即紅外光傳輸?shù)臅r間來計(jì)算目標(biāo)人體對象對應(yīng)的深度,即得到目標(biāo)人體對象的深度圖像信息。
唇部區(qū)域圖像確定模塊402用于從所述深度圖像信息中獲取所述目標(biāo)人體對象的唇部區(qū)域圖像。
為了從該目標(biāo)人體對象的的深度圖像信息中獲取到精準(zhǔn)的嘴唇區(qū)域圖像,進(jìn)一步如圖5所示,嘴唇圖像提取模塊502包括人臉圖像獲取模塊5021以及嘴唇區(qū)域圖像獲取模塊5022。
人臉圖像獲取模塊5021用于對所述深度圖像信息進(jìn)行分割得到所述目標(biāo)人體對象的人臉圖像。
為了縮小從圖像信息中獲取嘴唇區(qū)域圖像的有效范圍,提高獲取精度,本實(shí)施方式人臉圖像獲取模塊5021在圖像信息獲取模塊501獲取到目標(biāo)人體對象的深度圖像信息后,先對該圖像信息進(jìn)行分割,得到該目標(biāo)人體對象的人臉圖像。
在一個具體的實(shí)施方式中,由于在人的人臉圖像中,一般情況下,人的鼻尖深度相對是最小的,因此,本實(shí)施方式人臉圖像獲取模塊5021首先根據(jù)深度特征信息判斷該深度圖像信息中是否包括該目標(biāo)人體對象的鼻尖,如果在該深度圖像信息信息中檢測到目標(biāo)人體對象的鼻尖,進(jìn)一步檢測鼻尖兩側(cè)是否存在橢圓的人臉輪廓區(qū)域。如果存在該人臉輪廓區(qū)域,則獲取包括該鼻尖以及人臉輪廓的區(qū)域圖像作為該目標(biāo)人體對象的人臉圖像。
嘴唇區(qū)域圖像獲取模塊5022用于從所述人臉圖像中獲取所述目標(biāo)人體對象的嘴唇區(qū)域圖像。
具體地,嘴唇區(qū)域圖像獲取模塊5022在人臉圖像獲取模塊5021獲取到該目標(biāo)人體圖像的人臉圖像后,進(jìn)一步地從該人臉圖像中來提取該人臉圖像中鼻尖下方的區(qū)域圖像,并將該區(qū)域圖像作為該嘴唇區(qū)域圖像。
嘴唇區(qū)域一般是指雙唇以及雙唇中間的區(qū)域,在上述實(shí)施方式中,有時候人在講話時,周邊的部分可能也會有較大幅度的動作,因此,在上述實(shí)施方式中,嘴唇區(qū)域包括嘴唇周圍的部位,如下巴以及嘴唇兩邊的臉部。但是在其他實(shí)施方式中,考慮到人在說話時可能出現(xiàn)頭部傾斜或扭動的情形,從圖像信息中不能得到完整的嘴唇的圖像。但是由于嘴唇一般具有對稱性,在特殊情況下,也可以通過獲取半個嘴唇圖像或包括半個嘴唇周邊范圍內(nèi)人臉的圖像作為嘴唇區(qū)域。
如果是將雙唇以及雙唇中間的區(qū)域作為嘴唇區(qū)域圖像,在獲取到包括嘴唇周圍的部位的嘴唇區(qū)域圖像后,進(jìn)一步地如圖6所示,本實(shí)施方式的唇語識別裝置還包括雙唇圖像提取模塊605,該雙唇圖像提取模塊605用于通過邊緣檢測或閾值分割的圖像處理方法從所述嘴唇區(qū)域圖像中獲取所述目標(biāo)人體對象的雙唇圖像。
唇語識別模塊403用于從所述嘴唇區(qū)域圖像提取唇部特征,根據(jù)所述唇部特征進(jìn)行唇語識別。
進(jìn)一步地如圖4所示,唇語識別模塊403在獲取到嘴唇區(qū)域圖像后,進(jìn)一步地從該嘴唇區(qū)域圖像中提取唇部特征。具體地,可通過外觀輪廓提取方法或輪廓特征提取方法中的至少一種對所述嘴唇區(qū)域圖像進(jìn)行唇部特征提取,得到特征提取結(jié)果。
例如通過主動形狀模型法asm、主動外觀模型法aam、主成分分析法pca、離散余弦變換法dct等等方法對嘴唇區(qū)域圖像進(jìn)行唇部特征提取,在此不做限定。
進(jìn)一步地,唇語識別模塊403根據(jù)該特征提取結(jié)果與與設(shè)定識別模型數(shù)據(jù)庫中的識別信息進(jìn)行比對,得到該特征提取結(jié)果對應(yīng)的唇語識別結(jié)果。該設(shè)定識別模型包括隱馬爾可夫模型、高斯混合模型等模型中的至少一種。
交互模塊404用于將所述唇語識別的結(jié)果轉(zhuǎn)化成對應(yīng)的操作指令,并根據(jù)所述操作指令進(jìn)行交互。
交互模塊404在唇語識別模塊403對唇部特征進(jìn)行提取,得到唇部特征對應(yīng)的識別結(jié)果后,進(jìn)一步地根據(jù)實(shí)際需求對識別結(jié)果進(jìn)行處理。如將該識別結(jié)果轉(zhuǎn)換成用戶交互的操作指令,如識別結(jié)果進(jìn)行語言識別或?qū)⒃摬僮髦噶钷D(zhuǎn)換為控制遠(yuǎn)程設(shè)備的操作指令,控制體感游戲的操作指令,或控制智能設(shè)備如手機(jī)的操作指令等,在此不做限定。
交互模塊404在得到該操作指令后,進(jìn)一步地通過該操作指令對對應(yīng)的設(shè)備進(jìn)行交互控制,比如根據(jù)唇語識別技術(shù)控制手機(jī),如通過特定的唇語識別實(shí)現(xiàn)手機(jī)的翻頁或撥打接聽電話等,在此不做限定。
在其他實(shí)施方式中,還可以直接將通過識別結(jié)果判斷出該當(dāng)前唇語的內(nèi)容,對語音進(jìn)行識別或通過語音來實(shí)現(xiàn)交互等。
區(qū)別于現(xiàn)有技術(shù),本實(shí)施方式的唇語交互裝置的深度圖像信息獲取模塊首先獲取目標(biāo)人體對象的深度圖像信息;從所述深度圖像信息中獲取所述目標(biāo)人體對象的唇部區(qū)域圖像;唇部區(qū)域圖像確定模塊從所述嘴唇區(qū)域圖像提取唇部特征,唇語識別模塊根據(jù)所述唇部特征進(jìn)行唇語識別;交互模塊將所述唇語識別的結(jié)果轉(zhuǎn)化成對應(yīng)的操作指令,并根據(jù)所述操作指令進(jìn)行交互。上述通過獲取深度圖像信息,從深度圖像中來提取唇部特征信息的方式,相對于傳統(tǒng)直接通過彩色相機(jī)獲取圖像信息的方式,不容易受到環(huán)境如光線強(qiáng)弱的影響,能夠有效提高圖像識別的命中率,進(jìn)一步提高唇語識別的命中率,最終可有效改善交互的執(zhí)行率和操作準(zhǔn)確率,有利于唇語識別應(yīng)用于交互技術(shù)中的推廣。
另外,本實(shí)施方式唇部區(qū)域圖像確定模塊通過人臉圖像獲取模塊根據(jù)深度特征信息判斷所述圖像信息中是否包括所述目標(biāo)人體對象的鼻尖,在圖像信息中包括所述目標(biāo)人體對象的鼻尖時,檢測所述鼻尖兩側(cè)是否存在橢圓的人臉輪廓區(qū)域,并在存在所述人臉輪廓區(qū)域,獲取包括所述鼻尖以及人臉輪廓的區(qū)域圖像作為所述目標(biāo)人體對象的人臉圖像,通過嘴唇區(qū)域圖像獲取模塊提取所述人臉圖像中的所述鼻尖下方的區(qū)域圖像作為嘴唇區(qū)域圖像。上述實(shí)施方式不僅能夠縮小從圖像信息中獲取嘴唇區(qū)域圖像的有效范圍,提高獲取精度,而且,采用鼻尖深度信息特征的特殊性,能夠更加精確的獲取到嘴唇區(qū)域圖像,進(jìn)一步提高唇語識別的命中率。
以上所述僅為本發(fā)明的實(shí)施方式,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。