專利名稱:基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是一種計(jì)算機(jī)技術(shù)領(lǐng)域的鼠標(biāo)系統(tǒng),具體是一種基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng)。
背景技術(shù):
在傳統(tǒng)的計(jì)算機(jī)系統(tǒng)中,傳統(tǒng)鍵盤、鼠標(biāo)是最主要的輸入輸出設(shè)備,目前大部分計(jì)算機(jī)系統(tǒng)采用的人機(jī)交互模式為鍵盤鼠標(biāo)->顯示器->鍵盤鼠標(biāo),即操作人員是通過鍵盤、鼠標(biāo)給計(jì)算機(jī)輸入有關(guān)信息及提示請示,而計(jì)算機(jī)通過顯示器給人提供大量相關(guān)信息及提示請示等。目前大部分計(jì)算機(jī)操作系統(tǒng)及應(yīng)用軟件都是基于這種人機(jī)交互模式開發(fā)的。雖然這種人機(jī)交互的模式可以滿足計(jì)算機(jī)用戶的日常業(yè)務(wù)需要,但是在不少情況下使用傳統(tǒng)的鼠標(biāo)鍵盤作為輸入輸出設(shè)備是不合適的,例如殘障人士使用的計(jì)算機(jī)系統(tǒng)就不宜用傳統(tǒng)的鼠標(biāo)鍵盤,還有大部分多媒體娛樂設(shè)備也不方便使用傳統(tǒng)的鼠標(biāo)鍵盤作為輸入輸出設(shè)備。目前也出現(xiàn)了不少專用的輸入輸出設(shè)備,例如漢字手寫板、力矩球、數(shù)據(jù)手套和三維鼠標(biāo)等。但是這些設(shè)備有以下不足之處構(gòu)造復(fù)雜,價(jià)格昂貴,只適于專門領(lǐng)域應(yīng)用,通用性不強(qiáng),無法與傳統(tǒng)的鼠標(biāo)鍵盤兼容。
經(jīng)對現(xiàn)有技術(shù)文獻(xiàn)的檢索發(fā)現(xiàn),專利申請?zhí)枮?0134143.X名稱為“視窗的光標(biāo)視覺點(diǎn)選方法及裝置”,該技術(shù)提出了一種方便的鼠標(biāo)控制方法,主要是使用瞳孔的相對移動(dòng)信息控制鼠標(biāo)光標(biāo)在桌面上的相對位置移動(dòng)的方法,其瞳孔跟蹤方法主要是通過定位框動(dòng)態(tài)跟蹤的方法確定瞳孔的相對位移量。由于鼠標(biāo)位置定位是相對定位的方法,故而鼠標(biāo)光標(biāo)的定位受噪聲擾動(dòng)的影響比較大,魯棒性不強(qiáng)。在進(jìn)一步的檢索中,尚未見有報(bào)道過有那種基于視覺跟蹤技術(shù)的魯棒的鼠標(biāo)系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的問題和不足,提出了一種基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng)。本發(fā)明通過攝像頭可以實(shí)時(shí)跟蹤檢測紅外發(fā)光標(biāo)志物的移動(dòng),并以此控制鼠標(biāo)光標(biāo)的位置,通過麥克風(fēng)接收語音指令,從而為計(jì)算機(jī)系統(tǒng)提供方便友好的人機(jī)接口。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的,本發(fā)明包括鼠標(biāo)驅(qū)動(dòng)模塊,信息反饋模塊和語音指令處理模塊;鼠標(biāo)驅(qū)動(dòng)模塊由攝像頭、紅外發(fā)光標(biāo)志物以及光標(biāo)定位子模塊構(gòu)成,攝像頭通過檢測跟蹤紅外標(biāo)志物的光斑圖像,可以動(dòng)態(tài)跟蹤光斑在攝像頭成像平面上的位置移動(dòng),然后通過光標(biāo)定位子模塊將光斑在圖像上的運(yùn)動(dòng)轉(zhuǎn)換為鼠標(biāo)光標(biāo)在顯示桌面上的運(yùn)動(dòng),并將鼠標(biāo)的位置信息傳遞給信息反饋模塊;信息反饋模塊通過計(jì)算機(jī)顯示器將鼠標(biāo)驅(qū)動(dòng)模塊傳來的鼠標(biāo)光標(biāo)的位置表示出來,并給用戶相應(yīng)的信息提示;語音指令處理模塊由麥克風(fēng)及語音識(shí)別子模塊組成,當(dāng)信息反饋模塊顯示鼠標(biāo)光標(biāo)到達(dá)用戶的感興趣位置時(shí),語音指令處理模塊通過與計(jì)算機(jī)主機(jī)相連接的麥克風(fēng)接收用戶發(fā)出的語音指令,通過語音識(shí)別子模塊對輸入語音信號(hào)進(jìn)行識(shí)別,由分類結(jié)果激發(fā)并驅(qū)動(dòng)相應(yīng)的鼠標(biāo)事件響應(yīng)(左鍵單擊、右鍵單擊、左鍵雙擊)。
所述鼠標(biāo)驅(qū)動(dòng)模塊中的光標(biāo)定位子模塊,其輸入信息為攝像頭圖像,分辨率H×W,顯示器分辨率L×M,紅外標(biāo)志物光斑位置坐標(biāo)(a,b),輸出為鼠標(biāo)光標(biāo)位置(A,B)。該光標(biāo)定位子模塊可以將紅外發(fā)光標(biāo)志物的運(yùn)動(dòng)轉(zhuǎn)化為鼠標(biāo)光標(biāo)在顯示桌面上的運(yùn)動(dòng),其傳遞函數(shù)為A=LH(H-a)]]>B=MW(W-b)]]>所述語音指令處理模塊中的語音識(shí)別子模塊,其輸入為麥克風(fēng)接收到語音信號(hào)的線性預(yù)測系數(shù)(LPCC),輸出為語音指令的分類識(shí)別結(jié)果,分類結(jié)果可以驅(qū)動(dòng)相應(yīng)的操作系統(tǒng)資源實(shí)現(xiàn)相應(yīng)的鼠標(biāo)事件響應(yīng)(左鍵單擊、右鍵單擊、左鍵雙擊)。
與現(xiàn)有技術(shù)相比,本發(fā)明系統(tǒng)結(jié)構(gòu)簡單、容易實(shí)現(xiàn),抗噪聲干擾,魯棒性強(qiáng),鼠標(biāo)定位誤差小于2個(gè)像素,語音指令的識(shí)別率則高達(dá)到90%。與現(xiàn)有技術(shù)相比,使用設(shè)備器材購買方便、價(jià)格低廉;本發(fā)明系統(tǒng)使用方便通用性強(qiáng),不僅可以單獨(dú)使用,還可以配合傳統(tǒng)的鼠標(biāo)鍵盤一起使用。
圖1為本發(fā)明組成示意圖。
圖2為本發(fā)明系統(tǒng)流程框圖。
具體實(shí)施例方式
下面結(jié)合附圖對本發(fā)明的實(shí)施例作詳細(xì)說明本實(shí)施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和過程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
如圖1所示,本實(shí)施例包括鼠標(biāo)驅(qū)動(dòng)模塊,信息反饋模塊和語音指令處理模塊;所述鼠標(biāo)驅(qū)動(dòng)模塊由紅外發(fā)光標(biāo)志物1、攝像頭2、紅外濾光片3以及光標(biāo)定位子模塊組成,信息反饋模塊由連接在計(jì)算機(jī)主機(jī)5上顯示器6組成,語音指令處理模塊由連接在計(jì)算機(jī)主機(jī)上麥克風(fēng)4及語音識(shí)別子模塊組成。其中光標(biāo)定位、語音識(shí)別兩個(gè)子模塊都是計(jì)算機(jī)主機(jī)5上的應(yīng)用模塊。鼠標(biāo)驅(qū)動(dòng)模塊由裝有紅外濾光片3的攝像頭2、紅外發(fā)光標(biāo)志物1以及光標(biāo)定位子模塊構(gòu)成,攝像頭2通過檢測跟蹤紅外標(biāo)志物1的光斑圖像,可以動(dòng)態(tài)跟蹤光斑在攝像頭成像平面上的位置移動(dòng),然后通過光標(biāo)定位子模塊將光斑在圖像上的運(yùn)動(dòng)轉(zhuǎn)換為鼠標(biāo)光標(biāo)在顯示桌面上的運(yùn)動(dòng),并將鼠標(biāo)的位置信息傳遞給信息反饋模塊;信息反饋模塊通過計(jì)算機(jī)顯示器6將鼠標(biāo)驅(qū)動(dòng)模塊傳來的鼠標(biāo)光標(biāo)的位置表示出來,并給用戶相應(yīng)的信息提示;當(dāng)信息反饋模塊顯示鼠標(biāo)光標(biāo)到達(dá)用戶的感興趣位置時(shí),語音指令處理模塊通過與計(jì)算機(jī)主機(jī)5相連接的麥克風(fēng)4接收用戶發(fā)出的語音指令,通過語音識(shí)別子模塊對輸入語音信號(hào)進(jìn)行識(shí)別,由分類結(jié)果激發(fā)并驅(qū)動(dòng)相應(yīng)的鼠標(biāo)事件響應(yīng)(左鍵單擊、右鍵單擊、左鍵雙擊)。
如圖2所示,本實(shí)施例首先使用麥克風(fēng)4采集用戶使用的所有指令語音信號(hào),提取這些語音信號(hào)的線性預(yù)測系數(shù)(LPCC)存儲(chǔ)到計(jì)算機(jī)主機(jī)5的磁盤上,作為標(biāo)準(zhǔn)語音樣本。然后,用戶手持紅外發(fā)光標(biāo)志物1在攝像頭2可視范圍內(nèi)移動(dòng),鼠標(biāo)驅(qū)動(dòng)模塊中攝像頭2的鏡頭上裝有紅外濾光片3,只能感應(yīng)紅外標(biāo)志物1發(fā)出的光,采用自適應(yīng)閾值分割的方法進(jìn)行紅外光斑檢測,通過求重心的方法獲取紅外光斑的圖像位置坐標(biāo)。得知前一幀圖像上紅外光斑的位置坐標(biāo),以此為基準(zhǔn)在一個(gè)較小的圖像坐標(biāo)范圍內(nèi)檢測后一幀圖像的紅外光斑位置,從而實(shí)現(xiàn)紅外光斑的動(dòng)態(tài)跟蹤,光標(biāo)定位子模塊將紅外發(fā)光標(biāo)志物1的位置移動(dòng)轉(zhuǎn)化為鼠標(biāo)光標(biāo)在顯示桌面上的運(yùn)動(dòng)。信息反饋模塊將通過鼠標(biāo)驅(qū)動(dòng)模塊得到的鼠標(biāo)光標(biāo)位置顯示在顯示器6上。通常用戶通過觀察顯示器6上的鼠標(biāo)光標(biāo)的移動(dòng),判斷是否要發(fā)出語音指令;語音指令處理模塊當(dāng)接收到麥克風(fēng)4采集的語音信號(hào)后,語音識(shí)別子模塊將輸入語音指令以最近鄰法分類(以標(biāo)準(zhǔn)語音樣本為分類中心)并以分類結(jié)果驅(qū)動(dòng)鼠標(biāo)事件響應(yīng)。
通過使用本實(shí)施例的鼠標(biāo)系統(tǒng)在裝有Windows XP操作系統(tǒng)的計(jì)算機(jī)上面進(jìn)行常規(guī)鼠標(biāo)操作(鼠標(biāo)左鍵單擊;鼠標(biāo)右鍵單擊;鼠標(biāo)左鍵雙擊)100次,測得本發(fā)明的語音指令正確執(zhí)行率大于86%,鼠標(biāo)定位誤差為1.6個(gè)像素,由這兩項(xiàng)指標(biāo)可以看出本實(shí)施例具有魯棒、精確的良好特性。
權(quán)利要求
1.一種基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng),其特征在于,包括鼠標(biāo)驅(qū)動(dòng)模塊、信息反饋模塊和語音指令處理模塊;鼠標(biāo)驅(qū)動(dòng)模塊由攝像頭、紅外發(fā)光標(biāo)志物以及光標(biāo)定位子模塊構(gòu)成,攝像頭通過檢測跟蹤紅外標(biāo)志物的光斑圖像,動(dòng)態(tài)跟蹤光斑在攝像頭成像平面上的位置移動(dòng),然后通過光標(biāo)定位子模塊將光斑在圖像上的運(yùn)動(dòng)轉(zhuǎn)換為鼠標(biāo)光標(biāo)在顯示桌面上的運(yùn)動(dòng),并將鼠標(biāo)的位置信息傳遞給信息反饋模塊;信息反饋模塊通過計(jì)算機(jī)顯示器將鼠標(biāo)驅(qū)動(dòng)模塊傳來的鼠標(biāo)光標(biāo)的位置表示出來,并給用戶相應(yīng)的信息提示;語音指令處理模塊由麥克風(fēng)及語音識(shí)別子模塊組成,當(dāng)信息反饋模塊顯示鼠標(biāo)光標(biāo)到達(dá)用戶的感興趣位置時(shí),語音指令處理模塊通過與計(jì)算機(jī)主機(jī)相連接的麥克風(fēng)接收用戶發(fā)出的語音指令,通過語音識(shí)別子模塊對輸入語音信號(hào)進(jìn)行識(shí)別,由分類結(jié)果激發(fā)并驅(qū)動(dòng)相應(yīng)的鼠標(biāo)事件響應(yīng)。
2.根據(jù)權(quán)利要求1所述的基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng),其特征是,所述語音指令處理模塊中的語音識(shí)別子模塊,其輸入為麥克風(fēng)接收到語音信號(hào)的線性預(yù)測系數(shù),輸出為語音指令的分類識(shí)別結(jié)果,分類結(jié)果驅(qū)動(dòng)相應(yīng)的操作系統(tǒng)資源實(shí)現(xiàn)相應(yīng)的鼠標(biāo)事件響應(yīng),包括左鍵單擊、右鍵單擊、左鍵雙擊。
3.根據(jù)權(quán)利要求1所述的基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng),其特征是,所述麥克風(fēng)采集用戶使用的所有指令語音信號(hào),提取這些語音信號(hào)的線性預(yù)測系數(shù)存儲(chǔ)到計(jì)算機(jī)主機(jī)的磁盤上,作為標(biāo)準(zhǔn)語音樣本。
4.根據(jù)權(quán)利要求1所述的基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng),其特征是,所述鼠標(biāo)驅(qū)動(dòng)模塊中,紅外發(fā)光標(biāo)志物在攝像頭可視范圍內(nèi)移動(dòng),攝像頭的鏡頭上裝有紅外濾光片,只能感應(yīng)紅外標(biāo)志物發(fā)出的光,采用自適應(yīng)閾值分割的方法進(jìn)行紅外光斑檢測,通過求重心的方法獲取紅外光斑的圖像位置坐標(biāo);得知前一幀圖像上紅外光斑的位置坐標(biāo),以此為基準(zhǔn)在一個(gè)小的圖像坐標(biāo)范圍內(nèi)檢測后一幀圖像的紅外光斑位置,從而實(shí)現(xiàn)紅外光斑的動(dòng)態(tài)跟蹤。
全文摘要
一種基于視覺跟蹤與語音識(shí)別的鼠標(biāo)系統(tǒng),屬于計(jì)算機(jī)技術(shù)領(lǐng)域。本發(fā)明中,攝像頭通過檢測跟蹤紅外標(biāo)志物的光斑圖像,動(dòng)態(tài)跟蹤光斑在攝像頭成像平面上的位置移動(dòng),然后通過光標(biāo)定位子模塊將光斑在圖像上的運(yùn)動(dòng)轉(zhuǎn)換為鼠標(biāo)光標(biāo)在顯示桌面上的運(yùn)動(dòng),并將鼠標(biāo)的位置信息傳遞給信息反饋模塊;信息反饋模塊通過計(jì)算機(jī)顯示器將鼠標(biāo)驅(qū)動(dòng)模塊傳來的鼠標(biāo)光標(biāo)的位置表示出來,并給用戶相應(yīng)的信息提示;語音指令處理模塊通過與計(jì)算機(jī)主機(jī)相連接的麥克風(fēng)接收用戶發(fā)出的語音指令,通過語音識(shí)別子模塊對輸入語音信號(hào)進(jìn)行識(shí)別,由分類結(jié)果激發(fā)并驅(qū)動(dòng)相應(yīng)的鼠標(biāo)事件響應(yīng)。本發(fā)明結(jié)構(gòu)簡單,使用方便,通用性強(qiáng),為計(jì)算機(jī)系統(tǒng)提供方便的人機(jī)接口。
文檔編號(hào)G06F3/16GK101038523SQ20071003999
公開日2007年9月19日 申請日期2007年4月26日 優(yōu)先權(quán)日2007年4月26日
發(fā)明者趙子健, 劉允才, 郁生陽, 仝明磊 申請人:上海交通大學(xué)