本發(fā)明涉及一智能導(dǎo)盲系統(tǒng)及方法方法,屬于導(dǎo)盲領(lǐng)域。
背景技術(shù):
中國(guó)是世界盲人最多的國(guó)家,約有1200萬(wàn),占全世界盲人口的18%,作為社會(huì)群體中的特殊人群,他們終生生活在無(wú)邊的黑暗中,因此常常會(huì)遇到各種難題,目前市場(chǎng)上的一些導(dǎo)盲用眼鏡大多結(jié)構(gòu)簡(jiǎn)單而功能單一(只能簡(jiǎn)單提示前方有障礙物),雖然有些產(chǎn)品使用方便,但輔助效果并不明顯,而且,盲人朋友在使用時(shí)會(huì)碰到諸多問(wèn)題,比如路況不好,坑洼不平,前方有懸掛的障礙物等等,普通的眼鏡無(wú)法準(zhǔn)確的探明,親屬不容易尋找等問(wèn)題,這些問(wèn)題是無(wú)法解決的。目前現(xiàn)有導(dǎo)盲產(chǎn)品的障礙物探測(cè)功能,僅僅局限于利用超聲波探測(cè)技術(shù)對(duì)障礙物的距離進(jìn)行探測(cè),不能對(duì)障礙物所在方位進(jìn)行精確定位,并且只能對(duì)單一障礙物進(jìn)行探測(cè),如在多運(yùn)動(dòng)障礙物的探測(cè)中,僅僅能夠探測(cè)到離使用者距離最近的障礙物,因此使得產(chǎn)品的導(dǎo)盲功能實(shí)用性大幅度降低。
實(shí)際上關(guān)于智能導(dǎo)盲眼鏡,在國(guó)際和國(guó)內(nèi)都有團(tuán)隊(duì)和個(gè)人進(jìn)行過(guò)研究,但都始終停留在性能檢測(cè)與可行性論證階段,至今并未對(duì)其進(jìn)行產(chǎn)品的批量化生產(chǎn),尤其是在國(guó)內(nèi),對(duì)智能導(dǎo)盲設(shè)備的研發(fā)更是剛剛處于起步階段,距大規(guī)模產(chǎn)品化,商業(yè)化還有很長(zhǎng)的一段距離。
如今市場(chǎng)現(xiàn)有的普通拐眼鏡的專(zhuān)利雖然有一些,但并沒(méi)有統(tǒng)一的專(zhuān)業(yè)標(biāo)準(zhǔn),尤其是專(zhuān)門(mén)為盲人朋友研究設(shè)計(jì)的多功能導(dǎo)盲眼鏡的專(zhuān)利更是少之又少,而且大多數(shù)產(chǎn)品,在實(shí)際使用時(shí)有很多的缺陷和問(wèn)題。
目前,在市場(chǎng)上還沒(méi)有一款實(shí)際應(yīng)用的智能導(dǎo)盲眼鏡,大多數(shù)還只是停留在研制或者試戴完善上,且功能單一、智能水平較低。谷歌公司于2012年發(fā)布了一款“拓展現(xiàn)實(shí)”眼鏡,它具備和智能手機(jī)一樣的功能,可以通過(guò)聲音控制拍照,視頻通話(huà),以及網(wǎng)上沖浪、處理文字信息和電子郵件等,但這些功能也只是面向視覺(jué)健全人士開(kāi)發(fā)設(shè)計(jì)的,這也是市場(chǎng)上唯一試發(fā)布的初級(jí)版本技術(shù),其他的一些導(dǎo)盲眼鏡產(chǎn)品都還停留在概念和研發(fā)中。所以,迫切需要一種專(zhuān)門(mén)為視覺(jué)障礙者研制開(kāi)發(fā)的便捷、高效的智能導(dǎo)盲眼鏡,及遞進(jìn)識(shí)別式方案的方位、測(cè)距和物體辨別功能,并且具有定位等一鍵式完成功能,能與后臺(tái)云服務(wù)器進(jìn)行時(shí)時(shí)交互的通信系統(tǒng),也能為后期不斷完善、功能擴(kuò)展提供廣闊的預(yù)留空間。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于:提供一種智能導(dǎo)盲眼鏡系統(tǒng)及其導(dǎo)盲方法,以解決現(xiàn)有智能導(dǎo)盲眼鏡功能單一、智能水平較低的問(wèn)題。
為解決上述問(wèn)題,提供一種智能導(dǎo)盲眼鏡系統(tǒng),包括:
圖像采集模塊,采集使用者周?chē)沫h(huán)境圖像,并將獲取的圖像上傳至中央控制模塊;
語(yǔ)音處理模塊,與中央控制模塊相連,用于使用者與各種功能模塊間的人機(jī)交互;
4G通信模塊,為眼鏡端和負(fù)責(zé)識(shí)別測(cè)距的云服務(wù)器建立實(shí)時(shí)相互通信,并實(shí)現(xiàn)語(yǔ)音通話(huà)功能;
中央控制模塊,對(duì)各功能單元所采集到的數(shù)據(jù)和信息進(jìn)行匯總分析,并根據(jù)數(shù)據(jù)所反映的場(chǎng)景,對(duì)各個(gè)功能模塊發(fā)出相應(yīng)的控制指令;對(duì)常見(jiàn)物體通過(guò)圖像模板匹配和視差圖進(jìn)行識(shí)別與測(cè)距;如無(wú)法辨別,再利用4G通信模塊發(fā)送至云服務(wù)器;
云服務(wù)器,通過(guò)在云服務(wù)器上搭建軟件平臺(tái)建立圖像分析系統(tǒng),利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),建立圖像學(xué)習(xí)數(shù)據(jù)庫(kù),利用深度學(xué)習(xí)與雙目測(cè)距算法,從上傳的圖像中獲取障礙物距離與類(lèi)別信息,并將信息反饋回中央控制模塊;
USB分流模塊,用于將圖像采集模塊和衛(wèi)星定位模塊與中央控制模塊相連,實(shí)現(xiàn)信息交互傳輸;
衛(wèi)星定位模塊,與中央控制模塊相連,用于衛(wèi)星定位,4G通信模塊還能將GPS獲取的經(jīng)緯度信息通過(guò)Internet發(fā)送至PC服務(wù)器端并接收服務(wù)器反饋信息;
本發(fā)明還提供一種智能導(dǎo)盲眼鏡導(dǎo)盲方法,包括:
通過(guò)圖像采集模塊采集使用者周?chē)沫h(huán)境圖像,獲取的圖像采用本地-服務(wù)器遞進(jìn)識(shí)別方案:先由中央控制模塊對(duì)常見(jiàn)物體通過(guò)圖像模板匹配和視差圖進(jìn)行識(shí)別與測(cè)距;如無(wú)法辨別,再利用4G通信模塊的網(wǎng)絡(luò)通信功能發(fā)送至云服務(wù)器,云服務(wù)器利用深度學(xué)習(xí)與雙目測(cè)距等算法,從上傳的圖像中獲取障礙物距離與類(lèi)別信息,并將信息以文本格式發(fā)送回中央控制模塊,再由語(yǔ)音處理模塊將其轉(zhuǎn)化成語(yǔ)音信息,通過(guò)耳機(jī)告知盲人。此外,當(dāng)使用者急需告知親友自己當(dāng)前位置時(shí),衛(wèi)星定位模塊會(huì)將使用者目前所在經(jīng)緯度信息有服務(wù)器轉(zhuǎn)換成位置信息,經(jīng)4G通信模塊以短信的方式發(fā)送至親友手機(jī),以便親友尋人。
所述本地-服務(wù)器遞進(jìn)識(shí)別方案,即首先在眼鏡端中央控制模塊上對(duì)一些常見(jiàn)障礙物的圖片進(jìn)行特征提取進(jìn)行機(jī)器學(xué)習(xí)建立匹配模板分類(lèi)數(shù)據(jù)庫(kù),識(shí)別測(cè)距功能開(kāi)啟后,中央控制模塊先對(duì)預(yù)處理的圖片解壓縮,在圖片中利用閾值選取方法對(duì)物體與背景進(jìn)行分割,再用Boost方法對(duì)背景分割后的目標(biāo)圖像進(jìn)行特征提取,獲取到的目標(biāo)特征通過(guò)SVM法與建立常見(jiàn)物體模板數(shù)據(jù)庫(kù)進(jìn)行匹配,從而獲得常見(jiàn)物體的識(shí)別結(jié)果;若匹配結(jié)果相似度低于識(shí)別比例,中央控制模塊會(huì)把預(yù)處理后的圖像通過(guò)4G通信模塊傳送給云服務(wù)器進(jìn)行識(shí)別,云服務(wù)器通過(guò)建立的深度學(xué)習(xí)訓(xùn)練過(guò)的數(shù)據(jù)庫(kù)進(jìn)行學(xué)習(xí)識(shí)別,根據(jù)最高的相似度得出辨別結(jié)果。本地識(shí)別、測(cè)距方式可以節(jié)省系統(tǒng)反應(yīng)時(shí)間,服務(wù)器方式可以確保不常見(jiàn)物體的準(zhǔn)確識(shí)別,兩種方式的協(xié)調(diào)運(yùn)行保證了圖像物體識(shí)別的實(shí)時(shí)性、準(zhǔn)確性與廣泛性等。
圖像采集模塊為模擬人眼的雙目攝像頭,經(jīng)USB分流模塊與中央控制模塊相連,以模擬人類(lèi)左右眼視覺(jué)成像的原理獲取同一景物的兩幅圖像,獲取到的兩幅圖片是由雙目攝像頭硬件壓縮的jpeg格式,而后傳輸?shù)街醒肟刂颇K,通過(guò)兩個(gè)攝像頭所獲取的二維圖像結(jié)合神經(jīng)網(wǎng)絡(luò)算法計(jì)算出景物的三維信息并提取圖片中的主要信息,通過(guò)BM算法得出圖像視差,它與人類(lèi)的雙眼視覺(jué)在原理上比較相像。由于雙目攝像可以提供被觀察物體的空間立體信息,因而在機(jī)器視覺(jué)領(lǐng)域有著廣泛的應(yīng)用。同時(shí),雙目攝像需進(jìn)行的各種信號(hào)處理涉及了圖像處理技術(shù)的各個(gè)方面,綜合性很強(qiáng)。目前,常用的雙目機(jī)器視覺(jué)系統(tǒng)基本上是采用兩個(gè)視軸平行或固定角度的攝像機(jī)來(lái)完成圖像的采集。這種方式具有結(jié)構(gòu)簡(jiǎn)單、測(cè)量速度快、測(cè)量和匹配的精度高等優(yōu)點(diǎn)。但系統(tǒng)在進(jìn)行測(cè)量之前,需要對(duì)攝像機(jī)進(jìn)行嚴(yán)格的參數(shù)標(biāo)定。
雙目測(cè)距的基本原理如下:
設(shè)定人體與物體之間的距離為Z,攝像頭的焦距f,兩個(gè)攝像頭的鏡頭之間的距離為T(mén),物體在兩個(gè)傳感器上所成像xl和xr的距離d,為變量,有:
d=xl-xr
因此,已知d的值,即可根據(jù)相似三角形原理求出Z;
在Opencv上實(shí)現(xiàn)雙目測(cè)距,主要步驟為:
①雙目校正和標(biāo)定,獲得攝像頭的參數(shù)矩陣,標(biāo)定采用的是MATLAB標(biāo)定工具;
②立體匹配,獲得視差圖;
③采用BM算法生成視差圖,如果左右匹配點(diǎn)比較稠密,匹配點(diǎn)多,得到的圖像與原圖相似度高,如果匹配點(diǎn)比較稀疏,得到的點(diǎn)與原圖相似度低;
④得出測(cè)距;
⑤把生成的視差圖輸入到reprojectImageTo3D()函數(shù),生成3D點(diǎn)云,3D點(diǎn)云中保存有2D圖像的三維坐標(biāo),再讀出每幀圖像的三維坐標(biāo)中的z軸的值,就得出了距離數(shù)據(jù);
⑥結(jié)果分析。
目標(biāo)障礙物方位辨別:在Opencv環(huán)境下,通過(guò)閾值選取法得到去背景的目標(biāo)圖片,并對(duì)該圖片整個(gè)區(qū)域建立坐標(biāo)進(jìn)行區(qū)域劃分,劃分為三個(gè)區(qū)域,分別為左前、前方、右前方;同時(shí),在去除背景的目標(biāo)圖片基礎(chǔ)上根據(jù)目標(biāo)具體形狀生成目標(biāo)對(duì)應(yīng)的輪廓框圖,再根據(jù)該框圖,利用幾何原理計(jì)算出目標(biāo)輪廓框圖的幾何中心點(diǎn);中心點(diǎn)和區(qū)域劃分完成后,根據(jù)目標(biāo)輪廓中心點(diǎn)位于區(qū)域劃分圖中的具體區(qū)域來(lái)得出該目標(biāo)當(dāng)前相對(duì)于攝像頭的具體方位。
雙目攝像頭和衛(wèi)星定位模塊分別經(jīng)USB分流模塊與中央控制模塊連接,USB分流模塊為FE1.1s,F(xiàn)E1.1s是高度集成,高質(zhì)量,高性能,低能耗,同時(shí)還是USB2.0高速4端口集線的低成本解決方案。它采用單個(gè)交換轉(zhuǎn)換器(Single Transaction Translator)(STT)構(gòu)建以便獲得更多的效益。六個(gè)而不是兩個(gè)非周期轉(zhuǎn)換緩存以減少潛在的通信干擾。整個(gè)設(shè)計(jì)基于狀態(tài)機(jī)控制,以減小響應(yīng)的延遲時(shí)間;在此芯片中未使用微型控制器。為保障高質(zhì)量,整個(gè)芯片通過(guò)測(cè)試掃描鏈(Test Scan Chain)–即使在高速(480MHz)模式下,使所有的邏輯元件在裝運(yùn)前被充分測(cè)試。特別是內(nèi)建自檢(Build-In-Self-Test)模式目的在于使用所有的高速,全速,以及低速模式模擬前端端口(AFE)在封裝和測(cè)試階段也是如此。低能耗的實(shí)現(xiàn)是通過(guò)使用0.18m技術(shù)以及集成的電源/時(shí)鐘控制機(jī)制。大部分引腳不需要計(jì)時(shí),除非被用到;
語(yǔ)音處理模塊,該模塊包括語(yǔ)音處理芯片SYN6288,主要功能就是實(shí)現(xiàn)使用者與各種功能模塊間的人機(jī)交互,當(dāng)使用者距離障礙物的距離低于預(yù)警閾值時(shí),中央控制模塊會(huì)向該模塊發(fā)出播報(bào)指令,該模塊則將得到的數(shù)據(jù)進(jìn)行處理,并通過(guò)外放喇叭或耳機(jī)設(shè)備進(jìn)行播報(bào),告知使用者前方障礙物的類(lèi)別、方位和距離,例如“右前方2.3米處有車(chē)輛”,使得使用者可以進(jìn)行避障調(diào)整。當(dāng)使用者想知道當(dāng)前位置時(shí),可以觸發(fā)定位按鈕,通過(guò)語(yǔ)音播報(bào)當(dāng)前的地理位置信息。
衛(wèi)星定位系統(tǒng)即全球定位系統(tǒng)Global Positioning System,就是使用衛(wèi)星對(duì)某物進(jìn)行準(zhǔn)確定位的技術(shù)??梢员WC在任意時(shí)刻,地球上任意一點(diǎn)都可以同時(shí)觀測(cè)到4顆衛(wèi)星,以便實(shí)現(xiàn)導(dǎo)航、定位、授時(shí)等功能。具有的全天候、高精度和自動(dòng)測(cè)量的特點(diǎn),作為先進(jìn)的測(cè)量手段和新的生產(chǎn)力,已經(jīng)融入了國(guó)民經(jīng)濟(jì)建設(shè)、國(guó)防建設(shè)和社會(huì)發(fā)展的各個(gè)應(yīng)用領(lǐng)域。衛(wèi)星定位系統(tǒng)的工作原理是測(cè)量出已知位置的衛(wèi)星到用戶(hù)接收機(jī)之間的距離,然后綜合多顆衛(wèi)星的數(shù)據(jù)即知道接收機(jī)的具體位置。
GPS在本技術(shù)中的應(yīng)用,主要是使眼鏡具有精確的衛(wèi)星定位功能,其實(shí)現(xiàn)方式是將眼鏡作為Socket通信的客戶(hù)端,把GPS獲取的經(jīng)緯度信息利用4G通信模塊通過(guò)TCP/IP協(xié)議在Internet上傳遞給PC機(jī)服務(wù)器端,而后PC服務(wù)器再將得到的經(jīng)緯度信息通過(guò)百度地圖API進(jìn)行經(jīng)緯度與位置信息的匹配,從而得知使用者所在位置,最后PC服務(wù)器端再將位置信息通過(guò)互聯(lián)網(wǎng)發(fā)送回中央控制模塊。
當(dāng)使用者需要了解當(dāng)前所在位置時(shí)或者想讓家人及朋友能夠了解自己當(dāng)前所在具體地理位置時(shí),觸發(fā)開(kāi)關(guān),4G通信模塊即將位置信息以短信的方式發(fā)送至親人手機(jī)。
網(wǎng)絡(luò)通信功能的實(shí)現(xiàn),利用了4G通信模塊的無(wú)線寬帶網(wǎng)絡(luò)接入功能,該模塊的功能是負(fù)責(zé)眼鏡端與各功能云服務(wù)器平臺(tái)間通信鏈路的建立,其中之一,是將眼鏡端與負(fù)責(zé)識(shí)別測(cè)距的云服務(wù)器建立實(shí)時(shí)相互通信,并實(shí)現(xiàn)語(yǔ)音通話(huà)功能,以方便其家人及時(shí)了解使用者當(dāng)前身體狀況;其二,無(wú)線通信模塊不僅實(shí)現(xiàn)了與家人聯(lián)系的功能,還實(shí)現(xiàn)了將GPS獲取的經(jīng)緯度信息通過(guò)Internet發(fā)送至PC服務(wù)器端并接收服務(wù)器反饋信息的網(wǎng)絡(luò)通信功能,而這一功能也是衛(wèi)星定位環(huán)節(jié)中至關(guān)重要的環(huán)節(jié)。
4G通信模塊由USB接口與中央控制模塊相連,USB主線總線信號(hào)為4個(gè)模塊與系統(tǒng)之間的通訊接口。根據(jù)Linux3.2.0內(nèi)核的自帶的ECM口驅(qū)動(dòng)對(duì)ME3760_V2模塊進(jìn)行加載,使用的是ME3760_V2模塊的USB口進(jìn)行連接,在Linux下,ME3760_V2模塊的ECM口被映射成5個(gè)接口:ECM、\、AT、Modem、Log(下文有詳細(xì)介紹),其中“\”也屬于ECM口的一部分,為防止ECM功能被覆蓋,在進(jìn)行USB串口初始化時(shí)應(yīng)將其過(guò)濾,并加載Linux內(nèi)核的PPP驅(qū)動(dòng),使其余的接口初始化為USB串口設(shè)備,最后用PPP工具撥號(hào)連接4G網(wǎng)絡(luò)。
技術(shù)實(shí)現(xiàn)步驟:
1.在Linux下ME3760_V2模塊的USB口被映射成5個(gè)接口:ECM、/、AT、Modem和Log;
2.內(nèi)核修改,在原有的Linux版本的基礎(chǔ)上添加ME3760_V2模塊的驅(qū)動(dòng),如:添加設(shè)備信息、USB串口驅(qū)動(dòng)過(guò)濾ECM接口;
3.內(nèi)核編譯;
4.設(shè)備加載,ME3760_V2模塊的ECM口在系統(tǒng)中被映射成網(wǎng)口eth0,其中AT/Modem/Log口在系統(tǒng)中被映射為ttyUSB0-ttyUSB2;
5.建立4G連接,利用AT指令,使用PPP撥號(hào),并靜態(tài)設(shè)置eth0的IP和網(wǎng)關(guān)DNS或者使用PPP撥號(hào),就能使用4G網(wǎng)絡(luò)了。
中央控制模塊,該模塊主要實(shí)現(xiàn)對(duì)整個(gè)眼鏡各個(gè)部分功能單元所采集到的數(shù)據(jù)和信息進(jìn)行匯總分析,并根據(jù)數(shù)據(jù)所反映的場(chǎng)景,對(duì)各個(gè)功能模塊發(fā)出相應(yīng)的控制指令。
為了使各個(gè)模塊運(yùn)行效率更高、性能更穩(wěn)定、實(shí)時(shí)性能更強(qiáng),團(tuán)隊(duì)專(zhuān)門(mén)為核心板搭載了LINUX PDA操作系統(tǒng),而其在本設(shè)計(jì)中的主要功能體現(xiàn)在以下的幾個(gè)方面:
在雙目攝像頭的圖像采集的控制中,預(yù)先在TQ210_COREB核心板中用程序設(shè)定一個(gè)圖像采集頻率,并實(shí)時(shí)將采集完的圖像壓縮并發(fā)送給后臺(tái)服務(wù)器,核心板時(shí)時(shí)接收后臺(tái)服務(wù)器傳遞過(guò)來(lái)的圖像分析結(jié)果信息。
在本地-服務(wù)器遞進(jìn)識(shí)別方案的眼鏡端,首先在搭載了精簡(jiǎn)Linux操作系統(tǒng)的A8上,利用Opencv平臺(tái)對(duì)常見(jiàn)物體用Boost方法進(jìn)行特征提取,并對(duì)提取的特征運(yùn)用機(jī)器學(xué)習(xí)建立匹配模板數(shù)據(jù)庫(kù)。識(shí)別測(cè)距功能開(kāi)啟后,眼鏡端先對(duì)預(yù)處理的圖片解壓縮,在圖片中對(duì)物體與背景進(jìn)行分割,再對(duì)背景分割后的目標(biāo)圖像進(jìn)行特征提取,獲取到的目標(biāo)特征再利用SVM方法與建立常見(jiàn)物體模板數(shù)據(jù)庫(kù)進(jìn)行匹配,從而獲得常見(jiàn)物體的識(shí)別結(jié)果;若匹配結(jié)果相似度低于識(shí)別比例,眼鏡端會(huì)把預(yù)處理后的圖像通過(guò)4G網(wǎng)絡(luò)傳送給云服務(wù)器進(jìn)行識(shí)別。
在對(duì)語(yǔ)音處理模塊的控制中,預(yù)先在后臺(tái)服務(wù)器分析程序中設(shè)置有預(yù)警閾值,當(dāng)探測(cè)到的物體距離小于預(yù)警閾值時(shí),核心板將接收到的文本信息經(jīng)過(guò)語(yǔ)音模塊處理后得到的各種功能的語(yǔ)音片段,以外放喇叭或者耳機(jī)的形式傳遞給使用者,當(dāng)探測(cè)物體距離大于預(yù)警閾值時(shí),停止播報(bào)。
當(dāng)使用者處于迷路或是急需得到親人朋友的幫助時(shí),通過(guò)觸按位置信息發(fā)送按鍵,主控系統(tǒng)得到觸發(fā)信號(hào)后,會(huì)采用中斷方式,控制衛(wèi)星定位模塊確定當(dāng)前位置的經(jīng)緯度信息,然后再由中央控制模塊將經(jīng)緯度信息轉(zhuǎn)換為具體的地理位置信息,最后通過(guò)4G通信模塊將其發(fā)送至預(yù)存的家人手機(jī)號(hào)碼,以方便家人了解其當(dāng)前所在位置,進(jìn)行尋人。
深度學(xué)習(xí)原理:深度學(xué)習(xí)在訓(xùn)練數(shù)據(jù)庫(kù)時(shí),需要提供強(qiáng)大的計(jì)算能力,并且需要存儲(chǔ)大量的訓(xùn)練數(shù)據(jù),鑒于云服務(wù)器有以上優(yōu)勢(shì)和特性,遂決定采用云服務(wù)器作為圖像識(shí)別處理系統(tǒng)的軟件平臺(tái)。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類(lèi)別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。
與現(xiàn)有技術(shù)相比,本發(fā)明是專(zhuān)門(mén)為視覺(jué)障礙者研制開(kāi)發(fā)的便捷、高效的智能導(dǎo)盲眼鏡,具有遞進(jìn)識(shí)別式方案的方位、測(cè)距和物體辨別功能,并且具有定位等一鍵式完成功能,能與后臺(tái)云服務(wù)器進(jìn)行時(shí)時(shí)交互的通信系統(tǒng),也能為后期不斷完善、功能擴(kuò)展提供廣闊的預(yù)留空間;利用機(jī)器視覺(jué)、數(shù)字圖像處理與識(shí)別、深度學(xué)習(xí)、計(jì)算機(jī)網(wǎng)絡(luò)等前沿技術(shù),實(shí)現(xiàn)了對(duì)佩戴者前方障礙物的類(lèi)別、方位、距離的綜合探測(cè)及提示,衛(wèi)星定位、語(yǔ)音播報(bào)、4G網(wǎng)絡(luò)通信和一鍵式短信聯(lián)系家人等功能,本地識(shí)別、測(cè)距方式可以節(jié)省系統(tǒng)反應(yīng)時(shí)間,服務(wù)器方式可以確保不常見(jiàn)物體的準(zhǔn)確識(shí)別,兩種方式的協(xié)調(diào)運(yùn)行保證了圖像物體識(shí)別的實(shí)時(shí)性、準(zhǔn)確性與廣泛性等,具有十分廣闊的應(yīng)用前景。
附圖說(shuō)明
圖1是智能導(dǎo)盲眼鏡硬件系統(tǒng)框圖;
圖2是智能導(dǎo)盲眼鏡系統(tǒng)運(yùn)行流程圖;
圖3是雙目測(cè)距原理圖;
圖4是語(yǔ)音處理模塊控制框圖;
圖5是衛(wèi)星定位模塊的定位流程圖;
圖6是眼鏡端障礙物識(shí)別、方位和距離實(shí)現(xiàn)過(guò)程圖;
圖7是含多個(gè)隱層的深度學(xué)習(xí)模型圖;
圖8是layer-wise的訓(xùn)練機(jī)制圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述,
實(shí)施例:
參照?qǐng)D1和圖2,本實(shí)施例提供一種智能導(dǎo)盲眼鏡系統(tǒng),包括:
圖像采集模塊1,采集使用者周?chē)沫h(huán)境圖像,并將獲取的圖像上傳至中央控制模塊4;
語(yǔ)音處理模塊2,與中央控制模塊4相連,用于使用者與各種功能模塊間的人機(jī)交互;
4G通信模塊3,為眼鏡端和負(fù)責(zé)識(shí)別測(cè)距的云服務(wù)器5建立實(shí)時(shí)相互通信,并實(shí)現(xiàn)語(yǔ)音通話(huà)功能;
中央控制模塊4,對(duì)各功能單元所采集到的數(shù)據(jù)和信息進(jìn)行匯總分析,并根據(jù)數(shù)據(jù)所反映的場(chǎng)景,對(duì)各個(gè)功能模塊發(fā)出相應(yīng)的控制指令;對(duì)常見(jiàn)物體通過(guò)圖像模板匹配和視差圖進(jìn)行識(shí)別與測(cè)距;如無(wú)法辨別,再利用4G通信模塊3發(fā)送至云服務(wù)器5;
云服務(wù)器5,通過(guò)在云服務(wù)器上搭建軟件平臺(tái)建立圖像分析系統(tǒng),利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),建立圖像學(xué)習(xí)數(shù)據(jù)庫(kù),利用深度學(xué)習(xí)與雙目測(cè)距算法,從上傳的圖像中獲取障礙物距離與類(lèi)別信息,并將信息反饋回中央控制模塊4;
USB分流模塊6,用于將圖像采集模塊1和衛(wèi)星定位模塊4與中央控制模塊4相連,實(shí)現(xiàn)信息交互傳輸;
衛(wèi)星定位模塊7,與中央控制模塊4相連,用于衛(wèi)星定位,4G通信模塊3還能將GPS獲取的經(jīng)緯度信息通過(guò)Internet發(fā)送至PC服務(wù)器端并接收服務(wù)器反饋信息;
上述智能導(dǎo)盲眼鏡的導(dǎo)盲方法如下:
通過(guò)圖像采集模塊1采集使用者周?chē)沫h(huán)境圖像,獲取的圖像采用本地-服務(wù)器遞進(jìn)識(shí)別方案:先由中央控制模塊4對(duì)常見(jiàn)物體通過(guò)圖像模板匹配和視差圖進(jìn)行識(shí)別與測(cè)距;如無(wú)法辨別,再利用4G通信模塊3的網(wǎng)絡(luò)通信功能發(fā)送至云服務(wù)器5,云服務(wù)器5利用深度學(xué)習(xí)與雙目測(cè)距等算法,從上傳的圖像中獲取障礙物距離與類(lèi)別信息,并將信息以文本格式發(fā)送回中央控制模塊4,再由語(yǔ)音處理模塊2將其轉(zhuǎn)化成語(yǔ)音信息,通過(guò)耳機(jī)告知盲人。此外,當(dāng)使用者急需告知親友自己當(dāng)前位置時(shí),衛(wèi)星定位模塊7會(huì)將使用者目前所在經(jīng)緯度信息有服務(wù)器轉(zhuǎn)換成位置信息,經(jīng)4G通信模塊3以短信的方式發(fā)送至親友手機(jī),以便親友尋人。
本地-服務(wù)器遞進(jìn)識(shí)別方案,即首先在眼鏡端中央控制模塊4上對(duì)一些常見(jiàn)障礙物的圖片進(jìn)行特征提取進(jìn)行機(jī)器學(xué)習(xí)建立匹配模板分類(lèi)數(shù)據(jù)庫(kù),識(shí)別測(cè)距功能開(kāi)啟后,中央控制模塊4先對(duì)預(yù)處理的圖片解壓縮,在圖片中利用閾值選取方法對(duì)物體與背景進(jìn)行分割,再用Boost方法對(duì)背景分割后的目標(biāo)圖像進(jìn)行特征提取,獲取到的目標(biāo)特征通過(guò)SVM法與建立常見(jiàn)物體模板數(shù)據(jù)庫(kù)進(jìn)行匹配,從而獲得常見(jiàn)物體的識(shí)別結(jié)果;若匹配結(jié)果相似度低于識(shí)別比例,中央控制模塊4會(huì)把預(yù)處理后的圖像通過(guò)4G通信模塊3傳送給云服務(wù)器5進(jìn)行識(shí)別,云服務(wù)器5通過(guò)建立的深度學(xué)習(xí)訓(xùn)練過(guò)的數(shù)據(jù)庫(kù)進(jìn)行學(xué)習(xí)識(shí)別,根據(jù)最高的相似度得出辨別結(jié)果。本地識(shí)別、測(cè)距方式可以節(jié)省系統(tǒng)反應(yīng)時(shí)間,服務(wù)器方式可以確保不常見(jiàn)物體的準(zhǔn)確識(shí)別,兩種方式的協(xié)調(diào)運(yùn)行保證了圖像物體識(shí)別的實(shí)時(shí)性、準(zhǔn)確性與廣泛性等。
圖像采集模塊1為模擬人眼的雙目攝像頭,經(jīng)USB分流模塊6與中央控制模塊4相連,以模擬人類(lèi)左右眼視覺(jué)成像的原理獲取同一景物的兩幅圖像,獲取到的兩幅圖片是由雙目攝像頭硬件壓縮的jpeg格式,而后傳輸?shù)街醒肟刂颇K4,通過(guò)兩個(gè)攝像頭所獲取的二維圖像結(jié)合神經(jīng)網(wǎng)絡(luò)算法計(jì)算出景物的三維信息并提取圖片中的主要信息,通過(guò)BM算法得出圖像視差,它與人類(lèi)的雙眼視覺(jué)在原理上比較相像。由于雙目攝像可以提供被觀察物體的空間立體信息,因而在機(jī)器視覺(jué)領(lǐng)域有著廣泛的應(yīng)用。同時(shí),雙目攝像需進(jìn)行的各種信號(hào)處理涉及了圖像處理技術(shù)的各個(gè)方面,綜合性很強(qiáng)。目前,常用的雙目機(jī)器視覺(jué)系統(tǒng)基本上是采用兩個(gè)視軸平行或固定角度的攝像機(jī)來(lái)完成圖像的采集。這種方式具有結(jié)構(gòu)簡(jiǎn)單、測(cè)量速度快、測(cè)量和匹配的精度高等優(yōu)點(diǎn)。但系統(tǒng)在進(jìn)行測(cè)量之前,需要對(duì)攝像機(jī)進(jìn)行嚴(yán)格的參數(shù)標(biāo)定。
雙目測(cè)距的基本原理如下:
參照?qǐng)D3,設(shè)定人體與物體之間的距離為Z,攝像頭的焦距f,兩個(gè)攝像頭的鏡頭之間的距離為T(mén),物體在兩個(gè)傳感器上所成像xl和xr的距離d,為變量,有:
d=xl-xr
因此,已知d的值,即可根據(jù)相似三角形原理求出Z。
在Opencv上實(shí)現(xiàn)雙目測(cè)距,主要步驟為:
①雙目校正和標(biāo)定,獲得攝像頭的參數(shù)矩陣,標(biāo)定采用的是MATLAB標(biāo)定工具;
②立體匹配,獲得視差圖;
③采用BM算法生成視差圖,如果左右匹配點(diǎn)比較稠密,匹配點(diǎn)多,得到的圖像與原圖相似度高,如果匹配點(diǎn)比較稀疏,得到的點(diǎn)與原圖相似度低;
④得出測(cè)距;
⑤把生成的視差圖輸入到reprojectImageTo3D()函數(shù),生成3D點(diǎn)云,3D點(diǎn)云中保存有2D圖像的三維坐標(biāo),再讀出每幀圖像的三維坐標(biāo)中的z軸的值,就得出了距離數(shù)據(jù);
⑥結(jié)果分析。
目標(biāo)障礙物方位辨別:在Opencv環(huán)境下,通過(guò)閾值選取法得到去背景的目標(biāo)圖片,并對(duì)該圖片整個(gè)區(qū)域建立坐標(biāo)進(jìn)行區(qū)域劃分,劃分為三個(gè)區(qū)域,分別為左前、前方、右前方;同時(shí),在去除背景的目標(biāo)圖片基礎(chǔ)上根據(jù)目標(biāo)具體形狀生成目標(biāo)對(duì)應(yīng)的輪廓框圖,再根據(jù)該框圖,利用幾何原理計(jì)算出目標(biāo)輪廓框圖的幾何中心點(diǎn);中心點(diǎn)和區(qū)域劃分完成后,根據(jù)目標(biāo)輪廓中心點(diǎn)位于區(qū)域劃分圖中的具體區(qū)域來(lái)得出該目標(biāo)當(dāng)前相對(duì)于攝像頭的具體方位。
雙目攝像頭和衛(wèi)星定位模塊7分別經(jīng)USB分流模塊6與中央控制模塊4連接,USB分流模塊6為FE1.1s,F(xiàn)E1.1s是高度集成,高質(zhì)量,高性能,低能耗,同時(shí)還是USB 2.0高速4端口集線的低成本解決方案。它采用單個(gè)交換轉(zhuǎn)換器(Single Transaction Translator)(STT)構(gòu)建以便獲得更多的效益。六個(gè)而不是兩個(gè)非周期轉(zhuǎn)換緩存以減少潛在的通信干擾。整個(gè)設(shè)計(jì)基于狀態(tài)機(jī)控制,以減小響應(yīng)的延遲時(shí)間;在此芯片中未使用微型控制器。為保障高質(zhì)量,整個(gè)芯片通過(guò)測(cè)試掃描鏈(Test Scan Chain)–即使在高速(480MHz)模式下,使所有的邏輯元件在裝運(yùn)前被充分測(cè)試。特別是內(nèi)建自檢(Build-In-Self-Test)模式目的在于使用所有的高速,全速,以及低速模式模擬前端端口(AFE)在封裝和測(cè)試階段也是如此。低能耗的實(shí)現(xiàn)是通過(guò)使用0.18m技術(shù)以及集成的電源/時(shí)鐘控制機(jī)制。大部分引腳不需要計(jì)時(shí),除非被用到;
語(yǔ)音處理模塊2的控制框圖如圖4所示,該模塊包括語(yǔ)音處理芯片(SYN6288)。
主要功能就是實(shí)現(xiàn)使用者與各種功能模塊間的人機(jī)交互,當(dāng)使用者距離障礙物的距離低于預(yù)警閾值時(shí),中央控制模塊4會(huì)向該模塊發(fā)出播報(bào)指令,該模塊則將得到的數(shù)據(jù)進(jìn)行處理,并通過(guò)外放喇叭或耳機(jī)設(shè)備進(jìn)行播報(bào),告知使用者前方障礙物的類(lèi)別、方位和距離,例如“右前方2.3米處有車(chē)輛”,使得使用者可以進(jìn)行避障調(diào)整。當(dāng)使用者想知道當(dāng)前位置時(shí),可以觸發(fā)定位按鈕,通過(guò)語(yǔ)音播報(bào)當(dāng)前的地理位置信息。
衛(wèi)星定位系統(tǒng)即全球定位系統(tǒng)(Global Positioning System),就是使用衛(wèi)星對(duì)某物進(jìn)行準(zhǔn)確定位的技術(shù)??梢员WC在任意時(shí)刻,地球上任意一點(diǎn)都可以同時(shí)觀測(cè)到4顆衛(wèi)星,以便實(shí)現(xiàn)導(dǎo)航、定位、授時(shí)等功能。具有的全天候、高精度和自動(dòng)測(cè)量的特點(diǎn),作為先進(jìn)的測(cè)量手段和新的生產(chǎn)力,已經(jīng)融入了國(guó)民經(jīng)濟(jì)建設(shè)、國(guó)防建設(shè)和社會(huì)發(fā)展的各個(gè)應(yīng)用領(lǐng)域。衛(wèi)星定位系統(tǒng)的工作原理是測(cè)量出已知位置的衛(wèi)星到用戶(hù)接收機(jī)之間的距離,然后綜合多顆衛(wèi)星的數(shù)據(jù)即知道接收機(jī)的具體位置。
GPS在本技術(shù)中的應(yīng)用,主要是使眼鏡具有精確的衛(wèi)星定位功能,其實(shí)現(xiàn)方式是將眼鏡作為Socket通信的客戶(hù)端,把GPS獲取的經(jīng)緯度信息利用4G通信模塊3通過(guò)TCP/IP協(xié)議在Internet上傳遞給PC機(jī)服務(wù)器端,而后PC服務(wù)器再將得到的經(jīng)緯度信息通過(guò)百度地圖API(Application Programming Interface)進(jìn)行經(jīng)緯度與位置信息的匹配,從而得知使用者所在位置,最后PC服務(wù)器端再將位置信息通過(guò)互聯(lián)網(wǎng)發(fā)送回客戶(hù)端(中央控制模塊4)。
當(dāng)使用者需要了解當(dāng)前所在位置時(shí)或者想讓家人及朋友能夠了解自己當(dāng)前所在具體地理位置時(shí),觸發(fā)開(kāi)關(guān),4G通信模塊3即將位置信息以短信的方式發(fā)送至親人手機(jī)。圖5為衛(wèi)星定位模塊流程圖。
網(wǎng)絡(luò)通信功能的實(shí)現(xiàn),利用了4G通信模塊3的無(wú)線寬帶網(wǎng)絡(luò)接入功能,該模塊的功能是負(fù)責(zé)眼鏡端與各功能云服務(wù)器平臺(tái)間通信鏈路的建立,其中之一,是將眼鏡端與負(fù)責(zé)識(shí)別測(cè)距的云服務(wù)器建立實(shí)時(shí)相互通信,并實(shí)現(xiàn)語(yǔ)音通話(huà)功能,以方便其家人及時(shí)了解使用者當(dāng)前身體狀況;其二,無(wú)線通信模塊不僅實(shí)現(xiàn)了與家人聯(lián)系的功能,還實(shí)現(xiàn)了將GPS獲取的經(jīng)緯度信息通過(guò)Internet發(fā)送至PC服務(wù)器端并接收服務(wù)器反饋信息的網(wǎng)絡(luò)通信功能,而這一功能也是衛(wèi)星定位環(huán)節(jié)中至關(guān)重要的環(huán)節(jié)。
4G通信模塊3由USB接口與中央控制模塊4相連,USB主線總線信號(hào)為4個(gè)模塊與系統(tǒng)之間的通訊接口。根據(jù)Linux3.2.0內(nèi)核的自帶的ECM口驅(qū)動(dòng)對(duì)ME3760_V2模塊進(jìn)行加載,使用的是ME3760_V2模塊的USB口進(jìn)行連接,在Linux下,ME3760_V2模塊的ECM口被映射成5個(gè)接口:ECM、\、AT、Modem、Log(下文有詳細(xì)介紹),其中“\”也屬于ECM口的一部分,為防止ECM功能被覆蓋,在進(jìn)行USB串口初始化時(shí)應(yīng)將其過(guò)濾,并加載Linux內(nèi)核的PPP驅(qū)動(dòng),使其余的接口初始化為USB串口設(shè)備,最后用PPP工具撥號(hào)連接4G網(wǎng)絡(luò)。
技術(shù)實(shí)現(xiàn)步驟:
①在Linux下ME3760_V2模塊的USB口被映射成5個(gè)接口:ECM、/、AT、Modem和Log;
②內(nèi)核修改,在原有的Linux版本的基礎(chǔ)上添加ME3760_V2模塊的驅(qū)動(dòng),如:添加設(shè)備信息、USB串口驅(qū)動(dòng)過(guò)濾ECM接口;
③內(nèi)核編譯;
④設(shè)備加載,ME3760_V2模塊的ECM口在系統(tǒng)中被映射成網(wǎng)口eth0,其中AT/Modem/Log口在系統(tǒng)中被映射為ttyUSB0-ttyUSB2;
⑤建立4G連接,利用AT指令,使用PPP撥號(hào),并靜態(tài)設(shè)置eth0的IP和網(wǎng)關(guān)DNS或者使用PPP撥號(hào),就能使用4G網(wǎng)絡(luò)了。
⑥中央控制模塊4,該模塊主要實(shí)現(xiàn)對(duì)整個(gè)眼鏡各個(gè)部分功能單元所采集到的數(shù)據(jù)和信息進(jìn)行匯總分析,并根據(jù)數(shù)據(jù)所反映的場(chǎng)景,對(duì)各個(gè)功能模塊發(fā)出相應(yīng)的控制指令。
為了使各個(gè)模塊運(yùn)行效率更高、性能更穩(wěn)定、實(shí)時(shí)性能更強(qiáng),團(tuán)隊(duì)專(zhuān)門(mén)為核心板搭載了LINUX PDA操作系統(tǒng),而其在本設(shè)計(jì)中的主要功能體現(xiàn)在以下的幾個(gè)方面:
在雙目攝像頭的圖像采集的控制中,預(yù)先在TQ210_COREB核心板中用程序設(shè)定一個(gè)圖像采集頻率,并實(shí)時(shí)將采集完的圖像壓縮并發(fā)送給后臺(tái)服務(wù)器,核心板時(shí)時(shí)接收后臺(tái)服務(wù)器傳遞過(guò)來(lái)的圖像分析結(jié)果信息。
在本地-服務(wù)器遞進(jìn)識(shí)別方案的眼鏡端,首先在搭載了精簡(jiǎn)Linux操作系統(tǒng)的A8上,利用Opencv平臺(tái)對(duì)常見(jiàn)物體用Boost方法進(jìn)行特征提取,并對(duì)提取的特征運(yùn)用機(jī)器學(xué)習(xí)(SVM方法)建立匹配模板數(shù)據(jù)庫(kù)。識(shí)別測(cè)距功能開(kāi)啟后,眼鏡端先對(duì)預(yù)處理的圖片解壓縮,在圖片中對(duì)物體與背景進(jìn)行分割(閾值選取方法),再對(duì)背景分割后的目標(biāo)圖像進(jìn)行特征提取(Boost方法),獲取到的目標(biāo)特征再利用SVM方法與建立常見(jiàn)物體模板數(shù)據(jù)庫(kù)進(jìn)行匹配,從而獲得常見(jiàn)物體的識(shí)別結(jié)果;若匹配結(jié)果相似度低于識(shí)別比例,眼鏡端會(huì)把預(yù)處理后的圖像通過(guò)4G網(wǎng)絡(luò)傳送給云服務(wù)器進(jìn)行識(shí)別。眼鏡端障礙物識(shí)別、方位和距離實(shí)現(xiàn)過(guò)程如圖6。目標(biāo)的距離、方位獲得過(guò)程同上。
在對(duì)語(yǔ)音處理模塊2的控制中,預(yù)先在后臺(tái)服務(wù)器分析程序中設(shè)置有預(yù)警閾值,當(dāng)探測(cè)到的物體距離小于預(yù)警閾值時(shí),核心板將接收到的文本信息經(jīng)過(guò)語(yǔ)音模塊處理后得到的各種功能的語(yǔ)音片段,以外放喇叭或者耳機(jī)的形式傳遞給使用者,當(dāng)探測(cè)物體距離大于預(yù)警閾值時(shí),停止播報(bào)。
當(dāng)使用者處于迷路或是急需得到親人朋友的幫助時(shí),通過(guò)觸按位置信息發(fā)送按鍵,主控系統(tǒng)得到觸發(fā)信號(hào)后,會(huì)采用中斷方式,控制衛(wèi)星定位模塊7確定當(dāng)前位置的經(jīng)緯度信息,然后再由中央控制模塊4將經(jīng)緯度信息轉(zhuǎn)換為具體的地理位置信息,最后通過(guò)4G通信模塊3將其發(fā)送至預(yù)存的家人手機(jī)號(hào)碼,以方便家人了解其當(dāng)前所在位置,進(jìn)行尋人。
云服務(wù)器是由多臺(tái)并行計(jì)算的服務(wù)器所構(gòu)成服務(wù)器集群,具有較強(qiáng)的運(yùn)算能力。作品的圖像分析系統(tǒng)通過(guò)在云服務(wù)器上搭建軟件平臺(tái),利用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),建立圖像學(xué)習(xí)數(shù)據(jù)庫(kù),完成對(duì)傳輸進(jìn)來(lái)的圖片進(jìn)行識(shí)別處理。云服務(wù)器,是一種簡(jiǎn)單高效、安全可靠、處理能力可彈性伸縮的計(jì)算服務(wù)。其管理方式比物理服務(wù)器更簡(jiǎn)單高效。用戶(hù)無(wú)需提前購(gòu)買(mǎi)硬件,即可迅速創(chuàng)建或釋放任意多臺(tái)云服務(wù)器。
深度學(xué)習(xí)原理:深度學(xué)習(xí)在訓(xùn)練數(shù)據(jù)庫(kù)時(shí),需要提供強(qiáng)大的計(jì)算能力,并且需要存儲(chǔ)大量的訓(xùn)練數(shù)據(jù),鑒于云服務(wù)器有以上優(yōu)勢(shì)和特性,遂決定采用云服務(wù)器作為圖像識(shí)別處理系統(tǒng)的軟件平臺(tái)。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類(lèi)別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。圖6是含有多個(gè)隱層的深度學(xué)習(xí)模型。
而為了克服神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的問(wèn)題,深度學(xué)習(xí)采用了與神經(jīng)網(wǎng)絡(luò)很不同的訓(xùn)練機(jī)制。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,采用的是back propagation的方式進(jìn)行,簡(jiǎn)單來(lái)講就是采用迭代的算法來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò),隨機(jī)設(shè)定初值,計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出,然后根據(jù)當(dāng)前的輸出和層之間的差去改變前面各層的參數(shù),直到收斂(整體是一個(gè)梯度下降法)。而深度學(xué)習(xí)整體上是一個(gè)layer-wise的訓(xùn)練機(jī)制。這樣做的原因是因?yàn)?,如果采用back propagation的機(jī)制,對(duì)于一個(gè)深度神經(jīng)網(wǎng)絡(luò)(7層以上),殘差傳播到最前面的層已經(jīng)變得太小,出現(xiàn)所謂的梯度擴(kuò)散。圖7是layer-wise的訓(xùn)練機(jī)制。
深度學(xué)習(xí)訓(xùn)練過(guò)程具體如下:
(1)使用自下上升非監(jiān)督學(xué)習(xí)(從底層開(kāi)始,一層一層的往頂層訓(xùn)練):
采用無(wú)標(biāo)定數(shù)據(jù)(有標(biāo)定數(shù)據(jù)也可)分層訓(xùn)練各層參數(shù),這一步可以看作是一個(gè)無(wú)監(jiān)督訓(xùn)練過(guò)程,是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分(這個(gè)過(guò)程可以看作是特征學(xué)習(xí)的過(guò)程)。具體的,先用無(wú)標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時(shí)先學(xué)習(xí)第一層的參數(shù)(這一層可以看作是得到一個(gè)使得輸出和輸入差別最小的三層神經(jīng)網(wǎng)絡(luò)的隱層),由于模型容量的限制以及稀疏性約束,使得得到的模型能夠?qū)W習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更具有表示能力的特征;在學(xué)習(xí)得到第n-1層后,將n-1層的輸出作為第n層的輸入,訓(xùn)練第n層,由此分別得到各層的參數(shù);
(2)自頂向下的監(jiān)督學(xué)習(xí)(通過(guò)帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,誤差自頂向下傳輸,對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)):
基于第一步得到的各層參數(shù)進(jìn)一步微調(diào)整個(gè)多層模型的參數(shù),這一步是一個(gè)有監(jiān)督訓(xùn)練過(guò)程;第一步類(lèi)似神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化初值過(guò)程,由于DL的第一步不是隨機(jī)初始化,而是通過(guò)學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個(gè)初值更接近全局最優(yōu),從而能夠取得更好的效果;所以深度學(xué)習(xí)效果好很大程度上歸功于第一步的特征學(xué)習(xí)過(guò)程。訓(xùn)練過(guò)程采用CIFAR-10自然場(chǎng)景庫(kù)。CIFAR-10數(shù)據(jù)集包含60000個(gè)32*32的彩色圖像,共有10類(lèi)。有50000個(gè)訓(xùn)練圖像和10000個(gè)測(cè)試圖像。數(shù)據(jù)集分為5個(gè)訓(xùn)練塊和1個(gè)測(cè)試塊,每個(gè)塊有10000個(gè)圖像。測(cè)試塊包含從每類(lèi)隨機(jī)選擇的1000個(gè)圖像。訓(xùn)練塊以隨機(jī)的順序包含這些圖像,但一些訓(xùn)練塊可能比其它類(lèi)包含更多的圖像。訓(xùn)練塊每類(lèi)包含5000個(gè)圖像。
在CIFAR-10自然場(chǎng)景庫(kù)之外,團(tuán)隊(duì)加入了一些生活中常見(jiàn)的場(chǎng)景:椅子,垃圾箱,人。這樣更能檢測(cè)識(shí)別系統(tǒng)的實(shí)用性。
非常見(jiàn)物體的類(lèi)別、方位和距離:
云服務(wù)器平臺(tái)主要負(fù)責(zé)前端無(wú)法識(shí)別的非常見(jiàn)物體類(lèi)別、方位和距離的處理工作。
在后臺(tái)云服務(wù)器利用Opencv平臺(tái)對(duì)非常見(jiàn)物體用Boost方法進(jìn)行特征提取,并對(duì)提取的特征運(yùn)用深度學(xué)習(xí)建立匹配模板數(shù)據(jù)庫(kù)。識(shí)別測(cè)距功能開(kāi)啟后,非常見(jiàn)物體圖片通過(guò)4G通信上傳到云服務(wù)器端,對(duì)預(yù)處理的圖片解壓縮,在圖片中對(duì)物體與背景進(jìn)行分割(閾值選取方法),再對(duì)背景分割后的目標(biāo)圖像進(jìn)行特征提取(Boost方法),獲取到的目標(biāo)特征再與建立非常見(jiàn)物體模板數(shù)據(jù)庫(kù)進(jìn)行深度學(xué)習(xí),得到相似度最高的匹配結(jié)果,從而獲得非常見(jiàn)物體的識(shí)別結(jié)果;目標(biāo)的距離、方位獲得過(guò)程同上。