本發(fā)明涉及一種閱讀器系統(tǒng),特別是一種智能盲人閱讀器識別方法及智能盲人閱讀器系統(tǒng)。
背景技術(shù):
根據(jù)世界衛(wèi)生組織(who)在2014年8月更新的第282號實況報道,當(dāng)今世界范圍內(nèi)視力受損的人數(shù)約為2.85億,其中3900萬人患有盲癥,2.46億人為弱視,而發(fā)展中國家的視力受損者人數(shù)約占全世界的90%。此外,我國在2006年進(jìn)行了第二次全國殘疾人抽樣調(diào)查,根據(jù)調(diào)查結(jié)果推算,2006年我國各類殘疾人的總數(shù)為8296萬人,其中視力殘疾1233萬人。根據(jù)第六次全國人口普查我國總?cè)丝跀?shù),及第二次全國殘疾人抽樣調(diào)查我國殘疾人占全國總?cè)丝诘谋壤透黝悮埣踩苏細(xì)埣踩丝側(cè)藬?shù)的比例,推算2010年末我國殘疾人總?cè)藬?shù)8502萬人,其中視力殘疾人數(shù)約為1263萬人。
可以看出,有視力障礙的人群十分龐大,而隨著人們生活水平的提高,閱讀越來越成為一種強需求,同時隨著現(xiàn)代科技的發(fā)展,我們的生活進(jìn)入了一個信息量日益增多,信息傳播方式多樣化的新時代,這是一個可以稱為“信息無障礙”的時代,就是使無論健全人還是殘疾人,無論年輕人還是老年人都能夠從信息技術(shù)中獲益,任何人在任何情況下都能平等地、方便地、無障礙地獲取信息,利用信息?!靶畔o障礙”又稱“信息可達(dá)性”,其目標(biāo)是要使全社會所有的人,包括殘障人士、老年人和兒童,具有均等獲取或使用信息的機會?,F(xiàn)代科技文明發(fā)展的成果,應(yīng)該惠及每一個人。這其中盲人是一個急需要輔助的群體,他們也有對外界信息迫切的渴望。但是現(xiàn)今盲人學(xué)習(xí)的方式基本都是靠手指觸摸盲文來進(jìn)行看書,這種方式不僅閱讀效率低,而且閱讀內(nèi)容的準(zhǔn)確性也不高,這對盲人的學(xué)習(xí)造成十分重大分困難。現(xiàn)有的智能盲人閱讀器不能更好的實現(xiàn)印刷體漢字中常用的八種字體(宋體、楷體、隸書、黑體、幼圓、華文行楷、華文新魏、華文舒體)的識別以及實現(xiàn)手寫漢字體識別。
因此,現(xiàn)有的盲人閱讀器存無法實現(xiàn)印刷體漢字中常用的宋體、楷體、隸書、黑體、幼圓、華文行楷、華文新魏、華文舒體的識別,無法實現(xiàn)手寫漢字體識別,閱讀效率低、閱讀準(zhǔn)確率低的缺點。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于,提供了一種智能盲人閱讀器系統(tǒng),本發(fā)明具有實現(xiàn)印刷體漢字中常用的宋體、楷體、隸書、黑體、幼圓、華文行楷、華文新魏、華文舒體的識別,實現(xiàn)手寫漢字體識別,閱讀效率高、閱讀準(zhǔn)確率高的優(yōu)點。
本發(fā)明的技術(shù)方案:一種智能盲人閱讀方法,通過圖像采集模塊采集文本的圖像信息,由usb分流模塊通過通信模塊將文本的圖像信息上傳至云服務(wù)器;云服務(wù)器采集的圖像信息進(jìn)行預(yù)處理、文字分割,文字識別,并將識別結(jié)果以文本格式發(fā)送給usb分流模塊;usb分流模塊再發(fā)送至中央控制模塊,中央控制模塊通過語音播報模塊的語音處理單元將文本格式的識別結(jié)果轉(zhuǎn)化成語音信息,送藍(lán)牙單元,通過藍(lán)牙單元的耳機或者喇叭,將語音播報給閱讀者。
前述的智能盲人閱讀方法,所述云服務(wù)器是通過圖像分析系統(tǒng)完成圖片預(yù)處理、文字分割和文字識別。
前述的智能盲人閱讀方法,所述的文字識別,是采用文字訓(xùn)練模型完成,使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)作為單個字符識別的訓(xùn)練模型。
前述的智能盲人閱讀方法用的智能盲人閱讀器系統(tǒng),包括中央控制模塊,中央控制模塊分別連接有語音播報模塊和usb分流模塊,usb分流模塊通過通信模塊與云服務(wù)器連接,usb分流模塊還連接有圖像采集模塊。
前述的智能盲人閱讀器系統(tǒng),所述語音播報模塊包括語音處理單元,語音處理單元連接有藍(lán)牙單元。
前述的智能盲人閱讀器系統(tǒng),所述語音合成單元包括串口收發(fā)、語音合成和語音輸出線路,所述藍(lán)牙單元包括功率放大器和喇叭;串口收發(fā)的輸入端與中央控制模塊的uart3連接,串口收發(fā)的輸出端通過語音合成與語音輸出線路連接,語音輸出線路的輸出依次通過藍(lán)牙單元的功率放大器和喇叭連接。
前述的智能盲人閱讀器系統(tǒng),所述中央控制模塊包括主控芯片,主控芯片通過緩存、處理控制單元分別與uart3和uart2連接,uart2連接有預(yù)留串口,緩存、處理控制單元還連接有usb.host2.0,usb.host2.0與usb分流模塊的上游端口連接。
前述的智能盲人閱讀器系統(tǒng),所述usb分流模塊包括多端口收發(fā)控制單元,多端口收發(fā)控制單元分別連接有上游端口,交換、轉(zhuǎn)換、緩存、處理,usb1、usb3和usb2,usb1與圖像采集模塊的攝像頭連接,usb3與圖像采集模塊的預(yù)留接口連接,usb2與通信模塊的usb接口連接。
前述的智能盲人閱讀器系統(tǒng),所述通信模塊包括4g通信芯片,4g通信芯片分別連接有射頻天線、sim卡和usb接口,射頻天線與云服務(wù)器連接。
本發(fā)明的有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明結(jié)合了機器視覺、數(shù)字圖像處理、深度學(xué)習(xí)、計算機網(wǎng)絡(luò)等前沿技術(shù),不僅可以實現(xiàn)印刷體漢字的識別,而且還可以實現(xiàn)宋體、楷體、隸書、黑體等八種字體識別。此外,還可以實現(xiàn)手寫漢字體的識別。打破了傳統(tǒng)的盲人閱讀書籍需要用手指觸摸盲人的局限性,具有實現(xiàn)印刷體漢字中常用的宋體、楷體、隸書、黑體、幼圓、華文行楷、華文新魏、華文舒體的識別,實現(xiàn)手寫漢字體識別,閱讀效率高、閱讀準(zhǔn)確率高的優(yōu)點。
附圖說明
圖1是本發(fā)明系統(tǒng)的原理框圖;
圖2是圖1中的核心硬件結(jié)構(gòu)框圖;
圖3是圖1中語音播報模塊的工作原理圖;
圖4是圖1中通信模塊的工作原理圖;
圖5是圖1中usb分流模塊的工作原理圖;
圖6是本發(fā)明的運行流程圖;
圖7是各種字體對應(yīng)生成的文字圖;
圖8是cnn實現(xiàn)模型簡化圖;
圖9是文字模型訓(xùn)練網(wǎng)絡(luò)模型圖;
圖10是softmaxwithloss層示意圖;
圖11是正確率與迭代次數(shù)的關(guān)系圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的說明,但并不作為對本發(fā)明限制的依據(jù)。
實施例。一種智能盲人閱讀方法及智能盲人閱讀器系統(tǒng),構(gòu)成如圖1~11所示,一種智能盲人閱讀方法,通過圖像采集模塊采集文本的圖像信息,由usb分流模塊通過通信模塊將文本的圖像信息上傳至云服務(wù)器;云服務(wù)器采集的圖像信息進(jìn)行預(yù)處理、文字分割,文字識別,并將識別結(jié)果以文本格式發(fā)送給usb分流模塊;usb分流模塊再發(fā)送至中央控制模塊,中央控制模塊通過語音播報模塊的語音處理單元將文本格式的識別結(jié)果轉(zhuǎn)化成語音信息,送藍(lán)牙單元,通過藍(lán)牙單元的耳機或者喇叭,將語音播報給閱讀者。
所述云服務(wù)器是通過圖像分析系統(tǒng)完成圖片預(yù)處理、文字分割和文字識別。
所述的文字識別,是采用文字訓(xùn)練模型完成,使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)作為單個字符識別的訓(xùn)練模型。
所述的智能盲人閱讀方法用的智能盲人閱讀器系統(tǒng),包括中央控制模塊,中央控制模塊分別連接有語音播報模塊和usb分流模塊,usb分流模塊通過通信模塊與云服務(wù)器連接,usb分流模塊還連接有圖像采集模塊。
所述語音播報模塊包括語音處理單元,語音處理單元連接有藍(lán)牙單元。
所述語音合成單元包括串口收發(fā)、語音合成和語音輸出線路,所述藍(lán)牙單元包括功率放大器和喇叭;串口收發(fā)的輸入端與中央控制模塊的uart3連接,串口收發(fā)的輸出端通過語音合成與語音輸出線路連接,語音輸出線路的輸出依次通過藍(lán)牙單元的功率放大器和喇叭連接。
所述中央控制模塊包括主控芯片,主控芯片通過緩存、處理控制單元分別與uart3和uart2連接,uart2連接有預(yù)留串口,緩存、處理控制單元還連接有usb.host2.0,usb.host2.0與usb分流模塊的上游端口連接。
所述usb分流模塊包括多端口收發(fā)控制單元,多端口收發(fā)控制單元分別連接有上游端口,交換、轉(zhuǎn)換、緩存、處理,usb1、usb3和usb2,usb1與圖像采集模塊的攝像頭連接,usb3與圖像采集模塊的預(yù)留接口連接,usb2與通信模塊的usb接口連接。
所述通信模塊包括4g通信芯片,4g通信芯片分別連接有射頻天線、sim卡和usb接口,射頻天線與云服務(wù)器連接。
本發(fā)明的軟件設(shè)計部分主要包括云服務(wù)器上的程序設(shè)計和盲人閱讀器前端的程序設(shè)計。云服務(wù)器上的軟件設(shè)計主要是對前端采集的圖像進(jìn)行預(yù)處理、文字分割,最后利用已訓(xùn)練好的模型完成文字的識別功能,最后將識別結(jié)果再發(fā)送至前端主控芯片。盲人閱讀器前端的程序設(shè)計主要包括攝像頭的文本圖像采集、通信模塊對圖像的發(fā)送和識別結(jié)果的接受、語音播報模塊對識別結(jié)果的播報和按鍵中斷的配置等功能模塊的程序的編寫。
本發(fā)明的實質(zhì)在于對圖像采集模塊采集到的文字圖像進(jìn)行識別。文字識別的關(guān)鍵技術(shù)在于對采集的圖像進(jìn)行預(yù)處理、文字分割和文字識別三個環(huán)節(jié),一個環(huán)節(jié)對圖像處理效果不好將會影響最終的識別效果。
圖片預(yù)處理:
由于需要對圖片文字進(jìn)行切割,所以圖片的行和行間距(列和列間距)的灰度值應(yīng)該差異比較大,并且噪聲盡量小,還有就是行與行(列與列)之間不會有重疊,整個文字不會有傾斜和歪曲。因此在圖片預(yù)處理技術(shù)方面主要包括以下5個方面:灰度化、去噪聲、傾斜校正和邊緣檢測以及對比增強。
灰度化:
圖像二值化,也稱為灰度化,就是在圖像上呈現(xiàn)出明顯的黑白效果。正如我們上面介紹過,正常的彩色圖像是一種具有rgb3通道的空間模型,對于一個像素點我們需要同時給rgb三通道賦值比如(0,0,0)表示黑色才能確定一個顏色,而對于一個顏色我們很難確定rgb分別是什么,并且三通道的數(shù)字運算使得在像素級別的處理效率比較低,而如果是灰度圖這種單通道圖像,我們就能容易的對于一種顏色確定其像素值。
通過二值化處理我們能將圖片轉(zhuǎn)換為灰度圖片,這樣不僅使得處理效率比較高,并且能夠確定唯一的顏色像素值從而使得文字行和間隔行的灰度值差距比較明顯。
經(jīng)過處理后,很明顯可以看出文字圖片只有灰黑兩種顏色,基本達(dá)到了行與行間距(列與列間距)之前灰度值差異明顯。
去噪聲:
現(xiàn)實中的數(shù)字圖像在傳輸和數(shù)字化過程中往往會受到外部環(huán)境與成像設(shè)備的噪聲干擾等影響,稱為含噪圖像或者噪聲圖像。減少數(shù)字圖像中噪聲的這個過程稱為圖像去噪。去噪可以有效的提高圖片的識別效果,去噪的方法有很多,比較常用的主要有均值濾波器、自適應(yīng)維納濾波器、中值濾波器、小波去噪等等。
本發(fā)明去噪使用主要是中值濾波法,中值濾波法是一種非線性平滑技術(shù),它將每一像素點的灰度值設(shè)置為該點某鄰域窗口內(nèi)的所有像素點灰度值的中值。
傾斜校正:
在拍照或者其它獲取圖片的過程中,或多或少會造成圖片文字的部分傾斜,為了提高文字按行分割的準(zhǔn)確度,進(jìn)行傾斜校正有著重要的作用,圖片傾斜矯正的關(guān)鍵是如何檢測出字符傾斜的方向以及角度,而目前常用的傾斜校正算法主要有以下幾種:常規(guī)線性檢測的方法、基于投影的方法、基于hough變換的方法以及進(jìn)行傅里葉變換轉(zhuǎn)換到頻域進(jìn)行分析檢測等,經(jīng)過研究以及測試發(fā)現(xiàn)對于ocr識別的這類只含有文字、數(shù)字、字母等字符的圖像使用hough變換的方法效果最優(yōu)。
hough通過生成圖像金字塔取最高層圖像然后提取圖像邊緣等一系列的處理步驟能比較精確的檢測出圖像的傾斜角度和方向然后進(jìn)行旋轉(zhuǎn)校正,測試結(jié)果顯示這種算法精確度最高。
對比增強:
對于灰度值分布比較平均的圖像,其視覺效果要比其它分布的圖像要好,灰度值不平均的體現(xiàn)是在背景色可能灰度值在一個很大的范圍之間,而字符色同樣也有很大的范圍,對于這種現(xiàn)象我們可以通過直方圖均衡的辦法來進(jìn)行處理從而凸顯字符和背景的對比度。
圖像對比度對于圖片分割時的效果有著很大的影響,如果文字行相對于行間距的對比度比較強則在檢測時就會明顯的出現(xiàn)直方圖波峰波谷,反之則可能是一個線性上升然后下降的折線,顯然像素值如果會有直方圖波峰波谷出現(xiàn)比較平滑,我們就很容易在這些地方進(jìn)行切割。所以采用對比增強處理的目的就是要增強文字行和行間距的灰度值的差異而減小其自身的灰度差異。
對于圖片灰度值分布不均勻的圖片進(jìn)行對比度增強的處理對于提高識別效果的作用很明顯。
邊緣檢測:
邊緣檢測,是用來標(biāo)記數(shù)字圖像中亮度變化明顯的點,這也是圖像處理和計算機視覺中的基本問題,邊緣檢測在文字識別領(lǐng)域幾乎是必不可少的。
圖像邊緣檢測剔除了與識別不相關(guān)的信息,通過大幅度地減少了數(shù)據(jù)量來節(jié)約識別時間,并保留了圖像重要的結(jié)構(gòu)屬性,提升了朗讀器識別導(dǎo)入時文字圖片進(jìn)行按行分割的效率。
文字分割:
經(jīng)過前面的預(yù)處理,我們得到了一個對比度增強的二值化圖,下面就可以對該圖片進(jìn)行分割了,圖片分割主要分為以下幾個步驟:讀取灰度圖并將其二值化、文字行分割、文字列分割、保存為單個jpg小圖。
讀取灰度圖并將其二值化:
圖片在內(nèi)存中主要是以二維矩陣的形式存儲的每一個像素點,由于是灰度圖所以此時生成的是單通道二維矩陣。二維矩陣保存著圖片的顏色信息,顏色值的取值范圍是0-255,黑色對應(yīng)著0,然后白色對應(yīng)著255,然后中間均勻的分散著遞增的顏色值。在opencv中可以直接調(diào)用imread函數(shù)把一張圖片讀取成mat數(shù)組灰度圖的mat矩陣。
可以很明顯的看出大多數(shù)數(shù)值要么在0-5,要么在250-255。0-5的數(shù)值這表示著背景的顏色值,而中間夾雜著的250-255的值,代表著白色字體的顏色值。之所以這樣處理是為后續(xù)圖片的分割做準(zhǔn)備。
文字分割,通過分析,現(xiàn)階段的圖像是黑底白字,而黑色的像素值在0-5之間,白字的像素在250-255之間。為了達(dá)到分割字符的目的,需要將像素值為0-5的像素歸一化為0,將像素值為250-255的像素歸一化為255。這樣可以利用行像素和的值對圖片進(jìn)行文字的行分割。如果是黑色背景,一行像素和必然為0,如果出現(xiàn)白色字體,一行的像素和必然大于0。利用此算法可以將文字按行分割出來。
保存按行分割的到的每行文字圖像,然后利用列像素和的方法將每個字符分割出來(如果是黑色背景,一列像素和必然為0,如果出現(xiàn)白色字體,一列的像素和必然大于0)。利用此方法可能對左右結(jié)構(gòu)的漢字分割成兩個部分,因此在分割之前需要對文字圖片進(jìn)行膨脹處理,然后在進(jìn)行列分割,然后轉(zhuǎn)換成白底黑字效果。
文字識別:
在完成上述圖形預(yù)處理、文字分割操作后,接下來需要對分割的文字進(jìn)行識別。
訓(xùn)練數(shù)據(jù)的獲?。?/p>
訓(xùn)練一個好的模型需要足夠多的數(shù)據(jù)。在本設(shè)計中,完成了英文字符、阿拉伯?dāng)?shù)字和常用漢字的識別。其中,英文字符52種(a-z,a-z)、阿拉伯?dāng)?shù)字10種(0-9)、常用漢字3500種,但是漢字存在宋體、黑體等字體,加大了漢字識別的難度(本設(shè)計中只對宋體、楷體、隸書、黑體、幼圓、華文行楷、華文新魏、華文舒體進(jìn)行訓(xùn)練)。訓(xùn)練數(shù)據(jù)是利用python編寫程序生成的40*40的單個文字圖像,每個字體對應(yīng)的文字生成5張,總共生成142480張圖像數(shù)據(jù)作為訓(xùn)練集,再隨機生成28496張圖像作為測試集驗證模型的可行性。各種字體對應(yīng)生成的文字如圖3所示。
訓(xùn)練模型的選擇:
本發(fā)明深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)作為單個字符識別的訓(xùn)練模型。cnn(圖4)是人工神經(jīng)網(wǎng)絡(luò)的一種,但是在網(wǎng)絡(luò)結(jié)構(gòu)上更類似于生物體的神經(jīng)網(wǎng)絡(luò)。相比于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)模型一方面可以直接將原始圖像進(jìn)行輸入,自動提取圖像特征;另一方面cnn模型具有更好的泛化能力,即使當(dāng)圖像發(fā)生變形或者存在噪聲時也不會對識別結(jié)果造成明顯的影響;再一方面其通過局部感知野和共享權(quán)值的方法降低網(wǎng)絡(luò)模型的復(fù)雜度,但是比傳統(tǒng)模型的精確度更高。
訓(xùn)練網(wǎng)絡(luò)模型借鑒mnist手寫數(shù)字識別的網(wǎng)絡(luò),但是漢字具有更為復(fù)雜和精細(xì)的結(jié)構(gòu),因此在此基礎(chǔ)上進(jìn)行參數(shù)設(shè)置、網(wǎng)絡(luò)模型配置等網(wǎng)絡(luò)參數(shù)的調(diào)整,使其更適合于漢字訓(xùn)練和識別。訓(xùn)練網(wǎng)絡(luò)模型如圖5所示。
cnn中相鄰層之間的神經(jīng)單元不是全連接,而是部分連接,神經(jīng)元之間的連接來自上一層的部分神經(jīng)元。本識別系統(tǒng)所采用的cnn模型使用了relu激活函數(shù),其屬于非飽和激活函數(shù),由于在神經(jīng)網(wǎng)絡(luò)進(jìn)行誤差反向傳播時,存在梯度消失問題,即每層都要與激活函數(shù)的一階導(dǎo)數(shù)
與傳統(tǒng)的sigmoid、tanh函數(shù)相比,relu函數(shù)很大程度上可以提升模型的效果。
為提高模型泛化能力,加入了lrn層(局部響應(yīng)歸一化層)。該層模仿生物神經(jīng)系統(tǒng)的側(cè)抑制機制,對局部神經(jīng)元的活動創(chuàng)建競爭機制,使得響應(yīng)比較大的值相對更大,執(zhí)行一種“側(cè)抑制”操作,對輸入數(shù)的局部做歸一操作,當(dāng)前層的輸出做平滑處理。該層每個輸入值都要除以
網(wǎng)絡(luò)中的pooling層以max的模式采用重疊池化,即在計算中選取輸入數(shù)據(jù)一定區(qū)域的最大值,記錄下最大值在每個小區(qū)域中的位置,反向傳播時,將殘差傳遞到該最大值位置,其他位置置零。殘差計算公式為:
設(shè)當(dāng)前層k為卷積層,k+1層為下一層的子采樣層,第k層的第j個特征圖的殘差公式為:
其中,up(x)是將第k+1層的大小擴展與第k層一樣。
經(jīng)過n層卷積層迭代后,在為防止過擬合,在后幾層的pooling層和relu層加入dropout層,dropout層隨機的讓一些節(jié)點輸出置零,也不更新權(quán)重,因此可以避免某些特征只在固定的組合下才生效,有意識的讓網(wǎng)絡(luò)去學(xué)習(xí)一些普遍的共性,而不是某些訓(xùn)練樣本的一些特性。
最后的輸出層選用softmaxwithloss分類器,如圖6所示。softmaxwithloss實際是multinomiallogisticlosslayer(交叉熵代價函數(shù))和softmaxlayer的組合。假設(shè)樣本數(shù)量有m個,每個樣本特征數(shù)量為b,計算這m個樣本在n個類上的概率,計算公式為:
將k維的實向量(a1,a2,a3,...,an)映射為(b1,b2,b3,...,bn),然后bi根據(jù)的大小來進(jìn)行多分類任務(wù)(取權(quán)重最大的一維)。
圖像采集模塊采用高清攝像頭,將待識別圖像送入前端,通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播,前向傳播基本原理如下:
從輸入單元到第一個隱層h1計算為:
輸入信息從輸入層經(jīng)隱層處理,并傳向輸出層,每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài),對于網(wǎng)絡(luò)輸出與期望輸出的誤差,用輸出層的非線性作用函數(shù)。對于輸入層到隱層的權(quán)值wij則依然采用bp算法更新權(quán)重。輸入信息從輸入層經(jīng)隱層處理,具體處理方式為:設(shè)置初始權(quán)值及門限,將它們都設(shè)為較小的隨機數(shù)。經(jīng)隱層處理后傳向輸出層按輸入新的輸入向量
在前向傳播階段,數(shù)據(jù)源起于數(shù)據(jù)讀取層,經(jīng)過若干處理層,到達(dá)最后一層(損失層或者是特征層),在此階段,網(wǎng)絡(luò)中的權(quán)值不發(fā)生變化,網(wǎng)路路徑是一個有向無環(huán)圖(dag),從最開始的節(jié)點出發(fā),經(jīng)過若干處理層,不存在循環(huán)結(jié)構(gòu),因此數(shù)據(jù)流會一直向前推進(jìn)直至終點。
以數(shù)據(jù)流分析方法對前向傳播過程進(jìn)行研究,即:從輸入數(shù)據(jù)集中取一個樣本(x,y),其中x為數(shù)據(jù),y為標(biāo)簽。將x送入網(wǎng)絡(luò),逐層計算,得到相應(yīng)的網(wǎng)絡(luò)處理輸出o,網(wǎng)絡(luò)執(zhí)行的計算用公式表示為:
o=fn(...(f2(f1(xw1)w2)...)wn)
其中,fi,i-1,2,···,n表示非線性變換,wi,i=1,2,···,n表示各個權(quán)值層權(quán)值。o為網(wǎng)絡(luò)輸出,可以用(y,o)評估網(wǎng)絡(luò)質(zhì)量,理想的網(wǎng)絡(luò)滿足y==o。
在漢字?jǐn)?shù)據(jù)集的訓(xùn)練過程中,先經(jīng)過前向傳播將輸入信息傳遞至輸出層,對網(wǎng)絡(luò)輸出和誤差進(jìn)行修正,最后一層與目標(biāo)函數(shù)比較得到損失函數(shù),計算誤差更新值,調(diào)整隱層至輸出層的連接權(quán)值為:wjk=wjk-α(yk-tk)hj,α為學(xué)習(xí)率。
調(diào)整輸入層至隱層的連接權(quán)值wij=wij-αwjxi,其中
由于圖像特征信息較多,數(shù)據(jù)繁雜,因此訓(xùn)練過程需要反復(fù)迭代訓(xùn)練,直到loss收斂,在訓(xùn)練樣本的過程中,保持均勻輸入,最終能實現(xiàn)較理想的識別率。
在文本分類任務(wù)中,要將其分為3562個目標(biāo)(常用漢字3500個、英文大小寫字母52個、阿拉伯?dāng)?shù)字10個)。進(jìn)過充分訓(xùn)練后,網(wǎng)絡(luò)結(jié)構(gòu)模型隨著迭代次數(shù)增加可以達(dá)到99%以上的精確度(如圖7所示),說明這網(wǎng)絡(luò)模型結(jié)構(gòu)是可取的。
本發(fā)明用到的功能模塊有中央控制模塊、圖像采集模塊、語音播報模塊、通信模塊和usb分流模塊;
中央控制模塊:該模塊要實現(xiàn)對整個盲人閱讀器各個部分功能單元所采集到的數(shù)據(jù)和信息進(jìn)行匯總分析,并根據(jù)數(shù)據(jù)所反映的場景,對各個功能模塊發(fā)出相應(yīng)的控制指令。根據(jù)對該設(shè)計的功能性分析和論證,要求芯片性能高功耗低,適于做手持電子設(shè)備,通訊設(shè)備或者醫(yī)療應(yīng)用設(shè)備,上網(wǎng)本,學(xué)習(xí)機,監(jiān)控視頻設(shè)備和各種人機界面,可以應(yīng)用于高清游戲,無線gps導(dǎo)航,移動視頻播放,智能控制,儀器儀表,導(dǎo)航設(shè)備,pda設(shè)備,遠(yuǎn)程監(jiān)控,游戲開發(fā)等開發(fā)。核心板能夠支持hdmi語音和聲卡芯片語音同步輸出。核心板要求至少滿足3個1g(1g主頻,1g內(nèi)存,1gflash)的要求,運行頻率可達(dá)1ghz,處理器內(nèi)部為64/32位總線結(jié)構(gòu)。32/32kb一級緩存,512kb二級緩存。自帶3d圖形加速引擎(sgx540),2d圖形加速器,最大支持8192*8192分辨率。視頻編碼支持mpeg-4/h.263/h.達(dá)到1080@30fps,解碼mpeg2/vc1/xvid視頻達(dá)到1080p@30fps。同時,在本發(fā)明中專門為核心板搭載了linuxpda操作系統(tǒng),使各個模塊運行效率更高、性能更穩(wěn)定、實時性能更強。智能盲人閱讀核心控制硬件結(jié)構(gòu)框圖如圖2所示。
圖像采集模塊:在啟動了閱讀器開關(guān)后,選擇相應(yīng)的按鍵來選擇相應(yīng)的識別模式,通過1300萬的攝像頭來拍攝清晰的文字圖像傳送到盲人閱讀器的中央控制模塊,然后由安裝了linux系統(tǒng)的主控芯片來對圖像進(jìn)行壓縮,在3g/4g模塊聯(lián)網(wǎng)后,在通過socket程序傳到服務(wù)器,服務(wù)器端對文字圖像進(jìn)行識別,生成相應(yīng)的文本文件,再次傳回前端采集系統(tǒng),最后通過語音播報模塊進(jìn)行播報,生成相應(yīng)的圖片。
攝像頭采用mjpge格式壓縮圖像,mjpeg是指motionjpeg,即動態(tài)jpeg,按照25幀/秒速度使用jpeg算法壓縮視頻信號,完成動態(tài)視頻的壓縮。其圖像格式是對每一幀進(jìn)行壓縮,通常可達(dá)到6:1的壓縮率,就像每一幀都是獨立的圖像一樣。動態(tài)jpeg能產(chǎn)生高質(zhì)量、全屏、全運動的視頻。這樣采集出來的圖片像素較高并且清晰。
socket的采用的是tcp傳輸協(xié)議,tcp(傳輸控制協(xié)議)是一種面向連接的網(wǎng)絡(luò)傳輸協(xié)議。支持多數(shù)據(jù)流操作,提供流控和錯誤控制,乃至對亂序到達(dá)報文的重新排序,因此,tcp傳輸提供了可靠的數(shù)據(jù)傳輸服務(wù)。這樣使得數(shù)據(jù)傳輸穩(wěn)定快速。
語音播報模塊:語音播報模塊包括語音處理芯片(syn6288)和其他外圍電路,該語音處理模塊的主要功能就是實現(xiàn)使用者與各種功能模塊間的人機交互,當(dāng)使用者使用盲人閱讀器時,對采集到的文本信息進(jìn)行識別后,將得到的文字信息發(fā)送給語音播報模塊,該模塊則需要將得到的數(shù)據(jù)進(jìn)行處理,并通過外放喇叭或耳機設(shè)備進(jìn)行播報,告知使用者文字內(nèi)弄,完成書籍等印刷文字的閱讀。其語音處理芯片的外圍電路原理圖如3所示。
通信模塊:通信模塊為4g通信模塊,網(wǎng)絡(luò)通信功能的實現(xiàn),利用了4g模塊的無線寬帶網(wǎng)絡(luò)接入功能。第四代移動電話行動通信標(biāo)準(zhǔn),指的是第四代移動通信技術(shù),外語縮寫:4g。該技術(shù)包括td-lte和fdd-lte兩種制式,是集3g與wlan于一體,并能夠快速傳輸數(shù)據(jù)、高質(zhì)量、音頻、視頻和圖像等。4g能夠以100mbps以上的速度下載,比目前的家用寬帶adsl(4兆)快25倍,并能夠滿足幾乎所有用戶對于無線服務(wù)的要求。此外,4g可以在dsl和有線電視調(diào)制解調(diào)器沒有覆蓋的地方部署,然后再擴展到整個地區(qū)。
4g模塊由usb接口與中央控制模塊相連,usb主線總線信號為各模塊與系統(tǒng)之間的通訊接口。根據(jù)linux3.2.0內(nèi)核的自帶的ecm口驅(qū)動對me3760_v2模塊進(jìn)行加載,使用的是me3760_v2模塊的usb口進(jìn)行連接,在linux下,me3760_v2模塊的ecm口被映射成5個接口:ecm、\、at、modem、log,其中“\”也屬于ecm口的一部分,為防止ecm功能被覆蓋,在進(jìn)行usb串口初始化時應(yīng)將其過濾,并加載linux內(nèi)核的ppp驅(qū)動,使其余的接口初始化為usb串口設(shè)備,最后用ppp工具撥號連接4g網(wǎng)絡(luò)。
本發(fā)明使用4g通信模塊實現(xiàn)盲人閱讀器前端與云服務(wù)器之間進(jìn)行雙向通信。一是將攝像頭采集的文本圖像發(fā)送至云服務(wù)器來完成文字識別,二是云服務(wù)器將識別的結(jié)果發(fā)送至盲人閱讀器前端的主控芯片,通過語音播報模塊將識別結(jié)果實時告知使用者,完成閱讀功能。智能盲人閱讀器4g通信模塊應(yīng)用電路原理圖如圖4所示。
usb分流模塊:經(jīng)usb接口與中央控制模塊連接的有兩部分,一是攝像頭,與usb接口一相連;二是4g通信模塊,與usb接口二相連。兩部分分別經(jīng)usb分流模塊與中央控制模塊連接,進(jìn)行信息交互傳輸。
fe1.1s是高度集成,高質(zhì)量,高性能,低能耗,同時還是usb2.0高速4端口集線的低成本解決方案。它采用單個交換轉(zhuǎn)換器(singletransactiontranslator)(stt)構(gòu)建以便獲得更多的效益。六個而不是兩個非周期轉(zhuǎn)換緩存以減少潛在的通信干擾。整個設(shè)計基于狀態(tài)機控制,以減小響應(yīng)的延遲時間;在此芯片中未使用微型控制器。為保障高質(zhì)量,整個芯片通過測試掃描鏈(testscanchain)–即使在高速(480mhz)模式下,使所有的邏輯元件在裝運前被充分測試。特別是內(nèi)建自檢(build-in-self-test)模式目的在于使用所有的高速,全速,以及低速模式模擬前端端口(afe)在封裝和測試階段也是如此。低能耗的實現(xiàn)是通過使用0.18μm技術(shù)以及集成的電源/時鐘控制機制。大部分引腳不需要計時,除非被用到。usb分流模塊工作原理圖如圖5所示。
本發(fā)明的工作原理為:圖像采集模塊采集文本圖像信息,送usb分流模塊,usb分流模塊通過通信模塊將文本圖像信息上傳至云服務(wù)器,云服務(wù)器利用數(shù)字圖形處理技術(shù)對采集的圖像信息進(jìn)行預(yù)處理、文字分割、文字識別處理,再由已訓(xùn)練好的模型完成文字識別功能,并將識別結(jié)果以文本格式發(fā)送給usb分流模塊,usb分流模塊再發(fā)送給中央控制模塊,中央控制模塊通過語音播報模塊的語音處理單元將文本格式的識別結(jié)果轉(zhuǎn)化成語音信息,語音信息送藍(lán)牙單元,通過藍(lán)牙單元的耳機或者喇叭,將語音播報給閱讀者。