本發(fā)明涉及可穿戴設備的研究領域,特別涉及一種基于異常情緒語音辨識的可穿戴智能安全設備及控制方法。
背景技術:
:現(xiàn)今婦女、幼兒的人身安全事故頻發(fā),引發(fā)了大眾對這些弱勢群體安全問題的關注。這些弱勢群體在遭遇侵害時,往往由于過度緊張害怕或被束縛無法及時報警,這對案件的偵破造成了極大的阻礙,使得受害人人身安全難以得到保障。在受害人失去自行報警能力的時候,親屬只能等到失蹤時間滿24小時才能報警立案,然而這樣的處理方式錯過解救受害人的黃金時間,對受害者造成不可估量的損失。目前未發(fā)現(xiàn)有基于異常情緒語音辨識而自動報警的可穿戴智能安全設備。目前市面上出售的各種防止兒童走丟的智能手表具有GPS定位及手動長按鍵觸發(fā)報警功能,報警方式不是自動的,并不智能友好。因此,人們迫切需要一款具有異常情緒語音辨識功能的可穿戴智能安全設備,在暴力犯罪案件發(fā)生時通過受害者的哭鬧聲、尖叫、呼救聲等異常情緒語音自動觸發(fā)定位預警,在暴力事件出現(xiàn)的第一時間向預設的終端(比如親人的手機、110報警平臺)發(fā)出預警信息(比如位置信息、現(xiàn)場錄音),以保障佩戴者的人身安全。技術實現(xiàn)要素:本發(fā)明的主要目的在于克服現(xiàn)有技術的缺點與不足,提供一種基于異常情緒語音辨識的可穿戴智能安全設備及控制方法,通過語音信號判別情緒狀態(tài),并在確認異常情緒后,通過GPRS發(fā)送報警信息的可穿戴智能安全設備,為青少年,單身女性以及老年人等弱勢群體提供一個安全保障。為了達到上述目的,本發(fā)明采用以下技術方案:本發(fā)明提供了一種基于異常情緒語音辨識的可穿戴智能安全設備,包括主控模塊、語音采集模塊、模數(shù)轉(zhuǎn)換模塊、通訊模塊及定位模塊;其中,所述主控模塊,負責情緒語音辨識的相關計算和流程控制,通過GPIO接口與模數(shù)轉(zhuǎn)換模塊通訊,通過串口與通訊模塊及定位模塊進行通訊;所述語音采集模塊,用于采集佩戴者的語音信號,輸入-3.3~3.3V的模擬電壓信號到模數(shù)轉(zhuǎn)換模塊;所述模數(shù)轉(zhuǎn)換模塊,用于將語音采集模塊輸出的語音模擬信號轉(zhuǎn)變?yōu)閿?shù)字信號并輸送到主控模塊,該模數(shù)轉(zhuǎn)換模塊與主控模塊之間采用GPIO口進行通訊;所述通訊模塊,通過移動GPRS網(wǎng)絡,實現(xiàn)預警信息的傳輸功能,將定位與現(xiàn)場錄音信息及時傳送到綁定的手機端;所述定位模塊,搭載陶瓷和SMA雙天線,啟動時將定位信息通過TTL接口與主控模塊串口進行通信。作為優(yōu)選的技術方案,所述主控模塊采用Exynos4412主控模塊,所述語音采集模塊采用SoundSensor語音采集模塊,所述通訊模塊采用GSMSIM900A通訊模塊,所述定位模塊采用ubloxGPS定位模塊。作為優(yōu)選的技術方案,所述通信模塊與主控模塊相連接,受主控模塊控制,需要啟動時,主控模塊通過串口將啟動命令和發(fā)生內(nèi)容傳輸?shù)酵ㄓ嵞K。本發(fā)明還提供了一種基于異常情緒語音辨識的可穿戴智能安全設備的控制方法,包括下述步驟:S1、語音信號采集,通過語音采集模塊實時采集周邊語音信號,該語音采集模塊在正常工作狀態(tài)下,將同步輸出-3.3~3.3V的模擬信號,然而主控模塊無法直接讀取模擬信號,需要通過模數(shù)轉(zhuǎn)換模塊將模擬信號轉(zhuǎn)換為對應的數(shù)字信號;S2、對語音信號進行預處理,主控模塊對存儲到緩沖區(qū)的數(shù)字語音信號首先進行短時加窗處理,幀長為25毫秒,窗口形狀選擇為漢明窗ω(m):ω(m)=0.54-0.46cos[2πmN-1]0≤m≤N-10others---(1)]]>式(1)中m為當前采樣點,N為一幀的采樣點總個數(shù);然后將主控模塊緩沖區(qū)存儲的語音數(shù)據(jù)與漢明窗函數(shù)相乘完成加窗操作;S3、在完成信號的加窗后,進行語音端點檢測確定輸入語音流的各個語音段的起點和終點;S4、語音信號的特征提取,特征一:發(fā)音速率;發(fā)音速率表示說話的快慢,采用說話時每一個字所持續(xù)的平均時間作為發(fā)音速率,即v=xT---(2)]]>式(2)中v表示發(fā)音速率,T表示語音段的持續(xù)時間,x表示語音段中的字數(shù);當佩戴者處于異常情緒狀態(tài)下時,此時的語速與平靜狀態(tài)時不同,有明顯的語速加快的現(xiàn)象,語速是一個較為有效的特征;特征二:短時能量;加窗分幀處理后得到的第n幀語音信號xn(m):xn(m)=ω(m)x(n+m)0≤m≤N-1(3)式(3)中,n=1,2,3…;N為幀長,ω(m)為窗函數(shù),設第n幀語音信號xn(m)的短時能量En:En=Σm=0N-1xn2(m)---(4)]]>特征三:短時過零率;短時過零率表示在單位時間內(nèi)語音信號由正到負或由負到正變化的次數(shù),符號函數(shù)如下所示:sgn[x]=1x≥0-1x<0---(5)]]>則計算語音信號短時過率的公式如下:Zn=Σm=0N-1|sgn[xn(m)]-sgn[xn(m-1)]+δ|---(6)]]>式(6)中δ為設定的門限值,使得對于干擾信號具有一定的魯棒性;特征四:基音頻率;對于語音信號xn(m)定義其自相關函數(shù)Rn(k)為:Rn(k)=Σm=0N-k-1xn(m)xn(m+k)---(7)]]>式(7)中N表示幀長,Rn(k)不為零的范圍為k=(-N+1)~(N-1),且為偶函數(shù),濁音信號的自相關函數(shù)在基音周期的整數(shù)倍位置上出現(xiàn)峰值;檢測峰值的位置就可以提取基音周期值;S5、情緒語音辨識階段,將語速、短時平均能量、短時過零率和基音頻率作為異常情緒語音辨識的特征參數(shù),確定該段語音信號是否屬于異常情緒語音信號;S6、定位預警階段,主控模塊通過串口向定位模塊下達啟動命令,定位模塊獲取GPS定位信息,將定位信息通過串口傳回主控模塊緩沖區(qū);主控模塊在接收到定位模塊傳回的完整定位信息后,將控制命令和需發(fā)送的定位信息發(fā)送至通訊模塊緩沖區(qū),當緩沖區(qū)收到完整的定位信息后,通過GPRS網(wǎng)絡將定位信息發(fā)送至綁定手機端,完成預警工作。作為優(yōu)選的技術方案,步驟S1中,通過模數(shù)轉(zhuǎn)換模塊將模擬信號轉(zhuǎn)換為對應的數(shù)字信號的具體方法為:根據(jù)CCITT提出的G711標準,選取8KHz采樣率、16bit量化,并將轉(zhuǎn)換后的數(shù)字信號通過GPIO口讀取到主控模塊的緩沖區(qū)。作為優(yōu)選的技術方案,公式(1)中,采樣頻率選為8KHz,幀長為25毫秒,因此N=200。作為優(yōu)選的技術方案,步驟S3中,通過平均短時過零率和短時能量實現(xiàn)確定輸入語音流的各個語音段的起點和終點,其具體方法為:將整個語音信號的端點分為四段:靜音、過渡段、語音段、結(jié)束,程序中使用一個變量status來表示所處的狀態(tài),在靜音段,如果能量或過零率超越了低門限,就開始標記起始點,并進入過渡段,在過渡段中,由于參數(shù)的數(shù)值比較小,不能確定是否處于真正的語音段,因此只要兩個參數(shù)都回到低門限以下,就確定當前狀態(tài)恢復到了靜音狀態(tài),當過渡段中檢測到能量和過零率高于門限值時,則表明已進入語音段;當在語音段中能量和過零率再次回到門限之下,確認該段語音進入結(jié)束段,并標記結(jié)束點;設置合適的閾值,在環(huán)境噪聲較小的情況下,通過不斷對語音信號進行上述四個狀態(tài)的判斷,能夠檢測出每一個字的起始點和結(jié)束點,并能統(tǒng)計一段時間內(nèi)語音信號包含的字數(shù)。作為優(yōu)選的技術方案,步驟S4中,采用“中心削波”非線性變換,克服共振峰造成的影響,除去語音信號低幅度部分包含的共振峰信息,保留高幅度基音信息;yn(m)=xn(m)-CLxn(m)>CL0|xn(m)|≤CLxn(m)+CLxn(m)<-CL---(8)]]>式(8)中削波電平CL取最大信號幅度的65%,由于計算自相關函數(shù)的運算量很大,為減少乘法運算次數(shù),對中心削波進行修正,采樣三電平中心削波的方法y′n(m)=1xn(m)>CL0|xn(m)|≤CL-1xn(m)<-CL---(9)]]>經(jīng)過上述三電平削波的處理,大多數(shù)次要的峰被濾除掉了,只保留了明顯周期性的峰,將y'n(m)替換式(7)中的xn(m),計算并求出相鄰兩個波峰間的采樣點數(shù)M,估算的基音周期就是間隔采樣點對應的時間:TR=Mfn---(10)]]>式(10)中fn為采樣頻率,從而計算出基音頻率f:f=1TR.---(11)]]>作為優(yōu)選的技術方案,步驟S5具體為:采用的特征參數(shù)向量的維度D等于4;高斯混合模型的概率密度函數(shù)是由M個高斯密度函數(shù)加權(quán)求和所得,如下所示:P(X/λ)=Σi=1Mwibi(X)---(12)]]>式(12)中X是已提取的4維特征向量;bi(X)是子分布;wi是混合權(quán)重,每個子分布是D維的聯(lián)合高斯概率分布,可由以下公式計算:bi(X)=1(2π)D/2|Σi|1/2exp{-12(X-μi)tΣi-1(X-μi)}---(13)]]>式(13)中μi是均值向量,∑i是協(xié)方差矩陣,而完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重組成,表示為:λ={wi,μi,∑i},i=1,…,M(14)參數(shù)重估過程較為復雜,無需在本設備上重復進行,只需將已經(jīng)訓練好的正常和異常情緒語音對應的模型λ和λ'存儲在設備中,直接進行模型匹配即可,后驗概率最大值對應的模型表示為i*=argmaxiP(X/λi)---(15)]]>式(15)中X表示維度為4的特征向量,這樣就可以確定該段語音信號是否屬于異常情緒語音信號,若判別結(jié)果為正常情緒,返回步驟S1,若判別結(jié)果為異常情緒進入步驟S6。作為優(yōu)選的技術方案,所述主控模塊采用Exynos4412主控模塊,所述語音采集模塊采用SoundSensor語音采集模塊,所述通訊模塊采用GSMSIM900A通訊模塊,所述定位模塊采用ubloxGPS定位模塊。本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點和有益效果:1、本發(fā)明通過自動辨識佩戴者的異常情緒語音,達到了自動觸發(fā)報警的效果,克服了手工觸發(fā)報警的不足(佩戴者過度緊張忘記手動觸發(fā)報警或被束縛無法手動觸發(fā)報警)。2、本發(fā)明提取簡單有效的時域特征而不是復雜音頻特征辨識異常情緒語音,能在硬件資源有限的嵌入式平臺快速實現(xiàn),具有實時有效的優(yōu)點。附圖說明圖1為本發(fā)明Exynos4412主控模塊的電路原理圖;圖2為本發(fā)明SoundSensor語音采集模塊的電路原理圖;圖3為本發(fā)明模數(shù)轉(zhuǎn)換模塊的電路原理圖;圖4為本發(fā)明GSMSIM900A通訊模塊的電路原理圖;圖5為本發(fā)明ubloxGPS定位模塊的電路原理圖;圖6為本發(fā)明所述設備的工作流程圖。具體實施方式下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。實施例本實施例基于異常情緒語音辨識的可穿戴智能安全設備,包括Exynos4412主控模塊、SoundSensor語音采集模塊、模數(shù)轉(zhuǎn)換模塊、GSMSIM900A通訊模塊及ubloxGPS定位模塊:其中,Exynos4412主控模塊,負責情緒語音辨識的相關計算和流程控制的功能。通過GPIO接口與模數(shù)轉(zhuǎn)換模塊通訊,通過串口與GSMSIM900A通訊模塊及ubloxGPS定位模塊進行通訊。SoundSensor語音采集模塊,用于采集佩戴者的語音信號,輸入-3.3~3.3V的模擬電壓信號到模數(shù)轉(zhuǎn)換模塊。模數(shù)轉(zhuǎn)換模塊,即A/D轉(zhuǎn)換器,或簡稱ADC,將語音采集模塊輸出的語音模擬信號轉(zhuǎn)變?yōu)閿?shù)字信號并輸送到Exynos4412主控模塊。該模數(shù)轉(zhuǎn)換模塊與Exynos4412主控模塊之間采用GPIO口進行通訊。GSMSIM900A通訊模塊,使用GSMSIM900A通訊模塊,通過移動GPRS(通用分組無線服務技術)網(wǎng)絡,實現(xiàn)預警信息的傳輸功能,將定位與現(xiàn)場錄音信息及時傳送到綁定的手機端。該模塊與Exynos4412主控模塊相連接,受主控模塊控制。需要啟動時,主控模塊通過串口將啟動命令和發(fā)生內(nèi)容傳輸?shù)酵ㄓ嵞K。ubloxGPS定位模塊,搭載陶瓷和SMA雙天線,啟動時將定位信息通過TTL接口與主控模塊串口進行通信。下面對各個模塊進行具體的闡述:(1)Exynos4412主控模塊,1.1電源接口,與+5V蓄電池正極相連,1.2~1.9GPIO接口分別與接口3.8~3.15相連,1.10~1.16GPIO接口(懸空),1.17電源接口,與系統(tǒng)GND端,1.18TXD串口與4.3相連,1.19RXD串口與4.3相連,1.20TXD串口與5.3相連,1.21RXD串口與5.2相連,1.22~1.32GPIO接口(懸空),如圖1所示;(2)SoundSensor語音采集模塊,2.1與+5V蓄電池正極相連,2.2模擬信號輸出接口,與3.2相連,2.3數(shù)字信號TTL接口(懸空),2.4電源接口,與系統(tǒng)GND端,如圖2所示;(3)模數(shù)轉(zhuǎn)換模塊,3.1電源接口,與+5V蓄電池正極相連,3.2模擬信號接口與2.2相連,3.3~3.5模擬信號接口(懸空,3.6VREF接口與+5V蓄電池正極相連,3.7電源接口,與系統(tǒng)GND端,3.8~3.15TTL接口分別與接口1.2~1.9相連,3.16電源接口,與+5V蓄電池正極相連,如圖3所示;(4)GSMSIM900A通訊模塊,4.1電源接口,與+5V蓄電池正極相連,4.2TXD串口接口與1.19相連,4.3RXD串口接口與1.18相連,4.4電源接口,與系統(tǒng)GND端,4.5電源接口,與+3.3V蓄電池正極相連4.6電源接口,與+3.3V蓄電池負極相連,如圖4所示;(5)ubloxGPS定位模塊,5.1電源接口,與+5V蓄電池正極相連,(5-2)5.2TXD串口接口與1.20相連,5.3RXD串口接口與1.21相連,5.4PSS接口(懸空),5.5電源接口,與系統(tǒng)GND端,如圖5所示。如圖6所示,本實施例基于異常情緒語音辨識的可穿戴智能安全設備的控制方法,包括下述步驟:步驟①語音信號采集:通過SoundSensor語音采集模塊,實時采集周邊語音信號,該模塊在正常工作狀態(tài)下,將同步輸出-3.3~3.3V的模擬信號,然而主控模塊無法直接讀取模擬信號,需要通過模數(shù)轉(zhuǎn)換模塊將模擬信號轉(zhuǎn)換為對應的數(shù)字信號,此處根據(jù)CCITT提出的G711標準,選取8KHz采樣率、16bit量化,并將轉(zhuǎn)換后的數(shù)字信號通過GPIO口讀取到Exynos4412主控模塊的緩沖區(qū)。步驟②語音信號預處理;Exynos4412主控模塊對存儲到緩沖區(qū)的數(shù)字語音信號首先進行短時加窗處理,幀長為25毫秒,窗口形狀選擇為漢明窗ω(m):ω(m)=0.54-0.46cos[2πmN-1]0≤m≤N-10others---(1)]]>式(1)中m為當前采樣點,N為一幀的采樣點總個數(shù);由于采樣頻率選為8KHz,幀長為25毫秒,因此N=200。將Exynos4412主控模塊緩沖區(qū)存儲的語音數(shù)據(jù)與漢明窗函數(shù)相乘完成加窗操作。步驟③語音端點檢測;在完成信號的加窗后,進行語音端點檢測確定輸入語音流的各個語音段的起點和終點,利用平均短時過零率和短時能量即可做到這一點。整個語音信號的端點可以分為四段:靜音、過渡段、語音段、結(jié)束,程序中使用一個變量status來表示所處的狀態(tài)。在靜音段,如果能量或過零率超越了低門限,就開始標記起始點,并進入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確定是否處于真正的語音段,因此只要兩個參數(shù)都回到低門限以下,就確定當前狀態(tài)恢復到了靜音狀態(tài)。當過渡段中檢測到能量和過零率高于門限值時,則表明已進入語音段;當在語音段中能量和過零率再次回到門限之下,確認該段語音進入結(jié)束段,并標記結(jié)束點;設置合適的閾值,在環(huán)境噪聲較小的情況下,通過不斷對語音信號進行上述四個狀態(tài)的判斷,能夠檢測出每一個字的起始點和結(jié)束點,并能統(tǒng)計一段時間內(nèi)語音信號包含的字數(shù)。步驟④語音信號的特征提??;特征一:發(fā)音速率;發(fā)音速率表示說話的快慢,采用說話時每一個字所持續(xù)的平均時間作為發(fā)音速率,即v=xT---(2)]]>式(2)中v表示發(fā)音速率,T表示語音段的持續(xù)時間,x表示語音段中的字數(shù);當佩戴者處于異常情緒(驚恐、憤怒)狀態(tài)下時,此時的語速與平靜狀態(tài)時不同,有明顯的語速加快的現(xiàn)象。語速是一個較為有效的特征。特征二:短時能量;加窗分幀處理后得到的第n幀語音信號xn(m):xn(m)=ω(m)x(n+m)0≤m≤N-1(3)式(3)中,n=1,2,3…;N為幀長,ω(m)為窗函數(shù),設第n幀語音信號xn(m)的短時能量En:En=Σm=0N-1xn2(m)---(4)]]>特征三:短時過零率短時過零率表示在單位時間內(nèi)語音信號由正到負或由負到正變化的次數(shù)。符號函數(shù)如下所示sgn[x]=1x≥0-1x<0---(5)]]>則計算語音信號短時過率的公式如下:Zn=Σm=0N-1|sgn[xn(m)]-sgn[xn(m-1)]+δ|---(6)]]>式(6)中δ為設定的門限值,使得對于干擾信號具有一定的魯棒性。特征四:基音頻率對于語音信號xn(m)定義其自相關函數(shù)Rn(k)為:Rn(k)=Σm=0N-k-1xn(m)xn(m+k)---(7)]]>式(7)中N表示幀長,Rn(k)不為零的范圍為k=(-N+1)~(N-1),且為偶函數(shù)。濁音信號的自相關函數(shù)在基音周期的整數(shù)倍置上出現(xiàn)峰值;檢測峰值的位置就可以提取基音周期值。為克服共振峰特性造成的影響造成的影響,可通過“中心削波”非線性變換,除去語音信號低幅度部分包含的大量的共振峰信息,保留高幅度基音信息。yn(m)=xn(m)-CLxn(m)>CL0|xn(m)|≤CLxn(m)+CLxn(m)<-CL---(8)]]>式(8)中削波電平CL取65%,由于計算自相關函數(shù)的運算量很大,為減少乘法運算次數(shù),對中心削波進行修正,采樣三電平中心削波的方法y′n(m)=1xn(m)>CL0|xn(m)|≤CL-1xn(m)<-CL---(9)]]>經(jīng)過上述三電平削波的處理,大多數(shù)次要的峰被濾除掉了,只保留了明顯周期性的峰。將y'n(m)替換式(7)中的xn(m),計算并求出相鄰兩個波峰間的采樣點數(shù)M,估算的基音周期就是間隔采樣點對應的時間TR=Mfn---(10)]]>式(10)中fn為采樣頻率,從而計算出基音頻率f:f=1TR---(11)]]>步驟⑤情緒語音辨識階段;將語速、短時平均能量、短時過零率和基音頻率作為異常情緒語音辨識的特征參數(shù),因此本方法的特征參數(shù)向量的維度D等于4;高斯混合模型的概率密度函數(shù)是由M個高斯密度函數(shù)加權(quán)求和所得,如下所示:P(X/λ)=Σi=1Mwibi(X)---(12)]]>使(12)中X是已提取的4維特征向量;bi(X)是子分布;wi是混合權(quán)重。每個子分布是D維的聯(lián)合高斯概率分布,可由以下公式計算bi(X)=1(2π)D/2|Σi|1/2exp{-12(X-μi)tΣi-1(X-μi)}---(13)]]>式(13)中μi是均值向量,∑i是協(xié)方差矩陣。而完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重組成,表示為λ={wi,μi,∑i},i=1,…,M(14)參數(shù)重估過程較為復雜,無需在本設備上重復進行,只需將已經(jīng)訓練好的正常和異常情緒語音對應的模型λ和λ'存儲在設備中,直接進行模型匹配即可,后驗概率最大值對應的模型表示為:i*=argmaxiP(X/λi)---(15)]]>式(15)中X表示維度為4的特征序列,這樣就可以確定該段語音信號是否屬于異常情緒語音信號。若判別結(jié)果為正常情緒,返回步驟①,若判別結(jié)果為異常情緒進入步驟⑥。步驟⑥定位預警階段Exynos4412主控模塊通過串口向ubloxGPS定位模塊下達啟動命令,定位模塊獲取GPS定位信息(經(jīng)緯度坐標),將定位信息通過串口傳回Exynos4412主控模塊緩沖區(qū)。Exynos4412主控模塊在接收到ubloxGPS定位模塊傳回的完整定位信息后,將控制命令和需發(fā)送的定位信息發(fā)送至GSMSIM900A通訊模塊緩沖區(qū),當緩沖區(qū)收到完整的定位信息后,通過GPRS網(wǎng)絡將定位信息發(fā)送至綁定手機端,完成預警工作。上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應為等效的置換方式,都包含在本發(fā)明的保護范圍之內(nèi)。當前第1頁1 2 3