一種基于lstm型rnn的中國手語識別方法
【專利摘要】本發(fā)明涉及一種基于LSTM型RNN的中國手語識別方法,首先根據(jù)中國手語的特點,采集若干組手語特征形成訓(xùn)練數(shù)據(jù);對訓(xùn)練數(shù)據(jù)進行特征提取,根據(jù)特征向量對應(yīng)的語言學(xué)意義進行標注;訓(xùn)練數(shù)據(jù)作為LSTM型RNN的輸入進行模型的訓(xùn)練,獲取最佳網(wǎng)絡(luò)模型參數(shù),作為最終識別模型;將訓(xùn)練出來的模型用于待識別手語識別,計算輸出層概率最大的字符序列,作為解碼的結(jié)果,再將其轉(zhuǎn)化為相應(yīng)的聲學(xué)序列,所述的結(jié)果即為識別的手語特征。本發(fā)明能夠鏈接到較遠狀態(tài),防止后面狀態(tài)對前面狀態(tài)感知能力的下降,提高了對中國連續(xù)手語中識別的準確率。
【專利說明】
-種基于LSTM型RNN的中國手語識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及中國手語識別領(lǐng)域,特別是一種基于LSTM型的中國手語識別方法。
【背景技術(shù)】
[0002] 手語識別是一種能夠?qū)⑹终Z信息轉(zhuǎn)化成語音、文字并進行朗讀或顯示的技術(shù)。在 手語識別領(lǐng)域,由于連續(xù)手語識別是手語識別的關(guān)鍵問題,因此,如何提高手語識別的效果 關(guān)鍵在于如何提高連續(xù)手語識別的準確性。
[0003] 現(xiàn)有技術(shù)中,連續(xù)手語識別的方法主要有W下幾種:
[0004] 第一種,連續(xù)手語識別通常采用HMM化idden Markov Model,隱馬爾科夫),運種方 法在模型中引入了前一狀態(tài)對當(dāng)前狀態(tài)的影響,通過計算輸出概率最大化來實現(xiàn)手語的識 別;
[0005] 第二種,連續(xù)手語識別也可采用CRF(Conditional RandomField,條件隨機場),運 種方法在模型中引入上下文信息,需要對訓(xùn)練特征進行左右擴展,并引入人工特征模板進 行訓(xùn)練。傳統(tǒng)方法中首先分別訓(xùn)練得到手語模型,然后采用逐級預(yù)測的方式對待識別手語 進行識別。
[0006] 但是,上述兩種方法主要存在W下問題:
[0007] 1、雖然采用左右擴展的方式能在一定程度引入前后狀態(tài)的關(guān)聯(lián),但是為了減小模 型規(guī)模和復(fù)雜度,擴展大小十分有限,因此鏈接前后的距離不能太遠,造成當(dāng)前時刻對前面 狀態(tài)感知能力的下降;
[000引2、采用逐級預(yù)測的方式,若發(fā)生錯誤會造成錯誤的傳遞,影響最后的效果。
【發(fā)明內(nèi)容】
[0009] 有鑒于此,本發(fā)明的目的是提出一種基于LSTM型R順的中國手語識別方法,克服了 當(dāng)前時間節(jié)點對前面狀態(tài)感知能力的下降。
[0010] 本發(fā)明采用W下方案實現(xiàn):一種基于LSTM型RNN的中國手語識別方法,包括W下步 驟:
[0011] 步驟Si:采集多組手語特征;
[0012] 步驟S2:根據(jù)采集到的手語特征所對應(yīng)的語言意義進行標注,形成訓(xùn)練數(shù)據(jù),其 中,所述訓(xùn)練數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;
[001引步驟S3:所述的訓(xùn)練數(shù)據(jù)作為LSTM型RNN的輸入進行模型的訓(xùn)練,獲取最佳網(wǎng)絡(luò)模 型參數(shù),作為最終識別模型;
[0014] 步驟S4:對待識別手語進行特征采集,并將其作為LSTM型R順模型的輸入,計算輸 出層概率最大的字符序列,并將其作為解碼的結(jié)果,所述的結(jié)果即為識別的手語特征。
[0015] 進一步地,所述步驟Sl具體為:采用數(shù)據(jù)手套獲取手語特征,所述的數(shù)據(jù)手套包括 彎曲度傳感器、九軸傳感器W及用于數(shù)據(jù)處理、存儲、發(fā)送的微型處理器。
[0016] 進一步地,所述步驟S2具體為:將采集到的手語特征按特征所要表達的語言意義 進行分類,對每種語言意義的特征隨機選取一定數(shù)量的特征組,并對所述一定數(shù)量的特征 組分別進行語言意義的標注,組織上采用矩陣的形式,形成訓(xùn)練數(shù)據(jù)。
[0017] 進一步地,所述步驟S3具體為:根據(jù)手語特征構(gòu)建相對應(yīng)的LSTM型歴N的模型,在 時間軸上進行顯式建模,將步驟S2中的訓(xùn)練數(shù)據(jù)的手語特征、標注作為輸入對所建立的 LSTM型RNN進行訓(xùn)練,W獲取不同手語特征對應(yīng)的權(quán)重參數(shù)。
[0018] 進一步地,所述LSTM型RNN包括輸入層、輸出層和隱藏層;所述輸入層的輸入作為 手語特征值序列化化...Ot,輸出層的輸出是輸入所對應(yīng)的聲學(xué)序列SiS2. . .Sl,隱藏層包括 多個LSTM單元;其中,T為時間步數(shù),L為聲學(xué)序列長度。
[0019] 進一步地,所述的LSTM單元包括3個控制口,所述3個控制口用于控制輸入、輸出及 跨越時間步驟自身的內(nèi)部狀態(tài)=者之間的關(guān)聯(lián)。
[0020] 進一步地,所述步驟S4具體為:使用步驟S3生成的LSTM型R順最終識別模型對所述 待識別手語進行識別,首先對所述的待識別手語的特征進行進一步抽象,提取特征向量,并 根據(jù)所述LSTM型RN飾莫型對待識別手語進行預(yù)測,進一步進行聲學(xué)預(yù)測,W生成聲學(xué)參數(shù)序 列,W及根據(jù)所述聲學(xué)參數(shù)生成語音合成結(jié)果。
[0021] 進一步地,步驟S4中所述LSTM型RNN采用下式控制信息的流動:
[0022] It = 〇(WixIt+Wi恤t-1+WicCt-i+bi);
[0023] Ft = 〇(WFxIt+WFmmt-l+WFcCt-l+bF);
[0024] Ct = Ft 曰 ct-1+It 曰 g(WcxIt+Wcmmt-i+bc);
[0025] Ot =日(W日山+W日恤t-1+W日eCt-1+bo);
[0026] Hit = Ot 曰 h(Ct);
[0027] 其中,給定輸入序列I = ( Ii,l2... It),T為輸入序列的長度,It為t時刻的輸入,W為 權(quán)重矩陣,b為偏置矩陣,I、F、c、0、m分別代表輸入I噸Ut GateJoi^get Gate、0utput Gate、 狀態(tài)單元W及LSTM結(jié)構(gòu)的輸出;
[0028] 見中.O九二個控制口的激勵函數(shù),公式為:
[0029]
[0030] 丑:中,h為獻杰的繳勵巧數(shù),公式為:
[0031]
[0032] 與現(xiàn)有巧術(shù)相比,本發(fā)明有W下有益效果:本申請從待預(yù)測手語中提取特征向量, 通過事先訓(xùn)練好的LSTM型RNN對特征向量進行語言學(xué)預(yù)測,W生成語言學(xué)參數(shù)序列,生成模 塊根據(jù)語言學(xué)參數(shù)序列生成語音合成效果,即通過使用LSTM型腳N網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練,提升了連 續(xù)手語識別的準確性,從而提高了識別準確率。
【附圖說明】
[0033] 圖1為本發(fā)明方法流程示意圖。
[0034] 圖2為本發(fā)明實施例LSTM型RNN基本原理示意圖。
【具體實施方式】
[0035] 下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。
[0036] 如圖1所示,本實施例提供了一種基于LSTM型R順的中國手語識別方法,包括W下 步驟:
[0037] 步驟Sl:采集多組手語特征;
[0038] 步驟S2:根據(jù)采集到的手語特征所對應(yīng)的語言意義進行標注,形成訓(xùn)練數(shù)據(jù),其 中,所述訓(xùn)練數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;
[0039] 步驟S3:所述的訓(xùn)練數(shù)據(jù)作為LSTM型腳N的輸入進行模型的訓(xùn)練,獲取最佳網(wǎng)絡(luò)模 型參數(shù),作為最終識別模型;
[0040] 步驟S4:對待識別手語進行特征采集,并將其作為LSTM型R順模型的輸入,計算輸 出層概率最大的字符序列,并將其作為解碼的結(jié)果,所述的結(jié)果即為識別的手語特征。
[0041] 在本實施例中,所述步驟Sl具體為:采用數(shù)據(jù)手套獲取手語特征,所述的數(shù)據(jù)手套 包括彎曲度傳感器、九軸傳感器W及用于數(shù)據(jù)處理、存儲、發(fā)送的微型處理器。
[0042] 在本實施例中,所述步驟S2具體為:將采集到的手語特征按特征所要表達的語言 意義進行分類,對每種語言意義的特征隨機選取一定數(shù)量的特征組,并對所述一定數(shù)量的 特征組分別進行語言意義的標注,組織上采用矩陣的形式,形成訓(xùn)練數(shù)據(jù)。
[0043] 在本實施例中,所述步驟S3具體為:根據(jù)手語特征構(gòu)建相對應(yīng)的LSTM型R順的模 型,在時間軸上進行顯式建模,將步驟S2中的訓(xùn)練數(shù)據(jù)的手語特征、標注作為輸入對所建立 的LSTM型RNN進行訓(xùn)練,W獲取不同手語特征對應(yīng)的權(quán)重參數(shù)。
[0044] 在本實施例中,所述LSTM型R順包括輸入層、輸出層和隱藏層;所述輸入層的輸入 作為手語特征值序列化化...Ot,輸出層的輸出是輸入所對應(yīng)的聲學(xué)序列SiS2. . .Sl,隱藏層 包括多個LSTM單元;其中,T為時間步數(shù),L為聲學(xué)序列長度。
[0045] 在本實施例中,所述的LSTM單元包括3個控制口,所述3個控制口用于控制輸入、輸 出及跨越時間步驟自身的內(nèi)部狀態(tài)=者之間的關(guān)聯(lián)。
[0046] 在本實施例中,所述步驟S4具體為:使用步驟S3生成的LSTM型R順最終識別模型對 所述待識別手語進行識別,首先對所述的待識別手語的特征進行進一步抽象,提取特征向 量,并根據(jù)所述LSTM型Rr^N模型對待識別手語進行預(yù)測,進一步進行聲學(xué)預(yù)測,W生成聲學(xué) 參數(shù)序列,W及根據(jù)所述聲學(xué)參數(shù)生成語音合成結(jié)果。
[0047] 如圖2所示,LSTM型RNN的基本思想是通過I叩Ut Gate、0utput Gate和Forget Gate運些不同類型的們結(jié)構(gòu)來控制信息的流動。在本實施例中,步驟S4中所述LSTM型R順采 用下式控制信息的流動:
[004引 [0049]
[(K)加]
[0化1 ]
[0化2]
[005;3]其中,給定輸入序列I = (Ii,l2. ..It),T為輸入序列的長度,It為t時刻的輸入,W為 權(quán)重矩陣,b為偏置矩陣,I、F、c、0、m分別代表輸入I噸Ut GateJoi^get Gate、0utput Gate、 狀態(tài)單元W及LSTM結(jié)構(gòu)的輸出;
[0054]其中,〇為^個控制口的激勵函數(shù),公式為:
[0化5]
[0056]其中,h為狀態(tài)的激勵函數(shù),公式為:
[0化7]
[005引通過結(jié)構(gòu)和計算公式可W看出LSTM型R順具有緩存歷史的狀態(tài)信息的作用,并且 通過口結(jié)構(gòu)對歷史信息進行維護,從而擴展了大范圍上下文信息對當(dāng)前信息的影響,提升 了連續(xù)手語識別的準確率。
[0059] W上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等變化與 修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。
【主權(quán)項】
1. 一種基于LSTM型RNN的中國手語識別方法,其特征在于:包括以下步驟: 步驟S1:采集多組手語特征; 步驟S2:根據(jù)采集到的手語特征所對應(yīng)的語言意義進行標注,形成訓(xùn)練數(shù)據(jù),其中,所 述訓(xùn)練數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練; 步驟S3:所述的訓(xùn)練數(shù)據(jù)作為LSTM型RNN的輸入進行模型的訓(xùn)練,獲取最佳網(wǎng)絡(luò)模型參 數(shù),作為最終識別模型; 步驟S4:對待識別手語進行特征采集,并將其作為LSTM型RNN模型的輸入,計算輸出層 概率最大的字符序列,并將其作為解碼的結(jié)果,所述的結(jié)果即為識別的手語特征。2. 根據(jù)權(quán)利要求1所述的一種基于LSTM型RNN的中國手語識別方法,其特征在于:所述 步驟S1具體為:采用數(shù)據(jù)手套獲取手語特征,所述的數(shù)據(jù)手套包括彎曲度傳感器、九軸傳感 器以及用于數(shù)據(jù)處理、存儲、發(fā)送的微型處理器。3. 根據(jù)權(quán)利要求1所述的一種基于LSTM型RNN的中國手語識別方法,其特征在于:所述 步驟S2具體為:將采集到的手語特征按特征所要表達的語言意義進行分類,對每種語言意 義的特征隨機選取一定數(shù)量的特征組,并對所述一定數(shù)量的特征組分別進行語言意義的標 注,組織上采用矩陣的形式,形成訓(xùn)練數(shù)據(jù)。4. 根據(jù)權(quán)利要求1所述的一種基于LSTM型RNN的中國手語識別方法,其特征在于:所述 步驟S3具體為:根據(jù)手語特征構(gòu)建相對應(yīng)的LSTM型RNN的模型,在時間軸上進行顯式建模, 將步驟S2中的訓(xùn)練數(shù)據(jù)的手語特征、標注作為輸入對所建立的LSTM型RNN進行訓(xùn)練,以獲取 不同手語特征對應(yīng)的權(quán)重參數(shù)。5. 根據(jù)權(quán)利要求4所述的一種基于LSTM型RNN的中國手語識別方法,其特征在于:所述 LSTM型RNN包括輸入層、輸出層和隱藏層;所述輸入層的輸入作為手語特征值序列 (h0 2…Οτ,輸出層的輸出是輸入所對應(yīng)的聲學(xué)序列SiS2…SL,隱藏層包括多個LSTM單元;其 中,T為時間步數(shù),L為聲學(xué)序列長度。6. 根據(jù)權(quán)利要求5所述的一種基于LSTM型RNN的中國手語識別方法,其特征在于:所述 的LSTM單元包括3個控制門,所述3個控制門用于控制輸入、輸出及跨越時間步驟自身的內(nèi) 部狀態(tài)三者之間的關(guān)聯(lián)。7. 根據(jù)權(quán)利要求1所述的一種基于LSTM型RNN的中國手語識別方法,其特征在于:所述 步驟S4具體為:使用步驟S3生成的LSTM型RNN最終識別模型對所述待識別手語進行識別,首 先對所述的待識別手語的特征進行進一步抽象,提取特征向量,并根據(jù)所述LSTM型RNN模型 對待識別手語進行預(yù)測,進一步進行聲學(xué)預(yù)測,以生成聲學(xué)參數(shù)序列,以及根據(jù)所述聲學(xué)參 數(shù)生成語音合成結(jié)果。8. 根據(jù)權(quán)利要求1所述的一種基于LSTM型RNN的中國手語識別方法,其特征在于:步驟 S4中所述LSTM型RNN采用下式控制信息的流動: It = 〇(ffixIt+ffimmt-i+fficCt-i+bi); Ft = 〇(ffFxIt+ffFmmt-l+ffFcCt-l+bF); Ct - Ft 〇 Ct-1+It 〇 g(WcxIt+WcmIIlt-1+bc); Ot = 〇(ff〇xIt+ff〇mint-i+ff〇cCt-i+bo); mt = 0t ? h(Ct); 其中,給定輸入序列I = (Ii,I2. ..It),T為輸入序列的長度,It為t時刻的輸入,W為權(quán)重 矩陣,b為偏置矩陣,I、F、c、0、m分別代表輸入Input Gate、Forget Gate、Output Gate、狀態(tài) 單元以及LSTM結(jié)構(gòu)的輸出; 其中,σ為三個控制門的激勵函數(shù),公式為:其中,h為狀態(tài)的激勵函數(shù),公式為:
【文檔編號】G06K9/00GK105956529SQ201610260747
【公開日】2016年9月21日
【申請日】2016年4月25日
【發(fā)明人】程樹英, 林鵬程, 吳麗君
【申請人】福州大學(xué)