本發(fā)明涉及的是一種應用于語音識別(SpeechRecognition)的準確、高效的置信度(ConfidenceMeasure,CM)技術,具體是一種基于音素同步解碼(PhoneSynchronousDecoding),詞圖和混淆網絡(LatticeandConfusionNetwork),輔助搜索空間(AuxiliarySearchSpace)的語音識別實現(xiàn)方法及系統(tǒng)。
背景技術:
:語音識別是一種讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹娜斯ぶ悄芗夹g?,F(xiàn)有語音識別技術仍無法做到完全正確,置信度是一種用于評判語音識別系統(tǒng)自身語音識別結果可靠性的技術,一般以識別結果可靠度或識別結果概率值給出。傳統(tǒng)語音識別置信度技術主要包括基于預測特征的置信度(PredictorfeaturesbasedCM)和基于后驗概率的置信度(PosteriorbasedCM),其缺點包括:多預測特征之間往往在統(tǒng)計意義上不互相獨立;結合多種預測特征需要額外的模型訓練環(huán)節(jié),不利于多場景應用;語音識別系統(tǒng)旨在得到正確的文本,而難以給出準確的后驗概率,其具體體現(xiàn)在:基于填充物的后驗概率方法既不準確同時需要額外的模型訓練環(huán)節(jié);而基于詞圖的后驗概率方法則對搜索空間建構不全。技術實現(xiàn)要素:本發(fā)明針對現(xiàn)有技術對解碼空間的競爭結果表征不完整,導致得到的置信度不準確;依賴于對語音識別各模型進行重訓練,增加大量額外處理;構建解碼空間的過程計算量大,導致語音識別耗時增加,不利于改善用戶體驗等等缺陷,提出一種基于置信度的語音識別實現(xiàn)方法及系統(tǒng),一方面可以對語音識別的結果給出正確的置信度,從而改善語音識別用戶體驗,另一方面可以顯著減少語音識別置信度算法的計算和內存資源消耗。本發(fā)明是通過以下技術方案實現(xiàn)的:本發(fā)明涉及一種基于置信度的語音識別實現(xiàn)方法,根據(jù)從用戶語音進行音素同步解碼的語音識別得到解碼信息生成音素同步的詞圖聲學信息結構,并基于詞圖聲學信息結構生成混淆網絡從而構建語音識別候選結果之間的競爭關系,即混淆網絡競爭概率;同時使用基于語言模型的輔助搜索網絡構建語音識別的全搜索空間,計算得到完整無損失的全搜索空間概率,并結合音素同步解碼的語音識別,對生成的全搜索空間進行搜索過程記錄,并由整個搜索歷史進行路徑回溯,從而得到全搜索空間概率;最后通過對混淆網絡競爭概率和全搜索空間概率進行融合得到語音識別的判決結果。技術效果與現(xiàn)有技術相比,本發(fā)明提出的基于音素同步解碼(PhoneSynchronousDecoding),詞圖和混淆網絡(LatticeandConfusionNetwork),輔助搜索空間(AuxiliarySearchSpace)的語音識別置信度技術,相比較傳統(tǒng)方法主要有以下不同:系統(tǒng)構建各環(huán)節(jié)傳統(tǒng)方法本發(fā)明優(yōu)點比較詞圖生成逐幀同步解碼音素同步解碼更準確,高效的生成過程全搜索空間構建基于填充物或詞圖輔助搜索空間建構搜索空間更全面置信度計算詞圖后驗概率混淆網絡競爭概率語音識別信息更準確附圖說明圖1為本發(fā)明系統(tǒng)示意圖;圖2為實施例概率輸出示意圖;圖中:縱軸為概率值,橫軸為時間軸;圖3為本發(fā)明音素同步解碼的語音識別示意圖;圖4為音素同步的詞圖聲學信息結構示意圖;圖5為混淆網絡示意圖;圖6為輔助搜索網絡的生成過程示意圖;圖7為置信度判別示意圖。具體實施方式如圖1所示,本實施例系統(tǒng)包括:語音識別模塊、詞圖生成模塊、混淆網絡競爭概率計算模塊、全搜索空間概率計算模塊以及置信度判別器,其中:音素同步解碼的語音識別模塊與詞圖生成模塊相連并傳輸完整的音素信息,音素同步的詞圖生成模塊構建緊致且無信息損失的聲學信息表征并輸出至混淆網絡競爭概率計算模塊,混淆網絡競爭概率計算模塊提取出音素詞圖內的競爭關系概率,全搜索空間概率計算模塊根據(jù)音素信息構建輔助搜索空間,并進一步得到全搜索空間概率,置信度判別器根據(jù)全搜索空間概率和競爭關系概率融合得到置信度作為最終評價識別是否正確的判決結果。本發(fā)明涉及上述系統(tǒng)的語音識別方法,包括以下步驟:步驟1)如圖3所示,對用戶語音進行逐幀音素同步解碼的語音識別,得到解碼信息,具體包括:1.1通過建立連續(xù)時序分類模型,使得聲學建模更加精確;1.2使用神經網絡對連接時序分類模型進行建模,其概率輸出分布具有單峰突出的特點;1.3語音識別解碼時,只在出現(xiàn)非空白模型輸出時才進行語言學網絡搜索并得到解碼信息,否則直接丟棄當前幀聲學信息,轉到下一幀。步驟2)根據(jù)步驟1所得到的解碼信息,生成音素同步的詞圖聲學信息結構,具體包括:2.1連接時序分類模型在輸入每一幀聲學特征信息后,得出每一幀中的音素的出現(xiàn)概率。所述的聲學特征信息來自多種語音識別物理特征。2.2若當前聲學特征信息為非空模型幀,則使用適配聲學建模信息的加權有限狀態(tài)機對該幀聲學特征信息進行語言學信息搜索,得到音素信息并以加權有限狀態(tài)機形式存儲,否則丟棄該幀;最終經合并處理得到詞圖聲學信息結構。如圖4所示,所述的詞圖聲學信息結構為基于加權有限狀態(tài)機進行表示的音素同步詞圖,該詞圖不需要經過剪枝即為非常緊致的音素級詞圖,相比現(xiàn)有技術壓縮比為80%;音素同步詞圖通過將兩個不同模型輸出時刻之間的所有候選的聲學輸出模型進行兩兩相連,例如:該結構相比傳統(tǒng)方法(逐幀同步解碼),理論搜索空間減小90%;理論搜索網絡壓縮比接近100:1。使得最終得到的語音識別信息準確、高效。步驟3)基于詞圖聲學信息結構生成混淆網絡,用于構建語音識別候選結果之間的競爭關系,即混淆網絡的競爭概率,具體包括:3.1根據(jù)最優(yōu)解碼路徑生成混淆網絡聚類旗幟;3.2對各候選詞的時間邊界和音素信息進行聚類,并合并到混淆網絡聚類旗幟上;3.3在聚類后得到的混淆網絡上重新抽取最優(yōu)解碼路徑。如圖5所示,所述的競爭關系通過混淆網絡表示(比如HAVE和MOVE),并基于語音識別候選結果之間的競爭關系得到競爭概率,相比傳統(tǒng)詞圖后驗概率更加準確。步驟4)使用基于多元語言模型構建的輔助搜索網絡構建語音識別的全搜索空間,計算得到解碼過程的全搜索空間概率,具體如圖6所示,包括:4.1基于多元語言模型構建發(fā)音全搜索空間;4.2通過發(fā)音全搜索空間自身的上下文信息構建帶上下文信息的發(fā)音搜索空間;4.3結合聲學模型相應的搜索狀態(tài)建模,得到最終的全搜索空間;4.2結合音素信息在全搜索空間上進行搜索,得到候選競爭單元;4.3通過候選競爭單元的語音識別解碼概率,計算得到全搜索空間概率。所述的多元語言模型以音素、字或詞為單位。如圖6所示,所述的輔助搜索網絡模擬發(fā)音全搜索空間。步驟5)結合音素同步解碼的語音識別,對生成的全搜索空間進行搜索過程記錄,并由整個搜索歷史進行路徑回溯,從而得到全搜索空間概率;并通過置信度判別器結合語音識別結果、混淆網絡競爭概率和全搜索空間概率,得到最終的語音識別結果。如圖7所示,所述的置信度判別器的判別過程具體為:5.1對混淆網絡競爭概率和全搜索空間概率進行插值方式的融合,得到置信度;5.2當融合后的置信度小于閾值時,以語音識別模塊輸出作為語音識別結果;否則識別失敗,要求用戶重新輸入。上述具體實施可由本領域技術人員在不背離本發(fā)明原理和宗旨的前提下以不同的方式對其進行局部調整,本發(fā)明的保護范圍以權利要求書為準且不由上述具體實施所限,在其范圍內的各個實現(xiàn)方案均受本發(fā)明之約束。當前第1頁1 2 3