一種基于HTK的連續(xù)語音識別系統(tǒng)的制作方法

文檔序號：12128353閱讀：537來源：國知局

本發(fā)明屬于語音識別技術領域，特別是涉及一種基于HTK的連續(xù)語音識別系統(tǒng)。

背景技術：

根據(jù)識別任務的不同，語音識別具體可分為孤立詞的語音識別和連續(xù)語音識別。它們的區(qū)別是：前者中待識別的語句中每個詞之間都有明顯的間隔，而后者中待識別語句中詞與詞之間已沒有明顯的間隔，每個詞的發(fā)音都會受相鄰詞發(fā)音的影響而產(chǎn)生一些變化。因此，人們也嘗試了各種方法來克服連續(xù)語音識別帶來的挑戰(zhàn)。HTK工具已成為在語音識別領域進行研究和實驗的好助手。

技術實現(xiàn)要素：

本發(fā)明的目的在于提供一種基于HTK的連續(xù)語音識別系統(tǒng)，通過該系統(tǒng)的應用，解決了現(xiàn)有的問題。

為解決上述技術問題，本發(fā)明是通過以下技術方案實現(xiàn)的：

本發(fā)明為一種基于HTK的連續(xù)語音識別系統(tǒng)，包括依次連接的測試數(shù)據(jù)輸入模塊、特征提取模塊、搜索與解碼模塊、識別結果輸出模塊，所述搜索與解碼模塊的輸入端連接有聲學模型和識別網(wǎng)絡模塊；所述聲學模型的輸入端連接有訓練數(shù)據(jù)輸入模塊；所述識別網(wǎng)絡模塊的輸入端連接有詞典、任務語法和語言模型。

進一步地，所述測試數(shù)據(jù)輸入模塊用于獲取語音信號并將其傳至特征提取模塊；所述特征提取模塊用于對語音信號進行預處理并從中提取出語音特征，其中語音特征包括LPCC、MFCC；所述聲學模型就是用來描述發(fā)音過程的一個數(shù)學模型，該數(shù)學模型為隱馬爾可夫模型，通過事先準備好的一些訓練數(shù)據(jù)，對建立的聲學模型進行訓練，從而得到這些模型的所有參數(shù)；所述識別網(wǎng)絡模塊就是在識別的過程中用來搜索最佳詞序列的一個搜索空間；所述搜索與解碼模塊是語音識別系統(tǒng)中的核心部分，它用于在識別網(wǎng)絡中搜索一條最優(yōu)路徑并使得該路徑上的模型產(chǎn)生未知聲音序列的概率為最大，繼而把該路徑上的模型對應的單詞作為識別的結果輸出。

本發(fā)明具有以下有益效果：

本發(fā)明通過測試數(shù)據(jù)輸入模塊接收語音信號，繼而通過特征提取模塊對語音信號進行預處理及語音特征的提取，便于后續(xù)模塊對語音信號進一步分析處理；通過聲學模型對訓練數(shù)據(jù)進行訓練，從而獲得相應的模型參數(shù)，再通過識別網(wǎng)絡模塊提供最佳詞序列的路徑，然后通過搜索與解碼模塊根據(jù)最佳詞序列途徑進行搜索，并根據(jù)搜索結果與聲學模型輸出的模型參數(shù)進行匹配，繼而輸出識別結果，從而有利于提高語音識別的效率和準確度。

當然，實施本發(fā)明的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。

附圖說明

為了更清楚地說明本發(fā)明實施例的技術方案，下面將對實施例描述所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明的一種基于HTK的連續(xù)語音識別系統(tǒng)的組成框圖。

具體實施方式

下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例，都屬于本發(fā)明保護的范圍。

請參閱圖1所示，本發(fā)明為一種基于HTK的連續(xù)語音識別系統(tǒng)，包括依次連接的測試數(shù)據(jù)輸入模塊、特征提取模塊、搜索與解碼模塊、識別結果輸出模塊，搜索與解碼模塊的輸入端連接有聲學模型和識別網(wǎng)絡模塊，聲學模型的輸入端連接有訓練數(shù)據(jù)輸入模塊，識別網(wǎng)絡模塊的輸入端連接有詞典、任務語法和語言模型。

其中，測試數(shù)據(jù)輸入模塊用于獲取語音信號并將其傳至特征提取模塊；特征提取模塊用于對語音信號進行預處理并從中提取出語音特征，其中語音特征包括LPCC、MFCC；聲學模型就是用來描述發(fā)音過程的一個數(shù)學模型，該數(shù)學模型為隱馬爾可夫模型，通過事先準備好的一些訓練數(shù)據(jù)，對建立的聲學模型進行訓練，從而得到這些模型的所有參數(shù)，以便在后面識別的時候使用；識別網(wǎng)絡就是在識別的過程中用來搜索最佳詞序列的一個搜索空間；搜索解碼是語音識別系統(tǒng)中的核心部分，它用于在識別網(wǎng)絡中搜索一條最優(yōu)路徑并使得該路徑上的模型產(chǎn)生未知聲音序列的概率為最大，繼而把該路徑上的模型對應的單詞作為識別的結果輸出。

在本說明書的描述中，參考術語“一個實施例”、“示例”、“具體示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中，對上述術語的示意性表述不一定指的是相同的實施例或示例。而且，描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。

最后需要說明的是，以上公開的本發(fā)明優(yōu)選實施例只是用于幫助闡述本發(fā)明。優(yōu)選實施例并沒有詳盡敘述所有的細節(jié)，也不限制該發(fā)明僅為所述的具體實施方式。顯然，根據(jù)本說明書的內容，可作很多的修改和變化。本說明書選取并具體描述這些實施例，是為了更好地解釋本發(fā)明的原理和實際應用，從而使所屬技術領域技術人員能很好地理解和利用本發(fā)明。本發(fā)明僅受權利要求書及其全部范圍和等效物的限制。

完整全部詳細技術資料下載

當前第1頁1 2 3