數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法及裝置,所述方法包括:獲取進行數(shù)字語音錄制所得到的訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括若干語音段;進行所述訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取,得到每一語音段對應(yīng)的特征序列;根據(jù)所述特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素,進行以單音素聲學(xué)模型為起始的漸進訓(xùn)練得到聲學(xué)模型;獲取語言模型,通過所述語言模型和訓(xùn)練得到的聲學(xué)模型構(gòu)建語音解碼網(wǎng)絡(luò),所述語言模型是通過對所述訓(xùn)練數(shù)據(jù)中數(shù)字的匹配關(guān)系建模得到的。本發(fā)明的數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法及裝置能夠有效地提高數(shù)字語音的識別準(zhǔn)確率。
【專利說明】
數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu) 建方法及裝置。
【背景技術(shù)】
[0002] 數(shù)字語音識別中,現(xiàn)有的語音解碼網(wǎng)絡(luò)可以分為兩類:一類是采用孤立詞識別技 術(shù)對語音中的數(shù)字進行識別;另一類是采用通用的連續(xù)語音識別技術(shù)對語音中的數(shù)字進行 識別。
[0003] 基于孤立詞識別技術(shù)的數(shù)字語音識別中,要求輸入數(shù)字語音時數(shù)字之間具有明顯 的間隔,如果是連續(xù)的數(shù)字輸入則可能導(dǎo)致無法識別或者識別錯誤,大大降低了數(shù)字語音 的識別準(zhǔn)確率,因此,基于孤立詞識別技術(shù)的數(shù)字語音識別具有明顯的局限性。
[0004]由此,通用的連續(xù)語音識別技術(shù)更經(jīng)常地被用于數(shù)字語音的識別。然而該技術(shù)的 識別對象除了包含數(shù)字,還包含有其他的語言內(nèi)容,這就導(dǎo)致該技術(shù)所使用的聲學(xué)模型和 語言模型都過于復(fù)雜,識別速度較為緩慢,而且容易將數(shù)字錯誤識別成其他多音字,使得數(shù) 字語音的識別準(zhǔn)確率不夠高。即使將該技術(shù)中的語言模型的識別對象限制在0到9的十個數(shù) 字以內(nèi),識別準(zhǔn)確率的提高仍然有限。
[0005] 可見,針對數(shù)字語音識別所構(gòu)建的語音解碼網(wǎng)絡(luò)仍存在識別準(zhǔn)確率不高的問題。
【發(fā)明內(nèi)容】
[0006] 基于此,有必要提供一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法,所述方法能 夠提高數(shù)字語音的識別準(zhǔn)確率。
[0007] 此外,還有必要提供一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建裝置,所述裝置夠 提高數(shù)字語音的識別準(zhǔn)確率。
[0008] 為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案為:
[0009] -種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法,包括:獲取進行數(shù)字語音錄制所 得到的訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括若干語音段;進行所述訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取,得 到每一語音段對應(yīng)的特征序列;根據(jù)所述特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素,進行以 單音素聲學(xué)模型為起始的漸進訓(xùn)練得到聲學(xué)模型;獲取語言模型,通過所述語言模型和訓(xùn) 練得到的聲學(xué)模型構(gòu)建語音解碼網(wǎng)絡(luò),所述語言模型是通過對所述訓(xùn)練數(shù)據(jù)中數(shù)字的匹配 關(guān)系建模得到的。
[0010] -種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建裝置,包括:訓(xùn)練數(shù)據(jù)獲取模塊,用于獲 取進行數(shù)字語音錄制所得到的訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括若干語音段;聲學(xué)特征提取模 塊,用于進行所述訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取,得到每一語音段對應(yīng)的特征序列;聲學(xué)模型 獲取模塊,用于根據(jù)所述特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素,進行以單音素聲學(xué)模型 為起始的漸進訓(xùn)練得到聲學(xué)模型;語言模型獲取模塊,用于獲取語言模型,通過所述語言模 型和訓(xùn)練得到的聲學(xué)模型構(gòu)建語音解碼網(wǎng)絡(luò),所述語言模型是通過對所述訓(xùn)練數(shù)據(jù)中數(shù)字 的匹配關(guān)系建模得到的。
[0011] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0012] 通過對訓(xùn)練數(shù)據(jù)中的每一語音段進行聲學(xué)特征提取,以將得到的每一語音段對應(yīng) 的特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素,進行以單音素聲學(xué)模型為起始的漸進訓(xùn)練得到 聲學(xué)模型,再與獲取的語言模型構(gòu)建語音解碼網(wǎng)絡(luò)。也就是說,通過語音解碼網(wǎng)絡(luò)中的聲學(xué) 模型采用漸進訓(xùn)練方式獲取,即聲學(xué)模型以單音素聲學(xué)模型為訓(xùn)練基礎(chǔ),再進行二次訓(xùn)練 得到,從而加快了聲學(xué)模型訓(xùn)練的收斂速度,有效地提高了數(shù)字語音的識別準(zhǔn)確率。
【附圖說明】
[0013] 圖1為孤立識別技術(shù)的方法流程圖;
[0014] 圖2為通用的連續(xù)語音識別技術(shù)的方法流程圖;
[0015] 圖3為一實施例的數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法的流程圖;
[0016] 圖4為圖3中進行訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取的方法流程圖;
[0017] 圖5為圖3中進行單音素聲學(xué)模型為起始的漸進訓(xùn)練得到聲學(xué)模型的方法流程圖;
[0018] 圖6為圖5中根據(jù)單音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲學(xué)建模和 訓(xùn)練的方法流程圖;
[0019] 圖7為對單音素建立GMM-HMM模型的示意圖;
[0020] 圖8為圖5中根據(jù)三音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲學(xué)建模和 訓(xùn)練的方法流程圖;
[0021] 圖9為一實施例的數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建裝置的結(jié)構(gòu)框圖;
[0022]圖10為圖9中聲學(xué)特征提取模塊的結(jié)構(gòu)框圖;
[0023]圖11為圖9中聲學(xué)模型獲取模塊的結(jié)構(gòu)框圖;
[0024]圖12為圖11中第一模型獲取單元的結(jié)構(gòu)框圖;
[0025] 圖13為圖11中第二模型獲取單元的結(jié)構(gòu)框圖;
[0026] 圖14為本發(fā)明實施例所提供的一種服務(wù)器的結(jié)構(gòu)示意圖。
【具體實施方式】
[0027] 體現(xiàn)本發(fā)明特征與優(yōu)點的典型實施方式將在以下的說明中詳細敘述。應(yīng)理解的是 本發(fā)明能夠在不同的實施方式上具有各種的變化,其皆不脫離本發(fā)明的范圍,且其中的說 明及圖示在本質(zhì)上是當(dāng)作說明之用,而非用以限制本發(fā)明。
[0028] 如前所述,數(shù)字語音識別中,現(xiàn)有的語音解碼網(wǎng)絡(luò)可以分為兩類:一類是孤立詞識 別技術(shù),一類是通用的連續(xù)語音識別技術(shù)。
[0029] -方面,如圖1所示,基于孤立詞識別技術(shù)所構(gòu)建的語音解碼網(wǎng)絡(luò)中,首先通過端 點檢測判斷輸入的數(shù)字語音的起始位置,然后將確認起始位置的數(shù)字語音分割成多個有效 的語音段,再對每一個語音段進行特征提取,最后采用動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法匹配提取得到的特征與預(yù)置的數(shù)字語音模板之間的語音相似性,最相似 的數(shù)字語音模板所對應(yīng)的數(shù)字即為數(shù)字語音的識別結(jié)果。
[0030] 另一方面,如圖2所示,基于通用的連續(xù)語音識別技術(shù)所構(gòu)建的語音解碼網(wǎng)絡(luò)中, 首先對輸入的數(shù)字語音進行聲學(xué)特征提取,然后通過解碼器中的聲學(xué)模型將提取到的聲學(xué) 特征識別成數(shù)字序列,再通過解碼器中的語言模型對該數(shù)字序列出現(xiàn)的概率進行統(tǒng)計,出 現(xiàn)概率最大的數(shù)字序列即為數(shù)字語音的識別結(jié)果。
[0031] 然而,上述兩類語音解碼網(wǎng)絡(luò)均存在識別準(zhǔn)確率不高的問題,為了提高數(shù)字語音 的識別準(zhǔn)確率,特提出了一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法。該方法可依賴于 計算機程序,該計算機程序?qū)⑦\行在具備運算能力的計算機設(shè)備之上。
[0032] 請參閱圖3,在一實施例中,一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法,包括 以下步驟:
[0033]步驟110,獲取進行數(shù)字語音錄制所得到的訓(xùn)練數(shù)據(jù)。
[0034] 為了構(gòu)建語音解碼網(wǎng)絡(luò),需要得到聲學(xué)模型和語言模型,訓(xùn)練數(shù)據(jù)則是聲學(xué)模型 和語言模型的訓(xùn)練基礎(chǔ)。通過獲取大量的訓(xùn)練數(shù)據(jù)才能夠得到較為準(zhǔn)確的聲學(xué)模型和語言 模型,從而通過該聲學(xué)模型和語言模型構(gòu)建出適用于數(shù)字語音識別的語音解碼網(wǎng)絡(luò),進而 更加準(zhǔn)確地進行數(shù)字語音的識別。
[0035] 本實施例中,訓(xùn)練數(shù)據(jù)包括若干語音段,并且每一語音段均包含有多個數(shù)字對應(yīng) 的語音。
[0036] 進一步的,訓(xùn)練數(shù)據(jù)所包含的若干語音段是由多個人錄制所得到的,并且由多個 人錄制所得到的若干語音段將對應(yīng)于同一個人,以保證模型訓(xùn)練過程中同一個人具有不同 頻率、不同內(nèi)容、不同信道的語音段。
[0037] 進一步優(yōu)選的,訓(xùn)練數(shù)據(jù)中每一語音段只包含數(shù)字和噪聲,并且訓(xùn)練數(shù)據(jù)中存在 的數(shù)字能夠構(gòu)成〇~9這十個數(shù)字的集合。
[0038] 將包含了數(shù)字和噪聲的語音段準(zhǔn)備為可供數(shù)字語音識別中語音解碼網(wǎng)絡(luò)使用的 訓(xùn)練數(shù)據(jù),確保所構(gòu)建的語音解碼網(wǎng)絡(luò)能夠抵抗噪聲等非有效語音的干擾,在數(shù)字語音的 識別過程中最大程度地避免受到噪聲的干擾,不僅適用于安靜環(huán)境下的數(shù)字語音識別,同 時對于低信噪比的語音也具有較好的識別效果,能夠提高室外環(huán)境下的識別和抗噪能力。
[0039] 每一語音段都是通過錄制數(shù)字語音得到的,其可以是在模型訓(xùn)練過程中根據(jù)實際 應(yīng)用場景的需要實時錄制得到,也可以是模型訓(xùn)練過程之前就預(yù)先錄制好的。
[0040] 步驟130,進行訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取,得到每一語音段對應(yīng)的特征序列。
[0041] 由于聲學(xué)模型是通過對語音的聲學(xué)特征分布進行建模和訓(xùn)練得到的,故而,在進 行聲學(xué)模型建模和訓(xùn)練之前,需要由訓(xùn)練數(shù)據(jù)進行聲學(xué)特征的提取。
[0042] 進一步地,由于訓(xùn)練數(shù)據(jù)包含若干語音段,聲學(xué)特征的提取將是針對訓(xùn)練數(shù)據(jù)中 的每一語音段分別進行的,以此得到每一語音段對應(yīng)的特征序列。
[0043] 其中,所提取的聲學(xué)特征包括梅爾頻率倒譜系數(shù)特征和基頻特征,以適用于數(shù)字 語音識別。
[0044] 步驟150,根據(jù)特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素,進行以單音素聲學(xué)模型為 起始的漸進訓(xùn)練得到聲學(xué)模型。
[0045] 根據(jù)數(shù)字的漢語發(fā)音特點,數(shù)字的聲母和韻母被定義為音素。根據(jù)音素的上下文 關(guān)系,音素又可以細分為單音素、雙音素和三音素。其中,單音素在使用中僅考慮其本身,不 考慮其前后音素的上下文關(guān)系。雙音素是在使用中僅考慮其前面音素或者后面音素的上下 文關(guān)系。三音素則是在使用中同時考慮其前面音素和后面音素的上下文關(guān)系。
[0046] 基于此,作為建模單元的音素可以是單音素,也可以是雙音素或者三音素。相應(yīng) 地,以單音素為建模單元構(gòu)建得到的是單音素聲學(xué)模型,以雙音素為建模單元構(gòu)建得到的 是雙音素聲學(xué)模型,以三音素為建模單元構(gòu)建得到的則是三音素聲學(xué)模型。
[0047] 在獲取到每一語音段對應(yīng)的特征序列之后,即得到了模型訓(xùn)練的輸入。也就是說, 以訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素為建模單元,通過對每一語音段對應(yīng)的特征序列進行聲學(xué)建 模和訓(xùn)練,即能夠得到反映語音的聲學(xué)特征分布的聲學(xué)模型。
[0048] 漸進訓(xùn)練是對每一語音段對應(yīng)的特征序列進行多次聲學(xué)建模和訓(xùn)練的漸進過程。 簡單地說,漸進訓(xùn)練的過程就是以初始模型為起始進行訓(xùn)練,得到較為精準(zhǔn)的中間模型,再 對中間模型進行訓(xùn)練,得到更為精準(zhǔn)的最終模型。本實施例中,聲學(xué)模型則是在單音素聲學(xué) 模型的基礎(chǔ)上進行漸進訓(xùn)練得到的,使得通過漸進訓(xùn)練得到的聲學(xué)模型更加地準(zhǔn)確,從而 有利于提高數(shù)字語音的識別準(zhǔn)確率。
[0049] 值得一提的是,由于作為建模單元的音素可以不同,因此,漸進訓(xùn)練的起始并非僅 限于單音素聲學(xué)模型。
[0050] 步驟170,獲取語言模型,通過語言模型和訓(xùn)練得到的聲學(xué)模型構(gòu)建語音解碼網(wǎng) 絡(luò)。
[0051] 語言模型是通過對語言本身的概率分布進行建模和訓(xùn)練得到的。在實際應(yīng)用中, 語音中數(shù)字的出現(xiàn)通常都具備一定的規(guī)律,例如,語音撥號中的電話號碼所對應(yīng)的數(shù)字是 按照某種規(guī)則編排的,或者,活體聲紋驗證中隨機碼所對應(yīng)的數(shù)字也是從預(yù)定義列表中采 樣抽取的。
[0052] 因此,面向數(shù)字語音識別時,語言本身的概率分布將通過對訓(xùn)練數(shù)據(jù)中數(shù)字的匹 配關(guān)系來反映。本實施例中,語言模型通過對訓(xùn)練數(shù)據(jù)中數(shù)字的匹配關(guān)系建模得到的。例 如,訓(xùn)練數(shù)據(jù)中數(shù)字和電話號碼編排規(guī)則的匹配關(guān)系,或者,訓(xùn)練數(shù)據(jù)中數(shù)字和隨機碼的預(yù) 定義列表的匹配關(guān)系??梢岳斫猓ヅ潢P(guān)系越近則反映訓(xùn)練數(shù)據(jù)中數(shù)字出現(xiàn)的概率越大,進 而語言模型可以通過對電話號碼編排規(guī)則進行建模和訓(xùn)練得到,或者,通過對隨機碼的預(yù) 定義列表進行建模和訓(xùn)練得到。
[0053] 在獲取到聲學(xué)模型和語言模型之后,即構(gòu)建形成實現(xiàn)數(shù)字語音識別的語音解碼網(wǎng) 絡(luò),由于所形成的語音解碼網(wǎng)絡(luò)中聲學(xué)模型是以單音素聲學(xué)模型為起始進行漸進訓(xùn)練而得 到的,因此能夠適用于連續(xù)的數(shù)字語音的識別,從而有效地提高了數(shù)字語音的識別準(zhǔn)確率。
[0054] 在一實施例中,步驟110之前,如上的方法還包括以下步驟:
[0055] 按照預(yù)置條件進行包含多個數(shù)字的語音段錄制得到訓(xùn)練數(shù)據(jù)。
[0056] 可以理解,即使是同一個人錄制包含相同數(shù)字的語音段,也可能有所區(qū)別,基于 此,本實施例中,通過按照預(yù)置條件進行包含多個數(shù)字的語音段的錄制,將有利于提高數(shù)字 語音的識別準(zhǔn)確率。
[0057] 預(yù)置條件包括通過多種設(shè)備進行錄制,或者,通過多個人進行錄制,以此模擬同一 個人在不同情境下的錄制條件。換句話說,根據(jù)不同的預(yù)置條件(例如,多種設(shè)備或者多個 人)錄制的多個語音段,在模型訓(xùn)練過程中均對應(yīng)于同一人,以此保證模型訓(xùn)練過程中同一 個人具有不同頻率、不同內(nèi)容、不同信道的語音段,進而保證了后續(xù)使用訓(xùn)練數(shù)據(jù)進行模型 訓(xùn)練的準(zhǔn)確性。
[0058] 具體地,用以進行錄制的多種設(shè)備可以是智能手機、計算機、平板電腦等攜帶有麥 克風(fēng)的設(shè)備。由于各種設(shè)備所攜帶的麥克風(fēng)的固有頻段可能不同,因此,通過多種設(shè)備進行 的錄制,將使得訓(xùn)練數(shù)據(jù)中各語音段具有不同的信道。
[0059] 由于每個人的語速、語調(diào)均存在差異,例如,年輕女子的語速較快,年長男子的語 速較慢,因此,通過多個人錄制語音段,將使得訓(xùn)練數(shù)據(jù)中各語音段具有不同的頻率。
[0060] 進一步地,預(yù)置條件還可以包括通過多種環(huán)境進行錄制,例如,環(huán)境可以是安靜的 教室或者嘈雜的街道,從中將獲取到標(biāo)注有噪聲的訓(xùn)練數(shù)據(jù),以提高對低信噪比的數(shù)字語 音的識別準(zhǔn)確率,提高數(shù)字語音識別中的抗噪能力。
[0061 ] 請參閱圖4,在一實施例中,步驟130包括以下步驟:
[0062] 步驟131,按照預(yù)設(shè)長度分割每一語音段,得到每一語音段包含的若干語音幀。
[0063] 由于每一語音段的長度可能各不相同,如此將不便于聲學(xué)特征的提取,因此,在進 行訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取之前,需要先將每一語音段均分割為相同長度的語音幀。 [0064]本實施例中,預(yù)設(shè)長度為25ms,每一語音段將被分割成多個25ms的語音幀。進一步 地,在優(yōu)選的實施例中,相鄰的兩個語音幀之間還存在重疊,例如,兩個25ms的語音幀之間 存在著10ms的重疊,以此提高按照預(yù)設(shè)長度進行語音段分割的可靠性。
[0065] 步驟133,語音段包含的若干語音幀中,對每一語音幀提取梅爾頻率倒譜系數(shù)特征 和基頻特征,并通過梅爾頻率倒譜系數(shù)特征和基頻特征計算得到每一語音幀的特征向量, 進而組成每一語音段對應(yīng)的特征序列。
[0066] 可以理解,語音幀是以波形的形式存在的,波形在時域上幾乎沒有描述能力,因此 必須對波形進行變換。
[0067] 本實施例中,語音段中在得到每一語音幀之后,通過對語音幀進行梅爾頻率倒譜 系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)特征和基頻(PITCH)特征提取及計算, 把每一語音幀對應(yīng)的波形轉(zhuǎn)換為多維向量,即得到每一語音幀的特征向量,進而通過該特 征向量組成的特征序列描述語音段所包含的數(shù)字。
[0068] 語音幀的特征向量的獲取過程具體如下:
[0069] 1)對第i個語音段中第t個語音幀進行MFCC特征和PITCH特征提取,得到〇;' ;
[0070] 2)以第i個語音段為單位,計算其包含的所有T個語音幀對應(yīng)的MFCC特征和PITCH 特征的均值=去土〇/ ; Ζ ":丨
[0071] 3)計算第t個語音幀對應(yīng)的MFCC特征和PITCH特征與2)中均值的差值: 茂=〇丨,通過引入該差值作為額外特征,提高聲學(xué)特征提取的可靠性;
[0072] 4)將第t個語音幀對應(yīng)的MFCC特征和PITCH特征與其前后相鄰的多個語音幀對應(yīng) 的MFCC特征和PITCH特征進行拼接,以進一步提高聲學(xué)特征提取的可靠性,以4個為例,由此 得到拼接形成的高維特征:漢' =[α 4,3 2,在_\α
[0073] 5)采用線性判別式分析技術(shù)(Linear Discriminant Analysis,LDA)對高維特征 進行降維,以在保證提取可靠性的同時降低計算的復(fù)雜度,由此得到降維后的特征: Oi = LDA{0:);
[0074] 6)對降維后的特征作最大線性似然變換(Maxi mum Linear Likelihood Transformation,MLLT),以去除特征之間的相關(guān)性,從而最終得到第t個語音幀的特征向 量(漢);
[0075] 7)將各語音幀的特征向量組合,即可得到訓(xùn)練數(shù)據(jù)中各語音段所對應(yīng)的特征序 列。
[0076] 請參閱圖5,在一實施例中,步驟150包括以下步驟:
[0077]步驟151,由訓(xùn)練數(shù)據(jù)的語音段中獲取數(shù)字對應(yīng)的單音素。
[0078] 如前所述,單音素在使用中僅考慮其本身,而不需要考慮其前后音素的上下文關(guān) 系。舉例來說,數(shù)字1對應(yīng)的單音素包括Y(聲母)、1(韻母)。
[0079] 具體地,在訓(xùn)練數(shù)據(jù)中,由存在于各語音段中的多個數(shù)字構(gòu)建得到單音素集合,由 此單音素集合即可獲取得到數(shù)字對應(yīng)的單音素。例如,訓(xùn)練數(shù)據(jù)的其中一語音段包含數(shù)字1 和數(shù)字3,則由數(shù)字1和數(shù)字3構(gòu)建的單音素集合為{Y、I、S、AN}。
[0080] 步驟153,根據(jù)該單音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲學(xué)建模和 訓(xùn)練,得到該單音素對應(yīng)的單音素聲學(xué)模型。
[0081] 狀態(tài)是比音素更基本的語音單位,在數(shù)字語音識別過程中,若干狀態(tài)組合成一個 音素,若干音素組合成一個數(shù)字。相應(yīng)地,聲學(xué)模型的獲取過程即是使得每一個數(shù)字對應(yīng)于 不同的狀態(tài)。
[0082] 進一步地,如前所述,訓(xùn)練數(shù)據(jù)中包含多個數(shù)字的語音段首先被分割形成若干語 音幀,并以此進行聲學(xué)特征提取得出語音段所對應(yīng)的特征序列?;诖?,聲學(xué)建模即是建立 狀態(tài)與特征序列之間的對應(yīng)關(guān)系,模型訓(xùn)練則是使建立的對應(yīng)關(guān)系達到最優(yōu),從而在數(shù)字 語音識別過程中,根據(jù)狀態(tài)與特征序列的最優(yōu)的對應(yīng)關(guān)系,為輸入的數(shù)字語音中提取得到 的特征序列對應(yīng)不同的狀態(tài),再通過狀態(tài)組合成音素、音素組合成數(shù)字,得到數(shù)字語音的識 別結(jié)果。
[0083] 本實施例中,將根據(jù)單音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲學(xué)建模 和訓(xùn)練,通過聲學(xué)建模將建立狀態(tài)與特征序列之間的對應(yīng)關(guān)系,再通過模型訓(xùn)練將使得所 建立的對應(yīng)關(guān)系最優(yōu)。換而言之,通過該單音素對應(yīng)的單音素聲學(xué)模型,即能夠知道語音段 所對應(yīng)的特征序列對應(yīng)的狀態(tài)。
[0084] 步驟155,通過單音素聲學(xué)模型對訓(xùn)練數(shù)據(jù)進行識別,得到二次訓(xùn)練數(shù)據(jù)。
[0085] 由于通過單音素聲學(xué)模型能夠知道語音段所對應(yīng)的特征序列對應(yīng)的狀態(tài),因此, 通過單音素聲學(xué)模型對訓(xùn)練數(shù)據(jù)進行識別,將使得訓(xùn)練數(shù)據(jù)中語音段所對應(yīng)的特征序列被 識別成對應(yīng)的最優(yōu)的狀態(tài)序列。
[0086] 進一步地,通過該最優(yōu)的狀態(tài)序列得到對應(yīng)的單音素集合,從而使得最優(yōu)的狀態(tài) 序列被轉(zhuǎn)化為對應(yīng)的數(shù)字序列,該數(shù)字序列即為二次訓(xùn)練數(shù)據(jù)。
[0087]可以理解,該二次訓(xùn)練數(shù)據(jù)是經(jīng)過一次未包含語言模型的語音解碼網(wǎng)絡(luò)解碼得到 的識別結(jié)果。通過該二次訓(xùn)練數(shù)據(jù)將獲知語音段中每一個數(shù)字的具體時間位置,有利于為 后續(xù)的模型訓(xùn)練提供良好的基礎(chǔ),從而有利于加快模型訓(xùn)練的收斂速度。
[0088]步驟157,根據(jù)二次訓(xùn)練數(shù)據(jù)中語音段包含的數(shù)字獲取對應(yīng)的三音素。
[0089]本實施例中,三音素是基于二次訓(xùn)練數(shù)據(jù)中語音段包含的數(shù)字構(gòu)建的三音素集合 中獲取的。例如,訓(xùn)練數(shù)據(jù)的其中一語音段包含數(shù)字1和數(shù)字3,則由數(shù)字1和數(shù)字3構(gòu)建的三 音素集合為{311^+¥-1、¥+1-5、1+5415+4^5114。其中,511^表示靜音,表示數(shù)字1的前面沒 有其他數(shù)字,Y表示數(shù)字1的聲母,I表示數(shù)字1的韻母,"+"表示連接前面音素,表示連接 后面音素??梢钥闯觯羲丶鲜窃趩我羲丶系幕A(chǔ)上考慮了上下文關(guān)系構(gòu)建形成的。
[0090] 步驟159,根據(jù)該三音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲學(xué)建模和 訓(xùn)練,得到該三音素對應(yīng)的聲學(xué)模型。
[0091] 如前所述,只要知道數(shù)字所對應(yīng)的究竟是哪個狀態(tài),識別結(jié)果也就能夠得到了。
[0092] 基于此,本實施例中,將根據(jù)三音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行 聲學(xué)建模和訓(xùn)練,通過聲學(xué)建模將建立狀態(tài)與特征序列之間的對應(yīng)關(guān)系,再通過模型訓(xùn)練 將使得所建立的對應(yīng)關(guān)系最優(yōu)。換而言之,通過該三音素對應(yīng)的聲學(xué)模型,即能夠知道每一 語音幀所對應(yīng)的狀態(tài)。
[0093]通過如上所述的方法,三音素對應(yīng)的聲學(xué)模型是在單音素聲學(xué)模型的基礎(chǔ)上漸進 訓(xùn)練得到的,有利于提高數(shù)字語音的識別準(zhǔn)確率,此外,由于三音素在使用中考慮了上下文 關(guān)系,也將使得三音素對應(yīng)的聲學(xué)模型相較于單音素聲學(xué)模型能夠更加準(zhǔn)確地進行數(shù)字語 首的識別。
[0094]請參閱圖6,在一實施例中,步驟153包括以下步驟:
[0095]步驟1531,通過HMM模型對單音素進行狀態(tài)描述,得到單音素劃分的狀態(tài)。
[0096] 本實施例中,HMM(Hidden Markov Model,隱馬爾可夫模型)模型使用3狀態(tài)帶自環(huán) 無跨越的拓撲結(jié)構(gòu)。簡單地說,通過HMM模型對單音素進行狀態(tài)描述,每個單音素被劃分成3 個狀態(tài),如圖7所示。其中,每一個狀態(tài)Suizl,2,3只能跳轉(zhuǎn)至其自身以及相鄰的下一狀態(tài) Si+1,aij表示由狀態(tài)Si跳轉(zhuǎn)至狀態(tài)Sj的轉(zhuǎn)移概率。
[0097]步驟1533,基于單音素劃分的狀態(tài),采用GMM模型對特征序列建模得到GMM-HMM模 型。
[0098]請繼續(xù)參閱圖7,在得到單音素劃分的3個狀態(tài)之后,對于每一個狀態(tài),將采用GMM (Gaussian Mixture Model,混合高斯模型)模型按照下述公式(1)對特征序列建模,以得到 能夠反映語音的聲學(xué)特征分布的GMM-HMM模型:
[0100] 其中,& 表示特征序列屬于狀態(tài)Si的概率,〇表示特征序列,D表示特征序列〇的 維數(shù),Μ表示混合高斯的個數(shù),λη表示第m個混合高斯的權(quán)重,εη表示協(xié)方差,μ η表示均值向 量。
[01 01 ]步驟1535,對GMM-HMM模型的參數(shù)進行隨機初始化,并利用最大期望算法對隨機初 始化得到的參數(shù)進行迭代優(yōu)化。
[0102] 由公式(1)中可知,只要知道4…),就知道了特征序列屬于對應(yīng)狀態(tài)的概率??梢?理解,特征序列屬于某個狀態(tài)的概率最大,則表示其所對應(yīng)的語音幀屬于該狀態(tài)。
[0103] 因此,為了知道\(〃),就需要通過模型訓(xùn)練來獲知公式(1)中未知參數(shù)的確定值, 即GMM-HMM模型的參數(shù)的確定值。其中,GMM-HMM模型的參數(shù)包括混合高斯的權(quán)重、協(xié)方差 £m、均值向量和轉(zhuǎn)移概率ai j等。
[0104] 進一步地,本實施例中,通過最大期望算法(Expectat ion Maximi zat ion A1 gori thm,EM算法)對GMM-HMM模型的參數(shù)進行迭代優(yōu)化,以求取GMM-HMM模型的參數(shù)的確 定值。同時,在參數(shù)迭代優(yōu)化的初始階段,對GMM-HMM模型的參數(shù)進行了隨機初始化,以通過 隨機初始化的參數(shù)作為模型訓(xùn)練的初始的當(dāng)前訓(xùn)練參數(shù)。
[0105] 具體地,最大期望算法的每一次迭代優(yōu)化過程包括如下兩個步驟:
[0106] E步驟,基于當(dāng)前訓(xùn)練參數(shù)計算未知參數(shù)的概率分布;
[0107] Μ步驟,計算能夠使未知參數(shù)的概率分布期望最大時所對應(yīng)的參數(shù),該參數(shù)即為優(yōu) 化后的參數(shù)。
[0108] 當(dāng)優(yōu)化后的參數(shù)無法使GMM-HMM模型收斂,則以優(yōu)化后的參數(shù)進行當(dāng)前訓(xùn)練參數(shù) 的更新,繼續(xù)迭代優(yōu)化的過程。
[0109] 當(dāng)優(yōu)化后的參數(shù)使GMM-HMM模型收斂,則判定GMM-HMM模型為單音素聲學(xué)模型。
[0110] 請繼續(xù)參閱圖7,在得到單音素聲學(xué)模型之后,通過單音素聲學(xué)模型將能夠反映出 輸入的數(shù)字語音的聲學(xué)特征的分布,使得語音幀能夠獲知對應(yīng)的狀態(tài),進而通過狀態(tài)組合 成音素、音素組合成數(shù)字。
[0111] 請參閱圖8,在一實施例中,步驟159包括以下步驟:
[0112] 步驟1591,通過ΗΜΜ模型對三音素進行狀態(tài)描述,得到三音素劃分的狀態(tài)。
[0113] 步驟1593,基于三音素劃分的狀態(tài),采用GMM模型對特征序列建模得到GMM-HMM模 型。
[0114] 步驟1595,根據(jù)二次訓(xùn)練數(shù)據(jù)對GMM-HMM模型的參數(shù)進行參數(shù)估計,并利用最大期 望算法對參數(shù)估計得到的參數(shù)進行迭代優(yōu)化。
[0115] 當(dāng)優(yōu)化后的參數(shù)使GMM-HMM模型收斂,則判定GMM-HMM模型為聲學(xué)模型。
[0116] 上述聲學(xué)模型的構(gòu)建過程與之前單音素聲學(xué)模型的構(gòu)建過程類似,在此不再贅 述。
[0117] 二者的區(qū)別在于聲學(xué)模型在參數(shù)迭代優(yōu)化的初始階段并沒有對未知參數(shù)進行隨 機初始化,而是基于二次訓(xùn)練數(shù)據(jù)對未知參數(shù)進行了參數(shù)估計,以通過參數(shù)估計得到的參 數(shù)作為模型訓(xùn)練的初始的當(dāng)前訓(xùn)練參數(shù)。
[0118] 具體地,由于二次訓(xùn)練數(shù)據(jù)即為最優(yōu)的狀態(tài)序列轉(zhuǎn)化形成的數(shù)字序列,根據(jù)該已 知的數(shù)字序列對未知參數(shù)進行最大似然估計,即可得出未知參數(shù)相應(yīng)的確定值。
[0119] 在參數(shù)迭代優(yōu)化的初始階段,以該參數(shù)估計得到的參數(shù)作為當(dāng)前訓(xùn)練參數(shù),進行 未知參數(shù)的概率分布的計算,并對該未知參數(shù)的概率分布進行期望最大化求解,直至GMM-HMM模型收斂,即得到三音素對應(yīng)的聲學(xué)模型。
[0120] 通過如上所述的方法,有效地提高了模型訓(xùn)練的收斂速度,從而提高了數(shù)字語音 的識別準(zhǔn)確率,識別準(zhǔn)確率提升至少10%。
[0121] 請參閱圖9,在一實施例中,一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建裝置,包括:
[0122] 其中,訓(xùn)練數(shù)據(jù)獲取模塊410,用于獲取進行數(shù)字語音錄制所得到的訓(xùn)練數(shù)據(jù),訓(xùn) 練數(shù)據(jù)包括若干語音段。
[0123] 聲學(xué)特征提取模塊430,用于進行訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取,得到每一語音段對 應(yīng)的特征序列。
[0124] 聲學(xué)模型獲取模塊450,用于根據(jù)特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字,進行以單音素聲學(xué) 模型為起始的漸進訓(xùn)練得到聲學(xué)模型。
[0125] 語言模型獲取模塊470,用于獲取語言模型,通過語言模型和訓(xùn)練得到的聲學(xué)模型 構(gòu)建語音解碼網(wǎng)絡(luò),語言模型是通過對訓(xùn)練數(shù)據(jù)中數(shù)字的匹配關(guān)系建模得到的。
[0126] 在一實施例中,如上所述的裝置還包括:
[0127] 訓(xùn)練數(shù)據(jù)錄制模塊,用于按照預(yù)置條件進行包含多個數(shù)字的語音段錄制得到訓(xùn)練 數(shù)據(jù),訓(xùn)練數(shù)據(jù)中多個語音段均對應(yīng)于同一個人。
[0128] 請參閱圖10,在一實施例中,聲學(xué)特征提取模塊430包括:
[0129] 其中,語音段分割單元431,用于按照預(yù)設(shè)長度分割每一語音段,得到每一語音段 包含的若干語音幀。
[0130] 特征序列生成單元433,用于語音段包含的若干語音幀中,對每一語音幀提取梅爾 頻率倒譜系數(shù)特征和基頻特征,并通過梅爾頻率倒譜系數(shù)特征和基頻特征計算得到每一語 音幀的特征向量,進而組成每一語音段對應(yīng)的特征序列。
[0131 ]請參閱圖11,在一實施例中,聲學(xué)模型獲取模塊450包括:
[0132] 其中,單音素獲取單元451,用于由訓(xùn)練數(shù)據(jù)的語音段中獲取數(shù)字對應(yīng)的單音素。
[0133] 第一模型獲取單元453,用于根據(jù)該單音素劃分的狀態(tài)對語音段所對應(yīng)的特征序 列進行聲學(xué)建模和訓(xùn)練,得到該單音素對應(yīng)的單音素聲學(xué)模型。
[0134] 識別單元455,用于通過單音素聲學(xué)模型對訓(xùn)練數(shù)據(jù)進行識別,得到二次訓(xùn)練數(shù) 據(jù)。
[0135] 三音素獲取單元457,用于根據(jù)二次訓(xùn)練數(shù)據(jù)中語音段包含的數(shù)字獲取對應(yīng)的三 音素。
[0136] 第二模型獲取單元459,用于根據(jù)該三音素劃分的狀態(tài)對語音段所對應(yīng)的特征序 列進行聲學(xué)建模和訓(xùn)練,得到該三音素對應(yīng)的聲學(xué)模型。
[0137] 請參閱圖12,在一實施例中,第一模型獲取單元453包括:
[0138] 其中,第一狀態(tài)描述單元4531,用于通過HMM模型對單音素進行狀態(tài)描述,得到單 音素劃分的狀態(tài)。
[0139] 第一建模單元4533,用于基于單音素劃分的狀態(tài),采用GMM模型對特征序列建模得 到GMM-HMM 模型。
[0140] 第一訓(xùn)練單元4535,用于對GMM-HMM模型的參數(shù)進行隨機初始化,并利用最大期望 算法對隨機初始化得到的參數(shù)進行迭代優(yōu)化。
[0141 ]當(dāng)優(yōu)化后的參數(shù)使GMM-HMM模型收斂,則判定GMM-HMM模型為單音素聲學(xué)模型。
[0142] 請參閱圖13,在一實施例中,第二模型獲取單元459包括:
[0143] 其中,第二狀態(tài)描述單元4591,用于通過HMM模型對三音素進行狀態(tài)描述,得到三 音素劃分的狀態(tài)。
[0144] 第二建模單元4593,用于基于三音素劃分的狀態(tài),采用GMM模型對特征序列建模得 到GMM-HMM 模型。
[0145] 第二訓(xùn)練單元4595,用于根據(jù)二次訓(xùn)練數(shù)據(jù)對GMM-HMM模型的參數(shù)進行參數(shù)估計, 并利用最大期望算法對參數(shù)估計得到的參數(shù)進行迭代優(yōu)化。
[0146] 當(dāng)優(yōu)化后的參數(shù)使GMM-HMM模型收斂,則判定GMM-HMM模型為聲學(xué)模型。
[0147] 請參閱圖14,圖14是本發(fā)明實施例提供的一種計算機設(shè)備500的結(jié)構(gòu)示意圖。上述 實施例中的由計算機設(shè)備所執(zhí)行的步驟均可以基于該圖中所示的計算機設(shè)備的結(jié)構(gòu)。
[0148] 該計算機設(shè)備500可因配置或者性能的不同而產(chǎn)生較大的差異,其包括:電源510、 接口530、至少一存儲介質(zhì)550、以及至少一中央處理器(CI^tLCentral Processing Units) 570〇
[0149] 具體地,電源510用于為計算機設(shè)備500上的各硬件設(shè)備提供工作電壓。
[0150] 接口 530包括至少一有線或無線網(wǎng)絡(luò)接口 531、至少一串并轉(zhuǎn)換接口 533、至少一輸 入輸出接口 535以及至少一 USB接口 537等,用于與外部設(shè)備通信。
[0151] 存儲介質(zhì)550作為資源存儲的載體,可以是隨機存儲介質(zhì)、磁盤或者光盤等,其上 所存儲的資源包括操作系統(tǒng)551、應(yīng)用程序553及數(shù)據(jù)555等,存儲方式可以是短暫存儲或者 永久存儲。其中,操作系統(tǒng)551用于管理與控制計算機設(shè)備500上的各硬件設(shè)備以及應(yīng)用程 序553,以實現(xiàn)中央處理器570對海量數(shù)據(jù)555的計算與處理,其可以是Windows ServerTM、 Mac 0S 乂了]?、1]11丨1了]\1、1^111^^]\1小代6830了]\1等。應(yīng)用程序553是基于操作系統(tǒng)551之上完成至 少一項特定工作的計算機程序,其可以包括至少一模塊(圖示未示出),每個模塊都可以分 別包含有對計算機設(shè)備500的一系列操作指令。數(shù)據(jù)555可以是存儲于磁盤中的訓(xùn)練數(shù)據(jù)等 等。
[0152] 中央處理器570可以包括一個或多個以上的處理器,并設(shè)置為通過總線與存儲介 質(zhì)550通信,用于計算與處理存儲介質(zhì)550中的海量數(shù)據(jù)555。
[0153]通過中央處理器570讀取存儲介質(zhì)550中存儲的一系列操作指令,并基于存儲介質(zhì) 550上的操作系統(tǒng)551在計算機設(shè)備500上執(zhí)行,進而使得上述實施例的全部或者部分步驟 可以通過在計算機設(shè)備上運行相關(guān)的計算機程序來完成。
[0154]上述內(nèi)容,僅為本發(fā)明的較佳實施例,并非用于限制本發(fā)明的實施方案,本領(lǐng)域普 通技術(shù)人員根據(jù)本發(fā)明的主要構(gòu)思和精神,可以十分方便地進行相應(yīng)的變通或修改,故本 發(fā)明的保護范圍應(yīng)以權(quán)利要求書所要求的保護范圍為準(zhǔn)。
【主權(quán)項】
1. 一種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建方法,其特征在于,包括: 獲取進行數(shù)字語音錄制所得到的訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括若干語音段; 進行所述訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取,得到每一語音段對應(yīng)的特征序列; 根據(jù)所述特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素,進行以單音素聲學(xué)模型為起始的漸 進訓(xùn)練得到聲學(xué)模型; 獲取語言模型,通過所述語言模型和訓(xùn)練得到的聲學(xué)模型構(gòu)建語音解碼網(wǎng)絡(luò),所述語 言模型是通過對所述訓(xùn)練數(shù)據(jù)中數(shù)字的匹配關(guān)系建模得到的。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取進行數(shù)字語音錄制所得到的訓(xùn)練 數(shù)據(jù)的步驟之前,如上所述的方法還包括: 按照預(yù)置條件進行包含多個數(shù)字的語音段錄制得到訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)中多個語 音段均對應(yīng)于同一個人。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述進行所述訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提 取,得到每一語音段對應(yīng)的特征序列的步驟包括: 按照預(yù)設(shè)長度分割每一語音段,得到每一語音段包含的若干語音幀; 所述語音段包含的若干語音幀中,對每一語音幀提取梅爾頻率倒譜系數(shù)特征和基頻特 征,并通過所述梅爾頻率倒譜系數(shù)特征和基頻特征計算得到每一語音幀的特征向量,進而 組成每一語音段對應(yīng)的特征序列。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述以所述特征序列作為模型訓(xùn)練的輸 入,并以所述訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素為建模單位,進行單音素聲學(xué)模型為起始的漸進 訓(xùn)練得到聲學(xué)模型的步驟包括: 由所述訓(xùn)練數(shù)據(jù)的語音段中獲取數(shù)字對應(yīng)的單音素; 根據(jù)該單音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲學(xué)建模和訓(xùn)練,得到該單 音素對應(yīng)的單音素聲學(xué)模型; 通過所述單音素聲學(xué)模型對所述訓(xùn)練數(shù)據(jù)進行識別,得到二次訓(xùn)練數(shù)據(jù); 根據(jù)所述二次訓(xùn)練數(shù)據(jù)中語音段包含的數(shù)字獲取對應(yīng)的三音素; 根據(jù)該三音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲學(xué)建模和訓(xùn)練,得到該三 音素對應(yīng)的聲學(xué)模型。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)該單音素劃分的狀態(tài)對語音段所 對應(yīng)的特征序列進行聲學(xué)建模和訓(xùn)練,得到該單音素對應(yīng)的單音素聲學(xué)模型的步驟包括: 通過HMM模型對所述單音素進行狀態(tài)描述,得到所述單音素劃分的狀態(tài); 基于所述單音素劃分的狀態(tài),采用GMM模型對所述特征序列建模得到GMM-HMM模型; 對所述GMM-HMM模型的參數(shù)進行隨機初始化,并利用最大期望算法對隨機初始化得到 的參數(shù)進行迭代優(yōu)化; 當(dāng)優(yōu)化后的參數(shù)使所述GMM-HMM模型收斂,則判定所述GMM-HMM模型為所述單音素聲學(xué) 模型。6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)該三音素劃分的狀態(tài)對語音段所 對應(yīng)的特征序列進行聲學(xué)建模和訓(xùn)練,得到該三音素對應(yīng)的聲學(xué)模型的步驟包括: 通過HMM模型對所述三音素進行狀態(tài)描述,得到所述三音素劃分的狀態(tài); 基于所述三音素劃分的狀態(tài),采用GMM模型對所述特征序列建模得到GMM-HMM模型; 根據(jù)所述二次訓(xùn)練數(shù)據(jù)對所述GMM-HMM模型的參數(shù)進行參數(shù)估計,并利用最大期望算 法對參數(shù)估計得到的參數(shù)進行迭代優(yōu)化; 當(dāng)優(yōu)化后的參數(shù)使所述GMM-HMM模型收斂,則判定所述GMM-HMM模型為所述聲學(xué)模型。7. -種數(shù)字語音識別中語音解碼網(wǎng)絡(luò)的構(gòu)建裝置,其特征在于,包括: 訓(xùn)練數(shù)據(jù)獲取模塊,用于獲取進行數(shù)字語音錄制所得到的訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包 括若干語音段; 聲學(xué)特征提取模塊,用于進行所述訓(xùn)練數(shù)據(jù)中的聲學(xué)特征提取,得到每一語音段對應(yīng) 的特征序列; 聲學(xué)模型獲取模塊,用于根據(jù)所述特征序列和訓(xùn)練數(shù)據(jù)中數(shù)字對應(yīng)的音素,進行以單 音素聲學(xué)模型為起始的漸進訓(xùn)練得到聲學(xué)模型; 語言模型獲取模塊,用于獲取語言模型,通過所述語言模型和訓(xùn)練得到的聲學(xué)模型構(gòu) 建語音解碼網(wǎng)絡(luò),所述語言模型是通過對所述訓(xùn)練數(shù)據(jù)中數(shù)字的匹配關(guān)系建模得到的。8. 如權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 訓(xùn)練數(shù)據(jù)錄制模塊,用于按照預(yù)置條件進行包含多個數(shù)字的語音段錄制得到訓(xùn)練數(shù) 據(jù),所述訓(xùn)練數(shù)據(jù)中多個語音段均對應(yīng)于同一個人。9. 如權(quán)利要求7所述的裝置,其特征在于,所述聲學(xué)特征提取模塊包括: 語音段分割單元,用于按照預(yù)設(shè)長度分割每一語音段,得到每一語音段包含的若干語 音幀; 特征序列生成單元,用于所述語音段包含的若干語音幀中,對每一語音幀提取梅爾頻 率倒譜系數(shù)特征和基頻特征,并通過所述梅爾頻率倒譜系數(shù)特征和基頻特征計算得到每一 語音幀的特征向量,進而組成每一語音段對應(yīng)的特征序列。10. 如權(quán)利要求7所述的裝置,其特征在于,所述聲學(xué)模型獲取模塊包括: 單音素獲取單元,用于由所述訓(xùn)練數(shù)據(jù)的語音段中獲取數(shù)字對應(yīng)的單音素; 第一模型獲取單元,用于根據(jù)該單音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲 學(xué)建模和訓(xùn)練,得到該單音素對應(yīng)的單音素聲學(xué)模型; 識別單元,用于通過所述單音素聲學(xué)模型對所述訓(xùn)練數(shù)據(jù)進行識別,得到二次訓(xùn)練數(shù) 據(jù); 三音素獲取單元,用于根據(jù)所述二次訓(xùn)練數(shù)據(jù)中語音段包含的數(shù)字獲取對應(yīng)的三音 素; 第二模型獲取單元,用于根據(jù)該三音素劃分的狀態(tài)對語音段所對應(yīng)的特征序列進行聲 學(xué)建模和訓(xùn)練,得到該三音素對應(yīng)的聲學(xué)模型。11. 如權(quán)利要求10所述的裝置,其特征在于,所述第一模型獲取單元包括: 第一狀態(tài)描述單元,用于通過HMM模型對所述單音素進行狀態(tài)描述,得到所述單音素劃 分的狀態(tài); 第一建模單元,用于基于所述單音素劃分的狀態(tài),采用GMM模型對所述特征序列建模得 到GMM-HMM 模型; 第一訓(xùn)練單元,用于對所述GMM-HMM模型的參數(shù)進行隨機初始化,并利用最大期望算法 對隨機初始化得到的參數(shù)進行迭代優(yōu)化; 當(dāng)優(yōu)化后的參數(shù)使所述GMM-HMM模型收斂,則判定所述GMM-HMM模型為所述單音素聲學(xué) 模型。12.如權(quán)利要求10所述的裝置,其特征在于,所述第二模型獲取單元包括: 第二狀態(tài)描述單元,用于通過HMM模型對所述三音素進行狀態(tài)描述,得到所述三音素劃 分的狀態(tài); 第二建模單元,用于基于所述三音素劃分的狀態(tài),采用GMM模型對所述特征序列建模得 到GMM-HMM 模型; 第二訓(xùn)練單元,用于根據(jù)所述二次訓(xùn)練數(shù)據(jù)對所述GMM-HMM模型的參數(shù)進行參數(shù)估計, 并利用最大期望算法對參數(shù)估計得到的參數(shù)進行迭代優(yōu)化; 當(dāng)優(yōu)化后的參數(shù)使所述GMM-HMM模型收斂,則判定所述GMM-HMM模型為所述聲學(xué)模型。
【文檔編號】G10L15/14GK105869624SQ201610188168
【公開日】2016年8月17日
【申請日】2016年3月29日
【發(fā)明人】吳富章, 錢柄樺, 李為, 李科, 吳永堅, 黃飛躍
【申請人】騰訊科技(深圳)有限公司