專利名稱:聲學模型的建立方法
技術領域:
本發(fā)明涉及一種聲學模型的建立方法,特別涉及一種以次語料集合對根語料集合的聲學模型作調適性訓練,以獲得次語料集合聲學模型的聲學模型建立方法。
背景技術:
目前主流的語音識別技術是基于統(tǒng)計模式識別的基本理論。一個完整的語音識別系統(tǒng)可大致分為三個層次(1)語音信號處理其目的是從輸入的語音信號中提取出隨時間變化的語音特征向量序列。
(2)聲學解碼(acoustic decoding)由于輸入的語音信號是由一連串的音節(jié)(syllable)所組成,并不適合作為語音辨認的基本單位,所以在聲學層次的辨認,一般常以單音節(jié)(mono syllable)為辨認單位。在語音信號處理中所獲取的語音特征(Feature Model)序列,通過算法產生相對應的聲學模型(Acoustic Model),并在進行語音識別時,將輸入的語音信號與建立的聲學模型進行比對,以得到最佳的識別結果。
(3)語言譯碼(linguistic decoding)則是將單音節(jié)串接成詞或句子的辨認問題,由語法網絡或由統(tǒng)計方法構成的語言模型來對語音信號進行語法、語義的分析。
其中,在語音學來說,在自然的說話狀態(tài)時,發(fā)音是連續(xù)的,即音節(jié)與音節(jié)相的劃分并不明顯,亦即所謂發(fā)聲耦合(coarticulation)現象,為了解決每一音節(jié)彼此間發(fā)聲耦合的復雜問題,目前多以「前后文相關模型」(context dependent models)來克服。
一般來說,每一單音節(jié)都具有至少一個音素(phone),音素可分成聲母(initial)及韻母(final)即次音及元音兩部份,由于發(fā)聲耦合的影響將使得相同的音素在不同的語句中,有不同的聲學模型,而不同的語言所具有的音素數量亦不相同,如英文具有40-50個,中文則具有37個。若依照前后文的關系來建立前后文相關模型,則所需的聲學模型數量將十分龐大,如中文約需要60000多個,英文約需要125000多個,且每一聲學模型的建立,又需要足夠的語料,方能使此模型具有一定的可靠度。為能減少所需語料,目前是采用決策樹(decision tree)方式,以各相關語料分享參數的方法來訓練聲學模型。
決策樹是一種整合語言學(phonetics)和聲學(acoustic)知識的方法,由上而下將所有同屬于一個音素的所有語料放置在最上層,此數據層稱之為根節(jié)點,再利用各種語音學的問題來檢核屬于該節(jié)點的所有語料,將檢核結果為符合的語料歸為一類,而不符的語料則歸為另一類,而將語料分為兩個子節(jié)點,并不斷針對每個子節(jié)點做同一動作,直到收斂為止,最后可以得到一個樹狀結構。沿著樹狀結構每條路徑可到達一葉節(jié)點(leaf node),代表一些具有相似聲學特性的語料群集(cluster),但若最后所得的語料群集不足一臨界值(Threshold),則此語料群集無法達到一定個數的統(tǒng)計量,而造成此訓練模型不準確。要解決此問題,目前的解決方法是采用往回引用(backing-off)其上層根節(jié)點的所有語料,做為模型建立時的參考語料。但因此語料群集中的語料數目的臨界值不易決定,且對提升模型分辨率(resolution)的幫助十分有限。
發(fā)明內容
因此,本發(fā)明的目的,即在提供一種可有效利用現有語料,而建立一較精確的聲學模型的聲學模型建立方法。
于是,本發(fā)明揭露一種聲學模型的建立方法,是利用多個語料,建立一聲學模型,以作為比對一語音信號的參考模型,其中,各語料具有至少一音素,該方法包含下述步驟A)建立一根語料集合,其中,根語料集合具有多個根語料,各根語料具有一根音素;B)建立一與根音素相關的一次語料集合,其中,次語料集合具有至少一個次語料,次語料具有根音素及一相鄰根音素的次音素;及C)利用各根語料及次語料建立次語料集合的聲學模型。
本發(fā)明亦揭露一種計算機可讀取的記錄媒體,其可被載置于一計算機中作為一語音模型建立裝置,并與一語音輸入裝置互相配合,用以對輸入的語料,建立相對應的語音模型,其中,語音輸入裝置用以接收一具有至少一音素的語料,并將該語料傳送至計算機的一儲存單元中,記錄媒體中記錄有一可驅使語音模型建立裝置動作的程序代碼,程序代碼可在語音模型建立裝置中執(zhí)行如下的步驟A)建立一根語料集合,其中,根語料集合具有多個根語料,各根語料具有一根音素;B)建立一與根音素相關的一次語料集合,其中,次語料集合具有至少一個次語料,次語料具有根音素及一相鄰根音素的次音素;及C)利用各根語料及次語料建立次語料集合的聲學模型。
本發(fā)明并揭露一種隱藏式馬可夫聲學模型的建立方法,包含下述步驟A)建立一包含多個根語料的根語料集合,且各根語料具有相同的一根音素;B)μ‾=ndkni+ndμd‾+knikni+ndμi‾]]>建立一包含至少一次語料的次語料集合,該次語料具有該根音素及一相鄰該根音素的次音素;C)計算下式中μ值其中, 和 分別為該根語料集合及次語料集合的隱藏式馬可夫模型參數的平均值,ni及nd分別為該根語料集合及次語料集合中所具有的語料樣本數,k為一預設權重值;D)以μ值更新次語料集合的隱藏式馬可夫模型參數平均值;及E)依據更新后的次語料集合的隱藏式馬可夫模型參數平均值建立該次語料集合的聲學模型。
本發(fā)明另揭露一種隱藏式馬可夫聲學模型的建立方法,用以依據一根語料集合及一相關的次語料集合建立該次語料集合的聲學模型,該根語料集合包含多個根語料且各根語料具有相同的一根音素,該次語料集合則包含至少一μ‾=ndkni+ndμd‾+knikni+ndμi‾]]>次語料且次語料具有該根音素及一相鄰根音素的次音素,該方法包含下述步驟A)計算下式中μ值其中, 和 分別為該根語料集合及次語料集合的隱藏式馬可夫模型參數的平均值,ni及nd分別為根語料集合及次語料集合中所具有的語料樣本數,k為一預設權重值;B)以μ值更新次語料集合的隱藏式馬可夫模型參數平均值;及C)依據更新后的次語料集合的隱藏式馬可夫模型參數平均值建立該次語料集合的聲學模型。
圖1是一示意圖,說明本發(fā)明聲學模型的建立方法的實施態(tài)樣;圖2是一方塊圖,說明一應用程序;圖3是一方塊圖,說明一聲學模型建立模塊;圖4是一流程圖,說明一隱藏式馬可夫模型的建立流程;圖5是一示意圖,說明一決策樹的判斷步驟;及圖6是一流程圖,說明本發(fā)明聲學模型的建立方法。
附圖符號說明1 計算機11 顯示器12 鍵盤13 儲存單元2 語音輸入單元31 使用者接口單元32 語音處理單元4 聲學模型建立模塊41 根音素集合單元42 根音素模型建立單元43 次音素集合單元44 次音素模型建立單元61-65 步驟具體實施方式
本發(fā)明的前述及其它技術內容、特征與優(yōu)點,在以下配合參考附圖的一較佳實施例的詳細說明中,將可清楚明白。
在進行詳細說明之前,要先敘明的是,本發(fā)明所述的聲學模型建立的方法,適用于任一國、族的語言,在本實施例中雖以英文來說明,但并不應以此為限。
首先請參閱圖1,本發(fā)明聲學模型的建立方法可藉由一程序代碼的實施形式,而儲存在一計算機1可讀取記錄媒體,如光盤、軟盤、硬盤中,并經計算機1加載執(zhí)行后,產生一聲學模型建立模塊4(參閱圖3)。其中,計算機1是包含一中央處理器(圖未示)、一儲存單元13、一顯示器11、一鍵盤12,在本發(fā)明中由于計算機1為一目前所熟知的技藝,且非本發(fā)明的特征所在,故在此不多加贅述。此外,由于計算機1是為一電氣信號的處理裝置,為使計算機可接收并處理人們所發(fā)出的聲音,故需由一語音輸入單元2,如與計算機1電連接的一麥克風(MIC),用以將一聲音轉換為一可為計算機1接收處理的語音信號,并傳送至計算機1中。
參閱圖1、2,計算機1的儲存單元13中具有一應用程序,其經執(zhí)行后即產生一使用者接口單元31及一語音處理單元32。使用者接口單元31用以在顯示器11上產生一使用者接口,讓使用者依使用者接口的指示,發(fā)出一相對應的聲音,如使用者接口顯示“請念出video”,則使用者即對語音輸入單元2念出“video”該字,經由語音輸入單元2接收后,傳送至語音處理單元32對此輸入的語音信號進行一預定程序的處理后,以做為建立一聲學模型所需的語音數據。在下文中,是將此等為建立聲學模型而需求的語音數據稱之為語料(corpus),由于每人發(fā)聲的語調皆略有差異,故為求建立的聲學模型更為適切,每一字詞需有相當數量不同音源的語料來做為其建立聲學模型時的參考語料。
其中,語音處理單元32在讀取語料后,將對此語料量化以求取代表此語音的特征參數,而對該語料建立一特征文件(feature film),并將之儲存在儲存單元13中。
參閱圖1、3,當語料特征文件皆儲存在儲存單元13后,聲學模型建立。模塊4將利用所儲存的語料特征文件進行相關模型的建立。其中,由于輸入的語音信號是由一連串音節(jié)所組成,并不適合作為語音辨認的基本單位,所以在聲學層次的辨認,是以單音節(jié)為辨認單位。此外,由于發(fā)音是連續(xù)的,即音節(jié)與音節(jié)的劃分并不明顯,亦即所謂發(fā)聲耦合現象,且一般來說,每一單音節(jié)都具有至少一個音素,又音素可分為子音及元音兩大類,由于發(fā)聲耦合的影響,將使相同的音素在不同的語句中有不同的聲學模型。因此,在聲學模型建立模塊4中,將先對一預定的音素設定其為根音素,再對此根音素的相關語料,建立一根語料集合,并對此根語料集合建立其相對應的聲學模型。
之后,再分別依與此根音素左右相鄰音素不同的區(qū)別,而由根語料集合中區(qū)隔出多個次語料集合。而各次語料集合的聲學模型,則以根語料集合的聲學模型為母本,由所屬次語料集合中的各語料,逐次修正根語料集合的聲學模型,而分別建立出各次語料集合所屬的聲學模型,其步驟流程容后詳述。
參閱圖3,聲學模型建立模塊4具有一根音素集合單元41、一根音素模型建立單元42、一次音素集合單元43,及一次音素模型建立單元44。
參閱圖1、3,根音素集合單元41先設定一音素為一根音素,并由計算機1的儲存單元13中,選擇具有此根音素的語料的特征文件,即若此根音素為/v/,則只要該語料的首項音素為/v/者皆屬其集合,如v/vi/、vacate/ve’ket/、vagi/’vegi/…等。利用此原則可建立一數量十分龐大的根語料集合,亦可稱為與內容無關的音素集合(context-independent phone set)。
當根音素集合單元41建立根語料集合后,根音素模型建立單元42將對根語料集合建立其所屬的聲學模型。在本實施例中是采用一隱藏式馬可夫模型(Hidden Markov Model)來仿真語料在口腔聲道變化的過程,以建立出此根語料集合的聲學模型,其中,隱藏式馬可夫模型的建立方法如下步驟所示參閱圖4,首先,如步驟50、51,先從儲存單元13儲存的語料特征文件所界定的訓練語料中建立一初始模型。而后如步驟52、53,對此初始模型進行相似度的計算,且在本實施例中是采用Baum-Welch的參數重估算法,以得到最大近似值的參數估計(maximum likelihood estimation),依此等重估的參數,更新隱藏式馬可夫模型的參數。再如步驟54,重復步驟52、53直至模型收斂為止。最后如步驟55,若模型收斂則訓練結束,并輸出此聲學模型。
經上述的步驟,即可得出一根語料集合的聲學模型。由于隱藏式馬可夫模型是一現有的技藝,故在此不加以贅述。
參閱圖5,當根音素模型建立單元42建立了根音素集合的聲學模型后,次音素集合單元43再由根語料集合中,分類出與該根音素相關的次語料,并建立為一次語料集合。在本實施例中,此種分類的方法是采用一決策樹方式,將所有同屬于一根音素的所有語料放置在最上層,再利用各種語音學的問題檢核屬于該層的所有語料,如根音素右邊為尖銳性或延續(xù)性等,且問題可依決策樹篩選邏輯方法不同而不同,不以本實施例揭露者為限。
經由就問題檢核結果的不同,檢核符合的語料將歸為一類,而檢核不符的語料歸為另一類,依此把語料分為兩個子節(jié)點,并不斷針對每個子節(jié)點做同一動作一直到收斂為止,最后即可得到代表一些具有相似聲學特性的次語料集合。例如,若根音素為/v/,其一次語料集合中,將因篩選而得到根語料集合語料中,所有音素排序為/vi/的語料,而語料數目將視當初建立時,提供了多少筆數據而定。其中,此次語料集合亦可稱之為與內容相關的音素集合(context-dependent phone set)。
次音素模型建立單元44是在次語料集合建立后,以次語料集合中的各語料,逐筆地以一預定方式,對根語料集合的聲學模型做自動調適訓練(automatically adaptive training),以獲得一次語料集合的聲學模型。其中,次語料集合的聲學模型的建立方式大體上與根語料集合的聲學模型類似,但值得注意的是,在以隱藏式馬可夫模型建立次語料集合聲學模型時,是對該模型參數的“平均值”進行一更新的步驟,其更新模型參數的“平均值”是依照下列公式其中, 和 分別為根語料集合和次語料集合的隱藏式馬可夫模型參μ‾=ndkni+ndμd‾+knikni+ndμi‾]]>數的平均值,ni和nd分別為根語料集合和次語料集合中所具有的語料的樣本數,k為權重值,μ為更新后的次語料集合的隱藏式馬可夫模型參數的平均值。
如此,當建立次語料集合的聲學模型時,將可充份利用每一相關的訓練語料,而在有限的語料下得到一較精確的模型,且無臨界值不易決定的問題,對于相同數目的語料下,將可有效提升模型的分辨率。
參閱圖1、6,上述聲學模型建立模塊4的運作方法整理如下,首先如步驟61,聲學模型建立模塊4的根音素集合單元41先設定一音素為一根音素,并由計算機1的儲存單元13中,選擇具有此根音素特征文件的語料,并建立一根語料集合。如步驟62,根音素模型建立單元42將對根語料集合采用一隱藏式馬可夫模型來建立其所屬的聲學模型。如步驟63,當根音素模型建立單元42建立了根音素集合的聲學模型后,次音素集合單元43再由根語料集合中,分類出與該根音素相關的次語料,并建立為一次語料集合。如步驟64,次音素模型建立單元44是在次語料集合建立后,以次語料集合中的各語料,逐句地以一預定方式,對根語料集合的聲學模型做模型調適訓練,最后如步驟65,建立并輸出此次語料集合的聲學模型。
歸納上述,本發(fā)明聲學模型的建立方法是在決策樹的判斷法則中,不采取一般所使用的往回引用法則,而在建立次語料集合的聲學模型時,采用對根語料集合的聲學模型作調適性訓練的方法,以一不同于現有隱藏式馬可夫模型參數的平均值的計算方式,有效地使用所有次語料集合中的所有語料,來建立此次語料集合的聲學模型,故本發(fā)明兼顧便利性及強健性,而確能達成其發(fā)明目的。
惟以上所述者,僅為本發(fā)明的較佳實施例而已,當不能以此限定本發(fā)明實施的范圍,即大凡依本發(fā)明申請專利范圍及發(fā)明說明書內容所作的簡單的等效變化與修飾,皆應仍屬本發(fā)明專利涵蓋的范圍內。
權利要求
1.一種聲學模型的建立方法,是利用多個語料,建立一聲學模型,以作為比對一語音信號的參考模型,其中,各該語料具有至少一音素,該方法包含下述步驟A)建立一根語料集合,其中,該根語料集合具有多個根語料,各該根語料具有相同的一根音素;B)建立一與該根音素相關的一次語料集合,其中,該次語料集合具有至少一個次語料,該次語料具有該根音素及一相鄰該根音素的次音素;及C)利用各該根語料及該次語料建立該次語料集合的聲學模型。
2.根據權利要求1所述的聲學模型的建立方法,其中,該次語料集合的聲學模型是采用隱藏式馬可夫模型。
3.根據權利要求2所述的聲學模型的建立方法,其中,該隱藏式馬可夫模型參數的平均值的更新是依照下列公式其中, 和 分別為根語料集合和次語料集合的隱藏式馬可夫模型參數的平均值,ni和nd分別為根語料集合和次語料集合中所具有的語料的樣本μ‾=ndkni+ndμd‾+knikni+ndμi‾]]>數,k為權重值,μ為更新后的次語料集合的隱藏式馬可夫模型參數的平均值。
4.根據權利要求1所述的聲學模型的建立方法,其中,在該步驟A及該步驟B間,更包含一建立該根語料集合的聲學模型的步驟D。
5.根據權利要求4所述的聲學模型的建立方法,其中,該步驟C的次語料集合的聲學模型是以該次語料對該根語料集合的聲學模型進行自動調適訓練所得之。
6.一種計算機可讀取的記錄媒體,其可被載置于一計算機并與一語音輸入裝置互相配合,用以對輸入的語料建立相對應的語音模型,其中,該語音輸入裝置用以接收一具有至少一音素的語料,并將該語料傳送至該計算機的一儲存單元中,該記錄媒體中記錄有一程序代碼,可供該計算機讀取并執(zhí)行如下的步驟A)建立一根語料集合,其中,該根語料集合具有多個根語料,各該根語料具有相同的一根音素;B)建立一與該根音素相關的一次語料集合,其中,該次語料集合具有至少一個次語料,該次語料具有該根音素及一相鄰該根音素的次音素;及C)利用各該根語料及該次語料建立該次語料集合的聲學模型。
7.根據權利要求6所述的記錄媒體,其中,該次語料集合的聲學模型是采用隱藏式馬可夫模型。
8.根據權利要求7所述的記錄媒體,其中,該隱藏式馬可夫模型參數的平均值的更新是依照下列公式μ‾=ndkni+ndμd‾+knikni+ndμi‾]]>其中, 和 分別為根語料集合和次語料集合的隱藏式馬可夫模型參數的平均值,ni和nd分別為根語料集合和次語料集合中所具有的語料的樣本數,k為權重值,μ為更新后的次語料集合的隱藏式馬可夫模型參數的平均值。
9.根據權利要求6所述的記錄媒體,其中,在該步驟A及該步驟B間,更包含一建立該根語料集合的聲學模型的步驟D。
10.根據權利要求9所述的聲學模型的建立方法,其中,該步驟C的次語料集合的聲學模型是以該次語料對該根語料集合的聲學模型進行自動調適訓練所得之。
11.一種隱藏式馬可夫聲學模型的建立方法,包含下述步驟A)建立一包含多個根語料的根語料集合,且各該根語料具有相同的一根音素;B)建立一包含至少一次語料的次語料集合,該次語料具有該根音素及一相鄰該根音素的次音素;μ‾=ndkni+ndμd‾+knikni+ndμi‾]]>C)計算下式中μ值其中, 和 分別為該根語料集合及該次語料集合的隱藏式馬可夫模型參數的平均值,ni及nd分別為該根語料集合及該次語料集合中所具有的語料樣本數,k為一預設權重值;D)以該μ值更新該次語料集合的隱藏式馬可夫模型參數平均值;及E)依據該更新后的次語料集合的隱藏式馬可夫模型參數平均值建立該次語料集合的聲學模型。
12.一種隱藏式馬可夫聲學模型的建立方法,用以依據一根語料集合及一相關的次語料集合建立該次語料集合的聲學模型,該根語料集合包含多個根語料且各該根語料具有相同的一根音素,該次語料集合則包含至少一次語料且該次語料具有該根音素及一相鄰該根音素的次音素,該方法包含下述步驟A)計算下式中μ值μ‾=ndkni+ndμd‾+knikni+ndμi‾]]>其中, 和 分別為該根語料集合及該次語料集合的隱藏式馬可夫模型參數的平均值,ni及nd分別為該根語料集合及該次語料集合中所具有的語料樣本數,k為一預設權重值;B)以該μ值更新該次語料集合的隱藏式馬可夫模型參數平均值;及C)依據該更新后的次語料集合的隱藏式馬可夫模型參數平均值建立該次語料集合的聲學模型。
全文摘要
一種聲學模型的建立方法,是利用多個語料建立一聲學模型,以作為比對一語音信號的參考模型,其中,各語料具有至少一音素,該方法包含下述步驟A)建立一根語料集合,各根語料集合具有多個根語料,各根語料具有相同的一根音素;B)建立一與該根音素相關的一次語料集合,各次語料集合具有至少一個次語料,次語料具有該根音素及一相鄰根音素的次音素;及C)利用各根語料及次語料建立次語料集合的聲學模型。
文檔編號G10L15/14GK1801324SQ20051000424
公開日2006年7月12日 申請日期2005年1月4日 優(yōu)先權日2005年1月4日
發(fā)明者黃昭世 申請人:宏碁股份有限公司