基于分類器融合的漢語方言自動辨識方法
【專利摘要】本發(fā)明公開一種基于分類器融合的漢語方言自動辨識方法,分為漢語方言語音特征提取、方言模型匹配打分,分類矢量提取及后端分類四個步驟。采用兩級特征提取方式,將高斯混合模型(GMM)作為高級特征提取器加以使用。在計算的過程中將語音特征送入到含有方言語音先驗知識的高斯混合模型中進行打分,并對所得打分進行歸一化和差分計算,形成具有高類間差異度和類內(nèi)聚合度的分類矢量。將其送入到后端支撐矢量機(SVM)分類器中進行分類。融合GMM在數(shù)據(jù)分布擬合,SVM在分類面建模時的技術(shù)優(yōu)勢,最終實現(xiàn)對漢語方言所屬方言區(qū)種類的辨識。本發(fā)明能夠穩(wěn)定可靠的用于漢語電話方言語音等的辨識任務(wù),準確率較高。
【專利說明】基于分類器融合的漢語方言自動辨識方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多分類器融合技術(shù)的語音辨識方法,尤其涉及一種漢語方言辨識方法,屬于語音信號處理領(lǐng)域。
【背景技術(shù)】
[0002]漢語方言自動辨識是利用計算機分析一段輸入的語音,判別說話人所屬方言區(qū)域的語音處理技術(shù)。在我國這樣一個多民族、多方言的國家,漢語方言自動辯識的研究為我國各民族間的無障礙溝通建立了基礎(chǔ),隨著我國科學(xué)技術(shù)的快速發(fā)展,其中更是醞釀著巨大的應(yīng)用價值和廣闊的應(yīng)用前景。作為語音識別研究的一個分支,在早期的研究中,漢語方言辨識系統(tǒng)往往采用單分類器單特征的設(shè)計策略,忽視了信息融合在系統(tǒng)設(shè)計中的應(yīng)用,使得系統(tǒng)完全依賴于某一分類器和某一特征,制約了系統(tǒng)性能的提高。
[0003]多信息融合是目前信息處理研究領(lǐng)域的熱點,它不僅可以更加全面、詳細地描述客觀現(xiàn)象,還能實現(xiàn)深層信息的挖掘。在語音處理領(lǐng)域,信息融合方式主要采用兩種方式:一、多特征融合;二、多分類器融合。前者采用多特征-單分類器的設(shè)計策略,通過不同特征得分的加權(quán)和,使得一個系統(tǒng)中同時使用多個特征,從而提供更高正確率的決策;而后者則采用多分類器的設(shè)計策略,將具有互補性的分類器融合到一個系統(tǒng)中,通過不同分類器在分類策略上的差異實現(xiàn)多重分類并融合分類結(jié)果。在相應(yīng)的分類器融合的研究中,目前多是針對與文本相關(guān)的語音識別,而能夠適應(yīng)與文本無關(guān)語音識別的融合機制并不多見。
【發(fā)明內(nèi)容】
[0004]發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明以兩級分類器為框架,提出了一套新分類器融合機制,具體是一種基于分類器融合的漢語方言自動辨識方法。本發(fā)明可以更好的提取類漢語方言語音特征間差異信息,并且更加適應(yīng)與文本無關(guān)的方言、語種識別等識別系統(tǒng),顯著提高分類能力和魯棒性。
[0005]在分類器融合中,融合系統(tǒng)的性能主要取決于以下兩點:一、分類器的選??;二、融合機制的設(shè)計。在分類器的選取上,通常要求多分類器在分類策略上具有互補性,從而在融合后實現(xiàn)置信度更高的決策。鑒于此,本文選用生成式分類器高斯混合模型(GMM)和判決式分類器支撐矢量機(SVM)為融合對象。作為生成式分類器,GMM具有較好的數(shù)據(jù)擬合能力,能夠較好的描述整體數(shù)據(jù)的分布狀態(tài)。但是,由于需要從完備的數(shù)據(jù)中學(xué)習(xí)參量,對于訓(xùn)練集的數(shù)據(jù)量要求過高且訓(xùn)練周期較長。相比較,SVM不具備較好的數(shù)據(jù)分布的擬合能力但能夠較為清晰的描述分類面的狀態(tài)。因此,GMM和SVM在原理上具有互補性將其融合可以發(fā)揮兩種分類器的優(yōu)勢。對于融合機制的設(shè)計可以采取后端分數(shù)融合和多級融合兩種方式。前者對SVM的決策進行置信度打分,并將其與GMM的打分進行加權(quán)求,以此進行類別決策;后者將GMM作為分類矢量的生成器,生成含有全局信息的分類矢量并送入SVM進行分類。在方言識別中由于數(shù)據(jù)的分布狀態(tài)過于復(fù)雜且數(shù)據(jù)量過于龐大,不宜使用SVM對原始語音特征進行分類和打分,此外在分數(shù)融合中權(quán)重的選擇也有一定的難度,因此,多級分類器融合系統(tǒng)更加適應(yīng)于漢語方言辨識研究。傳統(tǒng)基于GMM、SVM的兩級分類器融合通常采用Fisher核函數(shù)作為融合機制,在所提取的特征中不僅含有方言語音的聲學(xué)信息也含有該方言的全局信息,是一種高級的分類矢量。但是,其中也存在著諸多局限。首先,F(xiàn)isher核函數(shù)的映射空間存在著維數(shù)災(zāi)難的隱患,很難滿足大數(shù)據(jù)量的與文本無關(guān)的語音識別。其次,對于同一語音基兀,不同方言模型的打分間有一定的相關(guān)性,如表1所不,而種相關(guān)性影響了分類矢量的類代表性。最后,對于方言辨識,我們期望分類特征體現(xiàn)出方言的類間差異,即不同方言模型對一段語音打分間的差異性。
[0006]表.1不同方言模型對語音基元的打分
【權(quán)利要求】
1.一種基于分類器融合的漢語方言自動辨識方法,其特征在于:選用GMM和SVM為融合對象,輸入漢語方言信號進行語音特征提取,在新分類特征的提取過程中,首先利用已知的訓(xùn)練樣本集合訓(xùn)練方言的GMM ;然后將語音數(shù)據(jù)輸入到設(shè)計好的各種方言的GMM中,對語音基元進行似然打分,組成分數(shù)矢量
2.如權(quán)利要求1所述的基于分類器融合的漢語方言自動辨識方法,其特征在于:GMM是生成式概率統(tǒng)計模型,其概率密度計算公式為:
3.如權(quán)利要求1所述的基于分類器融合的漢語方言自動辨識方法,其特征在于:對所述分數(shù)矢量進行歸一化處理和差分運算計算如下: 一、對語音的得分進行歸一化處理:
4.如權(quán)利要求1所述的基于分類器融合的漢語方言自動辨識方法,其特征在于:基于訓(xùn)練分類矢量訓(xùn)練SVM分類器中,采用ECOC算法對待分類別進行二值編碼,以此作為類別的標簽;在編碼的過程中,要求碼矩陣中每行每列的碼字間要保持獨立性和可分性;當3^k^7時,碼本的最大長度應(yīng)為2H-1維,其中k為類別數(shù);編碼規(guī)則為:首行為單位矢量,第二行碼本的是由2k_2個O和2k_2個I交替組成,以此類推,第i行碼本是由2H個O和2η個I交替組成;假設(shè)以4類問題為分類對象,便需要7維的碼書來進行編碼設(shè)計,行向量是ECOC算法針對每一類別的編碼;根據(jù)碼字矩陣中的列向量的類別標簽設(shè)計分類器,得到f1; f2,…fn η ( 2^-1 ;在測試過程中,該算法首先對輸入語音按照f\,f2,…fn分類規(guī)則進行分類,然后根據(jù)分類結(jié)果對未知語音進行編碼,設(shè)計出該語音的碼書,最后將其與已知的類別碼書相匹配。
【文檔編號】G10L15/18GK103474061SQ201310416173
【公開日】2013年12月25日 申請日期:2013年9月12日 優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】朱賀, 高紅民, 王慧斌 申請人:河海大學(xué)