一種語音識別的文本分類方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種語音識別的文本分類方法和裝置,其中,該方法包括:根據(jù)業(yè)務類別的類型,為每個業(yè)務類別收集訓練文本和與訓練文本的內(nèi)容保持一致的訓練語音;對訓練語音進行解碼,得到訓練語音的詞混淆網(wǎng)絡;根據(jù)訓練文本和詞混淆網(wǎng)絡,提取訓練文本的文本特征;根據(jù)文本特征,訓練集內(nèi)支持向量機分類器;由經(jīng)過訓練的所述支持向量機分類器對文本進行分類。本發(fā)明的語音識別的文本分類方法和裝置,將詞圖網(wǎng)絡轉(zhuǎn)化為適合于文本分類的詞混淆網(wǎng)絡,將詞混淆網(wǎng)絡所包含的混淆詞轉(zhuǎn)化為文本特征后,利用支持向量機算法,進行基于混淆詞的文本分類,得到更準確的分類結(jié)果,提高了語音識別文本分類的正確率。
【專利說明】一種語音識別的文本分類方法和裝置
【技術領域】
[0001]本發(fā)明涉及通信領域中語音識別【技術領域】,具體地,涉及一種語音識別的文本分類方法和裝置。
【背景技術】
[0002]文本分類是指給定分類目標下,根據(jù)文本內(nèi)容自動確定文本類別的過程。借助于文本分類技術,對文本進行分類,可以讓機器理解人類語言,從而實現(xiàn)智能語音交互。文本分類技術已經(jīng)在互聯(lián)網(wǎng)搜索、語音識別等人機交互領域得到了相當廣泛的應用。
[0003]在自助語音識別服務系統(tǒng)中,利用文本分類技術對語音識別的文本結(jié)果進行分類,并根據(jù)最終類別的不同,自助語音服務系統(tǒng)向最終用戶提供不同的自助語音服務,實現(xiàn)輕松自然的自助語音交互。如將自然語言“請幫我查詢一下我的手機有無欠費”理解為語義“余額查詢”,提供“余額查詢”的自助服務。
[0004]目前主流的文本分類使用統(tǒng)計學習的方法:首先通過提取文本中的特征,將文本轉(zhuǎn)化為帶權重分量的特征矢量,并利用機器學習的方法,構建文本分類模型。
[0005]目前主要的文本分類學習算法包含Rocchio算法、樸素貝葉斯分類算法、決策樹算法、神經(jīng)網(wǎng)絡算法及支持向量機算法(SVM, Support Vector Machine)等等,并在相應的算法上進行一些改進及融合,使文本分類的準確率持續(xù)不斷的提高。
[0006]在申請?zhí)枮?9808930.3的中國專利文件中公開了一種根據(jù)文本信息對象訓練集生成分類器之參數(shù)以便確認文本信息對象所屬種類的方法。在申請?zhí)枮?00810012887.0的中國專利文件公開了一種利用最小二乘方法來擬合用支持向量機方法所得到的分類超平面,從而得到最優(yōu)的超平面的方法,實現(xiàn)較佳的文本分類效果。
[0007]在自助語音服務系統(tǒng)中,文本分類需要與語音識別系統(tǒng)一起使用。傳統(tǒng)的文本分類應用中,使用語音識別系統(tǒng)產(chǎn)生的第一優(yōu)選(One Best)結(jié)果作為文本分類器的輸入,文本分類器根據(jù)分類模型計算輸入文本W(wǎng)i對每個目標分類類別Tj的得分貢獻,并選取得分最高的類別作為該輸入文本對應的分類結(jié)果,如圖1-2所示。在圖2中,用第一優(yōu)先結(jié)果進行文本分類,最終最優(yōu)分類類別GRPS的得分為0+0+0+0.3+0.8=1.1。
[0008]這種方法在語音識別準確率較高的語音識別系統(tǒng)中,有優(yōu)良的性能;但在語音識別引擎識別準確率較低的語音識別系統(tǒng)中,很可能輸出包含較多錯誤的文本識別結(jié)果,這會直接導致文本分類的正確率的急劇下降。例如語音識別引擎因口音問題將識別出某段語音為:“我要用手機傷亡”,則SVM文本分類器得分如圖3所示。因為錯誤識別結(jié)果“傷亡”對“GRPS”的貢獻得分為0,造成“話費查詢”與“GPRS”的最終得分均為0.3,造成分類錯誤。
【發(fā)明內(nèi)容】
[0009]本發(fā)明是為了克服現(xiàn)有技術中語音識別的文本分類錯誤率高的缺陷,根據(jù)本發(fā)明的一個方面,提出一種語音識別的文本分類方法。
[0010]根據(jù)本發(fā)明實施例的語音識別的文本分類方法,包括:根據(jù)業(yè)務類別的類型,為每個業(yè)務類別收集訓練文本和與訓練文本的內(nèi)容保持一致的訓練語音;對訓練語音進行解碼,得到訓練語音的詞混淆網(wǎng)絡;根據(jù)訓練文本和詞混淆網(wǎng)絡,提取訓練文本的文本特征;根據(jù)文本特征,訓練集內(nèi)支持向量機分類器;由經(jīng)過訓練的所述支持向量機分類器對文本進行分類。
[0011]本發(fā)明的語音識別的文本分類方法,在收集訓練文本和訓練語音后,在收集業(yè)務類別的訓練文本和訓練語音后,得到訓練語音的詞混淆網(wǎng)絡,提取訓練文本的文本特征,根據(jù)文本特征訓練集內(nèi)支持向量機分類器,由經(jīng)過訓練的所述支持向量機分類器對文本進行分類;本發(fā)明的語音識別的文本分類方法,通過語音識別所特有的詞圖網(wǎng)絡,由于其對正確語音識別結(jié)果具有更高的覆蓋度,將詞圖網(wǎng)絡轉(zhuǎn)化為適合于文本分類的詞混淆網(wǎng)絡,將詞混淆網(wǎng)絡所包含的混淆詞轉(zhuǎn)化為文本特征后,利用支持向量機算法,進行基于混淆詞的文本分類,得到更準確的分類結(jié)果,提高了語音識別文本分類的正確率。
[0012]本發(fā)明是為了克服現(xiàn)有技術中語音識別的文本分類錯誤率高的缺陷,根據(jù)本發(fā)明的另一個方面,提出一種語音識別的文本分類裝置。
[0013]根據(jù)本發(fā)明實施例的語音識別的文本分類裝置,包括:文本收集模塊,用于根據(jù)業(yè)務類別的類型,為每個業(yè)務類別收集訓練文本和與所述訓練文本的內(nèi)容保持一致的訓練語音;語音解碼模塊,用于對訓練語音進行解碼,得到訓練語音的詞混淆網(wǎng)絡;特征提取模塊,用于根據(jù)訓練文本和詞混淆網(wǎng)絡,提取訓練文本的文本特征;分類器訓練模塊,用于根據(jù)文本特征,訓練集內(nèi)支持向量機分類器;文本分類模塊,用于由經(jīng)過訓練的支持向量機分類器對文本進行分類。
[0014]本發(fā)明的語音識別的文本分類裝置,在收集訓練文本和訓練語音后,在收集業(yè)務類別的訓練文本和訓練語音后,得到訓練語音的詞混淆網(wǎng)絡,提取訓練文本的文本特征,根據(jù)文本特征訓練集內(nèi)支持向量機分類器,由經(jīng)過訓練的所述支持向量機分類器對文本進行分類;本發(fā)明的語音識別的文本分類裝置,通過語音識別所特有的詞圖網(wǎng)絡,由于其對正確語音識別結(jié)果具有更高的覆蓋度,將詞圖網(wǎng)絡轉(zhuǎn)化為適合于文本分類的詞混淆網(wǎng)絡,將詞混淆網(wǎng)絡所包含的混淆詞轉(zhuǎn)化為文本特征后,利用支持向量機算法,進行基于混淆詞的文本分類,得到更準確的分類結(jié)果,提高了語音識別文本分類的正確率。
[0015]本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結(jié)構來實現(xiàn)和獲得。
[0016]下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。
【專利附圖】
【附圖說明】
[0017]附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:
[0018]圖1為現(xiàn)有技術中傳統(tǒng)的文本分類方法的流程示意圖;
[0019]圖2為現(xiàn)有技術中利用第一優(yōu)先結(jié)果進行文本分類的示意圖;
[0020]圖3為現(xiàn)有技術中利用第一優(yōu)先結(jié)果進行文本分類過程中因識別錯誤導致分類錯誤的示意圖;
[0021]圖4為本發(fā)明語音識別系統(tǒng)的詞混淆網(wǎng)絡的結(jié)構示意圖;[0022]圖5為本發(fā)明使用詞混淆網(wǎng)絡進行文本分類的示意圖;
[0023]圖6為本發(fā)明語音識別的文本分類方法實施例一的流程圖;
[0024]圖7為本發(fā)明語音識別的文本分類方法實施例二中訓練文本的結(jié)構示意圖;
[0025]圖8為本發(fā)明語音識別的文本分類方法實施例二中使用語音識別引擎對收集的訓練語音進行解碼的結(jié)構示意圖;
[0026]圖9為本發(fā)明語音識別的文本分類方法實施例二中混淆網(wǎng)絡的結(jié)構示意圖;
[0027]圖10為本發(fā)明語音識別的文本分類方法實施例二中文本特征的結(jié)構示意圖;
[0028]圖11為本發(fā)明語音識別的文本分類方法實施例二中混淆網(wǎng)絡的結(jié)構示意圖;
[0029]圖12為本發(fā)明語音識別的文本分類裝置的結(jié)構示意圖。
【具體實施方式】
[0030]下面結(jié)合附圖,對本發(fā)明的【具體實施方式】進行詳細描述,但應當理解本發(fā)明的保護范圍并不受【具體實施方式】的限制。
[0031]本發(fā)明語音識別系統(tǒng)產(chǎn)生的詞混淆網(wǎng)絡(Word Confusion Network, WCN)作為文本分類器的輸入,詞混淆網(wǎng)絡不僅包含了語音識別系統(tǒng)的第一優(yōu)選結(jié)果,而且還包含了其它最可能的若干個識別結(jié)果,即混淆詞,如圖4所示。其中,文本分類器是支持向量機分類器(Support Vector Machine, SVM)中的一種,SVM分類器是分類器的統(tǒng)稱。
[0032]文本分類器以詞混淆網(wǎng)絡作為輸入,當一個詞被語音識別系統(tǒng)識別為第一優(yōu)選結(jié)果,則其所有的混淆詞獲得相應加分,并將整個詞混淆網(wǎng)絡輸入到文本分類器,而不是只把第一優(yōu)選結(jié)果作為輸入,降低了文本分類器對語音識別系統(tǒng)識別結(jié)果的依賴性,從而增強了系統(tǒng)的容錯性,在相同語音識別系統(tǒng)的基礎上可獲得更優(yōu)的分類結(jié)果,如圖5所示。
[0033]語音識別系統(tǒng)輸出:“我要用手機傷亡”,則“傷亡”的混淆詞“上網(wǎng)”同樣獲得相應的加分;如圖5所示,“GPRS”獲得的總得分為0+0+0+0.3+0.8+0=1.1,仍然為最優(yōu)分類結(jié)果。因此,通過使用詞混淆網(wǎng)絡進行分類,可以顯著減小分類系統(tǒng)對語音識別系統(tǒng)的過度依賴,提高了文本分類的準確率。所以,基于詞混淆網(wǎng)絡的文本分類法較傳統(tǒng)分類方法更具優(yōu)越性。
[0034]方法實施例
[0035]根據(jù)本發(fā)明實施例,提供了一種語音識別的文本分類方法,圖6為本發(fā)明語音識別的文本分類方法實施例一的流程圖。如圖6所示,本實施例包括:
[0036]步驟102:根據(jù)預先設計的業(yè)務類別的類型,每個業(yè)務類別收集一定數(shù)量的訓練文本;
[0037]步驟104:再收集與上述業(yè)務類別對應的訓練語音,訓練語音的內(nèi)容與步驟102中的訓練文本的內(nèi)容要保持一致,使用語音識別引擎對收集的訓練語音進行解碼,得到該訓練語音的詞混淆網(wǎng)絡。其中,詞混淆網(wǎng)絡中除了包含生成文本外,還包含有該生成文本中詞語對應的聲學置信度。
[0038]步驟106:根據(jù)訓練文本和詞混淆網(wǎng)絡提取訓練文本的文本特征,文本特征使用字的Four-gram,S卩(W1-2 I W1-1 I Wi I Wi+1 ),其中,Wi為當前字,ff1-2和W1-1為當前字的前續(xù),Wi+1為當前字的后續(xù)。對于訓練文本而言,如果某個N-gram出現(xiàn),與該N-gram對應的文本特征的權重即為1,否則,該文本特征的權重為0 ;對于訓練語音的詞混淆網(wǎng)絡而言,如果某個N-gram出現(xiàn),與該N-gram對應的文本特征的權重為該N-gram中所有字的聲學置信度的積,否則,該文本特征的權重為O。
[0039]步驟108:根據(jù)步驟106中得到的文本特征訓練集內(nèi)支持向量機分類器(SupportVector Machine, SVM);
[0040]SVM訓練技術,該技術為國際通用模式識別訓練技術,詳見SVM原理。
[0041]步驟110:通過經(jīng)過步驟108訓練的支持向量機分類器(即SVM)對文本進行分類。
[0042]根據(jù)本發(fā)明實施例,提供了另一種語音識別的文本分類方法。該實施例以具體業(yè)務為例,對本發(fā)明的文本分類方法進行進一步說明;其中,假定業(yè)務類別為:話費查詢和手機上網(wǎng),對于用戶的語音命令輸入進行文本識別。本實施例包括:
[0043]步驟202:根據(jù)預先設計的業(yè)務類別的類型,每個業(yè)務類別收集一定數(shù)量的訓練文本,如圖7所示;
[0044]步驟204:再收集與上述業(yè)務類別對應的訓練語音,訓練語音的內(nèi)容與步驟202中的訓練文本的內(nèi)容要保持一致,使用語音識別引擎對收集的訓練語音進行解碼,如圖8所示,得到該訓練語音的詞混淆網(wǎng)絡,如圖9所示;在圖8中,()表示多候選,[]表示文本丟失{}表不增加。
[0045]其中,詞混淆網(wǎng)絡中除了包含生成文本外,還包含有該生成文本中詞語對應的聲
學置信度。
[0046]步驟206:根據(jù)訓練文本和詞混淆網(wǎng)絡提取訓練文本的文本特征,文本特征使用字的Four-gram,S卩(W1-2 I W1-1 I Wi I Wi+1 ),其中,Wi為當前字,ff1-2和W1-1為當前字的前續(xù),Wi+1為當前字的后續(xù)。對于現(xiàn)有的訓練文本而言,如果某個N-gram出現(xiàn),與該N-gram對應的文本特征的權重即為1,否則,該文本特征的權重為0,如圖10所示;對于本發(fā)明的訓練語音的詞混淆網(wǎng)絡而言,如果某個N-gram出現(xiàn),與該N-gram對應的文本特征的權重為該N-gram中所有字的聲學置信度的積,否則,該文本特征的權重為0,如圖11所示。在圖11中,第I行中的“我”的聲學置信度取詞混淆網(wǎng)絡中上下兩路中的較大值,故取0.7。
[0047]步驟208:根據(jù)步驟206中得到的文本特征訓練SVM分類器。SVM分類器采用的是SVM訓練技術,該技術為國際通用的模式識別訓練技術,主要是將文本特性表示為高維特征矢量,矢量參數(shù)通過已有的文本特征進行計算,最終獲得SVM分類器。其中,SVM訓練技術包括如下內(nèi)容:
[0048]一、SVM特征提取
[0049](I)訓練使用文本:使用訓練語料中的“字”及其N-gram,即使用訓練字典中所有“字”及其N-gram組成一個高維的特征矢量,對于某條訓練語料,如果某個“字”出現(xiàn),該維特征即為“1”,反之為“O”。
[0050](2)訓練使用WCN:提取SVM特征時設置聲學CM (Confidence Measure,置信度)門限,首先將CM較小的詞裁剪掉;其次同樣取WCN中的“字”及其N-gram,當某個N-gram出現(xiàn)時其權重的計算與其聲學CM有關,如果這個N-gram包含一個以上的“字”,使用這幾個“字”聲學CM的幾何平均,聲學置信度的計算公如下:
[0051]Giwl ,...,Wj = Confiwi)
[0052]二、SVM 訓練[0053]SVM是一個常用的解決分類問題的方法,通常將輸入向量映射到高維空間,在高維空間中形成線性分類器以解決分類問題,但是在諸如呼叫導航等大規(guī)模文本分類任務中,其輸入向量維數(shù)巨大,一般采用線性核可以取得較好的分類效果。求解線性核的方法一般分為兩大類,即求解原始問題與對偶問題,我們采用的SVM的訓練方法為求解C-線性支持向量分類機的對偶問題,即求解下面的問題:
【權利要求】
1.一種語音識別的文本分類方法,其特征在于,包括: 根據(jù)業(yè)務類別的類型,為每個業(yè)務類別收集訓練文本和與所述訓練文本的內(nèi)容保持一致的訓練語音; 對所述訓練語音進行解碼,得到所述訓練語音的詞混淆網(wǎng)絡; 根據(jù)所述訓練文本和詞混淆網(wǎng)絡,提取訓練文本的文本特征; 根據(jù)所述文本特征,訓練集內(nèi)支持向量機分類器; 由經(jīng)過訓練的所述支持向量機分類器對文本進行分類。
2.根據(jù)權利要求1所述的方法,其特征在于,所述詞混淆網(wǎng)絡包括生成文本和與所述生成文本中的詞語對應的聲學置信度。
3.根據(jù)權利要求2所述的方法,其特征在于,所述文本特征使用字的Four-gram表示,其中,Wi為當前字,W1-2和W1-1為所述字的前續(xù),Wi+1為所述字的后續(xù)。
4.根據(jù)權利要求3所述的方法,其特征在于,在所述訓練語音的詞混淆網(wǎng)絡中,如果所述文本特征對應的N-gram出現(xiàn),所述文本特征的權重為所述N-gram中所有字的聲學置信度的積,否則,所述文本特征的權重為O。
5.一種語音識別的文本分類裝置,其特征在于,包括: 文本收集模塊,用于根據(jù)業(yè)務類別的類型,為每個業(yè)務類別收集訓練文本和與所述訓練文本的內(nèi)容保持一致的訓練語音; 語音解碼模塊,用于對所述訓練語音進行解碼,得到所述訓練語音的詞混淆網(wǎng)絡; 特征提取模塊,用于根據(jù)所述訓練文本和詞混淆網(wǎng)絡,提取訓練文本的文本特征; 分類器訓練模塊,用于根據(jù)所述文本特征,訓練集內(nèi)支持向量機分類器; 文本分類模塊,用于由經(jīng)過訓練的所述支持向量機分類器對文本進行分類。
6.根據(jù)權利要求5所述的裝置,其特征在于,所述詞混淆網(wǎng)絡包括生成文本和與所述生成文本中的詞語對應的聲學置信度。
7.根據(jù)權利要求6所述的裝置,其特征在于,所述文本特征使用字的Four-gram表示,其中,Wi為當前字,W1-2和W1-1為所述字的前續(xù),Wi+1為所述字的后續(xù)。
8.根據(jù)權利要求7所述的裝置,其特征在于,在所述訓練語音的詞混淆網(wǎng)絡中,如果所述文本特征對應的N-gram出現(xiàn),所述文本特征的權重為所述N-gram中所有字的聲學置信度的積,否則,所述文本特征的權重為O。
【文檔編號】G06F17/30GK103514170SQ201210204350
【公開日】2014年1月15日 申請日期:2012年6月20日 優(yōu)先權日:2012年6月20日
【發(fā)明者】萬鵬, 梁政, 劉江, 鹿曉亮, 李釗輝, 劉慶峰 申請人:中國移動通信集團安徽有限公司