自動(dòng)語音識(shí)別方法和系統(tǒng)的制作方法
【專利摘要】本申請(qǐng)公開了一種自動(dòng)語音識(shí)別方法和系統(tǒng),包括:對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料;針對(duì)所述每個(gè)分類語料進(jìn)行訓(xùn)練得到一個(gè)以上對(duì)應(yīng)的分類語言模型;依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型;依據(jù)聲學(xué)模型和所述插值語言模型構(gòu)建解碼資源;依據(jù)所述解碼資源,對(duì)輸入的語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。利用本發(fā)明,可以提高對(duì)生僻詞語的語音的識(shí)別準(zhǔn)確率。
【專利說明】自動(dòng)語音識(shí)別方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及自動(dòng)語音識(shí)別(ASR, Automatic Speech Recognition)【技術(shù)領(lǐng)域】,尤其涉及一種自動(dòng)語音識(shí)別方法和系統(tǒng)。
【背景技術(shù)】
[0002]自動(dòng)語音識(shí)別技術(shù)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入字符的一項(xiàng)技術(shù)。語音識(shí)別具有復(fù)雜的處理流程,主要包括聲學(xué)模型訓(xùn)練、語言模型訓(xùn)練、解碼資源構(gòu)建、以及解碼四個(gè)過程。圖1為現(xiàn)有自動(dòng)語音識(shí)別系統(tǒng)的一種主要處理流程的示意圖。參見圖1,主要處理過程包括:
[0003]步驟101和102,需要根據(jù)聲學(xué)原料進(jìn)行聲學(xué)模型訓(xùn)練得到聲學(xué)模型,以及根據(jù)生語料進(jìn)行語言模型訓(xùn)練得到語言模型。
[0004]所述聲學(xué)模型是語音識(shí)別系統(tǒng)中最為重要的部分之一,目前的主流語音識(shí)別系統(tǒng)多采用隱馬爾科夫模型(HMM,Hidden Markov Model)進(jìn)行建模,隱馬爾可夫模型是統(tǒng)計(jì)模型,它用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程。在隱馬爾可夫模型中,狀態(tài)并不是直接可見的,但受狀態(tài)影響的某些變量則是可見的。在聲學(xué)模型中描述了語音與音素的對(duì)應(yīng)概率。所述音素是根據(jù)語音的自然屬性劃分出來的最小語音單位。從聲學(xué)性質(zhì)來看,音素是從音質(zhì)角度劃分出來的最小語音單位;從生理性質(zhì)來看,一個(gè)發(fā)音動(dòng)作形成一個(gè)音素。 [0005]所述語言模型主要構(gòu)建為字符串s的概率分布P (S),反映了字符串s作為一個(gè)句子出現(xiàn)的概率。假設(shè)W為字符串S中的每個(gè)詞,則:
[0006]P (s) =p (W1W2W3...wn) =p (W1) p (w21W1) p (w31W1W2)...p (wk | W1W2..W^1)
[0007]步驟103,依據(jù)所述聲學(xué)模型和語言模型,以及預(yù)設(shè)的詞典,構(gòu)建相應(yīng)的解碼資源。所述解碼資源為加權(quán)優(yōu)先轉(zhuǎn)換機(jī)(WFST, weighted finite state transducer)網(wǎng)絡(luò)。
[0008]步驟104、將語音輸入到解碼器,解碼器依據(jù)所構(gòu)建的解碼資源對(duì)所述語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0009]但是,現(xiàn)有的語音識(shí)別技術(shù)多基于普適性的語音識(shí)別應(yīng)用,即針對(duì)常用說話識(shí)別來進(jìn)行模型搭建,這種情況下,語言模型的訓(xùn)練語料主要根據(jù)數(shù)據(jù)采集以及實(shí)際用戶的輸入,雖然從某種程度上較好地反映了用戶的說話習(xí)慣,針對(duì)日常用語往往有較好的識(shí)別效果;但是,由于語言模型的訓(xùn)練語料中關(guān)于生僻詞語較少出現(xiàn),例如醫(yī)藥名和地名等,不能形成有效的概率統(tǒng)計(jì)模型,語言模型中生僻詞語對(duì)應(yīng)字符串的概率值非常低,因此當(dāng)需要識(shí)別用戶說出的較為生僻的詞語的時(shí)候,往往會(huì)發(fā)生數(shù)據(jù)偏移問題,即識(shí)別出的字符串不是用戶說出的詞語,也就是說對(duì)于生僻詞語的語音的識(shí)別準(zhǔn)確率較低,難以取得較好的識(shí)別結(jié)果。
【發(fā)明內(nèi)容】
[0010]有鑒于此,本發(fā)明的主要目的在于提供一種自動(dòng)語音識(shí)別方法和系統(tǒng),以提高對(duì)生僻詞語的語音的識(shí)別準(zhǔn)確率。[0011]本發(fā)明的一種技術(shù)方案是這樣實(shí)現(xiàn)的:
[0012]一種自動(dòng)語音識(shí)別方法,包括:
[0013]對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料;
[0014]針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型;
[0015]依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型;
[0016]依據(jù)聲學(xué)模型和所述插值語言模型構(gòu)建解碼資源;
[0017]依據(jù)所述解碼資源,對(duì)輸入的語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0018]一種自動(dòng)語音識(shí)別系統(tǒng),包括:
[0019]分類處理模塊,用于對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料;
[0020]分類語言模型訓(xùn)練模塊,用于針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型;
[0021]加權(quán)合并模塊,用于依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型;
[0022]資源構(gòu)建模塊,用于依據(jù)聲學(xué)模型和所述插值語言模型構(gòu)建解碼資源;
[0023]解碼器,用于依據(jù)所述解碼資源,對(duì)輸入的語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0024]與現(xiàn)有技術(shù)相比,本發(fā)明的上述技術(shù)方案對(duì)生語料進(jìn)行語料分類計(jì)算和訓(xùn)練,得到一個(gè)以上對(duì)應(yīng)的分類語言模型,從而使得生僻詞語可以被分類到某一個(gè)或某幾個(gè)分類語言模板中,然后依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,即生僻程度越高,則對(duì)應(yīng)的加權(quán)值越高,將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型。這樣在插值語言模板中,生僻詞語所對(duì)應(yīng)的字符串的概率值就會(huì)相應(yīng)提高,從而減少與常用詞語對(duì)應(yīng)字符串的概率值的差距,后續(xù)解碼過程中,當(dāng)需要識(shí)別用戶說出的較為生僻的詞語的時(shí)候,由于生僻詞語對(duì)應(yīng)的字符串的概率值顯著提高,因此會(huì)降低發(fā)生數(shù)據(jù)偏移的幾率,提高了對(duì)于生僻詞語的語音的識(shí)別準(zhǔn)確率。
[0025]本發(fā)明的再一種技術(shù)方案是這樣實(shí)現(xiàn)的:
[0026]一種自動(dòng)語音識(shí)別方法,包括:
[0027]根據(jù)生語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到主語言模型;
[0028]對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料;
[0029]針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型;
[0030]依據(jù)聲學(xué)模型和所述主語言模型構(gòu)建主解碼資源,依據(jù)所述各分類語言模型構(gòu)建對(duì)應(yīng)的分類解碼資源;[0031]依據(jù)所述主解碼資源對(duì)輸入的語音進(jìn)行解碼,輸出概率值I (W)排在前η名的η個(gè)字符串;
[0032]依次根據(jù)所述各個(gè)分類語言模型對(duì)應(yīng)的各分類解碼資源,分別對(duì)所述η個(gè)字符串進(jìn)行解碼,得到每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w);將每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w)乘以該字符串在主語言模型中的概率值I (w)得到復(fù)合概率P (?),輸出復(fù)合概率P (?)最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0033]一種自動(dòng)語音識(shí)別系統(tǒng),包括:
[0034]主語言模型訓(xùn)練模塊,用于根據(jù)生語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到主語言模型;
[0035]分類處理模塊,用于對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料;
[0036]分類語言模型訓(xùn)練模塊,用于針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型;
[0037]主資源構(gòu)建模塊,用于依據(jù)聲學(xué)模型和所述主語言模型構(gòu)建主解碼資源;
[0038]分類資源構(gòu)建模塊,用于依據(jù)所述各分類語言模型構(gòu)建對(duì)應(yīng)的分類解碼資源;
[0039]第一解碼器,用于依據(jù)所述主解碼資源對(duì)輸入的語音進(jìn)行解碼,輸出概率值I (W)排在前η名的η個(gè)字符串;
[0040]第二解碼器,用于依次根據(jù)所述各個(gè)分類語言模型對(duì)應(yīng)的各分類解碼資源,分別對(duì)所述η個(gè)字符串進(jìn)行解碼,得到每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w);將每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w)乘以該字符串在主語言模型中的概率值I(w)得到復(fù)合概率P (W),輸出復(fù)合概率P (w)最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0041]與現(xiàn)有技術(shù)相比,本發(fā)明的上述方案對(duì)生語料進(jìn)行語料分類計(jì)算和訓(xùn)練,得到一個(gè)以上對(duì)應(yīng)的分類語言模型,從而使得生僻詞語可以被分類到某一個(gè)或某幾個(gè)分類語言模型中,而生僻詞語在其所屬的最相關(guān)的分類語言模型中的概率值n (w)是較高的;在對(duì)輸入語音進(jìn)行解碼時(shí),先利用主語言模型所構(gòu)建的主解碼資源進(jìn)行一次解碼,輸出的概率值I(w)排在前η的η個(gè)字符串,生僻詞語對(duì)應(yīng)的字符串雖然在主語言模型中的概率值I (w)往往不是最高的,但是通常能夠排在前η名;接下來,再對(duì)該η個(gè)字符串分別根據(jù)每個(gè)分類語言模型對(duì)應(yīng)的分類解碼資源進(jìn)行二次解碼,得到每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w);將每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w)乘以該字符串在主語言模型中的概率值I (w)得到復(fù)合概率P (W),該復(fù)合概率P (W)可以修正生僻詞語的過低概率值I (w),因此按照該復(fù)合概率P (w)的高低輸出的字符串作為所述輸入語音的識(shí)別結(jié)果,可以降低生僻詞語的語音發(fā)生數(shù)據(jù)偏移的幾率,提高了對(duì)于生僻詞語的語音的識(shí)別準(zhǔn)確率。
[0042]由于本發(fā)明的技術(shù)方案沒有對(duì)原始的生語料提出特殊要求,以生僻詞出現(xiàn)頻率較少的生語料為基礎(chǔ)進(jìn)行訓(xùn)練即可達(dá)到本發(fā)明的發(fā)明目的,因此能夠在不影響普通用戶日常使用的情況下,滿足了某些特殊用戶對(duì)生僻詞語的語音識(shí)別需求。
【專利附圖】
【附圖說明】
[0043]圖1為現(xiàn)有自動(dòng)語音識(shí)別系統(tǒng)的一種主要處理流程的示意圖;
[0044]圖2為本發(fā)明所述自動(dòng)語音識(shí)別方法的一種處理流程圖;[0045]圖3為本發(fā)明所述自動(dòng)語音識(shí)別方法的又一種處理流程圖;
[0046]圖4為本發(fā)明所述對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料的具體處理流程圖;
[0047]圖5為本發(fā)明所述一種語音識(shí)別系統(tǒng)的一種組成示意圖;
[0048]圖6為本發(fā)明所述又一種語音識(shí)別系統(tǒng)的一種組成示意圖;
[0049]圖7為所述圖5和圖6中所述的分類處理模塊的一種組成示意圖。
【具體實(shí)施方式】
[0050]下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明再作進(jìn)一步詳細(xì)的說明
[0051]圖2為本發(fā)明所述自動(dòng)語音識(shí)別方法的一種處理流程圖。參見圖2,該流程包括:
[0052]步驟201、對(duì) 生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料。例如,所述分類語料可以分為人名類、地名類、計(jì)算機(jī)術(shù)語類、醫(yī)藥術(shù)語類等等。例如“板藍(lán)根”屬于醫(yī)藥術(shù)語類的詞。一個(gè)詞也有可能屬于多個(gè)分類。
[0053]步驟202、針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分
類語目模型。
[0054]步驟203、依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,即生僻程度越高,則對(duì)應(yīng)的加權(quán)值越高,并將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型。這樣在插值語言模板中,生僻詞語所對(duì)應(yīng)的字符串的概率值就會(huì)相應(yīng)提高,從而減少與常用詞語對(duì)應(yīng)字符串的概率值的差距,提高生僻詞的語音被識(shí)別的幾率。
[0055]步驟204、依據(jù)聲學(xué)模型和所述插值語言模型構(gòu)建解碼資源。此處假設(shè)聲學(xué)模型已經(jīng)訓(xùn)練好,本發(fā)明可以直接利用現(xiàn)有的聲學(xué)模型。另外,本領(lǐng)域技術(shù)人員知道,在構(gòu)建解碼資源的過程中,還需要詞典的參與,來構(gòu)建解碼資源。
[0056]步驟205、依據(jù)所述解碼資源,對(duì)輸入的語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0057]圖3為本發(fā)明所述自動(dòng)語音識(shí)別方法的又一種處理流程圖。參見圖3,該流程包括:
[0058]步驟301、根據(jù)生語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到主語言模型。此處的語言模型訓(xùn)練為現(xiàn)有的常規(guī)語言模型訓(xùn)練。
[0059]步驟302、對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料。
[0060]步驟303、針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分
類語目模型。
[0061]步驟300~305、依據(jù)聲學(xué)模型和所述主語言模型構(gòu)建主解碼資源,依據(jù)所述各分類語言模型構(gòu)建對(duì)應(yīng)的分類解碼資源。所述主解碼資源用于在第一次解碼時(shí)使用,所述分類解碼資源用于在第二次解碼時(shí)使用。
[0062]步驟306、依據(jù)所述主解碼資源對(duì)輸入的語音進(jìn)行解碼,即第一次解碼,輸出概率值I (W)排在前η名的η個(gè)字符串。所述概率值I (W)為語音對(duì)應(yīng)的字符串在主語言模型中的概率值。
[0063]步驟307、依次根據(jù)所述各個(gè)分類語言模型對(duì)應(yīng)的各分類解碼資源,分別對(duì)所述η個(gè)字符串進(jìn)行解碼,得到每個(gè)字符串在每個(gè)分類語言模型中的概率值η (W)。假設(shè)此處有m個(gè)分類語言模型,則會(huì)得到nXm個(gè)概率值η (W)。然后,將每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w)乘以該字符串在主語言模型中的概率值I (w)得到nXm個(gè)復(fù)合概率P (?),輸出復(fù)合概率P (?)最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0064]在所述步驟201和步驟302中,所述對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料的具體方法如圖4所示,具體包括:
[0065]步驟401、根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣。
[0066]所述生語料是一種訓(xùn)練文本。本發(fā)明通過建立詞的親和度矩陣(也稱為詞共現(xiàn)矩陣)來描述詞之間的語義關(guān)系。在人的認(rèn)知層面上,一個(gè)詞總是與其它詞有關(guān)聯(lián),而不是孤立存在的。這種關(guān)聯(lián)用一種激活效應(yīng)可以表示,例如,聽到“醫(yī)生”這個(gè)詞,馬上會(huì)聯(lián)想到“患者”或者“護(hù)士”;聽到“貓”這個(gè)詞,立刻會(huì)聯(lián)想到“狗”;聽到“男孩”,反應(yīng)出“女孩”;“喝”聯(lián)想到“水”。
[0067]因此在該 步驟401中,首先要計(jì)算每個(gè)詞與另一個(gè)詞的詞共現(xiàn)度。具體包括:
[0068]對(duì)生語料進(jìn)行分析,根據(jù)公式計(jì)算每個(gè)詞與另一個(gè)詞的詞共
現(xiàn)度,并據(jù)此構(gòu)建詞與詞的詞共現(xiàn)矩陣;其中,所述匕為詞i在詞j前出現(xiàn)的次數(shù),du為詞i和詞j的平均距離,fi為詞i的詞頻,fj為詞j的詞頻。
[0069]根據(jù)所述詞共現(xiàn)矩陣,以及公式Aij=Sqrt ( Σ OR (waf ik, waf Jk) Σ OR (wafki, wafkJ))計(jì)算詞與詞之間的親和度,并據(jù)此構(gòu)建詞與詞之間的親和度矩陣。
[0070]所述的親和度,被定義為兩個(gè)詞入鏈與入鏈的重疊部分、出鏈與出鏈的重疊部分的幾何平均值。顯然詞親和度矩陣是一個(gè)對(duì)稱矩陣,即無向的網(wǎng)絡(luò)。按親和度大小排序,排在前面的詞基本都是同義、近義或非常相關(guān)的詞。在親和度網(wǎng)絡(luò)中,兩結(jié)點(diǎn)間的邊的親和度越強(qiáng),說明他們?cè)较嚓P(guān);如果強(qiáng)度很弱甚至兩結(jié)點(diǎn)不存在邊,則表明它們幾乎不相關(guān)。通過計(jì)算Ai j,可以構(gòu)建一個(gè)詞與詞之間的協(xié)方差矩陣,該協(xié)方差矩陣就是親和度矩陣,該親和度矩陣中,由于是按親和度排序,對(duì)于親和度很小的部分可以忽略,因此該親和度矩陣的維度相比原始的生語料的詞特征向量的維度會(huì)小很多。
[0071]步驟402、利用詞頻-逆向文件頻率(TF-1DF,term frequency -1nverse documentfrequency)方法從生語料中提取詞特征。
[0072]本發(fā)明文本分類中主要應(yīng)用的模型是文本的向量空間模型(VSM,Vector SpaceModel)。向量空間模型的基本思想是以文本的特征向量〈11,12,13,…,評(píng)!!〉來表示文本,其中Wi為第i個(gè)特征項(xiàng)的權(quán)重。因此基于向量空間模型的分類中關(guān)鍵一步就是如何從文本中提取反映類別的有效特征。在本步驟402中,本發(fā)明采用TF-1DF方法從生語料中提取詞特征,用TF-1DF特征來表示w的權(quán)重。
[0073]在一份給定的文件里,詞頻(TF, term frequency)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。這個(gè)數(shù)字通常會(huì)被歸一化,以防止它偏向長(zhǎng)的文件。同一個(gè)詞語在長(zhǎng)文件里可能會(huì)比短文件有更高的詞頻,而不管該詞語重要與否。逆向文件頻率(IDF,inversedocument frequency)是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-1DF。因此,TF-1DF傾向于保留文檔中較為特別的詞語,過濾常用詞。因此通過這種TF-1DF的方式,可以從生語料中提取出較生僻的詞語的詞特征。
[0074]步驟403、根據(jù)所述親和度矩陣,利用降維方法對(duì)所提取出的詞特征進(jìn)行降維處理。
[0075]在本步驟403中,所述降維方法可以有多種。但是在一種優(yōu)選實(shí)施方式中,可以采用主成分分析(PCA, Principal Components Analysis)降維方法來實(shí)現(xiàn)。由于在步驟402中所提取出的詞特征向量的維度較高,例如此處假設(shè)為N維,而步驟401所述的親和度矩陣的維度較少,例如此處假設(shè)為M維,N遠(yuǎn)大于M。那么經(jīng)過降維處理后,所述N維的詞特征向量的維度則被降為M維。即通過降維處理,可以降低噪聲數(shù)據(jù)的影響,降低時(shí)間復(fù)雜度和空間復(fù)雜度等,可以將那些親和度小的詞與詞的組合過濾掉。
[0076]步驟404、將降維處理后的詞特征輸入分類器進(jìn)行訓(xùn)練,輸出一個(gè)以上不同類別的分類語料。
[0077]分類器是一種計(jì)算機(jī)程序,可以自動(dòng)將輸入的數(shù)據(jù)分到已知的類別。本步驟404中,所述分類器可以采用現(xiàn)有的某種分類器。例如在一種優(yōu)選實(shí)施方式中,所述分類器為支持向量機(jī)(SVM, Support Vector Machine)分類器。經(jīng)過測(cè)試,本發(fā)明在20個(gè)類的分類效果能夠達(dá)到92%的準(zhǔn)確率。
[0078]當(dāng)然,除了圖4所述的對(duì)生語料進(jìn)行語料分類計(jì)算的方法,本發(fā)明還可以采用其它現(xiàn)有的語料分類計(jì)算方法對(duì)生語料進(jìn)行分類。但是,圖4所述的方法的準(zhǔn)確率更高,速度更快。
[0079]與上述方法相對(duì)應(yīng),本發(fā)明還公開了語音識(shí)別系統(tǒng),用于執(zhí)行上述的方法。
[0080]圖5為本發(fā)明所述一種語音識(shí)別系統(tǒng)的一種組成示意圖。參見圖5,該系統(tǒng)包括:
[0081]分類處理模塊501,用于對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料。
[0082]分類語言模型訓(xùn)練模塊502,用于針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型;
[0083]加權(quán)合并模塊503,用于依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,即生僻程度越高,則對(duì)應(yīng)的加權(quán)值越高,將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型。
[0084]資源構(gòu)建模塊504,用于依據(jù)聲學(xué)模型和所述插值語言模型構(gòu)建解碼資源。
[0085]解碼器505,用于依據(jù)所述解碼資源,對(duì)輸入的語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
[0086]圖6為本發(fā)明所述又一種語音識(shí)別系統(tǒng)的一種組成示意圖。參見圖6,該系統(tǒng)包括:
[0087]主語言模型訓(xùn)練模塊601,用于根據(jù)生語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到主語言模型。此處的語言模型訓(xùn)練為現(xiàn)有的常規(guī)語言模型訓(xùn)練。
[0088]分類處理模塊602,用于對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料。
[0089]分類語言模型訓(xùn)練模塊603,用于針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型。[0090]主資源構(gòu)建模塊604,用于依據(jù)聲學(xué)模型和所述主語言模型構(gòu)建主解碼資源。
[0091]分類資源構(gòu)建模塊605,用于依據(jù)所述各分類語言模型構(gòu)建對(duì)應(yīng)的分類解碼資源。
[0092]第一解碼器606,用于依據(jù)所述主解碼資源對(duì)輸入的語音進(jìn)行解碼,輸出概率值I(w)排在前η名的η個(gè)字符串;
[0093]第二解碼器607,用于依次根據(jù)所述各個(gè)分類語言模型對(duì)應(yīng)的各分類解碼資源,分別對(duì)所述η個(gè)字符串進(jìn)行解碼,得到每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w);將每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w)乘以該字符串在主語言模型中的概率值I (w)得到復(fù)合概率P (W),輸出復(fù)合概率P (w)最高的字符串作為所述輸入語音的識(shí)別結(jié)果O
[0094]圖7為所述圖5和圖6中所述的分類處理模塊的一種組成示意圖。參見圖7,所述分類處理模塊具體包括:
[0095]親和度矩陣模塊701,用于根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣。具體的計(jì)算方法請(qǐng)參考上述步驟401至步驟404。
[0096]特征提取模塊702,用于利用TF-1DF方法從生語料中提取詞特征。
[0097]降維模塊703,用于根據(jù)所述親和度矩陣,利用降維方法對(duì)所提取出的詞特征進(jìn)行降維處理。在一種優(yōu)選實(shí)施方式中,所述降維模塊為PCA降維模塊。
[0098]分類器704,用于對(duì)降維處理后的詞特征進(jìn)行訓(xùn)練,輸出一個(gè)以上不同類別的分類預(yù)料。在一種優(yōu)選實(shí)施方式中,所述分類器為SVM分類器。
[0099]本發(fā)明所述的語音識(shí)別方法和系統(tǒng)可以應(yīng)用在垂直領(lǐng)域的語音識(shí)別、語音關(guān)鍵字的識(shí)別,以及語音問答系統(tǒng)等【技術(shù)領(lǐng)域】中。而且可以支持多平臺(tái),包括嵌入式平臺(tái)和PC平臺(tái)。
[0100]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種自動(dòng)語音識(shí)別方法,其特征在于,包括: 對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料; 針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型;依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型; 依據(jù)聲學(xué)模型和所述插值語言模型構(gòu)建解碼資源; 依據(jù)所述解碼資源,對(duì)輸入的語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料,具體包括: 根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣; 利用詞頻-逆向文件頻率TF-1DF方法從生語料中提取詞特征; 根據(jù)所述親和度矩陣,利用降維方法對(duì)所提取出的詞特征進(jìn)行降維處理; 將降維處理后的詞特征輸入分類器進(jìn)行訓(xùn)練,輸出一個(gè)以上不同類別的分類預(yù)料。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣,具體包括: 對(duì)生語料進(jìn)行分析,根據(jù)公式
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述降維方法為主成分分析PCA降維方法。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分類器為支持向量機(jī)SVM分類器。
6.一種自動(dòng)語音識(shí)別方法,其特征在于,包括: 根據(jù)生語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到主語言模型; 對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料; 針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型;依據(jù)聲學(xué)模型和所述主語言模型構(gòu)建主解碼資源,依據(jù)所述各分類語言模型構(gòu)建對(duì)應(yīng)的分類解碼資源; 依據(jù)所述主解碼資源對(duì)輸入的語音進(jìn)行解碼,輸出概率值I (w)排在前η名的η個(gè)字符串; 依次根據(jù)所述各個(gè)分類語言模型對(duì)應(yīng)的各分類解碼資源,分別對(duì)所述η個(gè)字符串進(jìn)行解碼,得到每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w);將每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w)乘以該字符串在主語言模型中的概率值I (w)得到復(fù)合概率P(W),輸出復(fù)合概率P (w)最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料,具體包括: 根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣; 利用TF-1DF方法從生語料中提取詞特征; 根據(jù)所述親和度矩陣,利用降維方法對(duì)所提取出的詞特征進(jìn)行降維處理; 將降維處理后的詞特征輸入分類器進(jìn)行訓(xùn)練,輸出一個(gè)以上不同類別的分類預(yù)料。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣,具體包括: 對(duì)生語料進(jìn)行分析,根據(jù)公式
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述降維方法為PCA降維方法。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述分類器為SVM分類器。
11.一種自動(dòng)語音識(shí)別系統(tǒng),其特征在于,包括:分類處理模塊,用于對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料; 分類語言模型訓(xùn)練模塊,用于針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型; 加權(quán)合并模塊,用于依據(jù)分類的生僻程度為所述各個(gè)分類語言模型進(jìn)行加權(quán)插值處理,其中各分類的生僻程度與該分類對(duì)應(yīng)的加權(quán)值成正相關(guān)關(guān)系,將加權(quán)插值處理后的分類語言模型合并,得到插值語言模型; 資源構(gòu)建模塊,用于依據(jù)聲學(xué)模型和所述插值語言模型構(gòu)建解碼資源; 解碼器,用于依據(jù)所述解碼資源,對(duì)輸入的語音進(jìn)行解碼,輸出概率值最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述分類處理模塊具體包括: 親和度矩陣模塊,用于根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣; 特征提取模塊,用于利用TF-1DF方法從生語料中提取詞特征; 降維模塊,用于根據(jù)所述親和度矩陣,利用降維方法對(duì)所提取出的詞特征進(jìn)行降維處理; 分類器,用于對(duì)降維處理后的詞特征進(jìn)行訓(xùn)練,輸出一個(gè)以上不同類別的分類預(yù)料。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述降維模塊為PCA降維模塊。
14.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述分類器為SVM分類器。
15.一種自動(dòng)語音識(shí)別系統(tǒng),其特征在于,包括: 主語言模型訓(xùn)練模塊,用于根據(jù)生語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到主語言模型; 分類處理模塊,用于對(duì)生語料進(jìn)行語料分類計(jì)算,得到一個(gè)以上不同類別的分類語料; 分類語言模型訓(xùn)練模塊,用于針對(duì)所述每個(gè)分類語料進(jìn)行語言模型訓(xùn)練計(jì)算,得到一個(gè)以上對(duì)應(yīng)的分類語言模型; 主資源構(gòu)建模塊,用于依據(jù)聲學(xué)模型和所述主語言模型構(gòu)建主解碼資源; 分類資源構(gòu)建模塊,用于依據(jù)所述各分類語言模型構(gòu)建對(duì)應(yīng)的分類解碼資源; 第一解碼器,用于依據(jù)所述主解碼資源對(duì)輸入的語音進(jìn)行解碼,輸出概率值I (W)排在前η名的η個(gè)字符串; 第二解碼器,用于依次根據(jù)所述各個(gè)分類語言模型對(duì)應(yīng)的各分類解碼資源,分別對(duì)所述η個(gè)字符串進(jìn)行解碼,得到每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w);將每個(gè)字符串在每個(gè)分類語言模型中的概率值n (w)乘以該字符串在主語言模型中的概率值I (w)得到復(fù)合概率P (?),輸出復(fù)合概率P (?)最高的字符串作為所述輸入語音的識(shí)別結(jié)果。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其特征在于,所述分類處理模塊具體包括: 親和度矩陣模塊,用于根據(jù)生語料,計(jì)算詞與詞之間的親和度矩陣; 特征提取模塊,用于利用TF-1DF方法從生語料中提取詞特征; 降維模塊,用于根據(jù)所述親和度矩陣,利用降維方法對(duì)所提取出的詞特征進(jìn)行降維處理; 分類器,用于對(duì)降維處理后的詞特征進(jìn)行訓(xùn)練,輸出一個(gè)以上不同類別的分類預(yù)料。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述降維模塊為PCA降維模塊。
18.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述分類器為SVM分類器。
【文檔編號(hào)】G10L15/06GK103971675SQ201310033201
【公開日】2014年8月6日 申請(qǐng)日期:2013年1月29日 優(yōu)先權(quán)日:2013年1月29日
【發(fā)明者】饒豐, 盧鯉, 陳波, 岳帥, 張翔, 王爾玉, 謝達(dá)東, 李露, 陸讀羚 申請(qǐng)人:騰訊科技(深圳)有限公司