一種語音識別方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種語音識別方法及系統(tǒng),其中語音識別方法包括:語音服務器利用統(tǒng)計語言模型對語音客戶端發(fā)送的待識別語音進行識別,并將識別中得到的候選解碼網(wǎng)絡發(fā)送至所述語音客戶端;所述語音客戶端將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配,以確定最優(yōu)解碼路徑,并將所述最優(yōu)解碼路徑作為所述待識別語音的最終識別結果,其中所述本地解碼網(wǎng)絡是預先利用所述語音客戶端中保存的命名實體信息并以規(guī)則文法的形式建立的。本發(fā)明能夠提高語音識別的精度。
【專利說明】一種語音識別方法及系統(tǒng)
【【技術領域】】
[0001]本發(fā)明涉及語音識別技術,特別涉及一種語音識別方法及系統(tǒng)。
【【背景技術】】
[0002]隨著移動互聯(lián)網(wǎng)的發(fā)展,語音識別越來越重要,它是很多其他應用能夠實現(xiàn)的基礎。例如,通過語音識別技術,可以實現(xiàn)語音撥號、語音導航等應用。語音識別結果越準確,以語音識別為基礎的應用的效果就會越好。
[0003]大詞匯量連續(xù)語音識別通常涉及到很大的數(shù)據(jù)計算量,只能通過具備很強計算能力的計算機來進行,通常由具備語音處理能力的語音服務器來實現(xiàn)?,F(xiàn)有技術中,在不依靠語音服務器的前提下,采用手機一類的移動終端,只能實現(xiàn)孤立詞識別之類比較簡單的語音識別工作,由于移動終端本身的計算能力有限,這種方式的語音識別精度也不高。
[0004]為了實現(xiàn)大詞匯量連續(xù)語音識別,現(xiàn)有技術在客戶端涉及到語音識別的應用中,都需要將語音數(shù)據(jù)通過網(wǎng)絡發(fā)送給語音服務器,并由語音服務器完成識別后將識別結果返回至客戶端。雖然這種方式可以對任意語音進行識別,但是由于語音服務器不能對客戶端中保存的數(shù)據(jù)進行有效利用,在用戶發(fā)出的待識別語音與客戶端中的數(shù)據(jù)相關時,這種方式不能取得很好的識別效果。
[0005]也就是說,在現(xiàn)有 技術中,缺乏將服務器的計算資源和客戶端中保存的信息結合起來提高語音識別精度的有效方案。
【
【發(fā)明內(nèi)容】
】
[0006]本發(fā)明所要解決的技術問題是提供一種語音識別方法及系統(tǒng),以充分利用語音服務器的計算資源和語音客戶端中保存的信息來提高語音識別的精度。
[0007]本發(fā)明為解決技術問題而采用的技術方案是提供一種語音識別方法,其特征在于,所述方法包括:語音服務器利用統(tǒng)計語言模型對語音客戶端發(fā)送的待識別語音進行識另O,并將識別中得到的候選解碼網(wǎng)絡發(fā)送至所述語音客戶端;所述語音客戶端將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配,以確定最優(yōu)解碼路徑,并將所述最優(yōu)解碼路徑作為所述待識別語音的最終識別結果,其中所述本地解碼網(wǎng)絡是預先利用所述客戶端中保存的命名實體信息并以規(guī)則文法的形式建立的。
[0008]根據(jù)本發(fā)明之一優(yōu)選實施例,所述統(tǒng)計語言模型是使用大規(guī)模文本語料進行訓練得到的。
[0009]根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選解碼網(wǎng)絡包括:詞層次網(wǎng)絡、音節(jié)層次網(wǎng)絡或音素層次網(wǎng)絡。
[0010]根據(jù)本發(fā)明之一優(yōu)選實施例,所述規(guī)則文法包括:正則文法或上下文無關文法。
[0011]根據(jù)本發(fā)明之一優(yōu)選實施例,將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配的步驟包括:將所述候選解碼網(wǎng)絡中的各條解碼路徑與本地解碼網(wǎng)絡中的各條解碼路徑依次進行比對,如果所述本地解碼網(wǎng)絡中存在匹配路徑,則將該匹配路徑作為最優(yōu)解碼路徑,否則將所述候選解碼網(wǎng)絡中得分最高的解碼路徑作為最優(yōu)解碼路徑。
[0012]本發(fā)明還提供了一種語音識別系統(tǒng),包括語音服務器及語音客戶端,其特征在于:所述語音服務器,用于利用統(tǒng)計語言模型對所述語音客戶端發(fā)送的待識別語音進行識別,并將識別中得到的候選解碼網(wǎng)絡發(fā)送至所述語音客戶端;所述語音客戶端,用于將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配,以確定最優(yōu)解碼路徑,并將所述最優(yōu)解碼路徑作為所述待識別語音的最終識別結果,其中所述本地解碼網(wǎng)絡是預先利用所述語音客戶端中保存的命名實體信息并以規(guī)則文法的形式建立的。
[0013]根據(jù)本發(fā)明之一優(yōu)選實施例,所述統(tǒng)計語言模型是使用大規(guī)模文本語料進行訓練得到的。
[0014]根據(jù)本發(fā)明之一優(yōu)選實施例,所述候選解碼網(wǎng)絡包括:詞層次網(wǎng)絡、音節(jié)層次網(wǎng)絡或音素層次網(wǎng)絡。
[0015]根據(jù)本發(fā)明之一優(yōu)選實施例,所述規(guī)則文法包括:正則文法或上下文無關文法。
[0016]根據(jù)本發(fā)明之一優(yōu)選實施例,所述語音客戶端將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配的方式包括:將所述候選解碼網(wǎng)絡中的各條解碼路徑與所述本地解碼網(wǎng)絡中的各條解碼路徑進行比對,如果所述本地解碼網(wǎng)絡中存在匹配路徑,則將該匹配路徑作為最優(yōu)解碼路徑,否則將所述候選解碼網(wǎng)絡中得分最高的解碼路徑作為最優(yōu)解碼路徑。
[0017]由以上技術方案可以看出,本發(fā)明在語音客戶端預先利用客戶端中保存的命名實體信息建立本地解碼網(wǎng)絡,這樣在語音服務器對待識別語音進行識別,得到候選解碼網(wǎng)絡并返回語音客戶端后,語音客戶端就可以通過將候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配的方式來確定最優(yōu)的解碼路徑作為待識別語音的最終識別結果。這種方式,可以充分利用服務器的計算資源,即無論待識別語音是什么類型,都能得到較為準確的識別結果,同時也能充分利用客戶端中保存的本地信息來進一步提高識別精度,即如果待識別語音是本地解碼網(wǎng)絡確定的類型,本發(fā)明能得到比單純由語音服務器返回的結果更為準確的識別結果。也就是說,本發(fā)明通過將語音服務器的計算資源和語音客戶端中保存的信息相結合,實現(xiàn)了提高語音識別精度的技術效果。`
【【專利附圖】
【附圖說明】】
[0018]圖1為本發(fā)明中語音識別系統(tǒng)的實施例的結構示意框圖;
[0019]圖2為本發(fā)明中語音識別單元的實施例的結構示意框圖;
[0020]圖3為本發(fā)明中候選解碼網(wǎng)絡的示意圖;
[0021]圖4為本發(fā)明中本地解碼網(wǎng)絡的示意圖;
[0022]圖5為本發(fā)明中語音識別方法的實施例的流程示意圖。
【【具體實施方式】】
[0023]為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖和具體實施例對本發(fā)明進行詳細描述。
[0024]請參考圖1,圖1為本發(fā)明中語音識別系統(tǒng)的實施例的結構示意框圖。如圖1所示,該實施例中語音識別系統(tǒng)包括語音客戶端100以及語音服務器200。
[0025]其中,語音客戶端100可以是任意的終端,如手機、平板電腦、筆記本電腦、普通個人電腦等設備。語音服務器200可以是當作服務器使用的普通電腦設備或大型服務器設備,甚至是服務器集群設備。
[0026]其中語音客戶端100包括客戶端通訊單元101及匹配單元102。語音服務器201包括服務器通訊單元201及語音識別單元202。
[0027]其中客戶端通訊單元101,用于接收用戶輸入的待識別語音,并將待識別語音發(fā)送至語音服務器200。
[0028]服務器通訊單元201,用于接收客戶端通訊單元101發(fā)送的待識別語音,并將接收的待識別語音輸出至語音識別單元202。
[0029]語音識別單元202,用于利用統(tǒng)計語言模型對輸入的待識別語音進行識別,并將識別中得到的候選解碼網(wǎng)絡(lattice)返回至服務器通訊單元201。
[0030]服務器通訊單元201,還用于將語音識別單元202返回的候選解碼網(wǎng)絡發(fā)送至語音客戶端100。
[0031]客戶端通訊單元101,還用于接收服務器通訊單元201發(fā)送的候選解碼網(wǎng)絡,并將候選解碼網(wǎng)絡輸出至匹配單元102。
[0032]匹配單元102,用于將候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配,以確定最優(yōu)解碼路徑,并將最優(yōu)解碼路徑作為待識別語音的最終識別結果,其中本地解碼網(wǎng)絡是預先利用客戶端中保存的命名實體信息并以規(guī)則文法的形式建立的。
[0033]下面對上述實施例進行詳細描述。
[0034]上述實施例中,客戶端通訊單元101及服務器通訊單元201,主要用于數(shù)據(jù)通訊,即從數(shù)據(jù)源獲取數(shù)據(jù),并將獲取的數(shù)據(jù)傳遞至相應的處理單元,這與現(xiàn)有技術中具有數(shù)據(jù)通訊功能的處理單元類似,因此這里不再對這兩個處理單元做過多介紹。下面重點介紹實施例中的語音識別單元202及匹配單元102的處理過程。
[0035]請參考圖2,圖2為本發(fā)明中語音識別單元的實施例的結構示意框圖。如圖2所示,語音識別單元202包括聲學特征提取單元2021及語音解碼單元2022。
[0036]其中,聲學特征提取單元2021,用于提取待識別語音的聲學特征,得到待識別語音的特征向量。這里,可提取的聲學特征包括時域特征及頻域特征。其中,時域特征可以是以下特征中的一種或多種:共振峰、短時平均能量和短時平均過零率。頻域特征可以是以下特征中的一種或多種:線性預測系數(shù)、線性預測系數(shù)倒譜系數(shù)和梅爾頻率倒譜系數(shù)。此外,可提取的聲學特征還可以是任何可用于語音識別處理中的其他特征,本發(fā)明對此不加限制。
[0037]聲學特征提取單元2021對待識別語音進行特征提取后,會得到各個語音幀的特征向量,然后輸出至語音解碼單元2022。
[0038]語音解碼單元2022,用于對以特征向量表示的待識別語音進行解碼,得到候選解碼網(wǎng)絡。
[0039]語音解碼單元2022在解碼過程中依賴兩個模型,分別是聲學模型和語言模型。其中,聲學模型用于語音至音節(jié)概率的計算,語言模型用于音節(jié)到單詞概率的計算。語言模型通??煞譃橐?guī)則語言模型和統(tǒng)計語言模型,本實施例中,語言模型采用統(tǒng)計語言模型,也稱為N-Gram語言模型,其中對N的具體取值,本實施例不加限制,優(yōu)選的,可采用二元統(tǒng)計語言模型(bigram)或三元統(tǒng)計語言模型(trigram)。采用統(tǒng)計語言模型對待識別語音進行識別,能夠實現(xiàn)大詞匯量連續(xù)語音識別,保證識別的準確度。[0040]本發(fā)明中的統(tǒng)計語言模型,可以是一個現(xiàn)有的統(tǒng)計語言模型,也可以是預先收集大規(guī)模文本語料,并使用這些文本語料進行訓練得到的統(tǒng)計語言模型。利用大規(guī)模文本語料對未知參數(shù)的統(tǒng)計語言模型進行訓練,在現(xiàn)有技術中已有很多介紹,在此不再說明。
[0041]利用聲學模型和統(tǒng)計語言模型,語音解碼單元2022對以特征向量表示的待識別語音進行解碼時,會動態(tài)生成候選解碼網(wǎng)絡,候選解碼網(wǎng)絡中的各條解碼路徑對應一個由聲學模型和語言模型決定的分值,在本實施例中,語音解碼單元2022不是僅僅將得分最高的解碼路徑返回至服務器通訊單元201,而是將包含得分最高的解碼路徑的整個候選解碼網(wǎng)絡一起返回至服務器通訊單元201,并由服務器通訊單元201發(fā)送至語音客戶端101。
[0042]更詳細的語音解碼過程,可參考下列文獻:Mehryar Mohri, Fernando Pereira,Michael Riley,Weighted Finite-State Transducers in Speech Recognition,ComputerSpeech&Language Volume 16, Issue I, January 2002, Pages 69-88 (下面稱為文獻 1),在此不再贅述。
[0043]為了更好地理解語音解碼過程,可參考圖3,圖3為本發(fā)明中候選解碼網(wǎng)絡的示意圖。圖3中,〈S〉表示開始符,</s>表示終止符,由圖中箭頭所指方向將數(shù)字節(jié)點連接起來,就可以得到一條解碼路徑。
[0044]根據(jù)聲學模型的最小建模單位,本實施例中的候選解碼網(wǎng)絡可以是詞層次網(wǎng)絡(word lattice),也可以是子詞層次網(wǎng)絡,其中子詞層次的網(wǎng)絡包括音節(jié)層次網(wǎng)絡(syllable lattice)或音素層次網(wǎng)絡(phone lattice)。如果聲學模型的最小建模單位為單詞,則可以輸出詞層次的候選解碼網(wǎng)絡,如果聲學模型的最小建模單位為子詞,如音節(jié)或音素,則可以輸出詞層次的候選解碼網(wǎng)絡,也可以輸出子詞層次的候選解碼網(wǎng)絡。如果候選解碼網(wǎng)絡是詞層次網(wǎng)絡,則網(wǎng)絡中的最小識別單元為單詞,如果候選解碼網(wǎng)絡為子詞層次網(wǎng)絡,則網(wǎng)絡中的最小識別單元為音節(jié)或音素。圖3所示的候選解碼網(wǎng)絡屬于音節(jié)層次網(wǎng)絡。
[0045]在服務器通訊單元201將候選解碼網(wǎng)絡發(fā)送至語音客戶端100后,客戶端通訊單元101會將接收到的候選解碼網(wǎng)絡輸出至匹配單元102。匹配單元102利用本地解碼網(wǎng)絡來確定的最優(yōu)的解碼路徑。
[0046]本地解碼網(wǎng)絡是利用語音客戶端中保存的命名實體信息建立的網(wǎng)絡。語音客戶端中保存的命名實體信息,指的是用戶在語音客戶端中保存的各種私人信息,例如手機通訊錄中的人名、地址等信息,或者手機媒體庫中保存的歌曲名等信息。
[0047]本地解碼網(wǎng)絡是預先以規(guī)則文法的形式建立的,其中規(guī)則文法可以是正則文法或上下文無關文法等。例如規(guī)則文法“打電話給(所有手機中存儲的人名)”和“發(fā)短信給(所有手機中存儲的人名)”,就可以建立如圖4所示的本地解碼網(wǎng)絡。
[0048]根據(jù)一種實施方式,匹配單元102將候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配的方式包括:將候選解碼網(wǎng)絡中的各條解碼路徑與本地解碼網(wǎng)絡中的各條解碼路徑依次進行比對,如果本地解碼網(wǎng)絡中存在匹配路徑,則將該匹配路徑作為最優(yōu)解碼路徑,否則將候選解碼網(wǎng)絡中得分最高的解碼路徑作為最優(yōu)解碼路徑。
[0049]請參考圖3和圖4,將圖3所示的網(wǎng)絡中的各條候選解碼路徑與圖4所示的網(wǎng)絡中的各條解碼路徑分別進行比對,可以看出,圖3中由節(jié)點0、1、3、8、14相連接構成的解碼路徑與本地解碼網(wǎng)絡中的“<s>打電話給李建</s>”匹配,因此,匹配單元102就會將“打電話給李建”作為最終的語音識別結果。
[0050]實際上,雖然上述例子中,本地解碼網(wǎng)絡中的匹配路徑與候選解碼網(wǎng)絡中的一條解碼路徑實現(xiàn)了完全文本匹配,但本實施例中進行比對時使用的匹配策略并不限于此。如果本地解碼路徑中由語音客戶端中保存的命名實體信息限定的部分與候選解碼路徑之間能夠實現(xiàn)讀音匹配,而本地解碼路徑中的其他部分與候選解碼路徑中的其他部分能實現(xiàn)完全文本匹配,則也可以認為這條本地解碼路徑是匹配路徑。例如在候選解碼網(wǎng)絡中有一條解碼路徑是“<s>發(fā)短信給王宏</s>”,那么可以認為圖4所示的本地解碼網(wǎng)絡中的“<s>發(fā)短信給王紅</s>”就是匹配路徑。此外,還可以有其他更為寬松的匹配策略來確定兩條路徑是否匹配,在此不再贅述。應該理解,采用何種匹配策略并不影響本發(fā)明整體的實現(xiàn)。
[0051]請參考圖5,圖5為本發(fā)明中語音識別方法的實施例的流程示意框圖。如圖5所示,該方法包括:
[0052]步驟S301:語音服務器利用統(tǒng)計語言模型對語音客戶端發(fā)送的待識別語音進行識別,并將識別中得到的候選解碼網(wǎng)絡發(fā)送至語音客戶端。
[0053]步驟S302:語音客戶端將候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配,以確定最優(yōu)解碼路徑,并將最優(yōu)解碼路徑作為待識別語音的最終識別結果,其中本地解碼網(wǎng)絡是預先利用客戶端中保存的命名實體信息并以規(guī)則文法的形式建立的。
[0054]步驟S301中對待識別語音進行識別,具體包括:
[0055]步驟S3011:提取待識別語音的聲學特征,得到待識別語音的特征向量。
[0056]步驟S3012:對以特征向量表示的待識別語音進行解碼,得到候選解碼網(wǎng)絡。
[0057]具體地,步驟S3012進行解碼的過程中依賴兩個模型,分別是聲學模型和語言模型。其中,聲學模型用于語音至音節(jié)概率的計算,語言模型用于音節(jié)到單詞概率的計算。語言模型通??煞譃橐?guī)則語言模型和統(tǒng)計語言模型,本實施例中,語言模型采用統(tǒng)計語言模型,也稱為N-Gram語言模型,其中對N的具體取值,本實施例不加限制,優(yōu)選的,可采用二元統(tǒng)計語言模型(bigram)或三元統(tǒng)計語言模型(trigram)。采用統(tǒng)計語言模型對待識別語音進行識別,能夠實現(xiàn)大詞匯量連續(xù)語音識別,保證識別的準確度。
[0058]本發(fā)明中的統(tǒng)計語言模型,可以是一個現(xiàn)有的統(tǒng)計語言模型,也可以是預先收集大規(guī)模文本語料,并使用這些文本語料進行訓練得到的統(tǒng)計語言模型。利用大規(guī)模文本語料對未知參數(shù)的統(tǒng)計語言模型進行訓練,在現(xiàn)有技術中已有很多介紹,在此不再說明。
[0059]利用聲學模型和統(tǒng)計語言模型,步驟S3012中對以特征向量表示的待識別語音進行解碼時,會動態(tài)生成候選解碼網(wǎng)絡,候選解碼網(wǎng)絡中的各條解碼路徑對應一個由聲學模型和語言模型決定的分值,在本實施例中,步驟S301不是僅僅將得分最高的解碼路徑發(fā)送至語音客戶端,而是將包含得分最高的解碼路徑的整個候選解碼網(wǎng)絡一起發(fā)送至語音客戶端。
[0060]更詳細的語音解碼過程,可參考文獻1,在此不再贅述。
[0061]為了更好地理解語音解碼過程,可參考圖3,圖3為本發(fā)明中候選解碼網(wǎng)絡的實施例的示意圖。圖3中,〈S〉表示開始符,</s>表示終止符,由圖中箭頭所指方向將數(shù)字節(jié)點連接起來,就可以得到一條解碼路徑。
[0062]根據(jù)聲學模型的最小建模單位,本實施例中的候選解碼網(wǎng)絡可以是詞層次網(wǎng)絡(word lattice),也可以是子詞層次網(wǎng)絡,其中子詞層次的網(wǎng)絡包括音節(jié)層次網(wǎng)絡(syllable lattice)或音素層次網(wǎng)絡(phone lattice)。如果聲學模型的最小建模單位為單詞,則可以輸出詞層次的候選解碼網(wǎng)絡,如果聲學模型的最小建模單位為子詞,如音節(jié)或音素,則可以輸出詞層次的候選解碼網(wǎng)絡,也可以輸出子詞層次的候選解碼網(wǎng)絡。如果候選解碼網(wǎng)絡是詞層次網(wǎng)絡,則網(wǎng)絡中的最小識別單元為單詞,如果候選解碼網(wǎng)絡為子詞層次網(wǎng)絡,則網(wǎng)絡中的最小識別單元為音節(jié)或音素。圖3所示的候選解碼網(wǎng)絡屬于音節(jié)層次網(wǎng)絡。
[0063]步驟S302中,本地解碼網(wǎng)絡是利用語音客戶端中保存的命名實體信息建立的網(wǎng)絡。語音客戶端中保存的命名實體信息,指的是用戶在語音客戶端中保存的各種私人信息,例如手機通訊錄中的人名、地址等信息,或者手機媒體庫中保存的歌曲名等信息。
[0064]本地解碼網(wǎng)絡是預先以規(guī)則文法的形式建立的,其中規(guī)則文法可以是正則文法或上下文無關文法等。例如規(guī)則文法“打電話給(所有手機中存儲的人名)”和“發(fā)短信給(所有手機中存儲的人名)”,就可以建立如圖4所示的本地解碼網(wǎng)絡。
[0065]具體地,步驟S302中將候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配的方式包括:將候選解碼網(wǎng)絡中的各條解碼路徑與本地解碼網(wǎng)絡中的各條解碼路徑依次進行比對,如果本地解碼網(wǎng)絡中存在匹配路徑,則將該匹配路徑作為最優(yōu)解碼路徑,否則將候選解碼網(wǎng)絡中得分最高的解碼路徑作為最優(yōu)解碼路徑。
[0066]請參考圖3和圖4,將圖3所示的網(wǎng)絡中的各條候選解碼路徑與圖4所示的網(wǎng)絡中的各條解碼路徑分別進行比對,可以看出,圖3中由節(jié)點0、1、3、8、14相連接構成的解碼路徑與本地解碼網(wǎng)絡中的“<s>打電話給李建</s>”匹配,因此,匹配單元102就會將“打電話給李建”作為最終的語音識別結果。
[0067]實際上,雖然上述例子中,本地解碼網(wǎng)絡中的匹配路徑與候選解碼網(wǎng)絡中的一條解碼路徑實現(xiàn)了完全文本匹配,但本實施例中進行比對時使用的匹配策略并不限于此。如果本地解碼路徑中由語音客戶端中保存的命名實體信息限定的部分與候選解碼路徑之間能夠實現(xiàn)讀音匹配,而本地解碼路徑中的其他部分與候選解碼路徑中的其他部分能實現(xiàn)完全文本匹配,則也可以認為這條本地解碼路徑是匹配路徑。例如在候選解碼網(wǎng)絡中有一條解碼路徑是“<s>發(fā)短信給王宏</s>”,那么可以認為圖4所示的本地解碼網(wǎng)絡中的“<s>發(fā)短信給王紅</s>”就是匹配路徑。此外,還可以有其他更為寬松的匹配策略來確定兩條路徑是否匹配,在此不再贅述。應該理解,采用何種匹配策略并不影響本發(fā)明整體的實現(xiàn)。
[0068]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
【權利要求】
1.一種語音識別方法,其特征在于,所述方法包括: 語音服務器利用統(tǒng)計語言模型對語音客戶端發(fā)送的待識別語音進行識別,并將識別中得到的候選解碼網(wǎng)絡發(fā)送至所述語音客戶端; 所述語音客戶端將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配,以確定最優(yōu)解碼路徑,并將所述最優(yōu)解碼路徑作為所述待識別語音的最終識別結果,其中所述本地解碼網(wǎng)絡是預先利用所述語音客戶端中保存的命名實體信息并以規(guī)則文法的形式建立的。
2.根據(jù)權利要求1所述的方法,其特征在于,所述統(tǒng)計語言模型是使用大規(guī)模文本語料進行訓練得到的。
3.根據(jù)權利要求1所述的方法,其特征在于,所述候選解碼網(wǎng)絡包括:詞層次網(wǎng)絡、音節(jié)層次網(wǎng)絡或音素層次網(wǎng)絡。
4.根據(jù)權利要求1所述的方法,其特征在于,所述規(guī)則文法包括:正則文法或上下文無關文法。
5.根據(jù)權利要求1所述的方法,其特征在于,將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配的步驟包括: 將所述候選解碼網(wǎng)絡中的各條解碼路徑與本地解碼網(wǎng)絡中的各條解碼路徑依次進行比對,如果所述本地解碼網(wǎng)絡中存在匹配路徑,則將該匹配路徑作為最優(yōu)解碼路徑,否則將所述候選解碼網(wǎng)絡中得分最高的解碼路徑作為最優(yōu)解碼路徑。
6.一種語音識別系統(tǒng),包括語音服務器及語音客戶端,其特征在于: 所述語音服務器,用于利用統(tǒng)計語言模型對所述語音客戶端發(fā)送的待識別語音進行識另O,并將識別中得到的候選解碼網(wǎng)絡發(fā)送至所述語音客戶端; 所述語音客戶端,用于將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配,以確定最優(yōu)解碼路徑,并將所述最優(yōu)解碼路徑作為所述待識別語音的最終識別結果,其中所述本地解碼網(wǎng)絡是預先利用所述語音客戶端中保存的命名實體信息并以規(guī)則文法的形式建立的。
7.根據(jù)權利要求6所述的系統(tǒng),其特征在于,所述統(tǒng)計語言模型是使用大規(guī)模文本語料進行訓練得到的。
8.根據(jù)權利要求6所述的系統(tǒng),所述候選解碼網(wǎng)絡包括:詞層次網(wǎng)絡、音節(jié)層次網(wǎng)絡或音素層次網(wǎng)絡。
9.根據(jù)權利要求6所述的系統(tǒng),其特征在于,所述規(guī)則文法包括:正則文法或上下文無關文法。
10.根據(jù)權利要求6所述的系統(tǒng),其特征在于,所述語音客戶端將所述候選解碼網(wǎng)絡與本地解碼網(wǎng)絡進行匹配的方式包括: 將所述候選解碼網(wǎng)絡中的各條解碼路徑與所述本地解碼網(wǎng)絡中的各條解碼路徑進行比對,如果所述本地解碼網(wǎng)絡中存在匹配路徑,則將該匹配路徑作為最優(yōu)解碼路徑,否則將所述候選解碼網(wǎng)絡中得分最高的解碼路徑作為最優(yōu)解碼路徑。
【文檔編號】G10L15/30GK103794211SQ201210432359
【公開日】2014年5月14日 申請日期:2012年11月2日 優(yōu)先權日:2012年11月2日
【發(fā)明者】蘇丹 申請人:北京百度網(wǎng)訊科技有限公司