語音識別方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種語音識別方法及裝置,包括:獲取語音信號對應的候選詞串;調(diào)用領域語言模型,確定所述候選詞串在領域語言模型中對應的概率增強系數(shù);調(diào)用基本語言模型,確定所述候選詞串在基本語言模型中的基本匹配概率;將所述概率增強系數(shù)結(jié)合所述基本匹配概率獲得所述候選詞串的總匹配概率;根據(jù)各候選詞串的總匹配概率,計算各候選詞串組成的詞序列的概率,并根據(jù)概率最高的詞序列生成所述語音信號對應的語言文本。本發(fā)明實施例提供的語音識別方法及裝置,綜合考慮了基本語言模型中的通用說話習慣,又兼顧了領域語言模型中的特定用詞習慣,從而可對語音信號提供更高的識別率。
【專利說明】
語音識別方法及裝置
技術領域
[0001]本發(fā)明實施例涉及語音技術領域,尤其涉及一種語音識別方法及裝置。
【背景技術】
[0002]語言模型(LanguageModel,LM)的目的是建立一個能夠描述給定詞序列在語言中的出現(xiàn)的概率的分布。在語音識別領域中,語言模型用于識別待識別語音信號對應的詞序列。
[0003]現(xiàn)有的通過語言模型進行語音信號識別的方法主要有語言模型的插值法和并行解碼法:
[0004]語言模型的插值法,通過將各個領域?qū)念I域語言模型插值到基本語言模型中,之后根據(jù)插值后的基本語言模型對語音信號進行識別,但是,插值需要時間,相當于需要不斷地對整個基本語言模型進行重新訓練,更新效率低,無法做到迅速迭代,因此,對語音信號的識別率較低。
[0005]并行解碼法,基本語言模型和領域語言模型同步執(zhí)行語音識別,針對用戶輸入的語音信號,通過比較基本語言模型和領域語言模型中該語音信號出現(xiàn)的概率,將概率較高的語言模型中匹配出的結(jié)果作為識別結(jié)果,但是,由于通信語言模型和領域語言模型中包含的詞序列都不完善,導致用單種語言模型識別語音信號時的識別率較低。
[0006]因此,如何提高語言模型對語音信號的識別率成為亟待要解決的技術問題。
【發(fā)明內(nèi)容】
[0007]本發(fā)明實施例提供一種語音識別方法及裝置,用以解決現(xiàn)有技術中對語音信號的識別率較低的問題。
[0008]本發(fā)明實施例提供一種語音識別方法,包括:
[0009]獲取語音信號對應的候選詞串;
[0010]調(diào)用領域語言模型,確定所述候選詞串在領域語言模型中對應的增強系數(shù);
[0011]調(diào)用基本語言模型,確定所述候選詞串在基本語言模型中的基本匹配概率;
[0012]將所述增強系數(shù)結(jié)合所述基本匹配概率獲得所述候選詞串的總匹配概率;
[0013]根據(jù)各候選詞串的總匹配概率,計算各候選詞串組成的詞序列的概率,并根據(jù)概率最高的詞序列生成所述語音信號對應的語言文本。
[0014]本發(fā)明實施例提供一種語音識別裝置,包括:
[0015]意向分析模塊,用于獲取語音信號對應的候選詞串;
[0016]第一識別模塊,用于調(diào)用領域語言模型,確定所述候選詞串在領域語言模型中的增強系數(shù);
[0017]第二識別模塊,用于調(diào)用基本語言模型,確定所述候選詞串在基本語言模型中的基本匹配概率;
[0018]加值模塊,用于將所述增強系數(shù)結(jié)合所述基本匹配概率獲得所述候選詞串的總匹配概率;
[0019]識別結(jié)果生成模塊,用于根據(jù)各候選詞串的總匹配概率,計算各候選詞串組成的詞序列的概率,并根據(jù)概率最高的詞序列生成所述語音信號對應的語言文本。
[0020]本發(fā)明實施例提供的語音識別方法及裝置,綜合考慮了基本語言模型中的通用說話習慣,又兼顧了領域語言模型中的特定用詞習慣,從而可對既對應有通用詞串又對應有特定詞串的語音信號提供更高的識別率;另外,僅需更新領域語言模型即可提高新增詞串在語言中的匹配概率,領域語言模型的更新范圍小、更新速度快,因此可更快捷地滿足用戶的語音識別要求,而且,領域語言模型中的增強系數(shù)可有效修正基本語言模型對新增詞串的識別率低的缺陷,從而提高了語音識別的準確率。
【附圖說明】
[0021]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0022]圖1為本發(fā)明語音識別方法流程圖;
[0023]圖2為本發(fā)明語音識別方法實施例流程圖;
[0024]圖3為本發(fā)明語音識別方法實施例流程圖;
[0025]圖4為本發(fā)明語音識別裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0026]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0027]本發(fā)明實施例提供的語音識別方法及裝置,可應用于語音導航、語音播放控制等場景中?,F(xiàn)有的語音識別方法中,通常采用語言模型插值法和并行解碼法對語音信號進行詞序列的概率估計。以用戶輸入一段“我要播放羋月傳”的語音信號為例,其中,語言模型插值法是將多個領域?qū)念I域語言模型插值到基本語言模型中,可理解為將多個領域中的用戶說話習慣訓練到基本語言模型中,這導致基本語言模型變的異常龐大,而且即使對于單個領域內(nèi)的新增詞序也需要對整個基本語言模型進行重新訓練,這使得插值訓練花費的時間成本高,基本語言模型的更新迭代速度慢,對于新出現(xiàn)的詞“羋月傳”來說,語言模型插值法需要花費非常長的時間進行插值訓練,在此之前其對上述語音信號的識別率會非常低;并行解碼法則是通過并行的兩條解碼路徑,分別在基本語言模型和領域語言模型中獲取詞序列的概率,兩路解碼路徑比較后,將概率高路徑識別出的詞序列作為識別結(jié)果,但由于兩類語言模型中包含的詞序列都不完善,這就導致基本語言模型對特定詞串“羋月傳”的識別率低,而領域語言模型對基本的通用詞串“我要播放”的識別率低,最終導致并行解碼法對上述語音信號的識別率低。
[0028]本發(fā)明實施例提供的語音識別方法及裝置,正是要解決現(xiàn)有兩種語音識別方法的缺陷,通過分別調(diào)用基本語言模型和領域語言模型,免去了插值訓練所花費的時間成本,而通過綜合考慮語音信號對應的候選詞串在基本語言模型和領域語言模型中的匹配概率,實現(xiàn)了即兼顧基本語言模型中體現(xiàn)的通用說話習慣,又兼顧了領域語言模型中特定說話習慣,進而實現(xiàn)了對語音信號更優(yōu)化、更全面、更精準的識別。
[0029]需要說明的是,本發(fā)明實施例提供的語音識別方法及裝置還可應用于其它需要進行語音識別的場景中,本發(fā)明對此并不作具體限定。
[0030]下面通過具體實施例對本發(fā)明技術方案進行詳細說明。
[0031]參考圖1,本發(fā)明實施例提供一種語音識別方法,包括:
[0032]101,獲取語音信號對應的候選詞串;
[0033]102,調(diào)用領域語言模型,確定所述候選詞串在領域語言模型中對應的增強系數(shù);
[0034]103,調(diào)用基本語言模型,確定所述候選詞串在基本語言模型中的基本匹配概率;
[0035]104,將所述增強系數(shù)結(jié)合所述基本匹配概率獲得所述候選詞串的總匹配概率;
[0036]105,根據(jù)各候選詞串的總匹配概率,計算各候選詞串組成的詞序列的概率,并根據(jù)概率最高的詞序列生成所述語音信號對應的語言文本。
[0037]本實施例提供一種語音識別方法,可由語音識別裝置來執(zhí)行,用以輸出語音信號對應的語言文本作為識別結(jié)果,提高語音識別的準確率。
[0038]具體地,在監(jiān)聽用戶輸入的語音信號后,根據(jù)對該語音信號的聲學分析,并在對語音信號的解碼過程中進行詞假設擴展,以獲取到所述語音信號對應的一個或多個候選詞串,步驟101可假設出與所述語音信號的讀音匹配概率較高的當前詞,例如,用戶輸入語音“woxiang”后,步驟101可假設出與該語音有可能匹配的“我想”、“我像”、“我向”等等候選詞串,而候選詞串還可定義為用戶接下來有可能說的詞與其已經(jīng)說的詞組成的詞串,例如,上述場景下,步驟101獲取到的候選詞串可以是“我想看”、“我想播放”、“我像聽”等等;當然,所述候選詞串還可通過其它方式或場景進行獲取,例如,在用戶輸入完整的一句話后,對整句話進行解碼及聲學分析,并假設出該語音信號所對應的詞序列,進而從所述詞序列的起始符開始將該詞序列拆分為多個候選詞串,本發(fā)明對候選詞串的獲取方式不作具體限定。
[0039]針對步驟101假設出的所述語音信號對應的若干候選詞串,步驟102將調(diào)用領域語言模型對所述候選詞串進行分析。具體地,所述領域語言模型中預存有各候選詞串對應的增強系數(shù),步驟102可確定出所述候選詞串在領域語言模型中對應的增強系數(shù)。
[0040]步驟103中,將調(diào)用基本語言模型對所述候選詞串進行分析,具體地,本發(fā)明實施例中可假設所述基本語言模型中包含所有詞串在語言中出現(xiàn)的匹配概率,也即任意候選詞串均可在基本語言模型中獲取到有效的基本匹配概率,對于符合和人類說話習慣或基本語言模型中未收錄到的候選詞串,也可從基本語言模型中獲取到一個極低匹配概率作為有效的基本匹配概率。
[0041]步驟104以步驟102和步驟103獲得的結(jié)果作為參數(shù)進行候選詞串的總匹配概率的計算,由上文可知,步驟103中可獲得所有候選詞串的有效的基本匹配概率,而步驟102中通過調(diào)用領域語言模型對候選詞串進行分析獲得的概率增強系數(shù)將施加到基本匹配概率上,實質(zhì)上是通過領域語言模型修正候選詞串在基本語言模型中的基本匹配概率,從而獲得所述候選詞串的更加合理、準確的總匹配概率。
[0042]步驟101根據(jù)語音信號假設出的若干候選詞串的不同組合將對應形成不同的詞序列,所述詞序列可以是短語、短句或長句,在此不作具體限定,也就是通過基本語言模型和領域語言模型將獲得對應所述語音信號的多種詞序列,對于形成的多個詞序列,每個詞序列的概率都是通過組成該詞序列的多個候選詞串的總匹配概率的加值而計算獲得的,因此,概率越高的詞序列代表其與語音信號的匹配度越高,步驟105根據(jù)概率最高的詞序列生成語言文本并作為語音識別的結(jié)果輸出。
[0043]本發(fā)明實施例提供的語音信號識別方法,在進行語音識別時,綜合考慮了基本語言模型中的通用說話習慣,又兼顧了領域語言模型中的特定用詞習慣,從而可對既對應有通用詞串又對應有特定詞串的語音信號提供更高的識別率;另外,僅需更新領域語言模型即可提高新增詞串在語言中的匹配概率,領域語言模型的更新范圍小、更新速度快,因此可更快捷地滿足用戶的語音識別要求,而且,概率通過領域語言模型中的增強系數(shù)可有效修正基本語言模型對新增詞串的識別率低的缺陷,從而提高了語音識別的準確率。
[0044]參考圖2,在一可選實施例中,步驟102獲取候選詞串在領域語言模型中的增強系數(shù)的方式可采用:
[0045]1021,根據(jù)所述候選詞串在所述基本語言模型中對應的一個或多個基本匹配概率,確定所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍;
[0046]1022,根據(jù)所述候選詞串在所述領域語言模型中對應的一個或多個匹配概率,確定所述候選詞串在所述領域語言模型中對應的第二匹配概率范圍;
[0047]1023,根據(jù)所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍和所述領域語言模型中對應的第二匹配概率范圍的分差比值,獲得所述候選詞串在所述領域語言模型中對應的增強系數(shù)。
[0048]具體地,針對用戶輸入的語音信號,步驟101中假設擴展出的一個或多個候選詞串在領域語言模型中將分別對應一匹配概率,因此可獲得所述領域語言模型的匹配概率范圍。為便于計算,本實施例中,以將概率轉(zhuǎn)換為對數(shù)為例進行說明,例如針對用戶輸入的“bofangmiyue”語音信號,可獲取到“播放羋月”的匹配對數(shù)為-2,“播放米月”的匹配對數(shù)為-3,“播放蜜月”的匹配對數(shù)為-5,以及其它候選詞串的匹配對數(shù),去掉最高分-1和最低分-6,可獲得所述領域語言模型針對所述語音信號的第二匹配對數(shù)范圍為[_5,-2],其分差為3。
[0049]承接上例,在基本語言模型中獲取到的“播放米月”的基本匹配對數(shù)為-3,“播放蜜月”的基本匹配對數(shù)為-9,以及其它候選詞串的基本匹配對數(shù),去掉最高分-2和最低分-10,則可獲得所述基本語言模型針對所述語音信號的第一匹配對數(shù)范圍為[_9,-3],其分差為
6o
[0050]上例中,所述基本語言模型中的基本匹配對數(shù)范圍和所述領域語言模型中的匹配對數(shù)范圍的分差比值即為2,將所述匹配對數(shù)范圍的比值進行反對數(shù)運算后可獲得一個大于I的增強系數(shù),即為本實施例中最終獲取到的所述候選詞串在所述領域語言模型中對應的增強系數(shù)。當然,本發(fā)明實施例中也可直接根據(jù)所述候選詞串在領域語言模型和基本語言模型中的匹配概率計算分差,并進而獲得所述增強系數(shù),本發(fā)明對此不作具體限定。
[0051]由于所述基本語言模型中可為任意候選詞串提供一有效的基本匹配概率,因此,可認為基本語言模型為候選詞串提供了一最低匹配概率,正如上文所述,為了實現(xiàn)領域語言模型對基本語言模型的修正作用,本實施例中,可將候選詞串在領域語言模型中的大于I的增強系數(shù)施加到所述候選詞串在基本語言模型中的基本匹配概率上,從而提高所述候選詞串的總匹配概率。
[0052]例如,候選詞串“我要播放羋”在基本語言模型中的基本匹配概率為50%,而其在領域語言模型中的對應的增強系數(shù)為1.2,此時,可根據(jù)預設規(guī)則,將基本匹配概率進行1.2倍的定向增強,從而將候選詞串“我要播放羋”的總匹配概率提高為60%。可見,總匹配概率遠高于基本匹配概率,從而提高了對該候選詞串的識別率。
[0053]在此說明,本實施例不限定上述比例或權(quán)重的取值,可以根據(jù)應用場景適應性設置。
[0054]參考圖3,在一可選的實施例中,所述確定所述候選詞串在領域語言模型中對應的增強系數(shù),可采用回退查詢的方式獲取所述候選詞串在所述領域語言模型中的匹配概率,并根據(jù)回退方式查詢到的所述匹配概率計算所述候選詞串在領域語言模型中對應的增強系數(shù),具體地:
[0055]201,查詢所述候選詞串包含的N元詞組是否出現(xiàn)在所述領域語言模型中,如果未出現(xiàn),則執(zhí)行202,如果已出現(xiàn),則執(zhí)行205 ;
[0056]202,生成對應的懲罰概率,并查詢所述候選詞串包含的N-1元詞組是否出現(xiàn)在所述領域語言模型中,如果所述N-1元詞組出現(xiàn)在所述領域語言模型中,則執(zhí)行203,否則執(zhí)行204;
[0057]203,將所述N-1元詞組在所述領域語言模型中的匹配概率與i倍的懲罰概率的差值作為所述候選詞串在所述領域語言模型中的匹配概率,并執(zhí)行205;
[0058]204,輸入無效的所述候選詞串在所述領域語言模型中的增強系數(shù);
[0059]205,根據(jù)有效的所述候選詞串在所述領域語言模型中的匹配概率獲得所述候選詞串在所述領域語言模型中對應的增強系數(shù)。
[0060]本實施例中,N、i均為整數(shù),且i〈N。
[0061]具體地,所述領域語言模型中預存有特定領域或特定場景下特定詞串在語言中出現(xiàn)的匹配概率,例如,播放控制場景對應的領域語言模型中預存有“播放羋月傳”、“觀看甄嫘傳”等等特定詞串在語言中出現(xiàn)的匹配概率,即使不存在完整的特定詞串在語言中出現(xiàn)的匹配概率,領域語言模型中還可預存經(jīng)切詞后的新增詞在語言中出現(xiàn)的匹配概率,例如“羋”、“羋月”、“羋月傳”等,而這些新增詞在領域語言模型中的匹配概率將較高。
[0062]候選詞串可根據(jù)用戶輸入的語音信號的長度設定為不同的詞元數(shù),如用戶輸入的語音信號就對應一個單詞,則候選詞串的詞元數(shù)可設置為I;用戶輸入的語音信號對應5個單詞時,可將候選詞串的詞元數(shù)設置為最大5元,即最多由相鄰的5個單詞組成一個候選詞串,考慮到語言模型的訓練成本和查詢匹配的效率,本發(fā)明實施例中以最大4元候選詞串為例進行說明。
[0063]本實施例中,例如,候選詞串為“我要播放羋”的4元詞串,為方便表述,本實施例還是以將概率轉(zhuǎn)換為對數(shù)為例進行計算過程的描述,首先在領域語言模型中搜索“我要播放羋”的匹配對數(shù),但并未搜索到,則生成對應的懲罰對數(shù)-1,并繼續(xù)搜索所述候選詞串包含的3元詞串“要播放羋”的匹配對數(shù),依然未搜索到,則再次生成懲罰對數(shù)-1,并繼續(xù)搜索所述候選詞串包含的2元詞串“播放羋”的匹配對數(shù),此時,搜索到2元詞串“播放羋”在所述領域語言模型中的匹配對數(shù)為-3分,則候選詞串“我要播放羋”在領域語言模型中的第一匹配對數(shù)為-1+-1+-3 = -5分。
[0064]又例如,上述候選詞串包含的2元詞串“播放羋”在領域語言模型中也未獲取到對應的匹配對數(shù),則再次生成懲罰對數(shù)-1,并繼續(xù)搜索I元詞串“羋”,獲得所述I元詞串“羋”的匹配對數(shù)為-4,則候選詞串“我要播放羋”在領域語言模型中的匹配對數(shù)為-1+-1+-1+-4 =-7分,將獲得的對數(shù)進行反對數(shù)運算后獲得候選詞串“我要播放羋”在領域語言模型中的匹配概率,以及根據(jù)所述匹配概率獲取到所述候選詞串“我要播放羋”在領域語言模型中對應的增強系數(shù)。
[0065]需要說明的是,本實施例通過回退查詢的方式獲取所述候選詞串在所述領域語言模型中的匹配概率,并根據(jù)回退方式查詢到的所述匹配概率計算所述候選詞串在領域語言模型中對應的增強系數(shù)的過程,可在進行領域語言模型訓練時預先進行,即直接將所述候選詞串在領域語言模型中對應的增強系數(shù)保存在所述領域語言模型中;也可在執(zhí)行語音識別的過程中進行同步執(zhí)行。本發(fā)明實施例對此不作限定。
[0066]進一步,如果所述候選詞串包含的I?N元詞組均未出現(xiàn)在所述領域語言模型中,則將所述基本匹配概率作為所述候選詞串的總匹配概率。
[0067]如上文所述,領域語言模型對基本語言模型起到修正的作用,而如果領域語言模型中不存在候選詞串的任何相關信息,為避免領域語言模型對基本語言模型造成負面影響,本實施例中,可將候選詞串在領域語言模型的增強系數(shù)設定為無效,以保持基本語言模型對候選詞串的識別結(jié)果。
[0068]需要說明的,本實施例提供的回退查詢以獲得所述候選詞串的在領域語言模型中的匹配概率及增強系數(shù)的方式,僅是提高識別率的一種較佳實施例,本發(fā)明并不對此處的獲取方式做具體限定,其他獲取方式也應屬于本發(fā)明的保護范圍內(nèi)。
[0069]在一可選實施例中,步驟102中的調(diào)用領域語言模型,可采用如下方式實現(xiàn):
[0070]識別語音信號攜帶的標識號;
[0071 ]根據(jù)所述標識號查找匹配的領域語言模型;
[0072]其中,所述標識號包括語音信號的來源產(chǎn)品標識號、通過語義解析獲取的語音信號的領域標識號、用戶的賬號中的一種或多種。
[0073]具體地,本實施例中,語音信號傳輸時會攜帶一些有關語音描述的標識號,例如,語音信號是由車載導航采集并傳送到云端服務器時,該語音信號中會攜帶車載導航的產(chǎn)品標識號,通過該標識號可判斷該語音信號來自車載導航產(chǎn)品,步驟102可相應地調(diào)用導航相關的領域語言模型。
[0074]又例如,語音信號中包含了“視頻”領域的標識號,則步驟102可直接調(diào)用視頻相關的領域語目t吳型提尚視頻相關的特定詞串的識別率。
[0075]又例如,用戶通過賬號登錄本實施例提供的語音識別方法所應用的語音識別裝置后,輸入一段“我想打電話給張三”的語音信號時,步驟102可直接根據(jù)用戶的賬號調(diào)用為該用戶設立的領域語言模型中,該領域語言模型中預存有用戶相關的特定詞串在語言習慣中的匹配概率,例如其通訊錄中的聯(lián)系人姓名獲取手機中的應用程序名稱等特定詞串。
[0076]參考圖4,本發(fā)明實施例提供一種語音識別裝置,包括:
[0077]—種語音識別裝置,其特征在于,包括:
[0078]意向分析模塊11,用于獲取語音信號對應的候選詞串;
[0079]第一識別模塊12,用于調(diào)用領域語言模型,確定所述候選詞串在領域語言模型中的增強系數(shù);
[0080]第二識別模塊13,用于調(diào)用基本語言模型,確定所述候選詞串在基本語言模型中的基本匹配概率;
[0081]加值模塊14,用于將所述增強系數(shù)結(jié)合所述基本匹配概率獲得所述候選詞串的總匹配概率;
[0082]識別結(jié)果生成模塊15,用于根據(jù)各候選詞串的總匹配概率,計算各候選詞串組成的詞序列的概率,并根據(jù)概率最高的詞序列生成所述語音信號對應的語言文本。
[0083]本發(fā)明實施例提供的語音識別裝置,在進行語音識別時,綜合考慮了基本語言模型中的通用說話習慣,又兼顧了領域語言模型中的特定用詞習慣,從而可對既對應有通用詞串又對應有特定詞串的語音信號提供更高的識別率;另外,僅需更新領域語言模型即可提高新增詞串在語言中的匹配概率,領域語言模型的更新范圍小、更新速度快,因此可更快捷地滿足用戶的語音識別要求,而且,概率通過領域語言模型中的增強系數(shù)可有效修正基本語言模型對新增詞串的識別率低的缺陷,從而提高了語音識別的準確率。
[0084]在一可選實施例中,所述第一識別模塊12,用于:
[0085]根據(jù)所述候選詞串在所述基本語言模型中對應的一個或多個基本匹配概率,確定所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍;
[0086]根據(jù)所述候選詞串在所述領域語言模型中對應的一個或多個匹配概率,確定所述候選詞串在所述領域語言模型中對應的第二匹配概率范圍;
[0087]根據(jù)所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍和所述領域語言模型中對應的第二匹配概率范圍的分差比值,獲得所述候選詞串在所述領域語言模型中對應的增強系數(shù)。
[0088]在一可選實施例中,所述第一識別模塊12,用于:
[0089]查詢所述候選詞串包含的N元詞組是否出現(xiàn)在所述領域語言模型中,如果未出現(xiàn),則
[0090]生成對應的懲罰概率,并查詢所述候選詞串包含的N-1元詞組是否出現(xiàn)在所述領域語言模型中,如果所述N-1元詞組出現(xiàn)在所述領域語言模型中,則
[0091]根據(jù)所述N-1元詞組在所述領域語言模型中的匹配概率與i倍的懲罰概率獲得所述候選詞串在所述領域語言模型中的匹配概率。
[0092]候選詞串可根據(jù)用戶輸入的語音信號的長度設定為不同的詞元數(shù),考慮到語言模型的訓練成本和查詢匹配的效率,優(yōu)選地,本發(fā)明實施例中I <N<4,N為整數(shù),i小于N的整數(shù)。
[0093]在一可選實施例中,如果所述候選詞串包含的I?N元詞組均未出現(xiàn)在所述領域語言模型中,則所述加值模塊14,用于:
[0094]將所述基本匹配概率作為所述候選詞串的總匹配概率。
[0095]在一可選實施例中,所述第一識別模塊12,用于:
[0096]識別語音信號攜帶的標識號;
[0097]根據(jù)所述標識號查找匹配的領域語言模型;
[0098]其中,所述標識號包括語音信號的來源產(chǎn)品標識號、通過語義解析獲取的語音信號的領域標識號、用戶的賬號中的一種或多種。
[0099]具體地,本實施例中,語音信號傳輸時會攜帶一些有關語音描述的標識號,例如,語音信號是由車載導航采集并傳送到云端服務器時,該語音信號中會攜帶車載導航的產(chǎn)品標識號,通過該標識號可判斷該語音信號來自車載導航產(chǎn)品,第一識別模塊12可相應地調(diào)用導航相關的領域語言模型。
[0100]以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實施。
[0101]通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到各實施方式可借助軟件加必需的基本硬件平臺的方式來實現(xiàn),當然也可以通過硬件?;谶@樣的理解,上述技術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。
[0102]最后應說明的是:以上實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質(zhì)脫離本發(fā)明各實施例技術方案的精神和范圍。
【主權(quán)項】
1.一種語音識別方法,其特征在于,包括: 獲取語音信號對應的候選詞串; 調(diào)用領域語言模型,確定所述候選詞串在領域語言模型中對應的概率增強系數(shù); 調(diào)用基本語言模型,確定所述候選詞串在基本語言模型中的基本匹配概率; 將所述概率增強系數(shù)結(jié)合所述基本匹配概率獲得所述候選詞串的總匹配概率; 根據(jù)各候選詞串的總匹配概率,計算各候選詞串組成的詞序列的概率,并根據(jù)概率最高的詞序列生成所述語音信號對應的語言文本。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述候選詞串在領域語言模型中對應的增強系數(shù),包括: 根據(jù)所述候選詞串在所述基本語言模型中對應的多個基本匹配概率,確定所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍; 根據(jù)所述候選詞串在所述領域語言模型中對應的多個匹配概率,確定所述候選詞串在所述領域語言模型中對應的第二匹配概率范圍; 根據(jù)所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍和所述領域語言模型中對應的第二匹配概率范圍的分差比值,獲得所述候選詞串在所述領域語言模型中對應的增強系數(shù)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定所述候選詞串在領域語言模型中概率對應的增強系數(shù),包括: 查詢所述候選詞串包含的N元詞組是否出現(xiàn)在所述領域語言模型中,如果未出現(xiàn),則生成對應的懲罰概率,并查詢所述候選詞串包含的N-1元詞組是否出現(xiàn)在所述領域語言模型中,如果所述N-1元詞組出現(xiàn)在所述領域語言模型中,則 根據(jù)所述N-1元詞組在所述領域語言模型中的匹配概率與i倍的懲罰概率獲得所述候選詞串在所述領域語言模型中的匹配概率,并根據(jù)所述候選詞串在所述領域語言模型中的匹配概率獲得所述候選詞串在所述領域語言模型中對應的增強系數(shù); 其中,N和i為整數(shù),且i〈N。4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,如果所述候選詞串包含的I?N元詞組均未出現(xiàn)在所述領域語言模型中,則 將所述基本匹配概率作為所述候選詞串的總匹配概率。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述調(diào)用領域語言模型,包括: 識別語音信號攜帶的標識號; 根據(jù)所述標識號查找匹配的領域語言模型; 其中,所述標識號包括語音信號的來源產(chǎn)品標識號、通過語義解析獲取的語音信號的領域標識號、用戶的賬號中的一種或多種。6.一種語音識別裝置,其特征在于,包括: 意向分析模塊,用于獲取語音信號對應的候選詞串; 第一識別模塊,用于調(diào)用領域語言模型,確定所述候選詞串在領域語言模型中對應的增強系數(shù); 第二識別模塊,用于調(diào)用基本語言模型,確定所述候選詞串在基本語言模型中的基本匹配概率; 加值模塊,用于將所述增強系數(shù)結(jié)合所述基本匹配概率獲得所述候選詞串的總匹配概率; 識別結(jié)果生成模塊,用于根據(jù)各候選詞串的總匹配概率,計算各候選詞串組成的詞序列的概率,并根據(jù)概率最高的詞序列生成所述語音信號對應的語言文本。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一識別模塊,用于: 根據(jù)所述候選詞串在所述基本語言模型中對應的一個或多個基本匹配概率,確定所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍; 根據(jù)所述候選詞串在所述領域語言模型中對應的一個或多個匹配概率,確定所述候選詞串在所述領域語言模型中對應的第二匹配概率范圍; 根據(jù)所述候選詞串在所述基本語言模型中對應的第一匹配概率范圍和所述領域語言模型中對應的第二匹配概率范圍的分差比值,獲得所述候選詞串在所述領域語言模型中對應的增強系數(shù)。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一識別模塊,用于: 查詢所述候選詞串包含的N元詞組是否出現(xiàn)在所述領域語言模型中,如果未出現(xiàn),則生成對應的懲罰概率,并查詢所述候選詞串包含的N-1元詞組是否出現(xiàn)在所述領域語言模型中,如果所述N-1元詞組出現(xiàn)在所述領域語言模型中,則 根據(jù)所述N-1元詞組在所述領域語言模型中的匹配概率與i倍的懲罰概率獲得所述候選詞串在所述領域語言模型中的匹配概率,并根據(jù)所述候選詞串在所述領域語言模型中的匹配概率獲得所述候選詞串在所述領域語言模型中對應的增強系數(shù); 其中,N和i為整數(shù),且i〈N。9.根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,如果所述候選詞串包含的I?N元詞組均未出現(xiàn)在所述領域語言模型中,則所述加值模塊,用于: 將所述基本匹配概率作為所述候選詞串的總匹配概率。10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一識別模塊,用于: 識別語音信號攜帶的標識號; 根據(jù)所述標識號查找匹配的領域語言模型; 其中,所述標識號包括語音信號的來源產(chǎn)品標識號、通過語義解析獲取的語音信號的領域標識號、用戶的賬號中的一種或多種。
【文檔編號】G10L15/06GK105869629SQ201610192862
【公開日】2016年8月17日
【申請日】2016年3月30日
【發(fā)明人】王育軍
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司