專利名稱:用戶個(gè)性化信息語音識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,具體涉及一種用戶個(gè)性化信息語音識(shí)別方法及系統(tǒng)。
背景技術(shù):
隨著手機(jī)等智能終端上語音輸入功能和應(yīng)用的普及,用戶在手機(jī)等智能終端上使用語音輸入的需求越來越多,對(duì)用戶個(gè)性化信息,尤其是通訊錄中聯(lián)系人的識(shí)別準(zhǔn)確率也提出了更高的要求。而傳統(tǒng)連續(xù)語音識(shí)別系統(tǒng)由于語言模型訓(xùn)練方式及識(shí)別方法的局限性,對(duì)存在多音字現(xiàn)象的漢語語音信號(hào)可能無法提供正確的字詞結(jié)果,特別是在人名信息識(shí)別中,其識(shí)別準(zhǔn)確率更受到了進(jìn)一步的限制,主要體現(xiàn)在1.中文常見人名數(shù)量眾多,對(duì)此連續(xù)語音識(shí)別的詞典中通常將人名字詞作為未登錄詞處理,導(dǎo)致訓(xùn)練語料中覆蓋的人名數(shù)量極其有限;2.其次中文人名同音字大量存在,常見人名有幾十個(gè)甚至更多的漢字組合;3.對(duì)每個(gè)用戶來說,用戶特有的個(gè)性化通訊錄中聯(lián)系人人名可能還會(huì)有一部分非常用人名,即每個(gè)個(gè)性化的人名列表在訓(xùn)練語料中無法均勻覆蓋?;谝陨显?,現(xiàn)有技術(shù)中用于連續(xù)語音識(shí)別的語言模型不能很好地模擬人名字詞特別是用戶個(gè)性化聯(lián)系人名字詞,人名識(shí)別效果也往往明顯低于其他內(nèi)容的識(shí)別效果。顯然如何在連續(xù)語音識(shí)別中提高用戶個(gè)性化信息,特別是人名信息的識(shí)別準(zhǔn)確率已經(jīng)成為連續(xù)語音識(shí)別系統(tǒng)亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明提供一種用戶個(gè)性化信息語音識(shí)別方法及系統(tǒng),以提高連續(xù)語音識(shí)別中用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。為此,本發(fā)明提供如下技術(shù)方案一種用戶個(gè)性化信息語音識(shí)別方法,包括接收用戶輸入的語音信號(hào);根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中各活躍節(jié)點(diǎn)上的解碼路徑,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò);如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò);在最后一巾貞解碼完成后,返回識(shí)別結(jié)果。優(yōu)選地,所述方法還包括在根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼之前,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者
在確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)之后,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)包括根據(jù)所述語音信號(hào)的特征確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者根據(jù)用戶的設(shè)備碼確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述方法還包括構(gòu)建基礎(chǔ)人名語言模型和特定用戶人名語言模型;分別構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)和與所述特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述構(gòu)建基礎(chǔ)人名語言模型包括分別采集人名數(shù)據(jù)庫(kù)和語言模型訓(xùn)練語料;根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì);根據(jù)統(tǒng)計(jì)結(jié)果生成基礎(chǔ)人名語言模型。優(yōu)選地,所述根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)包括根據(jù)所述人名數(shù)據(jù)庫(kù)中的人名在所述訓(xùn)練語料中進(jìn)行人名檢測(cè);對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換;根據(jù)替換后的訓(xùn)練語料對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。優(yōu)選地,所述構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)包括為所述虛擬人名設(shè)置一個(gè)虛擬發(fā)音,以使所述虛擬人名作為一個(gè)普通單詞參與聲學(xué)模型的靜態(tài)網(wǎng)絡(luò)擴(kuò)展;根據(jù)所述虛擬發(fā)音確定擴(kuò)展后的靜態(tài)網(wǎng)絡(luò)中的特殊節(jié)點(diǎn),所述特殊節(jié)點(diǎn)包括進(jìn)入人名單元的節(jié)點(diǎn)和人名單元的終止節(jié)點(diǎn);對(duì)所述特殊節(jié)點(diǎn)的入弧或出弧上的虛擬發(fā)音單元進(jìn)行擴(kuò)展,得到與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述構(gòu)建特定用戶人名語言模型包括從用戶上傳的人名相關(guān)信息中提取人名,并將所述人名作為人名詞條記錄;對(duì)每個(gè)人名詞條設(shè)置一個(gè)詞頻概率,并根據(jù)人名詞條的詞頻概率生成特定用戶人名語目模型;所述構(gòu)建與所述特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)包括分別設(shè)定特定用戶人名語言模型中的句首詞和句尾詞的發(fā)音為虛擬的特殊發(fā)
曰;對(duì)于句首節(jié)點(diǎn)的出弧和句尾節(jié)點(diǎn)的入弧上的特殊發(fā)音單元進(jìn)行擴(kuò)展,得到特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。一種用戶個(gè)性化信息語音識(shí)別系統(tǒng),包括
接收單元,用于接收用戶輸入的語音信號(hào);解碼單元,用于根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中各活躍節(jié)點(diǎn)上的解碼路徑,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò);解碼路徑檢查單元,用于確定當(dāng)前幀是否有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn);網(wǎng)絡(luò)擴(kuò)展單元,用于在所述解碼路徑檢查單元確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)后,根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò);結(jié)果輸出單兀,用于在最后一巾貞解碼完成后,返回識(shí)別結(jié)果。優(yōu)選地,所述系統(tǒng)還包括確定單元,用于在所述解碼單元根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼之前,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者在解碼路徑檢查單元確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)之后,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述確定單元,具體用于根據(jù)所述語音信號(hào)的特征確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者根據(jù)用戶的設(shè)備碼確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述系統(tǒng)還包括基礎(chǔ)人名語言模型構(gòu)建單元,用于構(gòu)建基礎(chǔ)人名語言模型;特定用戶人名語言模型構(gòu)建單元,用于構(gòu)建特定用戶人名語言模型;基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元,用于構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò);附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元,用于構(gòu)建與所述特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述基礎(chǔ)人名語言模型構(gòu)建單元包括人名采集單元,用于采集人名數(shù)據(jù)庫(kù);語料采集單元,用于采集語言模型訓(xùn)練語料;統(tǒng)計(jì)單元,用于根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì);基礎(chǔ)人名語言模型生成單元,用于根據(jù)所述統(tǒng)計(jì)單元得到的統(tǒng)計(jì)結(jié)果生成基礎(chǔ)人名語目模型。優(yōu)選地,所述統(tǒng)計(jì)單元包括檢測(cè)子單元,用于根據(jù)所述人名數(shù)據(jù)庫(kù)中的人名在所述訓(xùn)練語料中進(jìn)行人名檢測(cè);替換子單元,用于對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換;統(tǒng)計(jì)子單元,用于根據(jù)替換后的訓(xùn)練語料對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。
優(yōu)選地,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元包括虛擬發(fā)音設(shè)置單元,用于為所述虛擬人名設(shè)置一個(gè)虛擬發(fā)音,以使所述虛擬人名作為一個(gè)普通單詞參與聲學(xué)模型的靜態(tài)網(wǎng)絡(luò)擴(kuò)展;特殊節(jié)點(diǎn)確定單元,用于根據(jù)所述虛擬發(fā)音確定擴(kuò)展后的靜態(tài)網(wǎng)絡(luò)中的特殊節(jié)點(diǎn),所述特殊節(jié)點(diǎn)包括進(jìn)入人名單元的節(jié)點(diǎn)和人名單元的終止節(jié)點(diǎn);第一擴(kuò)展單元,用于對(duì)所述特殊節(jié)點(diǎn)的入弧或出弧上的虛擬發(fā)音單元進(jìn)行擴(kuò)展,得到與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)。優(yōu)選地,所述特定用戶人名語言模型構(gòu)建單元包括人名提取單元,用于從用戶上傳的人名相關(guān)信息中提取人名,并將所述人名作為人名詞條記錄;特定用戶人名語言模型生成單元,用于對(duì)每個(gè)人名詞條設(shè)置一個(gè)詞頻概率,并根據(jù)人名詞條的詞頻概率生成特定用戶人名語言模型;所述附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元包括設(shè)定單元,用于分別設(shè)定特定用戶人名語言模型中的句首詞和句尾詞的發(fā)音為虛擬的特殊發(fā)音;第二擴(kuò)展單元,用于對(duì)于句首節(jié)點(diǎn)的出弧和句尾節(jié)點(diǎn)的入弧上的特殊發(fā)音單元進(jìn)行擴(kuò)展,得到特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。本發(fā)明實(shí)施例提供的用戶個(gè)性化信息語音識(shí)別方法及系統(tǒng),在接收到用戶輸入的語音信號(hào)后,根據(jù)與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中活躍節(jié)點(diǎn)上的解碼路徑,如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則進(jìn)一步根據(jù)所述用戶的與特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,從而不僅提高了連續(xù)語音識(shí)別中個(gè)性化的聯(lián)系人人名的識(shí)別準(zhǔn)確率,而且還提高了聯(lián)系人人名的上下文內(nèi)容識(shí)別準(zhǔn)確率。在語音識(shí)別的多個(gè)層面應(yīng)用聯(lián)系人信息,使整體識(shí)別效果得到了優(yōu)化,提高了連續(xù)語音識(shí)別中用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法的流程圖;圖2是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法中的一種具體解碼流程圖;圖3是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法中的另一種具體解碼流程圖;圖4是本發(fā)明實(shí)施例中構(gòu)建基礎(chǔ)人名語言模型的流程圖;圖5是本發(fā)明實(shí)施例中構(gòu)建特定用戶人名語言模型的流程圖;圖6是本發(fā)明實(shí)施例中構(gòu)建與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)的流程圖;圖7是本發(fā)明實(shí)施例中基礎(chǔ)人名語言模型相關(guān)解碼網(wǎng)絡(luò)擴(kuò)展示意圖;圖8是本發(fā)明實(shí)施例中構(gòu)建與特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)的流程圖;圖9是本發(fā)明實(shí)施例中特定用戶人名語言模型相關(guān)解碼網(wǎng)絡(luò)擴(kuò)展示意圖;圖10是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖;圖11是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)的一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖;圖12是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)的另一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖;圖13是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)的另一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖;圖14是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)中基礎(chǔ)人名語言模型構(gòu)建單元的結(jié)構(gòu)示意圖;圖15是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)中基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元的結(jié)構(gòu)示意圖;圖16是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)中特定用戶人名語言模型構(gòu)建單元和附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說明。本發(fā)明實(shí)施例針對(duì)現(xiàn)有的用于連續(xù)語音識(shí)別的語言模型不能很好地模擬人名字詞,特別是用戶個(gè)性化聯(lián)系人名字詞的問題,提供了一種用戶個(gè)性化信息語音識(shí)別方法及系統(tǒng),以提高用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。如圖1所示,是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法的流程圖,包括以下步驟步驟101,接收用戶的語音信號(hào)。步驟102,根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中所有活躍節(jié)點(diǎn)上的解碼路徑,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò)。利用所述解碼網(wǎng)絡(luò)對(duì)用戶輸入的語音信號(hào)進(jìn)行解碼的過程是一個(gè)在該解碼網(wǎng)絡(luò)中搜索最優(yōu)路徑,實(shí)現(xiàn)語音到文本的轉(zhuǎn)換的過程。具體地,可以首先對(duì)接收的連續(xù)語音信號(hào)采樣為一系列離散能量值存入數(shù)據(jù)緩存區(qū)。當(dāng)然,為了進(jìn)一步提高系統(tǒng)的魯棒性,還可以先對(duì)接收到的連續(xù)語音信號(hào)進(jìn)行降噪處理。首先通過對(duì)語音信號(hào)的短時(shí)能量和短時(shí)過零率分析,將連續(xù)的語音信號(hào)分割成獨(dú)立的語音片斷和非語音片斷,然后對(duì)分割得到的語音片斷進(jìn)行語音增強(qiáng)處理,在進(jìn)行語音增強(qiáng)處理時(shí),可以通過維納濾波等方法,將語音信號(hào)中的環(huán)境噪聲進(jìn)一步消除,以提高后續(xù)系統(tǒng)對(duì)該信號(hào)的處理能力??紤]到降噪處理后的語音信號(hào)中依然會(huì)存在大量語音識(shí)別無關(guān)的冗余信息,直接對(duì)其識(shí)別可能會(huì)使運(yùn)算量和識(shí)別準(zhǔn)確率降低,為此,可以從降噪處理后的語音能量信號(hào)中提取識(shí)別有效語音特征,并存入特征緩存區(qū)內(nèi)。具體地,可以提取語音的MFCC(MelFrequency Cepstrum Coefficient,Mel頻率倒譜系數(shù))特征,對(duì)窗長(zhǎng)25ms巾貞移IOms的每幀語音數(shù)據(jù)做短時(shí)分析得到MFCC參數(shù)及其一階、二階差分,共計(jì)39維。也就是說,將每幀語音信號(hào)量化為一 39維的特征序列。然后,根據(jù)所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)對(duì)其中每幀語音信號(hào)進(jìn)行解碼,獲取所述語音信號(hào)在所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中所有活躍節(jié)點(diǎn)上的解碼路徑。步驟103,如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò)。在現(xiàn)有技術(shù)中,解碼路徑的搜索過程如下按照從左到右的時(shí)間順序,計(jì)算每幀語音信號(hào)幀到達(dá)解碼網(wǎng)絡(luò)中每個(gè)活躍節(jié)點(diǎn)的累積歷史路徑概率。具體地,對(duì)于需要考察的每幀語音信號(hào)幀,可以首先計(jì)算當(dāng)前解碼網(wǎng)絡(luò)中所有活躍節(jié)點(diǎn)相對(duì)于該語音信號(hào)幀的歷史路徑和累積歷史路徑概率。然后,獲取下一幀語音信號(hào)幀,并從滿足系統(tǒng)預(yù)設(shè)條件的歷史路徑向后擴(kuò)展解碼。由于本發(fā)明實(shí)施例中的解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò),因此,在當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)時(shí),根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展。由于所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò),因此通過對(duì)用戶個(gè)性化詞條的構(gòu)建及應(yīng)用,尤其是對(duì)用戶個(gè)性化聯(lián)系人信息的應(yīng)用,有效提高了用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。步驟104,在最后一巾貞解碼完成后,返回識(shí)別結(jié)果。當(dāng)對(duì)最后一幀語音信號(hào)幀解碼后,其中具有最大累積歷史路徑概率的活躍節(jié)點(diǎn)即為最優(yōu)節(jié)點(diǎn),從該最優(yōu)節(jié)點(diǎn)通過解碼狀態(tài)回溯得到的歷史路徑即為最優(yōu)路徑,該最優(yōu)路徑上的單詞序列即為解碼結(jié)果。本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法,在接收到用戶輸入的語音信號(hào)后,根據(jù)與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在解碼網(wǎng)絡(luò)中所有活躍節(jié)點(diǎn)上的解碼路徑,如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則進(jìn)一步根據(jù)所述用戶的與特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,從而不僅提高了連續(xù)語音識(shí)別中個(gè)性化的聯(lián)系人人名的識(shí)別準(zhǔn)確率,而且還提高了聯(lián)系人人名的上下文內(nèi)容識(shí)別準(zhǔn)確率。在語音識(shí)別的多個(gè)層面應(yīng)用聯(lián)系人信息,使整體識(shí)別效果得到了優(yōu)化,提高了連續(xù)語音識(shí)別中用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。需要說明的是,在實(shí)際應(yīng)用中,上述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)和附屬靜態(tài)解碼網(wǎng)絡(luò)可以由系統(tǒng)在線構(gòu)建,也可以通過離線方式構(gòu)建,在系統(tǒng)啟動(dòng)時(shí)直接載入,以減少系統(tǒng)運(yùn)算量及所需內(nèi)存,進(jìn)一步提聞解碼效率。上述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò),附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò),下面進(jìn)一步詳細(xì)說明本發(fā)明實(shí)施例中人名相關(guān)語言模型及相關(guān)解碼網(wǎng)絡(luò)的構(gòu)建過程。傳統(tǒng)語音識(shí)別系統(tǒng)通常采用統(tǒng)計(jì)模型的方法構(gòu)建語言模型,通過模擬語法和語義知識(shí)減少識(shí)別范圍、提高識(shí)別率。一般的,系統(tǒng)首先根據(jù)預(yù)設(shè)詞典對(duì)海量訓(xùn)練語料進(jìn)行分詞處理,然后分別統(tǒng)計(jì)各詞聯(lián)合出現(xiàn)的概率,并采用條件概率的方式構(gòu)建語言模型。假設(shè)某個(gè)詞Wk出現(xiàn)的概率僅和其前η-1個(gè)詞相關(guān),記為p(wk I W廣1) = k I WkkI1)。然而由于中文人名數(shù)量眾多,傳統(tǒng)詞典很少將人名作力確定字詞處理,因而訓(xùn)練語料分詞后的人名數(shù)量極其有限,訓(xùn)練得到的語言模型也無法很好地描述具體人名的出現(xiàn)概率,進(jìn)而影響了人名相關(guān)整詞的識(shí)別準(zhǔn)確率。為此,在本發(fā)明實(shí)施例中,分別構(gòu)建用以描述常用字詞間以及常用字詞與人名間的統(tǒng)計(jì)概率的基礎(chǔ)人名語言模型、以及特定用戶相關(guān)的用以描述具體人名統(tǒng)計(jì)概率的語言模型。其中,基礎(chǔ)人名語言模型用于描述常用字詞間以及常用字詞與人名間的統(tǒng)計(jì)概率。特定用戶人名語言模型用于描述該用戶相關(guān)的具體人名的統(tǒng)計(jì)概率。如圖2所示,是本發(fā)明實(shí)施例中構(gòu)建基礎(chǔ)人名語言模型的流程圖,包括以下步驟步驟201,采集人名數(shù)據(jù)庫(kù)。具體地,可以采集一個(gè)較大規(guī)模的人名數(shù)據(jù)庫(kù),以實(shí)現(xiàn)對(duì)常用人名的有效覆蓋。步驟202,采集語言模型訓(xùn)練語料。步驟203,根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。具體地,可以根據(jù)所述人名數(shù)據(jù)庫(kù)中的人名在所述訓(xùn)練語料中進(jìn)行人名檢測(cè),t匕如,可以采用傳統(tǒng)人名檢測(cè)算法進(jìn)行人名檢測(cè)。然后對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換,然后在替換后的訓(xùn)練語料上對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。步驟204,根據(jù)統(tǒng)計(jì)結(jié)果`生成基礎(chǔ)人名語言模型。需要說明的是,在實(shí)際應(yīng)用中,還可以在上述過程中對(duì)語料中的具體人名進(jìn)行統(tǒng)計(jì),確定各類不同人名詞條出現(xiàn)的詞頻,以便在構(gòu)建特定用戶人名語言模型過程中依據(jù)該詞頻設(shè)置人名詞條的詞頻概率。相比于傳統(tǒng)的語言模型,該基礎(chǔ)人名語言模型通過對(duì)人名字詞的歸納提取,更好地描述了人名屬性字詞和常規(guī)字詞的統(tǒng)計(jì)概率,實(shí)現(xiàn)了對(duì)人名整詞識(shí)別的支持。上述基礎(chǔ)人名語言模型雖然描述了人名屬性字詞的統(tǒng)計(jì)概率,但依然無法解決具體人名字詞識(shí)別的問題。而在中文中,人名同音字大量存在,常見人名有幾十個(gè)甚至更多的漢字組合,此外對(duì)每個(gè)用戶來說,用戶特有的個(gè)性化通訊錄中聯(lián)系人人名可能還會(huì)有一部分非常用人名,即每個(gè)個(gè)性化的人名列表在訓(xùn)練語料中無法均勻覆蓋。因此,為了更好地識(shí)別各特定用戶相關(guān)人名字詞,在本發(fā)明實(shí)施例中,還可進(jìn)一步根據(jù)用戶需求構(gòu)建特定用戶相關(guān)的人名語言模型,即前面所述的特定用戶人名語言模型。具體地,可以在接收到用戶上傳的聯(lián)系人信息后從所述聯(lián)系人信息中提取獲得該用戶特定的人名語言模型。如圖3所示,是本發(fā)明實(shí)施例中構(gòu)建特定用戶人名語言模型的流程圖,包括以下步驟步驟301,從用戶上傳的人名相關(guān)信息中提取人名,并將所述人名作為人名詞條記錄。所述人名相關(guān)信息可以是通訊錄等。步驟302,對(duì)每個(gè)人名詞條設(shè)置一個(gè)詞頻概率。最簡(jiǎn)單的可以設(shè)置每個(gè)人名詞條的詞頻概率均等,或者根據(jù)海量語料中統(tǒng)計(jì)的人名詞頻相應(yīng)設(shè)置,更進(jìn)一步的還可以根據(jù)用戶歷史使用記錄按高低頻度對(duì)人名詞條進(jìn)行詞頻設(shè)置,并允許后續(xù)對(duì)其進(jìn)行更新。步驟303,根據(jù)人名詞條的詞頻概率生成特定用戶人名語言模型。在本發(fā)明實(shí)施例中,可以利用詞典,聲學(xué)模型等預(yù)置模型結(jié)合上述構(gòu)建的多重語言模型(即基礎(chǔ)人名語言模型和特定用戶人名語言模型)擴(kuò)展,獲得相應(yīng)的多重解碼搜索靜態(tài)網(wǎng)絡(luò)。具體地,可以選擇低階的聲學(xué)模型,如uniphone模型,對(duì)語言模型中的字詞進(jìn)行聲學(xué)單元的擴(kuò)展構(gòu)成解碼網(wǎng)絡(luò)。進(jìn)一步地,為了提高解碼準(zhǔn)確率,還可選用更高階的聲學(xué)模型,如biphone (雙音素)、triphone (三音素)模型等,提高不同發(fā)音單元之間的區(qū)分性。如上面所述,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)時(shí),可以先對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換,然后在替換后的訓(xùn)練語料上對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì),構(gòu)建基礎(chǔ)人名語言模型。也就是說,基礎(chǔ)人名語言模型中包含有虛擬人名單元,其在解碼前無法明確具體發(fā)音。為此,本發(fā)明實(shí)施例提供一種基于聲學(xué)模型的網(wǎng)絡(luò)擴(kuò)展方法,以構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的靜態(tài)解碼網(wǎng)絡(luò)。如圖4所示,是本發(fā)明實(shí)施例中構(gòu)建與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)的流程圖,包括以下步驟步驟401,為所述虛擬人名設(shè)置一個(gè)虛擬發(fā)音,以使所述虛擬人名作為一個(gè)普通單詞參與聲學(xué)模型的靜態(tài)網(wǎng)絡(luò)擴(kuò)展。步驟402,確定擴(kuò)展后的靜態(tài)網(wǎng)絡(luò)中的特殊節(jié)點(diǎn),所述特殊節(jié)點(diǎn)包括進(jìn)入人名單元的節(jié)點(diǎn)和人名單元的終止節(jié)點(diǎn)。將所述虛擬發(fā)音記為$C,以triphone聲學(xué)模型為例,如圖5所示,在擴(kuò)展后的靜態(tài)網(wǎng)絡(luò)中將主要包括三類節(jié)點(diǎn)常規(guī)節(jié)點(diǎn)(節(jié)點(diǎn)A)和兩類特殊節(jié)點(diǎn)(節(jié)點(diǎn)S和節(jié)點(diǎn)E)。其中,a,b,x ,y,n表示普通的發(fā)音單元,$C表示虛擬人名的發(fā)音單元,為了描述方便,將其稱為虛擬發(fā)音單元。節(jié)點(diǎn)A為常規(guī)節(jié)點(diǎn),即進(jìn)入A節(jié)點(diǎn)以及離開A節(jié)點(diǎn)的弧上的triphone模型是可以預(yù)先確定的。節(jié)點(diǎn)S為特殊節(jié)點(diǎn),其出弧為人名單元,即進(jìn)入人名單元的節(jié)點(diǎn),顯然該節(jié)點(diǎn)的入弧上由于具體人名的不確定性導(dǎo)致該入弧上的triphone模型的右相關(guān)擴(kuò)展不確定,如圖中 x_b+$C 和 y_b+$C。節(jié)點(diǎn)E為特殊節(jié)點(diǎn),其入弧為人名單元,即人名單元的終止節(jié)點(diǎn),相應(yīng)的,其出弧上的triphone模型左相關(guān)也無法確定,如圖中$C_a+x和$C_a+y。步驟403,對(duì)所述特殊節(jié)點(diǎn)的入弧或出弧上的虛擬發(fā)音單元進(jìn)行擴(kuò)展,得到與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)。對(duì)于節(jié)點(diǎn)S的入弧,例如x_b+$C和y_b+$C,對(duì)$C進(jìn)行擴(kuò)展替換成所有可能的phone單元,相應(yīng)的,由弧x_b+$C將擴(kuò)展出多個(gè)triphone模型的集合,包括x_b+a, x_b+b…等。擴(kuò)展方式可以根據(jù)x-b的triphone組和規(guī)律確定。對(duì)于節(jié)點(diǎn)E的出弧,同樣采取上述類似操作,如對(duì)$C_a+x和$C_a+y,將$C替換成所有可能的phone單元,擴(kuò)展出相應(yīng)的準(zhǔn)確的triphone模型。保持從節(jié)點(diǎn)S到節(jié)點(diǎn)E的弧*_$C+*不變,在后續(xù)動(dòng)態(tài)解碼進(jìn)入到節(jié)點(diǎn)S時(shí)對(duì)其進(jìn)行具體人名靜態(tài)解碼網(wǎng)絡(luò)的替換。同樣,在構(gòu)建特定用戶人名語言模型相關(guān)的靜態(tài)解碼網(wǎng)絡(luò)時(shí),對(duì)特定用戶相關(guān)的具體語言模型的擴(kuò)展,在采用高階聲學(xué)模型時(shí),也需要采用與上述類似的方法。如圖6所示,是本發(fā)明實(shí)施例中特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)的流程圖,包括以下步驟步驟601,分別設(shè)定特定用戶人名語言模型中的句首詞和句尾詞的發(fā)音為虛擬的特殊發(fā)首。通常語言模型中一般會(huì)包含兩個(gè)特殊的詞,即句首詞〈S〉和句尾詞</s>,分別表示句子開始和句子結(jié)束,句首句尾詞發(fā)音一般定義為靜音sil。在本發(fā)明實(shí)施例中,為了保證人名單元在識(shí)別過程中和原始靜態(tài)網(wǎng)絡(luò)的連接,可以對(duì)該特定用戶人名語言模型的句首和句尾詞的發(fā)音進(jìn)行特殊處理,以便構(gòu)建triphone模型擴(kuò)展的靜態(tài)網(wǎng)絡(luò),具體如圖7所示。其中,設(shè)定句首詞的發(fā)音為虛擬的特殊發(fā)音$S,句尾詞的發(fā)音為虛擬的特殊發(fā)音$E。從句首節(jié)點(diǎn)S出發(fā)的弧上的triphone模型左相關(guān)不確定,如圖中$S_a+b和$S_x+y,而句尾節(jié)點(diǎn)E的弧上的triphone模型的右相關(guān)是不確定的,如圖中a_b+$S和x_y+$S,并保持其他弧上的模型為常規(guī)triphone模型。步驟602,對(duì)于句首節(jié)點(diǎn)的出弧和句尾節(jié)點(diǎn)的入弧上的特殊發(fā)音單元進(jìn)行擴(kuò)展,得到特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。具體地,對(duì)于句首節(jié)點(diǎn)S的出弧,例如$S_a+b和$S_x+y,將$S替換成所有可能的phone,擴(kuò)展出相應(yīng)的準(zhǔn)確的triphone模型;對(duì)于句尾節(jié)點(diǎn)E的入弧也做類似操作,例如a_b+$S和x_y+$S,將$S替換成所有可能的phone,擴(kuò)展出相應(yīng)的準(zhǔn)確的triphone模型。前面提到,上述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)及附屬靜態(tài)解碼網(wǎng)絡(luò)可以通過離線方式構(gòu)建,其中,附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶相關(guān)的,也就是說,不同用戶可以對(duì)應(yīng)不同的附屬靜態(tài)解碼網(wǎng)絡(luò)。因此,在對(duì)接收的用戶語音信號(hào)進(jìn)行識(shí)別過程中,可以載入針對(duì)該用戶的附屬靜態(tài)解碼網(wǎng)絡(luò),具體載入時(shí)機(jī)可以不同,比如,可以是在根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼之前,也可以是在確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)之后等,對(duì)此,下面分別舉例說明。如圖8所示,是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法中的一種具體解碼流程圖,包括以下步驟步驟801,接收用戶的語音信號(hào)。步驟802,對(duì)所述語音信號(hào)進(jìn)行預(yù)處理,并提取聲學(xué)特征。步驟803,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。步驟804,在基礎(chǔ)靜態(tài)網(wǎng)絡(luò)中逐幀對(duì)語音信號(hào)解碼,搜素當(dāng)前解碼路徑。步驟805,判斷當(dāng)前解碼路徑中是否有路徑進(jìn)入基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn);若是,則執(zhí)行步驟806 ;否則執(zhí)行步驟807。步驟806,根據(jù)用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)基礎(chǔ)靜態(tài)網(wǎng)絡(luò)中的人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展。具體地,可以利用附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)基礎(chǔ)靜態(tài)網(wǎng)絡(luò)中的該人名節(jié)點(diǎn)進(jìn)行替換;或設(shè)置所述進(jìn)入人名節(jié)點(diǎn)的解碼路徑直接進(jìn)入所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。
需要說明的是,當(dāng)設(shè)置所述進(jìn)入人名節(jié)點(diǎn)的解碼路徑進(jìn)入所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)時(shí),在接收到新的語音幀信號(hào)時(shí),所述進(jìn)入用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)的解碼路徑將在所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)內(nèi)搜索后續(xù)解碼路徑,并在所述路徑到達(dá)附屬的靜態(tài)解碼網(wǎng)絡(luò)的終止節(jié)點(diǎn)時(shí)返回到基礎(chǔ)靜態(tài)網(wǎng)絡(luò)的人名節(jié)點(diǎn)的終止節(jié)點(diǎn)。步驟807,判斷當(dāng)前幀是否最后一幀,即是否解碼結(jié)束;若是,則執(zhí)行步驟808 ;否則轉(zhuǎn)入步驟804。步驟808,返回解碼結(jié)果。如圖9所示,是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法中的另一種具體解碼流程圖,包括以下步驟步驟901,接收用戶的語音信號(hào)。步驟902,對(duì)所述語音信號(hào)進(jìn)行預(yù)處理,并提取聲學(xué)特征。步驟903,在基礎(chǔ)靜態(tài)網(wǎng)絡(luò)中逐幀對(duì)語音信號(hào)解碼,搜素當(dāng)前解碼路徑。步驟904,判斷當(dāng)前解碼路徑中是否有路徑進(jìn)入基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn);若是,則執(zhí)行步驟905 ;否則執(zhí)行步驟907。步驟905,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。步驟906,根據(jù)用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)基礎(chǔ)靜態(tài)網(wǎng)絡(luò)中的人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展。具體地,可以利用附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)基礎(chǔ)靜態(tài)網(wǎng)絡(luò)中的該人名節(jié)點(diǎn)進(jìn)行替換;或設(shè)置所述進(jìn)入人名節(jié)點(diǎn)的解碼路徑直接進(jìn)入所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。需要說明的是,當(dāng)設(shè)置所述進(jìn)入人名節(jié)點(diǎn)的解碼路徑進(jìn)入所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)時(shí),在接收到新的語音幀信號(hào)時(shí),所述進(jìn)入用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)的解碼路徑將在所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)內(nèi)搜索后續(xù)解碼路徑,并在所述路徑到達(dá)附屬的靜態(tài)解碼網(wǎng)絡(luò)的終止節(jié)點(diǎn)時(shí)返回到基礎(chǔ)靜態(tài)網(wǎng)絡(luò)的人名節(jié)點(diǎn)的終止節(jié)點(diǎn)。步驟907,判斷當(dāng)前幀是否最后一幀,即是否解碼結(jié)束;若是,則執(zhí)行步驟908 ;否則轉(zhuǎn)入步驟903。步驟908,返回解碼結(jié)果。需要說明的是,上述步驟803和步驟905中,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)的方式可以有多種,比如(I)根據(jù)用戶的語音信號(hào)特征確定用戶的身份,即具體的用戶,然后根據(jù)用戶的身份確定其附屬靜態(tài)解碼網(wǎng)絡(luò)。(2)根據(jù)用戶的設(shè)備碼確定用戶的身份,然后根據(jù)用戶的身份確定其附屬靜態(tài)解碼網(wǎng)絡(luò)??梢?,本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法,在接收到用戶輸入的語音信號(hào)后,根據(jù)與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在解碼網(wǎng)絡(luò)中所有活躍節(jié)點(diǎn)上的解碼路徑,如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則進(jìn)一步根據(jù)所述用戶的與特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,從而不僅提高了連續(xù)語音識(shí)別中個(gè)性化的聯(lián)系人人名的識(shí)別準(zhǔn)確率,而且還提高了聯(lián)系人人名的上下文內(nèi)容識(shí)別準(zhǔn)確率。在語音識(shí)別的多個(gè)層面應(yīng)用聯(lián)系人信息,使整體識(shí)別效果得到了優(yōu)化,提高了連續(xù)語音識(shí)別中用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。需要說明的是,本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別方法不僅適用于用戶人名解碼,還適用于其他可定義的個(gè)性化信息的語音識(shí)別,比如地址識(shí)別等。相應(yīng)地,本發(fā)明實(shí)施例還提供一種用戶個(gè)性化信息語音識(shí)別系統(tǒng),如圖10所示,是該系統(tǒng)的結(jié)構(gòu)示意圖。在該實(shí)施例中,所述系統(tǒng)包括接收單元111,用于接收用戶輸入的語音信號(hào);解碼單元112,用于根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中各活躍節(jié)點(diǎn)上的解碼路徑,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò);解碼路徑檢查單元113,用于確定當(dāng)前幀是否有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn);網(wǎng)絡(luò)擴(kuò)展單元114,用于在所述解碼路徑檢查單元113確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)后,根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò);所述解碼單元112,還用于在最后一幀解碼完成后,返回識(shí)別結(jié)果。解碼單元112對(duì)用戶輸入的語音信號(hào)進(jìn)行解碼的過程是一個(gè)在所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中搜索最優(yōu)路徑,實(shí)現(xiàn)語音到文本的轉(zhuǎn)換的過程。具體地,可以首先對(duì)接收的連續(xù)語音信號(hào)采樣為一系列離散能量值存入數(shù)據(jù)緩存區(qū)。當(dāng)然,為了進(jìn)一步提高系統(tǒng)的魯棒性,在所述系統(tǒng)中還可以包括預(yù)處理單元(未圖示),用于在解碼單元112對(duì)用戶輸入的語音信號(hào)進(jìn)行解碼之前,對(duì)接收單元111接收到的連續(xù)語音信號(hào)進(jìn)行降噪處理。具體地,可以首先通過對(duì)語音信號(hào)的短時(shí)能量和短時(shí)過零率分析,將連續(xù)的語音信號(hào)分割成獨(dú)立的語音片斷和非語音片斷,然后對(duì)分割得到的語音片斷進(jìn)行語音增強(qiáng)處理,在進(jìn)行語音增強(qiáng)處理時(shí),可以通過維納濾波等方法,將語音信號(hào)中的環(huán)境噪聲進(jìn)一步消除,以提高后續(xù)系統(tǒng)對(duì)該信號(hào)的處理能力??紤]到降噪處理后的語音信號(hào)中依然會(huì)存在大量語音識(shí)別無關(guān)的冗余信息,直接對(duì)其識(shí)別可能會(huì)使運(yùn)算量和識(shí)別準(zhǔn)確率降低,為此,所述預(yù)處理單元還可以從降噪處理后的語音能量信號(hào)中提取識(shí)別有效語音特征,并存入特征緩存區(qū)內(nèi)。具體地,可以提取語音的MFCC (Mel Frequency Cepstrum Coefficient,Mel 頻率倒譜系數(shù))特征,對(duì)窗長(zhǎng) 25ms 巾貞移IOms的每幀語音數(shù)據(jù)做短時(shí)分析得到MFCC參數(shù)及其一階、二階差分,共計(jì)39維。也就是說,將每幀語音信號(hào)量化為一 39維的特征序列。然后,再由解碼單元112根據(jù)所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)對(duì)其中每幀語音信號(hào)進(jìn)行解碼,獲取所述語音信號(hào)在所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中所有活躍節(jié)點(diǎn)上的解碼路徑。當(dāng)對(duì)最后一幀語音信號(hào)幀解碼后,其中具有最大累積歷史路徑概率的活躍節(jié)點(diǎn)即為最優(yōu)節(jié)點(diǎn),從該最優(yōu)節(jié)點(diǎn)通過解碼狀態(tài)回溯得到的歷史路徑即為最優(yōu)路徑,該最優(yōu)路徑上的單詞序列即為解碼結(jié)果。由于所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò),因此,在當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)時(shí),由網(wǎng)絡(luò)擴(kuò)展單元114根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展。由于所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò),因此通過對(duì)用戶個(gè)性化詞條的構(gòu)建及應(yīng)用,尤其是對(duì)用戶個(gè)性化聯(lián)系人信息的應(yīng)用,有效提高了用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng),在接收到用戶輸入的語音信號(hào)后,根據(jù)與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在解碼網(wǎng)絡(luò)中所有活躍節(jié)點(diǎn)上的解碼路徑,如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則進(jìn)一步根據(jù)所述用戶的與特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,從而不僅提高了連續(xù)語音識(shí)別中個(gè)性化的聯(lián)系人人名的識(shí)別準(zhǔn)確率,而且還提高了聯(lián)系人人名的上下文內(nèi)容識(shí)別準(zhǔn)確率。在語音識(shí)別的多個(gè)層面應(yīng)用聯(lián)系人信息,使整體識(shí)別效果得到了優(yōu)化,提高了連續(xù)語音識(shí)別中用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。上述網(wǎng)絡(luò)擴(kuò)展單元114需要根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展。如果所述系統(tǒng)的用戶只有一個(gè),則所述附屬靜態(tài)解碼網(wǎng)絡(luò)是唯一的,可以由系統(tǒng)在線構(gòu)建,也可以通過離線方式構(gòu)建,在系統(tǒng)啟動(dòng)時(shí)直接載入。如果所述系統(tǒng)的用戶有多個(gè),則需要識(shí)別當(dāng)前的用戶以及該用戶對(duì)應(yīng)的附屬靜態(tài)解碼網(wǎng)絡(luò)。同樣,這些不同用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)可以由系統(tǒng)在線構(gòu)建,也可以通過離線方式構(gòu)建,在系統(tǒng)啟動(dòng)時(shí)直接載入。需要說明的是,在具體應(yīng)用中,當(dāng)前用戶對(duì)應(yīng)的附屬靜態(tài)解碼網(wǎng)絡(luò)的確定可以在不同時(shí)機(jī)來完成。如圖11所示,是本發(fā)明用戶個(gè)性化信息語音識(shí)別系統(tǒng)的一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖。與圖10不同的是,在該實(shí)施例中,所述用戶個(gè)性化信息語音識(shí)別系統(tǒng)還包括確定單元121,用于在所述解碼單元112根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼之前,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。如圖12所示,是本發(fā)明用戶個(gè)性化信息語音識(shí)別系統(tǒng)的另一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖。與圖10不同的是,在該實(shí)施例中,所述用戶個(gè)性化信息語音識(shí)別系統(tǒng)還包括確定單元131,用于在解碼路徑檢查單元113確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)之后,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。需要說明的是,無論是上述確定單元121還是確定單元131,都可以根據(jù)所述語音信號(hào)的特征確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者根據(jù)用戶的設(shè)備碼確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。在實(shí)際應(yīng)用中,上述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)和附屬靜態(tài)解碼網(wǎng)絡(luò)可以由系統(tǒng)在線構(gòu)建,也可以通過離線方式構(gòu)建,在系統(tǒng)啟動(dòng)時(shí)直接載入,以減少系統(tǒng)運(yùn)算量及所需內(nèi)存,進(jìn)一步提聞解碼效率。由于中文人名數(shù)量眾多,傳統(tǒng)詞典很少將人名作為確定字詞處理,因而訓(xùn)練語料分詞后的人名數(shù)量極其有限,訓(xùn)練得到的語言模型也無法很好地描述具體人名的出現(xiàn)概率,進(jìn)而影響了人名相關(guān)整詞的識(shí)別準(zhǔn)確率。為此,在本發(fā)明系統(tǒng)的另一實(shí)施例中,如圖13所示,還可進(jìn)一步包括基礎(chǔ)人名語言模型構(gòu)建單元131,用于構(gòu)建基礎(chǔ)人名語言模型;
特定用戶人名語言模型構(gòu)建單元132,用于構(gòu)建特定用戶人名語言模型;基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元133,用于構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò);附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元134,用于構(gòu)建與所述特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。如圖14所示,是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)中基礎(chǔ)人名語言模型構(gòu)建單元的結(jié)構(gòu)示意圖。所述基礎(chǔ)人名語言模型構(gòu)建單元包括人名采集單元141,用于采集人名數(shù)據(jù)庫(kù);語料采集單元142,用于采集語言模型訓(xùn)練語料;統(tǒng)計(jì)單元143,用于根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì);基礎(chǔ)人名語言模型生成單元143,用于根據(jù)所述統(tǒng)計(jì)單元143得到的統(tǒng)計(jì)結(jié)果生成基礎(chǔ)人名語言模型。上述統(tǒng)計(jì)單元143可以根據(jù)所述人名數(shù)據(jù)庫(kù)中的人名在所述訓(xùn)練語料中進(jìn)行人名檢測(cè),比如,可以采用傳統(tǒng)人名檢測(cè)算法進(jìn)行人名檢測(cè)。然后對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換,然后在替換后的訓(xùn)練語料上對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。為此,所述統(tǒng)計(jì)單元143可以包括檢測(cè)子單元,用于根據(jù)所述人名數(shù)據(jù)庫(kù)中的人名在所述訓(xùn)練語料中進(jìn)行人名檢測(cè);替換子單元,用于對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換;統(tǒng)計(jì)子單元,用于根據(jù)替換后的訓(xùn)練語料對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。相比于傳統(tǒng)的語言模型,由所述基礎(chǔ)人名語言模型構(gòu)建單元構(gòu)建的基礎(chǔ)人名語言模型通過對(duì)人名字詞的歸納提取,更好地描述了人名屬性字詞和常規(guī)字詞的統(tǒng)計(jì)概率,實(shí)現(xiàn)了對(duì)人名整詞識(shí)別的支持。如圖15所示,是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)中基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元的結(jié)構(gòu)示意圖。所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元包括虛擬發(fā)音設(shè)置單元151,用于為虛擬人名設(shè)置一個(gè)虛擬發(fā)音,以使所述虛擬人名作為一個(gè)普通單詞參與聲學(xué)模型的靜態(tài)網(wǎng)絡(luò)擴(kuò)展;特殊節(jié)點(diǎn)確定單元152,用于根據(jù)所述虛擬發(fā)音確定擴(kuò)展后的靜態(tài)網(wǎng)絡(luò)中的特殊節(jié)點(diǎn),所述特殊節(jié)點(diǎn)包括進(jìn)入人名單元的節(jié)點(diǎn)和人名單元的終止節(jié)點(diǎn);第一擴(kuò)展單元153,用于對(duì)所述特殊節(jié)點(diǎn)的入弧或出弧上的虛擬發(fā)音單元進(jìn)行擴(kuò)展,得到與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)。如圖16所示,是本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)中特定用戶人名語言模型構(gòu)建單元和附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元的結(jié)構(gòu)示意圖。所述特定用戶人名語言模型構(gòu)建單元包括
人名提取單元161,用于從用戶上傳的人名相關(guān)信息中提取人名,并將所述人名作為人名詞條記錄;特定用戶人名語言模型生成單元162,用于對(duì)每個(gè)人名詞條設(shè)置一個(gè)詞頻概率,并根據(jù)人名詞條的詞頻概率生成特定用戶人名語言模型;所述附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元包括設(shè)定單元171,用于分別設(shè)定特定用戶人名語言模型中的句首詞和句尾詞的發(fā)音為虛擬的特殊發(fā)首;第二擴(kuò)展單元172,用于對(duì)于句首節(jié)點(diǎn)的出弧和句尾節(jié)點(diǎn)的入弧上的特殊發(fā)音單元進(jìn)行擴(kuò)展,得到特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。利用本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng),不僅可以提高連續(xù)語音識(shí)別中個(gè)性化的聯(lián)系人人名的識(shí)別準(zhǔn)確率,而且還可以提高聯(lián)系人人名的上下文內(nèi)容識(shí)別準(zhǔn)確率。在語音識(shí)別的多個(gè)層面應(yīng)用聯(lián)系人信息,使整體識(shí)別效果得到了優(yōu)化,提高了連續(xù)語音識(shí)別中用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。需要說明的是,本發(fā)明實(shí)施例用戶個(gè)性化信息語音識(shí)別系統(tǒng)不僅適用于用戶人名解碼,還適用于其他可定義的個(gè)性化信息的語音識(shí)別,比如地址識(shí)別等。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種用戶個(gè)性化信息語音識(shí)別方法,其特征在于,包括 接收用戶輸入的語音信號(hào); 根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中各活躍節(jié)點(diǎn)上的解碼路徑,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò); 如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò); 在最后一幀解碼完成后,返回識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括 在根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼之前,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者 在確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)之后,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)包括 根據(jù)所述語音信號(hào)的特征確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者 根據(jù)用戶的設(shè)備碼確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述方法還包括 構(gòu)建基礎(chǔ)人名語言模型和特定用戶人名語言模型; 分別構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)和與所述特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述構(gòu)建基礎(chǔ)人名語言模型包括 分別采集人名數(shù)據(jù)庫(kù)和語言模型訓(xùn)練語料; 根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì); 根據(jù)統(tǒng)計(jì)結(jié)果生成基礎(chǔ)人名語言模型。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)包括 根據(jù)所述人名數(shù)據(jù)庫(kù)中的人名在所述訓(xùn)練語料中進(jìn)行人名檢測(cè); 對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換; 根據(jù)替換后的訓(xùn)練語料對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)包括 為所述虛擬人名設(shè)置一個(gè)虛擬發(fā)音,以使所述虛擬人名作為一個(gè)普通單詞參與聲學(xué)模型的靜態(tài)網(wǎng)絡(luò)擴(kuò)展; 根據(jù)所述虛擬發(fā)音確定擴(kuò)展后的靜態(tài)網(wǎng)絡(luò)中的特殊節(jié)點(diǎn),所述特殊節(jié)點(diǎn)包括進(jìn)入人名單元的節(jié)點(diǎn)和人名單元的終止節(jié)點(diǎn); 對(duì)所述特殊節(jié)點(diǎn)的入弧或出弧上的虛擬發(fā)音單元進(jìn)行擴(kuò)展,得到與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)。
8.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述構(gòu)建特定用戶人名語言模型包括 從用戶上傳的人名相關(guān)信息中提取人名,并將所述人名作為人名詞條記錄; 對(duì)每個(gè)人名詞條設(shè)置一個(gè)詞頻概率,并根據(jù)人名詞條的詞頻概率生成特定用戶人名語目模型; 所述構(gòu)建與所述特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)包括 分別設(shè)定特定用戶人名語言模型中的句首詞和句尾詞的發(fā)音為虛擬的特殊發(fā)音; 對(duì)于句首節(jié)點(diǎn)的出弧和句尾節(jié)點(diǎn)的入弧上的特殊發(fā)音單元進(jìn)行擴(kuò)展,得到特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。
9.一種用戶個(gè)性化信息語音識(shí)別系統(tǒng),其特征在于,包括 接收單元,用于接收用戶輸入的語音信號(hào); 解碼單元,用于根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中各活躍節(jié)點(diǎn)上的解碼路徑,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò); 解碼路徑檢查單元,用于確定當(dāng)前幀是否有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn); 網(wǎng)絡(luò)擴(kuò)展單元,用于在所述解碼路徑檢查單元確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)后,根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò); 結(jié)果輸出單元,用于在最后一幀解碼完成后,返回識(shí)別結(jié)果。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 確定單元,用于在所述解碼單元根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼之前,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者在解碼路徑檢查單元確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn)之后,確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于, 所述確定單元,具體用于根據(jù)所述語音信號(hào)的特征確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò);或者根據(jù)用戶的設(shè)備碼確定用戶身份,然后根據(jù)所述用戶身份確定所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)。
12.根據(jù)權(quán)利要求9至11任一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 基礎(chǔ)人名語言模型構(gòu)建單元,用于構(gòu)建基礎(chǔ)人名語言模型; 特定用戶人名語言模型構(gòu)建單元,用于構(gòu)建特定用戶人名語言模型; 基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元,用于構(gòu)建與所述基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò); 附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元,用于構(gòu)建與所述特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述基礎(chǔ)人名語言模型構(gòu)建單元包括 人名采集單元,用于采集人名數(shù)據(jù)庫(kù);語料采集單元,用于采集語言模型訓(xùn)練語料; 統(tǒng)計(jì)單元,用于根據(jù)所述人名數(shù)據(jù)庫(kù)及所述語言模型訓(xùn)練語料,對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì); 基礎(chǔ)人名語言模型生成單元,用于根據(jù)所述統(tǒng)計(jì)單元得到的統(tǒng)計(jì)結(jié)果生成基礎(chǔ)人名語目模型。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述統(tǒng)計(jì)單元包括 檢測(cè)子單元,用于根據(jù)所述人名數(shù)據(jù)庫(kù)中的人名在所述訓(xùn)練語料中進(jìn)行人名檢測(cè);替換子單元,用于對(duì)所述訓(xùn)練語料中的所有具體人名用一個(gè)統(tǒng)一的虛擬人名替換;統(tǒng)計(jì)子單元,用于根據(jù)替換后的訓(xùn)練語料對(duì)常規(guī)字詞以及常規(guī)字詞與人名字詞間關(guān)聯(lián)關(guān)系進(jìn)行統(tǒng)計(jì)。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其特征在于,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元包括 虛擬發(fā)音設(shè)置單元,用于為所述虛擬人名設(shè)置一個(gè)虛擬發(fā)音,以使所述虛擬人名作為一個(gè)普通單詞參與聲學(xué)模型的靜態(tài)網(wǎng)絡(luò)擴(kuò)展; 特殊節(jié)點(diǎn)確定單元,用于根據(jù)所述虛擬發(fā)音確定擴(kuò)展后的靜態(tài)網(wǎng)絡(luò)中的特殊節(jié)點(diǎn),所述特殊節(jié)點(diǎn)包括進(jìn)入人名單元的節(jié)點(diǎn)和人名單元的終止節(jié)點(diǎn); 第一擴(kuò)展單元,用于對(duì)所述特殊節(jié)點(diǎn)的入弧或出弧上的虛擬發(fā)音單元進(jìn)行擴(kuò)展,得到與基礎(chǔ)人名語言模型相關(guān)的基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)。
16.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述特定用戶人名語言模型構(gòu)建單元包括 人名提取單元,用于從用戶上傳的人名相關(guān)信息中提取人名,并將所述人名作為人名詞條記錄; 特定用戶人名語言模型生成單元,用于對(duì)每個(gè)人名詞條設(shè)置一個(gè)詞頻概率,并根據(jù)人名詞條的詞頻概率生成特定用戶人名語言模型; 所述附屬靜態(tài)解碼網(wǎng)絡(luò)構(gòu)建單元包括 設(shè)定單元,用于分別設(shè)定特定用戶人名語言模型中的句首詞和句尾詞的發(fā)音為虛擬的特殊發(fā)首; 第二擴(kuò)展單元,用于對(duì)于句首節(jié)點(diǎn)的出弧和句尾節(jié)點(diǎn)的入弧上的特殊發(fā)音單元進(jìn)行擴(kuò)展,得到特定用戶人名語言模型相關(guān)的附屬靜態(tài)解碼網(wǎng)絡(luò)。
全文摘要
本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,公開了一種用戶個(gè)性化信息語音識(shí)別方法及系統(tǒng)。該方法包括接收用戶輸入的語音信號(hào);根據(jù)基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)逐幀對(duì)所述語音信號(hào)進(jìn)行解碼,得到當(dāng)前幀在基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中各活躍節(jié)點(diǎn)上的解碼路徑,所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)是與基礎(chǔ)人名語言模型相關(guān)的解碼網(wǎng)絡(luò);如果確定當(dāng)前幀有解碼路徑進(jìn)入所述基礎(chǔ)靜態(tài)解碼網(wǎng)絡(luò)中的人名節(jié)點(diǎn),則根據(jù)所述用戶的附屬靜態(tài)解碼網(wǎng)絡(luò)對(duì)所述人名節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)擴(kuò)展,所述附屬靜態(tài)解碼網(wǎng)絡(luò)是與特定用戶人名語言模型相關(guān)的解碼網(wǎng)絡(luò);在最后一幀解碼完成后,返回識(shí)別結(jié)果。利用本發(fā)明,可以提高連續(xù)語音識(shí)別中用戶個(gè)性化信息的識(shí)別準(zhǔn)確率。
文檔編號(hào)G10L15/26GK103065630SQ20121058593
公開日2013年4月24日 申請(qǐng)日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者潘青華, 何婷婷, 胡國(guó)平, 胡郁, 劉慶峰 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司