語音識別方法和裝置的制造方法

文檔序號：8473811閱讀：563來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及語音識別技術(shù)領(lǐng)域，特別涉及一種語音識別方法和裝置。
【背景技術(shù)】
[0002] 語音識別技術(shù)簡要來說就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng) 的文本或命令的技術(shù)。語音識別技術(shù)主要包括聲音特征提取技術(shù)、模式匹配準則及模型訓(xùn) 練技術(shù)等方面。
[0003] 目前語音識別技術(shù)已經(jīng)得到快速的發(fā)展以及廣泛的使用。但是，在環(huán)境噪聲較大的環(huán)境下，例如在體育場等嘈雜環(huán)境下，語音識別技術(shù)的應(yīng)用卻受到了很大的限制?？梢岳?解，用戶說話時的背景噪聲越大，語音識別的識別率就會越低。甚至受到背景噪聲的影響，很多時候無法完成語音結(jié)束檢測（utteranceEndingDetection),也即無法檢測出用戶什么時候停止說話的。

【發(fā)明內(nèi)容】

[0004] 為了解決上述問題，本發(fā)明的實施例提出了一種語音識別的方法及執(zhí)行該方法的裝置，可以提高噪聲環(huán)境下語音識別的識別率。
[0005] 本發(fā)明實施例所述的語音識別方法包括：記錄客戶端設(shè)備所在位置附近的背景音，并根據(jù)記錄的背景音生成噪音模型；根據(jù)生成的噪音模型對來自所述客戶端設(shè)備的語音文件進行降噪處理；以及對降噪后的語音文件進行語音識別得到識別后的文本。
[0006] 上述記錄用戶所在位置附近的背景音包括：服務(wù)所述用戶的邊緣節(jié)點記錄自身周圍的背景音。
[0007] 其中，上述語音文件包含時間戳；則根據(jù)記錄的背景音生成噪音模型包括：所述邊緣節(jié)點根據(jù)語音文件對應(yīng)的時間戳查找所述時間戳所指示時間對應(yīng)的背景音，根據(jù)所述背景音生成噪音模型。
[0008] 上述根據(jù)記錄的背景音生成噪音模型包括：邊緣節(jié)點根據(jù)接收到語音文件的時間查找與所述時間對應(yīng)的背景音，并根據(jù)查找到的背景音生成噪音模型。
[0009] 或者，上述根據(jù)記錄的背景音生成噪音模型包括：邊緣節(jié)點在收到客戶端上傳的語音信號后開始記錄背景音，并根據(jù)記錄的背景音生成噪音模型。
[0010] 又或者，上述根據(jù)記錄的背景音生成噪音模型包括：語音識別引擎向控制服務(wù)器發(fā)送背景音記錄上傳請求；以及在收到控制服務(wù)器上傳的背景音后，語音識別引擎根據(jù)控制服務(wù)器上傳的背景音生成噪音模型。
[0011] 上述根據(jù)生成的噪音模型對來自客戶端設(shè)備的語音文件進行降噪處理包括：所述邊緣節(jié)點根據(jù)生成的噪音模型對語音文件進行降噪處理，并對降噪處理后的語音文件進行語音輸入結(jié)束檢測；對降噪后的語音文件進行語音識別得到識別后的文本包括：邊緣節(jié)點對語音輸入結(jié)束檢測處理后的語音文件進行語音識別得到識別后的文本，并將識別后的文本上傳至應(yīng)用服務(wù)器。
[0012] 又或者，根據(jù)生成的噪音模型對來自客戶端設(shè)備的語音文件進行降噪處理包括：所述邊緣節(jié)點根據(jù)生成的噪音模型對語音文件進行降噪處理，對降噪處理后的語音文件進行語音輸入結(jié)束檢測，并將語音輸入結(jié)束檢測處理后的語音文件上傳至語音識別引擎；對降噪后的語音文件進行語音識別得到識別后的文本包括：語音識別引擎對語音輸入結(jié)束檢測處理后的語音文件進行語音識別得到識別后的文本，并將識別后的文本上傳至應(yīng)用服務(wù) 器。
[0013] 再或者，根據(jù)生成的噪音模型對來自客戶端設(shè)備的語音文件進行降噪處理包括：所述邊緣節(jié)點根據(jù)生成的噪音模型對語音文件進行降噪處理，并將降噪處理后的語音文件上傳至語音識別引擎；對降噪后的語音文件進行語音識別得到識別后的文本包括：語音識別引擎對降噪處理后的語音文件進行語音輸入結(jié)束檢測，對語音輸入結(jié)束檢測處理后的語音文件進行語音識別得到識別后的文本，并將識別后的文本上傳至應(yīng)用服務(wù)器。
[0014] 上述根據(jù)生成的噪音模型對來自客戶端設(shè)備的語音文件進行降噪處理包括：所述語音識別引擎根據(jù)生成的噪音模型對從邊緣節(jié)點接收的語音文件進行降噪處理，并對降噪處理后的語音文件進行語音輸入結(jié)束檢測；對降噪后的語音文件進行語音識別得到識別后的文本包括：所述語音識別引擎對語音輸入結(jié)束檢測處理后的語音文件進行語音識別得到識別后的文本，并將識別后的文本上傳至應(yīng)用服務(wù)器。
[0015] 上述方法在根據(jù)記錄的用戶所在位置附近的背景音生成噪音模型之前進一步包括：對記錄的背景音進行傳播損耗估計，并根據(jù)傳播損耗估計結(jié)果對自身記錄的背景音進行補償。
[0016] 本發(fā)明實施例所述的邊緣節(jié)點包括：背景音記錄模塊401，用于記錄自身所在位置附近的背景音。
[0017] 邊緣節(jié)點可以進一步包括：請求接收模塊1201，用于接收來自控制服務(wù)器的背景音記錄上傳請求；以及背景音上傳模塊1202,用于將自身記錄的背景音上傳至控制服務(wù) 器。
[0018] 或者，上述邊緣節(jié)點進一步包括：噪音模型生成模塊402,用于根據(jù)記錄的背景音生成噪音模型；降噪模塊403,用于根據(jù)生成的噪音模型對接收的語音文件進行降噪處理；語音輸入結(jié)束檢測模塊404,用于將降噪處理后的語音文件在各個時刻的幅值與預(yù)先設(shè)置的靜音門限進行比較，如果從某個時刻開始，各個時刻的幅值小于預(yù)先設(shè)置的靜音門限，則從語音文件中刪除這個時刻之后的部分；語音識別模塊405,用于對語音輸入結(jié)束檢測處理后的語音文件進行語音識別得到識別后的文本；以及文本上傳模塊406,用于將識別后的文本上傳至應(yīng)用服務(wù)器。
[0019] 又或者，上述邊緣節(jié)點進一步包括：噪音模型生成模塊402,用于根據(jù)記錄的背景音生成噪音模型；降噪模塊403,用于根據(jù)生成的噪音模型對接收的語音文件進行降噪處理；語音輸入結(jié)束檢測模塊404,用于將降噪處理后的語音文件在各個時刻的幅值與預(yù)先設(shè)置的靜音門限進行比較，如果從某個時刻開始，各個時刻的幅值小于預(yù)先設(shè)置的靜音門限，則從語音文件中刪除這個時刻之后的部分；以及文件上傳模塊601，用于將語音輸入結(jié) 束檢測后的語音文件上傳至語音識別引擎。
[0020] 再或者，上述邊緣節(jié)點進一步包括：噪音模型生成模塊402,用于根據(jù)記錄的背景音生成噪音模型；降噪模塊403,用于根據(jù)生成的噪音模型對接收的語音文件進行降噪處理；以及第二文件上傳模塊901，用于將降噪后的語音文件上傳至語音識別引擎。
[0021] 上述邊緣節(jié)點進一步包括：傳播損耗估計模塊，用于對所記錄的背景音進行傳播損耗估計，并根據(jù)傳播損耗估計結(jié)果對所記錄的背景音進行補償。
[0022] 本發(fā)明實施例所述的語音識別引擎包括：語音庫701，用于存儲各種不同類型聲音，針對同一文本內(nèi)容的發(fā)音；語言庫702,用于存儲各種不同語言的詞匯信息；搜索和解碼單元703,用于根據(jù)語音庫和語言庫，對所接收的語音文件進行搜索和解碼得到識別后的文本；以及文本上傳模塊406,用于將識別后的文本上傳至應(yīng)用服務(wù)器。
[0023] 上述語音識別引擎進一步包括：語音輸入結(jié)束檢測模塊404,用于將降噪處理后的語音文件在各個時刻的幅值與預(yù)先設(shè)置的靜音門限進行比較，如果從某個時刻開始，各個時刻的幅值小于預(yù)先設(shè)置的靜音門限，則從語音文件中刪除這個時刻之后的部分。
[0024] 更進一步，語音識別引擎可以包括：控制模塊1401，用于在收到語音文件后判斷是否需要進行降噪處理，如果不需要降噪處理，則觸發(fā)語音輸入結(jié)束檢測模塊404對語音文本進行語音輸入結(jié)束檢測；而如果需要降噪處理，則控制請求模塊1402向控制服務(wù)器發(fā) 送背景音記錄上傳請求；請求模塊1402,用于向控制服務(wù)器發(fā)送背景音記錄上傳請求；背景音接收模塊1403,用于從控制服務(wù)器接收服務(wù)客戶端設(shè)備的邊緣節(jié)點記錄的背景音；噪音模型生成模塊402,用于根據(jù)所接收的背景音生成噪音模型；以及降噪模塊403,用于根據(jù)生成的噪音模型對接收的語音文件進行降噪處理，并觸發(fā)語音輸入結(jié)束檢測模塊404對語音文本進行語音輸入結(jié)束檢測。
[0025] 本發(fā)明實施例所述的控制服務(wù)器包括：上傳請求接收模塊1301，用于接收來自語音識別引擎的背景音記錄上傳請求；匹配模塊1302,用于根據(jù)背景音記錄上傳請求中攜帶的客戶端設(shè)備的位置信息確定為該客戶端設(shè)備服務(wù)的邊緣節(jié)點；以及轉(zhuǎn)發(fā)模塊1303,用于向該邊緣節(jié)點轉(zhuǎn)發(fā)背景音記錄上傳請求；并將該邊緣節(jié)點上傳的背景音轉(zhuǎn)發(fā)至語音識別引擎。
[0026] 在本發(fā)明的各個實施例中，用于干擾消除的背景音是由用戶所在位置附近的邊緣節(jié)點捕獲并記錄的，能及時并且準確地反映出用戶所在位置附近的環(huán)境噪音或外部聲音情況，因此，以此背景音聲稱噪音模型并進行降噪可以獲得非常好的降噪效果，從而可以大大提高語音識別的識別率。
【附圖說明】
[0027] 圖1為本發(fā)明實施例所述的語音識別方法流程圖；
[0028] 圖2為本發(fā)明實施例所述的語音識別方法流程圖；
[0029] 圖3為本發(fā)明實施例所述的客戶端設(shè)備內(nèi)部結(jié)構(gòu)示意圖；
[0030] 圖4為本發(fā)明實施例所述的邊緣節(jié)點內(nèi)部結(jié)構(gòu)示意圖；
[0031] 圖5為本發(fā)明另一實施例所述的語音識別方法流程圖；
[0032] 圖6為本發(fā)明另一實

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3