欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語音識(shí)別方法及系統(tǒng)的制作方法

文檔序號(hào):2827450閱讀:288來源:國知局
一種語音識(shí)別方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明實(shí)施例提供了一種語音識(shí)別方法,包括:采集第一音頻數(shù)據(jù);利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果;其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù);本發(fā)明實(shí)施例還提供一種語音識(shí)別系統(tǒng)。根據(jù)本發(fā)明實(shí)施例提供的技術(shù)方案,可以實(shí)現(xiàn)提高語音識(shí)別系統(tǒng)中語音喚醒的成功率。
【專利說明】一種語音識(shí)別方法及系統(tǒng)
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及語音識(shí)別技術(shù),尤其涉及一種語音識(shí)別方法及系統(tǒng)。
【【背景技術(shù)】】
[0002]語音識(shí)別技術(shù)在近些年取得顯著進(jìn)步,語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。例如,語音識(shí)別技術(shù)常應(yīng)用于導(dǎo)航技術(shù)中,由于用戶在駕駛過程中不方便手動(dòng)操控導(dǎo)航客戶端,因此,語音輸入是一種很好的交互方式;導(dǎo)航客戶端在監(jiān)聽狀態(tài)下,可以對用戶的語音指令進(jìn)行監(jiān)聽,并對語音指令進(jìn)行語音識(shí)別處理,以獲得語音識(shí)別結(jié)果,當(dāng)語音識(shí)別結(jié)果滿足喚醒條件時(shí),喚醒導(dǎo)航客戶端的語音導(dǎo)航功能,向用戶提供音頻形式的路況信息。
[0003]然而,導(dǎo)航客戶端有時(shí)需要頻繁的播放路況信息,使得導(dǎo)航客戶端監(jiān)聽到的用戶的語音指令中,往往摻雜有導(dǎo)航客戶端自身播放的音頻數(shù)據(jù),使得用戶的語音指令不能有效喚醒導(dǎo)航客戶端,導(dǎo)致喚醒導(dǎo)航客戶端的失敗概率較高。

【發(fā)明內(nèi)容】

[0004]有鑒于此,本發(fā)明實(shí)施例提供了一種語音識(shí)別方法及系統(tǒng),可以實(shí)現(xiàn)提高語音識(shí)別系統(tǒng)中語音喚醒的成功率。
[0005]本發(fā)明實(shí)施例提供了一種語音識(shí)別方法,包括:
[0006]采集第一音頻數(shù)據(jù);
[0007]利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果;
[0008]其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0009] 上述方法中,所述利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果之前,所述方法還包括:
[0010]獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息;
[0011]對所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);
[0012]對所述M個(gè)字符進(jìn)行聚類處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);
[0013]依據(jù)所述N個(gè)字符,獲得所述第一模型。
[0014]上述方法中,所述第三音頻數(shù)據(jù)為用戶的語音指令;所述第一模型為語音拒識(shí)模型,第二模型為語音喚醒模型。
[0015]上述方法中,所述利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果,包括:[0016]對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;
[0017]利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得所述語音識(shí)別結(jié)果。
[0018]上述方法中,所述對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,包括:
[0019]獲得所述第三音頻數(shù)據(jù)相對于所述第二音頻數(shù)據(jù)的起始位置;
[0020]將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù);
[0021]依據(jù)所述第二頻域數(shù)據(jù),對所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
[0022]本發(fā)明實(shí)施例還提供了一種語音識(shí)別系統(tǒng),包括:
[0023]數(shù)據(jù)輸入單元,用于采集第一音頻數(shù)據(jù);
[0024]數(shù)據(jù)識(shí)別單元,用于利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)另IJ,以獲得語音識(shí)別結(jié)果;
[0025]其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0026]上述系統(tǒng)中,所述系統(tǒng)還包括:
[0027]模型生成單元,用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息;對所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對所述M個(gè)字符進(jìn)行聚類處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);依據(jù)所述N個(gè)字符,獲得所述第一模型。
[0028]上述系統(tǒng)中,所述第三音頻數(shù)據(jù)為用戶的語音指令;所述第一模型為語音拒識(shí)模型,第二模型為語音喚醒模型。
[0029]上述系統(tǒng)中,所述數(shù)據(jù)識(shí)別單元具體用于:
[0030]對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;
[0031]利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得所述語音識(shí)別結(jié)果。
[0032]上述系統(tǒng)中,所述數(shù)據(jù)識(shí)別單元對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,具體包括:
[0033]獲得所述第三音頻數(shù)據(jù)相對于所述第二音頻數(shù)據(jù)的起始位置;
[0034]將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù);
[0035]依據(jù)所述第二頻域數(shù)據(jù),對所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
[0036]由以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下有益效果:
[0037]客戶端將采集的音頻數(shù)據(jù)利用第一模型進(jìn)行識(shí)別,以識(shí)別出客戶端所播放的音頻數(shù)據(jù),因此,本發(fā)明實(shí)施例中能夠利用針對識(shí)別出客戶端所播放的音頻數(shù)據(jù)的模型來識(shí)別干擾的音頻數(shù)據(jù),從而可以降低客戶端所播放的音頻數(shù)據(jù)對應(yīng)的語音識(shí)別結(jié)果對最終的語音識(shí)別結(jié)果的干擾,從而可以降低客戶端所播放的音頻數(shù)據(jù)對應(yīng)的語音識(shí)別結(jié)果作為用于判別是否喚醒的語音識(shí)別結(jié)果的概率,提高語音識(shí)別系統(tǒng)中語音喚醒的成功率?!尽緦@綀D】

【附圖說明】】
[0038]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0039]圖1是本發(fā)明實(shí)施例所提供的技術(shù)方案使用的導(dǎo)航客戶端的示意圖;
[0040]圖2是本發(fā)明實(shí)施例所提供的語音識(shí)別方法的流程示意圖;
[0041]圖3是本發(fā)明實(shí)施例所提供的第一模型的示意圖;
[0042]圖4是本發(fā)明實(shí)施例所提供的客戶端利用第一模型和第二模型進(jìn)行語音識(shí)別的示例圖;
[0043]圖5是本發(fā)明實(shí)施例所提供的語音識(shí)別系統(tǒng)的功能方塊圖。
【【具體實(shí)施方式】】
[0044]為了更好的理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述。
[0045]應(yīng)當(dāng)明確,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng) 域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0046]在本發(fā)明實(shí)施例中使用的術(shù)語是僅僅出于描述特定實(shí)施例的目的,而非旨在限制本發(fā)明。在本發(fā)明實(shí)施例和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語“和/或”是指并包含一個(gè)或多個(gè)相關(guān)聯(lián)的列出項(xiàng)目的任何或所有可能組合。
[0047]應(yīng)當(dāng)理解,盡管在本發(fā)明實(shí)施例中可能采用術(shù)語第一、第二、第三等來描述各種音頻數(shù)據(jù)和頻域數(shù)據(jù),但這些音頻數(shù)據(jù)和頻域數(shù)據(jù)不應(yīng)限于這些術(shù)語。這些術(shù)語僅用來將音頻數(shù)據(jù)和頻域數(shù)據(jù)彼此區(qū)分開。
[0048]取決于語境,如在此所使用的詞語“如果”或者“若”可以被解釋成為“在……時(shí)”或“當(dāng)……時(shí)”或“響應(yīng)于確定”或“響應(yīng)于檢測”。類似地,取決于語境,短語“如果確定”或“如果檢測(陳述的條件或事件)”可以被解釋成為“當(dāng)確定時(shí)”或“響應(yīng)于確定”或“當(dāng)檢測(陳述的條件或事件)時(shí)”或“響應(yīng)于檢測(陳述的條件或事件)”。
[0049]以客戶端為導(dǎo)航客戶端為例,本發(fā)明實(shí)施例所提供的技術(shù)方案使用的導(dǎo)航客戶端如圖1所示,主要由語音識(shí)別系統(tǒng)和語音導(dǎo)航系統(tǒng)組成,本發(fā)明實(shí)施例所提供的方法和系統(tǒng)在導(dǎo)航客戶端的語音識(shí)別系統(tǒng)實(shí)現(xiàn),主要用于喚醒語音導(dǎo)航系統(tǒng),以使得語音導(dǎo)航系統(tǒng)向用戶提供語音導(dǎo)航服務(wù),實(shí)現(xiàn)客戶端的語音導(dǎo)航功能。
[0050]本發(fā)明實(shí)施例中,所述客戶端除了可以是導(dǎo)航客戶端以外,還可以是利用語音交互方式向用戶提供音頻形式的信息的客戶端。所述客戶端可以位于導(dǎo)航終端、智能電視或者用戶設(shè)備上;所述用戶設(shè)備可以包括個(gè)人計(jì)算機(jī)(Personal Computer,PC)、筆記本電腦、手機(jī)或平板電腦等。
[0051]本發(fā)明實(shí)施例給出一種語音識(shí)別方法,請參考圖2,其為本發(fā)明實(shí)施例所提供的語音識(shí)別方法的流程示意圖,如圖所示,該方法包括以下步驟:[0052]S201,采集第一音頻數(shù)據(jù)。
[0053]具體的,客戶端采集第一音頻數(shù)據(jù)。
[0054]優(yōu)選的,第一音頻數(shù)據(jù)可以包含客戶端自身所播放的第二音頻數(shù)據(jù)以及除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0055]優(yōu)選的,若該客戶端為導(dǎo)航客戶端,則該客戶端自身所播放的第二音頻數(shù)據(jù)可以是基于文本到語音(Text to Speech, TTS)的音頻數(shù)據(jù),如客戶端播放的路況信息等。例如,客戶端所播放的“前方道路500米處有超速攝像頭”可以為上述第二音頻數(shù)據(jù)。再例如,除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)可以是當(dāng)用戶需要使用語音導(dǎo)航功能時(shí)所發(fā)出的語音指令,該語音指令用于喚醒客戶端的語音導(dǎo)航功能。
[0056]優(yōu)選的,客戶端可以利用音頻采集裝置來采集上述第一音頻數(shù)據(jù)。例如,客戶端位于手機(jī)或者平板電腦上時(shí),客戶端可以利用麥克風(fēng)采集第一音頻數(shù)據(jù)。
[0057]S202,利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果;其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0058]具體的,客戶端在采集到第一音頻數(shù)據(jù)后,客戶端需要利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果。其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0059]優(yōu)選的,所述客戶端利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)另IJ,以獲得語音識(shí)別結(jié)果之前,客戶端上需要預(yù)先設(shè)置第一模型和第二模型。其中,該第一模型可以包括語音拒識(shí)模型,該語音拒識(shí)模型為本發(fā)明實(shí)施例中需要預(yù)先設(shè)置在客戶端上的,第二模型可以包括語音喚醒模型,該語音喚醒模型為現(xiàn)有技術(shù)中客戶端中已經(jīng)設(shè)置好的。
[0060]舉例說明,若所述第一模型包括語音拒識(shí)模型,預(yù)先設(shè)置在客戶端上的第一模型的生成方法可以包括:
[0061]首先,獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息。例如,若客戶端為導(dǎo)航客戶端,該導(dǎo)航客戶端播放第二音頻數(shù)據(jù)時(shí),是先依據(jù)預(yù)設(shè)的播報(bào)文本庫,確定需要播報(bào)的第二音頻數(shù)據(jù)的文本信息,然后利用TTS技術(shù)將該文本信息轉(zhuǎn)換成對應(yīng)的第二音頻數(shù)據(jù),最后利用揚(yáng)聲器播放第二音頻數(shù)據(jù),如此,本發(fā)明實(shí)施例中的客戶端可以保存播放歷史記錄,從而可以依據(jù)客戶端的播放歷史記錄,統(tǒng)計(jì)每個(gè)第二音頻數(shù)據(jù)的播放次數(shù),然后獲得其中播放次數(shù)大于預(yù)設(shè)的播放次數(shù)閾值的第二音頻數(shù)據(jù)所對應(yīng)的文本信息。這里,不需要獲得播報(bào)文本庫中的所有文本信息,而是獲得其中播放次數(shù)較多的第二音頻數(shù)據(jù)所對應(yīng)的文本信息,可以減少生成第一模型時(shí)數(shù)據(jù)處理量。例如,“前方道路500米處有超速攝像頭”和“前方道路右拐”對應(yīng)的第二音頻數(shù)據(jù)的播放次數(shù)較多,則可以獲得這兩個(gè)第二音頻數(shù)據(jù)所對應(yīng)的文本信息。
[0062]然后,對獲得的文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù)。例如,在獲得客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息后,對每個(gè)文本信息分別進(jìn)行切分處理,這樣就可以將獲得的文本信息切分成R個(gè)字符,每個(gè)字符都是一個(gè)單獨(dú)的字;然后將這R個(gè)字符中的數(shù)字去除,并進(jìn)行去重處理,以獲得M個(gè)字符;去重處理用于合并R個(gè)字符中相同的字符;其中,R為大于或者等于2的整數(shù),M小于或者等于R,且M為大于或者等于2的整數(shù)。
[0063]例如,對文本信息“前方道路500米處有超速攝像頭”和“前方道路右拐”分別進(jìn)行切分處理,獲得如下字符:前、方、道、路、500、米、處、有、超、速、攝、像、頭、前、方、道、路、右、拐。優(yōu)選的,還可以將上述字符中的數(shù)字“500”轉(zhuǎn)換為對應(yīng)的漢語字符,如將“500”轉(zhuǎn)換為對應(yīng)的“五百”,對于重復(fù)的字符只保留其中一個(gè),最終獲得的字符為:前、方、道、路、五、百、米、處、有、超、速、攝、像、頭、右、拐。
[0064]接著,對所述M個(gè)字符進(jìn)行聚類處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù)。優(yōu)選的,對M個(gè)字符進(jìn)行聚類處理可以是:M個(gè)字符中每個(gè)單獨(dú)的字符都可以作為一個(gè)類別,為了減少類別的數(shù)目,需要對相似的類別進(jìn)行合并。例如,可以依據(jù)M個(gè)字符,獲得每個(gè)字符對應(yīng)的拼音,依據(jù)每個(gè)字符對應(yīng)的拼音計(jì)算兩個(gè)字符的相似度;將相似度大于預(yù)設(shè)的相似度閾值的兩個(gè)字符合并為一個(gè)字符,如可以在相似度大于預(yù)設(shè)的相似度閾值的兩個(gè)字符中任意選出一個(gè)字符,保留選出的字符,去掉剩下的字符。優(yōu)選的,對所述M個(gè)字符進(jìn)行篩選處理可以是:對M個(gè)字符可以每隔一個(gè)字符進(jìn)行保留,其余的字符將被篩選掉;例如,M個(gè)字符為:前、方、道、路、五、百、米、處、有、超、速、攝、像、頭、右、拐,對該M個(gè)字符篩選后獲得:前、道、五、米、有、速、像、右。上述對M個(gè)字符進(jìn)行聚類處理或者篩選處理的目的是可以減少字符數(shù)目。
[0065]最后,依據(jù)所述N個(gè)字符,獲得所述第一模型??梢岳斫獾氖?,字符與字符之間都可以有關(guān)聯(lián)關(guān)系,也就是從一個(gè)字符可以轉(zhuǎn)移到另一個(gè)字符,每兩個(gè)字符之間都有轉(zhuǎn)移概率,只不過每個(gè)字符轉(zhuǎn)移到另一個(gè)其他字符的轉(zhuǎn)移概率是不同的,因此依據(jù)N個(gè)字符的多種排列組合的轉(zhuǎn)移方式,可以獲得至少一個(gè)字符序列,每個(gè)字符序列中可以包括至少兩個(gè)字符。然后,依據(jù)至少一個(gè)字符序列可以獲得所述第一模型;其中,第一模型可以包括依據(jù)N個(gè)字符獲得的所有字符序列,也可以包括依據(jù)N個(gè)字符獲得的所有字符序列中權(quán)重值最大的若干字符序列。其中,字符序列的權(quán)重值可以等于字符序列中每兩個(gè)字符之間的轉(zhuǎn)移概率的乘積,每兩個(gè)字符之間的轉(zhuǎn)移概率的模型可以利用預(yù)設(shè)的聲學(xué)模型獲得,該聲學(xué)模型是一個(gè)概率模型,可以包括聲母與韻母同時(shí)出現(xiàn)的概率、字符與字符之間的轉(zhuǎn)移概率等。
[0066]例如,請參考圖3,其為本發(fā)明實(shí)施例所提供的第一模型的示意圖,如圖所示,獲得的14個(gè)字符包括:前、方、面、道、路、有、左、右、直、行、攝、像、頭、轉(zhuǎn),依據(jù)這14個(gè)字符可以獲得圖3所示的4個(gè)字符序列,即前方道路直行、前方有攝像頭、前面左轉(zhuǎn)、前面右轉(zhuǎn)。
[0067]優(yōu)選的,客戶端可以先對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;然后,客戶端利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得所述語音識(shí)別結(jié)果,這樣,客戶端在對第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別處理之前,就可以利用回聲消除技術(shù)濾除掉部分的客戶端所播放的第二音頻數(shù)據(jù)。
[0068]舉例說明,所述客戶端對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理的方法可以包括:
[0069]首先,客戶端獲得所述第三音頻數(shù)據(jù)相對于所述第二音頻數(shù)據(jù)的起始位置。這里,客戶端需要向用戶播放第二音頻數(shù)據(jù),因此客戶端可以獲得自身播放的第二音頻數(shù)據(jù)。例如,客戶端可以利用自相關(guān)算法,對客戶端采集的第一音頻數(shù)據(jù)與客戶端播放的第二音頻數(shù)據(jù)進(jìn)行自相關(guān)計(jì)算,以獲得第一音頻數(shù)據(jù)中所包含的第三音頻數(shù)據(jù)相對于第二音頻數(shù)據(jù)的起始位置。
[0070]然后,客戶端依據(jù)獲得的起始位置,并利用回聲消除技術(shù)對采集的第一音頻數(shù)據(jù)進(jìn)行回聲消除處理。例如,客戶端將采集的第一音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),并將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù)??蛻舳藢⒌谝活l域數(shù)據(jù)和第二頻域數(shù)據(jù)輸入濾波器,這樣濾波器可以依據(jù)所述第二頻域數(shù)據(jù),對所述第一頻域數(shù)據(jù)進(jìn)行濾波處理,從而可以實(shí)現(xiàn)利用回聲消除技術(shù),在采集到的第一音頻數(shù)據(jù)中濾除第一音頻數(shù)據(jù)所包含的客戶端播放的第二音頻數(shù)據(jù)。
[0071]需要說明的是,客戶端對第一音頻數(shù)據(jù)進(jìn)行回聲消除處理只是一種優(yōu)選實(shí)施例,客戶端也可以不對第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,直接對第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別處理。
[0072]舉例說明,客戶端利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果的方法可以包括:請參考圖4,其為本發(fā)明實(shí)施例所提供的客戶端利用第一模型和第二模型進(jìn)行語音識(shí)別的示例圖,如圖所示,客戶端利用第一模型對第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得第一語音識(shí)別結(jié)果;這里,由于第一模型是依據(jù)客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息獲得的,因此第一模型在對包含第二音頻數(shù)據(jù)的第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別處理時(shí),能夠識(shí)別出第一音頻數(shù)據(jù)中所包含的客戶端播放的第二音頻數(shù)據(jù),如圖4所示,由于第一模型中的字符經(jīng)過了聚類處理或者篩選處理,所以第一語音識(shí)別結(jié)果中只包含部分的第二音頻數(shù)據(jù)對應(yīng)的文本信息中的字符,使得識(shí)別率比較低,識(shí)別率等于識(shí)別結(jié)果中的字符數(shù)目與音頻數(shù)據(jù)中字符總數(shù)目的比值,第一語音識(shí)別結(jié)果的權(quán)重值與識(shí)別率呈成正比例關(guān)系,因此第一語音識(shí)別結(jié)果的權(quán)重值較低。同時(shí),利用第二模型對第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別處理,以獲得第二語音識(shí)別結(jié)果;其中,由于第二模型是語音喚醒模型,語音喚醒模型中包括至少一個(gè)喚醒關(guān)鍵詞(如圖4中的百度導(dǎo)航),因此,利用第二模型對第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別處理后,可以獲得第一音頻數(shù)據(jù)中包含的第三音頻數(shù)據(jù)(如用戶的語音指令)對應(yīng)的第二語音識(shí)別結(jié)果,將該第二語音識(shí)別結(jié)果的權(quán)重值與第一語音識(shí)別結(jié)果的權(quán)重值進(jìn)行比較,將其中權(quán)重值最大的語音識(shí)別結(jié)果作為最終的語音識(shí)別結(jié)果。
[0073]可選的,在獲得最終的語音識(shí)別結(jié)果之后,客戶端可以判斷該最終的語音識(shí)別結(jié)果中是否包含預(yù)設(shè)的喚醒關(guān)鍵詞,如果包含喚醒關(guān)鍵詞,則客戶端可以喚醒客戶端的語音導(dǎo)航功能,以使得客戶端可以向用戶提供語音導(dǎo)航服務(wù),實(shí)現(xiàn)客戶端的語音導(dǎo)航功能。反之,如果不包含喚醒關(guān)鍵詞,則客戶端不喚醒語音導(dǎo)航功能。
[0074]需要說明的是,現(xiàn)有技術(shù)中,第一模型是通用的拒識(shí)模型,并不是針對客戶端所播放的第二音頻數(shù)據(jù)所設(shè)置的拒識(shí)模型,實(shí)際應(yīng)用中,當(dāng)客戶端對自身采集的第一音頻數(shù)據(jù),利用通用的拒識(shí)模型和語音喚醒模型分別進(jìn)行語音識(shí)別處理,分別獲得語音識(shí)別結(jié)果時(shí),大部分情況下拒識(shí)模型對應(yīng)的語音識(shí)別結(jié)果的權(quán)重值會(huì)大于或者等于語音喚醒模型的權(quán)重值,這樣,客戶端就會(huì)將拒識(shí)模型所對應(yīng)的語音識(shí)別結(jié)果作為最終的語音識(shí)別結(jié)果,并判斷拒識(shí)模型對應(yīng)的語音識(shí)別結(jié)果是否包含預(yù)設(shè)的喚醒關(guān)鍵詞,由于拒識(shí)模型一般不會(huì)包含用戶預(yù)設(shè)的喚醒關(guān)鍵詞,因此導(dǎo)致喚醒語音導(dǎo)航功能失敗。本發(fā)明實(shí)施例利用上述方法,針對客戶端所播放的第二音頻數(shù)據(jù)對應(yīng)的文本信息來構(gòu)建第一模型,利用第一模型作為拒識(shí)模型,對第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別處理,同時(shí)利用對字符的聚類處理或篩選處理來降低第一模型對第一音頻數(shù)據(jù)中包含的第二音頻數(shù)據(jù)對應(yīng)的識(shí)別率,從而可以降低利用第一模型獲得的語音識(shí)別結(jié)果的權(quán)重值,使得客戶端能夠盡量將利用第二模型獲得的第二語音識(shí)別結(jié)果作為最終的語音識(shí)別結(jié)果輸出,這樣,利用第二語音識(shí)別結(jié)果判斷是否包含喚醒關(guān)鍵詞,第二語音識(shí)別結(jié)果由于是針對用戶的語音指令獲得的,因此一般會(huì)包含喚醒關(guān)鍵詞,從而可以成功喚醒語音導(dǎo)航功能,就可以提高在有客戶端播放的音頻數(shù)據(jù)的干擾情況下,語音喚醒的成功率。
[0075]本發(fā)明實(shí)施例中,為了喚醒導(dǎo)航客戶端的語音導(dǎo)航功能,導(dǎo)航客戶端需要從采集的音頻數(shù)據(jù)中識(shí)別出預(yù)先設(shè)置的喚醒關(guān)鍵詞,用于識(shí)別出采集的音頻數(shù)據(jù)中的喚醒關(guān)鍵詞的模型就是上述語音喚醒模型,語音喚醒模型可以包含預(yù)先設(shè)置的至少一個(gè)喚醒關(guān)鍵詞,如果采集的音頻數(shù)據(jù)能夠命中語音喚醒模型中一個(gè)喚醒關(guān)鍵詞,就可以成功喚醒語音導(dǎo)航功能。對于用戶的語音指令以外的其他音頻數(shù)據(jù),可以定義一些非喚醒關(guān)鍵詞,用于識(shí)別出采集的音頻數(shù)據(jù)中的非喚醒關(guān)鍵詞的模型就是上述拒識(shí)模型,拒識(shí)模型可以包含預(yù)先設(shè)置的至少一個(gè)非喚醒關(guān)鍵詞,采集的音頻數(shù)據(jù)命中的非喚醒關(guān)鍵詞不能喚醒語音導(dǎo)航功能。
[0076]本發(fā)明實(shí)施例進(jìn)一步給出實(shí)現(xiàn)上述方法實(shí)施例中各步驟及方法的裝置實(shí)施例。
[0077]請參考圖5,其為本發(fā)明實(shí)施例所提供的語音識(shí)別系統(tǒng)的功能方塊圖。如圖所示,該系統(tǒng)包括:
[0078]數(shù)據(jù)輸入單元501,用于采集第一音頻數(shù)據(jù);
[0079]數(shù)據(jù)識(shí)別單元502,用于利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果;
[0080]其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
[0081]優(yōu)選的,所述系統(tǒng)還包括:
[0082]模型生成單元503,用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息;對所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對所述M個(gè)字符進(jìn)行聚類處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);依據(jù)所述N個(gè)字符,獲得所述第一模型。
[0083]優(yōu)選的,所述第三音頻數(shù)據(jù)為用戶的語音指令;所述第一模型為語音拒識(shí)模型,第二模型為語音喚醒模型。
[0084]優(yōu)選的,所述數(shù)據(jù)識(shí)別單元502具體用于:對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理;利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得所述語音識(shí)別結(jié)果。
[0085]優(yōu)選的,所述數(shù)據(jù)識(shí)別單元502對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,具體包括:獲得所述第三音頻數(shù)據(jù)相對于所述第二音頻數(shù)據(jù)的起始位置;將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù);依據(jù)所述第二頻域數(shù)據(jù),對所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
[0086]由于本實(shí)施例中的各單元能夠執(zhí)行圖2所示的方法,本實(shí)施例未詳細(xì)描述的部分,可參考對圖2的相關(guān)說明。[0087]本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
[0088]客戶端將采集的音頻數(shù)據(jù)利用第一模型進(jìn)行識(shí)別,以識(shí)別出客戶端所播放的音頻數(shù)據(jù),因此,本發(fā)明實(shí)施例中能夠利用針對識(shí)別出客戶端所播放的音頻數(shù)據(jù)的模型來識(shí)別干擾的音頻數(shù)據(jù),從而可以降低客戶端所播放的音頻數(shù)據(jù)對應(yīng)的語音識(shí)別結(jié)果對最終的語音識(shí)別結(jié)果的干擾,從而可以降低客戶端所播放的音頻數(shù)據(jù)對應(yīng)的語音識(shí)別結(jié)果作為用于判別是否喚醒的語音識(shí)別結(jié)果的概率,提高語音識(shí)別系統(tǒng)中語音喚醒的成功率。
[0089]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種語音識(shí)別方法,其特征在于,所述方法包括: 采集第一音頻數(shù)據(jù); 利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果; 其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果之前,所述方法還包括: 獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息; 對所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對所述M個(gè)字符進(jìn)行聚類處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù); 依據(jù)所述N個(gè)字符,獲得所述第一模型。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于, 所述第三音頻數(shù)據(jù)為用戶的語音指令; 所述第一模型為語音拒識(shí)模型,第二模型為語音喚醒模型。
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果,包括: 對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理; 利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得所述語音識(shí)別結(jié)果。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,包括: 獲得所述第三音頻數(shù)據(jù)相對于所述第二音頻數(shù)據(jù)的起始位置; 將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù); 依據(jù)所述第二頻域數(shù)據(jù),對所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
6.一種語音識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括: 數(shù)據(jù)輸入單元,用于采集第一音頻數(shù)據(jù); 數(shù)據(jù)識(shí)別單元,用于利用第一模型和第二模型,對所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得語音識(shí)別結(jié)果; 其中,所述第一模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的客戶端所播放的第二音頻數(shù)據(jù),所述第二模型用于識(shí)別所述第一音頻數(shù)據(jù)中所包含的除了所述客戶端所播放的第二音頻數(shù)據(jù)之外的第三音頻數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 模型生成單元,用于獲得所述客戶端所播放的第二音頻數(shù)據(jù)所對應(yīng)的文本信息;對所述文本信息進(jìn)行切分處理,以獲得M個(gè)字符,所述M為大于或者等于2的整數(shù);對所述M個(gè)字符進(jìn)行聚類處理或者篩選處理,以獲得N個(gè)字符,所述N為小于或者等于M的正整數(shù);依據(jù)所述N個(gè)字符,獲得所述第一模型。
8.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于, 所述第三音頻數(shù)據(jù)為用戶的語音指令; 所述第一模型為語音拒識(shí)模型,第二模型為語音喚醒模型。
9.根據(jù)權(quán)利要求6或7所述的系統(tǒng),其特征在于,所述數(shù)據(jù)識(shí)別單元具體用于: 對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理; 利用所述第一模型和所述第二模型,對回聲消除處理后獲得的所述第一音頻數(shù)據(jù)進(jìn)行語音識(shí)別,以獲得所述語音識(shí)別結(jié)果。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述數(shù)據(jù)識(shí)別單元對采集的所述第一音頻數(shù)據(jù)進(jìn)行回聲消除處理,具體包括: 獲得所述第三音頻數(shù)據(jù)相對于所述第二音頻數(shù)據(jù)的起始位置; 將所述第三音頻數(shù)據(jù)轉(zhuǎn)換為第一頻域數(shù)據(jù),將所述起始位置之后的所述第二音頻數(shù)據(jù)轉(zhuǎn)換為第二頻域數(shù)據(jù); 依據(jù)所述第二頻域數(shù)據(jù),對所述第一頻域數(shù)據(jù)進(jìn)行濾波處理。
【文檔編號(hào)】G10L15/20GK103971681SQ201410168436
【公開日】2014年8月6日 申請日期:2014年4月24日 優(yōu)先權(quán)日:2014年4月24日
【發(fā)明者】穆向禹, 彭守業(yè), 劉思成, 賈磊 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
大庆市| 宝清县| 双鸭山市| 芜湖市| 五指山市| 吴川市| 湘潭市| 广昌县| 融水| 淮滨县| 台北市| 永嘉县| 大方县| 嘉祥县| 三门县| 安平县| 云和县| 拉萨市| 运城市| 库伦旗| 屯留县| 蒲城县| 自贡市| 双流县| 庆云县| 明水县| 昌平区| 萝北县| 隆昌县| 页游| 贵州省| 衡东县| 格尔木市| 上高县| 北票市| 龙州县| 大足县| 济宁市| 巴林右旗| 香格里拉县| 沅陵县|