欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種音頻內(nèi)容識(shí)別方法和裝置制造方法

文檔序號(hào):2825505閱讀:284來源:國知局
一種音頻內(nèi)容識(shí)別方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種音頻內(nèi)容識(shí)別方法和裝置,包括:預(yù)先建立ARAM集,在需要對(duì)音頻內(nèi)容進(jìn)行識(shí)別時(shí),針對(duì)待識(shí)別音頻信號(hào)中的每個(gè)基元,提取MFCC波形特征參數(shù),從而可以利用針對(duì)一個(gè)基元提取出的MFCC波形特征參數(shù)與ARAM集中的ARAM進(jìn)行模糊匹配,并可以將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容,從而通過與基于MFCC波形特征參數(shù)建立的ARAM模型匹配的方式提高識(shí)別出的音頻內(nèi)容的準(zhǔn)確性。特別的,還可以通過建立特殊音頻對(duì)應(yīng)的ARAM,實(shí)現(xiàn)對(duì)短忙音、長忙音、振鈴等特殊音頻的準(zhǔn)確識(shí)別。
【專利說明】一種音頻內(nèi)容識(shí)別方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,尤其涉及一種音頻內(nèi)容識(shí)別方法和裝置。
【背景技術(shù)】
[0002]隨著通信行業(yè)的快速發(fā)展,人們對(duì)于通信服務(wù)的需求越來越大,通信設(shè)備的配置也成為當(dāng)今生活不可缺少的元素,而通信領(lǐng)域的發(fā)展也帶動(dòng)了整個(gè)社會(huì)經(jīng)濟(jì)體蓬勃快速的提升。
[0003]雖然實(shí)時(shí)通信服務(wù)給人們的通信社交生活帶來了極大的便利,卻也暗藏了一些隱患。近年來越來越多的電信用戶受到諸如騷擾電話、電話傳銷等行為的困擾,更有不法分子通過實(shí)時(shí)通信網(wǎng)絡(luò)實(shí)施電話詐騙、傳播反動(dòng)言論等威脅人身財(cái)產(chǎn)安全的行為,嚴(yán)重影響了廣大電信用戶的日常生活,同時(shí)給電信運(yùn)營企業(yè)、政府監(jiān)管部門的社會(huì)形象與公信力造成了極大的負(fù)面影響。如何能夠快速準(zhǔn)確地甄別出這些音頻通信行為并予以精準(zhǔn)打擊,成為當(dāng)前通信領(lǐng)域的重要目標(biāo)。
[0004]傳統(tǒng)的治理手段主要是依靠電信運(yùn)營企業(yè)提供的投訴熱線,由電信監(jiān)管部門采用人工監(jiān)聽等手段來處理上述問題,費(fèi)時(shí)、費(fèi)力且遠(yuǎn)遠(yuǎn)達(dá)不到高效率和高精度的監(jiān)管要求。
[0005]音頻通信在信息檢索、公司客服、產(chǎn)品售后服務(wù)等領(lǐng)域也扮演著不可或缺的角色,信息檢索、公司客服、產(chǎn)品售后服務(wù)等都依靠方便快捷的通信網(wǎng)絡(luò)為千萬用戶提供著便捷服務(wù)。而當(dāng)前采用人工語音服務(wù)的手段既費(fèi)時(shí)又費(fèi)力,當(dāng)線路繁忙時(shí),用戶更無法及時(shí)獲得所需?目息。
[0006]音頻內(nèi)容智能識(shí)別是解決上述的問題的有效手段。當(dāng)前較成熟的音頻內(nèi)容識(shí)別技術(shù)以英文識(shí)別系統(tǒng)為主,中文語音由于其包含大量多音字詞、四聲音調(diào)等特點(diǎn),音頻內(nèi)容識(shí)別的準(zhǔn)確率較低。且由于公共電信網(wǎng)絡(luò)中的特殊音頻,例如短忙音(又稱空號(hào)音)、長忙音、振鈴等的音頻信號(hào)極其相似,若要實(shí)現(xiàn)精準(zhǔn)識(shí)別具有較大難度。現(xiàn)有技術(shù)還無法實(shí)現(xiàn)對(duì)公共電信網(wǎng)絡(luò)中特殊音頻的識(shí)別。

【發(fā)明內(nèi)容】

[0007]本發(fā)明實(shí)施例提供一種音頻內(nèi)容識(shí)別方法和裝置,用于提高音頻內(nèi)容識(shí)別準(zhǔn)確率。
[0008]一種音頻內(nèi)容識(shí)別方法,所述方法包括:
[0009]接收待識(shí)別音頻信號(hào);
[0010]對(duì)所述待識(shí)別音頻信號(hào)進(jìn)行切分,確定所述待識(shí)別音頻信號(hào)中的每個(gè)基元,一個(gè)基元是獨(dú)立發(fā)聲的最小區(qū)間對(duì)應(yīng)的音頻信號(hào);
[0011 ] 針對(duì)每個(gè)基元,提取梅爾頻 率倒譜系數(shù)MFCC波形特征參數(shù),根據(jù)所述MFCC波形特征參數(shù),與音頻識(shí)別分析模型ARAM集中每個(gè)預(yù)先建立的ARAM進(jìn)行模糊匹配,將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容;
[0012]其中,所述ARAM是根據(jù)MFCC波形特征參數(shù)建立的。[0013]一種音頻內(nèi)容識(shí)別裝置,所述裝置包括:
[0014]接收單元,用于接收待識(shí)別音頻信號(hào);
[0015]切分單元,用于對(duì)所述待識(shí)別音頻信號(hào)進(jìn)行切分,確定所述待識(shí)別音頻信號(hào)中的每個(gè)基元,一個(gè)基元是獨(dú)立發(fā)聲的最小區(qū)間對(duì)應(yīng)的音頻信號(hào);
[0016]特征提取單元,用于針對(duì)切分單元確定出的每個(gè)基元,提取梅爾頻率倒譜系數(shù)MFCC波形特征參數(shù);
[0017]內(nèi)容識(shí)別單元,用于根據(jù)特征提取單元提取出的所述MFCC波形特征參數(shù),與音頻識(shí)別分析模型ARAM集中每個(gè)預(yù)先建立的ARAM進(jìn)行模糊匹配,將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容;
[0018]其中,所述ARAM是根據(jù)MFCC波形特征參數(shù)建立的。
[0019]根據(jù)本發(fā)明實(shí)施例提供的方案,可以預(yù)先建立ARAM集,在需要對(duì)音頻內(nèi)容進(jìn)行識(shí)別時(shí),針對(duì)待識(shí)別音頻信號(hào)中的每個(gè)基元,提取MFCC波形特征參數(shù),從而可以利用針對(duì)一個(gè)基元提取出的MFCC波形特征參數(shù)與ARAM集中的ARAM進(jìn)行模糊匹配,并可以將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容,從而通過與基于MFCC波形特征參數(shù)建立的ARAM模型匹配的方式提高識(shí)別出的音頻內(nèi)容的準(zhǔn)確性。特別的,還可以通過建立特殊音頻對(duì)應(yīng)的ARAM,實(shí)現(xiàn)對(duì)短忙音、長忙音、振鈴等特殊音頻的準(zhǔn)確識(shí)別。
【專利附圖】

【附圖說明】
[0020]圖1為本發(fā)明實(shí)施例一提供的音頻內(nèi)容識(shí)別方法的步驟流程圖;
[0021]圖2為本發(fā)明實(shí)施例二提供的音頻內(nèi)容識(shí)別方法的層次示意圖;
[0022]圖3為本發(fā)明實(shí)施例三提供的音頻內(nèi)容識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023]針對(duì)現(xiàn)有技術(shù)中,音頻內(nèi)容識(shí)別的準(zhǔn)確率較低的問題,本發(fā)明實(shí)施例提出可以通過建立基元對(duì)應(yīng)的音頻識(shí)別分析模型(ARAM,Audio Recognise and Analyse Model)模型,通過對(duì)待識(shí)別首頻i目號(hào)中基兀與ARAM |旲型的匹配,來識(shí)別每個(gè)基兀對(duì)應(yīng)的首頻內(nèi)容,提聞對(duì)音頻內(nèi)容識(shí)別的準(zhǔn)確性。
[0024]而為了進(jìn)一步提高對(duì)待識(shí)別音頻信號(hào)識(shí)別的準(zhǔn)確性,本發(fā)明實(shí)施例提出還可以利用預(yù)先設(shè)定的語法規(guī)則,進(jìn)一步對(duì)待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容進(jìn)行合法性校驗(yàn),從而更好地保證音頻內(nèi)容識(shí)別的準(zhǔn)確性。
[0025]下面通過說明書附圖和各實(shí)施例對(duì)本發(fā)明方案進(jìn)行詳細(xì)說明。
[0026]實(shí)施例一、
[0027]本發(fā)明實(shí)施例一提供一種音頻內(nèi)容識(shí)別方法,該方法的步驟流程可以如圖1所示,包括:
[0028]步驟101、接收待識(shí)別音頻信號(hào)。
[0029]在本步驟中,可以接收待識(shí)別音頻信號(hào)。
[0030]步驟102、確定待識(shí)別首頻/[目號(hào)中的基兀。
[0031]在本步驟中,可以對(duì)所述待識(shí)別音頻信號(hào)進(jìn)行切分,確定所述待識(shí)別音頻信號(hào)中的每個(gè)基元,一個(gè)基元可以理解為獨(dú)立發(fā)聲的最小區(qū)間對(duì)應(yīng)的音頻信號(hào)。[0032]具體的,在本步驟中,可以對(duì)待識(shí)別音頻信號(hào)中每個(gè)基元的開始時(shí)間和結(jié)束時(shí)間進(jìn)行標(biāo)注,從而對(duì)待識(shí)別音頻信號(hào)以基元為單位進(jìn)行分割。
[0033]步驟103、確定基元對(duì)應(yīng)的音頻內(nèi)容。
[0034]在本實(shí)施例中,可以預(yù)先建立基元對(duì)應(yīng)的ARAM,從而獲得ARAM集,其中,ARAM是根據(jù)梅爾頻率倒譜系數(shù)(MFCC,Mel Frequency Cepstral Coefficient)波形特征參數(shù)建立的。
[0035]在本步驟中,可以針對(duì)待識(shí)別音頻信號(hào)中的每個(gè)基元,提取MFCC波形特征參數(shù),根據(jù)所述MFCC波形特征參數(shù),與ARAM集中每個(gè)預(yù)先建立的ARAM進(jìn)行模糊匹配(可以理解為,根據(jù)所述MFCC波形特征參數(shù),與ARAM集中每個(gè)預(yù)先建立的ARAM的模型參數(shù),如音頻數(shù)據(jù)變換概率參數(shù)和變化向量參數(shù),進(jìn)行模糊匹配),將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容。
[0036]例如,針對(duì)待識(shí)別音頻信號(hào)中的一個(gè)基元,根據(jù)針對(duì)該基元提取出的MFCC波形特征參數(shù),與ARAM集中每個(gè)預(yù)先建立的ARAM進(jìn)行模糊匹配,若匹配出的三個(gè)ARAM,分別用ARAMl,ARAM2 和 ARAM3 表示。且與 ARAMl,ARAM2 和 ARAM3 匹配度分別為 60%,90% 和 85%,則可以將ARAM2對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容。例如,ARAM2對(duì)應(yīng)的音頻內(nèi)容為中文語音“我”,則確定該基元對(duì)應(yīng)的音頻內(nèi)容為中文語音“我”。又如,ARAM2對(duì)應(yīng)的音頻內(nèi)容為長忙音,則確定該基元對(duì)應(yīng)的音頻內(nèi)容為長忙音。
[0037]較優(yōu)的,如果待識(shí)別音頻信號(hào)中包括多個(gè)基元,為了提高音頻內(nèi)容識(shí)別效率,可以采用并發(fā)處理的方式,例如,采用多線程和/或多進(jìn)程的方式,同時(shí)確定待識(shí)別音頻信號(hào)中每個(gè)基元對(duì)應(yīng)的音頻內(nèi)容,在確定出待識(shí)別音頻信號(hào)中每個(gè)基元對(duì)應(yīng)的音頻內(nèi)容之后,即可以確定待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容。
[0038]具體的,ARAM集中的一個(gè)ARAM可以通過以下方式建立,ARAM可以快速高效地對(duì)大量的特征參數(shù)進(jìn)行迭代訓(xùn)練,實(shí)現(xiàn)快速建立,因此基于ARAM模型進(jìn)行音頻內(nèi)容識(shí)別在一定程度上還可以提高音頻識(shí)別的效率:
[0039]針對(duì)一個(gè)基元確定樣本基元;針對(duì)確定出的每個(gè)樣本基元,提取MFCC波形特征參數(shù),根據(jù)提取出的MFCC波形特征參數(shù),建立該基元的初始化ARAM (其具體實(shí)現(xiàn)可以參照現(xiàn)有技術(shù));對(duì)所述初始化ARAM進(jìn)行迭代訓(xùn)練;將迭代訓(xùn)練后的得到的ARAM確定為ARAM集中的一個(gè)ARAM。其中,可以在ARAM模型參數(shù)為最佳值(模型參數(shù)呈穩(wěn)定狀態(tài),再次訓(xùn)練時(shí)不再發(fā)生變化)時(shí),確定迭代訓(xùn)練結(jié)束。
[0040]進(jìn)一步的,本實(shí)施例還可以包括以下步驟:
[0041]步驟104、確定待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容。
[0042]在本步驟中,可以按照每個(gè)基元在待識(shí)別音頻信號(hào)中的排列順序,根據(jù)所述待識(shí)別音頻信號(hào)中每個(gè)基元對(duì)應(yīng)的音頻內(nèi)容,確定所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容。
[0043]步驟105、進(jìn)行語法規(guī)則過濾。
[0044]為了進(jìn)一步提高音頻內(nèi)容識(shí)別的準(zhǔn)確性,可以預(yù)先建立語法規(guī)則表,在本步驟中,可以查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,利用語法規(guī)則對(duì)識(shí)別出的音頻內(nèi)容的準(zhǔn)確性進(jìn)行判斷。如果確定語法規(guī)則表中不存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,可以認(rèn)為該音頻內(nèi)容識(shí)別有誤,否則,可以認(rèn)為該音頻內(nèi)容識(shí)別準(zhǔn)確。[0045]而為了提高語法規(guī)則查找的速度,快速確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,可以根據(jù)語法規(guī)則索引查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則。具體的,所述語法規(guī)則索引可以以語法關(guān)鍵字為主鍵,一個(gè)語法關(guān)鍵字對(duì)應(yīng)一個(gè)ARAM對(duì)應(yīng)的音頻內(nèi)容。
[0046]例如,預(yù)先設(shè)定的一條語法規(guī)則為連續(xù)的語法關(guān)鍵字“QQQ”,其中語法關(guān)鍵字“Q”對(duì)應(yīng)的首頻內(nèi)各為振鈴首。則右所述待識(shí)別首頻彳目號(hào)對(duì)應(yīng)的首頻內(nèi)各為振鈴首、振鈴首、振鈴音(即該待識(shí)別音頻信號(hào)包括的三個(gè)連續(xù)基元對(duì)應(yīng)的音頻內(nèi)容均為振鈴音),則可以通過查找語法規(guī)則表,確定語法規(guī)則表中存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,并可以確定待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則為:連續(xù)的語法關(guān)鍵字“ QQQ ”。
[0047]如果確定語法規(guī)則表中存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,可以繼續(xù)執(zhí)行步驟106,并結(jié)束本流程,否則,可以執(zhí)行步驟107并結(jié)束本流程。
[0048]步驟106、確定音頻通信行為。
[0049]如果確定語法規(guī)則表中存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,在本步驟中,可以根據(jù)該語法規(guī)則與音頻通信行為的對(duì)應(yīng)關(guān)系,確定該音頻內(nèi)容對(duì)應(yīng)的音頻通信行為。例如,如果確定語法規(guī)則表中存在的與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則為連續(xù)的語法關(guān)鍵字“QQQ”,則可以根據(jù)該語法規(guī)則與“振鈴”音頻通信行為的對(duì)應(yīng)關(guān)系,確定該音頻內(nèi)容對(duì)應(yīng)的音頻通信行為為“振鈴”。
[0050]當(dāng)然,在確定出待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容所對(duì)應(yīng)的音頻通信行為之后,還可以進(jìn)一步記錄音頻內(nèi)容對(duì)應(yīng)的音頻通信行為,從而便于后續(xù)查看。
[0051]步驟107、更新ARAM集。
[0052]如果確定語法規(guī)則表中不存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,可以認(rèn)為對(duì)所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容的識(shí)別有誤,為了后續(xù)可以提高對(duì)該音頻內(nèi)容的識(shí)別準(zhǔn)確率,在本步驟中,可以利用該待識(shí)別音頻信號(hào)來建立新的ARAM,補(bǔ)充到預(yù)先建立的ARAM集中,從而在后續(xù)可以進(jìn)一步提高音頻內(nèi)容識(shí)別的準(zhǔn)確性。
[0053]具體的,在本步驟中,可以針對(duì)所述待識(shí)別音頻信號(hào)中每個(gè)基元,確定樣本基元;針對(duì)每個(gè)基元,利用確定出的該基元的每個(gè)樣本基元,提取MFCC波形特征參數(shù),建立該基元的初始化ARAM ;對(duì)該基元的初始化ARAM進(jìn)行迭代訓(xùn)練;將迭代訓(xùn)練后的得到的ARAM添加到所述ARAM集。
[0054]下面通過實(shí)施例二對(duì)本發(fā)明實(shí)施例一提供的方案進(jìn)行進(jìn)一步說明。
[0055]實(shí)施例二、
[0056]實(shí)施例一中提供的音頻內(nèi)容識(shí)別方法可以進(jìn)行層次結(jié)構(gòu)的劃分,圖2為本發(fā)明實(shí)施例二提供的針對(duì)實(shí)施例一提供的音頻內(nèi)容識(shí)別方法的層次示意圖,其中,包括音頻識(shí)別建模層和音頻識(shí)別分析層:
[0057]在音頻識(shí)別建模層可以理解為實(shí)現(xiàn)ARAM模型建立,可以應(yīng)用于預(yù)先建立ARAM模型過程,以及利用識(shí)別有誤的待識(shí)別音頻信號(hào)補(bǔ)充建立ARAM模型過程。音頻識(shí)別建模層可以對(duì)音頻信號(hào)進(jìn)行特征參數(shù)提取和基元?jiǎng)澐郑?duì)初始化ARAM模型進(jìn)行迭代訓(xùn)練,形成ARAM集中的ARAM模型,ARAM模型為音頻識(shí)別分析層建立了音頻內(nèi)容識(shí)別的基礎(chǔ)。如圖2所示,包括:獲得樣本音頻信號(hào)(Al ),將樣本音頻信號(hào)劃分為基元(A3),提取MFCC波形特征參數(shù)(A2),建立基元的初始化ARAM (A4),對(duì)初始化ARAM進(jìn)行迭代訓(xùn)練(A5),確定基元對(duì)應(yīng)的 ARAM (A6)。
[0058]在音頻識(shí)別分析層可以理解為根據(jù)音頻識(shí)別建模層建立的ARAM模型,實(shí)現(xiàn)音頻內(nèi)容的識(shí)別,即按照實(shí)施例一中的步驟IOf 107,實(shí)現(xiàn)音頻內(nèi)容的識(shí)別。音頻識(shí)別分析層主要負(fù)責(zé)對(duì)待識(shí)別音頻信號(hào)進(jìn)行特征參數(shù)的提取和識(shí)別分析,并可以對(duì)待識(shí)別音頻信號(hào)的音頻內(nèi)容識(shí)別結(jié)果進(jìn)行語法過濾。針對(duì)音頻內(nèi)容識(shí)別成功的待識(shí)別音頻信號(hào),將確定出的該待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻通信行為輸出,針對(duì)音頻內(nèi)容識(shí)別失敗的待識(shí)別音頻信號(hào),將該待識(shí)別音頻信號(hào)提供給音頻識(shí)別建模層進(jìn)行特征參數(shù)提取和訓(xùn)練,對(duì)ARAM集進(jìn)行擴(kuò)展。如圖2所示,包括:獲得待識(shí)別音頻信號(hào)(BI),將待識(shí)別音頻信號(hào)劃分為基元,提取MFCC波形特征參數(shù)(B2),進(jìn)行模型匹配,確定基元對(duì)應(yīng)的ARAM (B3),進(jìn)行語法規(guī)則過濾(B4),在確定識(shí)別成功時(shí),保存確定出的音頻通信行為(B7),在確定識(shí)別失敗時(shí),提取待識(shí)別音頻信號(hào)(B5),針對(duì)該待識(shí)別音頻信號(hào),采集樣本音頻信號(hào)(B6)。
[0059]與本發(fā)明實(shí)施例一和實(shí)施例二基于同一發(fā)明構(gòu)思,提供以下的裝置。
[0060]實(shí)施例三、
[0061]本發(fā)明實(shí)施例三提供一種音頻內(nèi)容識(shí)別裝置,該裝置的結(jié)構(gòu)示意圖可以如圖3所示,包括:
[0062]接收單元11用于接收待識(shí)別音頻信號(hào);
[0063]切分單元12用于對(duì)所述待識(shí)別音頻信號(hào)進(jìn)行切分,確定所述待識(shí)別音頻信號(hào)中的每個(gè)基元,一個(gè)基元是獨(dú)立發(fā)聲的最小區(qū)間對(duì)應(yīng)的音頻信號(hào);
[0064]特征提取單元13用于針對(duì)切分單元確定出的每個(gè)基元,提取梅爾頻率倒譜系數(shù)MFCC波形特征參數(shù);
[0065]內(nèi)容識(shí)別單元14用于根據(jù)特征提取單元提取出的所述MFCC波形特征參數(shù),與音頻識(shí)別分析模型ARAM集中每個(gè)預(yù)先建立的ARAM進(jìn)行模糊匹配,將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容;
[0066]其中,所述ARAM是根據(jù)MFCC波形特征參數(shù)建立的。
[0067]所述裝置還包括語法過濾單元15,用于根據(jù)內(nèi)容識(shí)別單元確定出的所述待識(shí)別音頻信號(hào)中每個(gè)基元對(duì)應(yīng)的音頻內(nèi)容,確定所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容;查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,若存在,根據(jù)該語法規(guī)則與音頻通信行為的對(duì)應(yīng)關(guān)系,確定該音頻內(nèi)容對(duì)應(yīng)的音頻通信行為。
[0068]所述語法過濾單元15具體用于根據(jù)語法規(guī)則索引查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則。
[0069]所述裝置還包括建模單元16,用于在所述語法過濾單元確定語法規(guī)則表中不存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則時(shí),針對(duì)所述待識(shí)別音頻信號(hào)中每個(gè)基兀,確定樣本基兀;針對(duì)每個(gè)基兀,利用確定出的該基兀的每個(gè)樣本基兀,提取MFCC波形特征參數(shù),建立該基元的初始化ARAM ;對(duì)該基元的初始化ARAM進(jìn)行迭代訓(xùn)練;將迭代訓(xùn)練后的得到的ARAM添加到所述ARAM集。
[0070]根據(jù)本發(fā)明實(shí)施例一?實(shí)施例三提供的方案,通過對(duì)音頻信號(hào)的特征參數(shù)提取、基元?jiǎng)澐帧⒔:陀?xùn)練,生成音頻識(shí)別分析模型,然后以音頻識(shí)別分析模型為基準(zhǔn)進(jìn)行音頻內(nèi)容的識(shí)別分析,將識(shí)別分析出的音頻內(nèi)容進(jìn)行語法過濾,進(jìn)一步確保了識(shí)別分析出的音頻內(nèi)容的準(zhǔn)確性。對(duì)識(shí)別分析失敗的音頻信號(hào),進(jìn)行特征參數(shù)提取,建立初始化ARAM模型,并進(jìn)行ARAM模型訓(xùn)練,及時(shí)補(bǔ)充到音頻識(shí)別分析模型集中,進(jìn)一步提高了后續(xù)音頻識(shí)別分析的成功率。
[0071]本發(fā)明使用了 ARAM模型對(duì)特征參數(shù)進(jìn)行高效處理,并可以結(jié)合多線程、多進(jìn)程,語法內(nèi)存索引等多種技術(shù)手段,保證對(duì)大量音頻信號(hào)的高效處理。
[0072]本發(fā)明提供的方案實(shí)現(xiàn)了對(duì)大量音頻信號(hào)的識(shí)別分析,更包括了對(duì)短忙音、長忙音、振鈴等特殊音頻的精準(zhǔn)識(shí)別分析,避免了人工分析處理的效率低,且準(zhǔn)確性難以保證的問題,確保了處理的及時(shí)性、準(zhǔn)確性和實(shí)用性。本發(fā)明方案通過海量測(cè)試驗(yàn)證(測(cè)試200GB音頻數(shù)據(jù),平均每個(gè)音頻文件1MB),準(zhǔn)確率可以達(dá)到99.9%,達(dá)到了電信級(jí)服務(wù)標(biāo)準(zhǔn)。
[0073]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0074]本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0075]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0076]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0077]盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。
[0078]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種音頻內(nèi)容識(shí)別方法,其特征在于,所述方法包括: 接收待識(shí)別音頻信號(hào); 對(duì)所述待識(shí)別音頻信號(hào)進(jìn)行切分,確定所述待識(shí)別音頻信號(hào)中的每個(gè)基元,一個(gè)基元是獨(dú)立發(fā)聲的最小區(qū)間對(duì)應(yīng)的音頻信號(hào); 針對(duì)每個(gè)基元,提取梅爾頻率倒譜系數(shù)MFCC波形特征參數(shù),根據(jù)所述MFCC波形特征參數(shù),與音頻識(shí)別分析模型ARAM集中每個(gè)預(yù)先建立的ARAM進(jìn)行模糊匹配,將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容; 其中,所述ARAM是根據(jù)MFCC波形特征參數(shù)建立的。
2.如權(quán)利要求1所述的方法,其特征在于,ARAM集中的一個(gè)ARAM通過以下方式建立: 針對(duì)一個(gè)基元確定樣本基元; 針對(duì)確定出的每個(gè)樣本基元,提取MFCC波形特征參數(shù),根據(jù)提取出的MFCC波形特征參數(shù),建立該基元的初始化ARAM ; 對(duì)所述初始化ARAM進(jìn)行迭代訓(xùn)練; 將迭代訓(xùn)練后的得到的ARAM確定為ARAM集中的一個(gè)ARAM。
3.如權(quán)利要求1或2所述的方法,其特征在于,確定所述待識(shí)別音頻信號(hào)中每個(gè)基元對(duì)應(yīng)的音頻內(nèi)容之后,所述方法還包括: 根據(jù)所述待識(shí)別音頻信號(hào)中每個(gè)基元對(duì)應(yīng)的音頻內(nèi)容,確定所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容; 查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,若存在,根據(jù)該語法規(guī)則與音頻通信行為的對(duì)應(yīng)關(guān)系,確定該音頻內(nèi)容對(duì)應(yīng)的音頻通信行為。
4.如權(quán)利要求3所述的方法,其特征在于,查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,具體包括: 根據(jù)語法規(guī)則索引查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則。
5.如權(quán)利要求3所述的方法,其特征在于,若確定語法規(guī)則表中不存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,所述方法還包括: 針對(duì)所述待識(shí)別音頻信號(hào)中每個(gè)基元,確定樣本基元; 針對(duì)每個(gè)基元,利用確定出的該基元的每個(gè)樣本基元,提取MFCC波形特征參數(shù),建立該基元的初始化ARAM ; 對(duì)該基元的初始化ARAM進(jìn)行迭代訓(xùn)練; 將迭代訓(xùn)練后的得到的ARAM添加到所述ARAM集。
6.一種音頻內(nèi)容識(shí)別裝置,其特征在于,所述裝置包括: 接收單元,用于接收待識(shí)別音頻信號(hào); 切分單元,用于對(duì)所述待識(shí)別音頻信號(hào)進(jìn)行切分,確定所述待識(shí)別音頻信號(hào)中的每個(gè)基元,一個(gè)基元是獨(dú)立發(fā)聲的最小區(qū)間對(duì)應(yīng)的音頻信號(hào); 特征提取單元,用于針對(duì)切分單元確定出的每個(gè)基元,提取梅爾頻率倒譜系數(shù)MFCC波形特征參數(shù); 內(nèi)容識(shí)別單元,用于根據(jù)特征提取單元提取出的所述MFCC波形特征參數(shù),與音頻識(shí)別分析模型ARAM集中每個(gè)預(yù)先建立的ARAM進(jìn)行模糊匹配,將匹配度最高的ARAM對(duì)應(yīng)的音頻內(nèi)容,確定為該基元對(duì)應(yīng)的音頻內(nèi)容; 其中,所述ARAM是根據(jù)MFCC波形特征參數(shù)建立的。
7.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括語法過濾單元,用于根據(jù)內(nèi)容識(shí)別單元確定出的所述待識(shí)別音頻信號(hào)中每個(gè)基元對(duì)應(yīng)的音頻內(nèi)容,確定所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容;查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則,若存在,根據(jù)該語法規(guī)則與音頻通信行為的對(duì)應(yīng)關(guān)系,確定該音頻內(nèi)容對(duì)應(yīng)的音頻通信行為。
8.如權(quán)利要求7所述的裝置,其特征在于,所述語法過濾單元,具體用于根據(jù)語法規(guī)則索引查找語法規(guī)則表,確定語法規(guī)則表中是否存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則。
9.如權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括建模單元,用于在所述語法過濾單元確定語法規(guī)則表中不存在與所述待識(shí)別音頻信號(hào)對(duì)應(yīng)的音頻內(nèi)容相匹配的語法規(guī)則時(shí),針對(duì)所述待識(shí)別音頻信號(hào)中每個(gè)基元,確定樣本基元;針對(duì)每個(gè)基元,利用確定出的該基元的每個(gè)樣本基元,提取MFCC波形特征參數(shù),建立該基元的初始化ARAM ;對(duì)該基元的初始化ARAM進(jìn)行迭代訓(xùn)練;將迭代訓(xùn)練后的得到的ARAM添加到所述ARAM集。
【文檔編號(hào)】G10L15/30GK103811008SQ201210445076
【公開日】2014年5月21日 申請(qǐng)日期:2012年11月8日 優(yōu)先權(quán)日:2012年11月8日
【發(fā)明者】武勇, 周連華, 孫怡, 張騰, 劉焱 申請(qǐng)人:中國移動(dòng)通信集團(tuán)上海有限公司, 上海中移通信技術(shù)工程有限公司, 聯(lián)創(chuàng)亞信科技(南京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阳高县| 长宁区| 亳州市| 朝阳区| 安岳县| 德昌县| 堆龙德庆县| 隆昌县| 奈曼旗| 洪湖市| 顺平县| 贡觉县| 孝昌县| 萨嘎县| 灯塔市| 全椒县| 茂名市| 溆浦县| 蓝田县| 大方县| 南溪县| 罗平县| 波密县| 嵊州市| 平武县| 嘉义县| 神池县| 五台县| 桃源县| 周宁县| 新宁县| 巴马| 宁明县| 京山县| 伊金霍洛旗| 山阴县| 依兰县| 达拉特旗| 天全县| 平湖市| 清水县|