欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種廣播電視語音識別系統(tǒng)方法及系統(tǒng)的制作方法

文檔序號:2826488閱讀:243來源:國知局
一種廣播電視語音識別系統(tǒng)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種廣播電視語音識別方法及系統(tǒng),其中方法包括:根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);對音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù);將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;對數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。該方法對現(xiàn)有語音識別方法進行改進,融合各種廣播電視數(shù)據(jù)預(yù)處理技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對各識別結(jié)果進行融合并生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為后續(xù)廣播電視節(jié)目的其他業(yè)務(wù)的智能化處理提供基礎(chǔ)數(shù)據(jù),且處理速度加快并提高準確度。
【專利說明】—種廣播電視語音識別系統(tǒng)方法及系統(tǒng)【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音視頻處理【技術(shù)領(lǐng)域】,特別涉及一種廣播電視語音識別方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前在廣播電視領(lǐng)域,對廣播電視語音識別主要利用適用于各行業(yè)的傳統(tǒng)語音識別方法,而傳統(tǒng)的語音識別主要采用模式匹配法,分為訓練和識別兩個階段,其中在訓練階段,用戶將詞匯表中的每一詞依次讀或者說一遍,并且將其特征矢量作為模板存入模板庫;在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結(jié)果輸出。
[0003]但是該語音識別應(yīng)用在廣播電視領(lǐng)域的語音識別存在以下問題:
[0004]I)廣播電視行業(yè)對語音識別往往有特別的、不同于其他行業(yè)的處理和操作,但是由于上述傳統(tǒng)語音識別是應(yīng)用于各行業(yè)的,對于廣播電視行業(yè)沒有針對性,不能根據(jù)廣播電視行業(yè)的特點對廣播電視數(shù)據(jù)中的非語音內(nèi)容進行過濾。因為在廣播電視行業(yè)內(nèi)非語音內(nèi)容對于語音識別是不在處理范圍之內(nèi)的,所以如果不對非語音內(nèi)容進行過濾,就還需要對其進行傳輸和處理,不僅導致傳輸資源和計算資源的浪費,而且還會由于非語音內(nèi)容的存在導致出現(xiàn)較多的誤識別操作,并且影響處理速度。
[0005]2)由于傳統(tǒng)語音識別技術(shù)不具備針對廣播電視行業(yè)的語音識別功能,導致識別結(jié)果不夠完整,例如,對于一段廣播電視數(shù)據(jù)無法判斷出說話發(fā)生的場景以及說話人的身份等重要信息,無法對語音內(nèi)容根據(jù)不同的說話人進行分段,無法標識每個語音詞的時間戳,對后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理無法提供任何有價值的參考信息。
[0006]綜上,傳統(tǒng)的語音識別方法應(yīng)用在廣播電視行業(yè)中存在耗費資源、處理速度慢、準確度不高、提供信息量不足等問題。

【發(fā)明內(nèi)容】

[0007](一)要解決的技術(shù)問題
[0008]本發(fā)明要解決的技術(shù)問題是如何針對廣播電視行業(yè)特點進行語音識別,避免傳統(tǒng)語音識別方法在廣播電視行業(yè)應(yīng)用中存在的缺點,為后續(xù)其它廣播電視行業(yè)業(yè)務(wù)的智能化、自動化處理提供充足可用的基礎(chǔ)數(shù)據(jù)。
[0009](二)技術(shù)方案
[0010]為解決上述技術(shù)問題,本發(fā)明提供了一種廣播電視語音識別方法,包括:
[0011]S1、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);
[0012]S2、對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù);
[0013]S3、將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;
[0014]S4、對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識, 生成結(jié)構(gòu)化的語音識別結(jié)果。[0015]進一步地,步驟S2對所述音頻數(shù)據(jù)進行預(yù)處理具體包括:
[0016]S21、對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件;
[0017]S22、對所述句子文件進行非語音過濾,留下語音句子文件;
[0018]S23、對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標識,判別為窄帶信號的語音句子文件添加窄帶標識;
[0019]S24、對添加寬帶標識和窄帶標識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標識。
[0020]進一步地,步驟S3將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標點符號識別,生成含有標識的語音識別結(jié)果。
[0021]進一步地,步驟S4對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識具體包括:
[0022]S41、對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序;
[0023]S42、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標記,包括說話人性別標識、說話人標識、語音內(nèi)容、標點符號以及時間戳。
[0024]進一步地,步驟S3進行識別處理的過程是根據(jù)語言模型庫進行識別的,且所述語音模型庫通過網(wǎng)絡(luò)文本采集和網(wǎng)絡(luò)文本學習不斷進行更新。
[0025]為解決上述技術(shù)問題,本發(fā)明還提供了一種廣播電視語音識別系統(tǒng),該系統(tǒng)包括:
[0026]提取單元,根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);
[0027]預(yù)處理終端,對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù),并發(fā)送給云服務(wù)器;
[0028]云服務(wù)器,對所述特征文本數(shù)據(jù)進行識別處理,得到語音識別結(jié)果,并對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。
[0029]進一步地,所述預(yù)處理終端包括:
[0030]切分模塊,對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件;
[0031]非語音過濾模塊,對所述句子文件進行非語音過濾,留下語音句子文件;
[0032]寬窄帶判別模塊,對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標識,判別為窄帶信號的語音句子文件添加窄帶標識;
[0033]音頻特征提取模塊,對添加寬帶標識和窄帶標識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于音視頻文件名稱和對應(yīng)的寬窄帶標識。
[0034]進一步地,所述云服務(wù)器包括:
[0035]男女聲識別模塊,用于對所述特征文本數(shù)據(jù)進行男女聲識別;
[0036]說話人識別模塊,用于對所述特征文本進行說話人識別;
[0037]語音內(nèi)容與標點符號識別模塊,用于對所述特征文本進行語音內(nèi)容識別以及標點符號識別,生成含有標點符號標識的語音識別結(jié)果;
[0038]識別結(jié)果處理模塊,對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。[0039]進一步地,所述識別結(jié)果處理模塊進一步包括:
[0040]匯總排序模塊,用于對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序;
[0041]加標識模塊,用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標記,包括說話人性別標識、說話人標識、語音內(nèi)容、標點符號以及時間戳。
[0042]進一步地,所述云服務(wù)器中還包括:語言模型智能學習模塊,用于定期搜集網(wǎng)絡(luò)文本,通過對網(wǎng)絡(luò)文本的學習定期更新語言模型庫,在識別處理過程中根據(jù)定期更新的語言模型庫進行識別。
[0043](三)有益效果
[0044]本發(fā)明實施例提供了一種廣播電視語音識別方法及系統(tǒng),其中方法包括:根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù);將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。。該方法基于云計算對現(xiàn)有語音識別方法進行改進,融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為廣播電視節(jié)目的語音檢索、字幕識別、主持人識別等后期智能化處理功能提供基礎(chǔ)數(shù)據(jù),能夠使得廣播電視語音識別處理速度加快并提高準確度。
[0045]為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù)具體包括以下幾 占-
^ \\\.[0046]I)對語音的識別結(jié)果以及對語音詞時間戳的標識結(jié)果可以為廣播電視語音內(nèi)容的檢索業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù);
[0047]2)對語音句子的切分時間點標識結(jié)果,以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目的拆分提供邊界時間點的參考;
[0048]3 )對廣播電視中語音內(nèi)容的識別以及標點符號的識別,可以為廣播電視節(jié)目中的字幕識別提供內(nèi)容參考;
[0049]4)對語音句子的說話人識別以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目中的主持人識別、嘉賓識別、說話場景識別(室內(nèi)場景、室外場景)等提供依據(jù)。
【專利附圖】

【附圖說明】
[0050]圖1為本發(fā)明實施例一提供的一種廣播電視語音識別方法的步驟流程圖;
[0051]圖2為本發(fā)明實施例一提供的預(yù)處理操作的步驟流程圖;
[0052]圖3為本發(fā)明實施例一提供的語音/非語音判別過程中音頻分類方法的技術(shù)框架示意圖;
[0053]圖4為本發(fā)明實施例一提供的對廣播電視數(shù)據(jù)進行語音識別的具體流程圖;
[0054]圖5為本發(fā)明實施例二提供的一種廣播電視語音識別系統(tǒng)的組成示意圖;
[0055]圖6為本發(fā)明實施例二提供的預(yù)處理終端的組成示意圖;[0056]圖7為本發(fā)明實施例二提供的云服務(wù)器的組成示意圖;
[0057]圖8為本發(fā)明實施例二提供的語音內(nèi)容與標點符號識別模塊的工作流程圖;
[0058]圖9為本發(fā)明實施例二提供的云服務(wù)平臺架構(gòu)示意圖。
【具體實施方式】
[0059]下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0060]實施例一
[0061]本發(fā)明實施例一提供了一種廣播電視語音識別方法,步驟流程如圖1所示,具體包括以下步驟:
[0062]步驟S1、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù)。
[0063]步驟S2、對音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù)。
[0064]步驟S3、將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;
[0065]步驟S4、對數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。
[0066]上述方法首先從用戶提供的待識別廣播電視數(shù)據(jù)(即音視頻數(shù)據(jù))中抽取出音頻數(shù)據(jù),并經(jīng)過預(yù)處理后得到特征文本數(shù)據(jù),再由云服務(wù)器對其進行識別處理,最后對得到的數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,最終生成結(jié)構(gòu)化的語音識別結(jié)果,并將其以可擴展標記語言XML返回給用戶。對語音識別結(jié)果添加語音詞的時間戳、句子的時間戳、男女聲、說話人等標識,能夠為廣播電視語音內(nèi)容的檢索、字幕識別以及主持人識別等提供依據(jù),更加方便后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理,為各種操作和處理提供基礎(chǔ)數(shù)據(jù)。
[0067]優(yōu)選地,本實施例步驟SI之前還包括:接收用戶發(fā)送的廣播電視數(shù)據(jù),其中該廣播電視數(shù)據(jù)中包括音視頻數(shù)據(jù),可以理解為音頻數(shù)據(jù)和視頻數(shù)據(jù)。接收到廣播電視數(shù)據(jù)之后,要首先判斷該廣播電視數(shù)據(jù)是否為語音識別系統(tǒng)支持的音視頻數(shù)據(jù)類型,如果不是支持的或者說可識別的音視頻數(shù)據(jù),則拒絕處理。
[0068]本實施例中的音視頻解碼采用G.711的編解碼標準,利用ffmpeg軟件解碼工具實現(xiàn)音視頻的解碼,抽取音頻部分保存為Pcm格式,可兼容當前各種主流的廣播電視音視頻數(shù)據(jù)格式,例如wmv,wma, wav, mp3, asf, rm, mp4、av1、flv等格式。如果判斷出是可識別的音視頻數(shù)據(jù),則對該音視頻數(shù)據(jù)進行解碼,并進一步從中提取出屬于音頻部分的數(shù)據(jù),并將得到的音頻數(shù)據(jù)作為步驟S2的待處理數(shù)據(jù)。
[0069]優(yōu)選地,本實施例中的步驟S2對音頻數(shù)據(jù)進行預(yù)處理,預(yù)處理內(nèi)容主要包括按照適合語音識別的標準進行切分以及碎片化,對碎片化后的句子文件進行語音/非語音、寬帶/窄帶的判別并標識,最后提取包含有語音特征的特征文本數(shù)據(jù),預(yù)處理操作的步驟流程如圖2所示,具體包括以下步驟:
[0070]步驟S21、對音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件。
[0071]由于接收到的音頻數(shù)據(jù)是比較完整的數(shù)據(jù)塊,需要對其切分和碎片化處理,生成若干個小的、適合語音識別系統(tǒng)處理的句子文件。具體的切分過程如下:[0072]首先對該音頻數(shù)據(jù)進行解析,分析各音頻采樣點的能量信號值,找到靜音位置,在本實施例中以50幀,一幀200個采樣點作為靜音點閥值,超過該靜音點閥值時,說明該點為靜音位置;找到靜音位置之后,按照靜音位置對音頻數(shù)據(jù)進行切分,即碎片化生成離散的句子文件,并對每個句子文件打上時間標識,最終得到的句子文件以Pcm格式保存。
[0073]步驟S22、對句子文件進行非語音過濾,留下語音句子文件。
[0074]由于步驟S21只是根據(jù)靜音位置對音頻數(shù)據(jù)進行切分,其中還包括大量的非語音內(nèi)容,而這些內(nèi)容對于后續(xù)的音頻識別沒有任何幫助,也起不到任何積極的作用,相反的,由于非語音內(nèi)容的存在還會加重語音識別系統(tǒng)對音頻數(shù)據(jù)的傳輸和計算的處理負擔,還會導致誤識別的發(fā)生,因此需要對生成的句子文件進行非語音過濾,即對碎片化后的句子文件進行語音/非語音判別,剩下語音句子文件,該步驟具體如下:
[0075]首先,解析每個碎片化后的句子文件,根據(jù)語音/非語音分類模型,通過分類器對每個句子文件進行語音/非語音的判別;
[0076]其次,根據(jù)判別結(jié)果,對非語音的句子文件進行刪除標識的操作,并記錄句子時間位置。
[0077]本實施例中使用了一種基于支持向量機(Support Vector Machine,簡稱SVM)的音頻分類方法,首先基于能量門限,把短句子分成靜音和非靜音,然后通過選擇有效而又魯棒的音頻特征,把非靜音信號分成4類:語音(純語音、非純語音)、非語音(音樂、環(huán)境音),該方法具有很高的分類準確率和處理速度,該音頻分類方法的技術(shù)框架如圖3所示。
[0078]步驟S23、對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標識,判別為窄帶信號的語音句子文件添加窄帶標識。
[0079]對每個語音句子進行寬窄帶判別,以便根據(jù)判別結(jié)果為后續(xù)語音識別時選擇哪種語音識別模型提供參考,該步驟具體如下:
[0080]首先,對過濾后剩下的適合語音識別系統(tǒng)處理的語音句子片斷進行逐條分析,判別其語音句子為寬帶(高采樣率)或窄帶(低采樣率),以便后續(xù)語音識別時選擇哪種語音識別模型提供參考;
[0081]其次,對每條語音句子進行寬窄帶標識,即對寬帶信號的語音句子文件添加寬帶標識,對窄帶信號的語音句子文件添加窄帶標識。
[0082]具體的,本實施例中寬窄帶判別通過分析音頻信號中的頻譜能量值進行判別,當8K以上的頻譜能量值大于0.1時,該音頻信號為寬帶,當8K以下的頻譜能量值小于或等于
0.1時,該音頻信號則為窄帶信號。
[0083]步驟S24、對添加寬帶標識和窄帶標識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標識。
[0084]為節(jié)省網(wǎng)絡(luò)帶寬資源,對語音句子文件添加寬窄帶標識之后,還要進行音頻特征的提取,將音頻數(shù)據(jù)轉(zhuǎn)化為文本特征數(shù)據(jù),以減少網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量,具體如下:
[0085]首先,對對添加寬帶標識和窄帶標識的語音句子文件進行逐條分析,抽取MFCC(Mel Frequency Cepstrum Coefficient, Mel 頻率倒譜系數(shù))和 PLP (Packet LevelProtocol,分組級協(xié)議)語音特征,這是在語音識別領(lǐng)域常用的兩種語音特征;
[0086]其次,對抽取后的每條語音特征進行時間標識,使得最后得到的特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于哪個音視頻文件的文件名稱以及對應(yīng)的寬窄帶標識。
[0087]需要說明的是,該步驟不僅將輸入語音信號轉(zhuǎn)換成比較魯棒且具有區(qū)分能力的語音特征,用于區(qū)分不同的說話人,而且在特征提取基礎(chǔ)上還進行了一定的歸一化,其中的歸一化內(nèi)容包括:
[0088]I)均值歸一化CMN,主要降低信道影響;
[0089]2)方差歸一化CVN,主要降低加性噪聲影響;
[0090]3)聲道長度歸一化VTLN,主要降低聲道差異造成的影響;
[0091]4)高斯化 Gaussianization,是 CMN+CVN 的推廣算法;
[0092]5)抗噪算法,降低背景噪聲對系統(tǒng)性能影響,使用AWF和VTS算法。
[0093]優(yōu)選地,本實施例步驟S3將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器,進入語音識別流程。本實施例中云服務(wù)器調(diào)用模塊采用Web Service接口協(xié)議,將待識別的廣播電視任務(wù)信息以XML消息的方式發(fā)送至與服務(wù)器端進行語音識別。其中識別任務(wù)的XML消息包含以下內(nèi)容:
[0094]I)待識別的廣播電視文件名稱;
[0095]2)碎片化的句子文件列表;
[0096]3)每個句子文件的語音/非語音標識;
[0097]4)每個句子文件的寬帶/窄帶標識;
[0098]5)每個鑒定為語音的句子文件的語音特征文本;
[0099]6)每個句子文件的起止時間標識。
[0100]云服務(wù)器接收到識別任務(wù)后,進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標點符號識別,生成含有標識的語音識別結(jié)果,該步驟具體如下:
[0101](I)將待識別的語音句子文件對應(yīng)的語音特征文本以XML (可擴展語言)消息的方式逐條發(fā)送到遠端用于廣播電視語音識別處理的與服務(wù)器,在XML消息中除了包含語音特征文本數(shù)據(jù)之外,還應(yīng)該包含以下信息:語音句子文件對應(yīng)的起止時間、該語音句子文件歸屬的廣播電視音視頻文件名稱、該語音句子文件的寬窄帶標識;
[0102](2)云服務(wù)器中的語音識別系統(tǒng)基于云計算框架構(gòu)建,當語音句子的特征文本發(fā)送到廣播電視語音識別云時,通過控制器根據(jù)云服務(wù)器中計算資源的占用情況,為該條語音句子文件的識別合理分配計算資源;
[0103](3)語音識別系統(tǒng)調(diào)用分配到的計算資源對語音特征分別進行男女聲識別、說話人識別、語音內(nèi)容與標點符號識別,其中男女聲識別根據(jù)男女聲分類模型,通過分類器對每個句子進行男女聲的分類判別并標識;說話人識別根據(jù)說話人模型庫,對每個句子進行說話人的識別并標識;語音內(nèi)容識別和標點符號識別對每個句子進行語音內(nèi)容的識別,同時標記標點符號,并對識別出的每個詞匯進行時間標注。
[0104]優(yōu)選地,本實施例步驟S4對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識的具體包括:
[0105]步驟S41、對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序,具體的:針對每個語音句子的識別結(jié)果進行融合,按照其歸屬的廣播電視音視頻文件進行匯總整理,將各句子的不同識別結(jié)果(男女聲識別、說話人識別、語音內(nèi)容與標點符號識別)按照時間點對齊,并進行時間排序。[0106]步驟S42、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標記,包括說話人性別標識、說話人標識、語音內(nèi)容、標點符號以及時間戳,具體的:針對排序好的識別結(jié)果,按照特定的結(jié)構(gòu)化的格式進行文本結(jié)果標識,標識內(nèi)容包括每個句子文件的說話人性別、說話人、句子中的語音內(nèi)容、句子中每個語音詞的時間戳、句子中斷點的標點符號。
[0107]最后生成結(jié)構(gòu)化的語音識別結(jié)果,之后再將語音識別結(jié)果以XML消息的形式反饋給用戶,其中XML消息包含以下內(nèi)容:
[0108]I)識別的廣播電視文件名稱;
[0109]2)碎片化的句子文件列表;
[0110]3)每個句子文件的語音/非語音標識;
[0111]4)每個句子文件的寬帶/窄帶標識;
[0112]5)每個句子文件的語音識別結(jié)果;
[0113]6)每個句子文件的說話人標識;
[0114]7)每個句子文件的男女聲標識;
[0115]8)每個句子文件的起止時間標識。
[0116]優(yōu)選地,本實施例為保障語音識別的準確率,在步驟S3進行識別處理的過程是根據(jù)聲學模型庫與語言模型庫進行識別的,其中語言模型庫通過對網(wǎng)絡(luò)文本的采集和對網(wǎng)絡(luò)文本的學習不斷進行更新。定期通過互聯(lián)網(wǎng)進行網(wǎng)絡(luò)文本的采集,通過對網(wǎng)絡(luò)文本的學習定期優(yōu)化語言模型庫,具體如下:
[0117]I)從互聯(lián)網(wǎng)中定期搜集網(wǎng)絡(luò)文本,通過網(wǎng)絡(luò)爬蟲,定期向各大搜索引擎(如百度、谷歌、搜搜、搜狗、搜庫等)以及各大廣播電視相關(guān)的門戶網(wǎng)站(如央視網(wǎng)、各地網(wǎng)臺、新浪、搜狐等)抓取網(wǎng)頁鏈接,搜集熱門詞匯以及網(wǎng)絡(luò)文章。
[0118]2)通過搜集的網(wǎng)絡(luò)文本對網(wǎng)絡(luò)文章進行分詞,并統(tǒng)計詞頻、詞數(shù),將分詞結(jié)果、網(wǎng)絡(luò)熱詞采集結(jié)果以及統(tǒng)計數(shù)據(jù)錄入該語音識別系統(tǒng)中的語言模型庫,供各語音識別模塊進行參考,實現(xiàn)對語言模型庫的定期更新,以保障廣播電視語音識別的準確率。
[0119]基于上述,本實施例對廣播電視數(shù)據(jù)進行語音識別的具體流程如圖4所示,具體包括:
[0120]首先,接收廣播電視數(shù)據(jù),將其發(fā)送給預(yù)處理終端進行音視頻解碼,從中提取出音頻數(shù)據(jù),之后進行音頻切分以及碎片化,對碎片化后的句子文件進行語音/非語音判別,如果是語音則繼續(xù)下一步驟,否則將其標記為非語音,并不做繼續(xù)處理。對于語音句子文件繼續(xù)進行寬窄帶判別、語音特征提取,再將得到的特征文本數(shù)據(jù)通過語音識別的“云”調(diào)用,將其以XML消息作為語音識別任務(wù)發(fā)送給云服務(wù)器進行語音識別處理。云服務(wù)器端的云服務(wù)平臺對其分別進行男女聲識別、說話人識別、語音內(nèi)容識別與標點符號識別,再對識別結(jié)果進行融合等處理后反饋給與服務(wù)平臺,同時從網(wǎng)絡(luò)學習新的網(wǎng)絡(luò)詞匯、熱門詞匯等對云服務(wù)平臺的語言模型庫進行定期更新,保證語音識別的準確率。最后,云服務(wù)器將識別結(jié)果,也就是結(jié)構(gòu)化的語音識別結(jié)果通過XML形式反饋給用戶,供用戶參考、檢索等進一步地智能化處理。
[0121]通過本實施例提供的識別方法,基于云計算對現(xiàn)有語音識別方法進行改進,融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù),具體包括以下幾點:
[0122]5)對語音的識別結(jié)果以及對語音詞時間戳的標識結(jié)果可以為廣播電視語音內(nèi)容的檢索業(yè)務(wù)提供基礎(chǔ)數(shù)據(jù);
[0123]6)對語音句子的切分時間點標識結(jié)果,以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目的拆分提供邊界時間點的參考;
[0124]7)對廣播電視中語音內(nèi)容的識別以及標點符號的識別,可以為廣播電視節(jié)目中的字幕識別提供內(nèi)容參考;
[0125]8)對語音句子的說話人識別以及寬窄帶的判別結(jié)果,可以為廣播電視節(jié)目中的主持人識別、嘉賓識別、說話場景識別(室內(nèi)場景、室外場景)等提供依據(jù)。
[0126]另外,處理速度加快,能夠應(yīng)對海量數(shù)據(jù)的語音識別問題,還由于定期對語言模型庫進行學習與更新,能夠提高語音識別的準確度。
[0127]實施例二
[0128]本發(fā)明實施例二還提供了一種廣播電視語音識別系統(tǒng),組成示意圖如圖5所示,該系統(tǒng)包括:
[0129]提取單元10,根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù);
[0130]預(yù)處理終端20,對音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù),并發(fā)送給云服務(wù)器30 ;
[0131]云服務(wù)器30,對特征文本數(shù)據(jù)進行識別處理,得到語音識別結(jié)果,并對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。
[0132]優(yōu)選地,本實施例中的預(yù)處理終端20的組成示意圖如圖6所示,具體包括:
[0133]切分模塊21,對音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件;
[0134]非語音過濾模塊22,對句子文件進行非語音過濾,留下語音句子文件;
[0135]寬窄帶判別模塊23,對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標識,判別為窄帶信號的語音句子文件添加窄帶標識;
[0136]音頻特征提取模塊24,對添加寬帶標識和窄帶標識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標識。
[0137]優(yōu)選地,本實施例中的云服務(wù)器30的組成示意圖如圖7所示,具體包括:
[0138]男女聲識別模塊31,用于對特征文本數(shù)據(jù)進行男女聲識別。
[0139]由于在生理和心理學方面,男性、女性說話有明顯的差異,如聲帶產(chǎn)生的基音、口腔結(jié)構(gòu)(喉咽、舌頭、腭、唇、齒等)產(chǎn)生的共振峰頻率、呼出氣流的大小和強弱等。因此語音信號中包含說話人的性別特征。在本實施例中,通過GMM-SVM (Gaussian MixtureModels-Support Vector Machines)混合模型的技術(shù)框架,建立了全體變化空間建模(Total Variability Modeling)的男女聲識別(即說話人性別識別)。全體變化空間建模在訓練空間矩陣時,不再區(qū)分說話人空間和信道空間,通過總體空間來表示,簡化了空間的數(shù)學表示,大大降低了對訓練數(shù)據(jù)的依賴程度。通過多系統(tǒng)融合,給出最終的性別結(jié)果判定。
[0140]說話人識別模塊32,用于對特征文本進行說話人識別。[0141]在本實施例中說話人識別基于說話人之間的兩類差別來實現(xiàn)的:一是不同聲道頻譜特性的發(fā)音上本身存在差異,這種差異體現(xiàn)在發(fā)音的語音特征分布上不一樣;二是不同說話人的高層次特征(high-level features)存在差異,即由于生活環(huán)境和背景不同,后天形成的,如習慣用語、韻律、語言結(jié)構(gòu)等差異。目前國際上主流的說話人識別系統(tǒng)基本上都是基于這些特點,用統(tǒng)計建模的方法解決來說話人識別問題。具體的,說話人識別系統(tǒng)包括以下兩個模塊:
[0142]A、說話人建模工具模塊:通過區(qū)分訓練的方法,如支持向量機SVM,或者基于統(tǒng)計建模的方法,如高斯混合模型GMM,對說話人進行建模,刻畫不同說話人各自的特征空間分布特性,用于區(qū)分不同的說話人。
[0143]B、說話人判別算法模塊:將輸入語音的特征與相應(yīng)的說話人模型進行匹配,根據(jù)匹配程度判別輸入語音的說話人身份。
[0144]語音內(nèi)容與標點符號識別模塊33,用于對特征文本進行語音內(nèi)容識別以及標點符號識別,生成含有標識的語音識別結(jié)果。
[0145]模塊包含4個組成部分:聲學模型庫、語言模型庫、搜索與解碼、標點符號生成,工作流程圖如圖8所示,輸入語音特征后,根據(jù)該語音特征是寬帶信號還是窄帶信號,由搜索與解碼模塊選擇調(diào)用智能學習而來的聲學模型庫與語言模型庫對語音內(nèi)容進行識別,識別后生成的文本(句子)送入標點符號生成模塊進行標點符號的識別,最后生成帶有標點符號標識的語音識別結(jié)果。
[0146]4個組成部分分別采用的識別技術(shù)介紹如下:
[0147]A、聲學模型庫:在本實施例中采用基于⑶-DNN-HMM (上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)的隱馬爾可夫模型)聲學模型庫,比傳統(tǒng)的基于GMM-HMM (高斯混合模型的隱馬爾可夫模型)聲學模型庫識別準確率要更高。
[0148]B、語言模型庫:在本實施例中采用N-Gram (N元語法)語言模型,該模型基于這樣一種假設(shè),第η個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。N-Gram語言模型簡單有效,被語音識別業(yè)界所廣泛使用。
[0149]C、搜索與解碼:在本實施例中采用Viterbi搜索算法等動態(tài)規(guī)劃方法,搜索在給定模型情況下的最優(yōu)結(jié)果;基于動態(tài)規(guī)劃的Viterbi算法在每個時間點上的各個狀態(tài),計算解碼狀態(tài)序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節(jié)點記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。Viterbi算法在不喪失最優(yōu)解的條件下,同時解決了連續(xù)語音識別中HMM模型狀態(tài)序列與聲學觀察序列的非線性時間對準、詞邊界檢測和詞的識別,也是常用的語音識別搜索的基本策略。
[0150]標點符號生成:在本實施例中米用了一種利用純文本信息添加中文口語句子句末標點的方法。該方法從句子的不同粒度角度,建模全局詞匯信息與標點的關(guān)系,并使用多層感知器來融合在不同粒度下得到的標點模型,從而實現(xiàn)了標點(句號、問號和嘆號)生成。
[0151]識別結(jié)果處理模塊34,對語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。其中本實施例中,識別結(jié)果處理模塊34首先對廣播電視數(shù)據(jù)中各個語音句子文件的語音識別結(jié)果(帶標點符號、每個語音詞帶時間戳)進行匯總及融合。
[0152]優(yōu)選地,本實施例中的識別結(jié)果處理模塊34進一步包括:[0153]匯總排序模塊,用于對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序;
[0154]加標識模塊,用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標記,包括說話人性別標識、說話人標識、語音內(nèi)容、標點符號以及時間戳。
[0155]優(yōu)選地,本實施例中的云服務(wù)器30中還包括:語言模型智能學習模塊35,用于定期搜集網(wǎng)絡(luò)文本,通過對網(wǎng)絡(luò)文本的學習定期更新語言模型庫,在識別處理過程中根據(jù)定期更新的語言模型庫進行識別,以確保語音識別的準確率。。
[0156]本實施例中的云服務(wù)器30是基于語音識別云服務(wù)平臺36實現(xiàn)的,具體的語音識別云服務(wù)平臺基于ICE與SOA相結(jié)合的云服務(wù)平臺框架進行構(gòu)建,由ICE框架完成分布式計算,通過SOA框架對外提供云服務(wù),完成基于Web Service的識別任務(wù)與識別結(jié)果的通?目。
[0157]在本實施例中服務(wù)平臺中,將各種識別模塊(即男女聲識別模塊31、說話人識別模塊32、語音內(nèi)容與標點符號識別模塊33以及識別結(jié)果處理模塊34)封裝成為插件,形成標準的云服務(wù),配置在框架中,成為云服務(wù)平臺的一部分,各種識別模塊可以在不影響系統(tǒng)正常運行的情況下在平臺中方便地添加和卸載,當待識別的數(shù)據(jù)量增加時,云服務(wù)平臺將自適應(yīng)地添加識別模塊,以完成海量的廣播電視語音識別任務(wù)。
[0158]該云服務(wù)平臺架構(gòu)如圖9所示,廣播電視數(shù)據(jù)完成預(yù)處理后,通過調(diào)用數(shù)據(jù)接入接口將語音識別任務(wù)以XML任務(wù)消息傳遞給控制單元,由控制單元根據(jù)當前的計算資源的狀態(tài)(計算資源的狀態(tài)通過監(jiān)控單元搜集),主要包括CPU、內(nèi)存、網(wǎng)絡(luò)狀態(tài),結(jié)合識別節(jié)點的任務(wù)執(zhí)行狀態(tài),任務(wù)優(yōu)先級,以及執(zhí)行效率的先驗知識,動態(tài)決策并分配最優(yōu)的計算資源完成識別任務(wù)的執(zhí)行。
`[0159]綜上所述,本實施例提供的識別系統(tǒng)融合廣播電視數(shù)據(jù)預(yù)處理技術(shù)、男女聲識別技術(shù)、說話人識別技術(shù)以及廣播電視語音識別方法,對語音數(shù)據(jù)進行預(yù)處理后再具體針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對廣播電視數(shù)據(jù)預(yù)處理結(jié)果、男女聲識別結(jié)果、說話人識別結(jié)果以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為后續(xù)其他廣播電視業(yè)務(wù)的智能化、自動化處理提供基礎(chǔ)數(shù)據(jù)。另外,由于采用對碎片化的語音數(shù)據(jù)并行處理的方式,處理速度加快,能夠應(yīng)對海量數(shù)據(jù)的語音識別問題,同時由于定期對語言模型庫進行智能學習與更新,能夠提高語音識別的準確度。
[0160]以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)【技術(shù)領(lǐng)域】的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應(yīng)由權(quán)利要求限定。
【權(quán)利要求】
1.一種廣播電視語音識別方法,其特征在于,包括: 51、根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù); 52、對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù); 53、將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果; 54、對所述數(shù)據(jù)預(yù)處理、男女聲識別、說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。
2.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S2對所述音頻數(shù)據(jù)進行預(yù)處理具體包括: 521、對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件; 522、對所述句子文件進行非語音過濾,留下語音句子文件; 523、對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標識,判別為窄帶信號的語音句子文件添加窄帶標識; 524、對添加寬帶標識和窄帶標識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、語音特征信息、該句子歸屬的音視頻文件名稱和對應(yīng)的寬窄帶標識。
3.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S3將所述特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進行識別處理包括:男女聲識別、說話人識別、語音內(nèi)容識別和標點符號識別,生成含有標識的語音識別結(jié)果。
4.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S4對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識具體包括: 541、對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序; 542、對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標記,包括說話人性別標識、說話人標識、語音內(nèi)容、標點符號以及時間戳。
5.如權(quán)利要求1所述的廣播電視語音識別方法,其特征在于,步驟S3進行識別處理的過程是根據(jù)語言模型庫進行識別的,且所述語音模型庫通過網(wǎng)絡(luò)文本采集和網(wǎng)絡(luò)文本學習不斷進行更新。
6.一種廣播電視語音識別系統(tǒng),其特征在于,該系統(tǒng)包括: 提取單元,根據(jù)廣播電視數(shù)據(jù)提取出音頻數(shù)據(jù); 預(yù)處理終端,對所述音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù),并發(fā)送給云服務(wù)器; 云服務(wù)器,對所述特征文本數(shù)據(jù)進行識別處理,得到語音識別結(jié)果,并對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。
7.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng),其特征在于,所述預(yù)處理終端包括: 切分模塊,對所述音頻數(shù)據(jù)進行切分和碎片化處理生成若干個句子文件; 非語音過濾模塊,對所述句子文件進行非語音過濾,留下語音句子文件; 寬窄帶判別模塊,對每個語音句子文件進行寬窄帶判別,對判別為寬帶信號的語音句子文件添加寬帶標識,判別為窄帶信號的語音句子文件添加窄帶標識; 音頻特征提取模塊,對添加寬帶標識和窄帶標識的語音句子文件進行音頻特征提取,得到特征文本數(shù)據(jù),其中所述特征文本數(shù)據(jù)中包含該語音句子的起止時間、屬于音視頻文件名稱和對應(yīng)的寬窄帶標識。
8.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng),其特征在于,所述云服務(wù)器包括: 男女聲識別模塊,用于對所述特征文本數(shù)據(jù)進行男女聲識別; 說話人識別模塊,用于對所述特征文本進行說話人識別; 語音內(nèi)容與標點符號識別模塊,用于對所述特征文本進行語音內(nèi)容識別以及標點符號識別,生成含有標點符號標識的語音識別結(jié)果; 識別結(jié)果處理模塊,對所述語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標識,生成結(jié)構(gòu)化的語音識別結(jié)果。
9.如權(quán)利要求8所述的廣播電視語音識別系統(tǒng),其特征在于,所述識別結(jié)果處理模塊進一步包括: 匯總排序模塊,用于對各個語音識別結(jié)果進行匯總、對齊,并按照其中包含的起止時間進行排序; 加標識模塊,用于對排序后的語音識別結(jié)果按照結(jié)構(gòu)化格式進行標記,包括說話人性別標識、說話人標識、語音內(nèi)容、標點符號以及時間戳。
10.如權(quán)利要求6所述的廣播電視語音識別系統(tǒng),其特征在于,所述云服務(wù)器中還包括:語言模型智能學習模塊,用于定期搜集網(wǎng)絡(luò)文本,通過對網(wǎng)絡(luò)文本的學習定期更新語言模型庫,在識別處理過程中根據(jù)定期更新的語言模型庫進行識別。
【文檔編號】G10L15/26GK103700370SQ201310648375
【公開日】2014年4月2日 申請日期:2013年12月4日 優(yōu)先權(quán)日:2013年12月4日
【發(fā)明者】陳鑫瑋, 徐波 申請人:北京中科模識科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南漳县| 南涧| 惠东县| 万山特区| 盐亭县| 卓资县| 天气| 休宁县| 巴林右旗| 钟山县| 绥宁县| 连州市| 石门县| 抚远县| 安吉县| 南召县| 深泽县| 江陵县| 洪泽县| 英超| 区。| 万州区| 广西| 普陀区| 托克逊县| 南康市| 中山市| 利川市| 灌阳县| 乌恰县| 吉安市| 平顺县| 鞍山市| 河南省| 五大连池市| 余庆县| 宁陵县| 湄潭县| 迭部县| 霍山县| 修文县|