欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

音視頻同步檢測方法及其系統(tǒng)、語音檢測方法及其系統(tǒng)的制作方法

文檔序號:7720013閱讀:110來源:國知局
專利名稱:音視頻同步檢測方法及其系統(tǒng)、語音檢測方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及通信領(lǐng)域中的音視頻檢測技術(shù),尤其涉及一種音視頻同步檢測方法及 其系統(tǒng),以及一種語音檢測方法及其系統(tǒng)。
背景技術(shù)
移動通信視頻業(yè)務(wù)中,由于音頻和視頻在編碼過程中并不攜帶時間信息,因此獲 得音視頻的同步信息變得相當(dāng)困難。如果預(yù)先在音視頻編碼后的音頻數(shù)據(jù)包和視頻數(shù)據(jù)包中分別添加時間信息,則當(dāng) 編碼后的音視頻文件經(jīng)網(wǎng)絡(luò)傳輸?shù)竭_(dá)接收端后,通過對接收端接收到的音視頻文件進(jìn)行解 析,解析出音頻數(shù)據(jù)包和視頻數(shù)據(jù)包中攜帶的時間信息,然后根據(jù)解析出的時間信息判斷 音視頻的同步情況。但是上述音視頻同步檢測方法存在以下問題(1)盡管音頻和視頻在分別打包后攜帶時間信息,但是二者分組打包后的時間信 息沒有相應(yīng)的對應(yīng)關(guān)系,再者,音頻和視頻的幀長以及數(shù)據(jù)包的大小并不相同,因此無法準(zhǔn) 確確定出音頻和視頻的相對時延;(2)根據(jù)音頻數(shù)據(jù)包和視頻數(shù)據(jù)包包頭中攜帶的時間信息對音視頻同步進(jìn)行同步 檢測的結(jié)果,僅能反映網(wǎng)絡(luò)的傳輸時延,而在實(shí)際播放過程中,接收端的音視頻文件播放器 設(shè)有緩存,經(jīng)過解碼的音頻流和視頻流由播放器通過緩存進(jìn)行同步調(diào)整,因此,根據(jù)音頻數(shù) 據(jù)包和視頻數(shù)據(jù)包包頭中攜帶的時間信息進(jìn)行音視頻同步檢測的結(jié)果不能反映出音視頻 文件播放器進(jìn)行同步調(diào)整后對音視頻同步所產(chǎn)生的影響,即,采用該種方式進(jìn)行音視頻同 步檢測所得到的結(jié)果不準(zhǔn)確。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種音視頻同步檢測方法及其系統(tǒng),用以解決現(xiàn)有音視頻同 步檢測準(zhǔn)確性低的問題。本發(fā)明實(shí)施例提供的技術(shù)方案包括一種音視頻同步檢測方法,包括如下步驟確定目標(biāo)端所播放的音視頻文件中,與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時 間,以及與視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間;根據(jù)所述與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間,以及所述與視頻參考數(shù) 據(jù)匹配的視頻幀的起始播放時間,確定出所述音視頻文件在目標(biāo)端播放時的音視頻播放時 間差;獲取所述音視頻文件在源端播放時的音視頻播放時間差,根據(jù)所述音視頻文件在 源端和目標(biāo)端播放時的音視頻播放時間差,確定出所述音視頻文件在所述目標(biāo)端播放時的 音視頻同步情況。一種音視頻同步檢測系統(tǒng),包括
音頻識別模塊,用于確定目標(biāo)端所播放的音視頻文件中,與音頻參考數(shù)據(jù)匹配的 音頻段的起始播放時間;視頻識別模塊,用于確定目標(biāo)端所播放的音視頻文件中,與視頻參考數(shù)據(jù)匹配的 視頻幀的起始播放時間;時間差確定模塊,用于根據(jù)所述音頻識別模塊確定出的與音頻參考數(shù)據(jù)匹配的音 頻段的起始播放時間,以及所述視頻識別模塊確定出的與視頻參考數(shù)據(jù)匹配的視頻幀的起 始播放時間,確定出所述音視頻文件在目標(biāo)端播放時的音視頻播放時間差;同步檢測模塊,用于獲取所述音視頻文件在源端播放時的音視頻播放時間差,根 據(jù)獲取到的所述音視頻播放時間差以及所述時間差確定模塊確定出的音視頻播放時間差, 確定出所述音視頻文件在所述目標(biāo)端播放時的音視頻同步情況。本發(fā)明的上述實(shí)施例,對于目標(biāo)端所播放的音視頻文件,確定其與音頻參考數(shù)據(jù) 匹配的音頻段的起始播放時間,以及與視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間,從而 得到目標(biāo)端播放時的音視頻播放時間差,然后與該音視頻文件在源端播放時的音視頻播放 時間差相比,從而確定出該音視頻文件在所述目標(biāo)端播放時的音視頻同步情況,與現(xiàn)有技 術(shù)相比,本發(fā)明實(shí)施例的音視頻同步檢測不依賴于音視頻數(shù)據(jù)包中的時間信息,而是根據(jù) 目標(biāo)端所實(shí)際播放的音視頻文件進(jìn)行同步檢測,同時將目標(biāo)端的音視頻解碼過程中對音視 頻同步進(jìn)行調(diào)整的因素考慮進(jìn)去,因此所得到的音視頻同步檢測結(jié)果更加準(zhǔn)確。尤其適用 于對音視頻經(jīng)網(wǎng)絡(luò)傳輸后的音視頻同步情況檢測的過程。本發(fā)明實(shí)施例還提供了 一種語音檢測方法及其系統(tǒng),用于解決現(xiàn)有技術(shù)語音檢測 準(zhǔn)確度低的問題。本發(fā)明實(shí)施例提供的技術(shù)方案包括一種語音檢測方法,包括如下步驟根據(jù)語音信號短時平均幅度,在待測音頻中搜索音頻信號,當(dāng)搜索到短時平均幅 度超過第一幅度閾值的音頻信號時,從當(dāng)前時刻起向前搜索音頻信號,以及在該時刻后搜 索到短時平均幅度首次下降到第一幅度閾值以下的音頻信號時,從當(dāng)前時刻起向后搜索音 頻信號;當(dāng)向前和向后搜索到短時平均幅度降到第二幅度閾值的音頻信號時,根據(jù)短時平 均過零率繼續(xù)沿原搜索方向搜索音頻信號;所述第二幅度閾值小于所述第一幅度閾值;當(dāng)向前搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng)前時刻作 為語音段的起點(diǎn),當(dāng)向后搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng) 前時刻作為語音段的終點(diǎn)。一種語音檢測系統(tǒng),包括第一搜索模塊,用于根據(jù)語音信號短時平均幅度,在待測音頻中搜索音頻信號,當(dāng) 搜索到短時平均幅度超過第一幅度閾值的音頻信號時,從當(dāng)前時刻起向前搜索音頻信號, 以及在該時刻后搜索到短時平均幅度首次下降到第一幅度閾值以下的音頻信號時,從當(dāng)前 時刻起向后搜索音頻信號;第二搜索模塊,用于當(dāng)所述第一搜索模塊向前和向后搜索到短時平均幅度降到第 二幅度閾值的音頻信號時,根據(jù)短時平均過零率繼續(xù)沿原搜索方向搜索音頻信號;所述第 二幅度閾值小于所述第一幅度閾值;
語音段確定模塊,用于當(dāng)所述第二搜索模塊向前搜索到短時平均過零率降到過零 率閾值以下的音頻信號時,將當(dāng)前時刻作為語音段的起點(diǎn),當(dāng)向后搜索到短時平均過零率 降到過零率閾值以下的音頻信號時,將當(dāng)前時刻作為語音段的終點(diǎn)。本發(fā)明的上述實(shí)施例,在語音檢測過程中,針對語音段在背景噪聲比較小的時候 用平均能量來識別比較有效,在背景噪聲比較大的時候用平均過零率來識別比較有效的特 點(diǎn),綜合考慮了語音信號的短時平均幅度和短時平均過零率,在基于短時平均幅度檢測方 法的基礎(chǔ)上,再考察語音信號的短時平均過零率,利用幅度和過零率雙重特征來進(jìn)行語音 信號起止點(diǎn)檢測,從而使檢測出的語音段起止點(diǎn)更加準(zhǔn)確。


圖1為本發(fā)明實(shí)施例中音視頻同步檢測的流程示意圖;圖2為本發(fā)明實(shí)施例中IP網(wǎng)絡(luò)可視電話音視頻同步檢測的流程示意圖;圖3為本發(fā)明實(shí)施例中語音識別過程的動態(tài)路徑搜索示意圖;圖4為本發(fā)明實(shí)施例中的音視頻同步評分模型示意圖;圖5為本發(fā)明實(shí)施例中的音頻同步檢測系統(tǒng)的結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例中的語音檢測系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式針對現(xiàn)有技術(shù)存在的上述問題,本發(fā)明實(shí)施例提供了一種音視頻同步檢測方法及 其系統(tǒng),采用模式識別的方式進(jìn)行音視頻同步檢測,即在發(fā)送端和接收端分別對播放的音 視頻文件與該音視頻的參考數(shù)據(jù)進(jìn)行模式識別,分別記錄下與音頻參考數(shù)據(jù)和視頻參考數(shù) 據(jù)相匹配的音頻幀和視頻幀的起始播放時間,得到發(fā)送端和接收端的音視頻播放時間差, 再通過對發(fā)送端和接收端的音視頻播放時間差進(jìn)行比對計(jì)算出時延差,從而得到接收端的 音視頻文件播放時的音視頻同步情況。本發(fā)明實(shí)施例中,在進(jìn)行音視頻同步檢測前,先要準(zhǔn)備音頻參考數(shù)據(jù)和視頻參考 數(shù)據(jù),用于在同步檢測過程中檢測出音視頻文件的音頻參考點(diǎn)和視頻參考點(diǎn),從而根據(jù)音 頻參考點(diǎn)和視頻參考點(diǎn)確定音視頻同步參數(shù)。音頻參考數(shù)據(jù)可以是音頻波形數(shù)據(jù),視頻參 考數(shù)據(jù)可以是視頻圖像數(shù)據(jù),音頻參考數(shù)據(jù)和視頻參考數(shù)據(jù)可預(yù)先存儲在特征庠中。參見圖1,為本發(fā)明實(shí)施例中音視頻同步檢測的流程示意圖。該流程可應(yīng)用于評估 網(wǎng)絡(luò)傳輸對音視頻同步的影響,還可用于評估不同播放端對音視頻同步的影響。如果用于 評估網(wǎng)絡(luò)傳輸對音視頻同步的影響,則該流程中的源端是指音視頻文件的發(fā)送端、目標(biāo)端 是指音視頻文件經(jīng)網(wǎng)絡(luò)傳輸后到達(dá)的接收端;如果用于評估不同播放端對音視頻同步的影 響,則該流程中的源端可以是音視頻同步質(zhì)量較好的音視頻播放端、目標(biāo)端是指需要進(jìn)行 音視頻同步質(zhì)量評估的音視頻播放端。該流程包括如下步驟步驟101、采用音頻模式識別方法找出目標(biāo)端所播放的音視頻文件中,與音頻參考 數(shù)據(jù)匹配的音頻段,并記錄該音頻段的起始播放時間;步驟102、采用視頻模式識別方法找出目標(biāo)端所播放的音視頻文件中,與視頻參考 數(shù)據(jù)匹配的視頻幀,并記錄該視頻幀的起始播放時間;步驟103、根據(jù)記錄的與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間,以及與視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間,確定出音視頻的播放時間差;步驟104、根據(jù)確定出的音視頻播放時間差,以及該音視頻文件在源端播放時與音 頻參考數(shù)據(jù)匹配的音頻段、與視頻參考數(shù)據(jù)匹配的視頻幀的音視頻播放時間差,確定出該 目標(biāo)端播放該音視頻文件的音視頻同步情況,如,與源端的音視頻同步時延相比,目標(biāo)端的 音視頻的同步時延的變化量(如在目標(biāo)端音頻超前或滯后視頻的時間長度與源端相比的 時間長度的變化情況)或程度,并可進(jìn)一步將音視頻同步情況映射為對應(yīng)的音視頻同步質(zhì) 量等級。上述流程的步驟101和步驟102中,所記錄的時間可以是目標(biāo)端當(dāng)前的系統(tǒng)時間, 也可以是相對于該音視頻文件播放起始點(diǎn)的時間。上述流程中的步驟101和步驟102在時 序上沒有嚴(yán)格要求,即,該兩步驟可以順序上交換,也可以并行執(zhí)行。通常,音頻參考數(shù)據(jù)和視頻參考數(shù)據(jù)是一一對應(yīng)的,而且為了使同步檢測更為準(zhǔn) 確,音頻參考數(shù)據(jù)和視頻參考數(shù)據(jù)通常為多對。針對多對音頻參考數(shù)據(jù)和視頻參考數(shù)據(jù)的 情況,圖1所示流程的步驟103所確定出的播放時間差也是與音頻參考數(shù)據(jù)和視頻參考數(shù) 據(jù)對一一對應(yīng)的,即,針對一音頻參考數(shù)據(jù)確定出與其匹配的音頻段的起始播放時間,針對 與該音頻參考數(shù)據(jù)所對應(yīng)的視頻參考數(shù)據(jù)確定出與其匹配的視頻幀的起始播放時間,兩者 的時間差即為與該音頻參考數(shù)據(jù)和視頻參考數(shù)據(jù)對所對應(yīng)的音視頻播放時間差;同理,可 以得到步驟104中,音視頻文件在源端播放時與音頻參考數(shù)據(jù)匹配的音頻段、與視頻參考 數(shù)據(jù)匹配的視頻幀的音視頻播放時間差??深A(yù)先在發(fā)送端以上述方式得到該同步檢測用的音視頻文件的音視頻時間差,并 在后續(xù)每次使用該音視頻文件進(jìn)行音視頻同步檢測時,直接使用該預(yù)先檢測出的發(fā)送端音 視頻時間差與接收端的音視頻時間差進(jìn)行比較,從而確定出該音視頻文件經(jīng)傳輸后的音視 頻同步情況。通常情況下,為了準(zhǔn)確檢測出音視頻同步情況,音視頻同步檢測用的音頻參考數(shù) 據(jù)以及視頻參考數(shù)據(jù)應(yīng)具有較為明顯的便于識別以及便于進(jìn)行模式匹配的特征,音視頻同 步檢測用的音視頻文件中則包括與音頻參考數(shù)據(jù)匹配的音頻段以及與視頻參考數(shù)據(jù)匹配 的視頻幀。較佳地,可使音視頻同步檢測用的視頻文件中,與音頻參考數(shù)據(jù)匹配的音頻段的 起始播放時間,以及與對應(yīng)視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間,在采樣點(diǎn)意義上 相同,即音視頻時間差為0。在這種情況下,圖1所示流程的步驟104中,由于音視頻文件在 源端播放時的音視頻播放時間差為0,則可以直接根據(jù)步驟103所確定出的音視頻播放時 間差,定出該目標(biāo)端播放該音視頻文件的音視頻同步情況。以IP網(wǎng)絡(luò)可視電話音視頻同步檢測為例,作為同步檢測用的音視頻文件,在音頻 方面包括數(shù)字1、2、3、4、5的發(fā)音,在視頻方面包括純色背景前顯示的5種不同人體手勢的 畫面,并且播放過程中每出現(xiàn)一個數(shù)字的發(fā)音時,畫面上顯示對應(yīng)的一種手勢;音頻參考數(shù) 據(jù)為數(shù)字1、2、3、4、5中每個數(shù)字發(fā)音的音頻波形數(shù)據(jù),存儲在音頻特征庫中;視頻參考數(shù) 據(jù)為純色背景下的5種人體手勢中每個手勢的視頻圖像數(shù)據(jù),存儲在視頻特征庫中;該音 視頻文件在發(fā)送端播放時,各數(shù)字發(fā)音與相應(yīng)的手勢畫面的同步時間差是已知的。在網(wǎng)絡(luò) 傳輸過程中,該音視頻文件中的音頻和視頻分別傳輸,在接收端形成WAV音頻文件和AVI視 頻文件。檢測該音視頻文件在接收端的音視頻同步情況的過程,可如圖2所示,包括如下步 驟
獲取音視頻接收端接收到的音視頻文件中的WAV音頻文件(步驟201),根據(jù)音頻 信號確定其中的各語音段的起止點(diǎn)以查找出語音段(步驟20 ,采用音頻模式識別方法, 將各語音段與音頻特征庫中各數(shù)字發(fā)音的語音數(shù)據(jù)進(jìn)行比較,分別確定出各語音段中數(shù)字 1、2、3、4、5發(fā)音的語音段(步驟20 ,并記錄這些語音段的起止播放時間,從而在音視頻接 收端可記錄至少5個音頻段的時間(如WAV音頻文件中的數(shù)字讀音有重復(fù)則相應(yīng)可記錄更 多的時間)(步驟204);獲取音視頻接收端接收到的音視頻文件中的AVI視頻文件(步驟205),提取AVI 視頻文件中的每幀圖像(步驟206),采用視頻模式識別方法,將各視頻幀圖像與視頻特征 庫中各種手勢的圖像數(shù)據(jù)進(jìn)行比較,分別確定出其中各種手勢的視頻幀,通常只取第一個 識別出來的視頻幀(步驟207),并記錄這些視頻幀的起始播放時間,從而在音視頻接收端 記錄至少5個視頻幀的時間(如AVI視頻文件中的手勢畫面有重復(fù)則相應(yīng)可記錄更多的時 間)(步驟208);將記錄的數(shù)字1發(fā)音的起始播放時間與記錄的數(shù)字1對應(yīng)的手勢的視頻幀起始播 放時間相減,得到數(shù)字1對應(yīng)的音視頻播放時間差(所記錄的時間都是以接收端的系統(tǒng)時 間為基準(zhǔn)),依次類推,分別得到其他數(shù)字對應(yīng)的音視頻播放時間差(步驟209);將步驟209所得到的音視頻播放時間差,與已知的該音視頻文件在發(fā)送端的播放 時間差進(jìn)行比較,確定出相對于發(fā)送端該音視頻文件在接收端的音視頻時延O10);根據(jù)步驟210的結(jié)果,確定出對應(yīng)的音視頻同步質(zhì)量等級或MOS分值(步驟211)。本發(fā)明實(shí)施例中在音頻參考數(shù)據(jù)的設(shè)置方面,考慮到人的主觀感受對音頻的起始 點(diǎn)(從無聲到有聲)和終止點(diǎn)(從有聲到無聲)與圖像內(nèi)容的不同步比較敏感,較佳地,將 音頻參考選取在語音段(如數(shù)字1-5發(fā)音的語音段),因此,在確定與音頻參考數(shù)據(jù)匹配的 音頻段時,首先要檢測出該音視頻文件的音頻波形中各語音段的起止點(diǎn)位置,然后將確定 出的語音段與音頻參考數(shù)據(jù)進(jìn)行音頻模式識別。為檢測出音頻文件中的語音段,本發(fā)明實(shí)施例可采用傳統(tǒng)的基于短時能量或短時 平均幅度的語音段波形檢測方法。傳統(tǒng)的基于短時能量或短時平均幅度的語音段波形檢 測方法本質(zhì)上是一種單門限的檢測方法,為了得到一種比傳統(tǒng)方法適應(yīng)性更強(qiáng),提取的音 頻時間信息更為準(zhǔn)確的語音端點(diǎn)檢測方法,本發(fā)明實(shí)施還對傳統(tǒng)的語音檢測方法進(jìn)行了改 進(jìn),并采用改進(jìn)后的語音檢測方法進(jìn)行語音檢測。改進(jìn)后的語音檢測方法,針對語音段在背 景噪聲比較小的時候用平均能量來識別比較有效,在背景噪聲比較大的時候用平均過零率 來識別比較有效的特點(diǎn),綜合考慮了語音信號的短時平均幅度和短時平均過零率,在基于 短時平均幅度檢測方法的基礎(chǔ)上,再考察語音信號的短時平均過零率,利用幅度和過零率 雙重特征來進(jìn)行語音信號起止點(diǎn)檢測。能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語音的各種短時參數(shù)具有不同的概率 密度函數(shù)以及相鄰的若干幀語音應(yīng)具有一致的語音特性,即它們不會在濁音、清音、無聲之 間發(fā)生突變。通常,語音信號濁音的短時平均幅度最大,無聲的短時平均幅度最??;清音的 短時平均過零率最大,無聲居中,濁音的短時平均過零率最小。本發(fā)明實(shí)施例所采用的語音檢測方法中,首先根據(jù)經(jīng)驗(yàn)值確定兩個幅度門限參數(shù) MH和ML (MH > ML),以及一個短時過零率門限值Z0。MH的值應(yīng)當(dāng)設(shè)定得比較高,使得當(dāng)一 幀語音信號的短時平均幅度M值超過MH時,就能夠較有把握地確定出該幀語音信號不是無聲并有相當(dāng)大的可能性是濁音。當(dāng)語音信號的短時平均幅度M從大減小到ML時,采用短時 平均過零率繼續(xù)進(jìn)行判決,當(dāng)語音信號的短時平均過零率低于門限值ZO時,可確定其為語 音段的端點(diǎn)(起點(diǎn)或終點(diǎn))??梢罁?jù)大量語音樣本進(jìn)行短時平均幅度和短時平均過零率的統(tǒng)計(jì)分析,并結(jié)合實(shí) 際樣本的短時平均幅度來確定幅度門限值MH和ML。根據(jù)語音樣本確定幅度門限MH的過程 為將各語音樣本中的數(shù)據(jù)進(jìn)行加窗分幀。根據(jù)人的生理特點(diǎn)以及大量的數(shù)據(jù)統(tǒng)計(jì)的 出來的結(jié)果,一般將窗長度設(shè)為20ms,步長設(shè)定為窗長的一半,則幀的總量=總采樣點(diǎn)數(shù)/ 步長;根據(jù)以下短時平均幅度的計(jì)算公式計(jì)算單位幀內(nèi)的短時平均幅度
權(quán)利要求
1.一種音視頻同步檢測方法,其特征在于,包括如下步驟確定目標(biāo)端所播放的音視頻文件中,與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間, 以及與視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間;根據(jù)所述與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間,以及所述與視頻參考數(shù)據(jù) 匹配的視頻幀的起始播放時間,確定出所述音視頻文件在目標(biāo)端播放時的音視頻播放時間 差;獲取所述音視頻文件在源端播放時的音視頻播放時間差,根據(jù)所述音視頻文件在源端 和目標(biāo)端播放時的音視頻播放時間差,確定出所述音視頻文件在所述目標(biāo)端播放時的音視 頻同步情況。
2.如權(quán)利要求1所述的方法,其特征在于,獲取所述音視頻文件在源端播放時的音視 頻播放時間差,包括確定源端所播放的音視頻文件中,與所述音頻參考數(shù)據(jù)匹配的音頻段的起始播放時 間,以及與所述視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間;根據(jù)所述與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間,以及所述與視頻參考數(shù)據(jù)匹 配的視頻幀的起始播放時間,確定出所述音視頻文件在源端播放時的音視頻播放時間差。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述音頻參考數(shù)據(jù)為語音數(shù)據(jù);確定與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間的過程,包括檢測出所播放的音視頻文件中包含的語音段及其起止播放時間;通過將檢測出的語音段與所述音頻參考數(shù)據(jù)進(jìn)行語音識別處理,確定出與所述音頻參 考數(shù)據(jù)匹配的語音段。
4.如權(quán)利要求3所述的方法,其特征在于,確定所播放的音視頻文件中包含的語音段 及其起止播放時間的過程,包括根據(jù)語音信號短時平均幅度在所播放的音視頻文件中搜索音頻信號,當(dāng)搜索到短時平 均幅度超過第一幅度閾值的音頻信號時,從當(dāng)前時刻起向前搜索音頻信號,以及在該時刻 后搜索到短時平均幅度首次下降到第一幅度閾值以下的音頻信號時,從當(dāng)前時刻起向后搜 索音頻信號;當(dāng)向前和向后搜索到短時平均幅度降到第二幅度閾值的音頻信號時,根據(jù)短時平均過 零率繼續(xù)沿原搜索方向搜索音頻信號;所述第二幅度閾值小于所述第一幅度閾值;當(dāng)向前搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng)前時刻作為語 音段的起點(diǎn),當(dāng)向后搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng)前時 刻作為語音段的終點(diǎn)。
5.如權(quán)利要求4所述的方法,其特征在于,所述第一幅度閾值、第二幅度閾值和過零率 閾值根據(jù)對語音樣本數(shù)據(jù)中音頻信號的短時平均幅度分布和短時平均過零率分布來確定, 其中,短時平均過零率在第一幅度閾值以上的音頻信號是語音信號,短時平均幅度在第二 幅度閾值以下的語音信號中,短時平均過零率低于過零率閾值的音頻信號不是語音信號。
6.如權(quán)利要求3所述的方法,其特征在于,確定與所述音頻參考數(shù)據(jù)匹配的語音段的 過程,包括根據(jù)各語音段音頻信號的特征矢量,以及所述語音參考數(shù)據(jù)的特征矢量,通過計(jì)算各 語音段與所述語音參考數(shù)據(jù)的空間距離確定彼此間的相似度;根據(jù)確定出的相似度,取其中與所述語音參考數(shù)據(jù)最相似的語音段,作為與所述音頻 參考數(shù)據(jù)匹配的語音段。
7.如權(quán)利要求6所述的方法,其特征在于,當(dāng)語音段的音頻幀數(shù)與音頻參考數(shù)據(jù)的音 頻幀數(shù)不相等時,計(jì)算語音段與所述語音參考數(shù)據(jù)的距離的過程,具體為將所述語音段的各音頻幀幀號映射到二維直角坐標(biāo)系中的橫軸上,將音頻參考數(shù)據(jù)各 音頻幀幀號映射到該坐標(biāo)系的縱坐標(biāo)上,沿所述坐標(biāo)系的左下角到右上角方向上確定出一 條路徑;根據(jù)所述路徑經(jīng)過的坐標(biāo)點(diǎn),確定出與所述語音段中的每個幀號對應(yīng)的音頻參考 數(shù)據(jù)的幀號;根據(jù)確定出的幀號的對應(yīng)關(guān)系,利用音頻信號的特征矢量,計(jì)算具有對應(yīng)關(guān)系的兩幀 音頻信號的失真度,根據(jù)計(jì)算出的失真度,確定出所述語音段與所述音頻參考數(shù)據(jù)之間的 空間距離。
8.如權(quán)利要求7所述的方法,其特征在于,沿所述坐標(biāo)系的左下角到右上角方向上確 定出的所述路徑,在每個縱坐標(biāo)和橫坐標(biāo)所標(biāo)識的幀號的交匯點(diǎn)處的斜率,不超過第一斜 率閾值、不低于第二斜率閾值,所述第一斜率閾值大于第二斜率閾值。
9.如權(quán)利要求1或2所述的方法,其特征在于,確定與視頻參考數(shù)據(jù)匹配的視頻幀的起 始播放時間的過程,包括提取出所播放的音視頻文件中包含的視頻幀;通過將提取出的視頻幀與所述視頻參考數(shù)據(jù)進(jìn)行圖像識別處理,確定出與所述視頻參 考數(shù)據(jù)匹配的視頻幀及其起始播放時間。
10.如權(quán)利要求1所述的方法,其特征在于,確定出所述音視頻文件的音視頻同步情 況,包括確定出所述音視頻文件在目標(biāo)端播放時相對于在源端播放時所產(chǎn)生的音視頻時延變 化量;根據(jù)確定出的音視頻時延變化量,確定出對應(yīng)的音視頻同步質(zhì)量等級或分?jǐn)?shù)。
11.一種音視頻同步檢測系統(tǒng),其特征在于,包括音頻識別模塊,用于確定目標(biāo)端所播放的音視頻文件中,與音頻參考數(shù)據(jù)匹配的音頻 段的起始播放時間;視頻識別模塊,用于確定目標(biāo)端所播放的音視頻文件中,與視頻參考數(shù)據(jù)匹配的視頻 幀的起始播放時間;時間差確定模塊,用于根據(jù)所述音頻識別模塊確定出的與音頻參考數(shù)據(jù)匹配的音頻段 的起始播放時間,以及所述視頻識別模塊確定出的與視頻參考數(shù)據(jù)匹配的視頻幀的起始播 放時間,確定出所述音視頻文件在目標(biāo)端播放時的音視頻播放時間差;同步檢測模塊,用于獲取所述音視頻文件在源端播放時的音視頻播放時間差,根據(jù)獲 取到的所述音視頻播放時間差以及所述時間差確定模塊確定出的音視頻播放時間差,確定 出所述音視頻文件在所述目標(biāo)端播放時的音視頻同步情況。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述同步檢測模塊獲取所述音視頻文件 在源端播放時的音視頻播放時間差時,確定源端所播放的音視頻文件中,與所述音頻參考 數(shù)據(jù)匹配的音頻段的起始播放時間,以及與所述視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時 間;然后,根據(jù)源端所播放的音視頻文件中,所述與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間,以及所述與視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間,確定出所述音視頻文件在 源端播放時的音視頻播放時間差。
13.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述音頻參考數(shù)據(jù)為語音數(shù)據(jù);所述音頻識別模塊或所述同步檢測模塊確定與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間的過程,包括檢測出所播放的音視頻文件中包含的語音段及其起止播放時間;通過將檢測出的語音段與所述音頻參考數(shù)據(jù)進(jìn)行語音識別處理,確定出與所述音頻參 考數(shù)據(jù)匹配的語音段。
14.如權(quán)利要求13所述的系統(tǒng),其特征在于,所述音頻識別模塊或所述同步檢測模塊 確定所播放的音視頻文件中包含的語音段及其起止播放時間的過程,包括根據(jù)語音信號短時平均幅度在所播放的音視頻文件中搜索音頻信號,當(dāng)搜索到短時平 均幅度超過第一幅度閾值的音頻信號時,從當(dāng)前時刻起向前搜索音頻信號,以及在該時刻 后搜索到短時平均幅度首次下降到第一幅度閾值以下的音頻信號時,從當(dāng)前時刻起向后搜 索音頻信號;當(dāng)向前和向后搜索到短時平均幅度降到第二幅度閾值的音頻信號時,根據(jù)短時平均過 零率繼續(xù)沿原搜索方向搜索音頻信號;所述第二幅度閾值小于所述第一幅度閾值;當(dāng)向前搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng)前時刻作為語 音段的起點(diǎn),當(dāng)向后搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng)前時 刻作為語音段的終點(diǎn)。
15.如權(quán)利要求13所述的系統(tǒng),其特征在于,所述音頻識別模塊確定與所述音頻參考 數(shù)據(jù)匹配的語音段的過程,包括根據(jù)各語音段音頻信號的特征矢量,以及所述語音參考數(shù)據(jù)的特征矢量,通過計(jì)算各 語音段與所述語音參考數(shù)據(jù)的空間距離確定彼此間的相似度;根據(jù)確定出的相似度,取其中與所述語音參考數(shù)據(jù)最相似的語音段,作為與所述音頻 參考數(shù)據(jù)匹配的語音段。
16.如權(quán)利要求15所述的系統(tǒng),其特征在于,當(dāng)語音段的音頻幀數(shù)與音頻參考數(shù)據(jù)的 音頻幀數(shù)不相等時,所述音頻識別模塊計(jì)算語音段與所述語音參考數(shù)據(jù)的距離的過程,具 體為將所述語音段的各音頻幀幀號映射到二維直角坐標(biāo)系中的橫軸上,將音頻參考數(shù)據(jù)各 音頻幀幀號映射到該坐標(biāo)系的縱坐標(biāo)上,沿所述坐標(biāo)系的左下角到右上角方向上確定出一 條路徑;根據(jù)所述路徑經(jīng)過的坐標(biāo)點(diǎn),確定出與所述語音段中的每個幀號對應(yīng)的音頻參考 數(shù)據(jù)的幀號;根據(jù)確定出的幀號的對應(yīng)關(guān)系,利用音頻信號的特征矢量,計(jì)算具有對應(yīng)關(guān)系的兩幀 音頻信號的失真度,根據(jù)計(jì)算出的失真度,確定出所述語音段與所述音頻參考數(shù)據(jù)之間的 空間距離。
17.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述視頻識別模塊確定與視頻參考數(shù)據(jù) 匹配的視頻幀的起始播放時間的過程,包括提取出所播放的音視頻文件中包含的視頻幀;通過將提取出的視頻幀與所述視頻參考數(shù)據(jù)進(jìn)行圖像識別處理,確定出與所述視頻參考數(shù)據(jù)匹配的視頻幀及其起始播放時間。
18.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述同步檢測模塊確定出所述音視頻文 件的音視頻同步情況,包括確定出所述音視頻文件在目標(biāo)端播放時相對于在源端播放時所產(chǎn)生的音視頻時延變 化量;根據(jù)確定出的音視頻時延變化量,確定出對應(yīng)的音視頻同步質(zhì)量等級或分?jǐn)?shù)。
19.一種語音檢測方法,其特征在于,包括如下步驟根據(jù)語音信號短時平均幅度,在待測音頻中搜索音頻信號,當(dāng)搜索到短時平均幅度超 過第一幅度閾值的音頻信號時,從當(dāng)前時刻起向前搜索音頻信號,以及在該時刻后搜索到 短時平均幅度首次下降到第一幅度閾值以下的音頻信號時,從當(dāng)前時刻起向后搜索音頻信 號;當(dāng)向前和向后搜索到短時平均幅度降到第二幅度閾值的音頻信號時,根據(jù)短時平均過 零率繼續(xù)沿原搜索方向搜索音頻信號;所述第二幅度閾值小于所述第一幅度閾值;當(dāng)向前搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng)前時刻作為語 音段的起點(diǎn),當(dāng)向后搜索到短時平均過零率降到過零率閾值以下的音頻信號時,將當(dāng)前時 刻作為語音段的終點(diǎn)。
20.如權(quán)利要求19所述的方法,其特征在于,所述第一幅度閾值、第二幅度閾值和過 零率閾值根據(jù)對語音樣本數(shù)據(jù)中音頻信號的短時平均幅度分布和短時平均過零率分布來 確定,其中,短時平均過零率在第一幅度閾值以上的音頻信號是語音信號,短時平均幅度在 第二幅度閾值以下的語音信號中,短時平均過零率低于過零率閾值的音頻信號不是語音信 號。
21.一種語音檢測系統(tǒng),其特征在于,包括第一搜索模塊,用于根據(jù)語音信號短時平均幅度,在待測音頻中搜索音頻信號,當(dāng)搜索 到短時平均幅度超過第一幅度閾值的音頻信號時,從當(dāng)前時刻起向前搜索音頻信號,以及 在該時刻后搜索到短時平均幅度首次下降到第一幅度閾值以下的音頻信號時,從當(dāng)前時刻 起向后搜索音頻信號;第二搜索模塊,用于當(dāng)所述第一搜索模塊向前和向后搜索到短時平均幅度降到第二幅 度閾值的音頻信號時,根據(jù)短時平均過零率繼續(xù)沿原搜索方向搜索音頻信號;所述第二幅 度閾值小于所述第一幅度閾值;語音段確定模塊,用于當(dāng)所述第二搜索模塊向前搜索到短時平均過零率降到過零率閾 值以下的音頻信號時,將當(dāng)前時刻作為語音段的起點(diǎn),當(dāng)向后搜索到短時平均過零率降到 過零率閾值以下的音頻信號時,將當(dāng)前時刻作為語音段的終點(diǎn)。
22.如權(quán)利要求21所述的系統(tǒng),其特征在于,還包括閾值設(shè)置模塊,用于根據(jù)對語音樣本數(shù)據(jù)中音頻信號的短時平均幅度分布和短時平均 過零率分布來確定所述第一幅度閾值、第二幅度閾值和過零率閾值,其中,短時平均過零率 在第一幅度閾值以上的音頻信號是語音信號,短時平均幅度在第二幅度閾值以下的語音信 號中,短時平均過零率低于過零率閾值的音頻信號不是語音信號。
全文摘要
本發(fā)明公開了一種音視頻同步檢測方法及其系統(tǒng),以及一種語音檢測方法及其系統(tǒng),該音視頻同步檢測方法包括確定目標(biāo)端所播放的音視頻文件中,與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間,以及與視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間;根據(jù)所述與音頻參考數(shù)據(jù)匹配的音頻段的起始播放時間,以及所述與視頻參考數(shù)據(jù)匹配的視頻幀的起始播放時間,確定出所述音視頻文件在目標(biāo)端播放時的音視頻播放時間差;獲取所述音視頻文件在源端播放時的音視頻播放時間差,根據(jù)所述音視頻文件在源端和目標(biāo)端播放時的音視頻播放時間差,確定出所述音視頻文件在所述目標(biāo)端播放時的音視頻同步情況。采用本發(fā)明可提高音視頻同步檢測的準(zhǔn)確度。
文檔編號H04N21/8547GK102056026SQ20091023741
公開日2011年5月11日 申請日期2009年11月6日 優(yōu)先權(quán)日2009年11月6日
發(fā)明者侯優(yōu)優(yōu), 常靜, 方力, 沈亮, 阮征, 陳欣偉, 高屹 申請人:中國移動通信集團(tuán)設(shè)計(jì)院有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
望奎县| 新余市| 饶平县| 尤溪县| 绥滨县| 辉南县| 方城县| 瓮安县| 高邑县| 武安市| 宿松县| 万年县| 浏阳市| 彭山县| 灵丘县| 闵行区| 项城市| 湖州市| 盘山县| 绥德县| 神农架林区| 兰考县| 额济纳旗| 涞水县| 东安县| 开远市| 顺昌县| 铅山县| 微山县| 淳化县| 神木县| 翁源县| 衡阳县| 象山县| 冀州市| 民丰县| 万全县| 紫金县| 汽车| 太仆寺旗| 深州市|