本發(fā)明屬于音頻處理技術(shù)領(lǐng)域,尤其涉及voip通訊過程的音頻處理技術(shù)。
背景技術(shù):
隨著voip及視頻會議技術(shù)的不斷發(fā)展創(chuàng)新,voip、視頻會議已成為公司日常工作溝通和交流的重要手段,因此長時間的視頻會議,語音會議司空見慣。在會議間隙不免可能會有長時間的資料整理,錄入,調(diào)試等工作,這段時間沒有人說話,但是由于與會者離voip終端較近,會導(dǎo)致對端聽到鍵盤敲擊聲,紙張翻閱,或者其他的的較大的噪聲,對對端造成干擾。為了避免上述尷尬的發(fā)生,本發(fā)明提出一種語音激活檢測方法,其對語音通話中特定噪聲檢測并做相應(yīng)處理,當(dāng)有人重新說話時,則開啟正常通話模式。
現(xiàn)有的語音激活檢測方法,大多只能區(qū)別比較小的背景噪音與語音,對于鍵盤敲擊等特定的較大的噪聲,則無法判別。本發(fā)明提出基于對語音信號和特定噪聲分別用gmm(gaussianmixturemodel,高斯混合模型)訓(xùn)練模型并用于檢測區(qū)別語音信號與特定噪聲的語音激活檢測方法。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于gmm模型的語音激活檢測方法,為了實現(xiàn)在voip通話過程中在無人說話時對特定的噪聲信號進(jìn)行噪聲處理,以減少通話間隙長時間無人說話時,一些噪聲對對端與會者造成干擾。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明一種基于gmm模型的語音激活檢測方法,主要包括以下操作:數(shù)據(jù)訓(xùn)練:建立訓(xùn)練樣本庫和用em核心算法分別訓(xùn)練語音信號gmm模型、噪聲信號gmm模型;數(shù)據(jù)測試:對實時通話進(jìn)行檢測,包括:分幀處理、特征提取、概率計算;數(shù)據(jù)判斷:根據(jù)語音信號概率
優(yōu)選的,該數(shù)據(jù)訓(xùn)練進(jìn)一步包括:步驟1-a:收集語音信號樣本集
優(yōu)選的,該數(shù)據(jù)測試包括:步驟2-a:對測試信號
優(yōu)選的,語音信號概率
優(yōu)選的,語音幀信號集
優(yōu)選的,語音特征集
優(yōu)選的,數(shù)據(jù)訓(xùn)練還包括:提取訓(xùn)練特征操作,記
優(yōu)選的,對
優(yōu)選的,數(shù)據(jù)測試包括:步驟2-a:對測試信號
優(yōu)選的,數(shù)據(jù)判斷包括:根據(jù)
本發(fā)明提供的方案在會議通話過程中,有效監(jiān)測通話信號為噪聲信號還是語音信號,從而對無效噪聲信號進(jìn)行相應(yīng)處理。
本發(fā)明提供的技術(shù)方案對特定噪聲信號進(jìn)行采集,提取特征集,并用gmm訓(xùn)練特定噪聲模型參數(shù)集,從而用于對實時信號計算其為噪聲信號的概率,對特定噪聲信號的訓(xùn)練,能夠有針對性的處理目標(biāo)噪聲信號,如敲擊聲,腳步聲等。
本發(fā)明提供的技術(shù)方案對語音信號提取特征集,并用gmm訓(xùn)練語音模型參數(shù)集,用于對實時信號計算其為語音信號的概率,從而保證在無人說話的消噪狀態(tài)到有人說話時恢復(fù)正常通話狀態(tài)的準(zhǔn)確切換。
本發(fā)明先用噪聲信號及語音信號預(yù)先訓(xùn)練gmm模型參數(shù),再對實時通話信號進(jìn)行檢測判別其為噪聲信號還是語音信號時對提取的信號特征,根據(jù)預(yù)先訓(xùn)練的gmm模型參數(shù)分別計算其為噪聲的概率還是語音的概率,計算復(fù)雜度低,保證實時性。
附圖說明
圖1為本發(fā)明具體實施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。
圖2為本發(fā)明具體實施例中測試幀信號測試框圖。
具體實施方式
發(fā)明的基本原理:本發(fā)明采用gmm對特定噪聲和語音分別訓(xùn)練模型參數(shù),用于實時檢測voip通話信號為特定噪聲信號還是語音信號,如果為噪聲信號則做相應(yīng)處理,為語音信號則為正常通話狀態(tài)。用于gmm訓(xùn)練和檢測的語音信號的特征集為語音基音頻率特征與時域特征的結(jié)合。
為了更清楚地說明本發(fā)明實例的技術(shù)方案,下面將結(jié)合示例圖對本發(fā)明的具體實施例進(jìn)行詳細(xì)的介紹,下面的描述僅僅是本發(fā)明的一些實施例。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些實施例獲得本發(fā)明的其他實施方式。
本發(fā)明實施例提供了一種對voip終端采集信號判斷其為噪聲還是語音信號并做相應(yīng)處理,從而實現(xiàn)在無人說話時,針對性的處理會議室如敲擊聲,鍵盤聲,腳步聲等噪聲,避免與會者在對端無人說話時,受其噪聲干擾。
本發(fā)明實施例提供的基于gmm對特定噪聲訓(xùn)練模型的語音激活檢測方法分為訓(xùn)練部分和檢測部分。訓(xùn)練部分對特定噪聲信號訓(xùn)練gmm噪聲模型參數(shù)集,對語音信號訓(xùn)練gmm語音模型參數(shù)集。
圖1為本發(fā)明具體實施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。如圖1所示,本發(fā)明的訓(xùn)練部分主要內(nèi)容包括:
步驟s110:收集語音信號樣本集
步驟s120:對語音信號樣本集
步驟s130:對語音幀信號
其中,
步驟s140:對
圖2為本發(fā)明具體實施例中測試幀信號測試框圖。由該圖所示,本發(fā)明的測試部分主要內(nèi)容包括:
步驟s210:對測試信號分幀處理,該測試幀信號記為
步驟s220:對
其中,
步驟s230:根據(jù)
步驟s240:根據(jù)
步驟s250:根據(jù)步驟s240判決結(jié)果,對判別為語音信號的幀信號保持正常通話模式,對判別為噪聲信號的幀信號則進(jìn)行噪聲處理模式。
此時,訓(xùn)練過程具體實施方案如下所述:
首先是對于訓(xùn)練部分,主要包括建立訓(xùn)練樣本庫和用em核心算法分別訓(xùn)練語音信號gmm模型、噪聲信號gmm模型。
步驟s310:收集語音信號樣本庫。通過網(wǎng)絡(luò)下載及自己錄制獲得一定數(shù)量的語音信號音頻文件,將這些文件用音頻編輯軟件進(jìn)行整理,獲得語音樣本集
步驟s320:對語音信號樣本集
步驟s330:對
3-a記
3-b對語音幀信號
步驟s340對信號特征集集合用em為核心算法的gmm模型訓(xùn)練,得到語音信號gmm模型參數(shù)集
4-a.對
4-b.對
4-c.對
4-d.對
步驟4-c,4-d中
本發(fā)明的測試部分主要為:
步驟s410:以10ms為一幀長對測試信號時域采樣點進(jìn)行讀取,得到測試幀信號,記為
步驟s420:對
步驟s430:用多維高斯概率密度計算公式,根據(jù)
步驟s440:根據(jù)
步驟s450:根據(jù)步驟s440判決結(jié)果,對判別為語音信號的幀信號保持正常通話模式,對判別為噪聲信號的幀信號則進(jìn)行相應(yīng)處理。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。