欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于GMM模型的語音激活檢測方法與流程

文檔序號:11387969閱讀:466來源:國知局
一種基于GMM模型的語音激活檢測方法與流程

本發(fā)明屬于音頻處理技術(shù)領(lǐng)域,尤其涉及voip通訊過程的音頻處理技術(shù)。



背景技術(shù):

隨著voip及視頻會議技術(shù)的不斷發(fā)展創(chuàng)新,voip、視頻會議已成為公司日常工作溝通和交流的重要手段,因此長時間的視頻會議,語音會議司空見慣。在會議間隙不免可能會有長時間的資料整理,錄入,調(diào)試等工作,這段時間沒有人說話,但是由于與會者離voip終端較近,會導(dǎo)致對端聽到鍵盤敲擊聲,紙張翻閱,或者其他的的較大的噪聲,對對端造成干擾。為了避免上述尷尬的發(fā)生,本發(fā)明提出一種語音激活檢測方法,其對語音通話中特定噪聲檢測并做相應(yīng)處理,當(dāng)有人重新說話時,則開啟正常通話模式。

現(xiàn)有的語音激活檢測方法,大多只能區(qū)別比較小的背景噪音與語音,對于鍵盤敲擊等特定的較大的噪聲,則無法判別。本發(fā)明提出基于對語音信號和特定噪聲分別用gmm(gaussianmixturemodel,高斯混合模型)訓(xùn)練模型并用于檢測區(qū)別語音信號與特定噪聲的語音激活檢測方法。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提供一種基于gmm模型的語音激活檢測方法,為了實現(xiàn)在voip通話過程中在無人說話時對特定的噪聲信號進(jìn)行噪聲處理,以減少通話間隙長時間無人說話時,一些噪聲對對端與會者造成干擾。

為了實現(xiàn)上述發(fā)明目的,本發(fā)明一種基于gmm模型的語音激活檢測方法,主要包括以下操作:數(shù)據(jù)訓(xùn)練:建立訓(xùn)練樣本庫和用em核心算法分別訓(xùn)練語音信號gmm模型、噪聲信號gmm模型;數(shù)據(jù)測試:對實時通話進(jìn)行檢測,包括:分幀處理、特征提取、概率計算;數(shù)據(jù)判斷:根據(jù)語音信號概率及噪聲信號概率判斷測試幀信號為語音信號還是噪聲信號。

優(yōu)選的,該數(shù)據(jù)訓(xùn)練進(jìn)一步包括:步驟1-a:收集語音信號樣本集和噪聲信號樣本集,對語音信號樣本集和噪聲信號樣本集中的音頻文件分別進(jìn)行分幀,語音幀信號集記為,噪聲幀信號集記為;步驟1-b:提取用于gmm訓(xùn)練的特征集,即對語音幀信號集提取的語音特征集記為,對噪聲幀信號集提取的噪聲特征集記為;步驟1-c:對語音特征集、噪聲特征集進(jìn)行g(shù)mm訓(xùn)練,分別得到:語音模型gmm參數(shù)集、噪聲模型gmm參數(shù)集。

優(yōu)選的,該數(shù)據(jù)測試包括:步驟2-a:對測試信號分幀處理;步驟2-b:對測試信號提取用于gmm測試的特征集,記為測試特征集;步驟2-c:分別計算語音信號概率和噪聲信號概率。

優(yōu)選的,語音信號概率是根據(jù)測試特征集和語音模型gmm參數(shù)集計算所得;噪聲信號概率是根據(jù)測試特征集和噪聲模型gmm參數(shù)集計算所得。

優(yōu)選的,語音幀信號集包含10ms長度的幀語音信號;噪聲幀信號集包含10ms長度的幀噪聲信號,為語音信號幀總數(shù)以及噪聲信號幀總數(shù)。

優(yōu)選的,語音特征集包括所有語音幀信號提取的特征集集合,是對中的每一幀語音信號提取基音頻率特征和時域特征;噪聲特征集包括所有噪聲幀信號提取的特征集集合,是對中的每一幀噪聲信號提取基音頻率特征和時域特征。

優(yōu)選的,數(shù)據(jù)訓(xùn)練還包括:提取訓(xùn)練特征操作,記為第幀語音信號,其為時域采樣點的集合,記為,其中為10ms一幀信號包含的時域采樣點總數(shù),由基音頻率、過零率、短時能量、歸一化自相關(guān)系數(shù)、第一語音線性預(yù)測系數(shù)這五個特征組成,即,其中,由現(xiàn)有的基音檢測技術(shù),即對自相關(guān)系數(shù)求峰值得到,為第一個lpc(線性預(yù)測編碼)系數(shù),lpc為現(xiàn)有的較為成熟的語音線性預(yù)測編碼技術(shù),其他三個特征的計算公式分別如下:,其中為符號函數(shù),即;

優(yōu)選的,對整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即,每一行對應(yīng)每一幀語音信號的特征集,并對用gmm訓(xùn)練器訓(xùn)練語音信號模型參數(shù);對整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即,每一行對應(yīng)每一幀噪聲信號的特征集,并對用gmm訓(xùn)練器訓(xùn)練噪聲信號模型參數(shù)。

優(yōu)選的,數(shù)據(jù)測試包括:步驟2-a:對測試信號提取基音頻率特征和時域特征,由基音頻率、過零率、短時能量、歸一化自相關(guān)系數(shù)、第一語音線性預(yù)測系數(shù)這五個特征組成,記為;步驟2-b:用多維高斯概率密度計算公式,根據(jù)及訓(xùn)練部分的,計算測試幀信號為語音信號的概率,根據(jù)及訓(xùn)練部分的計算測試幀信號為噪聲信號的概率,其計算公式如下:,

優(yōu)選的,數(shù)據(jù)判斷包括:根據(jù)判別所述測試幀信號為語音信號還是噪聲信號,若則判別為語音信號,否則判別為噪聲信號;對判別為語音信號的幀信號保持正常通話模式,對判別為噪聲信號的幀信號則進(jìn)行相應(yīng)處理。

本發(fā)明提供的方案在會議通話過程中,有效監(jiān)測通話信號為噪聲信號還是語音信號,從而對無效噪聲信號進(jìn)行相應(yīng)處理。

本發(fā)明提供的技術(shù)方案對特定噪聲信號進(jìn)行采集,提取特征集,并用gmm訓(xùn)練特定噪聲模型參數(shù)集,從而用于對實時信號計算其為噪聲信號的概率,對特定噪聲信號的訓(xùn)練,能夠有針對性的處理目標(biāo)噪聲信號,如敲擊聲,腳步聲等。

本發(fā)明提供的技術(shù)方案對語音信號提取特征集,并用gmm訓(xùn)練語音模型參數(shù)集,用于對實時信號計算其為語音信號的概率,從而保證在無人說話的消噪狀態(tài)到有人說話時恢復(fù)正常通話狀態(tài)的準(zhǔn)確切換。

本發(fā)明先用噪聲信號及語音信號預(yù)先訓(xùn)練gmm模型參數(shù),再對實時通話信號進(jìn)行檢測判別其為噪聲信號還是語音信號時對提取的信號特征,根據(jù)預(yù)先訓(xùn)練的gmm模型參數(shù)分別計算其為噪聲的概率還是語音的概率,計算復(fù)雜度低,保證實時性。

附圖說明

圖1為本發(fā)明具體實施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。

圖2為本發(fā)明具體實施例中測試幀信號測試框圖。

具體實施方式

發(fā)明的基本原理:本發(fā)明采用gmm對特定噪聲和語音分別訓(xùn)練模型參數(shù),用于實時檢測voip通話信號為特定噪聲信號還是語音信號,如果為噪聲信號則做相應(yīng)處理,為語音信號則為正常通話狀態(tài)。用于gmm訓(xùn)練和檢測的語音信號的特征集為語音基音頻率特征與時域特征的結(jié)合。

為了更清楚地說明本發(fā)明實例的技術(shù)方案,下面將結(jié)合示例圖對本發(fā)明的具體實施例進(jìn)行詳細(xì)的介紹,下面的描述僅僅是本發(fā)明的一些實施例。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些實施例獲得本發(fā)明的其他實施方式。

本發(fā)明實施例提供了一種對voip終端采集信號判斷其為噪聲還是語音信號并做相應(yīng)處理,從而實現(xiàn)在無人說話時,針對性的處理會議室如敲擊聲,鍵盤聲,腳步聲等噪聲,避免與會者在對端無人說話時,受其噪聲干擾。

本發(fā)明實施例提供的基于gmm對特定噪聲訓(xùn)練模型的語音激活檢測方法分為訓(xùn)練部分和檢測部分。訓(xùn)練部分對特定噪聲信號訓(xùn)練gmm噪聲模型參數(shù)集,對語音信號訓(xùn)練gmm語音模型參數(shù)集。

圖1為本發(fā)明具體實施例中g(shù)mm模型參數(shù)訓(xùn)練框圖。如圖1所示,本發(fā)明的訓(xùn)練部分主要內(nèi)容包括:

步驟s110:收集語音信號樣本集,應(yīng)盡量包含多種語音,多個說話人,多樣化內(nèi)容;收集噪聲信號樣本集,應(yīng)包含需要檢測的會議室特定噪聲如敲擊聲,文件翻閱聲,腳步聲等。

步驟s120:對語音信號樣本集和噪聲信號樣本集中的音頻文件分別進(jìn)行分幀,每一幀幀長固定,對語音幀信號記為,對噪聲幀信號記為

步驟s130:對語音幀信號提取用于gmm訓(xùn)練的特征集,記為,對噪聲幀信號提取用于gmm訓(xùn)練的特征集,記為

其中,為語音特征的集合,包括基音頻率特征,時域特征。

步驟s140:對用gmm訓(xùn)練,得到語音模型gmm參數(shù)集,對用gmm訓(xùn)練,得到噪聲模型gmm參數(shù)集。

圖2為本發(fā)明具體實施例中測試幀信號測試框圖。由該圖所示,本發(fā)明的測試部分主要內(nèi)容包括:

步驟s210:對測試信號分幀處理,該測試幀信號記為。

步驟s220:對提取用于gmm測試的特征集,記為。

其中,包含的語音特征的集合與訓(xùn)練部分步驟s130中的,包含的特征集合一致,即基音頻率特征,時域特征。

步驟s230:根據(jù)及訓(xùn)練部分的計算測試幀信號為語音信號的概率,根據(jù)及訓(xùn)練部分的計算測試幀信號為噪聲信號的概率。

步驟s240:根據(jù)判別測試幀信號為語音信號還是噪聲信號。

步驟s250:根據(jù)步驟s240判決結(jié)果,對判別為語音信號的幀信號保持正常通話模式,對判別為噪聲信號的幀信號則進(jìn)行噪聲處理模式。

此時,訓(xùn)練過程具體實施方案如下所述:

首先是對于訓(xùn)練部分,主要包括建立訓(xùn)練樣本庫和用em核心算法分別訓(xùn)練語音信號gmm模型、噪聲信號gmm模型。

步驟s310:收集語音信號樣本庫。通過網(wǎng)絡(luò)下載及自己錄制獲得一定數(shù)量的語音信號音頻文件,將這些文件用音頻編輯軟件進(jìn)行整理,獲得語音樣本集,其中包含的語音文件為,采樣率,大小均相同。收集噪聲音頻文件,建立噪聲信號樣本集,其中包含的噪聲文件為,主要來源為網(wǎng)絡(luò)下載的部分噪聲音頻文件以及自己錄制會議室容易產(chǎn)生的噪聲,如鍵盤敲擊聲,腳步聲,紙張翻閱聲等噪聲音頻文件。其中,為樣本庫中包含的音頻文件總數(shù),即語音信號樣本庫包含個文件大小相同,采樣率相同的語音音頻文件,噪聲信號樣本庫包含個與語音信號樣本庫中語音文件大小相同,采樣率相同的噪聲音頻文件。

步驟s320:對語音信號樣本集中的所有語音文件以10ms時間長度為一幀進(jìn)行分幀,得到語音幀信號集,包含的都是10ms長度的幀語音信號。對噪聲信號樣本集中的所有噪聲信號文件以10ms時間長度為一幀進(jìn)行分幀,得到噪聲幀信號集,包含的都是10ms長度的幀噪聲信號。其中,為語音信號幀總數(shù)以及噪聲信號幀總數(shù)。

步驟s330:對中的每一幀語音信號提取基音頻率特征和時域特征,組成用于gmm訓(xùn)練的語音特征集,記所有語音幀信號提取的特征集集合為。對中的每一幀噪聲信號提取基音頻率特征和時域特征,組成用于gmm訓(xùn)練的噪聲特征集,記所有噪聲幀信號提取的特征集集合為。

3-a記為第幀語音信號,其為時域采樣點的集合,記為,其中為10ms一幀信號包含的時域采樣點總數(shù)。由基音頻率,過零率,短時能量,歸一化自相關(guān)系數(shù),第一語音線性預(yù)測系數(shù)這五個特征組成。即,。由現(xiàn)有的基音檢測技術(shù),即對自相關(guān)系數(shù)求峰值得到。為第一個lpc(線性預(yù)測編碼)系數(shù),lpc為現(xiàn)有的較為成熟的語音線性預(yù)測編碼技術(shù)。其他三個特征的計算公式如下:

,其中為符號函數(shù),即;

。

3-b對語音幀信號中的每一幀信號,均按照3-a中的步驟提取特征集,從而獲得語音信號特征集集合。同樣,按照3-a中的各特征計算方法和公式,對噪聲信號中的每一幀信號,計算噪聲信號特征集集合。

步驟s340對信號特征集集合用em為核心算法的gmm模型訓(xùn)練,得到語音信號gmm模型參數(shù)集,對噪聲特征集集合用em為核心算法的gmm模型訓(xùn)練,得到噪聲信號gmm模型參數(shù)集

4-a.對整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即,即每一行對應(yīng)每一幀語音信號的特征集;

4-b.對用gmm訓(xùn)練器訓(xùn)練語音信號模型參數(shù)

4-c.對整理為gmm模型訓(xùn)練算法的輸入矩陣形式,即

,每一行對應(yīng)每一幀噪聲信號的特征集;

4-d.對用gmm訓(xùn)練器訓(xùn)練噪聲信號模型參數(shù)。

步驟4-c,4-d中,為高斯混合模型數(shù)。

本發(fā)明的測試部分主要為:

步驟s410:以10ms為一幀長對測試信號時域采樣點進(jìn)行讀取,得到測試幀信號,記為。

步驟s420:對提取基音頻率特征和時域特征,由基音頻率,過零率,短時能量,歸一化自相關(guān)系數(shù),第一語音線性預(yù)測系數(shù)這五個特征組成,記為,。測試幀信號特征提取方法與訓(xùn)練部分步驟3中的提取訓(xùn)練特征的提取方法一致。

步驟s430:用多維高斯概率密度計算公式,根據(jù)及訓(xùn)練部分的,計算測試幀信號為語音信號的概率,根據(jù)及訓(xùn)練部分的計算測試幀信號為噪聲信號的概率。計算公式如下:

步驟s440:根據(jù)判別測試幀信號為語音信號還是噪聲信號,若則判別為語音信號,否則判別為噪聲信號。

步驟s450:根據(jù)步驟s440判決結(jié)果,對判別為語音信號的幀信號保持正常通話模式,對判別為噪聲信號的幀信號則進(jìn)行相應(yīng)處理。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
无为县| 滕州市| 行唐县| 固阳县| 高阳县| 利川市| 灌阳县| 青神县| 曲阳县| 平凉市| 温宿县| 贡嘎县| 应城市| 平顺县| 麟游县| 湘阴县| 越西县| 黎城县| 辉南县| 洞头县| 晋中市| 墨脱县| 久治县| 白玉县| 厦门市| 连江县| 马龙县| 获嘉县| 三都| 河曲县| 师宗县| 永定县| 吉隆县| 景宁| 北海市| 兴国县| 和平区| 奉节县| 珲春市| 宁蒗| 滦平县|