爆音檢測(cè)方法和裝置制造方法
【專利摘要】本申請(qǐng)?zhí)峁┝吮魴z測(cè)方法和裝置。該方法包括:將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀,對(duì)每一語(yǔ)音幀進(jìn)行快速傅里葉變換處理,計(jì)算該語(yǔ)音幀在完成快速傅里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值,利用每一語(yǔ)音幀在每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音幀的全頻段平均能量值,計(jì)算每一語(yǔ)音幀的低頻段平均能量值,對(duì)所有語(yǔ)音幀的低頻段平均能量值進(jìn)行聚類分析并根據(jù)聚類結(jié)果確定強(qiáng)能量數(shù)值范圍,檢測(cè)各個(gè)語(yǔ)音幀的全頻段平均能量值是否在強(qiáng)能量數(shù)值范圍,當(dāng)至少一個(gè)語(yǔ)音幀的全頻段平均能量值在強(qiáng)能量數(shù)值范圍時(shí)確定待檢測(cè)的一段語(yǔ)音信號(hào)為爆音,反之確定待檢測(cè)的一段語(yǔ)音信號(hào)不為爆音,這能夠在一段語(yǔ)音信號(hào)中自動(dòng)檢測(cè)爆音,節(jié)省人力資源。
【專利說明】爆音檢測(cè)方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及語(yǔ)音檢測(cè),特別涉及爆音檢測(cè)方法和裝置。
【背景技術(shù)】
[0002] 下面為使本申請(qǐng)容易理解,先將本申請(qǐng)涉及的技術(shù)術(shù)語(yǔ)進(jìn)行描述:
[0003] 爆音:很刺耳的一種聲音,從語(yǔ)譜圖上看就是各頻段能量值都很高的一段語(yǔ)音。
[0004] 語(yǔ)譜圖:橫軸代表語(yǔ)音的時(shí)間,縱軸代表頻率,用顏色代表每一時(shí)間點(diǎn)每一頻率點(diǎn) 的能量值,能量值越大顏色越深,能量值越小顏色越淺。
[0005] 以上對(duì)本申請(qǐng)涉及的技術(shù)術(shù)語(yǔ)進(jìn)行了描述。
[0006] 目前,在語(yǔ)音中檢測(cè)爆音大多數(shù)是人工完成的,主要是由人耳細(xì)聽大量語(yǔ)音信號(hào), 從而找到爆音。但是,這種方法浪費(fèi)大量的人力,且有時(shí)檢測(cè)出來(lái)的爆音位置不是很準(zhǔn)確。
【發(fā)明內(nèi)容】
[0007] 本申請(qǐng)?zhí)峁┝吮魴z測(cè)方法和裝置,以實(shí)現(xiàn)自動(dòng)檢測(cè)爆音。
[0008] 本申請(qǐng)?zhí)峁┑募夹g(shù)方案包括:
[0009] 一種爆音檢測(cè)方法,包括:
[0010] 將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀;
[0011] 對(duì)每一語(yǔ)音幀進(jìn)行快速傅里葉變換處理,計(jì)算該語(yǔ)音幀在完成快速傅里葉變換處 理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值;
[0012] 利用每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音幀的全頻段平 均能量值;
[0013] 計(jì)算每一語(yǔ)音幀的低頻段平均能量值,并對(duì)所有語(yǔ)音幀的低頻段平均能量值進(jìn)行 聚類分析,根據(jù)聚類結(jié)果確定強(qiáng)能量數(shù)值范圍;
[0014] 檢測(cè)每一語(yǔ)音幀的全頻段平均能量值是否在所述強(qiáng)能量數(shù)值范圍,當(dāng)檢測(cè)出至少 一個(gè)語(yǔ)音幀的全頻段平均能量值在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)為 爆音,當(dāng)檢測(cè)出所有語(yǔ)音幀的全頻段平均能量值均不在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢 測(cè)的一段語(yǔ)音信號(hào)不為爆音。
[0015] 一種爆音檢測(cè)裝置,包括:
[0016] 劃分單元,用于將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀;
[0017] 處理單元,用于對(duì)每一語(yǔ)音幀進(jìn)行快速傅里葉變換處理,計(jì)算該語(yǔ)音幀在完成快 速傅里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值;
[0018] 計(jì)算單元,用于利用每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音 幀的全頻段平均能量值,并計(jì)算每一語(yǔ)音幀的低頻段平均能量值E1 ;
[0019] 聚類單元,用于對(duì)所有語(yǔ)音幀的低頻段平均能量值進(jìn)行聚類分析,根據(jù)聚類結(jié)果 確定強(qiáng)能量數(shù)值范圍;
[0020] 檢測(cè)單元,用于檢測(cè)每一語(yǔ)音幀的全頻段平均能量值是否在所述強(qiáng)能量數(shù)值范 圍,當(dāng)檢測(cè)出至少一個(gè)語(yǔ)音幀的全頻段平均能量值在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢測(cè) 的一段語(yǔ)音信號(hào)為爆音,當(dāng)檢測(cè)出所有語(yǔ)音幀的全頻段平均能量值均不在所述強(qiáng)能量數(shù)值 范圍時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)不為爆音。
[0021] 由以上技術(shù)方案可以看出,本發(fā)明中,通過各個(gè)語(yǔ)音幀的全頻段平均能量值大小 來(lái)刻畫待檢測(cè)語(yǔ)音信號(hào)在整個(gè)全頻段的強(qiáng)度,根據(jù)各個(gè)語(yǔ)音幀的全頻段平均能量值是否在 強(qiáng)能量值范圍來(lái)檢查待檢測(cè)的語(yǔ)音信號(hào)是否有爆音,即實(shí)現(xiàn)了自動(dòng)在語(yǔ)音信號(hào)中動(dòng)態(tài)檢測(cè) 爆音的目的,無(wú)需像現(xiàn)有技術(shù)那樣通過人耳測(cè)聽從語(yǔ)音信號(hào)中檢測(cè)爆音,相比現(xiàn)有人耳測(cè) 聽節(jié)省人力資源。
[0022] 進(jìn)一步地,由于爆音本身在各個(gè)頻段的語(yǔ)音信號(hào)能量相對(duì)較高,從語(yǔ)譜圖可以直 觀的看到一條"直亮柱",而本發(fā)明通過各個(gè)語(yǔ)音幀的全頻段平均能量值是否在強(qiáng)能量值范 圍來(lái)檢查待檢測(cè)的語(yǔ)音信號(hào)是否有爆音,這完全符合爆音本身的特點(diǎn),驗(yàn)證了本發(fā)明根據(jù) 各個(gè)語(yǔ)音幀的全頻段平均能量值是否在強(qiáng)能量值范圍來(lái)檢查待檢測(cè)的語(yǔ)音信號(hào)是否有爆 音是合理的。
[0023] 更進(jìn)一步地,由于不同語(yǔ)音信號(hào)的強(qiáng)度分布各不相同,而本發(fā)明只是針對(duì)待檢測(cè) 的語(yǔ)音信號(hào)確定用于判定語(yǔ)音信號(hào)是否為爆音的強(qiáng)能量數(shù)值范圍,使得確定的強(qiáng)能練數(shù)值 范圍與待檢測(cè)的語(yǔ)音信號(hào)一一對(duì)應(yīng),這能夠保證爆音的檢測(cè)更加準(zhǔn)確。
【專利附圖】
【附圖說明】
[0024] 圖1為本發(fā)明實(shí)施例提供的爆音示意圖;
[0025] 圖2為本發(fā)明實(shí)施例提供的方法流程圖;
[0026] 圖3為本發(fā)明實(shí)施例提供的對(duì)語(yǔ)音幀的E1進(jìn)行聚類分析的流程圖;
[0027] 圖4為本發(fā)明實(shí)施例提供的裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0028] 為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì) 本發(fā)明進(jìn)行詳細(xì)描述。
[0029] 在語(yǔ)音信號(hào)的語(yǔ)譜圖中,假如在2. 45秒到2. 48秒的時(shí)間段內(nèi)存在爆音?;诒?音的定義,可以知道,2. 45秒到2. 48秒內(nèi)各個(gè)頻段的語(yǔ)音信號(hào)能量相對(duì)較高,從語(yǔ)譜圖可 以直觀的看到在2. 45秒到2. 48秒之間有一條"直亮柱",如圖1所示。
[0030] 也就是說,在語(yǔ)音信號(hào)的語(yǔ)譜圖中檢測(cè)到有"直亮柱"的存在就可檢測(cè)出有爆音。
[0031] 基于上述思想,本發(fā)明提供了圖2所示的方法流程:
[0032] 參見圖2,圖2為本發(fā)明實(shí)施例提供的方法流程圖。如圖2所示,該流程可包括以 下步驟:
[0033] 步驟201,將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀。
[0034] 作為本發(fā)明的一個(gè)實(shí)施例,本發(fā)明中,將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音 幀可包括:
[0035] 米用加窗方式將待檢測(cè)的語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音巾貞,其中,在劃分語(yǔ)音巾貞時(shí)按 照從待檢測(cè)的一段語(yǔ)音信號(hào)中每移動(dòng)一個(gè)設(shè)定平移長(zhǎng)度劃分一個(gè)語(yǔ)音幀,且劃分的語(yǔ)音幀 的長(zhǎng)度為設(shè)定加窗寬度。
[0036] 以設(shè)定平移長(zhǎng)度為5ms,設(shè)定加窗寬度為40ms為例,則對(duì)于一個(gè)待檢測(cè)的一段 100ms時(shí)長(zhǎng)的語(yǔ)音信號(hào),劃分出的語(yǔ)音幀為 :
[0037] 第一個(gè)語(yǔ)音巾貞:0_40ms,
[0038] 第二個(gè)語(yǔ)音巾貞:5ms_45ms ;
[0039] 第三個(gè)語(yǔ)音巾貞:10ms_50ms ;
[0040] 第四個(gè)語(yǔ)音巾貞:15ms_55ms ;
[0041] 依次類推,倒數(shù)第二個(gè)語(yǔ)音巾貞:55ms_95ms,最后一個(gè)語(yǔ)音巾貞:60ms-100ms。
[0042] 步驟202,對(duì)每一語(yǔ)音幀進(jìn)行快速傅里葉變換(fft)處理,計(jì)算該語(yǔ)音幀在完成 fft處理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值。
[0043] 本發(fā)明中,每一個(gè)語(yǔ)音幀內(nèi)的樣點(diǎn)數(shù)為:t*fs,t為幀長(zhǎng),fs為采樣率。作為本發(fā) 明的一個(gè)實(shí)施例,這里t可為0. 04s (即40ms), fs為16000,如此,每一語(yǔ)音巾貞的樣點(diǎn)數(shù)為 0.04*16000=640。
[0044] 基于此,優(yōu)選地,本步驟202具體可為:對(duì)每一語(yǔ)音幀做大于640點(diǎn)比如1024點(diǎn)的 fft處理,計(jì)算全頻段內(nèi)每一頻點(diǎn)下幅度的對(duì)數(shù)值,將該語(yǔ)音幀在每一頻點(diǎn)下幅度的對(duì)數(shù)值 作為每一頻點(diǎn)下的頻域能量值。
[0045] 步驟203,利用每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音幀的 全頻段平均能量值E0。
[0046] 作為本發(fā)明的一個(gè)實(shí)施例,步驟203可為:
[0047] 將每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值相加,得到第一計(jì)算結(jié)果;
[0048] 將所述第一計(jì)算結(jié)果除以所述全頻段內(nèi)所有頻點(diǎn)的數(shù)量,得到的結(jié)果作為該語(yǔ)音 幀的全頻段平均能量值E0。
[0049] 以全頻段為0_8kHz為例,則本步驟203就將將每一語(yǔ)音幀在0_8kHz內(nèi)每一頻點(diǎn) 下的頻域能量值相加,并除以〇_8kHz內(nèi)所有頻點(diǎn)的數(shù)量,得到該語(yǔ)音幀的全頻段平均能量 值E0。
[0050] 步驟204,計(jì)算每一語(yǔ)音幀的低頻段平均能量值E1。
[0051] 每一段語(yǔ)音信號(hào)的強(qiáng)度分布各不相同,因此每一段語(yǔ)音信號(hào)的能量強(qiáng)度的比較都 只能相對(duì)于本段語(yǔ)音信號(hào),能量的強(qiáng)弱分區(qū)和典型數(shù)值都只相對(duì)于本段語(yǔ)音信號(hào)有意義, 并不能對(duì)所有語(yǔ)音信號(hào)定義出能量值大于某一數(shù)值就屬于強(qiáng)能量,低于某一數(shù)值就是弱能 量,只能在某一段特定的語(yǔ)音信號(hào)中定義出大于某一數(shù)值就屬于該段語(yǔ)音信號(hào)的強(qiáng)能量范 圍,低于某一數(shù)值就屬于該段語(yǔ)音信號(hào)的弱能量范圍,根據(jù)語(yǔ)音的特點(diǎn),不全是靜音的語(yǔ)音 (一段全靜音的語(yǔ)音意義不大)中總是存在強(qiáng)弱兩個(gè)分區(qū),尤其在低頻段表現(xiàn)非常明顯,基 于此,本發(fā)明通過計(jì)算語(yǔ)音幀的低頻段平均能量值E1將語(yǔ)音分為強(qiáng)弱兩個(gè)區(qū)域,具體見步 驟205,以便后續(xù)檢測(cè)爆音,具體見步驟206。
[0052] 其中,步驟204中計(jì)算每一語(yǔ)音幀的低頻段平均能量值E1可包括:
[0053] 從每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值中獲取屬于設(shè)定低頻段的每 一頻點(diǎn)下的頻域能量值;這里,所述設(shè)定低頻段是基于全頻段確定的,其具體為所述全頻段 內(nèi)頻率低的頻段。比如,全頻段為〇_8kHz,設(shè)定低頻段為50Hz-550Hz ;
[0054] 將獲取的每一頻點(diǎn)下的頻域能量值相加,并除以所述設(shè)定低頻段內(nèi)所有頻點(diǎn)的數(shù) 量,得到的結(jié)果作為該語(yǔ)音幀的低頻段平均能量值E1。
[0055] 步驟205,對(duì)所有語(yǔ)音幀的低頻段平均能量值El進(jìn)行聚類分析,根據(jù)聚類結(jié)果確 定強(qiáng)能量數(shù)值范圍。
[0056] 聚類,是將所有語(yǔ)音幀的低頻段平均能量值E1分成類或簇的過程,使同一類或簇 的低頻段平均能量值E1之間具有很高的相似度,而不同類或簇的低頻段平均能量值E1相 似度低。
[0057] 作為本發(fā)明的一個(gè)實(shí)施例,本步驟205可采用K-均值(K-means)聚類方法對(duì)所有 語(yǔ)音幀的低頻段平均能量值E1進(jìn)行聚類分析。下面進(jìn)行具體描述:
[0058] 參見圖3,圖3為本發(fā)明實(shí)施例提供的對(duì)語(yǔ)音幀的E1進(jìn)行聚類分析的流程圖。如 圖3所示,該流程可包括以下步驟:
[0059] 步驟301,隨機(jī)從所有語(yǔ)音幀的低頻段平均能量值E1中選取兩個(gè)低頻段平均能量 值E1分別作為當(dāng)前聚類中心。
[0060] 比如,所有語(yǔ)音幀的低頻段平均能量值E1依次為1、2、3、4、5、101、102、103、104、 105,則本步驟301可以隨機(jī)選取1、2作為當(dāng)前聚類中心,也可隨機(jī)選取1、101作為當(dāng)前聚 類中心。
[0061] 步驟302,針對(duì)每一低頻段平均能量值E1,計(jì)算該低頻段平均能量值E1到每一當(dāng) 前聚類中心的距離,將該低頻段平均能量值E1歸為距離其最短的當(dāng)前聚類中心對(duì)應(yīng)的類。
[0062] 這里,該低頻段平均能量值E1到當(dāng)前聚類中心的距離具體為該低頻段平均能量 值E1與當(dāng)前聚類中心差值的絕對(duì)值。
[0063] 如此,通過步驟302就能將所有的低頻段平均能量值E1分為兩類,一類對(duì)應(yīng)其中 一個(gè)當(dāng)前聚類中心,另一類對(duì)應(yīng)另一個(gè)當(dāng)前聚類中心。
[0064] 步驟303,針對(duì)兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類,分別計(jì)算該類中所有低頻段平均能量 值E1的平均值,比較該計(jì)算的兩個(gè)平均值是否與兩個(gè)當(dāng)前聚類中心相同,如果是,結(jié)束當(dāng) 前流程,將兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類作為最終的聚類結(jié)果,如果否,將計(jì)算的兩個(gè)平均值 作為當(dāng)前聚類中心,返回步驟302。
[0065] 比如,所有語(yǔ)音幀的低頻段平均能量值E1依次為1、2、3、4、5、101、102、103、104、 105,假如執(zhí)行到步驟303時(shí),1、2作為當(dāng)前聚類中心,且存在兩個(gè)類,一個(gè)類與作為當(dāng)前聚 類中心的1對(duì)應(yīng)(記為類1),其包含1,另一個(gè)類與作為當(dāng)前聚類中心的2對(duì)應(yīng)(記為類2), 包含2、3、4、5、101、102、103、104、105,計(jì)算類1中低頻段平均能量值E1的平均值,因?yàn)轭? 中僅包含1,則類1的平均值也就為1,計(jì)算類2中所有低頻段平均能量值E1的平均值,即 (2+3+4+5+101+102+103+104+105)/9,發(fā)現(xiàn)類1中低頻段平均能量值E1的平均值、類2中低 頻段平均能量值E1的平均值不與兩個(gè)當(dāng)前聚類中心1、2相同,則返回步驟302。
[0066] 而假如執(zhí)行到步驟303時(shí),3、103作為當(dāng)前聚類中心,且存在兩個(gè)類,一個(gè)類與 作為當(dāng)前聚類中心的3對(duì)應(yīng)(記為類3),其包含1、2、3、4、5,另一個(gè)類與作為當(dāng)前聚類中 心的103對(duì)應(yīng)(記為類4),包含101、102、103、104、105,計(jì)算類3中低頻段平均能量值 E1的平均值,即(1+2+3+4+5)/5=3,計(jì)算類24中所有低頻段平均能量值E1的平均值,即 (101+102+103+104+105)/5=103,發(fā)現(xiàn)類3中低頻段平均能量值E1的平均值、類4中低頻段 平均能量值E1的平均值與兩個(gè)當(dāng)前聚類中心3、103相同,結(jié)束當(dāng)前流程,將此時(shí)的類3、類 4作為最終的聚類結(jié)果。
[0067] 至此,完成圖3所示的流程。
[0068] 需要說明的是,圖3只是以K-均值聚類方法為例描述如何對(duì)所有語(yǔ)音幀的低頻段 平均能量值Ε1進(jìn)行聚類分析。優(yōu)選地,本發(fā)明在不改變本發(fā)明思想的前提下,也可以采用 其他方式比如迭代自組織數(shù)據(jù)分析技術(shù)(IS0DATA)聚類方法對(duì)所有語(yǔ)音幀的低頻段平均能 量值Ε1進(jìn)行聚類分析,這里不再具體限定。
[0069] 基于圖3所示的聚類分析,步驟205中,根據(jù)聚類結(jié)果確定強(qiáng)能量數(shù)值范圍可包 括:
[0070] 從作為聚類結(jié)果的兩個(gè)類中選擇出包含的低頻段平均能量值Ε1較大的類,比如 選擇上述的類4,將該選擇出的類中的所有低頻段平均能量值Ε1或者部分低頻段平均能量 值Ε1作為強(qiáng)能量數(shù)值范圍。
[0071] 步驟206,檢測(cè)每一語(yǔ)音幀的全頻段平均能量值Ε0是否在所述強(qiáng)能量數(shù)值范圍, 當(dāng)檢測(cè)出至少一個(gè)語(yǔ)音幀的全頻段平均能量值Ε0在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢測(cè) 的一段語(yǔ)音信號(hào)為爆音,當(dāng)檢測(cè)出所有語(yǔ)音幀的全頻段平均能量值Ε0均不在所述強(qiáng)能量 數(shù)值范圍時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)不為爆音。
[0072] 以步驟205確定出的強(qiáng)能量數(shù)值范圍為101至105為例,則本步驟206檢測(cè)每一 語(yǔ)音幀的全頻段平均能量值Ε0是否在101至105之間,當(dāng)檢測(cè)出至少一個(gè)語(yǔ)音幀的全頻段 平均能量值Ε0在101至105之間時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)為爆音,當(dāng)檢測(cè)出所有語(yǔ) 音幀的全頻段平均能量值Ε0均不在101至105之間時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)不為爆 音。
[0073] 至此,完成圖2所示的流程。
[0074] 基于爆音的定義可以知道,爆音在各個(gè)頻段的語(yǔ)音信號(hào)能量相對(duì)較高,從語(yǔ)譜圖 可以直觀的看到一條"直亮柱",如圖1所示在2. 45秒到2. 48秒之間的"直亮柱",基于此, 圖2所示流程,本發(fā)明用各個(gè)語(yǔ)音幀在全頻段的平均能量值大小來(lái)刻畫整個(gè)全頻段的強(qiáng) 度,根據(jù)各個(gè)語(yǔ)音幀的平均能量值是否在強(qiáng)能量值區(qū)域來(lái)檢查是否有爆音存在是合理的, 其能夠準(zhǔn)確、快捷在一段語(yǔ)音信號(hào)中檢測(cè)出爆音,不需要人耳測(cè)聽,節(jié)省大量人力。
[0075] 以上對(duì)本發(fā)明提供的方法進(jìn)行了描述,下面對(duì)本發(fā)明提供的裝置進(jìn)行描述:
[0076] 參見圖4,圖4為本發(fā)明實(shí)施例提供的裝置結(jié)構(gòu)圖。如圖4所示,該裝置可包括:
[0077] 劃分單元,用于將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀;
[0078] 處理單元,用于對(duì)每一語(yǔ)音幀進(jìn)行快速傅里葉變換fft處理,計(jì)算該語(yǔ)音幀在完 成快速傅里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值;
[0079] 計(jì)算單元,用于利用每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音 幀的全頻段平均能量值,并計(jì)算每一語(yǔ)音幀的低頻段平均能量值E1 ;
[0080] 聚類單元,用于對(duì)所有語(yǔ)音幀的低頻段平均能量值進(jìn)行聚類分析,根據(jù)聚類結(jié)果 確定強(qiáng)能量數(shù)值范圍;
[0081] 檢測(cè)單元,用于檢測(cè)每一語(yǔ)音幀的全頻段平均能量值是否在所述強(qiáng)能量數(shù)值范 圍,當(dāng)檢測(cè)出至少一個(gè)語(yǔ)音幀的全頻段平均能量值在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢測(cè) 的一段語(yǔ)音信號(hào)為爆音,當(dāng)檢測(cè)出所有語(yǔ)音幀的全頻段平均能量值均不在所述強(qiáng)能量數(shù)值 范圍時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)不為爆音。
[0082] 優(yōu)選地,本發(fā)明中,所述劃分單元可采用加窗方式將待檢測(cè)的一段語(yǔ)音信號(hào)劃分 為多個(gè)語(yǔ)音幀,其中,在劃分語(yǔ)音幀時(shí)按照從待檢測(cè)的一段語(yǔ)音信號(hào)中每移動(dòng)一個(gè)設(shè)定平 移長(zhǎng)度劃分一個(gè)語(yǔ)音巾貞,且劃分的語(yǔ)音巾貞的長(zhǎng)度為設(shè)定加窗寬度。
[0083] 優(yōu)選地,本發(fā)明中,所述處理單元計(jì)算該語(yǔ)音幀在完成快速傅里葉變換處理后全 頻段內(nèi)每一頻點(diǎn)下的頻域能量值包括:
[0084] 計(jì)算該語(yǔ)音幀在完成快速傅里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下幅度的對(duì)數(shù) 值;
[0085] 將該語(yǔ)音幀在每一頻點(diǎn)下幅度的對(duì)數(shù)值作為每一頻點(diǎn)下的頻域能量值。
[0086] 優(yōu)選地,本發(fā)明中,所述計(jì)算單元利用每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域 能量值計(jì)算該語(yǔ)音幀的全頻段平均能量值E0可包括:
[0087] 將每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值相加,得到第一計(jì)算結(jié)果;將 所述第一計(jì)算結(jié)果除以所述全頻段內(nèi)所有頻點(diǎn)的數(shù)量,得到的結(jié)果作為該語(yǔ)音幀的全頻段 平均能量值E0 ;
[0088] 優(yōu)選地,本發(fā)明中,所述計(jì)算單元每一語(yǔ)音幀的低頻段平均能量值E1包括:
[0089] 從每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值中獲取屬于設(shè)定低頻段的每 一頻點(diǎn)下的頻域能量值;
[0090] 將獲取的每一頻點(diǎn)下的頻域能量值相加,并除以所述設(shè)定低頻段內(nèi)所有頻點(diǎn)的數(shù) 量,得到的結(jié)果作為該語(yǔ)音幀的低頻段平均能量值E1。
[0091] 優(yōu)選地,本發(fā)明中,所述聚類單元對(duì)所有語(yǔ)音幀的低頻段平均能量值E1進(jìn)行聚類 分析可包括以下步驟:步驟1,隨機(jī)從所有語(yǔ)音幀的低頻段平均能量值E1中選取兩個(gè)低頻 段平均能量值E1分別作為當(dāng)前聚類中心;步驟2,針對(duì)每一低頻段平均能量值E1,計(jì)算該低 頻段平均能量值E1到每一當(dāng)前聚類中心的距離,將該低頻段平均能量值E1歸為距離其最 短的當(dāng)前聚類中心對(duì)應(yīng)的類;步驟3,針對(duì)兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類,分別計(jì)算該類中所 有低頻段平均能量值E1的平均值,比較該計(jì)算的兩個(gè)平均值是否與兩個(gè)當(dāng)前聚類中心相 同,如果是,結(jié)束當(dāng)前流程,將兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類作為聚類結(jié)果,如果否,將計(jì)算的 兩個(gè)平均值作為當(dāng)前聚類中心,返回步驟2 ;
[0092] 基于此,所述聚類單元根據(jù)聚類結(jié)果確定強(qiáng)能量數(shù)值范圍包括:從作為聚類結(jié)果 的兩個(gè)類中選擇出包含的低頻段平均能量值E1較大的類,將該選擇出的類中的所有低頻 段平均能量值E1或者部分低頻段平均能量值E1作為強(qiáng)能量數(shù)值范圍。
[0093] 以上對(duì)本發(fā)明提供的裝置進(jìn)行了描述。
[0094] 由以上技術(shù)方案可以看出,本發(fā)明中,通過各個(gè)語(yǔ)音幀的全頻段平均能量值大小 來(lái)刻畫待檢測(cè)語(yǔ)音信號(hào)在整個(gè)全頻段的強(qiáng)度,根據(jù)各個(gè)語(yǔ)音幀的全頻段平均能量值是否在 強(qiáng)能量值范圍來(lái)檢查待檢測(cè)的語(yǔ)音信號(hào)是否有爆音,即實(shí)現(xiàn)了自動(dòng)在語(yǔ)音信號(hào)中動(dòng)態(tài)檢測(cè) 爆音的目的,無(wú)需像現(xiàn)有技術(shù)那樣通過人耳測(cè)聽從語(yǔ)音信號(hào)中檢測(cè)爆音,相比現(xiàn)有人耳測(cè) 聽節(jié)省人力資源。
[0095] 進(jìn)一步地,由于爆音本身在各個(gè)頻段的語(yǔ)音信號(hào)能量相對(duì)較高,從語(yǔ)譜圖可以直 觀的看到一條"直亮柱",而本發(fā)明通過各個(gè)語(yǔ)音幀的全頻段平均能量值是否在強(qiáng)能量值范 圍來(lái)檢查待檢測(cè)的語(yǔ)音信號(hào)是否有爆音,這完全符合爆音本身的特點(diǎn),驗(yàn)證了本發(fā)明根據(jù) 各個(gè)語(yǔ)音幀的全頻段平均能量值是否在強(qiáng)能量值范圍來(lái)檢查待檢測(cè)的語(yǔ)音信號(hào)是否有爆 音是合理的。
[0096] 更進(jìn)一步地,由于不同語(yǔ)音信號(hào)的強(qiáng)度分布各不相同,而本發(fā)明只是針對(duì)待檢測(cè) 的語(yǔ)音信號(hào)確定用于判定語(yǔ)音信號(hào)是否為爆音的強(qiáng)能量數(shù)值范圍,使得確定的強(qiáng)能練數(shù)值 范圍與待檢測(cè)的語(yǔ)音信號(hào)一一對(duì)應(yīng),這能夠保證爆音的檢測(cè)更加準(zhǔn)確。
[0097] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1. 一種爆音檢測(cè)方法,其特征在于,該方法包括: 將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀; 對(duì)每一語(yǔ)音幀進(jìn)行快速傅里葉變換處理,計(jì)算該語(yǔ)音幀在完成快速傅里葉變換處理后 全頻段內(nèi)每一頻點(diǎn)下的頻域能量值; 利用每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音幀的全頻段平均能 量值; 計(jì)算每一語(yǔ)音幀的低頻段平均能量值,并對(duì)所有語(yǔ)音幀的低頻段平均能量值進(jìn)行聚類 分析,根據(jù)聚類結(jié)果確定強(qiáng)能量數(shù)值范圍; 檢測(cè)每一語(yǔ)音幀的全頻段平均能量值是否在所述強(qiáng)能量數(shù)值范圍,當(dāng)檢測(cè)出至少一 個(gè)語(yǔ)音幀的全頻段平均能量值在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)為爆 音,當(dāng)檢測(cè)出所有語(yǔ)音幀的全頻段平均能量值均不在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢測(cè) 的一段語(yǔ)音信號(hào)不為爆音。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ) 音幀包括: 采用加窗方式將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀,其中,在劃分語(yǔ)音幀時(shí)按 照從待檢測(cè)的一段語(yǔ)音信號(hào)中每移動(dòng)一個(gè)設(shè)定平移長(zhǎng)度劃分一個(gè)語(yǔ)音幀,且劃分的語(yǔ)音幀 的長(zhǎng)度為設(shè)定加窗寬度。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算該語(yǔ)音幀在完成快速傅里葉變 換處理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值包括: 計(jì)算該語(yǔ)音幀在完成快速傅里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下幅度的對(duì)數(shù)值; 將該語(yǔ)音幀在每一頻點(diǎn)下幅度的對(duì)數(shù)值作為每一頻點(diǎn)下的頻域能量值。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用每一語(yǔ)音幀在全頻段內(nèi)每一頻 點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音幀的全頻段平均能量值包括: 將每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值相加,得到第一計(jì)算結(jié)果; 將所述第一計(jì)算結(jié)果除以所述全頻段內(nèi)所有頻點(diǎn)的數(shù)量,得到的結(jié)果作為該語(yǔ)音幀的 全頻段平均能量值。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算每一語(yǔ)音幀的低頻段平均能量 值包括: 從每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值中獲取屬于設(shè)定低頻段的每一頻 點(diǎn)下的頻域能量值; 將獲取的每一頻點(diǎn)下的頻域能量值相加,并除以所述設(shè)定低頻段內(nèi)所有頻點(diǎn)的數(shù)量, 得到的結(jié)果作為該語(yǔ)音幀的低頻段平均能量值。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所有語(yǔ)音幀的低頻段平均能量值進(jìn)行 聚類分析包括: 步驟1,隨機(jī)從所有語(yǔ)音幀的低頻段平均能量值中選取兩個(gè)低頻段平均能量值分別作 為當(dāng)前聚類中心; 步驟2,針對(duì)每一個(gè)低頻段平均能量值,計(jì)算該低頻段平均能量值到每一當(dāng)前聚類中心 的距離,將該低頻段平均能量值歸為距離其最短的當(dāng)前聚類中心對(duì)應(yīng)的類; 步驟3,針對(duì)兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類,分別計(jì)算該類中所有低頻段平均能量值的平 均值,比較該計(jì)算的兩個(gè)平均值是否與兩個(gè)當(dāng)前聚類中心相同,如果是,結(jié)束當(dāng)前流程,將 兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類作為聚類結(jié)果,如果否,將計(jì)算的兩個(gè)平均值作為當(dāng)前聚類中 心,返回步驟2。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)聚類結(jié)果確定強(qiáng)能量數(shù)值范圍 包括: 從作為聚類結(jié)果的兩個(gè)類中選擇出包含的低頻段平均能量值較大的類,將該選擇出的 類中的所有低頻段平均能量值或者部分低頻段平均能量值作為強(qiáng)能量數(shù)值范圍。
8. -種爆音檢測(cè)裝置,其特征在于,該裝置包括: 劃分單元,用于將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀; 處理單元,用于對(duì)每一語(yǔ)音幀進(jìn)行快速傅里葉變換處理,計(jì)算該語(yǔ)音幀在完成快速傅 里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值; 計(jì)算單元,用于利用每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音幀的 全頻段平均能量值,并計(jì)算每一語(yǔ)音幀的低頻段平均能量值E1 ; 聚類單元,用于對(duì)所有語(yǔ)音幀的低頻段平均能量值進(jìn)行聚類分析,根據(jù)聚類結(jié)果確定 強(qiáng)能量數(shù)值范圍; 檢測(cè)單元,用于檢測(cè)每一語(yǔ)音幀的全頻段平均能量值是否在所述強(qiáng)能量數(shù)值范圍,當(dāng) 檢測(cè)出至少一個(gè)語(yǔ)音幀的全頻段平均能量值在所述強(qiáng)能量數(shù)值范圍時(shí),確定待檢測(cè)的一段 語(yǔ)音信號(hào)為爆音,當(dāng)檢測(cè)出所有語(yǔ)音幀的全頻段平均能量值均不在所述強(qiáng)能量數(shù)值范圍 時(shí),確定待檢測(cè)的一段語(yǔ)音信號(hào)不為爆音。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述劃分單元將待檢測(cè)的一段語(yǔ)音信號(hào) 劃分為多個(gè)語(yǔ)音幀包括: 采用加窗方式將待檢測(cè)的一段語(yǔ)音信號(hào)劃分為多個(gè)語(yǔ)音幀,其中,在劃分語(yǔ)音幀時(shí)按 照從待檢測(cè)的一段語(yǔ)音信號(hào)中每移動(dòng)一個(gè)設(shè)定平移長(zhǎng)度劃分一個(gè)語(yǔ)音幀,且劃分的語(yǔ)音幀 的長(zhǎng)度為設(shè)定加窗寬度。
10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述處理單元計(jì)算該語(yǔ)音幀在完成快速 傅里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下的頻域能量值包括: 計(jì)算該語(yǔ)音幀在完成快速傅里葉變換處理后全頻段內(nèi)每一頻點(diǎn)下幅度的對(duì)數(shù)值; 將該語(yǔ)音幀在每一頻點(diǎn)下幅度的對(duì)數(shù)值作為每一頻點(diǎn)下的頻域能量值。
11. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述計(jì)算單元利用每一語(yǔ)音幀在全頻段 內(nèi)每一頻點(diǎn)下的頻域能量值計(jì)算該語(yǔ)音幀的全頻段平均能量值包括: 將每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值相加,得到第一計(jì)算結(jié)果;將所述 第一計(jì)算結(jié)果除以所述全頻段內(nèi)所有頻點(diǎn)的數(shù)量,得到的結(jié)果作為該語(yǔ)音幀的全頻段平均 能量值; 所述計(jì)算單元每一語(yǔ)音幀的低頻段平均能量值包括: 從每一語(yǔ)音幀在全頻段內(nèi)每一頻點(diǎn)下的頻域能量值中獲取屬于設(shè)定低頻段的每一頻 點(diǎn)下的頻域能量值; 將獲取的每一頻點(diǎn)下的頻域能量值相加,并除以所述設(shè)定低頻段內(nèi)所有頻點(diǎn)的數(shù)量, 得到的結(jié)果作為該語(yǔ)音幀的低頻段平均能量值。
12. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述聚類單元對(duì)所有語(yǔ)音幀的E1進(jìn)行聚 類分析包括:步驟1,隨機(jī)從所有語(yǔ)音幀的低頻段平均能量值中選取兩個(gè)低頻段平均能量 值分別作為當(dāng)前聚類中心;步驟2,針對(duì)每一低頻段平均能量值,計(jì)算該低頻段平均能量值 到每一當(dāng)前聚類中心的距離,將該低頻段平均能量值歸為距離其最短的當(dāng)前聚類中心對(duì)應(yīng) 的類;步驟3,針對(duì)兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類,分別計(jì)算該類中所有低頻段平均能量值的 平均值,比較該計(jì)算的兩個(gè)平均值是否與兩個(gè)當(dāng)前聚類中心相同,如果是,結(jié)束當(dāng)前流程, 將兩個(gè)當(dāng)前聚類中心對(duì)應(yīng)的類作為聚類結(jié)果,如果否,將計(jì)算的兩個(gè)平均值作為當(dāng)前聚類 中心,返回步驟2 ; 所述聚類單元根據(jù)聚類結(jié)果確定強(qiáng)能量數(shù)值范圍包括:從作為聚類結(jié)果的兩個(gè)類中選 擇出包含的低頻段平均能量值較大的類,將該選擇出的類中的所有低頻段平均能量值或者 部分低頻段平均能量值作為強(qiáng)能量數(shù)值范圍。
【文檔編號(hào)】G10L25/78GK104143341SQ201310195080
【公開日】2014年11月12日 申請(qǐng)日期:2013年5月23日 優(yōu)先權(quán)日:2013年5月23日
【發(fā)明者】吳小平 申請(qǐng)人:騰訊科技(深圳)有限公司