語(yǔ)音檢測(cè)方法
【專利摘要】本發(fā)明涉及一種語(yǔ)音檢測(cè)方法,這使得它能夠在來(lái)自麥克風(fēng)的嘈雜聲信號(hào)x(t)中檢測(cè)語(yǔ)音信號(hào)的存在,其包括以下連續(xù)的步驟:基于差函數(shù)D(τ)的計(jì)算而計(jì)算檢測(cè)函數(shù)FD(τ)步驟,根據(jù)開(kāi)始于時(shí)間t0的長(zhǎng)度W的集成窗口上的位移τ的改變,其中:根據(jù)在所述當(dāng)前間隔中確立的聲信號(hào)x(t)計(jì)算的值,在所述當(dāng)前間隔適應(yīng)閾值的步驟;搜索和比較步驟,搜索檢測(cè)函數(shù)FD(τ)的最小值和該最小值與閾值進(jìn)行比較,在稱為當(dāng)前間隔的確定的時(shí)間間隔內(nèi),其中τ變化以便在當(dāng)前間隔內(nèi)檢測(cè)語(yǔ)音信號(hào)的基頻F0特性存在的可能。其中0≤τ≤max(τ)。
【專利說(shuō)明】
語(yǔ)音檢測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種語(yǔ)音檢測(cè)方法,該方法允許在來(lái)自麥克風(fēng)的噪聲聲信號(hào)中檢測(cè)語(yǔ) 音信號(hào)的存在。
[0002] 更特別的是,它涉及在單一傳感器無(wú)線音頻通信系統(tǒng)中使用語(yǔ)音檢測(cè)方法。
[0003] 本發(fā)明屬于語(yǔ)音活動(dòng)檢測(cè)的特定領(lǐng)域,用于語(yǔ)音活動(dòng)檢測(cè)中一般稱為《VAD》,其包 括檢測(cè)在聲學(xué)信號(hào)中來(lái)自麥克風(fēng)的語(yǔ)音,換句話說(shuō)是語(yǔ)音信號(hào)。
[0004] 本發(fā)明的一個(gè)優(yōu)選,而不是限制的,一個(gè)多用戶無(wú)線音頻通信系統(tǒng)類型的時(shí)分多 路轉(zhuǎn)換或全雙通通信系統(tǒng)中的應(yīng)用,在一些自發(fā)通信終端之間,也就是說(shuō)沒(méi)有連接到傳輸 基站或網(wǎng)絡(luò),且易于使用,也就是說(shuō)沒(méi)有一個(gè)技術(shù)員的干預(yù)以便建立通信。
【背景技術(shù)】
[0005] 這樣的通信系統(tǒng),主要區(qū)別于文件W010149864A1,W010149875A1和EP1843326A1, 通常用在嘈雜的甚至非常嘈雜的環(huán)境中,例如在海洋環(huán)境中,作為在室內(nèi)或室外的節(jié)目或 體育賽事,在建筑工地等。
[0006] 語(yǔ)音活動(dòng)檢測(cè)一般由具體量化的標(biāo)準(zhǔn)而限定,在噪聲聲信號(hào)中單詞和/或句子的 開(kāi)始和結(jié)束,換句話說(shuō),在一個(gè)給定的音頻流。這種檢測(cè)是適用于例如語(yǔ)音編碼,噪聲降低, 甚至是語(yǔ)音識(shí)別的領(lǐng)域。
[0007] 在音頻通信系統(tǒng)的處理鏈中的語(yǔ)音檢測(cè)方法的實(shí)現(xiàn)允許在靜默期間特別允許不 發(fā)送聲音或音頻信號(hào)。因此,在這些期間周圍的噪音不會(huì)被發(fā)送,為了提高音頻通信補(bǔ)償或 降低傳輸速率。例如,在語(yǔ)音編碼中,當(dāng)《VAD》方法指示活動(dòng)時(shí)使用語(yǔ)音活動(dòng)檢測(cè)完全編碼 的音頻信號(hào)是已知的。因此,當(dāng)沒(méi)有語(yǔ)音和它是一段時(shí)間靜默時(shí)期,編碼率顯著降低,平均 的在全部信號(hào)上,其可以達(dá)到較低的速率。
[0008] 因此,有許多方法用于檢測(cè)語(yǔ)音活動(dòng),但后者在所有的噪聲環(huán)境中甚至非常嘈雜 的環(huán)境中的性能較差或不工作,如運(yùn)動(dòng)比賽(戶外或室內(nèi)),比賽中裁判必須以音頻和無(wú)線 方式通信。事實(shí)上,當(dāng)語(yǔ)音信號(hào)被噪聲影響時(shí),已知的語(yǔ)音活動(dòng)檢測(cè)方法給出了不好的結(jié) 果。
[0009] 已知的語(yǔ)音活動(dòng)檢測(cè)方法中,一些實(shí)施語(yǔ)音信號(hào)的基頻特性的檢測(cè),尤其是在文 件FR 2 988 894中被披露。在語(yǔ)音信號(hào)的情況下,稱為濁音信號(hào)或聲音,信號(hào)確實(shí)有稱為基 頻的頻率,一般稱為《基音(pi tch )》,相當(dāng)于說(shuō)話者的聲帶振動(dòng)的頻率,通常延伸在70和400 赫茲之間。這一基頻的演變決策了語(yǔ)音的旋律,其程度取決于說(shuō)話者的習(xí)慣,也取決于他的 身心狀態(tài)。
[0010] 因此,為了進(jìn)行語(yǔ)音信號(hào)的檢測(cè),假定這樣的語(yǔ)音信號(hào)是準(zhǔn)周期性的且,因此,相 關(guān)性或與該信號(hào)本身的差異是已知的,但移位將有在基頻和它的倍數(shù)的附近的最大值或最 小值。
[0011 ] 文件《YIN,語(yǔ)音和音樂(lè)的基頻估計(jì)》,由Alain de cheveigne和Hideki Kawahara 撰寫,美國(guó)聲學(xué)學(xué)會(huì)雜志111卷,第4號(hào),pp. 1917-1930,2002年4月,提供且開(kāi)發(fā)一個(gè)基于信 號(hào)和同一時(shí)間移位信號(hào)之間的差異的方法。
[0012] 以下幾種方法是基于在嘈雜的聲信號(hào)x(t)中對(duì)語(yǔ)音信號(hào)的基頻或基音的檢測(cè)的 描述。
[0013] 用于檢測(cè)基頻的第一種方法實(shí)現(xiàn)了由以下關(guān)系定義的自相關(guān)函數(shù)R(t)的最大值 的研究:
[0015] 這第一種方法使用的自相關(guān)函數(shù)是不令人滿意的,因?yàn)橛幸粋€(gè)相對(duì)顯著的噪聲。 此外,自相關(guān)函數(shù)存在的最大值不對(duì)應(yīng)基頻或其倍數(shù),而是對(duì)應(yīng)其子倍數(shù)。
[0016] 用于檢測(cè)基頻的第二種方法實(shí)現(xiàn)了由以下關(guān)系定義的差函數(shù)D(t)的最小值的研 究:
[0018] 其中| |表示絕對(duì)值,這個(gè)差函數(shù)在基頻及其倍數(shù)的附近最低,然后這個(gè)最小值和 閾值比較以便由此推斷出語(yǔ)音存在或者不存在的決策。
[0019] 相對(duì)于自相關(guān)函數(shù)R(〇,差函數(shù)D(〇具有較低的計(jì)算負(fù)載,從而使該第二種方法 在實(shí)時(shí)應(yīng)用中更為有趣。然而,這第二種方法是不完全令人滿意的,因?yàn)橛性胍簟?br>[0020] 檢測(cè)的基頻的第三種方法實(shí)現(xiàn)的,考慮一個(gè)長(zhǎng)度H處理窗口,其中H<N,由以下關(guān) 系定義的平方差函數(shù)dt(T)的計(jì)算:
[0021 ] dt(T〇 = 丨(X廣 JQ + T)2,
[0022]然后繼續(xù)做用于平方差函數(shù)dtb)的最小值的研究,這個(gè)平方差函數(shù)在基頻及其 倍數(shù)附近是最小的,最后以最小值與閾值比較以推斷出語(yǔ)音存在或不存在的決策。
[0023]第三種方法已知的改進(jìn)包括標(biāo)準(zhǔn)化方差函數(shù)dt (T ),通過(guò)計(jì)算滿足如下關(guān)系的標(biāo) 準(zhǔn)化方差函數(shù)d't(T):
[0025]另外,雖然具有更好的抗噪性且在這方面給予更好的檢測(cè)結(jié)果,但第三種方法在 語(yǔ)音檢測(cè)方面有限制,特別是噪聲環(huán)境的噪聲區(qū)域在低信噪比SNR(信噪比)特征。
[0026]現(xiàn)有技術(shù)中也可以通過(guò)申請(qǐng)專利FR 2 825 505的啟示予以說(shuō)明,其實(shí)現(xiàn)了上述第 三種方法的基頻檢測(cè),用于對(duì)這一基頻的提取。在這項(xiàng)專利申請(qǐng)中,標(biāo)準(zhǔn)化方差函數(shù)d'tb) 不能與一個(gè)閾值進(jìn)行比較,以確定這個(gè)基頻-這個(gè)閾值可以是固定的或根據(jù)時(shí)間變化T而變 化的-和這種方法有上述第三種方法相關(guān)聯(lián)的缺點(diǎn)。
[0027]使用語(yǔ)音檢測(cè)實(shí)施基頻的檢測(cè)方法是已知的,文件《基音檢測(cè)與平均幅度差函數(shù) 的自適應(yīng)閾值算法估算微光和抖動(dòng)》,由Hae Young Kim等人撰寫,醫(yī)學(xué)與生物工程學(xué)會(huì), 1998,在IEEE第二十屆年度國(guó)際會(huì)議,第6卷,1998年10月29日,第3162-6164頁(yè)XP010320717 的會(huì)議記錄中。在這個(gè)文檔中,它描述了一種方法,包括自相關(guān)函數(shù)的最小值的搜索,通過(guò) 實(shí)施一個(gè)與自適應(yīng)閾值的比較,所述自適應(yīng)閾值在當(dāng)前幀中的信號(hào)的最小值和最大值的函 數(shù)。然而,這種閾值的適應(yīng)是非常有限的。事實(shí)上,在信號(hào)-噪聲比的不同值的音頻信號(hào)的但 具有相同的信號(hào)幅度的情況下,所有情況下的閾值將是相同的,而不需要后者取決于噪聲 水平的改變,從而導(dǎo)致在句子或甚至非檢測(cè)的聲音開(kāi)始的削減,當(dāng)被檢測(cè)的信號(hào)是聲音時(shí), 特別是在散開(kāi)的觀眾的噪音的背景下,因此,它完全不會(huì)像一個(gè)語(yǔ)音信號(hào)。
【發(fā)明內(nèi)容】
[0028] 本發(fā)明的目的是提供一種語(yǔ)音檢測(cè)方法,該方法提供了一種包含在嘈雜聲信號(hào)中 的語(yǔ)音信號(hào)的檢測(cè),特別是在噪音的環(huán)境中,或特別是在嘈雜聲音的環(huán)境中。
[0029] 它提供了特別的聲音檢測(cè)方法,其非常適合于通信(主要是在裁判之間)在賽場(chǎng)噪 音水平相對(duì)很強(qiáng)和非平穩(wěn)的情況下,配合檢測(cè)步驟,避免由于觀眾的歌聲,吹奏樂(lè)器、鼓、音 樂(lè)和口哨聲而產(chǎn)生的特別壞或錯(cuò)誤的檢測(cè)(一般稱為《tonches》)。
[0030] 為此,它提供了一種語(yǔ)音檢測(cè)方法,允許檢測(cè)來(lái)自麥克風(fēng)的在嘈雜的聲音信號(hào)x (t)的語(yǔ)音信號(hào)的存在,包括以下連續(xù)步驟:
[0031] --個(gè)初步抽樣步驟,包括削減聲信號(hào)x(t)為離散聲信號(hào){Xl},離散聲信號(hào)組由與 長(zhǎng)度N的時(shí)間幀i相關(guān)聯(lián)的向量序列組成,N對(duì)應(yīng)采樣點(diǎn)的數(shù)量,其中每一個(gè)向量反映聲音內(nèi) 容,其與幀i相關(guān)聯(lián)且由N個(gè)樣本X(i-1)N+1,X(i-l)N+2'",XiN-1,XiN組成,i是一個(gè)正整數(shù);
[0032]-一個(gè)計(jì)算檢測(cè)函數(shù)FD ( t )的步驟,基于一個(gè)差函數(shù)計(jì)算D ( t )按照長(zhǎng)度W從時(shí)間tO 開(kāi)始的集成窗口的移位T的變化:
[0033] D(t)=.[二 -x(n. +T)j其中0<T<max(T);
[0034]其中這一計(jì)算檢測(cè)函數(shù)FD ( t )的步驟,包括計(jì)算與幀i相關(guān)聯(lián)的離散檢測(cè)函數(shù)FDi ⑴;
[0035] --個(gè)所述當(dāng)前區(qū)間的自適應(yīng)閾值步驟,根據(jù)聲信號(hào)x(t)計(jì)算的值表示當(dāng)前區(qū)間, 特別的和表示聲信號(hào)x(t)的最大值,其中這適應(yīng)閾值的步驟包括,對(duì)于每一幀i,針對(duì)幀i適 應(yīng)閾值,其取決于離散聲信號(hào){ Xl}所述幀i的樣本值計(jì)算的參考值。
[0036] -搜索檢測(cè)函數(shù)rob)最小值和最小值與閾值比較的步驟,在一個(gè)稱為當(dāng)前區(qū)間的 確定時(shí)間間隔中t變化以便在所述當(dāng)前區(qū)間內(nèi)檢測(cè)語(yǔ)音信號(hào)的基頻Fo特征存在或不存在; [0037]在這一步驟中,搜索最小的檢測(cè)函數(shù)rob)的最小值且最小值與閾值比較是通過(guò), 在每一幀i中,對(duì)于離散檢測(cè)函數(shù)rodO的最小值 rr(i)進(jìn)行搜索和針對(duì)幀i通過(guò)最小值與 閾值Qi進(jìn)行比較實(shí)現(xiàn)的;
[0038]其中對(duì)于每幀i適應(yīng)閾值Q i的步驟包括以下步驟:
[0039] a)-細(xì)分包括N采樣點(diǎn)的幀i到長(zhǎng)度L的T子幀,其中N是T的倍數(shù),以便長(zhǎng)度L = N/T是 一個(gè)整數(shù),從而使在幀i的指數(shù)j的子幀中離散聲信號(hào){^}的樣本包括以下L樣本:
[0040] X(i-l)N+(j-l)L+l,X(i-l)N+(j-l)L+2,…,X(i-l)N+jL,j 是一個(gè)正整數(shù),包括在 1 和T之間;
[0041 ] b)_計(jì)算離散聲信號(hào){xi}的最大值mi,j,在每一個(gè)幀i的指數(shù)j的子幀的中,其中:
[0042] mi,j=max{x(i-i)N+(j-i)L+i,x(i-i)N+(j-i)l+2,…,x(i-i)N+jL};
[0043] c)_計(jì)算至少一個(gè)參考值Refi.hMRefi.j針對(duì)幀i的子幀j,所述或每個(gè)參考值 Refi, j,MRef i, j每個(gè)子幀j從最大值mi, j被計(jì)算,在幀i的子幀j中;
[0044] d)-建立針對(duì)幀i的閾值Q i的值,其取決于所有的參考值Ref i, j,MRef i, j在幀i的子 幀j中被計(jì)算。
[0045] 因此,這種方法是基于自適應(yīng)閾值的原則,這將是在噪音或靜默期間相對(duì)低的和 在語(yǔ)音期間相對(duì)高的。因此,錯(cuò)誤的檢測(cè)將被最小化,并在單詞的開(kāi)始和結(jié)束,語(yǔ)音將在適 當(dāng)?shù)南鳒p的最低限度被檢測(cè)。根據(jù)本發(fā)明的方法,在子幀j中建立最大值mi, j,以使其在整個(gè) 幀i上(聲音或不存在聲音)作出決策。
[0046] 根據(jù)第一種可能性,檢測(cè)函數(shù)rob)對(duì)應(yīng)于差函數(shù)D(t)。
[0047] 根據(jù)第二種可能性,檢測(cè)函數(shù)ro(T)對(duì)應(yīng)于標(biāo)準(zhǔn)化差函數(shù)DN(T),其從差函數(shù)D(T) 計(jì)算得到,如下:
[0048] DN(T) = 1 如果 t = 〇,
如果T辛0;
[0050] 其中計(jì)算標(biāo)準(zhǔn)化差函數(shù)DN(t)考慮與幀i相關(guān)聯(lián)的離散標(biāo)準(zhǔn)化查函數(shù)DNJt)的計(jì) 算,其中:
[0051] DNi(T) = l 如果 t = 〇,
如果T辛0;
[0053]在一個(gè)特定的實(shí)施例中,相對(duì)于幀i的離散差函數(shù)計(jì)算如下:
[0054] _細(xì)分幀i到長(zhǎng)度H的K子幀,例如:
[0056] 其中|_」表示對(duì)整數(shù)部分的四舍五入的操作,因此,在幀i的指數(shù)P的子幀中,離散 聲信號(hào){xi}的樣本包括H樣本:
[0057] X(i-l)N+(p-l)H+l,X(i-l)N+(p-l)H+2,…,X(i-1)N+pH,P是一個(gè)正整數(shù),包括在 1 和K之間;
[0058] -指數(shù)p的每個(gè)子幀,我們計(jì)算下列差函數(shù)ddP(T):
[0059] ddp(l) = SU-DN+fP-DHuN _ Xj + T 5
[0060] -相對(duì)于幀i的離散差函數(shù)計(jì)算計(jì)算作為幀i的指數(shù)p的子幀的差函數(shù)ddP(T) 的總和,即:
[0061 ] D,(t)=[:、丨 ddp(T).
[0062] 根據(jù)一個(gè)特點(diǎn),在步驟c)中,在每個(gè)幀i上進(jìn)行下面的子步驟:
[0063] cl)_計(jì)算平滑最大值包絡(luò)線,在幀i的指數(shù)j的每個(gè)子幀中:
[0064] =入?%1 + (1-入)mu,其中入是一個(gè)預(yù)定義的系數(shù)包括在〇和1之間;
[0065] c2)_計(jì)算變信號(hào)A i,」,在幀i的指數(shù)j的每個(gè)子幀中;
[0066] ~=niij - m:i,j =入(rriij - Mip);
[0067]其中至少一個(gè)參考值稱為主要參考值Refi,j,每個(gè)子幀j由變化信號(hào)A i,j在幀i的 子幀j中被計(jì)算。
[0068] 因此,平滑包絡(luò)線的變化信號(hào)A i,j在子幀j中是為了對(duì)整個(gè)幀做決策(聲音或聲音 缺失),使得語(yǔ)音(或聲音)檢測(cè)更可靠。
[0069] 根據(jù)另一個(gè)特點(diǎn),在步驟c)和隨后的子步驟c2)中,下面子步驟在每一幀i中進(jìn)行:
[0070] c3)_計(jì)算變化最大值Si, j在幀i的指數(shù)j的每個(gè)子幀中,其中Si, j對(duì)應(yīng)于變化信號(hào) A ^最大值,其在所述子幀j之前的長(zhǎng)度Lm的滑動(dòng)窗口被計(jì)算,所述長(zhǎng)度Lm是可變的,其取 決于幀i的子幀j是否對(duì)應(yīng)一段靜默期間或語(yǔ)音存在。
[0071] c4)_計(jì)算變化差5^在幀i的指數(shù)j的每個(gè)子幀中,其中:
[0072]
[0073]其中,幀i的每個(gè)子幀j,兩個(gè)主要的參考值Refu被分別由變化信號(hào)A ^和變化差 Si,j計(jì)算。
[0074] 因此,在子幀j建立的變化信號(hào)A ^和變化差是共同考慮為了選擇自適應(yīng)閾 值Q i的值從而對(duì)整個(gè)幀i做出決策(聲音的或聲音缺失),加強(qiáng)語(yǔ)音檢測(cè)。換句話說(shuō),對(duì) (八:1,」;3^)是為了確定自適應(yīng)閾值〇1而考慮的。
[0075] 有利的是,在步驟c)中和作為一個(gè)子步驟c4)的結(jié)果,子步驟c5)計(jì)算標(biāo)準(zhǔn)化變化 信號(hào)A和標(biāo)準(zhǔn)化變化差8'^在幀i的指數(shù)j的每子幀中被執(zhí)行,如下:
[0078]在那里,幀i的每個(gè)子幀j,標(biāo)準(zhǔn)化變化信號(hào)A 和標(biāo)準(zhǔn)化差8'^構(gòu)成每一個(gè)主要 的參考值Ref i, j,那么,在步驟d)的針對(duì)幀i的閾值i的值取決于在幀i的子幀j中的一對(duì)標(biāo) 準(zhǔn)化變化信號(hào)(A ' U,S ' 1;」)和標(biāo)準(zhǔn)化變化差S ' 1;」的建立。
[0079]在這種方式中,處理獨(dú)立于信號(hào)A ^和8^的水平的閾值Q :的變化是可能的,通 過(guò)標(biāo)準(zhǔn)化信號(hào)A和8'^計(jì)算而標(biāo)準(zhǔn)化它們。因此,從這些標(biāo)準(zhǔn)化信號(hào)A和8'^選擇 的閾值將不依賴離散聲信號(hào){Xl}的水平。換句話說(shuō),對(duì)(A '^;8'^)被研究,以確定自適 應(yīng)閾值Qi的值。
[0080] 有利的是,在步驟d)期間,針對(duì)幀i的閾值Q i的值是通過(guò)劃分由對(duì)(A ' i,」;S ' i, j) 的值定義的空間和根據(jù)對(duì)(A J的值區(qū)域在一個(gè)或多個(gè)連續(xù)子幀上(例如在1和3之 間)通過(guò)檢查對(duì)(A '^;8'^)的值而建立的。
[0081] 因此,閾值Qi的計(jì)算程序是基于一個(gè)空間的實(shí)驗(yàn)分區(qū),其通過(guò)對(duì)(A J的 值而確定。在一個(gè),兩個(gè)或更多連續(xù)的子幀根據(jù)對(duì)的值區(qū)域而詳細(xì)檢查對(duì)(A 的 值,一個(gè)決策機(jī)制被添加在其中。對(duì)定(AJ的值的定位測(cè)試條件主要依靠于語(yǔ)音 檢測(cè)在之前幀和在一個(gè)、兩個(gè)或更多連續(xù)子幀的輪詢機(jī)制中也使用了一個(gè)實(shí)驗(yàn)分區(qū)。
[0082]根據(jù)一個(gè)特點(diǎn),在子步驟c3)中,滑動(dòng)窗口的長(zhǎng)度Lm滿足以下方程:
[0083] -Lm = L0,如果幀i的子幀j相當(dāng)于一段靜默時(shí)間;
[0084] -Lm = Ll,如果幀i的子幀j對(duì)應(yīng)于一段語(yǔ)音存在時(shí)間;
[0085] 其中,L1<L0,特別是Ll = kl.L和L0 = k0.L,是指數(shù)j的子幀的長(zhǎng)度,k0,kl是正整 數(shù)。
[0086]根據(jù)另一個(gè)特點(diǎn),子步驟c3)中,對(duì)于在幀i的子幀j中每個(gè)變化最大值Si, j的計(jì)算, 關(guān)于所述子幀j長(zhǎng)度N的幀Mm延遲長(zhǎng)度Lm的滑動(dòng)窗口。
[0087]根據(jù)另一特點(diǎn),提供了以下改進(jìn):
[0088]-在子步驟c3)中,在幀i的指數(shù)j的每個(gè)子幀中也計(jì)算標(biāo)準(zhǔn)化變化最大值s'i,j,其 中s'U對(duì)應(yīng)標(biāo)準(zhǔn)化變化信號(hào)A 的最大值,在所述子幀j之前長(zhǎng)度Lm的滑動(dòng)窗口中被計(jì) 算,其中:
[0090]其中每個(gè)標(biāo)準(zhǔn)化變化最大值s'u是根據(jù)一個(gè)最小化的方法計(jì)算的,其包括以下步 驟: S~N.'
[0091 ] _計(jì)算s i, j =max{s i, j-1; A i-,j}和 s'y = max {s i'j-i ; A 卜
[0092] 如果rem( i,Lm) = 0,其中rem是兩個(gè)整數(shù)的整數(shù)除法運(yùn)算余數(shù),然后:
[0093] 二 maX {S iH ;么,卜_},
[0094] ij - ^ i'Mmj
[0095] 其中 s'〇, i = 0 和沒(méi):如=〇;
[0096] 其中,在步驟c4)中,計(jì)算標(biāo)準(zhǔn)化變化差在幀i的指數(shù)j的每個(gè)子幀中計(jì)算如 下:
[0097] S i,j= A i,j-s i,j〇
[0098] 有利的是,在步驟c)中,執(zhí)行子步驟c6),其中在幀i的指數(shù)j的每個(gè)子幀中最大值 qu的最大值被計(jì)算,其中對(duì)應(yīng)于最大值mu的最大值,所述最大值在所述子幀j之前固 定長(zhǎng)度Lq的滑動(dòng)窗口中被計(jì)算,其中所述長(zhǎng)度Lq的滑動(dòng)窗口被長(zhǎng)度N的Mq幀延遲,關(guān)于所述 子幀j,并且其中在幀i的子幀j另一個(gè)參考值稱為次要參考值MRefi,j每子幀j對(duì)應(yīng)所述最大 值qi,j的最大值。
[0099] 因此,為了進(jìn)一步避免錯(cuò)誤的檢測(cè),有利于也考慮到這樣的信號(hào)(次要參考值 MRefi,j = qi,j),其計(jì)算方式類似于上述信號(hào)Si,j的計(jì)算,但是操作最大值mi,j而不是操作變 化信號(hào)A ^或標(biāo)準(zhǔn)化化變化信號(hào)A ' ^。
[0100] 在具體的實(shí)施例中,在步驟d),針對(duì)幀i的閾值i被削減成針對(duì)幀i的每個(gè)子幀j 的若干子閾值Q i, j,其每個(gè)子閾值Q i,j的值至少是根據(jù)參考值Refi, j,MRefi, j建立的,其在 幀i的子幀j中被計(jì)算。
[0101 ]因此,我們有Qi={Qi,l;Qi,2;...;Qi,T},表不閾值Q i削減成針對(duì)子幀j的若干 子閾值Q i, j,建立自適應(yīng)閾值Q i也提供了一個(gè)額外純度。
[0102] 有利的是,在步驟d),針對(duì)幀i的子幀j的每個(gè)閾值Q i, j的值是通過(guò)對(duì)(A ' i, j,S ' i, j)的值與幾對(duì)固定閾值比較而被建立的,每個(gè)閾值Q i, j的值是從取決于對(duì)(A ' i, j,S ' i, j) 與所述幾對(duì)固定閾值的比較而來(lái)的幾個(gè)固定值中選擇的。
[0103] 這些對(duì)固定閾值,例如,是通過(guò)值(A 的空間分布在決策區(qū)域的實(shí)驗(yàn)測(cè) 定的。
[0104] 互補(bǔ)地,針對(duì)幀i的子幀j的每個(gè)閾值的值,通過(guò)在一個(gè)或多個(gè)連續(xù)子幀根據(jù) 對(duì)(A 的初始區(qū)域進(jìn)行對(duì)(A 的比較而被建立。
[0105] 對(duì)(A '^,8、J值的定位測(cè)試條件取決于語(yǔ)音檢測(cè)在前一幀期間和一個(gè)或多個(gè) 連續(xù)子幀的比較過(guò)程也使用了一個(gè)實(shí)驗(yàn)性分區(qū)。
[0106] 當(dāng)然,它也可以針對(duì)幀i的子幀j建立每個(gè)閾值Qi,j的值,通過(guò)比較:
[0107]-對(duì)(A \」,6'^)(主要參考值1?也,」)與幾對(duì)固定閾值的值;
[0108] _qi,j(次要參考值MRefi,j)與其他幾個(gè)固定閾值的值。
[0109] 因此,基于比較對(duì)(A 與幾對(duì)固定閾值的決策機(jī)制,通過(guò)采用基于q1;J與 其他固定閾值的比較的另一個(gè)決策機(jī)制而完成。
[0110] 有利的是,在步驟d),執(zhí)行稱為決策過(guò)程的過(guò)程,包括以下步驟,針對(duì)每一幀i: -對(duì)幀i的每個(gè)子幀j,建立決策DECi( j)的指數(shù),其擁有一個(gè)語(yǔ)音信號(hào)的檢測(cè)的狀 態(tài)《1》或語(yǔ)音信號(hào)的非檢測(cè)的狀態(tài)《0》;
[0112] -建立一個(gè)臨時(shí)決策VAD( i ),其基于決策DECi(j)的指數(shù)與邏輯運(yùn)算符《0R》的比 較,以便如果至少一個(gè)所述決策DECdj)的指數(shù)持有語(yǔ)音信號(hào)檢測(cè)的這種狀態(tài)《1》,臨時(shí)決 策VAD(i)擁有一個(gè)語(yǔ)音信號(hào)檢測(cè)狀態(tài)《1》。
[0113] 因此,為了避免后期檢測(cè)(早期檢測(cè)聯(lián)用),最后決策(聲音或聲音缺失)被認(rèn)為是 這一決策過(guò)程的結(jié)果,其依靠臨時(shí)決策VAD( i)且其本身呈現(xiàn)整個(gè)幀,通過(guò)在子幀j實(shí)施決策 的邏輯運(yùn)算符《0R》,最好是在在短期和從幀i的開(kāi)始完成范圍的連續(xù)子幀j。
[0114] 在這個(gè)決策過(guò)程中,下面的子步驟對(duì)每個(gè)幀可以進(jìn)行:
[0115] -存儲(chǔ)閾值的最大值Lastmax,其對(duì)應(yīng)一個(gè)比較閾值的變量,用于離散聲信號(hào){Xi} 的幅度值,在它被認(rèn)為聲信號(hào)不包括語(yǔ)音信號(hào)之下,在指數(shù)k的最后一幀期間這個(gè)變量值被 確定,其優(yōu)于所述幀i和在臨時(shí)決策VAD(k)中具有一個(gè)語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》;
[0116] -存儲(chǔ)一個(gè)平均最大值A(chǔ)^,對(duì)應(yīng)于該幀i的子幀j中的離散聲信號(hào)的平均最大值, 計(jì)算如下:
[0117] Ai, j = 9Ai, j-i+(l-9)ai,j
[0118] 其中ai,j對(duì)應(yīng)于離散聲信號(hào){xi}最大值,包含在幀k中,由幀i的子幀j和至少一個(gè) 或多個(gè)優(yōu)先于所述子幀j的連續(xù)子幀形成,和
[0119] 0是一個(gè)預(yù)定義的包含在0和1之間的系數(shù),且0〈入;
[0120]-建立每個(gè)子閾值i,j的值,其取決于在所述閾值最大值Lastmax以及平均最大值 Ai, j和Ai, j-i之間的比較,其中Ai, j和Ai, j-i考慮兩個(gè)連續(xù)子幀j和j_l。
[0121] 在許多情況下,錯(cuò)誤的檢測(cè)到達(dá)幅度低于語(yǔ)音信號(hào)(麥克風(fēng)被位于通信的人的嘴 的附近)。因此,這個(gè)決策過(guò)程目的是進(jìn)一步通過(guò)更新于最后的活化時(shí)期的存儲(chǔ)語(yǔ)音信號(hào)中 的閾值最大值Lastmax和平均最大值A(chǔ)i,j和消除不良檢測(cè),其中Ai,j和Ai,j-i對(duì)應(yīng)于在幀 i的子幀j和j -l中的離散聲音信號(hào){xi}的平均最大值。考慮到這些值(Lastmax,Ai, j和 Ai, h ),在自適應(yīng)閾值Q i的成立條件被添加。
[0122] 0值低于系數(shù)A以便阻礙的波動(dòng)是很重要的。
[0123] 上述決策過(guò)程中,每當(dāng)方法被認(rèn)為幀k的子幀p包含語(yǔ)音信號(hào)時(shí),閾值最大值 Las tmax被更新,通過(guò)執(zhí)行以下步驟:
[0124] -在一段沒(méi)有語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀p中的語(yǔ)音信號(hào),在這種情況下 Lastmax需要更新值[a(Ak,P+LastMax)],其中a是一個(gè)預(yù)定義的系數(shù)包含在〇和1之間,且例 如包含在由0.2和0.7之間;
[0125] -在一段存在語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀p的語(yǔ)音信號(hào),在這種情況下 Las tmax取得更新后的值A(chǔ)k, P如果Ak, P>Las tmax。
[0126] 因此,值Lastmax更新只有在這個(gè)方法的激活期間被執(zhí)行(換句話說(shuō),語(yǔ)音檢測(cè)周 期)。在語(yǔ)音檢測(cè)的情況下,值Lastmax相當(dāng)于Ak, P當(dāng)我們具有Ak,P>LastMax時(shí)。然而,重要的 是執(zhí)行該更新如下進(jìn)行,第一子幀P的激活跟隨一靜默區(qū)域:值Lastmax相當(dāng)于[a(A k,P+ LastMax)]〇
[0127] 這個(gè)閾值的最大值Lastmax的更新機(jī)制允許方法來(lái)檢測(cè)用戶的聲音,即使后者降 低了他的聲音強(qiáng)度(換句話說(shuō),更安靜的講話)相比較于上次他說(shuō)話時(shí)方法檢測(cè)到的。
[0128] 換句話說(shuō),為了進(jìn)一步提高免除錯(cuò)誤檢測(cè),精細(xì)加工被執(zhí)行,其中閾值的最大值 Las tmax是可變的,且與謹(jǐn)慎的聲信號(hào)的平均最大值A(chǔ)i, j和Ai, j-i比較。
[0129] 事實(shí)上,遙遠(yuǎn)的聲音可以用方法收集,因?yàn)檫@樣的聲音有基頻可能被檢測(cè)到,如用 戶的語(yǔ)音。為了確保遙遠(yuǎn)的聲音,其在很多情況下可能是令人討厭的,不被本方法考慮,一 種處理過(guò)程被考慮在信號(hào)(在兩個(gè)連續(xù)的幀)的平均最大值,在這種情況下,和Am,與 Lastmax比較,根據(jù)過(guò)去激活中測(cè)量的用戶聲音的大小其包含一個(gè)可變閾值。因此,閾值Qi 的值被設(shè)置在一個(gè)非常低的最小值,當(dāng)信號(hào)低于閾值時(shí)。
[0130] 這個(gè)建立取決于閾值的最大值Lastmax的閾值Q i的值的條件是有利于基于在以 下之間的比較:
[0131] -閾值的最大值Lastmax;和
[0132] -值[Kp.Ai,」]和[Kp.Ai,」-0,其中Kp是一個(gè)包含在1和2之間的固定的加權(quán)系數(shù)。
[0133] 在這種方式中,閾值的最大值Lastmax與離散聲信號(hào){xi}平均最大值比較在子幀j 和j-1 (Ai, jand A i,因加權(quán)系數(shù)Kp加權(quán),其包含在1和2之間,以增強(qiáng)檢測(cè)。這個(gè)比較僅當(dāng)前 面幀沒(méi)有導(dǎo)致語(yǔ)音檢測(cè)時(shí)產(chǎn)生。
[0134] 有利的是,該方法還包括一個(gè)稱為阻斷階段的階段包括從一個(gè)語(yǔ)音信號(hào)的非檢測(cè) 狀態(tài)到語(yǔ)音信號(hào)的檢測(cè)狀態(tài)的轉(zhuǎn)換,在已檢測(cè)到語(yǔ)音信號(hào)在N P連續(xù)時(shí)間幀i的存在之后。
[0135] 因此,該方法實(shí)現(xiàn)了一種掛起類型步驟,其被配置以便從不存在語(yǔ)音的情況下到 存在聲音的情況下的過(guò)渡只發(fā)生在存在聲音的NP連續(xù)幀之后。
[0136] 類似地,該方法還包括一種稱為阻斷階段的階段,該階段包括轉(zhuǎn)換步驟,從語(yǔ)音信 號(hào)的檢測(cè)狀態(tài)到語(yǔ)音信號(hào)的非檢測(cè)狀態(tài),在Na連續(xù)時(shí)間幀i上已經(jīng)檢測(cè)語(yǔ)音信號(hào)不存在之 后。
[0137] 因此,該方法實(shí)現(xiàn)了一個(gè)掛起類型步驟,以便從一種存在聲音的情況下到?jīng)]有聲 音的情況下的過(guò)渡只發(fā)生在沒(méi)有音聲的Na連續(xù)幀之后。
[0138] 如果沒(méi)有這些轉(zhuǎn)換步驟,該方法可能會(huì)偶爾削減聲音信號(hào)在所說(shuō)的句子或甚至在 所說(shuō)的單詞中間。為了克服這一點(diǎn),這些轉(zhuǎn)換步驟在給定的一系列幀上實(shí)施阻斷或掛起步 驟。
[0139] 根據(jù)本發(fā)明的一個(gè)可能性,該方法包括一個(gè)中斷阻斷階段的步驟在決策領(lǐng)域,發(fā) 生在單詞的結(jié)束和無(wú)噪聲的情況下,所述決策領(lǐng)域是通過(guò)分析離散檢測(cè)函數(shù)rodi)的最小 值rr (i)而被檢測(cè)的。
[0140] 因此,在決策空間中一個(gè)特定的檢測(cè)過(guò)程,阻斷階段再單詞或句子的結(jié)尾處被中 斷。這種中斷只發(fā)生在一個(gè)無(wú)噪音或噪音很小的情況下。因此,該方法提供了一個(gè)特定的決 策區(qū)域用于隔離,其只發(fā)生在單詞的結(jié)尾處和在一個(gè)非噪音的情況下。為了加強(qiáng)這區(qū)域的 檢測(cè)決策,本方法也利用離散檢測(cè)函數(shù)^^^)的最小值 rr(i),離散檢測(cè)函數(shù)rodW對(duì)應(yīng)的 離散差函數(shù)Di(T)或離散標(biāo)準(zhǔn)化差函數(shù)DNi(T)。因此,在語(yǔ)音結(jié)束時(shí),語(yǔ)音就會(huì)被更快速地切 斷,從而使系統(tǒng)有更好的音頻質(zhì)量。
[0141] 本發(fā)明的一個(gè)目的是包括代碼指令的計(jì)算機(jī)程序可以控制聲音檢測(cè)方法的步驟, 當(dāng)由處理器執(zhí)行時(shí)如本文中定義的方法被執(zhí)行。
[0142] 本發(fā)明的另一個(gè)目的是用于記錄數(shù)據(jù)的記錄介質(zhì),在其上計(jì)算機(jī)程序如本文所定 義的被存儲(chǔ)。
[0143] 本發(fā)明的另一個(gè)目的是一個(gè)計(jì)算機(jī)程序規(guī)則,如本文中定義的在電信網(wǎng)絡(luò)上提供 下載。
【附圖說(shuō)明】
[0144] 本發(fā)明的其他特性和優(yōu)點(diǎn),將在以下詳細(xì)描述,對(duì)所述的實(shí)施例進(jìn)行詳細(xì)的描述, 參考引用的附圖標(biāo)記:
[0145] -圖1是根據(jù)本發(fā)明的方法的概要圖;
[0146] -圖2是通過(guò)稱為掛起類型步驟的阻斷步驟決策而實(shí)施的限制循環(huán)的的示意圖;
[0147] -圖3顯示了聲音檢測(cè)方法的結(jié)果,在頂部,用檢測(cè)函數(shù)的最小值rr(i)和固定閾值 線Q fix的曲線表示固定閾值和,在底部,用離散聲信號(hào){Xl}和輸出信號(hào)DK的曲線表示;
[0148] -圖4顯示了聲音檢測(cè)方法的結(jié)果,在頂部,用檢測(cè)函數(shù)的最小值rr(i)和自適應(yīng)閾 值線Q i的曲線表不自適應(yīng)閾值,在底部,用離散聲信號(hào){xi}和出信號(hào)DFi的曲線表不。
【具體實(shí)施方式】
[0149] 聲音的檢測(cè)方法的描述參照?qǐng)D1,是示意性地示出了在嘈雜的環(huán)境中來(lái)自單麥克 風(fēng)的操作在嘈雜的聲信號(hào)x(t)中的用于檢測(cè)語(yǔ)音(或聲音)存在的所要求的連續(xù)的不同步 驟。
[0150] 該方法開(kāi)始于初步抽樣步驟101,其包括削減聲信號(hào)x(t)為離散聲信號(hào){Xi},包含 與長(zhǎng)度N的時(shí)間幀i相關(guān)聯(lián)的一系列向量,N對(duì)應(yīng)的米樣點(diǎn)數(shù)量,其中每個(gè)向量反映與幀i相 關(guān)聯(lián)的聲內(nèi)容且包含N個(gè)樣本X(i-1)N+1,X(i-l)N+2"_,XiN-1,XiN,i是一個(gè)正整數(shù):
[0151] 例如,噪聲的聲信號(hào)x(t)被分為240個(gè)或256個(gè)樣品的幀,其中,在采樣頻率為8 千赫茲,對(duì)應(yīng)于30或32毫秒的時(shí)間幀。
[0152] 該方法繼續(xù)用步驟102計(jì)算離散差函數(shù)Dib)相對(duì)于該幀i,計(jì)算如下:
[0153] -細(xì)分每個(gè)幀i到長(zhǎng)度H的子幀k,關(guān)系如下:
[0155] 其中,[_」表示整數(shù)部分的四舍五入的操作符,
[0156] 以便,該樣本的離散聲信號(hào){xi}在幀i的指數(shù)p的子幀中,包括以下H的樣本:
[0157] X(i-l)N+(p-l)H+l,X(i-l)N+(p-l)H+2,…,X(i-l)N+pH,P是一個(gè)正整數(shù),包括在 1和K之間;然后
[0158]-指數(shù)p的每子幀,計(jì)算下列差ddp( t ): 1 1 , \ ^-^(i-1 )N+pH
[0159] ddp(r) = XHM)N+(p_1)H+i^-^-5
[0160]-計(jì)算離散差函數(shù)口:卜)相對(duì)于幀i作為幀i的指數(shù)p的子幀的差函數(shù)ddP(T)的總和, 即:
[0161] D.(x) = Xp=iddP(1:) ?
[0162] 也有可能步驟102還包括一個(gè)離散標(biāo)準(zhǔn)化函數(shù)dNi(〇的計(jì)算,來(lái)自離散差函數(shù)Di (t),如下:
[0163] DNi(T) = 1 如果 t = 〇,
:如果t乒0.
[0165] 該方法繼續(xù)步驟103,其中,對(duì)于每幀i:
[0166] -細(xì)分幀i包括N個(gè)采樣點(diǎn)到長(zhǎng)度L的子幀T,其中N是T的倍數(shù),以便長(zhǎng)度L = N/T是整 數(shù),并使離散聲信號(hào){Xl}的樣本在幀i的指數(shù)j的子幀中包含以下L樣本:
[0167] X(i-l)N+(j-l)L+l,X(i-l)N+(j-l)L+2,…,X(i-l)N+jL,j 是一個(gè)正整數(shù),包括在 1 和T之間;
[0168] b):計(jì)算幀i的指數(shù)j的每個(gè)子幀中的離散聲信號(hào){Xi}的最大值mi, j:
[0169] mi,j=max{x(i-i)N+(j-i)L+i,x(i-i)N+(j-i)l+2,…,x(i-i)N+jL};
[0170] 舉例來(lái)說(shuō),長(zhǎng)度240(N = 240)的每幀i被細(xì)分為長(zhǎng)度60(即T = 4和L = 60)的四個(gè)子 幀。
[0171] 然后,在步驟104中,平滑的最大值:力ij的包絡(luò)在幀i的指數(shù)j的每個(gè)子幀中被計(jì)算, 定義如下:
[0172] 呵j = + (1-A) mu,其中A是一個(gè)預(yù)定義的系數(shù)包含在0和1之間。
[0173] 然后,在步驟105中,變化信號(hào)A ^在幀i的指數(shù)j的每個(gè)子幀中被計(jì)算,定義如下:
[0174] A,j = mir 賤)=入(mir 賤卜,)
[0175] 然后,在步驟106,標(biāo)準(zhǔn)化變化信號(hào)A 被計(jì)算,定義如下:
[0177] 然后,在步驟107中,變化最大值Si, j在幀i的指數(shù)j的每個(gè)子幀被計(jì)算,其中,Si, j對(duì) 應(yīng)變化信號(hào)A ^的最大值,在所述子幀j之前計(jì)算于長(zhǎng)度Lm的滑動(dòng)窗口。在這步驟106中,根 據(jù)幀i的子幀j對(duì)應(yīng)于靜默時(shí)期或?qū)?yīng)于語(yǔ)音存在,長(zhǎng)度Lm是變量:
[0178] -Lm = L0,如果幀i的子幀j對(duì)應(yīng)于一段沉默時(shí)期;
[0179] -Lm = Ll,如果幀i的子幀j對(duì)應(yīng)于一個(gè)存在語(yǔ)音的時(shí)期;
[0180] L1<L0。舉例來(lái)說(shuō),Ll=kUL和L0 = k0.L,作為一個(gè)提醒,對(duì)指數(shù)j和k0的子幀的長(zhǎng) 度是正整數(shù),其中kl〈k0。此外,長(zhǎng)度Lm的滑動(dòng)窗口通過(guò)長(zhǎng)度N的Mm幀被延遲與所述子幀j相 比。
[0181] 步驟106中,標(biāo)準(zhǔn)化變化最大值s'i,j也在幀i的指數(shù)j的每子幀中被計(jì)算,其中:
[0183] 可以想象的是計(jì)算標(biāo)準(zhǔn)化偏差最大值s'u根據(jù)最小化的方法包括以下迭代步驟:
[0184] _計(jì)算8';1,」=11^{8';1,」-1;八':1-_,]和4 = 111狀{3、-1;厶'丨_|\^}
[0185 ]-如果rem (i,Lm) = 0,其中rem是兩個(gè)整數(shù)的整數(shù)除法余數(shù)運(yùn)算符,然后:
[0186] Sij= max{s^
[0187] S'j| = &'i,iVtm,j
[0188] -如果
[0189] s'o.^O^PSqj =0:.
[0190]然后,在步驟108中,變化差心,」在幀i的指數(shù)j的每個(gè)子幀中,被定義:
[0191] Si; j= A i, j-si, j.
[0192] 在這一步驟108中,標(biāo)準(zhǔn)化變化差S'i,j在幀i的指數(shù)j的每個(gè)子幀中,被定義:
[0194] 然后,在步驟109中的最大值qi, j的最大值在幀i的指數(shù)j的每個(gè)子幀中對(duì)應(yīng)于最大 值mi, j的最大值,在所述子幀j之前其計(jì)算于固定長(zhǎng)度Lq的滑動(dòng)窗口,其中長(zhǎng)度Lq的滑動(dòng)窗 口是被與所述子幀j相比長(zhǎng)度N的幀Mq所延遲。有利地,Lq>L0,且主要的Lq = kq. L。其中kq是 一個(gè)正整數(shù)和kq>k0。此外,我們有Mq>Mm。
[0195] 在這一步驟109中,根據(jù)一個(gè)最小化方法,計(jì)算最大值qi,j的最大值,包括以下迭代 步驟:
[0196] -計(jì)算91,」=11^{91,」-1;1]1卜1^,」}和知=.丨113乂{^_1;(11丨_|^}
[0197] -如果rem(i,Lq)=0,這是兩個(gè)整數(shù)的整數(shù)除法余數(shù)運(yùn)算符,然后:
[0198] qij = max 說(shuō)}, fi,j = n%咖,j
[0199] -如果
[0200] q(u = 0 和 f〇,l = 0。
[0201]然后,在步驟110中,閾值Qi針對(duì)每幀i在多個(gè)固定值Qa,Qb,Qc,等中被建立。 更細(xì)的子閾值U勺值針對(duì)幀i的每個(gè)子幀j被建立,閾值Q :被分割成幾個(gè)子閾值Q u,通 過(guò)舉例的方式,每個(gè)閾值Qi或子閾值Qi,j得到一個(gè)固定值,從六個(gè)固定值Qa, Qb, nc, n d, Qe, Qf中選擇,這些固定值,例如包含在0.05和1之間,特別是在0.1和0.7之間。
[0202] 每個(gè)閾值Qi或子閾值Qi,j是被設(shè)置在固定值Qa,Qb,Qc,Qd,Qe,Qf之一,通 過(guò)兩個(gè)分析實(shí)現(xiàn)的:
[0203] -第一分析:在幀i的指數(shù)j的子幀中對(duì)(A 的值與幾對(duì)固定閾值比較;
[0204] -第二分析:在幀i的指數(shù)j的子幀中,最大值的最大值與固定閾值比較。
[0205] 這些分析之后,稱為決策程序的過(guò)程將給出最終決策在幀中的聲音的存在。這一 決策程序包括以下每一幀i的子步驟:
[0206]-對(duì)幀i的每個(gè)子幀j,決策DECi(j)的指數(shù)被建立,其擁有一個(gè)語(yǔ)音信號(hào)檢測(cè)狀態(tài) 《1》或語(yǔ)音信號(hào)的非檢測(cè)狀態(tài)《0》;
[0207] -建立一個(gè)臨時(shí)決策VAD(i)基于決策DECi(j)的指數(shù)與邏輯運(yùn)算符《0R》的比較,以 便臨時(shí)決策VAD(i)擁有一個(gè)語(yǔ)音信號(hào)的檢測(cè)狀態(tài)《1》,如果至少一個(gè)所述決策DECdj)的指 數(shù)持有這種語(yǔ)音信號(hào)的檢測(cè)狀態(tài)《1》,換句話說(shuō),我們有以下的關(guān)系:
[0208] VAD(i)=DECi(l)+DECi(2) + . ? .+DECi(T),其中〃+"是運(yùn)算符《0R》。
[0209] 因此,根據(jù)第一和第二分析的比較,并根據(jù)臨時(shí)決策VAD(i)的狀態(tài),閾值Qi被設(shè) 置在固定值Qa, Qb,Qc,Qd,Qe, Qf之一,通過(guò)最小值rr(i)與閾值Qi比較,閾值被設(shè)置 在六個(gè)固定值之一上(見(jiàn)下文描述),最后決策被推導(dǎo)出。
[0210] 在許多情況下,錯(cuò)誤檢測(cè)(或tonches)到達(dá)比語(yǔ)音信號(hào)的量級(jí)更低的量級(jí),麥克風(fēng) 位于靠近使用者的嘴。通過(guò)考慮到這一點(diǎn),有可能通過(guò)存儲(chǔ)從《VAD》的激活的最后時(shí)期的語(yǔ) 音信號(hào)中推導(dǎo)的閾值最大值La s tma x和由基于該閾值最大值La s tmax的方法中增加一個(gè)條 件,以進(jìn)一步消除所述錯(cuò)誤檢測(cè)。
[0211] 因此,在上文描述步驟109中,有被添加存儲(chǔ)閾值最大值Lastmax,其對(duì)應(yīng)于比較閾 值的變量(或更新)值,用于離散聲信號(hào){ Xl}的大小低于不包含語(yǔ)音信號(hào)的聲音信號(hào),在指 數(shù)k的最后幀中此變量值被確定,其優(yōu)先于所述幀i且其中所述臨時(shí)決策VAD( k)持有語(yǔ)音信 號(hào)的檢測(cè)狀態(tài)《1》。
[0212] 在這一步驟109中,還存儲(chǔ)了一平均最大值A(chǔ)i,j,其對(duì)應(yīng)于離散聲信號(hào){Xi}的平均 最大值,在計(jì)算幀i的子幀j中,如下:
[0213] Ai,j = 0Ai,j-i+(l-0)aij
[0214] 其中ai,j對(duì)應(yīng)離散聲信號(hào){Xi}的最大值,包含在由幀i的子幀j以及至少一個(gè)或多 個(gè)連續(xù)子幀形成的理論幀k中,連續(xù)子幀優(yōu)于所述子幀j;且0是一個(gè)預(yù)定義的系數(shù)包含在0 和1之間,且0〈入。
[0215]在這一步驟109中,閾值的最大值Lastmax被更新,每當(dāng)方法考慮到幀k的子幀p包 含語(yǔ)音信號(hào)時(shí),通過(guò)執(zhí)行以下步驟:
[0216] -在一段非語(yǔ)音時(shí)期之后在幀k的子幀p中檢測(cè)語(yǔ)音信號(hào),在這種情況下,Lastmax 需要更新值[a(Ak,P+LastMax)],其中a是一個(gè)預(yù)定義的系數(shù)包含在〇和1之間,例如在0.2和 0.7之間;
[0217] -在一段存在語(yǔ)音時(shí)期之后在幀k的子幀p中檢測(cè)語(yǔ)音信號(hào),在這種情況下, Las tmax 需要更新值 Ak, p 如果Ak, P>Las tmax。
[0218] 然后,在上述步驟110中描述,基于閾值的最大值Lastmax的條件被加入i以便設(shè)置 閾值Qi。
[0219] 對(duì)于每一幀,這個(gè)條件是基于以下的比較:
[0220] -閾值的最大值Lastmax,和
[0221] -值[Kp.Ai,j]和[Kp. Ai,j-!],其中Kp是一個(gè)固定加權(quán)系數(shù)包含在1和2之間。
[0222] 它也可以被想到在給定超時(shí)時(shí)間后降低閾值最大值Lastmax(例如設(shè)置在幾秒鐘 和幾十秒之間)在幀i和指數(shù)k的最后上述幀之間,以便如果用戶/講話者明顯降低他的聲音 的量級(jí)則避免語(yǔ)音的無(wú)損檢測(cè)。
[0223]然后,在步驟ill中,每個(gè)當(dāng)前幀i被計(jì)算,離散檢測(cè)函數(shù)roi(〇的最小值rr(i)對(duì) 應(yīng)離散差函數(shù)Di ( t )或離散標(biāo)準(zhǔn)化函數(shù)DNi ( t )。
[0224] 最后,在最后步驟112中,每一當(dāng)前幀i,這個(gè)最小值rr (i)與針對(duì)幀i的閾值Q i比 較,以檢測(cè)語(yǔ)音信號(hào)是否存在(或濁音信號(hào)),其中:
[0225] -如果,則幀i被考慮表示語(yǔ)音信號(hào)且所述方法提供一個(gè)輸出信號(hào)0巧獲 得值《1》(換句話說(shuō),對(duì)幀i的最終決策是《幀i中聲首存在》);
[0226] -如果rrGDQi,則幀i被考慮作為沒(méi)有語(yǔ)音信號(hào)和所述方法提供一個(gè)輸出信號(hào) DFi獲得值《0》(換句話說(shuō),對(duì)幀i的最終決策是《幀i中無(wú)聲音》)。
[0227] 參考附圖1和2,提供改進(jìn)的方法是可能的,通過(guò)引入一個(gè)額外決策阻斷步驟113 (或掛起步驟),以避免在一個(gè)句子和在發(fā)音期間,聲音銷減,這一決策阻斷步驟113旨在加 強(qiáng)對(duì)語(yǔ)音的存在/不存在的決策,執(zhí)行以下兩個(gè)步驟:
[0228] -在NP連續(xù)的時(shí)間幀i上檢測(cè)到語(yǔ)音信號(hào)的存在后,從一個(gè)語(yǔ)音信號(hào)的非檢測(cè)狀態(tài) 切換到一個(gè)語(yǔ)音信號(hào)的檢測(cè)狀態(tài);
[0229] -在Na連續(xù)的時(shí)間幀i上檢測(cè)到語(yǔ)音信號(hào)不存在后,從一個(gè)語(yǔ)音信號(hào)的檢測(cè)狀態(tài)切 換到一個(gè)語(yǔ)音信號(hào)的非檢測(cè)狀態(tài)。
[0230] 因此,這一阻斷步驟113允許輸出聲音Dv的檢測(cè)決策信號(hào),其獲得值《1》對(duì)應(yīng)聲音 的檢測(cè)決策,且值《〇》對(duì)應(yīng)于聲音的非檢測(cè)決策,其中:
[0231] -聲音Dv檢測(cè)決策信號(hào)從狀態(tài)《1》切換到狀態(tài)《0》,當(dāng)且僅當(dāng)輸出信號(hào)DFi獲得值《0》 在Na連續(xù)時(shí)間幀i上;和
[0232]-聲音Dv檢測(cè)決策信號(hào)從狀態(tài)《0》切換到狀態(tài)《1》,當(dāng)且僅當(dāng)輸出信號(hào)DFi獲得值《1》 在Np連續(xù)時(shí)間幀i上。
[0233] 參見(jiàn)圖2,如果我們假設(shè)我們從一個(gè)狀態(tài)《Dv=l》開(kāi)始,我們切換到狀態(tài)《Dv = 0》,如 果輸出信號(hào)DFi獲得值《0》在Na連續(xù)時(shí)間幀上,否則狀態(tài)保持在《Dv=l》(Ni表示在該系列的 開(kāi)始幀的數(shù)量)。同樣,如果我們假設(shè)我們從一個(gè)狀態(tài)《Dv = 0》開(kāi)始,我們切換到狀態(tài)《Dv=l》 如果輸出信號(hào)DFi取值《1》在NP連續(xù)幀上,否則狀態(tài)保持在《Dv = 0》。
[0234] 最終決策適用于處理幀的第一 H樣本。優(yōu)選地,Na是大于NP,例如Na=100和NP = 3, 因?yàn)槊半U(xiǎn)檢測(cè)靜默更好,而不是削減對(duì)話。
[0235] 在描述的其余部分集中于兩種聲音檢測(cè)結(jié)果,通過(guò)使用固定的閾值(圖3)的常規(guī) 方法獲得,和根據(jù)本發(fā)明的方法利用自適應(yīng)閾值(圖4)獲得。
[0236] 在圖3和4(在底部)中,應(yīng)該注意的是,兩種方法在同一離散聲信號(hào){Xl}工作,具有 在縱坐標(biāo)的量級(jí)和橫坐標(biāo)的樣本。這種離散聲信號(hào){ Xl}有語(yǔ)音《PAR》存在的單一區(qū)域,和不 必要的噪音,如音樂(lè),鼓,人群呼喊和口哨存在的許多區(qū)域。這種離散聲信號(hào){^}反映環(huán)境 表示在人(如裁判)之間通信,其在體育場(chǎng)或體育館內(nèi)噪音具有相對(duì)非常強(qiáng)的水平,且是非 常不穩(wěn)定的。
[0237] 在圖3和4(在頂部)中,應(yīng)該注意的是,這兩種方法利用同一函數(shù)rr(i),其對(duì)應(yīng),通 過(guò)提醒的方式,所選擇的離散檢測(cè)函數(shù)FDi(i)的最小值。
[0238] 在圖3 (在頂部)中,最小函數(shù)rr (i)被比較,與一個(gè)固定的固定閾值Q f ix以確保語(yǔ) 音的檢測(cè)最佳地選擇。在圖3(在底部)中,持有狀態(tài)《1》的輸出信號(hào)DFi的形狀應(yīng)該被注意, 如果:rr(iX Q fix和狀態(tài)《0》如果rr(i)> Q fix。
[0239] 在圖4(在頂部)中,最小函數(shù)rr(i)與根據(jù)上述附圖1描述的步驟計(jì)算的自適應(yīng)閾 值1比較,在圖4(在底部)中,持有狀態(tài)《1》的輸出信號(hào)DFi的形狀值得被注意,如果rr⑴彡 ^^且狀態(tài)《〇》如果^(1)>〇1。
[0240]在圖3中指出,根據(jù)本發(fā)明的方法允許聲音檢測(cè)在具有保持狀態(tài)《1》的輸出信號(hào) DFi的語(yǔ)音《PAR》存在區(qū)域,而同樣的輸出信號(hào)DFi持有幾倍狀態(tài)《1》在此語(yǔ)音尚未存在的其 它區(qū)域,這與傳統(tǒng)的方法不需要的錯(cuò)誤檢測(cè)相對(duì)應(yīng)。
[0241]然而,在圖4中應(yīng)注意的是,根據(jù)本發(fā)明的方法允許最佳的聲音檢測(cè)在具有保持狀 態(tài)《1》的輸出信號(hào)DFi的語(yǔ)音《PAR》存在區(qū)域,而持有狀態(tài)《0》的同樣輸出信號(hào)DFi在此語(yǔ)音尚 未存在的其它區(qū)域。因此,按照本發(fā)明的方法確保強(qiáng)還原錯(cuò)誤檢測(cè)的數(shù)量的聲音檢測(cè)。 [0242]當(dāng)然,上面提到的實(shí)施例中并不限制根據(jù)本發(fā)明的方法可能涉及的特征和其他改 進(jìn)和細(xì)節(jié),而不脫離本發(fā)明的范圍的情況,其中檢測(cè)函數(shù)FD(t)的其他計(jì)算算法可以被使 用。
【主權(quán)項(xiàng)】
1. 一種語(yǔ)音檢測(cè)方法,其允許檢測(cè)來(lái)自麥克風(fēng)的嘈雜聲信號(hào)X(t)中的語(yǔ)音信號(hào)的存 在,包括下列連續(xù)的步驟: -初步采樣步驟,包括聲信號(hào)x(t)削減成離散聲信號(hào){Xl},所述離散聲信號(hào)由與長(zhǎng)度N的 時(shí)間幀i相關(guān)聯(lián)的一系列向量組成,N對(duì)應(yīng)于樣本點(diǎn)的數(shù)量,其中每個(gè)向量反映相關(guān)幀i的聲 學(xué)內(nèi)容,并且由N個(gè)樣本X(i-1)N+1,X(i-1)Ν+2,…,XiN-1,XiN組成,i是一個(gè)正整數(shù); -基于差函數(shù)D(T)的計(jì)算而計(jì)算檢測(cè)函數(shù)ro(T)步驟,根據(jù)開(kāi)始于時(shí)間to的長(zhǎng)度W的集 齒 π 卜的亦甘士I .其中計(jì)算檢測(cè)函數(shù)FD(T)步驟在于計(jì)算與幀i相關(guān)的離散檢測(cè)函數(shù)FD1(T); -根據(jù)在所述當(dāng)前間隔中建立的聲信號(hào)x(t)計(jì)算的值,在所述當(dāng)前間隔適應(yīng)閾值的步 驟; 其中適應(yīng)閾值的步驟包括,對(duì)于每個(gè)幀i,根據(jù)從在所述幀i的離散聲信號(hào){^丨的樣本中 的值計(jì)算的參考值,適應(yīng)針對(duì)幀i的適應(yīng)閾值Ω i; -搜索和比較步驟,搜索檢測(cè)函數(shù)FD(T)的最小值和該最小值與閾值進(jìn)行比較,在稱為 當(dāng)前間隔的確定的時(shí)間間隔內(nèi),其中τ變化以便在當(dāng)前間隔內(nèi)檢測(cè)語(yǔ)音信號(hào)的基頻Fo特性 存在或不存在, 其中,檢測(cè)函數(shù)Π )(τ)的最小值的搜索和該最小值與閾值比較的步驟是通過(guò)在每個(gè)幀i 上,離散檢測(cè)函數(shù)FD1⑴的最小值rr⑴進(jìn)行搜索,和最小值rr⑴與針對(duì)幀i的閾值Q1進(jìn)行 比較; 且其中適應(yīng)每個(gè)幀i的所述閾值〇,的步驟包括以下的步驟: a) _細(xì)分包括N個(gè)采樣點(diǎn)的幀i到長(zhǎng)度L的T子幀,其中N是T的倍數(shù),以便長(zhǎng)度L = N/T是一 個(gè)整數(shù),從而使在幀i的指數(shù)j的子幀中離散聲信號(hào){^}的樣本包括以下L個(gè)樣本: X(i-l)N+(j-1)L+1,X(i-l)N+(j-l)L+2,…,X(i-l)N+jL,,j是一個(gè)正整數(shù),包括在 I 和T之間; b) _計(jì)算離散聲信號(hào){^}的最大值ΠΗ,」,在每一個(gè)幀i的指數(shù)j的子幀的中,其中: ΠΗ, j=max{x(i-l)N+(j-l)L+l ,X(i-l)N+(j-l)L+2, ··· ,X(i-l)N+jL}; C)-計(jì)算至少一個(gè)參考值此5,」,1如5,」針對(duì)幀丨的子幀九所述或每個(gè)參考值此5丄 MRef i, j每子幀j由最大值mi, j被計(jì)算,在幀i的子幀j中; d)-建立針對(duì)幀i的閾值Ω i的值,其取決于在幀i的子幀j中計(jì)算的所有的參考值Ref i, j, MRefijo2. 根據(jù)權(quán)利要求1所述的檢測(cè)方法,其中,檢測(cè)函數(shù)FD(T)對(duì)應(yīng)于差函數(shù)D(t)。3. 根據(jù)權(quán)利要求1所述的檢測(cè)方法,其中,檢測(cè)函數(shù)Π )(τ)對(duì)應(yīng)于標(biāo)準(zhǔn)化差函數(shù)DN(T), 其從差函數(shù)D(T)計(jì)算得到,如下: DN(T) = I 如果 τ = 〇,其中計(jì)算標(biāo)準(zhǔn)化差函數(shù)DN(T)在于與幀i相關(guān)聯(lián)的離散標(biāo)準(zhǔn)化差函數(shù)DN1(T)的計(jì)算,其 中: DNi(T) = I 如果 τ = 〇,4. 根據(jù)權(quán)利要求1至3中任一所述的方法,其中,相對(duì)于幀i的離散差函數(shù)D1(T)計(jì)算如 下: -細(xì)分幀i到長(zhǎng)度H的K子幀,伊'^其f€示對(duì)整數(shù)部分的四舍五入的操作,因此,在幀i的指數(shù)p的子幀中,離散聲信 號(hào){Xl}的樣本包括H個(gè)樣本: X(i-l)N+(p-1)H+1,X(i-l)N+(p-1)Η+2,…,X(i-1)Ν+ρΗ,Ρ 是一個(gè)正整數(shù),包括在 I 和K之間; -對(duì)于指數(shù)P的每個(gè)子幀,計(jì)算下列差函數(shù)Cldp(T):-計(jì)算相對(duì)于幀i的離散差函數(shù)D i (τ),作為幀i的指數(shù)P的子幀的差函數(shù)d d P (τ)的總和, 即:5. 根據(jù)前述任一權(quán)利要求所還的萬(wàn)法,具中,在步驟c)中,在每個(gè)幀i上進(jìn)行下面的子 步驟: cl)-計(jì)算平滑最大值歡泡絡(luò)線,在幀i的指數(shù)j的每個(gè)子幀中:,其中λ是一個(gè)預(yù)定義的系數(shù)包括在〇和1之間; c2)-計(jì)算變化信號(hào)」龍rflrifi.的佑撒·;的毎木其中至少一個(gè)參考值禰為主要參考值Refi,j母于幀j由變化信號(hào)Δ i;j在幀i的子幀j中 被計(jì)算。6. 根據(jù)前述權(quán)利要求5所述的方法,其中,在步驟c)和隨后的子步驟c2)中,下面子步驟 在每個(gè)幀i上進(jìn)行: c3)_計(jì)算變化最大值si, j在幀i的指數(shù)j的每個(gè)子幀中,其中si, j對(duì)應(yīng)于變化信號(hào)△ i,j最 大值,其在所述子幀j之前的長(zhǎng)度Lm的滑動(dòng)窗口被計(jì)算,所述長(zhǎng)度Lm是可變的,其取決于幀i 的子幀j是否對(duì)應(yīng)一段靜默期間或語(yǔ)音存在; c4)_計(jì)算變化差Si, j在幀i的指數(shù)j的每個(gè)子幀中,其中: Sij= Δ ij-sij; 其中,幀i的每個(gè)子幀j,兩個(gè)主要的參考值Ref^被分別由變化信號(hào)△^和變化差Slij 計(jì)算。7. 根據(jù)前述權(quán)利要求6所述的方法,其中,在步驟c)中和作為一個(gè)子步驟c4)的結(jié)果,子 步驟c5)計(jì)算標(biāo)準(zhǔn)化變化信號(hào)和標(biāo)準(zhǔn)化變化差δ'^在幀i的指數(shù)j的每子幀中被執(zhí)行, 如下:其中,幀i的每個(gè)子幀j,標(biāo)準(zhǔn)化變化信號(hào)A 和標(biāo)準(zhǔn)化差δ'^構(gòu)成每一個(gè)主要的參考 值Ref i, j,那么,在步驟d)中,針對(duì)幀i的閾值Ω i的值被建立,其取決于在幀i的子幀j中的一 對(duì)標(biāo)準(zhǔn)化變化信號(hào)(A ' u,δ ' 1;」)和標(biāo)準(zhǔn)化變化差δ ' 1;j。8. 根據(jù)前述權(quán)利要求7所述的檢測(cè)方法,其中,在步驟d)期間,針對(duì)幀i的閾值Q1的值是 通過(guò)劃分由對(duì)(4'1^3'1,」)的值定義的空間和根據(jù)對(duì)(4'1^3'^)的值區(qū)域在一個(gè)或多 個(gè)連續(xù)子幀上通過(guò)檢查對(duì)(A J的值而建立的。9. 根據(jù)前述權(quán)利要求6至8任一所述的方法,其中,在子步驟c3)中,滑動(dòng)窗口的長(zhǎng)度Lm 滿足以下方程: -Lm=LO,如果幀i的子幀j對(duì)應(yīng)于一段靜默時(shí)間; -Lm=Ll,如果幀i的子幀j對(duì)應(yīng)于一段語(yǔ)音存在時(shí)間; 其中,L1〈L0,特別地其中Ll = kl.L和L0 = k0.L是指數(shù)j的子幀的長(zhǎng)度,k0,kl是正整數(shù)。10. 根據(jù)前述權(quán)利要求6所述的方法,其中,子步驟c3)中,對(duì)于在幀i的子幀j中每個(gè)變 化最大值si, j的計(jì)算,關(guān)于所述子幀j長(zhǎng)度N的幀Mm延遲長(zhǎng)度Lm的滑動(dòng)窗口。11. 根據(jù)前述權(quán)利要求6和10所述的方法,其中,在子步驟c3)中,在幀i的指數(shù)j的每個(gè) 子幀中也計(jì)算標(biāo)準(zhǔn)化變化最大值s'U,其中s'U對(duì)應(yīng)標(biāo)準(zhǔn)化變化信號(hào)A的最大值,在所 述子幀j之前長(zhǎng)度Lm的滑動(dòng)窗口中被計(jì)筧,其中 :其中每個(gè)標(biāo)準(zhǔn)化變化最大值s'u是根據(jù)一個(gè)最小化的方法計(jì)算的,其包括以下步驟:_{十算S i,j -max { S i,j-1; Δ i-Mm.如果γθπι( i,Lm)= 0,其中"rpTri縣而救撒r的救撒^全纟豐彳r曾全 撒r ?然后:其中S'Q,1 = 0 和S1a1 =〇; 其中,在步驟c4)中,計(jì)算標(biāo)準(zhǔn)化變化差δ'?在幀i的指數(shù)j的每個(gè)子幀中計(jì)算如下: δ i,j= A i, j_s i, j〇12. 根據(jù)前述權(quán)利要求5至11中任一所述的方法,其中,在步驟c)中,執(zhí)行子步驟c6),其 中在幀i的指數(shù)j的每個(gè)子幀中最大值的最大值被計(jì)算,其中對(duì)應(yīng)于最大值mu的最 大值,所述最大值在所述子幀j之前固定長(zhǎng)度Lq的滑動(dòng)窗口中被計(jì)算,其中所述長(zhǎng)度Lq的滑 動(dòng)窗口被長(zhǎng)度N的Mq幀延遲,關(guān)于所述子幀j,并且其中在幀i的子幀j另一個(gè)參考值稱為次 要參考值MRef i, j每子幀j對(duì)應(yīng)所述最大值qi,j的最大值。13. 根據(jù)前述權(quán)利要求5至12中任一所述的方法,其中,在步驟d),針對(duì)幀i的閾值Ω 1被 劃分成針對(duì)幀i的每個(gè)子幀j的若干子閾值Ω u,且每個(gè)子閾值Ω u的值至少是根據(jù)參考值 Refi, j,MRefi, j建立的,其在幀i的子幀j中被計(jì)算。14. 根據(jù)前述權(quán)利要求7和13所述的方法,其中,在步驟d),針對(duì)幀i的子幀j的每個(gè)閾值 Ω i, j的值是通過(guò)比較對(duì)(△ ' i, j,δ ' i,」)的值和幾對(duì)固定閾值而被建立的,每個(gè)閾值Ω i,」的值 是從幾個(gè)固定值中選擇的,所述固定值取決于對(duì)(A J與所述幾對(duì)固定閾值的比 較。15. 根據(jù)前述權(quán)利要求5至14中任一所述的方法,其中,在步驟d),執(zhí)行稱為決策過(guò)程的 過(guò)程,包括以下子步驟,針對(duì)每一幀i : -對(duì)幀i的每個(gè)子幀j,建立決策DECi( j)的指數(shù),其擁有一個(gè)語(yǔ)音信號(hào)的檢測(cè)的狀態(tài)《1》 或語(yǔ)音信號(hào)的非檢測(cè)的狀態(tài)《〇》; -建立一個(gè)臨時(shí)決策VAD( i ),其基于決策DECi (j)的指數(shù)與邏輯運(yùn)算符《OR》的比較,以便 如果至少一個(gè)所述決策DECi( j)的指數(shù)持有語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》時(shí),臨時(shí)決策VAD( i)持 有一個(gè)語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》。16. 根據(jù)前述權(quán)利要求13和15所述的方法,其中,在所述決策過(guò)程中,下面的子步驟對(duì) 于每個(gè)幀i可以進(jìn)行: -存儲(chǔ)閾值的最大值La s tmax,其對(duì)應(yīng)一個(gè)比較閾值的可變值,用于離散聲信號(hào){Xi}的量 級(jí),在它被認(rèn)為聲信號(hào)不包括語(yǔ)音信號(hào)之下,在指數(shù)k的最后一幀期間這個(gè)可變值被確定, 其先于所述幀i,且其中臨時(shí)決策VAD(k)持有一個(gè)語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》; -存儲(chǔ)一個(gè)平均最大值A(chǔ)1,」,對(duì)應(yīng)于被計(jì)算的幀i的子幀j中的離散聲信號(hào){^}的平均最 大值,計(jì)算如下: Ai,j = 0Ai,j-i+(l-0)ai,j 其中ai,j對(duì)應(yīng)于離散聲信號(hào){xi}最大值,包含在由幀i的子幀j和至少一個(gè)或多個(gè)優(yōu)先于 所述子幀j的連續(xù)子幀形成的幀中,和 Θ是一個(gè)預(yù)定義的包含在0和1之間的系數(shù),且θ〈λ; -建立每個(gè)子閾值Ω i, j的值,其取決于在所述閾值最大值Lastmax以及平均最大值A(chǔ)i, j 和Ai,j-i之間的比較,其中Ai,j和Ai,j-i考慮在兩個(gè)連續(xù)子幀j和j-1上。17. 根據(jù)前述權(quán)利要求16所述的方法,其中,在決策過(guò)程中,每當(dāng)方法被認(rèn)為幀k的子幀 P包含語(yǔ)音信號(hào)時(shí),閾值的最大值Lastmax被更新,通過(guò)執(zhí)行以下步驟: -在一段沒(méi)有語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀p中的語(yǔ)音信號(hào),在這種情況下Lastmax 需要更新值[a(Ak,P+LastMax)],其中α是一個(gè)預(yù)定義的系數(shù)包含在〇和1之間,且例如包含在 由0.2和0.7之間; -在一段存在語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀ρ的語(yǔ)音信號(hào),在這種情況下Lastmax取 得更新后的值A(chǔ)k,t^I^Ak,P>Lastmax。18. 根據(jù)前述權(quán)利要求16或17所述的方法,其中,建立取決于閾值的最大值Las tmax的 閾值〇,的值的條件是有利于基于在以下之間的比較: -閾值的最大值La s tmax;和 -值[Kp.Ai,j]和[Kp.Ai^1],其中Kp是一個(gè)包含在1和2之間的固定的加權(quán)系數(shù)。19. 根據(jù)前述任一權(quán)利要求所述的方法,其中,進(jìn)一步包括一個(gè)稱為阻斷階段的階段, 在已檢測(cè)到語(yǔ)音信號(hào)在^連續(xù)時(shí)間幀i的存在之后,該階段包括從一個(gè)語(yǔ)音信號(hào)的非檢測(cè) 狀態(tài)轉(zhuǎn)換到語(yǔ)音信號(hào)的檢測(cè)狀態(tài)。20. 根據(jù)前述任一權(quán)利要求所述的方法,其中,還包括稱為阻斷階段的階段,該階段包 括轉(zhuǎn)換步驟,從語(yǔ)音信號(hào)的檢測(cè)狀態(tài)轉(zhuǎn)換到語(yǔ)音信號(hào)的非檢測(cè)狀態(tài),在Na連續(xù)時(shí)間幀i上已 經(jīng)檢測(cè)語(yǔ)音信號(hào)不存在之后。21. 根據(jù)前述權(quán)利要求19和20任一所述的方法,其中,在決策領(lǐng)域包括一個(gè)中斷阻斷階 段的步驟,發(fā)生在單詞的結(jié)束和無(wú)噪聲的情況下,所述決策區(qū)域是通過(guò)分析離散檢測(cè)函數(shù) FDi (τ)的最小值rr (i)而被檢測(cè)的。22. -種計(jì)算機(jī)程序,其特征在于包含代碼指令,當(dāng)處理器執(zhí)行所述代碼指令時(shí),能夠 控制根據(jù)前述任一權(quán)利要求所述的語(yǔ)音檢測(cè)方法的執(zhí)行。23. -種數(shù)據(jù)記錄介質(zhì)存儲(chǔ)根據(jù)前述權(quán)利要求22所述的計(jì)算機(jī)程序。24. -種計(jì)算機(jī)程序規(guī)則,用于在通信網(wǎng)絡(luò)下載根據(jù)前述權(quán)利要求22所述的計(jì)算機(jī)程 序。
【文檔編號(hào)】G10L25/78GK105900172SQ201480065834
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2014年11月27日
【發(fā)明人】開(kāi)里姆·瑪歐徹
【申請(qǐng)人】阿多尼斯Rf公司