語(yǔ)音檢測(cè)方法

文檔序號(hào)：10540939閱讀：1212來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音檢測(cè)方法
【專利摘要】本發(fā)明涉及一種語(yǔ)音檢測(cè)方法，這使得它能夠在來(lái)自麥克風(fēng)的嘈雜聲信號(hào)x(t)中檢測(cè)語(yǔ)音信號(hào)的存在，其包括以下連續(xù)的步驟：基于差函數(shù)D(τ)的計(jì)算而計(jì)算檢測(cè)函數(shù)FD(τ)步驟，根據(jù)開(kāi)始于時(shí)間t0的長(zhǎng)度W的集成窗口上的位移τ的改變，其中：根據(jù)在所述當(dāng)前間隔中確立的聲信號(hào)x(t)計(jì)算的值，在所述當(dāng)前間隔適應(yīng)閾值的步驟；搜索和比較步驟，搜索檢測(cè)函數(shù)FD(τ)的最小值和該最小值與閾值進(jìn)行比較，在稱為當(dāng)前間隔的確定的時(shí)間間隔內(nèi)，其中τ變化以便在當(dāng)前間隔內(nèi)檢測(cè)語(yǔ)音信號(hào)的基頻F0特性存在的可能。其中0≤τ≤max(τ)。
【專利說(shuō)明】
語(yǔ)音檢測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種語(yǔ)音檢測(cè)方法，該方法允許在來(lái)自麥克風(fēng)的噪聲聲信號(hào)中檢測(cè)語(yǔ) 音信號(hào)的存在。
[0002] 更特別的是，它涉及在單一傳感器無(wú)線音頻通信系統(tǒng)中使用語(yǔ)音檢測(cè)方法。
[0003] 本發(fā)明屬于語(yǔ)音活動(dòng)檢測(cè)的特定領(lǐng)域，用于語(yǔ)音活動(dòng)檢測(cè)中一般稱為《VAD》，其包括檢測(cè)在聲學(xué)信號(hào)中來(lái)自麥克風(fēng)的語(yǔ)音，換句話說(shuō)是語(yǔ)音信號(hào)。
[0004] 本發(fā)明的一個(gè)優(yōu)選，而不是限制的，一個(gè)多用戶無(wú)線音頻通信系統(tǒng)類型的時(shí)分多路轉(zhuǎn)換或全雙通通信系統(tǒng)中的應(yīng)用，在一些自發(fā)通信終端之間，也就是說(shuō)沒(méi)有連接到傳輸基站或網(wǎng)絡(luò)，且易于使用，也就是說(shuō)沒(méi)有一個(gè)技術(shù)員的干預(yù)以便建立通信。
【背景技術(shù)】
[0005] 這樣的通信系統(tǒng)，主要區(qū)別于文件W010149864A1，W010149875A1和EP1843326A1，通常用在嘈雜的甚至非常嘈雜的環(huán)境中，例如在海洋環(huán)境中，作為在室內(nèi)或室外的節(jié)目或體育賽事，在建筑工地等。
[0006] 語(yǔ)音活動(dòng)檢測(cè)一般由具體量化的標(biāo)準(zhǔn)而限定，在噪聲聲信號(hào)中單詞和/或句子的開(kāi)始和結(jié)束，換句話說(shuō)，在一個(gè)給定的音頻流。這種檢測(cè)是適用于例如語(yǔ)音編碼，噪聲降低，甚至是語(yǔ)音識(shí)別的領(lǐng)域。
[0007] 在音頻通信系統(tǒng)的處理鏈中的語(yǔ)音檢測(cè)方法的實(shí)現(xiàn)允許在靜默期間特別允許不發(fā)送聲音或音頻信號(hào)。因此，在這些期間周圍的噪音不會(huì)被發(fā)送，為了提高音頻通信補(bǔ)償或降低傳輸速率。例如，在語(yǔ)音編碼中，當(dāng)《VAD》方法指示活動(dòng)時(shí)使用語(yǔ)音活動(dòng)檢測(cè)完全編碼的音頻信號(hào)是已知的。因此，當(dāng)沒(méi)有語(yǔ)音和它是一段時(shí)間靜默時(shí)期，編碼率顯著降低，平均的在全部信號(hào)上，其可以達(dá)到較低的速率。
[0008] 因此，有許多方法用于檢測(cè)語(yǔ)音活動(dòng)，但后者在所有的噪聲環(huán)境中甚至非常嘈雜的環(huán)境中的性能較差或不工作，如運(yùn)動(dòng)比賽(戶外或室內(nèi)），比賽中裁判必須以音頻和無(wú)線方式通信。事實(shí)上，當(dāng)語(yǔ)音信號(hào)被噪聲影響時(shí)，已知的語(yǔ)音活動(dòng)檢測(cè)方法給出了不好的結(jié) 果。
[0009] 已知的語(yǔ)音活動(dòng)檢測(cè)方法中，一些實(shí)施語(yǔ)音信號(hào)的基頻特性的檢測(cè)，尤其是在文件FR 2 988 894中被披露。在語(yǔ)音信號(hào)的情況下，稱為濁音信號(hào)或聲音，信號(hào)確實(shí)有稱為基頻的頻率，一般稱為《基音(pi tch )》，相當(dāng)于說(shuō)話者的聲帶振動(dòng)的頻率，通常延伸在70和400 赫茲之間。這一基頻的演變決策了語(yǔ)音的旋律，其程度取決于說(shuō)話者的習(xí)慣，也取決于他的身心狀態(tài)。
[0010] 因此，為了進(jìn)行語(yǔ)音信號(hào)的檢測(cè)，假定這樣的語(yǔ)音信號(hào)是準(zhǔn)周期性的且，因此，相關(guān)性或與該信號(hào)本身的差異是已知的，但移位將有在基頻和它的倍數(shù)的附近的最大值或最小值。
[0011 ] 文件《YIN，語(yǔ)音和音樂(lè)的基頻估計(jì)》，由Alain de cheveigne和Hideki Kawahara 撰寫，美國(guó)聲學(xué)學(xué)會(huì)雜志111卷，第4號(hào)，pp. 1917-1930，2002年4月，提供且開(kāi)發(fā)一個(gè)基于信號(hào)和同一時(shí)間移位信號(hào)之間的差異的方法。
[0012] 以下幾種方法是基于在嘈雜的聲信號(hào)x(t)中對(duì)語(yǔ)音信號(hào)的基頻或基音的檢測(cè)的描述。
[0013] 用于檢測(cè)基頻的第一種方法實(shí)現(xiàn)了由以下關(guān)系定義的自相關(guān)函數(shù)R(t)的最大值的研究：
[0015] 這第一種方法使用的自相關(guān)函數(shù)是不令人滿意的，因?yàn)橛幸粋€(gè)相對(duì)顯著的噪聲。此外，自相關(guān)函數(shù)存在的最大值不對(duì)應(yīng)基頻或其倍數(shù)，而是對(duì)應(yīng)其子倍數(shù)。
[0016] 用于檢測(cè)基頻的第二種方法實(shí)現(xiàn)了由以下關(guān)系定義的差函數(shù)D(t)的最小值的研究：
[0018] 其中| |表示絕對(duì)值，這個(gè)差函數(shù)在基頻及其倍數(shù)的附近最低，然后這個(gè)最小值和閾值比較以便由此推斷出語(yǔ)音存在或者不存在的決策。
[0019] 相對(duì)于自相關(guān)函數(shù)R(〇,差函數(shù)D(〇具有較低的計(jì)算負(fù)載，從而使該第二種方法在實(shí)時(shí)應(yīng)用中更為有趣。然而，這第二種方法是不完全令人滿意的，因?yàn)橛性胍簟?br>[0020] 檢測(cè)的基頻的第三種方法實(shí)現(xiàn)的，考慮一個(gè)長(zhǎng)度H處理窗口，其中H<N，由以下關(guān) 系定義的平方差函數(shù)dt(T)的計(jì)算：
[0021 ] dt(T〇 = 丨(X廣 JQ + T)2,
[0022]然后繼續(xù)做用于平方差函數(shù)dtb)的最小值的研究，這個(gè)平方差函數(shù)在基頻及其倍數(shù)附近是最小的，最后以最小值與閾值比較以推斷出語(yǔ)音存在或不存在的決策。
[0023]第三種方法已知的改進(jìn)包括標(biāo)準(zhǔn)化方差函數(shù)dt (T )，通過(guò)計(jì)算滿足如下關(guān)系的標(biāo) 準(zhǔn)化方差函數(shù)d't(T):
[0025]另外，雖然具有更好的抗噪性且在這方面給予更好的檢測(cè)結(jié)果，但第三種方法在語(yǔ)音檢測(cè)方面有限制，特別是噪聲環(huán)境的噪聲區(qū)域在低信噪比SNR(信噪比)特征。
[0026]現(xiàn)有技術(shù)中也可以通過(guò)申請(qǐng)專利FR 2 825 505的啟示予以說(shuō)明，其實(shí)現(xiàn)了上述第三種方法的基頻檢測(cè)，用于對(duì)這一基頻的提取。在這項(xiàng)專利申請(qǐng)中，標(biāo)準(zhǔn)化方差函數(shù)d'tb) 不能與一個(gè)閾值進(jìn)行比較，以確定這個(gè)基頻-這個(gè)閾值可以是固定的或根據(jù)時(shí)間變化T而變化的-和這種方法有上述第三種方法相關(guān)聯(lián)的缺點(diǎn)。
[0027]使用語(yǔ)音檢測(cè)實(shí)施基頻的檢測(cè)方法是已知的，文件《基音檢測(cè)與平均幅度差函數(shù) 的自適應(yīng)閾值算法估算微光和抖動(dòng)》，由Hae Young Kim等人撰寫，醫(yī)學(xué)與生物工程學(xué)會(huì)， 1998,在IEEE第二十屆年度國(guó)際會(huì)議，第6卷，1998年10月29日，第3162-6164頁(yè)XP010320717 的會(huì)議記錄中。在這個(gè)文檔中，它描述了一種方法，包括自相關(guān)函數(shù)的最小值的搜索，通過(guò) 實(shí)施一個(gè)與自適應(yīng)閾值的比較，所述自適應(yīng)閾值在當(dāng)前幀中的信號(hào)的最小值和最大值的函數(shù)。然而，這種閾值的適應(yīng)是非常有限的。事實(shí)上，在信號(hào)-噪聲比的不同值的音頻信號(hào)的但具有相同的信號(hào)幅度的情況下，所有情況下的閾值將是相同的，而不需要后者取決于噪聲水平的改變，從而導(dǎo)致在句子或甚至非檢測(cè)的聲音開(kāi)始的削減，當(dāng)被檢測(cè)的信號(hào)是聲音時(shí)，特別是在散開(kāi)的觀眾的噪音的背景下，因此，它完全不會(huì)像一個(gè)語(yǔ)音信號(hào)。

【發(fā)明內(nèi)容】

[0028] 本發(fā)明的目的是提供一種語(yǔ)音檢測(cè)方法，該方法提供了一種包含在嘈雜聲信號(hào)中的語(yǔ)音信號(hào)的檢測(cè)，特別是在噪音的環(huán)境中，或特別是在嘈雜聲音的環(huán)境中。
[0029] 它提供了特別的聲音檢測(cè)方法，其非常適合于通信(主要是在裁判之間）在賽場(chǎng)噪音水平相對(duì)很強(qiáng)和非平穩(wěn)的情況下，配合檢測(cè)步驟，避免由于觀眾的歌聲，吹奏樂(lè)器、鼓、音樂(lè)和口哨聲而產(chǎn)生的特別壞或錯(cuò)誤的檢測(cè)(一般稱為《tonches》）。
[0030] 為此，它提供了一種語(yǔ)音檢測(cè)方法，允許檢測(cè)來(lái)自麥克風(fēng)的在嘈雜的聲音信號(hào)x (t)的語(yǔ)音信號(hào)的存在，包括以下連續(xù)步驟：
[0031] --個(gè)初步抽樣步驟，包括削減聲信號(hào)x(t)為離散聲信號(hào){Xl}，離散聲信號(hào)組由與長(zhǎng)度N的時(shí)間幀i相關(guān)聯(lián)的向量序列組成，N對(duì)應(yīng)采樣點(diǎn)的數(shù)量，其中每一個(gè)向量反映聲音內(nèi) 容，其與幀i相關(guān)聯(lián)且由N個(gè)樣本X(i-1)N+1，X(i-l)N+2'"，XiN-1，XiN組成，i是一個(gè)正整數(shù)；
[0032]-一個(gè)計(jì)算檢測(cè)函數(shù)FD ( t )的步驟，基于一個(gè)差函數(shù)計(jì)算D ( t )按照長(zhǎng)度W從時(shí)間tO 開(kāi)始的集成窗口的移位T的變化：
[0033] D(t)=.[二 -x(n. +T)j其中0<T<max(T);
[0034]其中這一計(jì)算檢測(cè)函數(shù)FD ( t )的步驟，包括計(jì)算與幀i相關(guān)聯(lián)的離散檢測(cè)函數(shù)FDi ⑴；
[0035] --個(gè)所述當(dāng)前區(qū)間的自適應(yīng)閾值步驟，根據(jù)聲信號(hào)x(t)計(jì)算的值表示當(dāng)前區(qū)間，特別的和表示聲信號(hào)x(t)的最大值，其中這適應(yīng)閾值的步驟包括，對(duì)于每一幀i，針對(duì)幀i適應(yīng)閾值，其取決于離散聲信號(hào){ Xl}所述幀i的樣本值計(jì)算的參考值。
[0036] -搜索檢測(cè)函數(shù)rob)最小值和最小值與閾值比較的步驟，在一個(gè)稱為當(dāng)前區(qū)間的確定時(shí)間間隔中t變化以便在所述當(dāng)前區(qū)間內(nèi)檢測(cè)語(yǔ)音信號(hào)的基頻Fo特征存在或不存在； [0037]在這一步驟中，搜索最小的檢測(cè)函數(shù)rob)的最小值且最小值與閾值比較是通過(guò)，在每一幀i中，對(duì)于離散檢測(cè)函數(shù)rodO的最小值 rr(i)進(jìn)行搜索和針對(duì)幀i通過(guò)最小值與閾值Qi進(jìn)行比較實(shí)現(xiàn)的；
[0038]其中對(duì)于每幀i適應(yīng)閾值Q i的步驟包括以下步驟：
[0039] a)-細(xì)分包括N采樣點(diǎn)的幀i到長(zhǎng)度L的T子幀，其中N是T的倍數(shù)，以便長(zhǎng)度L = N/T是一個(gè)整數(shù)，從而使在幀i的指數(shù)j的子幀中離散聲信號(hào){^}的樣本包括以下L樣本：
[0040] X(i-l)N+(j-l)L+l，X(i-l)N+(j-l)L+2,…，X(i-l)N+jL，j 是一個(gè)正整數(shù)，包括在 1 和T之間；
[0041 ] b)_計(jì)算離散聲信號(hào){xi}的最大值mi,j，在每一個(gè)幀i的指數(shù)j的子幀的中，其中：
[0042] mi,j=max{x(i-i)N+(j-i)L+i，x(i-i)N+(j-i)l+2,…，x(i-i)N+jL};
[0043] c)_計(jì)算至少一個(gè)參考值Refi.hMRefi.j針對(duì)幀i的子幀j，所述或每個(gè)參考值 Refi, j，MRef i, j每個(gè)子幀j從最大值mi, j被計(jì)算，在幀i的子幀j中；
[0044] d)-建立針對(duì)幀i的閾值Q i的值，其取決于所有的參考值Ref i, j，MRef i, j在幀i的子幀j中被計(jì)算。
[0045] 因此，這種方法是基于自適應(yīng)閾值的原則，這將是在噪音或靜默期間相對(duì)低的和在語(yǔ)音期間相對(duì)高的。因此，錯(cuò)誤的檢測(cè)將被最小化，并在單詞的開(kāi)始和結(jié)束，語(yǔ)音將在適當(dāng)?shù)南鳒p的最低限度被檢測(cè)。根據(jù)本發(fā)明的方法，在子幀j中建立最大值mi, j，以使其在整個(gè) 幀i上(聲音或不存在聲音)作出決策。
[0046] 根據(jù)第一種可能性，檢測(cè)函數(shù)rob)對(duì)應(yīng)于差函數(shù)D(t)。
[0047] 根據(jù)第二種可能性，檢測(cè)函數(shù)ro(T)對(duì)應(yīng)于標(biāo)準(zhǔn)化差函數(shù)DN(T)，其從差函數(shù)D(T) 計(jì)算得到，如下：
[0048] DN(T) = 1 如果 t = 〇，
如果T辛0;
[0050] 其中計(jì)算標(biāo)準(zhǔn)化差函數(shù)DN(t)考慮與幀i相關(guān)聯(lián)的離散標(biāo)準(zhǔn)化查函數(shù)DNJt)的計(jì) 算，其中：
[0051] DNi(T) = l 如果 t = 〇，
如果T辛0;
[0053]在一個(gè)特定的實(shí)施例中，相對(duì)于幀i的離散差函數(shù)計(jì)算如下：
[0054] _細(xì)分幀i到長(zhǎng)度H的K子幀，例如：
[0056] 其中|_」表示對(duì)整數(shù)部分的四舍五入的操作，因此，在幀i的指數(shù)P的子幀中，離散聲信號(hào){xi}的樣本包括H樣本：
[0057] X(i-l)N+(p-l)H+l，X(i-l)N+(p-l)H+2,…，X(i-1)N+pH，P是一個(gè)正整數(shù)，包括在 1 和K之間；
[0058] -指數(shù)p的每個(gè)子幀，我們計(jì)算下列差函數(shù)ddP(T):
[0059] ddp(l) = SU-DN+fP-DHuN _ Xj + T 5
[0060] -相對(duì)于幀i的離散差函數(shù)計(jì)算計(jì)算作為幀i的指數(shù)p的子幀的差函數(shù)ddP(T) 的總和，即：
[0061 ] D,(t)=[:、丨 ddp(T).
[0062] 根據(jù)一個(gè)特點(diǎn)，在步驟c)中，在每個(gè)幀i上進(jìn)行下面的子步驟：
[0063] cl)_計(jì)算平滑最大值包絡(luò)線，在幀i的指數(shù)j的每個(gè)子幀中：
[0064] =入？％1 + (1-入）mu,其中入是一個(gè)預(yù)定義的系數(shù)包括在〇和1之間；
[0065] c2)_計(jì)算變信號(hào)A i,」，在幀i的指數(shù)j的每個(gè)子幀中；
[0066] ~=niij - m:i,j =入（rriij - Mip);
[0067]其中至少一個(gè)參考值稱為主要參考值Refi,j，每個(gè)子幀j由變化信號(hào)A i,j在幀i的子幀j中被計(jì)算。
[0068] 因此，平滑包絡(luò)線的變化信號(hào)A i,j在子幀j中是為了對(duì)整個(gè)幀做決策(聲音或聲音缺失），使得語(yǔ)音(或聲音)檢測(cè)更可靠。
[0069] 根據(jù)另一個(gè)特點(diǎn)，在步驟c)和隨后的子步驟c2)中，下面子步驟在每一幀i中進(jìn)行：
[0070] c3)_計(jì)算變化最大值Si, j在幀i的指數(shù)j的每個(gè)子幀中，其中Si, j對(duì)應(yīng)于變化信號(hào) A ^最大值，其在所述子幀j之前的長(zhǎng)度Lm的滑動(dòng)窗口被計(jì)算，所述長(zhǎng)度Lm是可變的，其取決于幀i的子幀j是否對(duì)應(yīng)一段靜默期間或語(yǔ)音存在。
[0071] c4)_計(jì)算變化差5^在幀i的指數(shù)j的每個(gè)子幀中，其中：
[0072]
[0073]其中，幀i的每個(gè)子幀j，兩個(gè)主要的參考值Refu被分別由變化信號(hào)A ^和變化差 Si,j計(jì)算。
[0074] 因此，在子幀j建立的變化信號(hào)A ^和變化差是共同考慮為了選擇自適應(yīng)閾值Q i的值從而對(duì)整個(gè)幀i做出決策（聲音的或聲音缺失），加強(qiáng)語(yǔ)音檢測(cè)。換句話說(shuō)，對(duì) (八：1,」;3^)是為了確定自適應(yīng)閾值〇1而考慮的。
[0075] 有利的是，在步驟c)中和作為一個(gè)子步驟c4)的結(jié)果，子步驟c5)計(jì)算標(biāo)準(zhǔn)化變化信號(hào)A和標(biāo)準(zhǔn)化變化差8'^在幀i的指數(shù)j的每子幀中被執(zhí)行，如下：
[0078]在那里，幀i的每個(gè)子幀j，標(biāo)準(zhǔn)化變化信號(hào)A 和標(biāo)準(zhǔn)化差8'^構(gòu)成每一個(gè)主要的參考值Ref i, j，那么，在步驟d)的針對(duì)幀i的閾值i的值取決于在幀i的子幀j中的一對(duì)標(biāo) 準(zhǔn)化變化信號(hào)（A ' U，S ' 1;」)和標(biāo)準(zhǔn)化變化差S ' 1;」的建立。
[0079]在這種方式中，處理獨(dú)立于信號(hào)A ^和8^的水平的閾值Q :的變化是可能的，通過(guò)標(biāo)準(zhǔn)化信號(hào)A和8'^計(jì)算而標(biāo)準(zhǔn)化它們。因此，從這些標(biāo)準(zhǔn)化信號(hào)A和8'^選擇的閾值將不依賴離散聲信號(hào){Xl}的水平。換句話說(shuō)，對(duì)（A '^;8'^)被研究，以確定自適應(yīng)閾值Qi的值。
[0080] 有利的是，在步驟d)期間，針對(duì)幀i的閾值Q i的值是通過(guò)劃分由對(duì)（A ' i,」；S ' i, j) 的值定義的空間和根據(jù)對(duì)（A J的值區(qū)域在一個(gè)或多個(gè)連續(xù)子幀上(例如在1和3之間）通過(guò)檢查對(duì)（A '^;8'^)的值而建立的。
[0081] 因此，閾值Qi的計(jì)算程序是基于一個(gè)空間的實(shí)驗(yàn)分區(qū)，其通過(guò)對(duì)（A J的值而確定。在一個(gè)，兩個(gè)或更多連續(xù)的子幀根據(jù)對(duì)的值區(qū)域而詳細(xì)檢查對(duì)（A 的值，一個(gè)決策機(jī)制被添加在其中。對(duì)定（AJ的值的定位測(cè)試條件主要依靠于語(yǔ)音檢測(cè)在之前幀和在一個(gè)、兩個(gè)或更多連續(xù)子幀的輪詢機(jī)制中也使用了一個(gè)實(shí)驗(yàn)分區(qū)。
[0082]根據(jù)一個(gè)特點(diǎn)，在子步驟c3)中，滑動(dòng)窗口的長(zhǎng)度Lm滿足以下方程：
[0083] -Lm = L0,如果幀i的子幀j相當(dāng)于一段靜默時(shí)間；
[0084] -Lm = Ll，如果幀i的子幀j對(duì)應(yīng)于一段語(yǔ)音存在時(shí)間；
[0085] 其中，L1<L0,特別是Ll = kl.L和L0 = k0.L，是指數(shù)j的子幀的長(zhǎng)度，k0，kl是正整數(shù)。
[0086]根據(jù)另一個(gè)特點(diǎn)，子步驟c3)中，對(duì)于在幀i的子幀j中每個(gè)變化最大值Si, j的計(jì)算，關(guān)于所述子幀j長(zhǎng)度N的幀Mm延遲長(zhǎng)度Lm的滑動(dòng)窗口。
[0087]根據(jù)另一特點(diǎn)，提供了以下改進(jìn)：
[0088]-在子步驟c3)中，在幀i的指數(shù)j的每個(gè)子幀中也計(jì)算標(biāo)準(zhǔn)化變化最大值s'i,j，其中s'U對(duì)應(yīng)標(biāo)準(zhǔn)化變化信號(hào)A 的最大值，在所述子幀j之前長(zhǎng)度Lm的滑動(dòng)窗口中被計(jì) 算，其中：
[0090]其中每個(gè)標(biāo)準(zhǔn)化變化最大值s'u是根據(jù)一個(gè)最小化的方法計(jì)算的，其包括以下步驟： S~N.'
[0091 ] _計(jì)算s i, j =max{s i, j-1; A i-，j}和 s'y = max {s i'j-i ; A 卜
[0092] 如果rem( i，Lm) = 0，其中rem是兩個(gè)整數(shù)的整數(shù)除法運(yùn)算余數(shù)，然后：
[0093] 二 maX {S iH ;么，卜_}，
[0094] ij - ^ i'Mmj
[0095] 其中 s'〇, i = 0 和沒(méi):如=〇;
[0096] 其中，在步驟c4)中，計(jì)算標(biāo)準(zhǔn)化變化差在幀i的指數(shù)j的每個(gè)子幀中計(jì)算如下：
[0097] S i,j= A i,j-s i,j〇
[0098] 有利的是，在步驟c)中，執(zhí)行子步驟c6)，其中在幀i的指數(shù)j的每個(gè)子幀中最大值 qu的最大值被計(jì)算，其中對(duì)應(yīng)于最大值mu的最大值，所述最大值在所述子幀j之前固定長(zhǎng)度Lq的滑動(dòng)窗口中被計(jì)算，其中所述長(zhǎng)度Lq的滑動(dòng)窗口被長(zhǎng)度N的Mq幀延遲，關(guān)于所述子幀j，并且其中在幀i的子幀j另一個(gè)參考值稱為次要參考值MRefi,j每子幀j對(duì)應(yīng)所述最大值qi,j的最大值。
[0099] 因此，為了進(jìn)一步避免錯(cuò)誤的檢測(cè)，有利于也考慮到這樣的信號(hào)(次要參考值 MRefi,j = qi,j)，其計(jì)算方式類似于上述信號(hào)Si,j的計(jì)算，但是操作最大值mi,j而不是操作變化信號(hào)A ^或標(biāo)準(zhǔn)化化變化信號(hào)A ' ^。
[0100] 在具體的實(shí)施例中，在步驟d)，針對(duì)幀i的閾值i被削減成針對(duì)幀i的每個(gè)子幀j 的若干子閾值Q i, j，其每個(gè)子閾值Q i,j的值至少是根據(jù)參考值Refi, j，MRefi, j建立的，其在幀i的子幀j中被計(jì)算。
[0101 ]因此，我們有Qi={Qi,l;Qi,2;...;Qi,T}，表不閾值Q i削減成針對(duì)子幀j的若干子閾值Q i, j，建立自適應(yīng)閾值Q i也提供了一個(gè)額外純度。
[0102] 有利的是，在步驟d)，針對(duì)幀i的子幀j的每個(gè)閾值Q i, j的值是通過(guò)對(duì)（A ' i, j，S ' i, j)的值與幾對(duì)固定閾值比較而被建立的，每個(gè)閾值Q i, j的值是從取決于對(duì)（A ' i, j，S ' i, j) 與所述幾對(duì)固定閾值的比較而來(lái)的幾個(gè)固定值中選擇的。
[0103] 這些對(duì)固定閾值，例如，是通過(guò)值（A 的空間分布在決策區(qū)域的實(shí)驗(yàn)測(cè) 定的。
[0104] 互補(bǔ)地，針對(duì)幀i的子幀j的每個(gè)閾值的值，通過(guò)在一個(gè)或多個(gè)連續(xù)子幀根據(jù) 對(duì)（A 的初始區(qū)域進(jìn)行對(duì)（A 的比較而被建立。
[0105] 對(duì)（A '^,8、J值的定位測(cè)試條件取決于語(yǔ)音檢測(cè)在前一幀期間和一個(gè)或多個(gè) 連續(xù)子幀的比較過(guò)程也使用了一個(gè)實(shí)驗(yàn)性分區(qū)。
[0106] 當(dāng)然，它也可以針對(duì)幀i的子幀j建立每個(gè)閾值Qi,j的值，通過(guò)比較：
[0107]-對(duì)（A \」，6'^)(主要參考值1?也,」)與幾對(duì)固定閾值的值；
[0108] _qi,j(次要參考值MRefi,j)與其他幾個(gè)固定閾值的值。
[0109] 因此，基于比較對(duì)（A 與幾對(duì)固定閾值的決策機(jī)制，通過(guò)采用基于q1;J與其他固定閾值的比較的另一個(gè)決策機(jī)制而完成。
[0110] 有利的是，在步驟d)，執(zhí)行稱為決策過(guò)程的過(guò)程，包括以下步驟，針對(duì)每一幀i: -對(duì)幀i的每個(gè)子幀j，建立決策DECi( j)的指數(shù)，其擁有一個(gè)語(yǔ)音信號(hào)的檢測(cè)的狀態(tài)《1》或語(yǔ)音信號(hào)的非檢測(cè)的狀態(tài)《0》；
[0112] -建立一個(gè)臨時(shí)決策VAD( i )，其基于決策DECi(j)的指數(shù)與邏輯運(yùn)算符《0R》的比較，以便如果至少一個(gè)所述決策DECdj)的指數(shù)持有語(yǔ)音信號(hào)檢測(cè)的這種狀態(tài)《1》，臨時(shí)決策VAD(i)擁有一個(gè)語(yǔ)音信號(hào)檢測(cè)狀態(tài)《1》。
[0113] 因此，為了避免后期檢測(cè)（早期檢測(cè)聯(lián)用），最后決策(聲音或聲音缺失)被認(rèn)為是這一決策過(guò)程的結(jié)果，其依靠臨時(shí)決策VAD( i)且其本身呈現(xiàn)整個(gè)幀，通過(guò)在子幀j實(shí)施決策的邏輯運(yùn)算符《0R》，最好是在在短期和從幀i的開(kāi)始完成范圍的連續(xù)子幀j。
[0114] 在這個(gè)決策過(guò)程中，下面的子步驟對(duì)每個(gè)幀可以進(jìn)行：
[0115] -存儲(chǔ)閾值的最大值Lastmax，其對(duì)應(yīng)一個(gè)比較閾值的變量，用于離散聲信號(hào){Xi} 的幅度值，在它被認(rèn)為聲信號(hào)不包括語(yǔ)音信號(hào)之下，在指數(shù)k的最后一幀期間這個(gè)變量值被確定，其優(yōu)于所述幀i和在臨時(shí)決策VAD(k)中具有一個(gè)語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》；
[0116] -存儲(chǔ)一個(gè)平均最大值A(chǔ)^，對(duì)應(yīng)于該幀i的子幀j中的離散聲信號(hào)的平均最大值，計(jì)算如下：
[0117] Ai, j = 9Ai, j-i+(l-9)ai,j
[0118] 其中ai,j對(duì)應(yīng)于離散聲信號(hào){xi}最大值，包含在幀k中，由幀i的子幀j和至少一個(gè) 或多個(gè)優(yōu)先于所述子幀j的連續(xù)子幀形成，和
[0119] 0是一個(gè)預(yù)定義的包含在0和1之間的系數(shù)，且0〈入；
[0120]-建立每個(gè)子閾值i,j的值，其取決于在所述閾值最大值Lastmax以及平均最大值 Ai, j和Ai, j-i之間的比較，其中Ai, j和Ai, j-i考慮兩個(gè)連續(xù)子幀j和j_l。
[0121] 在許多情況下，錯(cuò)誤的檢測(cè)到達(dá)幅度低于語(yǔ)音信號(hào)（麥克風(fēng)被位于通信的人的嘴的附近）。因此，這個(gè)決策過(guò)程目的是進(jìn)一步通過(guò)更新于最后的活化時(shí)期的存儲(chǔ)語(yǔ)音信號(hào)中的閾值最大值Lastmax和平均最大值A(chǔ)i,j和消除不良檢測(cè)，其中Ai,j和Ai,j-i對(duì)應(yīng)于在幀 i的子幀j和j -l中的離散聲音信號(hào){xi}的平均最大值。考慮到這些值（Lastmax，Ai, j和 Ai, h )，在自適應(yīng)閾值Q i的成立條件被添加。
[0122] 0值低于系數(shù)A以便阻礙的波動(dòng)是很重要的。
[0123] 上述決策過(guò)程中，每當(dāng)方法被認(rèn)為幀k的子幀p包含語(yǔ)音信號(hào)時(shí)，閾值最大值 Las tmax被更新，通過(guò)執(zhí)行以下步驟：
[0124] -在一段沒(méi)有語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀p中的語(yǔ)音信號(hào)，在這種情況下 Lastmax需要更新值[a(Ak,P+LastMax)]，其中a是一個(gè)預(yù)定義的系數(shù)包含在〇和1之間，且例如包含在由0.2和0.7之間；
[0125] -在一段存在語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀p的語(yǔ)音信號(hào)，在這種情況下 Las tmax取得更新后的值A(chǔ)k, P如果Ak, P>Las tmax。
[0126] 因此，值Lastmax更新只有在這個(gè)方法的激活期間被執(zhí)行(換句話說(shuō)，語(yǔ)音檢測(cè)周期）。在語(yǔ)音檢測(cè)的情況下，值Lastmax相當(dāng)于Ak, P當(dāng)我們具有Ak,P>LastMax時(shí)。然而，重要的是執(zhí)行該更新如下進(jìn)行，第一子幀P的激活跟隨一靜默區(qū)域：值Lastmax相當(dāng)于[a(A k,P+ LastMax)]〇
[0127] 這個(gè)閾值的最大值Lastmax的更新機(jī)制允許方法來(lái)檢測(cè)用戶的聲音，即使后者降低了他的聲音強(qiáng)度(換句話說(shuō)，更安靜的講話)相比較于上次他說(shuō)話時(shí)方法檢測(cè)到的。
[0128] 換句話說(shuō)，為了進(jìn)一步提高免除錯(cuò)誤檢測(cè)，精細(xì)加工被執(zhí)行，其中閾值的最大值 Las tmax是可變的，且與謹(jǐn)慎的聲信號(hào)的平均最大值A(chǔ)i, j和Ai, j-i比較。
[0129] 事實(shí)上，遙遠(yuǎn)的聲音可以用方法收集，因?yàn)檫@樣的聲音有基頻可能被檢測(cè)到，如用戶的語(yǔ)音。為了確保遙遠(yuǎn)的聲音，其在很多情況下可能是令人討厭的，不被本方法考慮，一種處理過(guò)程被考慮在信號(hào)(在兩個(gè)連續(xù)的幀）的平均最大值，在這種情況下，和Am，與 Lastmax比較，根據(jù)過(guò)去激活中測(cè)量的用戶聲音的大小其包含一個(gè)可變閾值。因此，閾值Qi 的值被設(shè)置在一個(gè)非常低的最小值，當(dāng)信號(hào)低于閾值時(shí)。
[0130] 這個(gè)建立取決于閾值的最大值Lastmax的閾值Q i的值的條件是有利于基于在以下之間的比較：
[0131] -閾值的最大值Lastmax;和
[0132] -值[Kp.Ai,」]和[Kp.Ai,」-0，其中Kp是一個(gè)包含在1和2之間的固定的加權(quán)系數(shù)。
[0133] 在這種方式中，閾值的最大值Lastmax與離散聲信號(hào){xi}平均最大值比較在子幀j 和j-1 (Ai, jand A i,因加權(quán)系數(shù)Kp加權(quán)，其包含在1和2之間，以增強(qiáng)檢測(cè)。這個(gè)比較僅當(dāng)前面幀沒(méi)有導(dǎo)致語(yǔ)音檢測(cè)時(shí)產(chǎn)生。
[0134] 有利的是，該方法還包括一個(gè)稱為阻斷階段的階段包括從一個(gè)語(yǔ)音信號(hào)的非檢測(cè) 狀態(tài)到語(yǔ)音信號(hào)的檢測(cè)狀態(tài)的轉(zhuǎn)換，在已檢測(cè)到語(yǔ)音信號(hào)在N P連續(xù)時(shí)間幀i的存在之后。
[0135] 因此，該方法實(shí)現(xiàn)了一種掛起類型步驟，其被配置以便從不存在語(yǔ)音的情況下到存在聲音的情況下的過(guò)渡只發(fā)生在存在聲音的NP連續(xù)幀之后。
[0136] 類似地，該方法還包括一種稱為阻斷階段的階段，該階段包括轉(zhuǎn)換步驟，從語(yǔ)音信號(hào)的檢測(cè)狀態(tài)到語(yǔ)音信號(hào)的非檢測(cè)狀態(tài)，在Na連續(xù)時(shí)間幀i上已經(jīng)檢測(cè)語(yǔ)音信號(hào)不存在之后。
[0137] 因此，該方法實(shí)現(xiàn)了一個(gè)掛起類型步驟，以便從一種存在聲音的情況下到?jīng)]有聲音的情況下的過(guò)渡只發(fā)生在沒(méi)有音聲的Na連續(xù)幀之后。
[0138] 如果沒(méi)有這些轉(zhuǎn)換步驟，該方法可能會(huì)偶爾削減聲音信號(hào)在所說(shuō)的句子或甚至在所說(shuō)的單詞中間。為了克服這一點(diǎn)，這些轉(zhuǎn)換步驟在給定的一系列幀上實(shí)施阻斷或掛起步驟。
[0139] 根據(jù)本發(fā)明的一個(gè)可能性，該方法包括一個(gè)中斷阻斷階段的步驟在決策領(lǐng)域，發(fā) 生在單詞的結(jié)束和無(wú)噪聲的情況下，所述決策領(lǐng)域是通過(guò)分析離散檢測(cè)函數(shù)rodi)的最小值rr (i)而被檢測(cè)的。
[0140] 因此，在決策空間中一個(gè)特定的檢測(cè)過(guò)程，阻斷階段再單詞或句子的結(jié)尾處被中斷。這種中斷只發(fā)生在一個(gè)無(wú)噪音或噪音很小的情況下。因此，該方法提供了一個(gè)特定的決策區(qū)域用于隔離，其只發(fā)生在單詞的結(jié)尾處和在一個(gè)非噪音的情況下。為了加強(qiáng)這區(qū)域的檢測(cè)決策，本方法也利用離散檢測(cè)函數(shù)^^^)的最小值 rr(i)，離散檢測(cè)函數(shù)rodW對(duì)應(yīng)的離散差函數(shù)Di(T)或離散標(biāo)準(zhǔn)化差函數(shù)DNi(T)。因此，在語(yǔ)音結(jié)束時(shí)，語(yǔ)音就會(huì)被更快速地切斷，從而使系統(tǒng)有更好的音頻質(zhì)量。
[0141] 本發(fā)明的一個(gè)目的是包括代碼指令的計(jì)算機(jī)程序可以控制聲音檢測(cè)方法的步驟，當(dāng)由處理器執(zhí)行時(shí)如本文中定義的方法被執(zhí)行。
[0142] 本發(fā)明的另一個(gè)目的是用于記錄數(shù)據(jù)的記錄介質(zhì)，在其上計(jì)算機(jī)程序如本文所定義的被存儲(chǔ)。
[0143] 本發(fā)明的另一個(gè)目的是一個(gè)計(jì)算機(jī)程序規(guī)則，如本文中定義的在電信網(wǎng)絡(luò)上提供下載。
【附圖說(shuō)明】
[0144] 本發(fā)明的其他特性和優(yōu)點(diǎn)，將在以下詳細(xì)描述，對(duì)所述的實(shí)施例進(jìn)行詳細(xì)的描述，參考引用的附圖標(biāo)記：
[0145] -圖1是根據(jù)本發(fā)明的方法的概要圖；
[0146] -圖2是通過(guò)稱為掛起類型步驟的阻斷步驟決策而實(shí)施的限制循環(huán)的的示意圖；
[0147] -圖3顯示了聲音檢測(cè)方法的結(jié)果，在頂部，用檢測(cè)函數(shù)的最小值rr(i)和固定閾值線Q fix的曲線表示固定閾值和，在底部，用離散聲信號(hào){Xl}和輸出信號(hào)DK的曲線表示；
[0148] -圖4顯示了聲音檢測(cè)方法的結(jié)果，在頂部，用檢測(cè)函數(shù)的最小值rr(i)和自適應(yīng)閾值線Q i的曲線表不自適應(yīng)閾值，在底部，用離散聲信號(hào){xi}和出信號(hào)DFi的曲線表不。
【具體實(shí)施方式】
[0149] 聲音的檢測(cè)方法的描述參照?qǐng)D1，是示意性地示出了在嘈雜的環(huán)境中來(lái)自單麥克風(fēng)的操作在嘈雜的聲信號(hào)x(t)中的用于檢測(cè)語(yǔ)音(或聲音)存在的所要求的連續(xù)的不同步驟。
[0150] 該方法開(kāi)始于初步抽樣步驟101，其包括削減聲信號(hào)x(t)為離散聲信號(hào){Xi}，包含與長(zhǎng)度N的時(shí)間幀i相關(guān)聯(lián)的一系列向量，N對(duì)應(yīng)的米樣點(diǎn)數(shù)量，其中每個(gè)向量反映與幀i相關(guān)聯(lián)的聲內(nèi)容且包含N個(gè)樣本X(i-1)N+1，X(i-l)N+2"_，XiN-1，XiN，i是一個(gè)正整數(shù)：
[0151] 例如，噪聲的聲信號(hào)x(t)被分為240個(gè)或256個(gè)樣品的幀，其中，在采樣頻率為8 千赫茲，對(duì)應(yīng)于30或32毫秒的時(shí)間幀。
[0152] 該方法繼續(xù)用步驟102計(jì)算離散差函數(shù)Dib)相對(duì)于該幀i，計(jì)算如下：
[0153] -細(xì)分每個(gè)幀i到長(zhǎng)度H的子幀k，關(guān)系如下：
[0155] 其中，[_」表示整數(shù)部分的四舍五入的操作符，
[0156] 以便，該樣本的離散聲信號(hào){xi}在幀i的指數(shù)p的子幀中，包括以下H的樣本：
[0157] X(i-l)N+(p-l)H+l，X(i-l)N+(p-l)H+2,…，X(i-l)N+pH，P是一個(gè)正整數(shù)，包括在 1和K之間；然后
[0158]-指數(shù)p的每子幀，計(jì)算下列差ddp( t ): 1 1 ， \ ^-^(i-1 )N+pH
[0159] ddp(r) = XHM)N+(p_1)H+i^-^-5
[0160]-計(jì)算離散差函數(shù)口:卜)相對(duì)于幀i作為幀i的指數(shù)p的子幀的差函數(shù)ddP(T)的總和，即：
[0161] D.(x) = Xp=iddP(1：) ?
[0162] 也有可能步驟102還包括一個(gè)離散標(biāo)準(zhǔn)化函數(shù)dNi(〇的計(jì)算，來(lái)自離散差函數(shù)Di (t)，如下：
[0163] DNi(T) = 1 如果 t = 〇，
:如果t乒0.
[0165] 該方法繼續(xù)步驟103,其中，對(duì)于每幀i:
[0166] -細(xì)分幀i包括N個(gè)采樣點(diǎn)到長(zhǎng)度L的子幀T，其中N是T的倍數(shù)，以便長(zhǎng)度L = N/T是整數(shù)，并使離散聲信號(hào){Xl}的樣本在幀i的指數(shù)j的子幀中包含以下L樣本：
[0167] X(i-l)N+(j-l)L+l，X(i-l)N+(j-l)L+2,…，X(i-l)N+jL，j 是一個(gè)正整數(shù)，包括在 1 和T之間；
[0168] b):計(jì)算幀i的指數(shù)j的每個(gè)子幀中的離散聲信號(hào){Xi}的最大值mi, j:
[0169] mi,j=max{x(i-i)N+(j-i)L+i，x(i-i)N+(j-i)l+2,…，x(i-i)N+jL};
[0170] 舉例來(lái)說(shuō)，長(zhǎng)度240(N = 240)的每幀i被細(xì)分為長(zhǎng)度60(即T = 4和L = 60)的四個(gè)子幀。
[0171] 然后，在步驟104中，平滑的最大值:力ij的包絡(luò)在幀i的指數(shù)j的每個(gè)子幀中被計(jì)算，定義如下：
[0172] 呵j = + (1-A) mu，其中A是一個(gè)預(yù)定義的系數(shù)包含在0和1之間。
[0173] 然后，在步驟105中，變化信號(hào)A ^在幀i的指數(shù)j的每個(gè)子幀中被計(jì)算，定義如下：
[0174] A，j = mir 賤)=入(mir 賤卜，）
[0175] 然后，在步驟106,標(biāo)準(zhǔn)化變化信號(hào)A 被計(jì)算，定義如下：
[0177] 然后，在步驟107中，變化最大值Si, j在幀i的指數(shù)j的每個(gè)子幀被計(jì)算，其中，Si, j對(duì) 應(yīng)變化信號(hào)A ^的最大值，在所述子幀j之前計(jì)算于長(zhǎng)度Lm的滑動(dòng)窗口。在這步驟106中，根據(jù)幀i的子幀j對(duì)應(yīng)于靜默時(shí)期或?qū)?yīng)于語(yǔ)音存在，長(zhǎng)度Lm是變量：
[0178] -Lm = L0,如果幀i的子幀j對(duì)應(yīng)于一段沉默時(shí)期；
[0179] -Lm = Ll，如果幀i的子幀j對(duì)應(yīng)于一個(gè)存在語(yǔ)音的時(shí)期；
[0180] L1<L0。舉例來(lái)說(shuō)，Ll=kUL和L0 = k0.L，作為一個(gè)提醒，對(duì)指數(shù)j和k0的子幀的長(zhǎng) 度是正整數(shù)，其中kl〈k0。此外，長(zhǎng)度Lm的滑動(dòng)窗口通過(guò)長(zhǎng)度N的Mm幀被延遲與所述子幀j相比。
[0181] 步驟106中，標(biāo)準(zhǔn)化變化最大值s'i,j也在幀i的指數(shù)j的每子幀中被計(jì)算，其中：
[0183] 可以想象的是計(jì)算標(biāo)準(zhǔn)化偏差最大值s'u根據(jù)最小化的方法包括以下迭代步驟：
[0184] _計(jì)算8'；1，」=11^{8'；1，」-1;八':1-_，]和4 = 111狀{3、-1;厶'丨_|\^}
[0185 ]-如果rem (i，Lm) = 0，其中rem是兩個(gè)整數(shù)的整數(shù)除法余數(shù)運(yùn)算符，然后：
[0186] Sij= max{s^
[0187] S'j| = &'i，iVtm,j
[0188] -如果
[0189] s'o.^O^PSqj =0：.
[0190]然后，在步驟108中，變化差心,」在幀i的指數(shù)j的每個(gè)子幀中，被定義：
[0191] Si; j= A i, j-si, j.
[0192] 在這一步驟108中，標(biāo)準(zhǔn)化變化差S'i,j在幀i的指數(shù)j的每個(gè)子幀中，被定義：
[0194] 然后，在步驟109中的最大值qi, j的最大值在幀i的指數(shù)j的每個(gè)子幀中對(duì)應(yīng)于最大值mi, j的最大值，在所述子幀j之前其計(jì)算于固定長(zhǎng)度Lq的滑動(dòng)窗口，其中長(zhǎng)度Lq的滑動(dòng)窗口是被與所述子幀j相比長(zhǎng)度N的幀Mq所延遲。有利地，Lq>L0，且主要的Lq = kq. L。其中kq是一個(gè)正整數(shù)和kq>k0。此外，我們有Mq>Mm。
[0195] 在這一步驟109中，根據(jù)一個(gè)最小化方法，計(jì)算最大值qi,j的最大值，包括以下迭代步驟：
[0196] -計(jì)算91，」=11^{91，」-1;1]1卜1^，」}和知=.丨113乂{^_1;(11丨_|^}
[0197] -如果rem(i，Lq)=0,這是兩個(gè)整數(shù)的整數(shù)除法余數(shù)運(yùn)算符，然后：
[0198] qij = max 說(shuō)}, fi,j = n%咖，j
[0199] -如果
[0200] q(u = 0 和 f〇,l = 0。
[0201]然后，在步驟110中，閾值Qi針對(duì)每幀i在多個(gè)固定值Qa，Qb，Qc，等中被建立。更細(xì)的子閾值U勺值針對(duì)幀i的每個(gè)子幀j被建立，閾值Q :被分割成幾個(gè)子閾值Q u，通過(guò)舉例的方式，每個(gè)閾值Qi或子閾值Qi,j得到一個(gè)固定值，從六個(gè)固定值Qa, Qb, nc, n d, Qe, Qf中選擇，這些固定值，例如包含在0.05和1之間，特別是在0.1和0.7之間。
[0202] 每個(gè)閾值Qi或子閾值Qi,j是被設(shè)置在固定值Qa，Qb，Qc，Qd，Qe，Qf之一，通過(guò)兩個(gè)分析實(shí)現(xiàn)的：
[0203] -第一分析:在幀i的指數(shù)j的子幀中對(duì)（A 的值與幾對(duì)固定閾值比較；
[0204] -第二分析:在幀i的指數(shù)j的子幀中，最大值的最大值與固定閾值比較。
[0205] 這些分析之后，稱為決策程序的過(guò)程將給出最終決策在幀中的聲音的存在。這一決策程序包括以下每一幀i的子步驟：
[0206]-對(duì)幀i的每個(gè)子幀j，決策DECi(j)的指數(shù)被建立，其擁有一個(gè)語(yǔ)音信號(hào)檢測(cè)狀態(tài) 《1》或語(yǔ)音信號(hào)的非檢測(cè)狀態(tài)《0》；
[0207] -建立一個(gè)臨時(shí)決策VAD(i)基于決策DECi(j)的指數(shù)與邏輯運(yùn)算符《0R》的比較，以便臨時(shí)決策VAD(i)擁有一個(gè)語(yǔ)音信號(hào)的檢測(cè)狀態(tài)《1》，如果至少一個(gè)所述決策DECdj)的指數(shù)持有這種語(yǔ)音信號(hào)的檢測(cè)狀態(tài)《1》，換句話說(shuō)，我們有以下的關(guān)系：
[0208] VAD(i)=DECi(l)+DECi(2) + . ? .+DECi(T)，其中〃+"是運(yùn)算符《0R》。
[0209] 因此，根據(jù)第一和第二分析的比較，并根據(jù)臨時(shí)決策VAD(i)的狀態(tài)，閾值Qi被設(shè) 置在固定值Qa, Qb，Qc，Qd，Qe, Qf之一，通過(guò)最小值rr(i)與閾值Qi比較，閾值被設(shè)置在六個(gè)固定值之一上(見(jiàn)下文描述），最后決策被推導(dǎo)出。
[0210] 在許多情況下，錯(cuò)誤檢測(cè)（或tonches)到達(dá)比語(yǔ)音信號(hào)的量級(jí)更低的量級(jí)，麥克風(fēng) 位于靠近使用者的嘴。通過(guò)考慮到這一點(diǎn)，有可能通過(guò)存儲(chǔ)從《VAD》的激活的最后時(shí)期的語(yǔ) 音信號(hào)中推導(dǎo)的閾值最大值La s tma x和由基于該閾值最大值La s tmax的方法中增加一個(gè)條件，以進(jìn)一步消除所述錯(cuò)誤檢測(cè)。
[0211] 因此，在上文描述步驟109中，有被添加存儲(chǔ)閾值最大值Lastmax，其對(duì)應(yīng)于比較閾值的變量(或更新)值，用于離散聲信號(hào){ Xl}的大小低于不包含語(yǔ)音信號(hào)的聲音信號(hào)，在指數(shù)k的最后幀中此變量值被確定，其優(yōu)先于所述幀i且其中所述臨時(shí)決策VAD( k)持有語(yǔ)音信號(hào)的檢測(cè)狀態(tài)《1》。
[0212] 在這一步驟109中，還存儲(chǔ)了一平均最大值A(chǔ)i,j，其對(duì)應(yīng)于離散聲信號(hào){Xi}的平均最大值，在計(jì)算幀i的子幀j中，如下：
[0213] Ai,j = 0Ai,j-i+(l-0)aij
[0214] 其中ai,j對(duì)應(yīng)離散聲信號(hào){Xi}的最大值，包含在由幀i的子幀j以及至少一個(gè)或多個(gè)連續(xù)子幀形成的理論幀k中，連續(xù)子幀優(yōu)于所述子幀j;且0是一個(gè)預(yù)定義的系數(shù)包含在0 和1之間，且0〈入。
[0215]在這一步驟109中，閾值的最大值Lastmax被更新，每當(dāng)方法考慮到幀k的子幀p包含語(yǔ)音信號(hào)時(shí)，通過(guò)執(zhí)行以下步驟：
[0216] -在一段非語(yǔ)音時(shí)期之后在幀k的子幀p中檢測(cè)語(yǔ)音信號(hào)，在這種情況下，Lastmax 需要更新值[a(Ak,P+LastMax)]，其中a是一個(gè)預(yù)定義的系數(shù)包含在〇和1之間，例如在0.2和 0.7之間；
[0217] -在一段存在語(yǔ)音時(shí)期之后在幀k的子幀p中檢測(cè)語(yǔ)音信號(hào)，在這種情況下， Las tmax 需要更新值 Ak, p 如果Ak, P>Las tmax。
[0218] 然后，在上述步驟110中描述，基于閾值的最大值Lastmax的條件被加入i以便設(shè)置閾值Qi。
[0219] 對(duì)于每一幀，這個(gè)條件是基于以下的比較：
[0220] -閾值的最大值Lastmax，和
[0221] -值[Kp.Ai,j]和[Kp. Ai,j-!]，其中Kp是一個(gè)固定加權(quán)系數(shù)包含在1和2之間。
[0222] 它也可以被想到在給定超時(shí)時(shí)間后降低閾值最大值Lastmax(例如設(shè)置在幾秒鐘和幾十秒之間)在幀i和指數(shù)k的最后上述幀之間，以便如果用戶/講話者明顯降低他的聲音的量級(jí)則避免語(yǔ)音的無(wú)損檢測(cè)。
[0223]然后，在步驟ill中，每個(gè)當(dāng)前幀i被計(jì)算，離散檢測(cè)函數(shù)roi(〇的最小值rr(i)對(duì) 應(yīng)離散差函數(shù)Di ( t )或離散標(biāo)準(zhǔn)化函數(shù)DNi ( t )。
[0224] 最后，在最后步驟112中，每一當(dāng)前幀i，這個(gè)最小值rr (i)與針對(duì)幀i的閾值Q i比較，以檢測(cè)語(yǔ)音信號(hào)是否存在(或濁音信號(hào)），其中：
[0225] -如果，則幀i被考慮表示語(yǔ)音信號(hào)且所述方法提供一個(gè)輸出信號(hào)0巧獲得值《1》(換句話說(shuō)，對(duì)幀i的最終決策是《幀i中聲首存在》）；
[0226] -如果rrGDQi，則幀i被考慮作為沒(méi)有語(yǔ)音信號(hào)和所述方法提供一個(gè)輸出信號(hào) DFi獲得值《0》(換句話說(shuō)，對(duì)幀i的最終決策是《幀i中無(wú)聲音》）。
[0227] 參考附圖1和2,提供改進(jìn)的方法是可能的，通過(guò)引入一個(gè)額外決策阻斷步驟113 (或掛起步驟），以避免在一個(gè)句子和在發(fā)音期間，聲音銷減，這一決策阻斷步驟113旨在加強(qiáng)對(duì)語(yǔ)音的存在/不存在的決策，執(zhí)行以下兩個(gè)步驟：
[0228] -在NP連續(xù)的時(shí)間幀i上檢測(cè)到語(yǔ)音信號(hào)的存在后，從一個(gè)語(yǔ)音信號(hào)的非檢測(cè)狀態(tài) 切換到一個(gè)語(yǔ)音信號(hào)的檢測(cè)狀態(tài)；
[0229] -在Na連續(xù)的時(shí)間幀i上檢測(cè)到語(yǔ)音信號(hào)不存在后，從一個(gè)語(yǔ)音信號(hào)的檢測(cè)狀態(tài)切換到一個(gè)語(yǔ)音信號(hào)的非檢測(cè)狀態(tài)。
[0230] 因此，這一阻斷步驟113允許輸出聲音Dv的檢測(cè)決策信號(hào)，其獲得值《1》對(duì)應(yīng)聲音的檢測(cè)決策，且值《〇》對(duì)應(yīng)于聲音的非檢測(cè)決策，其中：
[0231] -聲音Dv檢測(cè)決策信號(hào)從狀態(tài)《1》切換到狀態(tài)《0》，當(dāng)且僅當(dāng)輸出信號(hào)DFi獲得值《0》在Na連續(xù)時(shí)間幀i上;和
[0232]-聲音Dv檢測(cè)決策信號(hào)從狀態(tài)《0》切換到狀態(tài)《1》，當(dāng)且僅當(dāng)輸出信號(hào)DFi獲得值《1》在Np連續(xù)時(shí)間幀i上。
[0233] 參見(jiàn)圖2,如果我們假設(shè)我們從一個(gè)狀態(tài)《Dv=l》開(kāi)始，我們切換到狀態(tài)《Dv = 0》，如果輸出信號(hào)DFi獲得值《0》在Na連續(xù)時(shí)間幀上，否則狀態(tài)保持在《Dv=l》(Ni表示在該系列的開(kāi)始幀的數(shù)量）。同樣，如果我們假設(shè)我們從一個(gè)狀態(tài)《Dv = 0》開(kāi)始，我們切換到狀態(tài)《Dv=l》如果輸出信號(hào)DFi取值《1》在NP連續(xù)幀上，否則狀態(tài)保持在《Dv = 0》。
[0234] 最終決策適用于處理幀的第一 H樣本。優(yōu)選地，Na是大于NP，例如Na=100和NP = 3，因?yàn)槊半U(xiǎn)檢測(cè)靜默更好，而不是削減對(duì)話。
[0235] 在描述的其余部分集中于兩種聲音檢測(cè)結(jié)果，通過(guò)使用固定的閾值（圖3)的常規(guī) 方法獲得，和根據(jù)本發(fā)明的方法利用自適應(yīng)閾值(圖4)獲得。
[0236] 在圖3和4(在底部）中，應(yīng)該注意的是，兩種方法在同一離散聲信號(hào){Xl}工作，具有在縱坐標(biāo)的量級(jí)和橫坐標(biāo)的樣本。這種離散聲信號(hào){ Xl}有語(yǔ)音《PAR》存在的單一區(qū)域，和不必要的噪音，如音樂(lè)，鼓，人群呼喊和口哨存在的許多區(qū)域。這種離散聲信號(hào){^}反映環(huán)境表示在人(如裁判)之間通信，其在體育場(chǎng)或體育館內(nèi)噪音具有相對(duì)非常強(qiáng)的水平，且是非常不穩(wěn)定的。
[0237] 在圖3和4(在頂部）中，應(yīng)該注意的是，這兩種方法利用同一函數(shù)rr(i)，其對(duì)應(yīng)，通過(guò)提醒的方式，所選擇的離散檢測(cè)函數(shù)FDi(i)的最小值。
[0238] 在圖3 (在頂部）中，最小函數(shù)rr (i)被比較，與一個(gè)固定的固定閾值Q f ix以確保語(yǔ) 音的檢測(cè)最佳地選擇。在圖3(在底部）中，持有狀態(tài)《1》的輸出信號(hào)DFi的形狀應(yīng)該被注意，如果：rr(iX Q fix和狀態(tài)《0》如果rr(i)> Q fix。
[0239] 在圖4(在頂部）中，最小函數(shù)rr(i)與根據(jù)上述附圖1描述的步驟計(jì)算的自適應(yīng)閾值1比較，在圖4(在底部）中，持有狀態(tài)《1》的輸出信號(hào)DFi的形狀值得被注意，如果rr⑴彡 ^^且狀態(tài)《〇》如果^(1)>〇1。
[0240]在圖3中指出，根據(jù)本發(fā)明的方法允許聲音檢測(cè)在具有保持狀態(tài)《1》的輸出信號(hào) DFi的語(yǔ)音《PAR》存在區(qū)域，而同樣的輸出信號(hào)DFi持有幾倍狀態(tài)《1》在此語(yǔ)音尚未存在的其它區(qū)域，這與傳統(tǒng)的方法不需要的錯(cuò)誤檢測(cè)相對(duì)應(yīng)。
[0241]然而，在圖4中應(yīng)注意的是，根據(jù)本發(fā)明的方法允許最佳的聲音檢測(cè)在具有保持狀態(tài)《1》的輸出信號(hào)DFi的語(yǔ)音《PAR》存在區(qū)域，而持有狀態(tài)《0》的同樣輸出信號(hào)DFi在此語(yǔ)音尚未存在的其它區(qū)域。因此，按照本發(fā)明的方法確保強(qiáng)還原錯(cuò)誤檢測(cè)的數(shù)量的聲音檢測(cè)。 [0242]當(dāng)然，上面提到的實(shí)施例中并不限制根據(jù)本發(fā)明的方法可能涉及的特征和其他改進(jìn)和細(xì)節(jié)，而不脫離本發(fā)明的范圍的情況，其中檢測(cè)函數(shù)FD(t)的其他計(jì)算算法可以被使用。
【主權(quán)項(xiàng)】
1. 一種語(yǔ)音檢測(cè)方法，其允許檢測(cè)來(lái)自麥克風(fēng)的嘈雜聲信號(hào)X(t)中的語(yǔ)音信號(hào)的存在，包括下列連續(xù)的步驟： -初步采樣步驟，包括聲信號(hào)x(t)削減成離散聲信號(hào){Xl}，所述離散聲信號(hào)由與長(zhǎng)度N的時(shí)間幀i相關(guān)聯(lián)的一系列向量組成，N對(duì)應(yīng)于樣本點(diǎn)的數(shù)量，其中每個(gè)向量反映相關(guān)幀i的聲學(xué)內(nèi)容，并且由N個(gè)樣本X(i-1)N+1，X(i-1)Ν+2，…，XiN-1，XiN組成，i是一個(gè)正整數(shù)； -基于差函數(shù)D(T)的計(jì)算而計(jì)算檢測(cè)函數(shù)ro(T)步驟，根據(jù)開(kāi)始于時(shí)間to的長(zhǎng)度W的集齒 π 卜的亦甘士I .其中計(jì)算檢測(cè)函數(shù)FD(T)步驟在于計(jì)算與幀i相關(guān)的離散檢測(cè)函數(shù)FD1(T); -根據(jù)在所述當(dāng)前間隔中建立的聲信號(hào)x(t)計(jì)算的值，在所述當(dāng)前間隔適應(yīng)閾值的步驟；其中適應(yīng)閾值的步驟包括，對(duì)于每個(gè)幀i，根據(jù)從在所述幀i的離散聲信號(hào){^丨的樣本中的值計(jì)算的參考值，適應(yīng)針對(duì)幀i的適應(yīng)閾值Ω i; -搜索和比較步驟，搜索檢測(cè)函數(shù)FD(T)的最小值和該最小值與閾值進(jìn)行比較，在稱為當(dāng)前間隔的確定的時(shí)間間隔內(nèi)，其中τ變化以便在當(dāng)前間隔內(nèi)檢測(cè)語(yǔ)音信號(hào)的基頻Fo特性存在或不存在，其中，檢測(cè)函數(shù)Π )(τ)的最小值的搜索和該最小值與閾值比較的步驟是通過(guò)在每個(gè)幀i 上，離散檢測(cè)函數(shù)FD1⑴的最小值rr⑴進(jìn)行搜索，和最小值rr⑴與針對(duì)幀i的閾值Q1進(jìn)行比較；且其中適應(yīng)每個(gè)幀i的所述閾值〇,的步驟包括以下的步驟： a) _細(xì)分包括N個(gè)采樣點(diǎn)的幀i到長(zhǎng)度L的T子幀，其中N是T的倍數(shù)，以便長(zhǎng)度L = N/T是一個(gè)整數(shù)，從而使在幀i的指數(shù)j的子幀中離散聲信號(hào){^}的樣本包括以下L個(gè)樣本： X(i-l)N+(j-1)L+1，X(i-l)N+(j-l)L+2,…，X(i-l)N+jL,，j是一個(gè)正整數(shù)，包括在 I 和T之間； b) _計(jì)算離散聲信號(hào){^}的最大值ΠΗ,」，在每一個(gè)幀i的指數(shù)j的子幀的中，其中： ΠΗ, j=max{x(i-l)N+(j-l)L+l ,X(i-l)N+(j-l)L+2, ··· ,X(i-l)N+jL}； C)-計(jì)算至少一個(gè)參考值此5,」，1如5,」針對(duì)幀丨的子幀九所述或每個(gè)參考值此5丄 MRef i, j每子幀j由最大值mi, j被計(jì)算，在幀i的子幀j中； d)-建立針對(duì)幀i的閾值Ω i的值，其取決于在幀i的子幀j中計(jì)算的所有的參考值Ref i, j， MRefijo2. 根據(jù)權(quán)利要求1所述的檢測(cè)方法，其中，檢測(cè)函數(shù)FD(T)對(duì)應(yīng)于差函數(shù)D(t)。3. 根據(jù)權(quán)利要求1所述的檢測(cè)方法，其中，檢測(cè)函數(shù)Π )(τ)對(duì)應(yīng)于標(biāo)準(zhǔn)化差函數(shù)DN(T)，其從差函數(shù)D(T)計(jì)算得到，如下： DN(T) = I 如果 τ = 〇，其中計(jì)算標(biāo)準(zhǔn)化差函數(shù)DN(T)在于與幀i相關(guān)聯(lián)的離散標(biāo)準(zhǔn)化差函數(shù)DN1(T)的計(jì)算，其中： DNi(T) = I 如果 τ = 〇，4. 根據(jù)權(quán)利要求1至3中任一所述的方法，其中，相對(duì)于幀i的離散差函數(shù)D1(T)計(jì)算如下： -細(xì)分幀i到長(zhǎng)度H的K子幀，伊'^其f€示對(duì)整數(shù)部分的四舍五入的操作，因此，在幀i的指數(shù)p的子幀中，離散聲信號(hào){Xl}的樣本包括H個(gè)樣本： X(i-l)N+(p-1)H+1，X(i-l)N+(p-1)Η+2,…，X(i-1)Ν+ρΗ，Ρ 是一個(gè)正整數(shù)，包括在 I 和K之間； -對(duì)于指數(shù)P的每個(gè)子幀，計(jì)算下列差函數(shù)Cldp(T):-計(jì)算相對(duì)于幀i的離散差函數(shù)D i (τ)，作為幀i的指數(shù)P的子幀的差函數(shù)d d P (τ)的總和，即：5. 根據(jù)前述任一權(quán)利要求所還的萬(wàn)法，具中，在步驟c)中，在每個(gè)幀i上進(jìn)行下面的子步驟： cl)-計(jì)算平滑最大值歡泡絡(luò)線，在幀i的指數(shù)j的每個(gè)子幀中：,其中λ是一個(gè)預(yù)定義的系數(shù)包括在〇和1之間； c2)-計(jì)算變化信號(hào)」龍rflrifi.的佑撒·；的毎木其中至少一個(gè)參考值禰為主要參考值Refi,j母于幀j由變化信號(hào)Δ i;j在幀i的子幀j中被計(jì)算。6. 根據(jù)前述權(quán)利要求5所述的方法，其中，在步驟c)和隨后的子步驟c2)中，下面子步驟在每個(gè)幀i上進(jìn)行： c3)_計(jì)算變化最大值si, j在幀i的指數(shù)j的每個(gè)子幀中，其中si, j對(duì)應(yīng)于變化信號(hào)△ i,j最大值，其在所述子幀j之前的長(zhǎng)度Lm的滑動(dòng)窗口被計(jì)算，所述長(zhǎng)度Lm是可變的，其取決于幀i 的子幀j是否對(duì)應(yīng)一段靜默期間或語(yǔ)音存在； c4)_計(jì)算變化差Si, j在幀i的指數(shù)j的每個(gè)子幀中，其中： Sij= Δ ij-sij；其中，幀i的每個(gè)子幀j，兩個(gè)主要的參考值Ref^被分別由變化信號(hào)△^和變化差Slij 計(jì)算。7. 根據(jù)前述權(quán)利要求6所述的方法，其中，在步驟c)中和作為一個(gè)子步驟c4)的結(jié)果，子步驟c5)計(jì)算標(biāo)準(zhǔn)化變化信號(hào)和標(biāo)準(zhǔn)化變化差δ'^在幀i的指數(shù)j的每子幀中被執(zhí)行，如下：其中，幀i的每個(gè)子幀j，標(biāo)準(zhǔn)化變化信號(hào)A 和標(biāo)準(zhǔn)化差δ'^構(gòu)成每一個(gè)主要的參考值Ref i, j，那么，在步驟d)中，針對(duì)幀i的閾值Ω i的值被建立，其取決于在幀i的子幀j中的一對(duì)標(biāo)準(zhǔn)化變化信號(hào)（A ' u，δ ' 1;」)和標(biāo)準(zhǔn)化變化差δ ' 1;j。8. 根據(jù)前述權(quán)利要求7所述的檢測(cè)方法，其中，在步驟d)期間，針對(duì)幀i的閾值Q1的值是通過(guò)劃分由對(duì)（4'1^3'1,」）的值定義的空間和根據(jù)對(duì)（4'1^3'^)的值區(qū)域在一個(gè)或多個(gè)連續(xù)子幀上通過(guò)檢查對(duì)（A J的值而建立的。9. 根據(jù)前述權(quán)利要求6至8任一所述的方法，其中，在子步驟c3)中，滑動(dòng)窗口的長(zhǎng)度Lm 滿足以下方程： -Lm=LO，如果幀i的子幀j對(duì)應(yīng)于一段靜默時(shí)間； -Lm=Ll，如果幀i的子幀j對(duì)應(yīng)于一段語(yǔ)音存在時(shí)間；其中，L1〈L0,特別地其中Ll = kl.L和L0 = k0.L是指數(shù)j的子幀的長(zhǎng)度，k0，kl是正整數(shù)。10. 根據(jù)前述權(quán)利要求6所述的方法，其中，子步驟c3)中，對(duì)于在幀i的子幀j中每個(gè)變化最大值si, j的計(jì)算，關(guān)于所述子幀j長(zhǎng)度N的幀Mm延遲長(zhǎng)度Lm的滑動(dòng)窗口。11. 根據(jù)前述權(quán)利要求6和10所述的方法，其中，在子步驟c3)中，在幀i的指數(shù)j的每個(gè) 子幀中也計(jì)算標(biāo)準(zhǔn)化變化最大值s'U，其中s'U對(duì)應(yīng)標(biāo)準(zhǔn)化變化信號(hào)A的最大值，在所述子幀j之前長(zhǎng)度Lm的滑動(dòng)窗口中被計(jì)筧，其中：其中每個(gè)標(biāo)準(zhǔn)化變化最大值s'u是根據(jù)一個(gè)最小化的方法計(jì)算的，其包括以下步驟：_{十算S i，j -max { S i，j-1; Δ i-Mm.如果γθπι( i，Lm)= 0，其中"rpTri縣而救撒r的救撒^全纟豐彳r曾全撒r ?然后：其中S'Q,1 = 0 和S1a1 =〇; 其中，在步驟c4)中，計(jì)算標(biāo)準(zhǔn)化變化差δ'?在幀i的指數(shù)j的每個(gè)子幀中計(jì)算如下： δ i，j= A i, j_s i, j〇12. 根據(jù)前述權(quán)利要求5至11中任一所述的方法，其中，在步驟c)中，執(zhí)行子步驟c6)，其中在幀i的指數(shù)j的每個(gè)子幀中最大值的最大值被計(jì)算，其中對(duì)應(yīng)于最大值mu的最大值，所述最大值在所述子幀j之前固定長(zhǎng)度Lq的滑動(dòng)窗口中被計(jì)算，其中所述長(zhǎng)度Lq的滑動(dòng)窗口被長(zhǎng)度N的Mq幀延遲，關(guān)于所述子幀j，并且其中在幀i的子幀j另一個(gè)參考值稱為次要參考值MRef i, j每子幀j對(duì)應(yīng)所述最大值qi,j的最大值。13. 根據(jù)前述權(quán)利要求5至12中任一所述的方法，其中，在步驟d)，針對(duì)幀i的閾值Ω 1被劃分成針對(duì)幀i的每個(gè)子幀j的若干子閾值Ω u，且每個(gè)子閾值Ω u的值至少是根據(jù)參考值 Refi, j，MRefi, j建立的，其在幀i的子幀j中被計(jì)算。14. 根據(jù)前述權(quán)利要求7和13所述的方法，其中，在步驟d)，針對(duì)幀i的子幀j的每個(gè)閾值 Ω i, j的值是通過(guò)比較對(duì)（△ ' i, j，δ ' i,」）的值和幾對(duì)固定閾值而被建立的，每個(gè)閾值Ω i,」的值是從幾個(gè)固定值中選擇的，所述固定值取決于對(duì)（A J與所述幾對(duì)固定閾值的比較。15. 根據(jù)前述權(quán)利要求5至14中任一所述的方法，其中，在步驟d)，執(zhí)行稱為決策過(guò)程的過(guò)程，包括以下子步驟，針對(duì)每一幀i : -對(duì)幀i的每個(gè)子幀j，建立決策DECi( j)的指數(shù)，其擁有一個(gè)語(yǔ)音信號(hào)的檢測(cè)的狀態(tài)《1》或語(yǔ)音信號(hào)的非檢測(cè)的狀態(tài)《〇》； -建立一個(gè)臨時(shí)決策VAD( i )，其基于決策DECi (j)的指數(shù)與邏輯運(yùn)算符《OR》的比較，以便如果至少一個(gè)所述決策DECi( j)的指數(shù)持有語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》時(shí)，臨時(shí)決策VAD( i)持有一個(gè)語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》。16. 根據(jù)前述權(quán)利要求13和15所述的方法，其中，在所述決策過(guò)程中，下面的子步驟對(duì) 于每個(gè)幀i可以進(jìn)行： -存儲(chǔ)閾值的最大值La s tmax，其對(duì)應(yīng)一個(gè)比較閾值的可變值，用于離散聲信號(hào){Xi}的量級(jí)，在它被認(rèn)為聲信號(hào)不包括語(yǔ)音信號(hào)之下，在指數(shù)k的最后一幀期間這個(gè)可變值被確定，其先于所述幀i，且其中臨時(shí)決策VAD(k)持有一個(gè)語(yǔ)音信號(hào)檢測(cè)的狀態(tài)《1》； -存儲(chǔ)一個(gè)平均最大值A(chǔ)1,」，對(duì)應(yīng)于被計(jì)算的幀i的子幀j中的離散聲信號(hào){^}的平均最大值，計(jì)算如下： Ai,j = 0Ai,j-i+(l-0)ai,j 其中ai,j對(duì)應(yīng)于離散聲信號(hào){xi}最大值，包含在由幀i的子幀j和至少一個(gè)或多個(gè)優(yōu)先于所述子幀j的連續(xù)子幀形成的幀中，和 Θ是一個(gè)預(yù)定義的包含在0和1之間的系數(shù)，且θ〈λ; -建立每個(gè)子閾值Ω i, j的值，其取決于在所述閾值最大值Lastmax以及平均最大值A(chǔ)i, j 和Ai,j-i之間的比較，其中Ai,j和Ai,j-i考慮在兩個(gè)連續(xù)子幀j和j-1上。17. 根據(jù)前述權(quán)利要求16所述的方法，其中，在決策過(guò)程中，每當(dāng)方法被認(rèn)為幀k的子幀 P包含語(yǔ)音信號(hào)時(shí)，閾值的最大值Lastmax被更新，通過(guò)執(zhí)行以下步驟： -在一段沒(méi)有語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀p中的語(yǔ)音信號(hào)，在這種情況下Lastmax 需要更新值[a(Ak,P+LastMax)]，其中α是一個(gè)預(yù)定義的系數(shù)包含在〇和1之間，且例如包含在由0.2和0.7之間； -在一段存在語(yǔ)音的時(shí)期之后檢測(cè)在幀k的子幀ρ的語(yǔ)音信號(hào)，在這種情況下Lastmax取得更新后的值A(chǔ)k,t^I^Ak,P>Lastmax。18. 根據(jù)前述權(quán)利要求16或17所述的方法，其中，建立取決于閾值的最大值Las tmax的閾值〇,的值的條件是有利于基于在以下之間的比較： -閾值的最大值La s tmax;和 -值[Kp.Ai,j]和[Kp.Ai^1]，其中Kp是一個(gè)包含在1和2之間的固定的加權(quán)系數(shù)。19. 根據(jù)前述任一權(quán)利要求所述的方法，其中，進(jìn)一步包括一個(gè)稱為阻斷階段的階段，在已檢測(cè)到語(yǔ)音信號(hào)在^連續(xù)時(shí)間幀i的存在之后，該階段包括從一個(gè)語(yǔ)音信號(hào)的非檢測(cè) 狀態(tài)轉(zhuǎn)換到語(yǔ)音信號(hào)的檢測(cè)狀態(tài)。20. 根據(jù)前述任一權(quán)利要求所述的方法，其中，還包括稱為阻斷階段的階段，該階段包括轉(zhuǎn)換步驟，從語(yǔ)音信號(hào)的檢測(cè)狀態(tài)轉(zhuǎn)換到語(yǔ)音信號(hào)的非檢測(cè)狀態(tài)，在Na連續(xù)時(shí)間幀i上已經(jīng)檢測(cè)語(yǔ)音信號(hào)不存在之后。21. 根據(jù)前述權(quán)利要求19和20任一所述的方法，其中，在決策領(lǐng)域包括一個(gè)中斷阻斷階段的步驟，發(fā)生在單詞的結(jié)束和無(wú)噪聲的情況下，所述決策區(qū)域是通過(guò)分析離散檢測(cè)函數(shù) FDi (τ)的最小值rr (i)而被檢測(cè)的。22. -種計(jì)算機(jī)程序，其特征在于包含代碼指令，當(dāng)處理器執(zhí)行所述代碼指令時(shí)，能夠控制根據(jù)前述任一權(quán)利要求所述的語(yǔ)音檢測(cè)方法的執(zhí)行。23. -種數(shù)據(jù)記錄介質(zhì)存儲(chǔ)根據(jù)前述權(quán)利要求22所述的計(jì)算機(jī)程序。24. -種計(jì)算機(jī)程序規(guī)則，用于在通信網(wǎng)絡(luò)下載根據(jù)前述權(quán)利要求22所述的計(jì)算機(jī)程序。
【文檔編號(hào)】G10L25/78GK105900172SQ201480065834
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2014年11月27日
【發(fā)明人】開(kāi)里姆·瑪歐徹
【申請(qǐng)人】阿多尼斯Rf公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：開(kāi)里姆·瑪歐徹;
技術(shù)所有人：阿多尼斯RF公司;
我是此專利的發(fā)明人

上一篇：選擇性聲音存儲(chǔ)設(shè)備的制造方法
上一篇：依賴于情境的瞬態(tài)抑制的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音端點(diǎn)檢測(cè)相關(guān)技術(shù)

語(yǔ)音檢測(cè)相關(guān)技術(shù)

qq語(yǔ)音未檢測(cè)到麥克風(fēng)相關(guān)技術(shù)

語(yǔ)音信號(hào)端點(diǎn)檢測(cè)相關(guān)技術(shù)

語(yǔ)音活動(dòng)檢測(cè)相關(guān)技術(shù)

語(yǔ)音端點(diǎn)檢測(cè)算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語(yǔ)音檢測(cè)方法