語音處理的清音/濁音判決的制作方法
【專利說明】
[0001] 本發(fā)明要求2014年9月3日遞交的發(fā)明名稱為"語音處理的清音/濁音判決 (Unvoiced/Voiced Decision for Speech Processing)"的第 14/476, 547 號美國專利申請 的在先申請優(yōu)先權(quán),該在先申請是2013年9月9日遞交的發(fā)明名稱為"語音編碼/帶寬擴(kuò)展 / 語音增強(qiáng)的改進(jìn)的清音 / 池音判決(Improved Unvoiced/Voiced Decision for Speech Coding/Bandwidth Extension/Speech Enhancement)"的第61/875, 198號美國臨時專利申 請案的連續(xù)申請案,這兩個在先申請均以引入的方式并入本文本中,如全文再現(xiàn)一般。
技術(shù)領(lǐng)域
[0002] 本發(fā)明大體上涉及語音處理領(lǐng)域,尤其涉及用于語音處理的濁音/清音判決方 法。
【背景技術(shù)】
[0003] 語音編碼是指一種降低語音文件的比特率的過程。語音編碼是一種對包含語音的 數(shù)字音頻信號進(jìn)行數(shù)據(jù)壓縮的應(yīng)用。語音編碼通過音頻信號處理技術(shù)使用特定語音參數(shù)估 計來模擬語音信號,結(jié)合通用數(shù)據(jù)壓縮算法以緊湊的比特流表示所得的模擬參數(shù)。語音編 碼的目的是為了通過減少每個樣本的比特數(shù)來實現(xiàn)節(jié)省所需內(nèi)存存儲空間、傳輸帶寬和傳 輸功率的目的,使得已解碼(已解壓縮)語音在感知上與原始語音難以區(qū)分。
[0004] 然而,語音編碼器是有損編碼器,即,已解碼信號不同于原始信號。因此,語音編碼 的目標(biāo)之一是為了使失真(或可感知損失)在給定比特率下最小化,或者使比特率最小化 以達(dá)到給定的失真。
[0005] 語音編碼與其它形式的音頻編碼的不同之處在于語音是一種比大多數(shù)其它音頻 信號簡單地多的信號,而且關(guān)于語音特性的統(tǒng)計信息更多。因此,與音頻編碼相關(guān)的一些聽 覺信息在語音編碼上下文中可以是不必要的。在語音編碼中,最重要的原則是用有限的傳 輸數(shù)據(jù)保證語音的清晰度和"愉悅度"。
[0006] 語音的清晰度,除了包括實際文字內(nèi)容,還包括說話者身份、情緒、語調(diào)、音色,所 有這些對于最佳清晰度都很重要。退化語音的愉悅度是一個較抽象概念,它是不同于清晰 度的一個特性,因為退化語音有可能是完全清晰的,但是主觀上另聽眾厭煩。
[0007] 語音波形的冗余與不同類型的語音信號有關(guān),例如濁音和清音語音信號。濁音,例 如'a'、'b',基本上是由于聲帶的振動而產(chǎn)生的,而且是振蕩的。因此,在一個較短時間周期 內(nèi),通過正弦等周期性信號的疊加可以很好地模擬它們。換言之,濁音語音信號基本上是周 期性的。然而,這種周期性在語音片段的持續(xù)時間內(nèi)可能是變化的,而且周期波的形狀通常 從一個片段到另一片段逐漸地變化。低比特率語音編碼可以大大受益于研究這種周期性。 濁音語音周期還被稱為基音(pitch),基音預(yù)測通常被稱為長期預(yù)測(LTP)。相比之下,清 音,例如's'、'sh',更像噪聲。這是因為清音語音信號更像一種隨機(jī)噪聲,并且具有更小的 可預(yù)測性。
[0008] 傳統(tǒng)上,所有參數(shù)語音編碼方法利用語音信號內(nèi)在的冗余來減少發(fā)送的信息量以 及在短的間隔內(nèi)估計信號的語音樣本的參數(shù)。這種冗余主要是由語音波形以準(zhǔn)周期速率重 復(fù),以及語音信號的頻譜包絡(luò)變化緩慢造成的。
[0009] 可以參考若干不同類型的語音信號,例如濁音和清音,考慮語音波形的冗余。盡 管濁音語音信號基本上是周期性的,但是這種周期性在語音片段的持續(xù)時間內(nèi)可能是變化 的,而且周期性波的形狀通常隨著片段而逐漸地變化。低比特率語音編碼可以大大受益于 研究這種周期性。濁音語音周期還被稱為基音,基音預(yù)測通常被稱為長期預(yù)測(LTP)。至于 清音語音,信號更像一種隨機(jī)噪聲,并且具有更小的可預(yù)測性。
[0010] 在任一情況下,參數(shù)編碼可以用于通過將語音信號的激勵分量與頻譜包絡(luò)分量分 離來減少語音片段的冗余。緩慢變化的頻譜包絡(luò)可以通過線性預(yù)測編碼(LPC),也稱為短期 預(yù)測(STP)表示。低比特率語音編碼還可以大大受益于研究此種短期預(yù)測。編碼的優(yōu)勢來 自于參數(shù)的緩慢變化。然而,這些參數(shù)與在幾毫秒內(nèi)保持的值明顯不同是很少見的。相應(yīng) 地,在8kHz、12. 8kHz或16kHz的采樣速率下,語音編碼算法采用的標(biāo)稱幀持續(xù)時間的范圍 在十到三十毫秒內(nèi)。20毫秒的幀持續(xù)時間是最常見的選擇。
[0011] 在最近的著名標(biāo)準(zhǔn),例如G. 723. 1、G. 729、G. 718、增強(qiáng)型全速率(EFR)、可選擇模 式聲碼器(SMV)、自適應(yīng)多速率(AMR)、可變速率多模式寬帶(VMR-WB),或自適應(yīng)多速率寬 帶(AMR-WB)中,已經(jīng)采用了碼激勵線性預(yù)測技術(shù)("CELP")。CELP通常理解為編碼激勵、 長期預(yù)測和短期預(yù)測的技術(shù)組合。CELP主要利用人類聲音特性或人類嗓音發(fā)聲模型對語 音信號進(jìn)行編碼。CELP語音編碼在語音壓縮領(lǐng)域是一種非常普遍的算法原理,盡管不同編 解碼器中的CELP細(xì)節(jié)可能會有很大不同。由于它的普遍性,CELP算法已經(jīng)應(yīng)用于ITU-T、 MPEG、3GPP和3GPP2等各種標(biāo)準(zhǔn)中。CELP的變體包括代數(shù)CELP、廣義CELP、低時延CELP和 矢量和激勵線性預(yù)測,以及其它。CELP是一類算法的通用術(shù)語,而不是指特定的編解碼器。
[0012] CELP算法基于四個主要觀點。第一,使用通過線性預(yù)測(LP)的用于語音生成的源 濾波器模型。用于語音生成的源濾波器將語音模擬為聲源,例如聲帶,和線性聲濾波器,即 聲道(和輻射特性)的組合。在語音生成的源濾波器模型的實施方式中,聲源或激勵信號 通常被模擬為濁音語音的周期性脈沖序列,或清音語音的白噪聲。第二,將自適應(yīng)和固定碼 本用作LP模型的輸入(激勵)。第三,在"感知加權(quán)域"的閉環(huán)中中執(zhí)行搜索。第四,使用 了矢量量化(VQ)。
【發(fā)明內(nèi)容】
[0013] 根據(jù)本發(fā)明一實施例,一種語音處理方法包括確定清音/濁音參數(shù),所述清音/濁 音參數(shù)反映包括多個幀的語音信號的當(dāng)前幀中的清音/濁音語音特性。確定平滑后的清音 /濁音參數(shù),所述平滑后的清音/濁音參數(shù)包括所述語音信號的所述當(dāng)前幀之前的幀中的 清音/濁音參數(shù)的信息。計算所述清音/濁音參數(shù)和所述平滑后的清音/濁音參數(shù)之間的 差值。所述方法還包括使用所述計算得出的差值作為判決參數(shù)來生成清音/濁音判決點, 該清音/濁音判決點用于確定所述當(dāng)前幀是否包括清音語音或濁音語音。
[0014] 在一個可選的實施例中,一種語音處理裝置包括處理器,以及存儲由所述處理器 執(zhí)行的程序的計算機(jī)可讀存儲介質(zhì)。所述程序包括執(zhí)行以下操作的指令:確定清音/濁音 參數(shù),所述清音/濁音參數(shù)反映包括多個幀的語音信號的當(dāng)前幀中的清音/濁音語音特征; 以及確定平滑后的清音/濁音參數(shù)包括所述語音信號的所述當(dāng)前幀之前的幀中的清音/濁 音參數(shù)的信息。所述程序還包括執(zhí)行以下操作的指令:計算所述清音/濁音參數(shù)和所述平 滑后的清音/濁音參數(shù)之間的差值,以及使用所述計算得出的差值作為判決參數(shù)以生成清 音/濁音判決點,該清音/濁音判決點用于確定所述當(dāng)前幀是否包括清音語音或濁音語音。
[0015] 在一個可選的實施例中,一種語音處理方法包括提供語音信號的多個幀,以及為 當(dāng)前幀從所述語音信號在時域中的第一能量包絡(luò)中的第一頻帶確定第一參數(shù)和從所述語 音信號在時域中的第二能量包絡(luò)中的第二頻帶確定第二參數(shù)。從所述語音信號的先前幀中 確定平滑后的第一參數(shù)和平滑后的第二參數(shù)。將所述第一參數(shù)與所述平滑后的第一參數(shù)進(jìn) 行比較,以及將所述第二參數(shù)與所述平滑后的第二參數(shù)進(jìn)行比較。將所述比較結(jié)果作為判 決參數(shù)以生成清音/濁音判決點,該清音/濁音判決點用于確定所述當(dāng)前幀是否包括清音 語音或濁音語音。
【附圖說明】
[0016] 為了更完整地理解本發(fā)明及其優(yōu)點,現(xiàn)在參考下文結(jié)合附圖進(jìn)行的描述,其中:
[0017] 圖1示出了根據(jù)本發(fā)明實施例的低頻帶語音信號的時域能量評估;
[0018] 圖2示出了根據(jù)本發(fā)明實施例的高頻帶語音信號的時域能量評估;
[0019] 圖3示出了在使用實施本發(fā)明實施例的傳統(tǒng)CELP編碼器對原始語音進(jìn)行編碼期 間執(zhí)行的操作;
[0020] 圖4示出了在使用實施本發(fā)明實施例的傳統(tǒng)CELP解碼器對原始語音進(jìn)行解碼期 間執(zhí)行的操作;
[0021] 圖5示出了在實施本發(fā)明實施例時使用的傳統(tǒng)CELP編碼器;
[0022] 圖6示出了根據(jù)本發(fā)明實施例的對應(yīng)于圖5中的編碼器的基礎(chǔ)CELP解碼器;
[0023] 圖7示出了用于構(gòu)建CELP語音編碼的編碼激勵碼本或固定碼本的噪聲型候選矢 量;
[0024] 圖8示出了用于構(gòu)建CELP語音編碼的編碼激勵碼本或固定碼本的脈沖型候選矢 量;
[0025] 圖9示出了濁音語音的激勵頻譜的示例;
[0026] 圖10示出了清音語音的激勵頻譜的示例;
[0027] 圖11示出了背景噪聲信號的激勵頻譜的示例;
[0028] 圖12A和12B示出了利用帶寬擴(kuò)展的頻域編碼/解碼的示例,其中圖12A示出了 具有BWE邊信息的編碼器,而圖12B示出了具有BWE的解碼器;
[0029] 圖13A至13C描述了根據(jù)以上所述的各種實施例的語音處理操作;
[0030] 圖14示出了根據(jù)本發(fā)明實施例的通信系統(tǒng)10 ;以及
[0031] 圖15示出了可以用于實施本文公開的設(shè)備和方法的處理系統(tǒng)的方框圖。
【具體實施方式】
[0032] 在現(xiàn)代音頻/語音數(shù)字信號通信系統(tǒng)中,數(shù)字信號在編碼器處壓縮,已壓縮信息 或比特流可以打包并且通過通信信道逐幀向解碼器發(fā)送。解碼器接收并解碼已壓縮信息以 獲得音頻/語音數(shù)字信號。
[0033] 為了更高效地對語音信號進(jìn)行編碼,可以將語音信號分類為不同類,而且以不同 的方式對每類進(jìn)行編碼。例如,在G. 718、VRM-WB或AMR-WB等一些標(biāo)準(zhǔn)中,將語音信號分類 為 UNVOICED、TRANSITION、GENERIC、VOICED 和 NOISE。
[0034] 濁音語音信號是一種準(zhǔn)周期性類型的信號,這種信號的能量在低頻率區(qū)域比在高 頻率區(qū)域多。相比之下,清音語音信號是一種噪聲型信號,這種信號的能量在高頻率區(qū)域比 在低頻率區(qū)域多。