專利名稱:語音處理裝置、方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音處理裝置、方法和程序,并且更具體地,涉及可以更容易得到合適水平的語音的語音處理裝置、方法和程序。
背景技術(shù):
在通過使用諸如IC (集成電路)記錄器的記錄裝置來記錄對話、音樂演奏等的情況下,重要的是正確地設(shè)置記錄靈敏度,使得以合適等級的水平記錄所采集語音的輸入語
音信號。例如,在相對大的會議室中進(jìn)行的會議中記錄對話的情況下,如果記錄裝置的記錄靈敏度被設(shè)置得低,則將存在以下情況:語音將被以低水平記錄,以致于遠(yuǎn)處發(fā)言者的談話將很難能夠被聽到。另一方面,在麥克風(fēng)靠近某人的嘴部并且他們的口述被保留作為備忘錄的情況下,如果記錄裝置的記錄靈敏度被設(shè)置得高,則將輸入超過可以被記錄的上限水平的信號。在這種情況下,將在被記錄的語音中出現(xiàn)聲音的失真,并且這種失真將變成刺耳的噪聲。這樣,為了避免以不合適的水平記錄語音,通常,記錄裝置中設(shè)置的記錄靈敏度被粗略分成3級水平,并且使用自動地將信號水平保持在恒定水平的信號處理技術(shù)。這種信號處理技術(shù)被稱為ALC (自動水平控制)和AGC (自動增益控制)。例如,如圖1中所示,記錄裝置中的記錄靈敏度被分成高、中和低三級,并且針對這各個記錄靈敏度,將+30dB、+15dB和OdB的值分配作為放大器的放大因子。另外,如圖2中所示,例如,總體記錄裝置的輸入系統(tǒng)包括主控制裝置11、放大器
12、ADC (模數(shù)轉(zhuǎn)換器)12和ALC處理部分14。對于這種記錄裝置,當(dāng)用戶指定記錄裝置的記錄靈敏度的設(shè)置時,主控制裝置11將已經(jīng)通過用戶所指定的記錄靈敏度確定的放大比例設(shè)置為放大器12中的放大因子。然后,采集的語音信號被按照放大器12中設(shè)置的放大因子放大,被ADC13數(shù)字化,此后通過ALC處理部分14控制信號水平。然后,從ALC處理部分14輸出具有受控信號水平的信號作為輸出語音信號,并且輸出語音信號被編碼并且在此后被記錄。例如,圖3的折線ICll示出的信號被輸入到ALC處理部分14,并且對這個信號的信號水平執(zhí)行控制。然后,從ALC處理部分14輸出作為這個步驟結(jié)果得到的折線OCll所示的信號作為最終輸出語音信號。注意的是,在圖3中,水平軸表示時間并且垂直軸表示信號水平。另外,圖3中的虛線示出最大輸入水平,即被獲取作為信號水平的值中的最大值。折線ICll表示的信號是輸入到記錄裝置的麥克風(fēng)、被放大器12放大并且此后被ADC13數(shù)字化的信號。因為所記錄信號之中的大于最大輸入水平(用虛線表示)的水平的一部分被記錄于消波狀態(tài),所以在再現(xiàn)期間在信號的這個部分中將出現(xiàn)聲音失真噪聲。因此,針對輸入折線ICll表示的信號,在記錄裝置中執(zhí)行增益調(diào)節(jié),并且作為這個步驟的結(jié)果得到 的并且由折線OCll表示的信號被作為輸出信號輸出。由折線OCll表示的這個信號的水平變得總是小于最大的輸入水平,并且理解的是,執(zhí)行增益調(diào)節(jié),使得輸出語音信號將是合適水平的信號。在增益調(diào)節(jié)期間,通過ALC處理部分14實時測量信號水平,并且在信號水平接近最大輸入水平的情況下,降低增益,使得信號的水平不超過最大輸入水平。然后,在信號沒有超過最大輸入水平的情況下,增益返回到1.0。如上所述,執(zhí)行設(shè)置記錄靈敏度的步驟和由ALC處理部分14進(jìn)行的增益調(diào)節(jié),以避免出現(xiàn)聲音失真并且防止所記錄的語音太小,以致聽不到。然而,存在以下情況:由于記錄靈敏度還沒被合適設(shè)置,以及由于通過ALC (增益調(diào)節(jié))得到的聲音因外部噪聲等的影響是不穩(wěn)定的聲音,導(dǎo)致所記錄的語音將在再現(xiàn)期間難以聽到。另一方面,在日本專利N0.3367592中提出了一種技術(shù),例如,該技術(shù)涉及一種自動增益調(diào)節(jié)裝置,該裝置用于盡可能減少外部噪聲的影響并且用于以合適水平記錄語音。在這種技術(shù)中,在一定時間幀內(nèi)計算功率譜的自動校正和傾斜,以正確地區(qū)分語音部分,并且在功率譜的自動校正或傾斜小于閾值的情況下,這個時間幀被視為是不穩(wěn)定的。通過在計算輸入信號的水平時排除這種不穩(wěn)定的時間幀,也就是說,假設(shè)這個時間幀不是語音部分,將語音控制在合適水平。
發(fā)明內(nèi)容
然而,在上述技術(shù)中,在容易辨別語音和噪聲的同時麥克風(fēng)靠近聲源如電話的情況下,在記錄裝置被置于大房間中并且相當(dāng)距離處的揚(yáng)聲器發(fā)聲的情況下,輸入語音信號的SN比(信噪比)將是差的,并且不能夠準(zhǔn)確地檢測到語音部分。因此,存在不能夠得到合適水平的語音信號作為所記錄的語音信號的情況。另外,對于每個時間幀正常計算自動校正等,并且辨別語音和不穩(wěn)定噪聲導(dǎo)致小型記錄裝置(如,通過電池驅(qū)動的記錄裝置)中的電池消耗加速。鑒于這種情形做出 本發(fā)明,并且本發(fā)明可以更容易地得到合適水平的語音。根據(jù)本發(fā)明的實施方式,提供了一種語音處理裝置,包括:特征量計算部分,從輸入語音信號的目標(biāo)幀中提取特征量;聲壓估計候選點更新部分,使輸入語音信號的多個幀的每個成為聲壓估計候選點,保持每個聲壓估計候選點的特征量,并且基于聲壓估計候選點的特征量和目標(biāo)幀的特征量,來更新聲壓估計候選點;聲壓估計部分,基于聲壓估計候選點的特征量,計算輸入語音信號的估計聲壓;增益計算部分,基于估計聲壓,計算應(yīng)用于輸入語音信號的增益;以及增益應(yīng)用部分,基于增益,執(zhí)行輸入語音信號的增益調(diào)節(jié)。特征量計算部分計算至少目標(biāo)幀中的輸入語音信號的聲壓水平作為特征量。當(dāng)目標(biāo)幀的聲壓水平大于作為聲壓估計候選點的特征量的聲壓水平的最小值時,聲壓估計候選點更新部分丟棄具有最小值的聲壓估計候選點并且使目標(biāo)幀成為新的聲壓估計候選點。特征量計算部分計算表示至少目標(biāo)幀中出現(xiàn)突發(fā)噪聲的可能性的突發(fā)噪聲信息作為特征量。當(dāng)基于突發(fā)噪聲信息目標(biāo)幀是包括突發(fā)噪聲的部分時,聲壓估計候選點更新部分不使目標(biāo)幀成為聲壓估計候選點。當(dāng)相鄰聲壓估計候選點之間的幀間隔的最短幀間隔小于預(yù)定閾值時,聲壓估計候選點更新部分丟棄具有最短幀間隔的相鄰聲壓估計候選點中的具有小聲壓水平的聲壓估計候選點,并且使目標(biāo)幀成為新的聲壓估計候選點。以使預(yù)定閾值隨著時間的過去而增大的方式,確定預(yù)定閾值。
特征量計算部分計算至少從聲壓估計候選點直至目標(biāo)幀的過去的幀的數(shù)量作為特征量。當(dāng)聲壓估計候選點的過去的幀的數(shù)量的最大值大于預(yù)定的幀的數(shù)量時,聲壓估計候選點更新部分丟棄具有最大值的聲壓估計候選點,并且使目標(biāo)幀成為新的聲壓估計候選點。輸入語音信號被輸入到語音處理裝置,輸入語音信號是由放大部分進(jìn)行增益調(diào)節(jié)并且從模擬信號轉(zhuǎn)換成數(shù)字信號來得到的。基于計算得到的增益,增益計算部分計算增益應(yīng)用部分用于進(jìn)行增益調(diào)節(jié)的增益和放大部分用于進(jìn)行增益調(diào)節(jié)的增益。根據(jù)本發(fā)明的實施方式,提供了一種使計算機(jī)執(zhí)行以下處理的程序:從輸入語音信號的目標(biāo)幀中提取特征量;使輸入語音信號的多個幀的每個成為聲壓估計候選點,保持每個聲壓估計候選點的特征量,并且基于聲壓估計候選點的特征量和目標(biāo)幀的特征量,來更新聲壓估計候選點;基于聲壓估計候選點的特征量,計算輸入語音信號的估計聲壓;基于估計聲壓,計算應(yīng)用于輸入語音信號的增益;以及基于增益,執(zhí)行輸入語音信號的增益調(diào)節(jié)。根據(jù)本發(fā)明的實施方式,從輸入語音信號的目標(biāo)幀中提取特征量。使輸入語音信號的多個幀的每個成為聲壓估計候選點,保持每個聲壓估計候選點的特征量,并且基于聲壓估計候選點的特征量和目標(biāo)幀的特征量,來更新聲壓估計候選點?;诼晧汗烙嫼蜻x點的特征量,計算輸入語音信號的估計聲壓。基于估計聲壓,計算應(yīng)用于輸入語音信號的增益?;谠鲆?,執(zhí)行輸入語音信號的增益調(diào)節(jié)。根據(jù)本發(fā)明的實施方式,可以更容易地得到合適水平的語音。
圖1是描述記錄靈敏度設(shè)置的圖;圖2是示出相關(guān)技術(shù)中的記錄裝置的輸入系統(tǒng)的構(gòu)造的
圖3是用于描述ALC處理部分的操作的圖;圖4是示出可應(yīng)用于本發(fā)明的語音處理系統(tǒng)的示例構(gòu)造的圖;圖5是描述增益調(diào)節(jié)處理的流程圖;圖6是描述聲壓估計候選點更新處理的流程圖;圖7是示出更新聲壓估計候選點并且計算估計聲壓的例子的圖;圖8是示出更新聲壓估計候選點并且計算估計聲壓的例子的圖;圖9是用于描述突發(fā)噪聲對估計聲壓的影響的圖;圖10是示出在包括突發(fā)噪聲的情況下更新聲壓估計候選點并且計算估計聲壓的例子的圖;圖11是示出計算機(jī)的示例構(gòu)造的圖;圖12是示出基于本發(fā)明的聲壓水平直方圖的例子的圖;圖13是示出基于本發(fā)明的聲壓水平直方圖的例子的圖;圖14是示出突發(fā)噪聲信息和聲壓水平的值的例子的圖;以及圖15是示出突發(fā)噪聲信息的加權(quán)的例子的圖。
具體實施方式
下文中,將參照附圖詳細(xì)描述本發(fā)明的優(yōu)選實施例。注意的是,在這個說明書和附圖中,用相同的附圖標(biāo)記表示具有基本相同功能和結(jié)構(gòu)的結(jié)構(gòu)元件,并且省略對這些結(jié)構(gòu)元件的重復(fù)說明。下文中,將參照圖描述可應(yīng)用于本發(fā)明的實施方式。<第一實施方式> [語音處理系統(tǒng)的示例構(gòu)造]接著,將描述可應(yīng)用于本發(fā)明的特定實施方式。圖4是示出可應(yīng)用于本發(fā)明的語音處理系統(tǒng)的實施方式的示例構(gòu)造的圖。這個語音處理系統(tǒng)例如被布置在諸如IC記錄器的記錄裝置中,并且包括放大器41、ADC42、記錄水平自動設(shè)置裝置43和主控制器44。例如經(jīng)過諸如麥克風(fēng)的采集語音部分采集的語音的信號(下文中,稱為輸入語音信號)被輸入到放大器41。放大器41按主控制器44指定的記錄靈敏度(也就是說,放大因子)放大輸入語音信號,并且將放大后的輸入語音信號供應(yīng)到ADC42。ADC42將放大器41供應(yīng)的輸入語音信號從模擬信號轉(zhuǎn)換成數(shù)字信號,并且將數(shù)字信號供應(yīng)到記錄水平自動設(shè)置裝置43。注意的是,可以假設(shè)放大器41和ADC42是單個模塊。也就是說,單個模塊可以包括放大器41和ADC42的功能。記錄水平自動設(shè)置裝置43通過對ADC42供應(yīng)的輸入語音信號執(zhí)行增益調(diào)節(jié),產(chǎn)生并輸出輸出語音信號。記錄水平自動設(shè)置裝置43包括特征量計算部分51、聲壓估計候選點更新部分52、聲壓估計部分53、增益計算部分54和增益應(yīng)用部分55。特征量計算部分51從ADC42供應(yīng)的輸入語音信號中提取一個或多個特征量,并且將提取的特征量供應(yīng)到聲壓估計候選點更新部分52。聲壓估計候選點更新部分52基于特征量計算部分51供應(yīng)的特征量和多個聲壓估計候選點中的特征量,更新用于估計輸入語音信號的聲壓的聲壓估計候選點,并且將與聲壓估計候選點相關(guān)的信息供應(yīng)到聲壓估計部分53。聲壓估計部分53基于與聲壓估計候選點更新部分52供應(yīng)的聲壓估計候選點相關(guān)的信息,估計輸入語音信號的聲壓,并且將作為這個步驟的結(jié)果得到的估計聲壓供應(yīng)到增益計算部分54。增益計算部分54通過將聲壓估計部分53供應(yīng)的估計聲壓與作為輸入語音信號目標(biāo)的聲壓(下文中,稱為目標(biāo)聲壓)進(jìn)行比較,計算目標(biāo)增益,該目標(biāo)增益表示放大輸入語音信號的量。另外,增益計算部分54將計算得到的目標(biāo)增益劃分為放大器41中的放大因子和增益應(yīng)用部分應(yīng)用的增益(下文中,稱為應(yīng)用增益),并且將放大因子和應(yīng)用增益供應(yīng)到主控制器44和增益應(yīng)用部分55。增益應(yīng)用部分55通過將增益計算部分54供應(yīng)的增益應(yīng)用到ADC42供應(yīng)的輸入語音信號,執(zhí)行輸入語音信號的增益調(diào)節(jié),并且輸出作為這個步驟的結(jié)果得到的輸出語音信號。從增益應(yīng)用部分55輸出的輸出語音信號被合適地編碼并記錄到記錄介質(zhì),并且通過諸如網(wǎng)絡(luò)的通信網(wǎng)絡(luò)發(fā)送到另一個裝置。另外,主控制器44將增益計算部分54供應(yīng)的方法因子供應(yīng)到放大器41,并且按所供應(yīng)的放大因子放大輸入語音信號。[對增益調(diào)節(jié)處理的描述]
附帶地,當(dāng)指定為了語音處理系統(tǒng)記錄語音時,語音處理系統(tǒng)調(diào)節(jié)輸入語音信號的增益,使得已經(jīng)經(jīng)過語音采集被輸入到放大器41的輸入語音信號變成合適水平的信號,并且使這個信號成為輸出語音信號。在這種情況下,放大器41通過主控制器44按增益計算部分54供應(yīng)的放大因子放大所供應(yīng)的輸入語音信號,并且將放大后的輸入語音信號供應(yīng)到ADC42。另外,ADC42將放大器41供應(yīng)的輸入語音信號數(shù)字化,并且將數(shù)字化的輸入語音信號供應(yīng)到記錄水平自動設(shè)置裝置43的特征量計算部分51和增益應(yīng)用部分55。另外,記錄水平自動設(shè)置裝置43通過執(zhí)行增益調(diào)節(jié)處理,將ADC42供應(yīng)的輸入語音信號轉(zhuǎn)換成輸出語音信號,并且將輸出語音信號輸出。下文中,將參照圖5的流程圖描述記錄水平自動設(shè)置裝置43進(jìn)行的增益調(diào)節(jié)處理。注意的是,對輸入語音信號的每個幀,執(zhí)行這個增益調(diào)節(jié)處理。在步驟Sll中,特征量計算部分51基于ADC42供應(yīng)的輸入語音信號,計算作為輸入語音信號的處理目標(biāo)的時間幀(下文中,稱為當(dāng)前幀)中的放大率峰值Pk(η)。例如,在當(dāng)前幀是輸入語音信號的第η個幀(假設(shè)η > O)時,并且假設(shè)每個幀構(gòu)成L個樣本,特征量計算部分51通過計算以下的等式(I)來計算峰值Pk(η)。
權(quán)利要求
1.一種語音處理裝置,包括: 特征量計算部分,從輸入語音信號的目標(biāo)幀中提取特征量; 聲壓估計候選點更新部分,使輸入語音信號的多個幀的每個成為聲壓估計候選點,保持每個聲壓估計候選點的特征量,并且基于聲壓估計候選點的特征量和目標(biāo)幀的特征量,來更新聲壓估計候選點; 聲壓估計部分,基于聲壓估計候選點的特征量,計算輸入語音信號的估計聲壓; 增益計算部分,基于估計聲壓,計算應(yīng)用于輸入語音信號的增益;以及 增益應(yīng)用部分,基于增益,執(zhí)行輸入語音信號的增益調(diào)節(jié)。
2.根據(jù)權(quán)利要求1所述的語音處理裝置, 其中,特征量計算部分計算至少目標(biāo)幀中的輸入語音信號的聲壓水平作為特征量,并且 其中,當(dāng)目標(biāo)幀的聲壓水平大于作為聲壓估計候選點的特征量的聲壓水平的最小值時,聲壓估計候選點更新部分丟棄具有最小值的聲壓估計候選點并且使目標(biāo)幀成為新的聲壓估計候選點。
3.根據(jù)權(quán)利要求2所述的語音處理裝置, 其中,特征量計算部分計算表示至少目標(biāo)幀中出現(xiàn)突發(fā)噪聲的可能性的突發(fā)噪聲信息作為特征量,并且 其中,當(dāng)基于突發(fā) 噪聲信息目標(biāo)幀是包括突發(fā)噪聲的部分時,聲壓估計候選點更新部分不使目標(biāo)幀成為聲壓估計候選點。
4.根據(jù)權(quán)利要求2所述的語音處理裝置, 其中,當(dāng)相鄰聲壓估計候選點之間的幀間隔的最短幀間隔小于預(yù)定閾值時,聲壓估計候選點更新部分丟棄具有最短幀間隔的相鄰聲壓估計候選點中的具有小聲壓水平的聲壓估計候選點,并且使目標(biāo)幀成為新的聲壓估計候選點。
5.根據(jù)權(quán)利要求4所述的語音處理裝置, 其中,以使預(yù)定閾值隨著時間的過去而增大的方式,確定預(yù)定閾值。
6.根據(jù)權(quán)利要求2所述的語音處理裝置, 其中,特征量計算部分計算至少從聲壓估計候選點直至目標(biāo)幀的過去的幀的數(shù)量作為特征量,并且 其中,當(dāng)聲壓估計候選點的過去的幀的數(shù)量的最大值大于預(yù)定的幀的數(shù)量時,聲壓估計候選點更新部分丟棄具有最大值的聲壓估計候選點,并且使目標(biāo)幀成為新的聲壓估計候選點。
7.根據(jù)權(quán)利要求2所述的語音處理裝置, 其中,輸入語音信號被輸入到語音處理裝置,輸入語音信號是由放大部分進(jìn)行增益調(diào)節(jié)并且從模擬信號轉(zhuǎn)換成數(shù)字信號來得到的,并且 其中,基于計算得到的增益,增益計算部分計算增益應(yīng)用部分用于進(jìn)行增益調(diào)節(jié)的增益和放大部分用于進(jìn)行增益調(diào)節(jié)的增益。
8.根據(jù)權(quán)利要求1所述的語音處理裝置, 其中,聲壓估計部分通過以從最大聲壓水平開始的次序從聲壓估計候選點中排除給定比率數(shù)量的聲壓估計候選點,執(zhí)行對聲壓的估計。
9.根據(jù)權(quán)利要求1所述的語音處理裝置, 其中,特征量計算部分計算表示至少目標(biāo)幀中出現(xiàn)突發(fā)噪聲的可能性的突發(fā)噪聲信息,并且 其中,基于聲壓估計候選點保持的突發(fā)噪聲信息和聲壓水平,聲壓估計部分執(zhí)行對聲壓的估計。
10.一種語音處理方法,包括: 從輸入語音信號的目標(biāo)幀中提取特征量; 使輸入語音信號的多個幀的每個成為聲壓估計候選點,保持每個聲壓估計候選點的特征量,并且基于聲壓估計候選點的特征量和目標(biāo)幀的特征量,來更新聲壓估計候選點; 基于聲壓估計候選點的特征量,計算輸入語音信號的估計聲壓; 基于估計聲壓,計算應(yīng)用于輸入語音信號的增益;以及 基于增益,執(zhí)行輸入語音信號的增益調(diào)節(jié)。
11.一種使計算機(jī)執(zhí)行以下處理的程序: 從輸入語音信號 的目標(biāo)幀中提取特征量; 使輸入語音信號的多個幀的每個成為聲壓估計候選點,保持每個聲壓估計候選點的特征量,并且基于聲壓估計候選點的特征量和目標(biāo)幀的特征量,來更新聲壓估計候選點; 基于聲壓估計候選點的特征量,計算輸入語音信號的估計聲壓; 基于估計聲壓,計算應(yīng)用于輸入語音信號的增益;以及 基于增益,執(zhí)行輸入語音信號的增益調(diào)節(jié)。
全文摘要
本發(fā)明提供了一種語音處理裝置、方法和程序。該語音處理裝置包括特征量計算部分,從輸入語音信號的目標(biāo)幀中提取特征量;聲壓估計候選點更新部分,使輸入語音信號的多個幀的每個成為聲壓估計候選點,保持每個聲壓估計候選點的特征量,并且基于聲壓估計候選點的特征量和目標(biāo)幀的特征量,來更新聲壓估計候選點;聲壓估計部分,基于聲壓估計候選點的特征量,計算輸入語音信號的估計聲壓;增益計算部分,基于估計聲壓,計算應(yīng)用于輸入語音信號的增益;以及增益應(yīng)用部分,基于增益,執(zhí)行輸入語音信號的增益調(diào)節(jié)。
文檔編號G10L25/03GK103226952SQ20131001839
公開日2013年7月31日 申請日期2013年1月18日 優(yōu)先權(quán)日2012年1月25日
發(fā)明者本間弘幸, 知念徹 申請人:索尼公司