專利名稱:數(shù)據(jù)處理裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)處理裝置,特別涉及一種能夠?qū)⒉捎美鏑ELP(Code Excited Linear coding,碼激勵線性編碼)方法進行編碼的語音解碼為高質(zhì)量語音的數(shù)據(jù)處理裝置。
背景技術(shù):
圖1和2示出傳統(tǒng)移動電話的示例結(jié)構(gòu)。
在該移動電話中,執(zhí)行采用CELP方法將語音編碼為預定碼并且發(fā)射這些碼的發(fā)射過程,以及接收從其它移動電話發(fā)射的碼并且將這些碼解碼為語音的接收過程。圖1示出用于執(zhí)行發(fā)射過程的發(fā)射部分,并且圖2示出用于執(zhí)行接收過程的接收部分。
在圖1所示的發(fā)射部分中,從用戶產(chǎn)生的語音輸入到麥克風1,由此語音轉(zhuǎn)換為作為電子信號的語音信號,并且該信號提供給A/D(Analog/Digital,模擬/數(shù)字)轉(zhuǎn)換部分2。A/D轉(zhuǎn)換部分2例如以8kHz等的采樣率對來自麥克風1的模擬語音信號進行采樣,從而模擬語音信號經(jīng)過從模擬信號到數(shù)字語音信號的A/D轉(zhuǎn)換。而且,A/D轉(zhuǎn)換部分2以預定比特數(shù)執(zhí)行信號量化,并且將信號提供給運算單元3和LPC(Linear Prediction Coefficient,線性預測系數(shù))分析部分4。
LPC分析部分4采用來自A/D轉(zhuǎn)換部分2的例如160個樣本長度為一幀,并且將該幀分為40個樣本的子幀,并且對每個子幀執(zhí)行LPC分析,從而確定P階線性預測系數(shù)α1、α2、…、αP。然后,LPC分析部分4采用以P階線性預測系數(shù)αp(p=1、2、…、P)為元素的向量作為語音特征向量,提供給向量量化部分5。
向量量化部分5存儲以線性預測系數(shù)為元素的碼向量對應于碼的碼本,根據(jù)該碼本對來自LPC分析部分4的特征向量α執(zhí)行向量量化,并且將通過向量量化獲得的碼(以下適當時稱作“A_code”)提供給碼確定部分15。
而且,向量量化部分5將線性預測系數(shù)α1′、α2′…、αp′(形成對應于A_code的碼向量α′的元素)提供給語音合成濾波器6。
語音合成濾波器6例如是IIR(Infinite Impulse Response,無限脈沖響應)類型的數(shù)字濾波器,它采用來自向量量化部分5的線性預測系數(shù)αp′(p=1、2、…、P)作為IIR濾波器的抽頭系數(shù),并且采用從運算單元14提供的剩余信號e作為輸入信號,以執(zhí)行語音合成。
更具體地說,由LPC分析部分4執(zhí)行的LPC分析是,對于當前時間n的語音信號(樣本值)sn和與上面樣本值相鄰的過去P個樣本值sn-1、sn-2、…、sn-p,由下面方程表示的線性組合成立sn+α1sn-1+α2sn-2+…+αpsn-p=en…(1)并且當根據(jù)下面方程使用過去P個樣本值sn-1、sn-2、…、sn-p執(zhí)行對當前時間n的樣本值sn的預測值(線性預測值)sn′的線性預測時sn′=-(α1sn-1+α2sn-2+…+αpsn-p)…(2)確定使實際樣本值sn與線性預測值sn′之間的平方差最小的線性預測系數(shù)αp。
在此,在方程(1)中,{en}(…、en-1、en、en+1、…)是相互不相關(guān)的概率變量, 其中平均值為0,并且方差為預定值σ2。
根據(jù)方程(1),樣本值sn可以用下面方程表示sn=en-(α1sn-1+α2sn-2+…+αpsn-p) …(3)當經(jīng)過Z變換之后,獲得下面方程S=E/(1+α1z-1+α2z-2+…+αpz-p)…(4)其中,在方程(4)中,S和E分別表示方程(3)中sn和en的Z變換。
在此,根據(jù)方程(1)和(2),en可以用下面方程表示en=sn-sn′ …(5)并且這稱作實際樣本值sn與線性預測值sn′之間的“剩余信號”。
因此,根據(jù)方程(4),通過采用線性預測系數(shù)αp作為IIR濾波器的抽頭系數(shù),并且采用剩余信號en作為IIR濾波器的輸入信號,可以確定語音信號sn。
因此,如上所述,語音合成濾波器6采用來自向量量化部分5的線性預測系數(shù)αp′作為抽頭系數(shù),并且采用從運算單元14提供的剩余信號e作為輸入信號,并且計算方程(4),從而確定語音信號(合成語音數(shù)據(jù))ss。
在語音合成濾波器6中,由于使用作為通過向量量化而獲得的碼對應的碼向量的線性預測系數(shù)αp′,而不是使用通過LPC分析部分4的LPC分析而獲得的線性預測系數(shù)αp,也就是,由于使用包含量化誤差的線性預測系數(shù)α′,因此基本上,從語音合成濾波器6輸出的合成語音信號不會變得與從A/D轉(zhuǎn)換部分2輸出的語音信號一樣。
從語音合成濾波器6輸出的合成語音信號ss提供給運算單元3。運算單元3從來自語音合成濾波器6的合成語音數(shù)據(jù)ss減去由A/D轉(zhuǎn)換部分2輸出的語音信號(從合成語音數(shù)據(jù)ss的每個樣本減去語音數(shù)據(jù)s的對應樣本),并且將相減值提供給平方差計算部分7。平方差計算部分7計算來自運算單元3的相減值的平方和(以LPC分析部分4執(zhí)行LPC分析的子幀為單位的平方和,如上所述,一幀分為幾個子幀),并且將結(jié)果平方差提供給最小平方差確定部分8。
最小平方差確定部分8其中以對應于從平方差計算部分7輸出的平方差的方式存儲有作為滯后指示碼的L碼(L_code)、作為增益指示碼的G碼(G_code)和作為碼字指示碼的I碼(I_code),并且輸出從平方差計算部分7輸出的平方差對應的L碼、G碼和I碼。L碼提供給自適應碼本存儲部分9。G碼提供給增益解碼器10。I碼提供給激勵碼本存儲部分11。而且,L碼、G碼和I碼還提供給碼確定部分15。
自適應碼本存儲部分9其中存儲有7比特L碼對應于預定時延(長期預測滯后)的自適應碼本。自適應碼本存儲部分9以從最小平方差確定部分8提供的L碼對應的延遲時間,延遲從運算單元14提供的剩余信號e,并且將該信號輸出到運算單元12。也就是,自適應碼本存儲部分9例如由存儲器構(gòu)成,并且以用7比特記錄表示的值對應的樣本量延遲來自運算單元14的剩余信號e,并且將該信號輸出到運算單元12。
在此,由于自適應碼本存儲部分9以L碼對應的時間延遲剩余信號e,并且輸出該信號,因此該輸出信號變?yōu)榻朴谝匝舆t時間為周期的周期信號。該信號主要成為用于使用線性預測系數(shù)在語音合成中生成濁音合成語音的驅(qū)動信號。
增益解碼器10其中存儲有G碼對應于預定增益β和γ的表,并且輸出從最小平方差確定部分8提供的G碼對應的增益β和γ。增益β和γ分別提供給運算單元12和13。在此,增益β通常稱作長期濾波器狀態(tài)輸出增益,而增益γ通常稱作激勵碼本增益。
激勵碼本存儲部分11其中存儲有例如9比特I碼對應于預定激勵信號的激勵碼本,并且將從最小平方差確定部分8提供的I碼對應的激勵信號輸出到運算單元13。
在此,存儲在激勵碼本中的激勵信號例如是近似于白噪聲的信號,并且主要成為用于使用線性預測系數(shù)在語音合成中生成非濁音合成語音的驅(qū)動信號。
運算單元12將自適應碼本存儲部分9的輸出信號與從增益解碼器10輸出的增益β進行相乘,并且將相乘值1提供給運算單元14。運算單元13將激勵碼本存儲部分11的輸出信號與從增益解碼器10輸出的增益γ進行相乘,并且將相乘值n提供給運算單元14。運算單元14將來自運算單元12的相乘信號1與來自運算單元13的相乘信號n相加在一起,并且將作為剩余信號e的相加值提供給語音合成濾波器6和自適應碼本存儲部分9。
在語音合成濾波器6中,以如上所述方式,從運算單元14提供的剩余信號e由以從向量量化部分5提供的線性預測系數(shù)αp′作為抽頭系數(shù)的IIR濾波器進行濾波,并且結(jié)果合成語音數(shù)據(jù)提供給運算單元3。然后,在運算單元3和平方差計算部分7中,執(zhí)行與上述情況類似的處理,并且結(jié)果平方差提供給最小平方差確定部分8。
最小平方差確定部分8確定來自平方差計算部分7的平方差是否變?yōu)樽钚≈?局部最小值)。然后當最小平方差確定部分8確定該平方差尚未變?yōu)樽钚≈禃r,最小平方差確定部分8以上述方式輸出平方差對應的L碼、G碼和I碼,并且以下重復相同的過程。
另一方面,當最小平方差確定部分8確定該平方差變?yōu)樽钚≈禃r,最小平方差確定部分8將確定信號輸出到碼確定部分15。碼確定部分15順序鎖定從向量量化部分5提供的A碼,并且順序鎖定從最小平方差確定部分8提供的L碼、G碼和I碼。當從最小平方差確定部分8接收到確定信號時,碼確定部分15將在此時鎖定的A碼、L碼、G碼和I碼提供給信道編碼器16。信道編碼器16對來自碼確定部分15的A碼、L碼、G碼和I碼進行多路復用,并且將它們作為碼數(shù)據(jù)進行輸出。該碼數(shù)據(jù)通過傳輸路徑進行傳輸。
根據(jù)如上所述,編碼數(shù)據(jù)是具有作為子幀單元解碼信息的A碼、L碼、G碼和I碼的編碼數(shù)據(jù)。
在此,對每個子幀確定A碼、L碼、G碼和I碼。然而,例如,存在有時對每個幀確定A碼的情況。在這種情況下,要對形成幀的四個子幀進行解碼,使用相同的A碼。然而,在這種情況下,形成一個幀的四個子幀中每個幀也可以看作具有相同的A碼。通過這種方式,碼數(shù)據(jù)可以被看作形成為具有作為子幀單元解密信息的A碼、L碼、G碼和I碼的編碼數(shù)據(jù)。
在此,圖1中(同樣適用于后面將要描述的圖2、5和13),[k]分配給每個變量,從而變量為一個數(shù)組變量。k表示子幀號,但是在本說明書中,適當時將省略其描述。
接著,以上述方式從其它移動電話的發(fā)射部分發(fā)射的碼數(shù)據(jù)由圖2所示的接收部分的信道解碼器21進行接收。信道解碼器21從碼數(shù)據(jù)分離L碼、G碼、I碼和A碼,并且將它們分別提供給自適應碼本存儲部分22、增益解碼器23、激勵碼本存儲部分24和濾波器系數(shù)解碼器25。
自適應碼本存儲部分22、增益解碼器23、激勵碼本存儲部分24和運算單元26到28分別類似于圖1的自適應碼本存儲部分9、增益解碼器10、激勵碼本存儲部分11和運算單元12到14。通過執(zhí)行與參照圖1描述的情況相同的過程,L碼、G碼和I碼解碼為剩余信號e。該剩余信號e作為輸入信號提供給語音合成濾波器29。
濾波器系數(shù)解碼器25其中存儲有與圖1的向量量化部分5相同的碼本,從而A碼解碼為線性預測系數(shù)αp′,并且該線性預測系數(shù)αp′提供給語音合成濾波器29。
語音合成濾波器29類似于圖1的語音合成濾波器6。語音合成濾波器29采用來自濾波器系數(shù)解碼器25的線性預測系數(shù)αp′作為抽頭系數(shù),采用從運算單元28提供的剩余信號e作為輸入信號,并且計算方程(4),從而生成平方差在圖1的最小平方差確定部分8中確定為最小值時的合成語音數(shù)據(jù)。該合成語音數(shù)據(jù)提供給D/A(Digital/Analog,數(shù)字/模擬)轉(zhuǎn)換部分30。D/A轉(zhuǎn)換部分30將來自語音合成濾波器29的合成語音數(shù)據(jù)從數(shù)字信號D/A轉(zhuǎn)換為模擬信號,并且將模擬信號提供給揚聲器31,由此輸出該信號。
在碼數(shù)據(jù)中,當在圖2的接收部分中A碼采用幀而不是子幀作為單位時,幀的A碼對應的線性預測系數(shù)可以用來對形成該幀的所有四個子幀進行解碼。另外,通過使用相鄰幀的A碼對應的線性預測系數(shù),對每個子幀執(zhí)行插值,并且通過插值而獲得的線性預測系數(shù)可以用來對每個子幀進行解碼。
如上所述,在移動電話的發(fā)射部分中,由于對作為文件數(shù)據(jù)提供給接收部分的語音合成濾波器29的剩余信號和線性預測系數(shù)進行編碼然后發(fā)射,因此,在接收部分中,將這些碼解碼為剩余信號和線性預測系數(shù)。然而,因為解碼剩余信號和線性預測系數(shù)(以下適當時分別稱作“解碼剩余信號和解碼線性預測系數(shù)”)包含例如量化誤差的誤差,所以它們與通過執(zhí)行語音LPC分析而獲得的剩余信號和線性預測系數(shù)不匹配。
因此,從接收部分的語音合成濾波器29輸出的合成語音信號聲音質(zhì)量遭到惡化,其中包含有畸變。
發(fā)明內(nèi)容
本發(fā)明是鑒于這種情況而提出的,并且它的目的是獲得高質(zhì)量的合成語音等。
本發(fā)明的第一數(shù)據(jù)處理裝置,包括抽頭生成裝置,用于通過在以對編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)(subjectdata)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預定過程的抽頭;以及處理裝置,用于通過使用抽頭,執(zhí)行預定過程。
本發(fā)明的第一數(shù)據(jù)處理方法,包括抽頭生成步驟,通過在以對編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預定過程的抽頭;以及處理步驟,通過使用抽頭,執(zhí)行預定過程。
第一程序包括抽頭生成步驟,通過在以對編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預定過程的抽頭;以及處理步驟,通過使用抽頭,執(zhí)行預定過程。
第一記錄介質(zhì)其中存儲有一個程序,包括抽頭生成步驟,通過在以對編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預定過程的抽頭;以及處理步驟,通過使用抽頭,執(zhí)行預定過程。
本發(fā)明的第二數(shù)據(jù)處理裝置,包括學生數(shù)據(jù)生成裝置,用于通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成裝置,用于通過在作為學生數(shù)據(jù)的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習裝置,用于執(zhí)行學習,從而通過執(zhí)行使用預測抽頭和抽頭系數(shù)的預定預測計算而獲得的老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且用于確定抽頭系數(shù)。
本發(fā)明的第二數(shù)據(jù)處理方法,包括學生數(shù)據(jù)生成步驟,通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成步驟,通過在作為學生數(shù)據(jù)的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習步驟,執(zhí)行學習,從而通過執(zhí)行使用預測抽頭和抽頭系數(shù)的預定預測計算而獲得的老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且確定抽頭系數(shù)。
第二程序包括學生數(shù)據(jù)生成步驟,通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成步驟,通過在作為學生數(shù)據(jù)的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習步驟,執(zhí)行學習,從而通過執(zhí)行使用預測抽頭和抽頭系數(shù)的預定預測計算而獲得的老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚。⑶掖_定抽頭系數(shù)。
第二記錄介質(zhì)其中存儲有一個程序,包括學生數(shù)據(jù)生成步驟,通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成步驟,通過在作為學生數(shù)據(jù)的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習步驟,執(zhí)行學習,從而通過執(zhí)行使用預測抽頭和抽頭系數(shù)的預定預測計算而獲得的老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且確定抽頭系數(shù)。
在本發(fā)明的第一數(shù)據(jù)處理裝置、第一數(shù)據(jù)處理方法、第一程序和第一記錄介質(zhì)中,在以對編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,從而生成用于預定過程的抽頭,并且通過使用抽頭,執(zhí)行預定過程。
在本發(fā)明的第二數(shù)據(jù)處理裝置、第二數(shù)據(jù)處理方法、第二程序和第二記錄介質(zhì)中,通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù)。而且,通過在作為學生數(shù)據(jù)的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭。然后,執(zhí)行學習,從而通過執(zhí)行使用預測抽頭和抽頭系數(shù)的預定預測計算而獲得的老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且確定抽頭系數(shù)。
附圖簡述圖1是示出傳統(tǒng)移動電話發(fā)射部分示例結(jié)構(gòu)的方框圖;圖2是示出傳統(tǒng)移動電話接收部分示例結(jié)構(gòu)的方框圖;圖3是示出本發(fā)明傳輸系統(tǒng)實施例示例結(jié)構(gòu)的方框圖;圖4是示出移動電話1011和1012示例結(jié)構(gòu)的方框圖;圖5是示出接收部分114示例結(jié)構(gòu)的方框圖;圖6是示出接收部分114處理的流程圖;圖7示出生成預測抽頭和類抽頭的方法;圖8是示出抽頭生成部分121和122示例結(jié)構(gòu)的方框圖;圖9A和9B示出對I碼對應的類進行加權(quán)的方法。
圖10A和10B示出對I碼對應的類進行加權(quán)的方法。
圖11是示出分類部分123示例結(jié)構(gòu)的方框圖;圖12是示出表創(chuàng)建過程的流程圖;圖13是示出本發(fā)明學習裝置實施例示例結(jié)構(gòu)的方框圖;圖14是示出學習過程的流程圖;圖15是示出本發(fā)明計算機實施例示例結(jié)構(gòu)的方框圖。
最佳實施方式圖3示出應用本發(fā)明的傳輸系統(tǒng)(“系統(tǒng)”是指多個裝置的邏輯集合,與每個結(jié)構(gòu)的裝置是否在同一框架中沒有關(guān)系)的一個實施例結(jié)構(gòu)。
在該傳輸系統(tǒng)中,移動電話1011和1012分別與基站1021和1022執(zhí)行無線收發(fā)操作,并且每個基站1021和1022與交換站103執(zhí)行收發(fā)操作,從而,最終,可以通過基站1021和1022以及交換站103執(zhí)行移動電話1011和1012間的語音收發(fā)操作?;?021和1022可以是相同的基站或不同的基站。
以下除非特別指明,移動電話1011和1012將稱作“移動電話101”。
圖4示出圖3的移動電話101的示例結(jié)構(gòu)。
在該移動電話101中,根據(jù)CELP方法執(zhí)行語音收發(fā)操作。
更具體地說,天線111從基站1021或1022接收無線電波,將接收信號提供給調(diào)制解調(diào)器部分112,并且將來自調(diào)制解調(diào)器部分112的信號以無線電波的形式發(fā)射到基站1021或1022。調(diào)制解調(diào)器部分112對來自天線111的信號進行解調(diào),并且將如圖1所述的結(jié)果碼數(shù)據(jù)提供給接收部分114。而且,調(diào)制解調(diào)器部分112對從發(fā)射部分113提供的如圖1所述的碼數(shù)據(jù)進行調(diào)制,并且將結(jié)果調(diào)制信號提供給天線111。發(fā)射部分113類似于圖1的發(fā)射部分,采用CELP方法將向其輸入的用戶語音編碼為碼數(shù)據(jù),并且將該數(shù)據(jù)提供給調(diào)制解調(diào)器部分112。接收部分114從調(diào)制解調(diào)器部分112接收碼數(shù)據(jù),采用CELP方法對碼數(shù)據(jù)進行解碼,并且解碼出高質(zhì)量聲音進行輸出。
更具體地說,在接收部分114中,使用例如分類和自適應過程將通過CELP方法解碼的合成語音進一步解碼為真高質(zhì)量聲音(的預測值)。
在此,分類和自適應過程由分類過程和自適應過程形成,從而通過分類過程根據(jù)數(shù)據(jù)屬性對數(shù)據(jù)進行分類,并且對每類執(zhí)行自適應過程。自適應過程如下所述。
也就是,在自適應過程中,例如,真高質(zhì)量聲音的預測值由通過CELP方法解碼的合成語音與預定抽頭系數(shù)的組合進行確定。
更具體地說,可以考慮,例如,采用高質(zhì)量聲音(的樣本值)作為老師數(shù)據(jù),并且采用以通過CELP方法將真高質(zhì)量聲音編碼為L碼、G碼、I碼和A碼,并且通過圖2所示的接收部分對這些碼進行解碼這種方式而獲得的合成語音作為學生數(shù)據(jù),并且作為老師數(shù)據(jù)的高質(zhì)量聲音y的預測值E[y]通過由一組合成語音(的樣本值)x1、x2、…和預定抽頭系數(shù)w1、w2、…的線性組合定義的線性一階組合模型進行確定。在這種情況下,預測值E[y]可以用下面方程表示
E[y]=w1x1+w2x2+… …(6)推廣方程(1),當由一組抽頭系數(shù)Wj組成的矩陣W,由一組學生數(shù)據(jù)xij組成的矩陣X,以及由一組預測值E[yj]組成的矩陣Y’如下進行定義時X=x11x12...x1Jx21x22...x2J............xI1xI2...xIJ]]>W=w1w2...wJ]]>Y′=E[y1]E[y2]...E[yJ]]]>下面觀察方程成立XW=Y(jié)’ …(7)其中,矩陣X的xij項表示第i個學生數(shù)據(jù)集(用于預測第i個老師數(shù)據(jù)yi的一組學生數(shù)據(jù))的第j個學生數(shù)據(jù),并且矩陣W的wj項表示與學生數(shù)據(jù)集內(nèi)第j個學生數(shù)據(jù)相乘的抽頭系數(shù)。而且,yi表示第i個老師數(shù)據(jù),從而E[yi]表示第i個老師數(shù)據(jù)的預測值。在方程(6)左邊的y中,省略矩陣Y中yi項的下標i,而在方程(6)右邊的x1,x2,…中,省略矩陣X中xij項的下標i。
然后,可以考慮,將最小平方法應用到該觀察方程,從而確定近似于真高質(zhì)量聲音y的預測值E[y]。在這種情況下,當由一組作為老師數(shù)據(jù)的真高質(zhì)量聲音y組成的矩陣Y和由一組預測值E[y]相對于高質(zhì)量聲音y的剩余值e組成的矩陣E如下進行定義時E=e1e2...eI]]>Y=y1y2...yI]]>根據(jù)方程(7),下面剩余方程成立XW=Y(jié)+E …(8)
在這種情況下,通過最小化下面平方差可以確定用于確定近似于真高音質(zhì)語音y的預測值E[y]的抽頭系數(shù)Wj。Σi=1Iei2]]>因此,如果上述平方差對抽頭系數(shù)Wj求偏導的結(jié)果為0,那么滿足下面方程的抽頭系數(shù)Wj將是用于確定近似于真高音質(zhì)語音y的預測值E[y]的最優(yōu)值e1∂e1∂wj+e2∂e2∂wj+...+eI∂eI∂wj=0---(j=1,2,...,J)]]>…(9)因此,首先通過將方程(8)對抽頭系數(shù)Wj求偏導,下面方程成立∂ei∂w1=xi1,∂ei∂w2=xi2,...,∂ei∂wJ=xiJ,---(i=1,2,...,J)]]>…(10)根據(jù)方程(9)和(10),獲得下面方程(11)Σi=1Ieixi1=0,Σi=1Ieixi2=0,...,Σi=1IeixiJ=0]]>…(11)而且,當考慮剩余方程(8)中的學生數(shù)據(jù)xij、抽頭系數(shù)Wj、老師數(shù)據(jù)yi和誤差ei時,根據(jù)方程(11)可以獲得下面規(guī)格化(normalization)方程 …(12)當矩陣(協(xié)方差矩陣)A和向量v分別定義為A=Σi=1Ixi1xi2Σi=1Ixi1xi2...Σi=1Ixi1xiJΣi=1Ixi2xi1Σi=1Ixi2xi2...Σi=1Ixi2xiJΣi=1IxiJxi1Σi=1IxiJxi2...Σi=1IxiJxiJ]]> 并且向量W如同方程1所示進行定義時,方程(12)所示的規(guī)格化方程可以由下面方程表示AW=v …(13)通過準備特定程度數(shù)目的學生數(shù)據(jù)xij和老師數(shù)據(jù)yi集,可以建立一組個數(shù)為要確定的抽頭系數(shù)wj的數(shù)目J的方程(12)中的每個規(guī)格化方程。因此,對向量W求解方程(13)(然而,要求解方程(13),方程(13)中的矩陣A要求為正則方程),可以確定最優(yōu)抽頭系數(shù)(在此,最小化平方差的抽頭系數(shù))的wj。當求解方程(13)時,例如可以使用消元法(Gauss-Jordan消元法)等。
自適應過程以如上所述的方式預先確定最優(yōu)抽頭系數(shù)wj,并且抽頭系數(shù)wj用來根據(jù)方程(6)確定近似于真高質(zhì)量聲音y的預測值E[y]。
例如,在采用以高采樣率進行采樣的語音信號或者分配有很多比特的語音信號作為老師數(shù)據(jù),并且采用通過對作為老師數(shù)據(jù)的語音信號進行薄弱化(thinned)或者采用CELP方法對以少量比特進行重新量化的語音信號進行編碼,然后對編碼結(jié)果進行解碼這種方式而獲得的合成語音作為學生數(shù)據(jù)的情況下,對于抽頭系數(shù),當要生成以高采樣率進行采樣的語音信號或者分配有很多比特的語音信號時,獲得預測誤差在統(tǒng)計上為最小的高質(zhì)量聲音。因此,在這種情況下,獲得更高質(zhì)量合成語音是可能的。
在圖4的接收部分114中,如上所述的分類和自適應過程將通過采用CELP方法對碼數(shù)據(jù)進行解碼而獲得的合成語音進一步解碼為更高質(zhì)量聲音。
更具體地說,圖5示出圖4的接收部分114的示例結(jié)構(gòu)。與圖2的情況對應的圖5的組件使用相同的標號,并且在下面適當時省略其說明。
從語音合成濾波器29輸出的每個子幀合成語音數(shù)據(jù),以及從信道解碼器21輸出的每個子幀L碼、G碼、I碼和A碼中的L碼提供給抽頭生成部分121和122。抽頭生成部分121和122從提供給抽頭生成部分121和122的合成語音數(shù)據(jù)和I碼中分別提取用于預測高質(zhì)量聲音預測值的預測抽頭數(shù)據(jù)和用于分類的類抽頭數(shù)據(jù)。預測抽頭提供給預測部分125,并且類抽頭提供給分類部分123。
分類部分123根據(jù)從抽頭生成部分122提供的類抽頭執(zhí)行分類,并且將作為分類結(jié)果的類代碼提供給系數(shù)存儲器124。
在此,例如,使用K比特ADRC(Adaptive Dynamic Range Coding,自適應動態(tài)范圍編碼)方法作為分類部分123中的分類方法。
在此,例如在K比特ADRC過程中,檢測形成類抽頭的數(shù)據(jù)的最大值MAX和最小值MIN,并且采用DR=MAX-MIN作為集合的局部動態(tài)范圍。根據(jù)該動態(tài)范圍DR,形成類抽頭的每個數(shù)據(jù)重新量化到K比特。也就是,從形成類抽頭的每個數(shù)據(jù)減去最小值MIN,然后通過相減得到的值除以DR/2K(量化)。然后,將其中以預定次序排列形成類抽頭的每個數(shù)據(jù)的K比特值的比特序列作為ADRC碼進行輸出。
例如,當這種K比特ADRC用于分類時,采用其中以預定次序排列通過K比特ADRC過程而獲得的形成預測抽頭的每個數(shù)據(jù)的K比特值的比特序列作為類代碼。
另外,例如,還可以通過將類抽頭考慮為其中以形成類抽頭的每個數(shù)據(jù)為元素的向量,并且對作為向量的類抽頭執(zhí)行向量量化,執(zhí)行分類。
系數(shù)存儲器124存儲通過在圖13的學習裝置中執(zhí)行的學習處理(后面將要描述)而獲得的用于每個類的抽頭系數(shù),并且將存儲在從分類部分123輸出的類代碼對應的地址中的抽頭系數(shù)提供給預測部分125。
預測部分125獲得從抽頭生成部分121輸出的預測抽頭和從系數(shù)存儲器124輸出的抽頭系數(shù),并且通過使用該預測抽頭和抽頭系數(shù),執(zhí)行方程(6)所示的線性預測計算。因此,預測部分125確定感興趣主子幀(subject subframe)的高質(zhì)量聲音(的預測值),并且將該值提供給D/A轉(zhuǎn)換部分30。
下面參照圖6的流程圖,對圖5的接收部分114的過程進行描述。
信道解碼器21從向其提供的碼數(shù)據(jù)中分離L碼、G碼、I碼和A碼,并且分別將這些碼提供給自適應碼本存儲部分22、增益解碼器23、激勵碼本存儲部分24和濾波器系數(shù)解碼器25。而且,L碼還提供給抽頭生成部分121和122。
然后,自適應碼本存儲部分22、增益解碼器23、激勵碼本存儲部分24和運算單元26到28執(zhí)行與圖2的情況相同的過程,并且因此,L碼、G碼和I碼解碼為剩余信號e。該剩余信號提供給語音合成濾波器29。
而且,如同參照圖2的描述,濾波器系數(shù)解碼器25將向其提供的A碼解碼為線性預測系數(shù),并且將它提供給語音合成濾波器29。語音合成濾波器29通過使用來自運算單元28的剩余信號和來自濾波器系數(shù)解碼器25的線性預測系數(shù),執(zhí)行語音合成,并且將結(jié)果合成語音提供給抽頭生成部分121和122。
抽頭生成部分121和122順序采用由語音合成濾波器29順序輸出的合成語音子幀作為主子幀。在步驟S1,抽頭生成部分121從主子幀的合成語音和該子幀的I碼中生成預測抽頭(后面將要描述),并且將該預測抽頭提供給預測部分125。而且,在步驟S1,例如,抽頭生成部分122還從主子幀的合成語音和該子幀的I碼中生成類抽頭(后面將要描述),并且將該類抽頭提供給分類部分123。
然后,過程進入步驟S2,其中,分類部分123根據(jù)從抽頭生成部分122提供的類抽頭執(zhí)行分類,并且將結(jié)果類代碼提供給系數(shù)存儲器124,然后過程進入步驟S3。
在步驟S3中,系數(shù)存儲器124從由分類部分123提供的類代碼對應的地址中讀取抽頭系數(shù),并且將該抽頭系數(shù)提供給預測部分125。
然后過程進入步驟S4,其中,預測部分125獲得從系數(shù)存儲器124輸出的抽頭系數(shù),并且通過使用該抽頭系數(shù)和來自抽頭生成部分121的預測抽頭,執(zhí)行方程(6)所示的乘積和計算,從而獲得主子幀的高質(zhì)量聲音數(shù)據(jù)(的預測值)。
通過順序使用主子幀合成語音數(shù)據(jù)的每個樣本值作為主數(shù)據(jù),執(zhí)行步驟S1到S4的過程。也就是,由于子幀的合成語音數(shù)據(jù)如上所述包括40個樣本,因此對于這40個樣本的每個合成語音數(shù)據(jù),執(zhí)行步驟S1到S4的過程。
通過上述方式獲得的高質(zhì)量聲音利用D/A轉(zhuǎn)換部分30從預測部分125提供給揚聲器31,由此從揚聲器31輸出高質(zhì)量聲音。
在步驟S4之后,過程進入步驟S5,其中,確定是否存在更多的子幀要作為主子幀進行處理。當確定確定存在子幀要作為主子幀進行處理時,過程返回到步驟S1,其中,用作下一主子幀的子幀用作新的主子幀,并且以下重復相同的過程。當在步驟S5確定不存在任何子幀要作為主子幀進行處理時,結(jié)束處理。
下面參照圖7,對在圖5的抽頭生成部分121中生成預測抽頭的方法進行描述。
例如,如圖7所示,抽頭生成部分121采用子幀的每個合成語音數(shù)據(jù)(從語音合成濾波器29輸出的合成語音數(shù)據(jù))作為主數(shù)據(jù),并且提取主數(shù)據(jù)的過去N個樣本的合成語音數(shù)據(jù)(圖7的A所示范圍內(nèi)的合成語音數(shù)據(jù))以及以主數(shù)據(jù)為中心總共N個樣本的過去和將來合成語音數(shù)據(jù)(圖7的B所示范圍內(nèi)的合成語音數(shù)據(jù)),作為預測抽頭。
而且,抽頭生成部分121還提取例如主數(shù)據(jù)所在的子幀(圖7實施例中的子幀#3),也就是主子幀中的I碼,作為預測抽頭。
因此,在這種情況下,預測抽頭由包含主數(shù)據(jù)的N個樣本合成語音數(shù)據(jù)和主子幀的I碼形成。
另外,在抽頭生成部分122中,例如,以與抽頭生成部分121的情況相同的方式,提取由合成語音數(shù)據(jù)和I碼形成的類抽頭。
然而,預測抽頭和類抽頭的結(jié)構(gòu)模式不限于上述模式。也就是,除如上所述從主數(shù)據(jù)提取所有N個樣本合成語音數(shù)據(jù)作為預測抽頭和類抽頭之外,每隔幾個樣本提取合成語音數(shù)據(jù)是可能的。
而且,雖然在上述情況下是以相同的方式形成類抽頭和預測抽頭,但是類抽頭和預測抽頭可以采用不同的方式來形成。
可以只從合成語音數(shù)據(jù)中形成預測抽頭和類抽頭。然而,以上述方式,除合成語音數(shù)據(jù)之外,還通過使用作為合成語音數(shù)據(jù)相關(guān)信息的I碼形成預測抽頭和類抽頭,解碼出更高質(zhì)量的聲音成為可能。
然而,以上述情況的方式,當在預測抽頭和類抽頭中只包含位于主數(shù)據(jù)所在子幀中的I碼時,可以說,不能獲得形成預測抽頭和類抽頭的合成語音數(shù)據(jù)與I碼之間的平衡。因此,存在不能充分地通過分類和自適應過程改善音質(zhì)效果的危險。
更具體地說,例如,在圖7中,當在預測抽頭中包含主數(shù)據(jù)的過去N個樣本合成語音數(shù)據(jù)(圖7的A所示范圍內(nèi)的合成語音數(shù)據(jù))時,用作預測抽頭的合成語音數(shù)據(jù)不僅包含主子幀的合成語音數(shù)據(jù),還包含前一子幀的合成語音數(shù)據(jù)。因此,在這種情況下,如果在預測抽頭中包含位于主子幀的I碼,除非在預測抽頭中包含位于前一子幀的I碼,否則存在形成預測抽頭的合成語音數(shù)據(jù)與I碼之間的關(guān)系出現(xiàn)不平衡的危險。
因此,從中形成預測抽頭和類抽頭的I碼子幀可以根據(jù)主數(shù)據(jù)在主子幀中的位置發(fā)生變化。
更具體地說,例如,在包含在從主數(shù)據(jù)形成的預測抽頭中的合成語音數(shù)據(jù)范圍擴展到主子幀的前一子幀或后一子幀(以下稱作“相鄰子幀”)的情況下,或者在合成語音數(shù)據(jù)擴展到臨近于相鄰子幀的位置的情況下,以不僅包含主子幀的I碼而且包含相鄰子幀的I碼的方式形成預測抽頭是可能的。也可以采用相同的方式形成類抽頭。
采用這種方式,通過以獲得形成預測抽頭和類抽頭的合成語音數(shù)據(jù)和I碼之間的平衡這種方式形成預測抽頭和類抽頭,由于分類和自適應過程獲得充分的音質(zhì)改善成為可能。
圖8示出用于形成預測抽頭的抽頭生成部分121示例結(jié)構(gòu),通過以如上方式根據(jù)主數(shù)據(jù)在主子幀中的位置使形成預測抽頭的I碼的子幀可變,能夠獲得形成預測抽頭的合成語音數(shù)據(jù)與I碼之間的平衡。用于形成類抽頭的抽頭生成部分122也可以類似于圖8進行形成。
從圖5的語音合成濾波器29輸出的合成語音數(shù)據(jù)提供給存儲器41A,并且存儲器41A臨時存儲向其提供的合成語音數(shù)據(jù)。存儲器41A至少具有能夠存儲形成一個預測抽頭的N個樣本合成語音數(shù)據(jù)的存儲容量。而且,存儲器41A以覆寫最舊存儲值的方式順序存儲向其提供的合成語音數(shù)據(jù)最新樣本。
然后,數(shù)據(jù)提取電路42A通過從存儲器41A進行讀取,根據(jù)主數(shù)據(jù)提取形成預測抽頭的合成語音數(shù)據(jù),并且將該合成語音數(shù)據(jù)輸出到組合電路43。
更具體地說,當采用存儲在存儲器41A中的最新合成語音數(shù)據(jù)作為主數(shù)據(jù)時,數(shù)據(jù)提取電路42A通過從存儲器41A進行讀取,提取最新合成語音數(shù)據(jù)的過去N個樣本合成語音數(shù)據(jù),并且將該數(shù)據(jù)輸出到組合電路43。
如圖7的B所示,當使用以主數(shù)據(jù)為中心的過去和將來N個樣本合成語音數(shù)據(jù)作為預測抽頭時,可以采用存儲在存儲器41A中的合成語音數(shù)據(jù)內(nèi)的離最新合成語音數(shù)據(jù)N/2(小數(shù)部分例如增至下一整數(shù))個樣本的過去合成語音數(shù)據(jù)作為主數(shù)據(jù),并且從存儲器41A中讀取以主數(shù)據(jù)為中心的總共N個樣本的過去和將來合成語音數(shù)據(jù)。
同時,從圖5的信道解碼器21輸出的子幀單元I碼提供給存儲器41B,并且存儲器41B臨時存儲向其提供的I碼。存儲器41B至少具有能夠存儲形成一個預測抽頭的I碼量的存儲容量。而且,類似于存儲器41A,存儲器41B以覆寫最舊存儲值的方式存儲向其提供的最新I碼。
然后,數(shù)據(jù)提取電路42B根據(jù)由數(shù)據(jù)提取電路42A采用為主數(shù)據(jù)的合成語音數(shù)據(jù)在主子幀的位置通過從存儲器41B進行讀取,提取僅僅主子幀的I碼,或者主子幀的I碼和與主子幀相鄰的子幀(相鄰子幀)的I碼,并且將它們輸出到組合電路43。
組合電路43將來自數(shù)據(jù)提取電路42A的合成語音數(shù)據(jù)與來自數(shù)據(jù)提取電路42B的I碼組合(合并)為一個數(shù)據(jù)集,并且將它作為預測抽頭進行輸出。
在抽頭生成部分121中,當以上述方式生成預測抽頭時,形成預測抽頭的合成語音數(shù)據(jù)固定為N個樣本。然而,對于I碼,存在它只是主子幀的I碼的情況,并且存在它是主子幀的I碼和與主子幀相鄰的子幀(相鄰子幀)的I碼的情況。因此,I碼的數(shù)目是變化的。這同樣應用于在抽頭生成部分122中生成的類抽頭。
對于預測抽頭,即使形成它的數(shù)據(jù)數(shù)目(抽頭數(shù)目)是變化的,也沒有問題,因為與預測抽頭數(shù)目相同的抽頭系數(shù)只需要在圖13的學習裝置中進行學習(后面將要描述),并且抽頭系數(shù)只需存儲在系數(shù)存儲器124中。
另一方面,對于類抽頭,如果形成類抽頭的數(shù)目是變化的,通過類抽頭獲得的所有類的數(shù)目也是變化的,所帶來的危險是處理變得復雜。因此,最好執(zhí)行即使類抽頭的抽頭數(shù)目是變化的,通過類抽頭獲得的類數(shù)目也不發(fā)生變化的分類。
可以采用例如將主數(shù)據(jù)在主子幀中的位置考慮在內(nèi)的方法作為即使類抽頭的抽頭數(shù)目是變化的,通過類抽頭獲得的類數(shù)目也不發(fā)生變化的分類執(zhí)行方法。
更具體地說,在本實施例中,類抽頭的抽頭數(shù)目根據(jù)主數(shù)據(jù)在主子幀中的位置,增大或減小。例如,假設(shè)類抽頭的抽頭數(shù)目為S和大于S的L(>S)的情況,當抽頭數(shù)目為S時,獲得n比特的類,并且當抽頭數(shù)目為L時,獲得n+m比特的類代碼。
在這種情況下,使用n+m+1比特作為類代碼,并且,例如,n+m+1比特內(nèi)的如最高位比特的1比特根據(jù)類抽頭數(shù)目為S和L的情況設(shè)為0或1。因此,即使抽頭數(shù)目為S或L,類總數(shù)為2n+m+1的分類成為可能。
更具體地說,當類抽頭的數(shù)目為L時,可以執(zhí)行獲得n+m比特類代碼的分類,并且采用表示抽頭數(shù)目為L的最高位比特“1”加到n+m比特類代碼的n+m+1比特作為最終的類代碼。
而且,當類抽頭的數(shù)目為S時,可以執(zhí)行獲得n比特類代碼的分類,m個比特“0”作為高位比特可以加到n比特類代碼,從而形成n+m比特,并且可以采用表示抽頭數(shù)目為S的最高位比特“0”加到n+m比特的n+m+1比特作為最終的類代碼。
采用上述方式,即使類抽頭的抽頭數(shù)目為S或L,類總數(shù)為2n+m+1的分類成為可能。當抽頭數(shù)目為S時,從最高位比特開始計數(shù)的第二比特直到第(m+1)比特總是為“0”。
因此,如上所述,當執(zhí)行輸出n+m+1比特類代碼的分類時,出現(xiàn)沒有使用的類(對應的類代碼),也就是,可以說,出現(xiàn)無用類。
因此,為了防止這種無用類使類的總數(shù)固定,可以通過對形成類抽頭的數(shù)據(jù)進行加權(quán),執(zhí)行分類。
更具體地說,例如,在圖7的A所示的主數(shù)據(jù)的過去N個樣本合成語音數(shù)據(jù)包含在類抽頭中,并且主子幀(以下適當時稱作“主子幀#n”)的I碼和前一子幀#n-1的I碼的其中之一或兩者根據(jù)主數(shù)據(jù)在主子幀的位置包含在類抽頭中的情況下,例如,對形成類抽頭的主子幀#n的I碼對應的類數(shù)目和前一子幀#n-1的I碼對應的類數(shù)目執(zhí)行圖9A所示的加權(quán),從而允許類數(shù)目固定。
也就是,圖9A示出執(zhí)行主數(shù)據(jù)越位于主子幀#n的右邊,主子幀#n的I碼對應的類數(shù)目越大的分類。而且,圖9A示出執(zhí)行主數(shù)據(jù)越位于主子幀#n的右邊,前一子幀#n-1的I碼對應的類數(shù)目越小的分類。通過執(zhí)行如圖9A所示的加權(quán),執(zhí)行類總數(shù)目為固定的分類。
而且,例如,在以主數(shù)據(jù)為中心的圖7的B所示的總共N個樣本的過去和將來合成語音數(shù)據(jù)包含在類抽頭中,并且主子幀#n的I碼以及前一子幀#n-1與后一子幀#n+1的I碼的其中之一或兩者包含在類抽頭中的情況下,例如對形成類抽頭的主子幀#n的I碼對應的類數(shù)目、前一子幀#n-1的I碼對應的類數(shù)目以及后一子幀#n+1的I碼對應的類數(shù)目執(zhí)行圖9B所示的加權(quán),從而允許類數(shù)目固定。
也就是,圖9B示出主數(shù)據(jù)越靠近主子幀#n的中心位置,主子幀#n的I碼對應的類數(shù)目越大的分類。而且,圖9B示出主數(shù)據(jù)越位于主子幀#n的左邊(過去),緊鄰在主子幀#n之前的子幀#n-1的I碼對應的類數(shù)目越大,并且主數(shù)據(jù)越位于主子幀#n的右邊(將來),緊鄰在主子幀#n之后的子幀#n+1的I碼對應的類數(shù)目越大的分類。通過執(zhí)行如圖9B所示的加權(quán),執(zhí)行類總數(shù)目為固定的分類。
圖10示出在I碼對應的類數(shù)目固定為512情況下的加權(quán)示例。
更具體地說,圖10A示出主子幀#n的I碼和前一子幀#n-1的I碼的其中之一或兩者根據(jù)主數(shù)據(jù)在主子幀的位置包含在類抽頭中的情況下的加權(quán)特定示例。
圖10B示出主子幀#n的I碼以及前一子幀#n-1與后一子幀#n+1的I碼的其中之一或兩者根據(jù)主數(shù)據(jù)在主子幀的位置包含在類抽頭中的情況下的圖9B所示加權(quán)特定示例。
在圖10A中,最左列示出從左端開始主數(shù)據(jù)在主子幀的位置。左起第二列示出緊鄰在主子幀之前的子幀I碼對應的類數(shù)目。左起第三列示出主子幀的I碼對應的類數(shù)目。最右列示出形成類抽頭的I碼對應的類數(shù)目(主子幀的I碼和前一子幀的I碼對應的類數(shù)目)。
在此,例如,如上所述,由于子幀由40個樣本組成,因此從左端開始主數(shù)據(jù)在主子幀的位置(最左列)取值范圍為1到40。而且,例如,如上所述,因為I碼的長度為9比特,所以當直接采用9比特作為類代碼時,類數(shù)目為最大。因此,I碼對應的類數(shù)目(從左開始的第二和第三列)取值為29(=512)或更低。
而且,如上所述,當直接使用一個I碼作為類代碼時,類數(shù)目為512(29)。因此,在圖10A中(同樣應用于圖10B,后面將要描述),對主子幀的I碼對應的類數(shù)目和前一子幀的I碼對應的類數(shù)目執(zhí)行加權(quán),從而形成類抽頭的所有I碼對應的類數(shù)目(主子幀的I碼和前一子幀的I碼對應的類數(shù)目)為512,也就是,主子幀的I碼對應的類數(shù)目與前一子幀的I碼對應的類數(shù)目的乘積為512。
在圖10A中,如圖9A所示,主數(shù)據(jù)越位于主子幀#n的右邊(表示主數(shù)據(jù)位置的值越大),主子幀#n的I碼對應的類數(shù)目越大,并且緊鄰在主子幀#n之前的子幀#n-1的I碼對應的類數(shù)目越小。
在圖10B中,最左列、左起第二列、左起第三列以及最右列示出與圖10A的情況相同的內(nèi)容。左起第四列示出緊鄰在主子幀之后的子幀的I碼對應的類數(shù)目。
在圖10B中,如圖9B所示,主數(shù)據(jù)越遠離主子幀#n的中心位置(表示主數(shù)據(jù)位置的值比中間值大得越多或者小得越多),主子幀#n的I碼對應的類數(shù)目越小。而且,主數(shù)據(jù)越位于主子幀#n的左邊,緊鄰在主子幀#n之前的子幀#n-1的I碼對應的類數(shù)目越大。另外,主數(shù)據(jù)越位于主子幀#n的右邊,緊鄰在主子幀#n之后的子幀#n+1的I碼對應的類數(shù)目越大。
圖11示出用于執(zhí)行涉及如上所述的加權(quán)的分類的圖5分類部分123示例結(jié)構(gòu)。
在此,假定類抽頭由例如主數(shù)據(jù)的過去N個樣本合成語音數(shù)據(jù)以及主數(shù)據(jù)和前一子幀的I碼組成,如圖7的A所示。
從抽頭生成部分122(圖5)輸出的類抽頭提供給合成語音數(shù)據(jù)提取部分51和碼提取部分53。
合成語音數(shù)據(jù)提取部分51從向其提供的類抽頭中裁出(提取)形成類抽頭的多個樣本合成語音數(shù)據(jù),并且將合成語音數(shù)據(jù)提供給ADRC電路52。ADRC電路52對從合成語音數(shù)據(jù)提取部分51提供的多個合成語音數(shù)據(jù)項(在此為N個樣本合成語音數(shù)據(jù))執(zhí)行例如1比特ADRC處理,并且將以預定次序排列結(jié)果合成語音數(shù)據(jù)多個項各自對應的1比特的比特序列提供給組合電路56。
同時,碼提取部分53從向其提供的類抽頭中裁出(提取)形成類抽頭的I碼。而且,碼提取部分53將所提取的I碼中的主子幀的I碼和前一子幀的I碼分別提供給退化部分54A和54B。
退化部分54A存儲通過表創(chuàng)建過程(后面將要描述)創(chuàng)建的退化表。采用圖9和10所述的方式,通過使用退化表,退化部分54A根據(jù)主數(shù)據(jù)在主子幀的位置退化(減小)由主子幀的I碼表示的類數(shù)目,并且將該類數(shù)目提供給組合電路55。
也就是,當主數(shù)據(jù)在主子幀的位置為從左開始的第一到第四之一時,退化部分54A執(zhí)行退化過程,從而,例如,如圖10A所示,由主子幀的I碼表示的512個類數(shù)目仍為512,也就是,不對主子幀的9比特I碼進行特定處理,而是直接輸出。
而且,當主數(shù)據(jù)在主子幀的位置為從左開始的第五到第八之一時,例如,如圖10A所示,退化部分54A執(zhí)行退化過程,從而,由主子幀的I碼表示的512個類數(shù)目變?yōu)?56,也就是,通過使用退化表將主子幀的9比特I碼轉(zhuǎn)換為用8比特表示的碼,并且輸出該碼。
而且,當主數(shù)據(jù)在主子幀的位置為從左開始的第九到第十二之一時,例如,如圖10A所示,退化部分54A執(zhí)行退化過程,從而,由主子幀的I碼表示的512個類數(shù)目變?yōu)?28,也就是,通過使用退化表將主子幀的9比特I碼轉(zhuǎn)換為用7比特表示的碼,并且輸出該碼。
以下采用類似的方式,退化部分54A根據(jù)主數(shù)據(jù)在主子幀的位置,如圖10A的左起第二列所示退化由主子幀的I碼表示的類數(shù)目,并且將該類數(shù)目輸出到組合電路55。
退化部分54B還存儲類似于退化部分54A的退化表。通過使用該退化表,退化部分54B根據(jù)主數(shù)據(jù)在主子幀的位置,如圖10A的左起第三列所示退化由前一子幀的I碼表示的類數(shù)目,并且將該類數(shù)目輸出到組合電路55。
組合電路55將來自退化部分54A的適當時退化類數(shù)目的主子幀的I碼與來自退化部分54B的適當時退化類數(shù)目的緊鄰在主子幀之前的子幀的I碼組合為一個比特序列,并且將該比特序列提供給組合電路56。
組合電路56將來自ADRC電路52的比特序列與來自組合電路55的比特序列組合為一個比特序列,并且將該比特序列作為類代碼進行提供。
下面參照圖12的流程圖,對創(chuàng)建在圖11的退化部分54A和54B中使用的退化表的表創(chuàng)建過程進行描述。
在退化表創(chuàng)建過程中,開始,在步驟S11,設(shè)置退化之后的類數(shù)目M。在此,為描述簡潔起見,例如,M值設(shè)為提高到2的冪。而且,在此,由于創(chuàng)建用于退化用9比特的I碼表示的類數(shù)目的退化表,因此M值設(shè)為512(這是用9比特I碼表示的最大類數(shù)目)或更小。
然后,過程進入步驟S12,其中,表示退化之后類數(shù)目的變量c設(shè)為“0”,并且過程進入步驟S13。在步驟S13中,所有I碼(首先,用9比特I碼表示的所有數(shù)目)設(shè)為用于處理目標的目標I碼,并且過程進入步驟S14。在步驟S14中,選擇一個目標I碼作為主(subject)I碼,并且過程進入步驟S15。
在步驟S15,計算由I碼表示的波形(激勵信號的波形)與由所有目標碼表示的每個波形之間的平方差。
更具體地說,如上所述,I碼對應于預定激勵信號。在步驟S15,確定由主I碼表示的激勵信號波形的每個樣本值與用目標I碼表示的激勵信號波形對應樣本值之間的平方差之和。在步驟S15,通過使用所有目標I碼作為目標,確定對主I碼的平方差之和。
然后,過程進入步驟S16,其中,檢測使對主I碼的平方差之和最小的目標I碼(以下適當時稱作“最小平方差I(lǐng)碼”),并且使主I碼和最小平方差I(lǐng)碼對應于用變量c表示的碼。也就是,因此,主I碼,和在目標I碼中由其表示的波形最近似于由主I碼表示的波形的目標I碼(最小平方差I(lǐng)碼)退化為相同的類c。
在步驟S16之后,過程進入步驟S17,其中,例如,確定由主I碼表示的波形的每個樣本值與由最小平方差I(lǐng)碼表示的波形的對應樣本值的平均值,并且使平均值波形作為用變量c表示的激勵信號波形對應于變量c。
然后,過程進入步驟S18,其中,從目標I碼中排除主I碼和最小平方差I(lǐng)碼。然后,過程進入步驟S19,其中,變量c增1,然后過程進入步驟S20。
在步驟S20,確定是否存在用于目標I碼的I碼。當確定存在用于目標I碼的I碼時,過程返回到步驟S14,其中,從用于目標I碼的I碼中選擇新的主I碼,并且以下重復相同的過程。
當在步驟S20確定不存在用于目標I碼的I碼時,也就是,當變量c等于I碼總數(shù)目的1/2時,過程進入步驟S21,其中,確定變量c是否等于退化之后的類數(shù)目M。
當在步驟S21確定變量c不等于退化之后的類數(shù)目M時,也就是,當用9比特I碼表示的類數(shù)目尚未退化為M類時,過程進入步驟S22,其中,重新采用以變量c表示的每個值作為I碼。然后,過程返回到步驟S12,并且以下使用新的I碼作為目標,重復相同的過程。
對于新的I碼,通過使用在步驟S17確定的波形作為由新I碼表示的激勵信號波形,計算步驟S15中的平方差。
另一方面,當在步驟S21確定變量c等于退化之后的類數(shù)目M時,也就是,當用9比特I碼表示的類數(shù)目退化為M類時,過程進入步驟S23,其中,創(chuàng)建變量c的每個值與對應于該值的9比特I碼之間的對應表,輸出該對應表作為退化表,然后結(jié)束過程。
在圖11的退化部分54A和54B中,通過將向其提供的9比特I碼轉(zhuǎn)換為在以上述方式創(chuàng)建的退化表中對應于該9比特I碼的變量c,退化該9比特I碼。
另外,例如,還可以通過簡單地刪除I碼的低位比特執(zhí)行9比特I碼的類數(shù)目退化。然而,最好以相似類集合在一起的方式執(zhí)行類數(shù)目的退化。因此,代替簡單地刪除I碼的低位比特,如圖12所述,表示具有相似波形的激勵信號的I碼最好分配給相同的類。
圖13示出用于執(zhí)行學習存儲在圖5的系數(shù)存儲器124中的抽頭系數(shù)的過程的學習裝置實施例的示例結(jié)構(gòu)。
麥克風201到碼確定部分215的一系列組件分別類似于圖1的麥克風1到碼確定部分15的一系列組件。高質(zhì)量的學習語音信號輸入到麥克風1,并且因此,在麥克風201到碼確定部分215中,對學習語音信號執(zhí)行與圖1的情況相同的處理。
然而,碼確定部分215在L碼、G碼、I碼和A碼中只輸出在本實施例中形成預測抽頭和類抽頭的L碼。
然后,當在最小平方差確定部分208中確定平方差達到最小時,由語音合成濾波器206輸出的合成語音提供給抽頭生成部分131和132。而且,當碼確定部分215從最小平方差確定部分208接收確定信號時,由碼確定部分215輸出的I碼也提供給抽頭生成部分131和132。而且,由A/D轉(zhuǎn)換部分202輸出的語音作為老師數(shù)據(jù)提供給規(guī)格化方程求和電路134。
生成部分131從由語音合成濾波器206輸出的合成語音數(shù)據(jù)和由碼確定部分215輸出的I碼中生成與圖5的抽頭生成部分121的情況相同的預測抽頭,并且將預測抽頭作為學生數(shù)據(jù)提供給規(guī)格化方程求和電路134。
抽頭生成部分132還從由語音合成濾波器206輸出的合成語音數(shù)據(jù)和由碼確定部分215輸出的I碼中生成與圖5的抽頭生成部分122的情況相同的類抽頭,并且將類抽頭提供給分類部分133。
分類部分133根據(jù)來自抽頭生成部分132的類抽頭執(zhí)行與圖5的分類部分123的情況相同的分類,并且將結(jié)果類代碼提供給規(guī)格化方程求和電路134。
規(guī)格化方程求和電路134接收來自A/D轉(zhuǎn)換部分202的語音數(shù)據(jù)作為老師數(shù)據(jù),并且接收來自生成部分131的預測抽頭作為學生數(shù)據(jù),并且通過使用老師數(shù)據(jù)和學生數(shù)據(jù)作為目標,對來自分類部分133的每個類代碼執(zhí)行求和。
更具體地說,規(guī)格化方程求和電路134通過使用預測抽頭(學生數(shù)據(jù)),對從分類部分133提供的類代碼對應的每個類,執(zhí)行學生數(shù)據(jù)與學生數(shù)據(jù)的相乘(xinxim)(方程(13)中矩陣A的各項)以及相當于求和∑的計算。
而且,規(guī)格化方程求和電路134通過使用學生數(shù)據(jù)和老師數(shù)據(jù),對從分類部分133提供的類代碼對應的每個類,執(zhí)行學生數(shù)據(jù)與老師數(shù)據(jù)的相乘(xinyi)(方程(13)中向量v的各項)以及相當于求和∑的計算。
規(guī)格化方程求和電路134通過使用向其提供的所有用于學習的語音子幀作為主子幀,執(zhí)行上述求和。因此,為每個類建立方程(13)所示的規(guī)格化方程。
抽頭系數(shù)確定電路135通過對在規(guī)格化方程求和電路134中為每個類生成的規(guī)格化方程進行求解,確定每個類的抽頭系數(shù),并且將該抽頭系數(shù)提供給系數(shù)表存儲單元69中與各個類對應的地址。
根據(jù)準備用作學習語音信號的語音信號,在規(guī)格化方程求和電路134中,可能出現(xiàn)不能獲得確定抽頭系數(shù)所需的規(guī)格化方程數(shù)目的類。對于這種類,抽頭系數(shù)確定電路135輸出例如缺省抽頭系數(shù)。
系數(shù)存儲器136將從抽頭系數(shù)確定電路135提供的每個類對應的抽頭系數(shù)存儲在那個類對應的地址中。
下面參照圖14的流程圖,對在圖13的學習裝置中執(zhí)行的確定用于解碼出高質(zhì)量聲音的抽頭系數(shù)的學習過程進行描述。
更具體地說,學習語音信號提供給學習裝置。在步驟S31,從學習語音信號中生成老師數(shù)據(jù)和學生數(shù)據(jù)。
更具體地說,學習語音信號輸入到麥克風201,并且麥克風201到碼確定部分215分別執(zhí)行與圖1的麥克風1到碼確定部分15的情況相同的過程。
因此,通過A/D轉(zhuǎn)換部分202獲得的數(shù)字語音信號作為老師數(shù)據(jù)提供給規(guī)格化方程求和電路134。而且,當在最小平方差確定部分208中確定平方差達到最小時,從語音合成濾波器206輸出的合成語音作為學生數(shù)據(jù)提供給抽頭生成部分131和132。而且,當在最小平方差確定部分208中確定平方差達到最小時,從碼確定部分215輸出的I碼也作為學生數(shù)據(jù)提供給抽頭生成部分131和132。
然后,過程進入步驟S32,其中,抽頭生成部分131采用從語音合成濾波器206作為學生數(shù)據(jù)提供的合成語音數(shù)據(jù)子幀作為主子幀,而且順序采用那個主子幀的合成語音數(shù)據(jù)作為主數(shù)據(jù),與圖5的抽頭生成部分121的情況類似,從來自語音合成濾波器206的合成語音數(shù)據(jù)和來自碼確定部分215的L碼中對每個主數(shù)據(jù)生成預測抽頭,并且將該預測抽頭提供給規(guī)格化方程求和電路134。而且,在步驟S32,抽頭生成部分132還與圖5的抽頭生成部分122的情況類似,從合成語音數(shù)據(jù)中生成類抽頭,并且將類抽頭提供給分類部分133。
在步驟S32之后,過程進入步驟S33,其中,分類部分133根據(jù)來自抽頭生成部分132的類抽頭執(zhí)行分類,并且將結(jié)果類代碼提供給規(guī)格化方程求和電路134。
然后,過程進入步驟S34,其中,規(guī)格化方程求和電路134通過使用來自A/D轉(zhuǎn)換部分202作為老師數(shù)據(jù)的學習語音內(nèi)的語音(對應于主數(shù)據(jù))和來自生成部分132作為學生數(shù)據(jù)的預測抽頭(從主數(shù)據(jù)生成的預測抽頭)作為目標,為來自分類部分133對于主數(shù)據(jù)的每個類代碼,執(zhí)行如上所述方程(13)的矩陣A和向量v的求和。然后,過程進入步驟S35。
在步驟S35,確定是否存在任何更多子幀要作為主子幀進行處理。當在步驟S35中確定還存在子幀要作為主子幀進行處理時,過程返回到步驟S31,其中,采用下一子幀作為新的主子幀,并且以下重復相同的過程。
而且,當在步驟S35中確定不存在任何子幀要作為主子幀進行處理時,過程進入步驟S36,其中,抽頭系數(shù)確定電路135對在規(guī)格化方程求和電路134中為每個類生成的規(guī)格化方程進行求解,從而為每個類確定抽頭系數(shù),并且將抽頭系數(shù)提供給系數(shù)存儲器136中與每個類對應的地址中,從而存儲抽頭系數(shù),然后結(jié)束處理。
采用上述方式,在圖5的系數(shù)存儲器124中存儲在系數(shù)存儲器136中存儲的每個類對應的抽頭系數(shù)。
采用上述方式,由于以執(zhí)行學習的方式確定存儲在圖5的系數(shù)存儲器124中的抽頭系數(shù),從而通過執(zhí)行線性預測計算而獲得的高質(zhì)量語音的語音預測值的預測誤差(平方差)在統(tǒng)計上為最小,由圖5的預測部分125輸出的語音為高質(zhì)量語音。
例如,在圖5和13的實施例中,除了從語音合成濾波器206輸出的合成語音數(shù)據(jù)之外,包含在編碼數(shù)據(jù)中的I碼(變?yōu)榫幋a數(shù)據(jù))也包含在預測抽頭和類抽頭中。然而,如圖5和13的虛線所示,預測抽頭和類抽頭可以形成為,代替I碼或者除I碼之外,包含I碼、L碼、G碼、A碼、從A碼獲得的線性預測系數(shù)αp、從G碼獲得的增益β或γ以及從L碼、G碼、I碼或A碼獲得的其它信息(例如,剩余信號e、用于獲得剩余信號e的1或n、1/β、n/γ等)中的一個或多個。而且,在CELP方法中,存在列表插值比特、幀能量等包含在碼數(shù)據(jù)中作為編碼數(shù)據(jù)的情況。在這種情況下,預測抽頭和類抽頭也可以形成為,使用軟插值比特和幀能量。
另外,既可以用硬件又可以用軟件執(zhí)行上述過程序列。在用軟件執(zhí)行過程序列的情況下,形成軟件的程序安裝在通用計算機等中。
因此,圖15示出其中安裝有用來執(zhí)行上述過程序列的程序的計算機實施例的示例結(jié)構(gòu)。
該程序可以預記錄在硬盤305或作為計算機內(nèi)置記錄介質(zhì)的ROM 303中。
作為替換,程序可以臨時或永久地存儲(記錄)在可移動記錄介質(zhì)311中,例如軟盤,CD-ROM(Compact Disc Read Only Memory,光盤只讀存儲器),MO(Magneto-Optical,光磁)盤,DVD(Digital Versatile Disc,數(shù)字多用途盤),磁盤或半導體存儲器。該可移動記錄介質(zhì)311可以作為通常所謂的包軟件進行提供。
除了如上所述從可移動記錄介質(zhì)311安裝到計算機中之外,程序還可以通過用于數(shù)字衛(wèi)星廣播的人造衛(wèi)星以無線方式從下載站點傳輸?shù)接嬎銠C,或通過網(wǎng)絡(luò)如LAN(Local AreaNetwork,局域網(wǎng))或因特網(wǎng)以纜線方式傳輸?shù)接嬎銠C,并且在計算機中,以這種方式傳輸?shù)某绦蛲ㄟ^通信部分308進行接收,并且可以安裝到內(nèi)置硬盤305中。
計算機具有內(nèi)置的CPU(Central Processing Unit,中央處理器)302。輸入/輸出接口310通過總線301連接到CPU 302。當用戶操作輸入部分307,如鍵盤,鼠標或麥克風,通過輸入輸出接口310輸入一個命令時,CPU 302根據(jù)該命令執(zhí)行存儲在ROM(Read Only Memory,只讀存儲器)303中的程序。作為替換,CPU 302載入存儲在硬盤305中的程序,從衛(wèi)星或網(wǎng)絡(luò)傳輸?shù)挠赏ㄐ挪糠?08接收且安裝到硬盤305中的程序,或者從載入在驅(qū)動器309中的可移動記錄介質(zhì)311讀出,并且安裝到硬盤305、RAM(Random AccessMemory,隨機存儲器)304中的程序,并且執(zhí)行該程序。因此,CPU 302根據(jù)上述流程圖或按照上述方框圖中的結(jié)構(gòu)執(zhí)行的處理執(zhí)行處理。然后,CPU302(如果需要)例如通過輸入/輸出接口310從由LCD(liquid crystal display,液晶顯示器)、揚聲器等形成的輸出部分306輸出處理結(jié)果,或者從通信部分308傳輸處理結(jié)果,而且將處理結(jié)果記錄在硬盤305中。
在此,在本說明書中,描述用于使計算機執(zhí)行各種類型處理的程序的處理步驟不一定非要按流程圖中所示的時間順序執(zhí)行處理,而是也包含以并行或獨立的方式執(zhí)行的處理(例如并行處理或面向?qū)ο蟮奶幚?。
而且,該程序可以由一臺計算機進行處理,或者可以由多臺計算機以分布的方式進行處理。另外,該程序還可以傳輸?shù)竭h程計算機,從而進行執(zhí)行。
雖然在本實施例中,沒有特別提到使用哪種學習語音信號作為學習語音信號,除由人類產(chǎn)生的語音之外,例如,可以采用樂曲(音樂)等作為學習語音信號。根據(jù)如上所述的學習裝置,當使用所再現(xiàn)的人類語音作為學習語音信號時,獲得改善人類語音聲音質(zhì)量的抽頭系數(shù)。當使用樂曲時,獲得改善樂曲聲音質(zhì)量的抽頭系數(shù)。
雖然抽頭系數(shù)預先存儲在移動電話101的系數(shù)存儲器124中,但是存儲在系數(shù)存儲器124中的抽頭系數(shù)可以從圖3的基站102(或交換站103)、WWW(World Wide Web,萬維網(wǎng))服務(wù)器(未示出)等進行下載。也就是,如上所述,可以通過學習獲得適合于特定種類語音信號(例如人類語音或樂曲)的抽頭系數(shù)。而且,根據(jù)用于學習的老師數(shù)據(jù)和學生數(shù)據(jù),可以獲得合成語音聲音質(zhì)量出現(xiàn)不同的抽頭系數(shù)。因此,各種抽頭系數(shù)可以存儲在基站102等中,從而使用戶可以下載用戶所需的抽頭系數(shù)。這種抽頭系數(shù)下載服務(wù)可以采用免費或收費方式。而且,當采用收費方式執(zhí)行抽頭系數(shù)下載服務(wù)時,例如,下載抽頭系數(shù)的費用可以與移動電話101的電話費一起進行收取。
而且,系數(shù)存儲器124等可以由相對于移動電話101可拆卸的可移動存儲卡等形成。在這種情況下,如果提供其中存儲有如上所述各種類型的抽頭系數(shù),用戶根據(jù)情況將存儲有所需抽頭系數(shù)的存儲卡插入到移動電話101中,并且進行使用成為可能。
另外,本發(fā)明可以廣泛地應用于例如從通過采用CELP方法例如VSELP(Vector Sum Excited Linear Predication,向量和激勵線性預測)、PSI-CELP(Pitch Synchronous Innovation CELP,基音同步創(chuàng)新CELP)、或者CS-CELP(Conjugate Structure Algebraic CELP,共軛結(jié)構(gòu)代數(shù)CELP)進行編碼而獲得的碼中產(chǎn)生合成語音的情況。
而且,本發(fā)明不限于從通過采用CELP方法進行編碼而獲得的碼中對合成語音進行解碼的情況,并且可以廣泛地應用于從具有用于在預定單元內(nèi)進行解碼的信息(解碼信息)的編碼數(shù)據(jù)中對原始數(shù)據(jù)進行解碼的情況。也就是,本發(fā)明還可以應用于例如通過具有預定塊單元的DCT(Discrete CosineTransform,離散余弦變換)系數(shù)的JPEG(Joint Photographic Experts Group,聯(lián)合圖象專家組)方法對圖象進行編碼的編碼數(shù)據(jù)。
而且,雖然在本實施例中通過使用抽頭系數(shù)的線性一階預測計算確定剩余信號的預測值和線性預測系數(shù),但是另外還可以通過二階或更高階的高階預測計算,確定這些預測值。
例如,在日本未審查專利申請公開號8-202399中,公開一種通過使合成語音通過高頻預加重濾波器來改善合成語音聲音質(zhì)量的方法。然而,本發(fā)明不同于日本未審查專利申請公開號8-202399之處在于,抽頭系數(shù)是通過學習獲得的,根據(jù)分類結(jié)果自適應地確定用于預測計算的抽頭系數(shù),而且,不僅從合成語音,而且從包含在編碼數(shù)據(jù)中的I碼等生成預測抽頭等。
工業(yè)應用根據(jù)本發(fā)明的數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、程序和記錄介質(zhì),在以對編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,從而生成用于預定過程的抽頭,并且通過使用抽頭,執(zhí)行預定過程。因此,例如,獲得高質(zhì)量解碼數(shù)據(jù)成為可能。
根據(jù)本發(fā)明的數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、程序和記錄介質(zhì),通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù)。而且,通過在作為學生數(shù)據(jù)的解碼數(shù)據(jù)內(nèi)提取與感興趣主數(shù)據(jù)具有預定位置關(guān)系的解碼數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在預定單元的位置提取預定單元內(nèi)的解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭。然后,執(zhí)行學習,從而通過執(zhí)行使用預測抽頭和抽頭系數(shù)的預定預測計算而獲得的老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且確定抽頭系數(shù)。因此,從編碼數(shù)據(jù)獲得用于解碼出高質(zhì)量解碼數(shù)據(jù)的抽頭系數(shù)成為可能。
權(quán)利要求
1.一種數(shù)據(jù)處理裝置,用于處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù),所述數(shù)據(jù)處理裝置包括抽頭生成裝置,用于通過在以對所述編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取預定單元內(nèi)的所述解碼信息,生成用于預定過程的抽頭;以及處理裝置,用于通過使用所述抽頭,執(zhí)行預定過程。
2.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,進一步包括抽頭系數(shù)獲取裝置,用于獲取通過執(zhí)行學習而確定的抽頭系數(shù),其中,所述抽頭生成裝置生成用于執(zhí)行使用所述抽頭系數(shù)的預定預測計算的預測抽頭,并且所述處理裝置通過執(zhí)行使用所述預測抽頭和所述抽頭系數(shù)的預定預測計算,確定在所述學習中充當老師的老師數(shù)據(jù)所對應的預測值。
3.如權(quán)利要求2所述的數(shù)據(jù)處理裝置,其中,所述處理裝置通過執(zhí)行使用所述預測抽頭和所述類抽頭的線性一階預測計算,確定所述預測值。
4.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其中,所述抽頭生成裝置生成用來執(zhí)行對所述主數(shù)據(jù)進行分類的分類操作的類抽頭,并且所述處理裝置根據(jù)所述類抽頭對所述主數(shù)據(jù)執(zhí)行分類。
5.如權(quán)利要求4所述的數(shù)據(jù)處理裝置,其中,所述處理裝置通過對預定單元內(nèi)形成所述類抽頭的所述解碼信息提供權(quán)值,執(zhí)行分類。
6.如權(quán)利要求5所述的數(shù)據(jù)處理裝置,其中,所述處理裝置通過根據(jù)所述主數(shù)據(jù)在所述預定單元中的位置對所述預定單元內(nèi)的所述解碼信息提供權(quán)值,執(zhí)行分類。
7.如權(quán)利要求5所述的數(shù)據(jù)處理裝置,其中,所述處理裝置通過以在預定單元內(nèi)的所述解碼信息上通過所述分類而獲得的所有類數(shù)目為固定的方式提供權(quán)值,執(zhí)行分類。
8.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其中,所述抽頭生成裝置生成用于使用通過執(zhí)行學習而確定的抽頭系數(shù)執(zhí)行預定預測計算的預測抽頭,并且生成用于對所述主數(shù)據(jù)進行分類的分類操作的類抽頭,并且所述處理裝置根據(jù)所述類抽頭對所述主數(shù)據(jù)執(zhí)行分類,并且通過使用通過分類而獲得的類對應的所述抽頭系數(shù)以及所述預測抽頭,執(zhí)行預定預測計算,從而確定在所述學習中充當老師的老師數(shù)據(jù)對應的預測值。
9.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其中,所述抽頭生成裝置提取位置臨近于所述主數(shù)據(jù)的所述解碼數(shù)據(jù)或者預定單元內(nèi)的所述解碼信息。
10.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其中,所述編碼數(shù)據(jù)是通過對語音進行編碼而產(chǎn)生的。
11.如權(quán)利要求10所述的數(shù)據(jù)處理裝置,其中,所述編碼數(shù)據(jù)是通過采用CELP(Code Excited Linear coding,碼激勵線性編碼)方法對語音進行編碼而產(chǎn)生的。
12.一種數(shù)據(jù)處理方法,用于處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù),所述數(shù)據(jù)處理方法包括抽頭生成步驟,通過在以對所述編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取預定單元內(nèi)的所述解碼信息,生成用于預定過程的抽頭;以及處理步驟,通過使用所述抽頭,執(zhí)行預定過程。
13.一種用于使計算機處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù)的程序,所述程序包括抽頭生成步驟,通過在以對所述編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取預定單元內(nèi)的所述解碼信息,生成用于預定過程的抽頭;以及處理步驟,通過使用所述抽頭,執(zhí)行預定過程。
14.一種其中記錄有一個程序的記錄介質(zhì),所述程序用于使計算機處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù),包括抽頭生成步驟,通過在以對所述編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取預定單元內(nèi)的所述解碼信息,生成用于預定過程的抽頭;以及處理步驟,通過使用所述抽頭,執(zhí)行預定過程。
15.一種學習預定抽頭系數(shù)的數(shù)據(jù)處理裝置,用來處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù),所述數(shù)據(jù)處理裝置包括學生數(shù)據(jù)生成裝置,用于通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)所述解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成裝置,用于通過在作為學生數(shù)據(jù)的所述解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取所述預定單元內(nèi)的所述解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習裝置,用于執(zhí)行學習,從而通過執(zhí)行使用所述預測抽頭和所述抽頭系數(shù)的預定預測計算而獲得的所述老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且用于確定所述抽頭系數(shù)。
16.如權(quán)利要求15所述的數(shù)據(jù)處理裝置,其中,所述學習裝置執(zhí)行學習,從而通過執(zhí)行使用所述預測抽頭和所述抽頭系數(shù)的線性一階預測計算而獲得的所述老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚 ?br>
17.如權(quán)利要求15所述的數(shù)據(jù)處理裝置,進一步包括類抽頭生成裝置,用于通過提取與所述主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取所述預定單元內(nèi)的所述解碼信息,生成用于對所述主數(shù)據(jù)進行分類的分類操作的類抽頭;以及分類裝置,用于根據(jù)所述類抽頭對所述主數(shù)據(jù)執(zhí)行分類,其中,所述學習裝置為通過所述分類裝置的分類而獲得的每個類確定所述抽頭系數(shù)。
18.如權(quán)利要求17所述的數(shù)據(jù)處理裝置,其中,所述分類裝置通過對所述預定單元內(nèi)形成所述類抽頭的解碼信息提供權(quán)值,執(zhí)行分類。
19.如權(quán)利要求18所述的數(shù)據(jù)處理裝置,其中,所述分類裝置通過根據(jù)所述主數(shù)據(jù)在預定單元中的位置對所述預定單元內(nèi)的所述解碼信息提供權(quán)值,執(zhí)行分類。
20.如權(quán)利要求18所述的數(shù)據(jù)處理裝置,其中,所述分類裝置通過以對于預定單元內(nèi)的所述解碼信息通過所述分類而獲得的所有類數(shù)目為固定的方式提供權(quán)值,執(zhí)行分類。
21.如權(quán)利要求17所述的數(shù)據(jù)處理裝置,其中,所述預測抽頭生成裝置或所述類抽頭生成裝置提取位置臨近于所述主數(shù)據(jù)的所述解碼數(shù)據(jù)或者預定單元內(nèi)的所述解碼信息。
22.如權(quán)利要求15所述的數(shù)據(jù)處理裝置,其中,所述老師數(shù)據(jù)為語音數(shù)據(jù)。
23.如權(quán)利要求22所述的數(shù)據(jù)處理裝置,其中,所述學生數(shù)據(jù)生成裝置采用CELP(碼激勵線性編碼)方法對作為所述老師數(shù)據(jù)的語音數(shù)據(jù)進行編碼。
24.一種學習預定抽頭系數(shù)的數(shù)據(jù)處理方法,用來處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù),所述數(shù)據(jù)處理方法包括學生數(shù)據(jù)生成步驟,通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)所述解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成步驟,通過在作為學生數(shù)據(jù)的所述解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取所述預定單元內(nèi)的所述解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習步驟,執(zhí)行學習,從而通過執(zhí)行使用所述預測抽頭和所述抽頭系數(shù)的預定預測計算而獲得的所述老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且確定所述抽頭系數(shù)。
25.一種學習預定抽頭系數(shù)的程序,用來處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù),所述程序包括學生數(shù)據(jù)生成步驟,通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)所述解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成步驟,通過在作為學生數(shù)據(jù)的所述解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取所述預定單元內(nèi)的所述解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習步驟,執(zhí)行學習,從而通過執(zhí)行使用所述預測抽頭和所述抽頭系數(shù)的預定預測計算而獲得的所述老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且確定所述抽頭系數(shù)。
26.一種其中記錄有用于學習預定抽頭系數(shù)的程序的記錄介質(zhì),用來處理具有用于在預定單元內(nèi)進行解碼的解碼信息的編碼數(shù)據(jù),所述程序包括學生數(shù)據(jù)生成步驟,通過將充當老師的老師數(shù)據(jù)編碼為具有預定單元內(nèi)所述解碼信息的編碼數(shù)據(jù),并且對編碼數(shù)據(jù)進行解碼,生成作為充當學生的學生數(shù)據(jù)的解碼數(shù)據(jù);預測抽頭生成步驟,通過在作為學生數(shù)據(jù)的所述解碼數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的所述解碼數(shù)據(jù),并且根據(jù)所述主數(shù)據(jù)在所述預定單元的位置提取所述預定單元內(nèi)的所述解碼信息,生成用于預測老師數(shù)據(jù)的預測抽頭;以及學習步驟,執(zhí)行學習,從而通過執(zhí)行使用所述預測抽頭和所述抽頭系數(shù)的預定預測計算而獲得的所述老師數(shù)據(jù)的預測值的預測誤差在統(tǒng)計上變?yōu)樽钚?,并且確定所述抽頭系數(shù)。
全文摘要
本發(fā)明涉及一種能夠獲得高質(zhì)量聲音數(shù)據(jù)的數(shù)據(jù)處理裝置。抽頭生成部分(121)通過在以采用CELP方法對編碼數(shù)據(jù)進行解碼的方式而產(chǎn)生的解碼語音數(shù)據(jù)內(nèi)提取與感興趣的主數(shù)據(jù)具有預定位置關(guān)系的解碼語音數(shù)據(jù),并且根據(jù)主數(shù)據(jù)在主子幀的位置提取子幀內(nèi)的I碼,生成用于預測部分(125)中的過程的預測抽頭。類似于抽頭生成部分(121),抽頭生成部分(122)生成用于分類部分(123)中的過程的類抽頭。分類部分(123)根據(jù)類抽頭執(zhí)行分類,并且系數(shù)存儲器(124)輸出分類結(jié)果對應的抽頭系數(shù)。預測部分(125)通過使用預測抽頭和抽頭系數(shù)執(zhí)行線性預測計算,并且輸出高質(zhì)量解碼語音數(shù)據(jù)。本發(fā)明可以應用于用于發(fā)射和接收語音的移動電話。
文檔編號G10L19/12GK1455918SQ02800171
公開日2003年11月12日 申請日期2002年1月24日 優(yōu)先權(quán)日2001年1月25日
發(fā)明者近藤哲二郎, 渡辺勉, 木村裕人 申請人:索尼公司