欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于編碼語音信號(hào)中連續(xù)基音周期的方法和裝置的制作方法

文檔序號(hào):2835595閱讀:227來源:國(guó)知局
專利名稱:用于編碼語音信號(hào)中連續(xù)基音周期的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明總體上涉及語音編碼領(lǐng)域,特別涉及連續(xù)基音周期的量化。
背景技術(shù)
基于人類語音處理機(jī)制,濁音語音的基音周期軌跡在時(shí)間上進(jìn)展緩慢。通過對(duì)連續(xù)基音周期之間的差值進(jìn)行編碼而將這個(gè)現(xiàn)象應(yīng)用在許多當(dāng)前的語音編碼器中,從而提高了編碼效率。在一種基于子幀工作的典型的編碼器中,比如碼激勵(lì)線性預(yù)測(cè)(CELP)編碼器中,每幀至少發(fā)射一次絕對(duì)基音周期。
連續(xù)基音周期之間的差值一般稱為一個(gè)增量周期。在現(xiàn)有技術(shù)中,增量周期可以從有限的范圍內(nèi)獲得均勻分布值,為它們的編碼提供便利。這能被解釋為一個(gè)由定義了幀上的增量周期的點(diǎn)均勻排列得到的多維矩形點(diǎn)陣。相應(yīng)地,通過使用均勻量化器來完成對(duì)增量周期的編碼。更確切地說,用相似的量化器獨(dú)立地對(duì)幾個(gè)連續(xù)的增量周期進(jìn)行編碼。使用這種方法的編碼器也被認(rèn)為是一種多維矩形點(diǎn)陣量化器。在一個(gè)多維點(diǎn)陣量化器中,每一維代表相應(yīng)子幀中的一個(gè)基音周期。通常,點(diǎn)陣的第一維表示第一子幀中的絕對(duì)基音周期,而其余維中的每一個(gè)代表當(dāng)前和在前子幀的基音周期之間的差值。因此,在一個(gè)語音編碼方案中,為了進(jìn)行語音處理,將語音幀分成四個(gè)子幀,將連續(xù)基音周期量化中所用的編碼器稱為四維點(diǎn)陣量化器,第一維中的絕對(duì)基音周期和在其余三維中的增量周期用四維基音空間中的點(diǎn)(p,d1,d2,d3)表示。在本發(fā)明中,對(duì)包含僅適于增量周期(d1,d2,d3,......dn)的維的點(diǎn)陣結(jié)構(gòu)要給予特別的注意。
在大多數(shù)利用差分編碼的現(xiàn)有技術(shù)語音編碼器中,將n個(gè)增量周期的點(diǎn)陣結(jié)構(gòu)記述為在n維基音空間中規(guī)則排列的一組陣點(diǎn),從而使這些點(diǎn)在整個(gè)基音空間均勻地間隔開。除了在基音空間中這些點(diǎn)的均勻間隔,現(xiàn)有技術(shù)語音編碼器的關(guān)鍵特征是點(diǎn)陣的陣點(diǎn)在二維平面上投影的矩形形狀。點(diǎn)陣的結(jié)構(gòu)通常是恒定的,而不必考慮前面的段中的基音周期。一種典型的增量周期的二維點(diǎn)陣的實(shí)例在附

圖1中示出,其中點(diǎn)陣L通過下式定義L={(d1,d2)|d1min≤d1≤d1max∧d2min≤d2≤d2max}(1)點(diǎn)陣包含了d1和d2在各自的最小和最大值之間的所有可能的組合。雖然在圖1中示出的點(diǎn)陣是二維的,但是根據(jù)二維情況能夠很容易地派生更高維的點(diǎn)陣。一般而言,第j維的最小和最大可能增量周期分別由djmin和djmax表示。
一旦定義了點(diǎn)陣量化器的形狀和區(qū)域,一個(gè)重要的參數(shù)就是點(diǎn)陣的密度,這是由于密度決定編碼器的比特率。比特率是密度的單調(diào)遞增函數(shù)。因此,點(diǎn)陣量化器的密度反映用于基音周期信息的精確度。通常地,使用分?jǐn)?shù)值代替整數(shù)以提高合成語音的質(zhì)量。
在一種典型的用于增量周期的點(diǎn)陣量化器中,當(dāng)點(diǎn)陣的矩形形狀保持恒定時(shí),通常注意點(diǎn)陣的邊界值(djmin,djmax)。而不注意選擇一組合適的點(diǎn)陣點(diǎn)以覆蓋包含最大源概率的基音空間區(qū)域。
眾所周知在語音信號(hào)中,基音是個(gè)有意義的參數(shù),由于人類語音處理機(jī)制的性質(zhì),基音的發(fā)展很順利。大體上,濁音語音的基音周期軌跡在時(shí)間上進(jìn)展緩慢,并且軌跡的突然改變是非常不可能發(fā)生的。已經(jīng)發(fā)現(xiàn)矩形點(diǎn)陣結(jié)構(gòu)遠(yuǎn)不是最理想的關(guān)于覆蓋基音空間區(qū)域的點(diǎn)陣點(diǎn)的選擇。此外,在現(xiàn)有技術(shù)中,每一維中差分基音值的搜索是獨(dú)立地進(jìn)行的。矩形點(diǎn)陣和搜索方法的使用還沒有被優(yōu)化以反映出人類語音的已知特性。
利用基音空間的源概率以改進(jìn)合成語音的質(zhì)量,從而為語音編碼器中連續(xù)基音周期的量化提供一種改進(jìn)的方法和系統(tǒng)是有利并且十分需要的。
發(fā)明概述本發(fā)明的主要目的是提高對(duì)連續(xù)基音周期編碼的效率,從而改進(jìn)利用差分編碼對(duì)連續(xù)基音周期之間的差值進(jìn)行編碼的語音編碼器中的合成語音的質(zhì)量?;诂F(xiàn)有技術(shù)中的濁音語音中連續(xù)增量周期的特性,可以通過定義一個(gè)優(yōu)化的或者更有效率的點(diǎn)陣結(jié)構(gòu)來達(dá)到這個(gè)目的,其點(diǎn)陣結(jié)構(gòu)定形為覆蓋了有最大概率的點(diǎn)位于其內(nèi)的基音空間區(qū)域。此外,能夠?qū)⒕哂斜硎净糁芷诘牟煌瑫r(shí)間分辨率的不同點(diǎn)密度的區(qū)域,定義在優(yōu)化的點(diǎn)陣結(jié)構(gòu)之中。利用這樣一種優(yōu)化的點(diǎn)陣結(jié)構(gòu),就可以提供一種為優(yōu)化的點(diǎn)陣結(jié)構(gòu)中的陣點(diǎn)分配索引以及在密碼本中搜索索引的新方法。
因此,根據(jù)本發(fā)明的第一個(gè)方面,一種對(duì)多個(gè)信號(hào)幀中的聲音信號(hào)編碼的方法,多個(gè)信號(hào)幀中的每一個(gè)具有一個(gè)表示各個(gè)信號(hào)幀中聲音信號(hào)的基音周期,其中每個(gè)信號(hào)幀包括多個(gè)信號(hào)段,每個(gè)信號(hào)段代表在基音空間中的一維,并且每個(gè)信號(hào)段中的聲音信號(hào)的特征在于具有一個(gè)基音值,其中基音值能通過點(diǎn)陣結(jié)構(gòu)中聲音信號(hào)的陣點(diǎn)分布圖形特性表示,從而定義了基音空間中密碼本索引,所述的方法的特征在于根據(jù)陣點(diǎn)分布圖形定形點(diǎn)陣結(jié)構(gòu),以及對(duì)應(yīng)于定形的點(diǎn)陣結(jié)構(gòu),提供表示基音空間的每一維中基音值的密碼本索引,以便促進(jìn)聲音信號(hào)的編碼。
根據(jù)本發(fā)明的第一個(gè)方面,該方法的特征還在于考慮到基音空間的全部維,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)的開環(huán)搜索獲得基音周期的開環(huán)估計(jì),以及通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)中的閉環(huán)搜索,分別對(duì)基音空間中每一維的開環(huán)估計(jì)進(jìn)行精確化(refine),以獲得表示各個(gè)信號(hào)段中基音值的閉環(huán)搜索值。
根據(jù)本發(fā)明,基音值表示差分基音周期或者絕對(duì)基音周期。
根據(jù)本發(fā)明,在至少一個(gè)信號(hào)段中的基音值表示絕對(duì)基音周期,并且在其余的每個(gè)信號(hào)段中的基音值表示差分基音周期。
相應(yīng)地,當(dāng)信號(hào)段順序地包括一個(gè)第一信號(hào)段和三個(gè)第二信號(hào)段時(shí),第一信號(hào)段中的基音值表示一個(gè)絕對(duì)基音周期,并且在每個(gè)第二信號(hào)段中的基音值表示一個(gè)差分基音周期。
可以作為選擇地,每個(gè)信號(hào)幀包括四個(gè)信號(hào)段,并且四個(gè)信號(hào)段中每一個(gè)的基音值表示一個(gè)差分基音周期。
根據(jù)本發(fā)明,信號(hào)段可以設(shè)置在連續(xù)的子幀中。這樣,第一子幀中的基音值可以是絕對(duì)基音周期或者是差分基音周期,并且在其余的每個(gè)子幀中的基音值是差分基音周期。
優(yōu)選地,點(diǎn)陣結(jié)構(gòu)中的每個(gè)陣點(diǎn)表示到基音空間中參考點(diǎn)的距離,并且將點(diǎn)陣結(jié)構(gòu)定形以消除超出預(yù)定距離的點(diǎn)。
特別的,本發(fā)明的定形的點(diǎn)陣結(jié)構(gòu)由不重疊的超立方體結(jié)合組成,定形點(diǎn)陣結(jié)構(gòu)由增量周期范圍和基音空間每一維中的時(shí)間分辨率定義,并且其中每個(gè)超立方體能夠由包括許多陣點(diǎn)的多個(gè)邊表示。根據(jù)本發(fā)明,優(yōu)化的點(diǎn)陣的索引表示超立方體邊上的點(diǎn)陣點(diǎn)數(shù)量。
值得注意的是由編碼裝置提供并傳送到譯碼裝置的密碼本索引具有指示定形的點(diǎn)陣的信息,并且其中解碼裝置基于定形點(diǎn)陣從密碼本索引中合成語音信號(hào)。
根據(jù)本發(fā)明的第二個(gè)方面,對(duì)多個(gè)信號(hào)幀中的聲音信號(hào)進(jìn)行編碼的裝置,每一信號(hào)幀具有表示各自信號(hào)幀中聲音信號(hào)的基音周期,其中每個(gè)信號(hào)幀包括多個(gè)信號(hào)段,每個(gè)信號(hào)段表示基音空間中的一維,并且每個(gè)信號(hào)段中的聲音信號(hào)的特征在于具有一個(gè)基音值,其中基音值可通過點(diǎn)陣結(jié)構(gòu)中聲音信號(hào)的陣點(diǎn)分布圖形特性表示,用于定義基音空間中的密碼本索引,點(diǎn)陣結(jié)構(gòu)根據(jù)陣點(diǎn)分布圖形而定形,用于定義一個(gè)定形點(diǎn)陣結(jié)構(gòu),所述裝置的特征在于裝置,該裝置響應(yīng)于聲音信號(hào),考慮基音空間的全部維,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)的開環(huán)搜索以獲得基音周期的開環(huán)估計(jì),用于提供表示開環(huán)估計(jì)的開環(huán)搜索值,以及裝置,響應(yīng)于開環(huán)搜索值,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)的閉環(huán)搜索分別對(duì)基音空間中每一維的開環(huán)估計(jì)進(jìn)行精確化,以獲得表示各個(gè)信號(hào)段中基音值的閉環(huán)搜索值。
根據(jù)本發(fā)明的第三個(gè)方面,對(duì)多個(gè)信號(hào)幀中的聲音信號(hào)進(jìn)行編碼的系統(tǒng),每一信號(hào)幀具有表示各自信號(hào)幀中的聲音信號(hào)的基音周期,其中每個(gè)信號(hào)幀包括多個(gè)信號(hào)段,每個(gè)信號(hào)段表示基音空間中的一維,并且每個(gè)信號(hào)段中的聲音信號(hào)的特征在于具有一個(gè)基音值,其中基音值可通過點(diǎn)陣結(jié)構(gòu)中聲音信號(hào)的陣點(diǎn)分布圖形特性表示,從而定義了基音空間中密碼本索引,點(diǎn)陣結(jié)構(gòu)根據(jù)陣點(diǎn)分布圖形而定形從而定義了一個(gè)定形點(diǎn)陣結(jié)構(gòu),所述系統(tǒng)的特征在于一編碼器,具有裝置,響應(yīng)于聲音信號(hào),考慮到基音空間的全部維,通過對(duì)定形的點(diǎn)陣的開環(huán)搜索從而獲得基音周期的開環(huán)估計(jì),以提供表示開環(huán)估計(jì)的開環(huán)搜索值,以及裝置,響應(yīng)于開環(huán)搜索值,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)中的閉環(huán)搜索,分別對(duì)基音空間中每一維的開環(huán)估計(jì)進(jìn)行精確化,以獲得表示各個(gè)信號(hào)段中基音值的閉環(huán)搜索值,從而提供指示定形的點(diǎn)陣結(jié)構(gòu)的信息以及密碼本索引,以及解碼器,具有響應(yīng)于該信息根據(jù)定形的點(diǎn)陣結(jié)構(gòu)從密碼本索引中合成進(jìn)一步的聲音信號(hào)的裝置。
通過對(duì)結(jié)合附圖2到6的描述的閱讀,本發(fā)明將會(huì)變得更加清楚。
附圖的簡(jiǎn)要說明圖1是矩形點(diǎn)陣的圖形表示。
圖2是定形的點(diǎn)陣結(jié)構(gòu)的圖形表示。
圖3a是一個(gè)超立方體在一個(gè)二維平面上投影的圖形表示。
圖3b是該超立方體在另一個(gè)二維平面上投射的圖形表示。
圖4a是在一個(gè)二維平面內(nèi)的點(diǎn)密度分布的柱狀圖。
圖4b是在另一個(gè)二維平面內(nèi)的點(diǎn)密度分布的柱狀圖。
圖5是根據(jù)本發(fā)明的編碼器的圖形表示。
圖6是根據(jù)本發(fā)明對(duì)語音信號(hào)編碼的方法的流程圖。
實(shí)施本發(fā)明的最好的方式根據(jù)本發(fā)明,建立一個(gè)定形的點(diǎn)陣結(jié)構(gòu)的原理在圖2中示出。通常,基音空間中的陣點(diǎn)不是均勻分布的。相反地,分布是由具有表示基音周期不同時(shí)間分辨率的不同點(diǎn)密度的多個(gè)區(qū)域定義的。如圖2所示,具有不同點(diǎn)密度的兩個(gè)子點(diǎn)陣,用S1和S2表示,存在于基音空間中。這兩個(gè)子點(diǎn)陣的并集S,或者S1∪S2,表示優(yōu)化的點(diǎn)陣結(jié)構(gòu)S,定義了定形的點(diǎn)陣結(jié)構(gòu)。
如早先提到的,眾所周知,濁音語音的基音周期軌跡在時(shí)間上進(jìn)展緩慢,軌跡上突然的變化是很不可能發(fā)生的。因此,在一個(gè)相同的語音幀之內(nèi),很不可能有兩個(gè)很大的增量周期。比如圖1和2中示出的,角點(diǎn)(d1min,d2min),(d1max,d2min),(d1min,d2max)和(d1max,d2max)以及點(diǎn)陣L中鄰近的點(diǎn)表示d1中的增量周期和d2中的增量周期都很大的情況。由于這種情況在濁音語音中不太可能發(fā)生,因此不太可能將這些點(diǎn)用在密碼索引搜索中。相應(yīng)地,如圖2所示,能夠?qū)⑦@些點(diǎn)從定形點(diǎn)陣S中去掉,而不會(huì)對(duì)產(chǎn)生的語音質(zhì)量產(chǎn)生顯著的影響。如圖2所示,當(dāng)基音周期平穩(wěn)進(jìn)展而沒有顯著提高比特率時(shí),子點(diǎn)陣S1中更高的點(diǎn)密度允許利用更高的基音分辨率。
由于利用基音周期差分編碼的大多數(shù)現(xiàn)存編碼器的閉環(huán)結(jié)構(gòu),點(diǎn)陣中的索引搜索是基于子幀完成的。因此,在時(shí)間上沿著點(diǎn)陣的一個(gè)坐標(biāo)軸連續(xù)地進(jìn)行搜索。通常,這是通過首先為包含絕對(duì)基音周期和之后的增量周期的子幀確定一個(gè)單一開環(huán)基音周期估計(jì)完成的。典型地,將整數(shù)值用在開環(huán)搜索中以減少復(fù)雜性。其后,對(duì)每一維連續(xù)地以閉環(huán)方式完成索引搜索。對(duì)于第一子幀,這是在所選的開環(huán)基音周期附近完成的。對(duì)于其他子幀,搜索區(qū)域包括在前選擇的基音周期的相鄰區(qū)域。
根據(jù)本發(fā)明,采用優(yōu)化的點(diǎn)陣,這種方法不可行是由于每一維中可能的陣點(diǎn)組通常實(shí)質(zhì)上依賴于在以前的維中所選的陣點(diǎn)。
根據(jù)本發(fā)明所優(yōu)選的方法,定形的點(diǎn)陣中的所估計(jì)的開環(huán)陣點(diǎn)是在多維空間中決定的。包括第一維的每一維中最優(yōu)的索引是之后在估計(jì)的開環(huán)陣點(diǎn)的鄰近區(qū)域中以閉環(huán)方式?jīng)Q定的,每次決定一個(gè)維。如圖2所示的p點(diǎn)表示估計(jì)的開環(huán)陣點(diǎn),最優(yōu)的索引是從陰影區(qū)域C中搜索出來的。閉環(huán)搜索對(duì)屬于定形的點(diǎn)陣S和以開環(huán)基音估計(jì)p為中心的搜索區(qū)域C交集的點(diǎn)進(jìn)行檢查。閉環(huán)搜索確定的索引唯一地定義了點(diǎn)陣覆蓋的子幀上的基音周期。在圖2中,定形的點(diǎn)陣S是點(diǎn)陣L的子集。一般而言,這不是必要的情形。
為了說明目的,定形的點(diǎn)陣結(jié)構(gòu)定形為不重疊的超立方體Di的并集,每個(gè)超立方體由增量周期范圍和相應(yīng)維中所用的時(shí)間分辨率確定。每個(gè)超立方體Di是超立方體矩陣D的一行。在四維基音空間中,如果一個(gè)語音幀分為四個(gè)子幀并且每個(gè)子幀由一維表示,那么矩陣D的第i行定義了一個(gè)唯一的四維超立方體,如下D(i,)=[piminpimaxri0di1mindi1maxri1di2mindi2maxri2di3mindi3maxri3](2)其中pimin,pimax和ri0定義了基音周期范圍和第一子幀的分辨率。最后三個(gè)子幀中增量周期的范圍由dijmin和dijmax定義,其中j是子幀索引。每個(gè)子幀中相應(yīng)的分辨率由rij表示。
采用上面描述的點(diǎn)陣結(jié)構(gòu),編碼的過程十分簡(jiǎn)單。為了對(duì)定形的點(diǎn)陣中的某點(diǎn)的索引進(jìn)行編碼,獲得一個(gè)起始索引和每個(gè)超立方體每一單一邊中陣點(diǎn)的數(shù)目。編碼過程從找到超立方體的索引開始,已找到的基音周期組合(p,d1,d2,d3)屬于該超立方體。包含點(diǎn)(p,d1,d2,d3)的超立方體Di定義為Di={(p,d1,d2,d3)|pimin≤p≤pimax∧djimin≤dj≤dijmax,j=1,2,3}(3)圖3a圖示了投影在二維平面d1,d2上的四個(gè)超立方體D0,D1,D2,D3。圖3b圖示了相同的超立方體投影在二維平面d2,d3上的情況。應(yīng)該注意的是,通常,一個(gè)超立方體的陣點(diǎn)密度可以與另一個(gè)的陣點(diǎn)密度不同。為了簡(jiǎn)化,如圖3a和3b中示出的圓圈是均勻分布的。在圖3a和3b中,不同的超立方體示為封閉的矩形,它們中的每個(gè)可以由其唯一的邊確定。比如,超立方體D2由邊a2,b2和c2確定。
根據(jù)本發(fā)明,優(yōu)化或定形的點(diǎn)陣已經(jīng)結(jié)合附圖2到3b進(jìn)行了描述。根據(jù)本發(fā)明,采用優(yōu)化的點(diǎn)陣結(jié)構(gòu),可以定義如以下所描述的用于語音合成的一組將傳送到解碼器的索引。能夠通過首先定義超立方體Di內(nèi)每維的坐標(biāo),為超立方體中陣點(diǎn)的索引賦值。第(j+1)個(gè)子幀的坐標(biāo)pj由以下公式給出p0=(p-pimin)ri0(4)pj=(dj-djimin)rij,其中j=1,2,3 (5)因此,在定形的點(diǎn)陣中的陣點(diǎn)(p,d1,d2,d3)的索引s能夠根據(jù)下式賦值s=sDi+p0+p1ni0+p2ni1ni0+p3ni2ni1ni0(6)其中sDi是超立方體Di的偏移(of fset)。在第(j+1)維中Di的各邊中的陣點(diǎn)的數(shù)目用nij表示。在以適當(dāng)方式描述了點(diǎn)陣之后,下一個(gè)問題就是為其找到恰當(dāng)?shù)倪吔缰怠?br> 需要理解的是,如上所述的定形的點(diǎn)陣結(jié)構(gòu)僅僅是為了說明的目的。定形的點(diǎn)陣結(jié)構(gòu)不局限于那些由超立方體組成的結(jié)構(gòu)。通常,點(diǎn)陣結(jié)構(gòu)通過選擇表示多維基音空間中的語音幀和子幀中語音信號(hào)的陣點(diǎn)分布圖形特性的子點(diǎn)陣而定形。
已經(jīng)在修正過的IS-641語音編碼器中實(shí)現(xiàn)了根據(jù)本發(fā)明的編碼方法。在修正過的IS-641編碼器中,以通常方法對(duì)第一維編碼,以至在第一子幀中發(fā)送一個(gè)絕對(duì)基音周期。然而,使用包括四個(gè)超立方體的定形的點(diǎn)陣結(jié)構(gòu)對(duì)其余三維編碼。值得注意的是,在常規(guī)IS-641編碼器中,只為子幀2和4發(fā)送兩個(gè)增量周期。在修正了的IS-641編碼器中,取而代之發(fā)送三個(gè)增量周期?;谝粋€(gè)使用由許多談話者講述的美語-英語語音的39434幀的試驗(yàn),使用修正過的IS-641語音編碼器從語音段中獲得的增量周期分布如圖4a和4b所示。為了簡(jiǎn)化,增量周期的范圍限制在±6樣本。第(i+1)子幀和第i子幀的基音周期之差值由di表示。對(duì)圖4a和4b中的增量周期四舍五入得到整數(shù)值,盡管在模擬中使用了1/3的分辨率。在d1,d2平面中的以及在d2,d3平面中的陣點(diǎn)密度分布分別在圖4a和4b中示出。如圖4a和4b所示,兩個(gè)大的增量值的組合很罕見。也就是說,當(dāng)d1很大時(shí),d2和d3就很小。但是當(dāng)d2或者d3很大時(shí),d1就很小。因此,子幀中增量周期之間存在相關(guān)性。在現(xiàn)有技術(shù)的編碼器中,每一維都相互獨(dú)立看待,而忽視子幀中增量周期之間的相關(guān)性。根據(jù)本發(fā)明,在修正了的IS-641中,開環(huán)基音值是幀的平均基音。在使用整數(shù)分辨率的每一維中共同地估計(jì)開環(huán)基音值。在每一維中順序地使用閉環(huán)搜索來使該開環(huán)估計(jì)精確化。比如,在估計(jì)的開環(huán)基音值周圍搜索第一子幀的閉環(huán)值。在第一子幀的四舍五入的、優(yōu)化的閉環(huán)基音周圍選擇第二子幀的閉環(huán)值等等。第一子幀的可能整數(shù)值范圍從20-147,如圖4a和4b所示,所使用的點(diǎn)陣結(jié)構(gòu)關(guān)于軸d1,d2和d3對(duì)稱。因此,關(guān)于增量周期的三維點(diǎn)陣能夠清楚地由D0在軸d1和d2上的投影的一個(gè)角點(diǎn)確定。在試驗(yàn)中,三個(gè)不同的優(yōu)化的點(diǎn)陣(定形點(diǎn)陣SA,定形點(diǎn)陣SB和定形點(diǎn)陣SC)分別由作為偏移量sDi使用的角點(diǎn) 和 實(shí)現(xiàn)。作為參考,使用了兩個(gè)具有最大增量周期 和 的立方量化器(點(diǎn)陣L1,點(diǎn)陣L2)。這些范圍是根據(jù)出現(xiàn)在圖4a和4b中的分布選出的。模擬結(jié)果在表1中示出。結(jié)果表示為輸入語音和合成語音的濁音段之間的段信噪比(SegSNR),以及每一幀中對(duì)增量周期的編碼所需要的比特?cái)?shù)。使用一個(gè)段長(zhǎng)度為64的樣本,并且在SegSNR的計(jì)算中去除了無聲段。所有模擬中使用的語音樣本包括由兩個(gè)男性和兩個(gè)女性講話者在安靜(clean)條件下講述的四個(gè)句子。樣本的總長(zhǎng)度是782幀。如從表1中可以看出的,根據(jù)本發(fā)明,通過使用優(yōu)化的點(diǎn)陣結(jié)構(gòu)能夠提高連續(xù)基音周期的編碼效率。
表1
根據(jù)本發(fā)明,語音編碼器1如圖5所示。它是基于公知為合成分析(AbS)的編碼技術(shù),采用了線性預(yù)測(cè)編碼(LPC)技術(shù)。典型的是,使用了一種時(shí)變基音預(yù)測(cè)器和LPC濾波器的級(jí)連。如圖5所示,LPC分析單元10被用來根據(jù)輸入語音信號(hào)決定LPC濾波器的系數(shù)102。通常地,語音信號(hào)在預(yù)處理步驟中經(jīng)過高通濾波。經(jīng)過預(yù)處理的語音信號(hào)繼而窗口化(windowed),并且計(jì)算窗口化語音的自相關(guān)。比如使用Levinson-Durbin算法確定LPC濾波器系數(shù)102。在大多數(shù)編碼器中,不是在每個(gè)子幀中都確定系數(shù)。這種情況下,能夠?yàn)橹虚g的子幀插入系數(shù)。預(yù)處理步驟和LPC分析步驟在本領(lǐng)域中是公知的。輸入語音進(jìn)而通過反向?yàn)V波器A(q,s)12濾波以產(chǎn)生一個(gè)剩余信號(hào)104。剩余信號(hào)104有時(shí)稱為理想激勵(lì)。根據(jù)從先前關(guān)于連續(xù)基音值的分布的知識(shí)確定的定形點(diǎn)陣,使用開環(huán)搜索單元14為整個(gè)幀決定開環(huán)延遲估計(jì)矢量106。通常,矢量106的長(zhǎng)度和子幀的數(shù)量相同,具有對(duì)應(yīng)于單個(gè)子幀的延遲估計(jì)的成分。使用語音信號(hào)代替LPC剩余信號(hào)104搜索估計(jì)矢量106也是可能的。由于全部子幀組成了多維基音空間的維,所以對(duì)于估計(jì)矢量106的搜索要考慮到所有這些維。開環(huán)估計(jì)106為基音空間中的每一維提供開環(huán)延遲值?;诙ㄐ吸c(diǎn)陣,搜索區(qū)域定義單元16用來為基音空間的每一維中的閉環(huán)延遲矢量定義閉環(huán)搜索區(qū)域108。比如,如圖2中所示的,單元16對(duì)屬于定形點(diǎn)陣S和以開環(huán)基音估計(jì)p為中心的搜索區(qū)域C的交集的點(diǎn)進(jìn)行檢查。根據(jù)輸入語音信號(hào),考慮LPC濾波器10的初始狀態(tài)的影響,在計(jì)算單元18中通過從輸入語音信號(hào)中減去LPC濾波器10的零輸入響應(yīng)計(jì)算出為了閉環(huán)延遲搜索的目標(biāo)信號(hào)110。閉環(huán)搜索單元20用來精確化開環(huán)估計(jì)106,每次精確化一個(gè)維,基于使用該維中的定形點(diǎn)陣中的陣點(diǎn)的相應(yīng)開環(huán)延遲值,從而獲得密碼本索引。信號(hào)112中包含密碼本索引。特別是,閉環(huán)搜索單元20通過使為閉環(huán)延遲搜索的目標(biāo)信號(hào)110和由LPC系數(shù)102和LPC激勵(lì)信號(hào)表示的合成語音信號(hào)之間的平方和(sum-squared)誤差最小化來搜索閉環(huán)延遲和增益。在所定義的搜索區(qū)域108內(nèi),在相應(yīng)開環(huán)延遲值周圍搜索每個(gè)子幀中的閉環(huán)延遲。由于延遲值小于子幀長(zhǎng)度,所以必須將LTP(長(zhǎng)期預(yù)測(cè)器)存儲(chǔ)器擴(kuò)展。這可以通過使用剩余信號(hào)104,或通過復(fù)制舊的LTP激勵(lì)而實(shí)現(xiàn)。LTP存儲(chǔ)器的擴(kuò)展是現(xiàn)有技術(shù)中已知的。在新方案密碼本搜索單元22中,通過從閉環(huán)延遲搜索的目標(biāo)信號(hào)112中減去LTP濾波器的影響110,計(jì)算出用于激勵(lì)搜索的目標(biāo)信號(hào)114。激勵(lì)信號(hào)和它的增益共同由參考數(shù)字116表示,通過將為激勵(lì)搜索的目標(biāo)信號(hào)114和由LPC系數(shù)102和激勵(lì)信號(hào)表示的合成語音信號(hào)之間的平方和誤差最小化,在計(jì)算單元24中搜索激勵(lì)信號(hào)和它的增益。通常,使用一些探試性的規(guī)則以避免對(duì)所有可能備選的激勵(lì)信號(hào)進(jìn)行窮舉的搜索。最后,在更新單元26中更新編碼器1中的濾波器狀態(tài),以使它們與解碼器中的濾波器狀態(tài)保持一致。密碼本搜索單元22、計(jì)算單元24和更新單元26在現(xiàn)有技術(shù)中均是已知的。以上描述的編碼器1可應(yīng)用于典型的AbS或CELP編碼器,比如IS-641。
必須注意的是,當(dāng)解碼器接收來自編碼器的語音參數(shù)時(shí),通過基于對(duì)解碼器已知的相同定形的點(diǎn)陣所接收到的索引和增益,確定LTP激勵(lì)信號(hào)。
圖6是一個(gè)流程圖,圖示了依照本發(fā)明的語音信號(hào)編碼的方法。如圖6中所示,當(dāng)編碼器在步驟210中接收到語音信號(hào)時(shí),如現(xiàn)有技術(shù)中已知的,在語音幀和子幀中處理語音信號(hào)。在步驟220中,為了獲得語音幀中基音周期的開環(huán)估計(jì),考慮基音空間中的所有維,實(shí)施開環(huán)搜索。在步驟230中,分別對(duì)每個(gè)維實(shí)施閉環(huán)搜索,以精確化開環(huán)估計(jì),從而獲得基音值。基于對(duì)每一維的閉環(huán)搜索中所獲得的基音值,在步驟240獲得密碼本索引。如步驟250所表示的,對(duì)每一維的閉環(huán)搜索一直持續(xù)到獲得了語音幀中所有子幀的密碼本索引為止。值得注意的是,基音空間的第一維(每個(gè)語音幀的第一子幀)中的基音值能表示絕對(duì)基音周期或不同基音周期(增量周期)。然而,其余每個(gè)維的基音值表示各個(gè)子幀中的不同基音周期。
應(yīng)該了解,結(jié)合語音信號(hào)的編碼描述了本發(fā)明。然而,本發(fā)明也可以應(yīng)用于非語音信號(hào),比如音樂。
此外,雖然優(yōu)選把語音幀分為多個(gè)子幀并在每個(gè)子幀中搜索閉環(huán)基音值,但搜索語音幀不同段的閉環(huán)基音值也是可能的。通常,可以在每個(gè)語音幀向解碼器發(fā)送許多次不同的參數(shù)。
因此,盡管本發(fā)明已經(jīng)通過其中優(yōu)選的實(shí)施方案進(jìn)行了描述,但本領(lǐng)域的技術(shù)人員將會(huì)理解在形式和細(xì)節(jié)上的前述的以及其他不同的改變、省略和偏差都可以在不背離本發(fā)明的精神和范圍的情況下獲得。
權(quán)利要求
1.一種對(duì)多個(gè)信號(hào)幀中的聲音信號(hào)進(jìn)行編碼的方法,每個(gè)信號(hào)幀具有表示各個(gè)信號(hào)幀中的聲音信號(hào)的基音周期,其中每個(gè)信號(hào)幀包括多個(gè)信號(hào)段,每個(gè)信號(hào)段代表基音空間中的一維,并且每個(gè)信號(hào)段中的聲音信號(hào)由基音值表征,其中基音值能通過點(diǎn)陣結(jié)構(gòu)中聲音信號(hào)的陣點(diǎn)分布圖形特性表示,從而定義基音空間中的密碼本索引,所述的方法的特征在于根據(jù)陣點(diǎn)分布圖形來定形點(diǎn)陣結(jié)構(gòu),以及根據(jù)定形的點(diǎn)陣結(jié)構(gòu),提供表示基音空間的每一維中的基音值的密碼本索引,以助于聲音信號(hào)編碼。
2.根據(jù)權(quán)利要求1的方法,特征還在于考慮到基音空間的全部維,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)的開環(huán)搜索獲得基音周期的開環(huán)估計(jì),以及通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)中的閉環(huán)搜索,分別對(duì)基音空間中每一維的開環(huán)估計(jì)進(jìn)行精確化,以獲得表示各個(gè)信號(hào)段中基音值的閉環(huán)搜索值。
3.根據(jù)權(quán)利要求2的方法,特征在于基音值表示差分基音周期。
4.根據(jù)權(quán)利要求2的方法,特征在于在至少一個(gè)信號(hào)段中的基音值表示絕對(duì)基音周期,并且在其余的每個(gè)信號(hào)段中的基音值表示差分基音周期。
5.根據(jù)權(quán)利要求2的方法,特征在于連續(xù)信號(hào)段順序地包括第一信號(hào)段和三個(gè)第二信號(hào)段,其中第一信號(hào)段中的基音值表示絕對(duì)基音周期,并且在每個(gè)第二信號(hào)段中的基音值表示差分基音周期。
6.根據(jù)權(quán)利要求2的方法,特征在于將信號(hào)段設(shè)置在子幀中。
7.根據(jù)權(quán)利要求6的方法,特征在于每個(gè)信號(hào)幀包括四個(gè)子幀,并且其中四個(gè)子幀的每一個(gè)中的基音值表示差分基音周期。
8.根據(jù)權(quán)利要求6的方法,特征在于子幀順序地包括第一子幀和三個(gè)第二子幀,其中第一子幀中的基音值是絕對(duì)基音周期,每個(gè)第二子幀中的基音值是差分基音周期。
9.根據(jù)權(quán)利要求1的方法,特征在于陣點(diǎn)密度圖形包括定形的點(diǎn)陣結(jié)構(gòu)中的多個(gè)區(qū)域,并且每個(gè)區(qū)域可由超立方體表示,每個(gè)超立方體具有多條包括定形的點(diǎn)陣結(jié)構(gòu)的一個(gè)或多個(gè)陣點(diǎn)的邊,并且其中密碼本索引表示超立方體的邊上的陣點(diǎn)的數(shù)目。
10.根據(jù)權(quán)利要求1的方法,特征在于由編碼裝置提供給譯碼裝置的密碼本索引具有表示定形的點(diǎn)陣結(jié)構(gòu)的信息,從而允許解碼裝置根據(jù)定形的點(diǎn)陣結(jié)構(gòu)從密碼本索引中合成語音信號(hào)。
11.根據(jù)權(quán)利要求1的方法,特征在于聲音信號(hào)包括語音信號(hào)。
12.一種對(duì)多個(gè)信號(hào)幀中的聲音信號(hào)進(jìn)行編碼的設(shè)備,每一信號(hào)幀具有表示各個(gè)信號(hào)幀中的聲音信號(hào)的基音周期,其中每個(gè)信號(hào)幀包括多個(gè)信號(hào)段,每個(gè)信號(hào)段表示基音空間中的一維,并且每個(gè)信號(hào)段中的聲音信號(hào)由基音值表征,其中基音值能通過點(diǎn)陣結(jié)構(gòu)中的聲音信號(hào)的陣點(diǎn)分布圖形特性表示,從而定義了基音空間中的密碼本索引,點(diǎn)陣結(jié)構(gòu)根據(jù)陣點(diǎn)分布圖形而定形,從而定義定形點(diǎn)陣結(jié)構(gòu),所述設(shè)備的特征在于裝置,該裝置響應(yīng)于聲音信號(hào),考慮基音空間的全部維,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)的開環(huán)搜索以獲得基音周期的開環(huán)估計(jì),用于提供表示開環(huán)估計(jì)的開環(huán)搜索值,以及裝置,該裝置響應(yīng)于開環(huán)搜索值,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)的閉環(huán)搜索來分別精確化基音空間中每一維的開環(huán)估計(jì),以獲得表示各個(gè)信號(hào)段中基音值的閉環(huán)搜索值。
13.根據(jù)權(quán)利要求12的設(shè)備,特征在于基音值表示差分基音周期。
14.根據(jù)權(quán)利要求12的設(shè)備,特征在于在至少一個(gè)信號(hào)段中的基音值表示絕對(duì)基音周期,并且在其余的每個(gè)信號(hào)段中的基音值表示差分基音周期。
15.根據(jù)權(quán)利要求12的設(shè)備,特征在于將信號(hào)段設(shè)置在連續(xù)子幀中。
16.根據(jù)權(quán)利要求15的設(shè)備,特征在于連續(xù)子幀順序地包括第一子幀和三個(gè)第二子幀,其中第一子幀中的基音值表示絕對(duì)基音周期,每個(gè)第二子幀中的基音值表示差分基音周期。
17.根據(jù)權(quán)利要求15的設(shè)備,特征在于每個(gè)信號(hào)幀包括四個(gè)子幀,并且其中四個(gè)子幀的每一個(gè)中的基音值表示差分基音周期。
18.根據(jù)權(quán)利要求12的設(shè)備,特征在于陣點(diǎn)密度圖形包括定形的點(diǎn)陣結(jié)構(gòu)中的多個(gè)區(qū)域,并且每個(gè)區(qū)域可由超立方體表示,每個(gè)超立方體具有多條包括定形的點(diǎn)陣結(jié)構(gòu)的一個(gè)或多個(gè)陣點(diǎn)的邊,并且其中密碼本索引表示超立方體的邊上的陣點(diǎn)的數(shù)目。
19.一種對(duì)多個(gè)信號(hào)幀中的聲音信號(hào)進(jìn)行編碼的系統(tǒng),每一信號(hào)幀具有表示各個(gè)信號(hào)幀中的聲音信號(hào)的基音周期,其中每個(gè)信號(hào)幀包括多個(gè)信號(hào)段,每個(gè)信號(hào)段表示基音空間中的一維,并且每個(gè)信號(hào)段中的聲音信號(hào)由基音值表征,其中基音值能通過點(diǎn)陣結(jié)構(gòu)中聲音信號(hào)的陣點(diǎn)分布圖形特性表示,從而定義了基音空間中的密碼本索引,點(diǎn)陣結(jié)構(gòu)根據(jù)陣點(diǎn)分布圖形而定形,從而定義定形點(diǎn)陣結(jié)構(gòu),所述系統(tǒng)的特征在于編碼器,具有裝置,該裝置響應(yīng)于聲音信號(hào),考慮到基音空間的全部維,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)的開環(huán)搜索來獲得基音周期的開環(huán)估計(jì),以提供表示開環(huán)估計(jì)的開環(huán)搜索值,以及裝置,該裝置響應(yīng)于開環(huán)搜索值,通過對(duì)定形的點(diǎn)陣結(jié)構(gòu)中的閉環(huán)搜索,分別對(duì)基音空間中每一維的開環(huán)估計(jì)進(jìn)行精確化,以獲得表示各個(gè)信號(hào)段中基音值的閉環(huán)搜索值,從而提供表示定形的點(diǎn)陣結(jié)構(gòu)的信息以及密碼本索引,以及解碼器,具有響應(yīng)于該信息根據(jù)定形的點(diǎn)陣結(jié)構(gòu)從密碼本索引中合成進(jìn)一步的聲音信號(hào)的裝置。
全文摘要
一種對(duì)語音信號(hào)的連續(xù)基音周期編碼的方法和裝置?;谶B續(xù)語音周期統(tǒng)計(jì)特性的先有知識(shí),設(shè)計(jì)一種定形的點(diǎn)陣結(jié)構(gòu),以覆蓋基音空間中的最大概率的陣點(diǎn)。考慮所有維,密碼本索引搜索開始于發(fā)現(xiàn)基音空間中的開環(huán)估計(jì),基于定形的點(diǎn)陣結(jié)構(gòu)在每一維中分別地在閉環(huán)搜索中精確化開環(huán)估計(jì)。對(duì)第一子幀的閉環(huán)搜索是為獲得絕對(duì)基音周期或者增量周期,而對(duì)其他每一子幀的閉環(huán)搜索是為獲得各自子幀的增量基音。
文檔編號(hào)G10L19/08GK1514994SQ02811726
公開日2004年7月21日 申請(qǐng)日期2002年6月7日 優(yōu)先權(quán)日2001年6月11日
發(fā)明者A·?;鶎? V·羅皮拉, S·皮蒂萊, A 海基寧, ダ, 倮 申請(qǐng)人:諾基亞有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
巴彦淖尔市| 和静县| 皋兰县| 榆林市| 阿城市| 宽甸| 康马县| 星子县| 财经| 武城县| 正蓝旗| 孟津县| 曲水县| 新疆| 仁布县| 东阿县| 雅安市| 定陶县| 景德镇市| 石屏县| 霍山县| 浦北县| 襄城县| 文山县| 堆龙德庆县| 邮箱| 广东省| 山西省| 乐昌市| 泸溪县| 郁南县| 卓尼县| 临城县| 安多县| 视频| 鸡东县| 武强县| 上饶市| 民丰县| 辽源市| 长顺县|