專利名稱:語音編碼中的脈沖分配方法
技術領域:
本發(fā)明涉及語音編碼中的脈沖分配方法。
背景技術:
一般而言,在語音編碼中,使用聲道模型來合成盡可能相似于原始語音
的語音信號。作為這種語音編碼之一,有用于3GPP系統(tǒng)的自適應多速率寬 帶(AMR-WB: Adaptive MultiRate - WideBand)語音編碼(參照非專利文獻1)。 該AMR-WB語音編碼也是作為ITU-T建議G722.2(非專利文獻2)由ITU-T 選定并承認的。下面,舉例說明采用23.85kbps的比特率的AMR-WB語音編 碼。
作為AMR-WB語音編碼的重要的結(jié)構元素之一,有固定碼本(圖l)的搜 索。在AMR-WB語音編碼中,將具有下采樣后的256個樣本的語音樣本的 幀,分割成各自具有64個樣本的4個子幀。在搜索固定碼本的過程中,將該 子幀分割成4個音軌。在AMR-WB語音編碼的模式8,從各個音軌可取得的 16個脈沖位置中,對每個音軌選擇6個脈沖位置。也就是說,各個子幀的 脈沖的^:目^^皮設定為p 。 ~ p 2 3的24個。并且,對這些p 。 ~ p 2 3的24個脈 沖的位置進行編碼,而形成用于合成對應于各個子幀的語音的碼本索引(參照 非專利文獻1)。
另外,在ITU-T建議G.722.2中,目前雖然支持對單聲道語音信號的 AMR-WB語音編碼,但沒有支持對立體聲語音信號的AMR-WB語音編碼。
另一方面,近年來,隨著移動通信和IP通信中的傳輸頻帶的寬帶化以及 服務的多樣化,在語音通信中,對高音質(zhì)化和更強的現(xiàn)場感的需求日益增高。 例如,可以預料今后對下述的服務的需求會增多,即,電視電話服務中的免 提(Handsfree)形式的通話、在電視會議中的語音通信、在多個地點多個說話 人同時進行會話的多地點語音通信、在保持現(xiàn)場感的同時能夠傳輸周圍的聲 音環(huán)境的語音通信等。那時,人們期待實現(xiàn)比單聲道信號現(xiàn)場感更強并能夠 識別多個說話人的說話位置的使用立體聲語音的語音通信的。為了實現(xiàn)這樣
的使用立體聲語音的語音通信,必須對立體聲語音進行編碼。作為立體聲語
音信號的編碼方法之一,有對各個聲道的語音信號獨立地進行編碼的方法(雙 重單聲道編碼)。
(非專利文獻1) "AMR Wideband Speech Codec; General Description", 3GPP TS 26.171, V5.0.0 (2001-03)
(非專利文獻2) "Wideband Coding of Speech at Around 16 kbit/s Using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, ITU-T Recommendation G.722.2 (2003-07)
發(fā)明內(nèi)容
本發(fā)明需要解決的問題
然而,對立體聲語音信號單純地進行使用AMR-WB語音編碼的雙重單 聲道編碼時,必須對各個聲道的語音信號分別進行上述的固定碼本的搜索, 因此/人編碼效率和處理效率的觀點而言,不夠理想。
本發(fā)明的目的是,提供能夠?qū)αⅢw聲語音信號高效率地進行編碼的脈沖 分配方法。
解決問題的方案
本發(fā)明的脈沖分配方法是,在對立體聲信號的語音編碼中,進行固定碼 本搜索時所使用的脈沖分配方法,基于立體聲信號的各個聲道的特性和各個 聲道間的相似程度,決定分配給各個聲道的脈沖數(shù)。
本發(fā)明的有益效果
根據(jù)本發(fā)明,能夠?qū)αⅢw聲語音信號高效率地進行編碼。
圖1是AMR-WB語音編碼的固定碼本。
圖2是本發(fā)明實施方式1的語音編碼的處理流程。
圖3是本發(fā)明實施方式1的固定碼本搜索的主要的處理流程。
圖4是本發(fā)明實施方式1的固定碼本搜索的詳細處理流程。
圖5是本發(fā)明實施方式1的脈沖分配的一個例子。
圖6是本發(fā)明實施方式1的脈沖分配的一個例子。 圖7是本發(fā)明實施方式1的通知例。
圖8是本發(fā)明實施方式1的語音解碼的處理流程。
圖9是本發(fā)明實施方式2的通知例。
圖10是本發(fā)明實施方式2的語音解碼的處理流程。
具體實施例方式
下面,參照附圖詳細地說明本發(fā)明的實施方式。另外,在以下說明中, 舉一例說明AMR-WB語音編碼。另夕卜,在以下的說明中,說明采用AMR-WB 語音編碼的編碼模式中的模式8的情況下的實施方式,但各個實施方式同樣 可適用于其它編碼模式。
在AMR-WB語音編碼的^^莫式8中,固定碼本矢量(創(chuàng)新矢量)包括24個 脈沖。如上述圖l所示,在各個子幀中有0 63的64個可取的脈沖位置,這 些脈沖位置,以各個音軌包含6個脈沖的方式,被分割成1 4的4個音軌。
(實施方式1)
在本實施方式,基于輸入立體聲信號的各個聲道間的相似程度,以及各 個聲道的周期性和穩(wěn)定度,決定對各個聲道的脈沖數(shù)的分配?;谙嗨瞥潭?、 周期性和穩(wěn)定度,對各個聲道分配所需數(shù)目的脈沖。對各個聲道的分配脈沖 數(shù)決定后,進行與 一般的AMR-WB語音編碼相同的脈沖搜索,決定對各個 聲道的脈沖位置。將這些脈沖作為碼字組進行編碼,并作為語音比特流中的 參數(shù)之一的碼本索引發(fā)送。
圖2表示本實施方式的語音編碼的主要的處理流程。
首先,在ST(步驟)ll,對立體聲信號進行預處理,該預處理包括下采樣 和使用高通濾波器和預加重濾波器的濾波處理。
在ST12,對預處理后的立體聲信號進行LPC分析,獲得立體聲信號的L 聲道(左聲道)和R聲道(右聲道)的各個聲道的LPC參數(shù)。將LPC參數(shù)變換成 ISP(Immittance Spectrum Pair)和對各個聲道的量化矢量。
在ST13,對各個聲道進行基音搜索,對各個幀估兩次計開環(huán)基音延遲。
在ST14,使用估計出的基音延遲(估計基音延遲),對于各個子幀,對估 計基音延遲的周邊進行使用閉環(huán)基音的自適應碼本搜索,獲得自適應碼本矢 量。 在ST15,使用自適應碼本矢量,進行伴隨脈沖分配的固定碼本搜索,獲
得對各個聲道的固定碼本矢量。
然后,在ST16,為了下一個子幀的運算,更新濾波器記憶和樣本數(shù)據(jù)。
另外,在本實施方式中,除圖2所示的處理外,與上述非專利文獻l所 記載的處理相同。
接著,圖3表示固定碼本搜索(ST15)的主要的處理流程。主要通過 ST21 ST25的處理來進行固定碼本搜索(ST15)。
在ST21,對各個子幀進行立體聲信號的比較,而判斷L聲道和R聲道的 相似性,即聲道間的相似程度。
在ST22,進行立體聲信號的分類,判斷信號的特性。
在ST23,基于聲道間的相似程度和立體聲信號的特性,對L聲道和R 聲道,各自分配所需數(shù)目的脈沖。
在ST24,執(zhí)行AMR-WB語音編碼的脈沖搜索,決定對各個聲道的脈沖 位置。
在ST25,將在ST24所決定的脈沖,作為碼字組進行編碼,并作為語音 比特流中的參數(shù)之一的碼本索引,發(fā)送到語音解碼裝置。
下面,使用圖4更詳細地說明圖3所示的處理流程。特別對脈沖分配(ST23) 進4亍i羊細的i兌明。
在ST301,對各個子幀的L聲道和R聲道進行比較。通過該比較,在進
多少程度的相似性)。在判斷相似程度時,可利用相互相關、在時域中的信號 包絡的比較、在頻域中的頻語信號或頻語能量的比較以及中側(cè)(Mid-Side)運算等。
在ST302,在L聲道和R聲道非常相似時(例如,相互相關值大于閾值時), 或者在L聲道和R聲道相同時(也就是單聲道信號時),雙方聲道使用共同的 脈沖組。也就是說,在ST303,將對L聲道的脈沖數(shù)Num—Pulse(L)設定為P, 將對R聲道的脈沖數(shù)Num—Pulse(R)設定為0?;蛘呦喾吹兀瑢聲道的脈 沖數(shù)Num—Pulse(L)設定為0,將對R聲道的脈沖數(shù)Num—Pulse(R)設定為P。 例如,AMR-WB語音編碼的模式8時,設定為P=24。圖5A表示在ST303 設定Nun^Pulse的情況。在此例中,P=24。因為對L聲道或R聲道的任意一 方分配全部的,24個脈沖,所以如圖6A所示,對雙方聲道^[吏用p 。 ~ p 23
的共同的一個脈沖組。以下將圖6A所示的脈沖分配的類型稱為"類型0"。
在ST302,在L聲道和R聲道不相似時(例如,相互相關值為閾值以下時), 在ST304進行信號的分類判斷,并確認在L聲道或R聲道中是否存在"穩(wěn)定 有聲,,信號。L聲道信號或R聲道信號在具有周期性且穩(wěn)定時,被判定為"穩(wěn) 定有聲",而在不具有周期性且不穩(wěn)定時,被判定為其它類型的信號。在L聲 道或R聲道的任何一方為"穩(wěn)定有聲"時,進至ST305,而在L聲道和R聲道 都不是"穩(wěn)定有聲"時,進至ST310。另外,在判斷信號是否為"穩(wěn)定有聲"時, 可利用基于自相關方法的自相關值運算、基音預測增益、自適應碼本增益等 等。另外,也可使用各個聲道的能量電平或信號電平等,來判斷是否為"穩(wěn)定 有聲"。
在ST305,如果L聲道和R聲道都被判斷為"穩(wěn)定有聲"(具有穩(wěn)定性且周 期性的),則該雙方聲道各自具有脈沖組。也就是說,此時,在ST306,將P 個(P二24)脈沖分配給L聲道和R聲道,將對L聲道的脈沖數(shù)Num—Pulse(L)設 定為脈沖數(shù)K,P,而將對R聲道的脈沖數(shù)Num—Pulse(R)設定為脈沖數(shù)(l-K,)P。 這里,假設K產(chǎn)1/2。也就是說,對雙方聲道分配相等數(shù)目的脈沖。圖5B表 示在ST306設定Num—Pulse的情況。因為以圖5B所示的方式設定NumJPulse, 所以將P二24個脈沖均等地對兩個聲道各分配12個。因此,如圖6B所示, 對各個聲道使用不同的脈沖組。但是,各個脈沖組所包含的脈沖數(shù)是同數(shù)(這 里是12個)。以下將圖6B所示的脈沖分配的類型稱為"類型1"。
另外,在圖6B中,脈沖p^的ch表示該脈沖所屬的聲道(L聲道或R聲 道),i表示該脈沖的位置。在圖6C和圖6D中也是一樣。
在ST305 ,如果判斷為 一方的聲道是"穩(wěn)定有聲",但另 一方的聲道不是"穩(wěn) 定有聲",則不在雙方聲道間均等地分配脈沖數(shù)P。此時,脈沖數(shù)的分配,基 于哪一方的聲道需要更多的脈沖而進行。 一般而言,"穩(wěn)定有聲,,的聲道只需 要較少數(shù)目的脈沖,因此,對"穩(wěn)定有聲"的聲道分配較少數(shù)目的脈沖。這是 因為,對于"穩(wěn)定有聲"的聲道,自適應碼本能夠有效地發(fā)揮功能而生成聲源 信號,因而固定碼本搜索只需要較少數(shù)目的脈沖。
也就是說,在ST307,在判斷L聲道是"穩(wěn)定有聲",R聲道不是"穩(wěn)定有 聲"時,在L聲道只需要較少數(shù)目的脈沖,因此,與R聲道相比,對L聲道 分配較少數(shù)目的脈沖。即,在ST308,將對L聲道的脈沖數(shù)Num—Pulse(L)設 定為脈沖數(shù)K2P,而將對R聲道的脈沖數(shù)Num—Pulse(R)設定為脈沖數(shù)(l-K2)P,
將P個(P二24)脈沖分配給L聲道和R聲道。這里,々支設K2=l/3。由此,對L 聲道分配8個脈沖,對R聲道分配16個脈沖,與R聲道相比,對L聲道分 配較少數(shù)目的脈沖。
另一方面,在ST307,在判斷L聲道不是"穩(wěn)定有聲",而R聲道是"穩(wěn)定 有聲"時,與L聲道相比,對R聲道分配較少數(shù)目的脈沖。即,在ST309,將 對L聲道的脈沖數(shù)Nun^Pulse(L)設定為脈沖數(shù)(l-K2)P,而將對R聲道的脈沖 數(shù)Num—Pulse(R)設定為脈沖數(shù)K2P,對L聲道和R聲道分配P個(P:24)脈沖。 這里,與上述同樣地,假設K^1/3。由此,對R聲道分配8個脈沖,對L聲 道分配16個脈沖,與L聲道相比,對R聲道分配較少數(shù)目的脈沖。
圖5C和圖5D表示在ST308和ST309,設定Num_Pulse的情況。因為 P=24iLK2=l/3, Nmr^Pulse成為8個脈沖(圖5C)和16個脈沖(圖5D)。因此,
以下將圖6C所示的脈沖分配的類型稱為"類型2",將圖6D所示的脈沖分配 的類型稱為"類型3"。在類型2,與R聲道相比,對L聲道分配較少數(shù)目的脈 沖,在類型3,與L聲道相比,對R聲道分配較少數(shù)目的脈沖。這樣,在類 型2和類型3,對L聲道和R聲道不均等地分配24個脈沖。
在ST304,如果L聲道和R聲道都不是"穩(wěn)定有聲",則基于各個聲道的 最大自相關系數(shù)(MAF: Maximum Autocorrelation Factor)來決定脈沖分配。通 過式(1)來定義MAF。在式(l)中,x(n)(n=0,...,N-l )是對L聲道或R聲道的 編碼對象子幀的MAF的計算對象區(qū)間的輸入信號,N是該計算對象區(qū)間的區(qū) 間長度(樣本數(shù)),T是延遲。另外,作為x(n),可使用LPC殘差信號以代替輸 入信號,該LPC殘差信號使用LPC逆濾波器而求得的。
在ST310,在L聲道的MAF大于R聲道的MAF時,在ST312,與ST308 同樣地,將對L聲道的脈沖數(shù)Num—Pulse(L)設定為脈沖數(shù)K2P,而將對R聲 道的脈沖數(shù)Num—Pulse(R)設定為脈沖數(shù)(1 -K2)P ,對L聲道和R聲道分配P 個(P3W脈沖。這里,假設K產(chǎn)l/3。也就是說,對L聲道分配8個脈沖,對 R聲道分配16個脈沖,與R聲道相比,對L聲道分配較少數(shù)目的脈沖。因此, 脈沖分配的類型為類型2(圖6C)。
…式(1)
另一方面,在ST310,R聲道的MAF為L聲道的MAF以上時,在ST311, 與ST309同樣地,將對R聲道的脈沖數(shù)Nun^Pulse(R)設定為脈沖數(shù)K2P,而 將對L聲道的脈沖數(shù)Num—Pulse(L)設定為脈沖數(shù)(l-K2)P,對L聲道和R聲道 分配P個(P-24)脈沖。這里,與上述同樣地,假設K尸1/3。也就是說,對R 聲道分配8個脈沖,對L聲道分配16個脈沖,與L聲道相比,對R聲道分 配較少數(shù)目的脈沖。因此,脈沖分配的類型為類型3(圖6D)。
在ST303、 ST306、 ST308、 ST309、 ST311和ST312,如上述決定對各 個聲道分配的脈沖數(shù)后,在ST313,對各個聲道進行脈沖位置的搜索。
然后,在搜索出L聲道和R聲道的兩個聲道的脈沖位置后,在ST314, 使用在ST313所搜索出的脈沖來生成碼字組,在ST315生成對各個聲道的碼 本索引。
另外,在ST304中,對于L聲道和R聲道都不是"穩(wěn)定有聲,,時的脈沖分
配,也可以不是如上述這樣基于各個聲道的MAF決定,而是對各個聲道總是 分配相等數(shù)目的脈沖。
這里,如上述在將K,和K2設為固定值時,基于脈沖分配的4個類型(類 型0 "唯一地決定分配給各個聲道的脈沖數(shù),因此向語音解碼端通知對各個 聲道分配了的脈沖數(shù)時,如圖7所示,有兩個比特就足夠。也就是說,將類 型0(對L聲道和R聲道共同地分配24個脈沖的情況)設為碼字'00,,將類型 l(對L聲道和R聲道各分配12個脈沖的情況)設為碼字'01',將類型2(對L 聲道分配8個脈沖,對R聲道分配16個脈沖的情況)設為碼字'10',將類型 ^對L聲道分配16個脈沖,對R聲道分配8個脈沖的情況)設為碼字'ir,并 通知給語音解碼端。
圖8表示在語音解碼端的處理流程。
在S1701,從比特流提取處于對脈沖數(shù)據(jù)進行了量化的狀態(tài)的碼本索引。 另外,從比特流提取表示脈沖分配的類型的上述2比特的信息。
在S1702,基于上述2比特的信息,并參照上述圖7所示的表,判斷脈 沖分配的類型。
在ST7(B,在脈沖分配的類型是類型0時,進至ST704,而在是類型1 3 時,進至ST707。
在脈沖分配的類型是類型0時,由兩個聲道共同使用同一碼本。也就是 說,在ST704,將全部的P二2々個脈沖都設定給預先決定的一方的聲道(規(guī)定
聲道),并在ST705,對于該規(guī)定聲道,將P二24個脈沖解碼。然后,在ST706, 將在ST705所解碼的脈沖復制到另一方的聲道。
另一方面,在脈沖分配的類型是類型1 3時,基于各個類型,設定對各 個聲道的脈沖數(shù)。即,在類型1時,對L聲道和R聲道分別設定U個脈沖, 在類型2時,對L聲道設定8個脈沖,對R聲道設定16個脈沖,在類型3 時,對L聲道設定16個脈沖,對R聲道設定8個脈沖。
假設規(guī)定聲道是L聲道,則在ST707設定對L聲道的脈沖數(shù)PL,在ST708 設定對R聲道的脈沖數(shù)pr。然后,在ST709,將Pt個脈沖作為對L聲道的 碼本數(shù)據(jù)解碼,在ST710,將pr個脈沖作為對R聲道的碼本數(shù)據(jù)解碼。
另夕卜,在規(guī)定聲道為R聲道時,處理流程成為ST708、 ST707、 ST710、 ST709的次序。
這樣,根據(jù)本實施方式,基于聲道間的相似程度和各個聲道的特性(周 期性和穩(wěn)定度)而決定脈沖數(shù)的分配,因此能夠?qū)Ω鱾€聲道分配最適合的數(shù) 目的脈沖。
(實施方式2)
在本實施方式中,基于語音信號的特性而決定K,、 K2,并使各個聲道間 的脈沖分配自適應地變化。例如,能夠基于各個聲道的語音信號的周期性和 MAF而求對各個聲道的脈沖數(shù)的分配比例。
例如,在L聲道和R聲道的雙方都是"穩(wěn)定有聲,,時,通過式(2)來求K,。 K,
r'+r" …式(2)
在式(2)中,化、Tr分別是L聲道的基音周期和R聲道的基音周期,a,是 用于微調(diào)K,的系數(shù)。根據(jù)式(2),能夠?qū)哂性蕉痰幕糁芷诘?,即越高的?音的聲道,分配越多的脈沖。
另外,在一方的聲道是"穩(wěn)定有聲",另一方的聲道不是"穩(wěn)定有聲,,時, 通過式(3)來求K2。
<formula>formula see original document page 10</formula>…式(3)
在式(3)中,Cuv為不是"穩(wěn)定有聲"的一方的聲道的MAF, C。 Cr分別是 L聲道的MAF和R聲道的MAF, (12是用于微調(diào)K2的系數(shù)。根據(jù)式(3),能 夠?qū)?穩(wěn)定有聲"的聲道,分配較少數(shù)目的脈沖。<formula>formula see original document page 11</formula> …式(4)
另外,在式(3)中,卩是使"穩(wěn)定有聲,,的聲道確實具有至少為最小數(shù)的脈 沖的參數(shù),通過式(4)來定義。
<formula>formula see original document page 11</formula>
在式(4)中,L是一個幀內(nèi)的樣本數(shù),Tch是"穩(wěn)定有聲"的聲道的基音周期, P是子幀內(nèi)的總脈沖數(shù)。因此,比例IAch基本上是一個幀內(nèi)的周期數(shù)。例如, 假設L為256、 Kh為77,則比例IAch(—個幀內(nèi)的周期數(shù))成為4。由此,在
各個基音周期確實存在至少一個脈沖。
基于式(2) (4)所求出的Kj和K2 ,用于對L聲道和R聲道的脈沖數(shù)的分 配。被分配到L聲道和R聲道的脈沖數(shù)可取滿足式(5)和式(6)的條件的最小值 MIN—PULSE和最大值MAX—PULSE 。
MIN—PULSE ^ Num—Pulse(channel) ^ MAX—PULSE ...式(5) Num—Pulse(L) + Num—Pulse(R) = TOTAL—PULSE ...式(6)
在式(5)和(6)中,MIN_PULSE和MAX_PULSE是對特定的聲道的每個子 幀所能分配的脈沖數(shù)的最小值和最大值,TOTAL—PULSE是對雙方聲道的每 個子幀所能分配的合計的脈沖數(shù)。例如,典型的值是MIN—PULSE=4、 MAX—PULSE=20、 TOTAL—PULSE=24 。另外,還可以將所計算出的脈沖數(shù) 取整為1、 2或4的倍數(shù)中,最接近的倍數(shù)值。
道分配了的脈沖數(shù)通知給語音解碼端。但是,對一方的聲道的分配數(shù),通過 從兩個聲道的所有脈沖數(shù)減去另一方的聲道的分配數(shù)而能夠?qū)С?,因此,?任意一方的聲道定為規(guī)定聲道,并僅通知該規(guī)定聲道的分配數(shù)即可。例如, 將L聲道定為規(guī)定聲道,通知對L聲道的脈沖數(shù)Num一Pulse(L),并通過式(7) 來求對R聲道的脈沖數(shù)Num—Pulse(R)。
Num—Pulse(R) = TOTAL PULSE - Num—Pulse(L) ...式(7) 以下示出對規(guī)定聲道的脈沖數(shù)的通知方法。
在對各個聲道的脈沖數(shù)為4的倍數(shù)時,對規(guī)定聲道的脈沖數(shù)有4個脈沖、 8個脈沖、12個脈沖、16個脈沖、20個脈沖的5個可能性。因此,為了區(qū)別 這5個脈沖數(shù),有3比特就足夠。另外,在對各個聲道的脈沖數(shù)為2的倍數(shù) 時,對規(guī)定聲道的脈沖數(shù)有4個脈沖、6個脈沖、8個脈沖、10個脈沖、12 個脈沖、14個脈沖、16個脈沖、18個脈沖、20個脈沖的9個可能性。因此,
為了區(qū)別這些9個脈沖數(shù),需要4比特。再者,對各個聲道的脈沖數(shù)為從4 到20的按一個個脈沖遞增的數(shù)目時,有17個可能性,因此為了區(qū)別17個脈 沖數(shù),需要5比特。由此,能夠?qū)⑦@些脈沖數(shù)總結(jié)為圖9所示的表。在語音 編碼端,參照該表將脈沖數(shù)變換成3 5比特的碼字并通知,在語音解碼端, 同樣地參照該表,從所通知的碼字導出對各個聲道分配的脈沖數(shù)。 圖IO表示在語音解碼端的處理流程。
在ST901,從比特流提取處于對脈沖數(shù)據(jù)進行了量化的狀態(tài)的碼本索引。 另外,從比特流提取表示脈沖數(shù)的碼字(3 5比特)。
在ST902,基于表示脈沖數(shù)的碼字,并參照上述圖9所示的表,判斷規(guī) 定聲道的脈沖數(shù)。這里,假設規(guī)定聲道是L聲道。
在ST903,通過式(7)來計算另一方的聲道,即R聲道的脈沖數(shù)。
在ST904,在任何一方的聲道的脈沖數(shù)為0時,進至ST905,在除此之 外的情況下,進至ST卯7。
在任意一方的聲道的脈沖數(shù)為0時,由兩個聲道共同使用同一碼本。也 就是說,在ST905,將全部P^24個脈沖都設定給規(guī)定聲道,并對于該規(guī)定聲 道,將P二24個脈沖解碼。然后,在ST906,將在ST905所解碼的脈沖復制到 另一方的聲道。
另一方面,在ST907,參照上述圖9所示的表設定對L聲道0見定聲道) 的脈沖數(shù)PL,將PL個脈沖作為對L聲道的碼本數(shù)據(jù)進行解碼。并且,在ST908, 通過式(7)設定對R聲道的脈沖數(shù)PR,將PR個脈沖作為對R聲道的碼本數(shù)據(jù)解碼。
另外,在失見定聲道是R聲道時,處理流程成為ST908、 ST907的次序。 這樣,根據(jù)本實施方式,基于語音信號的特性而決定K,和K2,使各個
聲道間的脈沖分配自適應地變化,因此,能夠在聲道間進行更加靈活且正確
的脈沖數(shù)的分配。
另外,在上述各個實施方式中,假設對各個聲道分配的合計的脈沖數(shù)為 固定(在上述各個實施方式中,固定為P-24個)而進行說明,但也可以使對各 個聲道分配的合計的脈沖數(shù),基于聲道間的相似程度和各個聲道的特性(周期 性和穩(wěn)定度)而變化。例如,在實施方式l,在脈沖分配的類型為"類型0"時, 即,在L聲道和R聲道非常相似時(例如,在相互相關值大于閾值時),或者, 在L聲道和R聲道相同時(也就是單聲道信號時),可以將少于其它類型的合
計的分配脈沖數(shù)(在上述各個實施方式中,P^24個)的^t目的脈沖,只分配纟會
R聲道或L聲道的任意一方。由此能夠更加提高傳輸效率。
另外,上述各個實施方式的處理流程,可在語音編碼裝置和語音解碼裝 置中實施。另外,還可以將該語音編碼裝置和語音解碼裝置,裝載于在移動 通信系統(tǒng)中所使用的無線通信移動臺裝置和無線通信基站裝置等無線通信裝置。
另外,上述實施方式的處理流程,通常被作為集成電路的LSI來實現(xiàn)。 這些既可以被單獨地集成為一個芯片,也可以一部分或全部被集成為一個芯片。
雖然此處稱為LSI,但根據(jù)集成程度,可以被稱為IC、系統(tǒng)LSI、超大 LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,實現(xiàn)集成電路化的方法不僅限于LSI,也可使用專用電路或通用 處理器來實現(xiàn)。也可以使用在LSI制造后,可編程的FPGA(Field Programmable Gate Array),或者可重構LSI內(nèi)部的電路單元的連接和設定的可重構處理器。
出現(xiàn)替代LSI集成電路化的新技術,當然可利用新技術進行功能塊的集成化。 還存在著適用生物技術等的可能性。
本說明書是根據(jù)2005年2月10日申請的日本專利申請第2005-034984
號。其內(nèi)容全部包含于此。
工業(yè)實用性
本發(fā)明可適用于移動通信系統(tǒng)或使用因特網(wǎng)協(xié)議的分組通信系統(tǒng)等中的 通信裝置。
權利要求
1.一種脈沖分配方法,該脈沖分配方法為在對立體聲信號的語音編碼中,進行固定碼本搜索時所使用的脈沖分配方法,基于立體聲信號的各個聲道的特性和各個聲道間的相似程度,決定分配給各個聲道的脈沖數(shù)。
2. 如權利要求1所述的脈沖分配方法,在所述相似程度為閾值以上時,對任意一方的聲道分配所有的脈沖。
3. 如權利要求1所述的脈沖分配方法,基于各個聲道的穩(wěn)定度、周期性和最大自相關系數(shù)中的至少一個,判斷 所述特性。
4. 如權利要求3所述的脈沖分配方法,對所述穩(wěn)定度、所述周期性和所述最大自相關系數(shù)越大的聲道,分配越 少的脈沖數(shù)。
5. 如權利要求1所述的脈沖分配方法, 在各個聲道的特性相等時,對各個聲道均等地分配脈沖數(shù)。
6. 如權利要求1所述的脈沖分配方法,將表示已分配給各個聲道的脈沖數(shù)的碼字,通知給語音解碼端。
全文摘要
能夠?qū)αⅢw聲語音信號高效率地進行編碼的脈沖分配方法。在該脈沖分配方法的固定碼本搜索(ST21~ST25)中,對各個子幀進行立體聲信號的比較,判斷聲道間的相似性(ST21),判斷立體聲信號的特性(ST22),基于聲道間的相似性和立體聲信號的特性,決定對各個聲道分配的脈沖數(shù)(ST23),進行脈沖搜索并決定對各個聲道的脈沖位置(ST24),并對在ST24所決定的脈沖進行編碼(ST25)。
文檔編號G10L19/00GK101116137SQ20068000453
公開日2008年1月30日 申請日期2006年2月9日 優(yōu)先權日2005年2月10日
發(fā)明者吉田幸司, 后藤道代, 張峻偉, 梁世豐 申請人:松下電器產(chǎn)業(yè)株式會社