專利名稱:增加通信系統(tǒng)中所感知交互性的方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
技術(shù)領(lǐng)域是通信。本發(fā)明增加語(yǔ)音通信中所感知的交互性,并且對(duì)基于IP的語(yǔ)音通信系統(tǒng)特別有利。一種實(shí)用但非限制性的應(yīng)用是按鍵講話(PTT)通信。
背景和概述 目前正在進(jìn)行為GPRS、EGPRS、W-CDMA以及標(biāo)準(zhǔn)化機(jī)制將用于信道資源分配和傳輸?shù)钠渌涓C通信開(kāi)發(fā)按鍵講話(PTT)服務(wù)的工作。這些機(jī)制設(shè)計(jì)用于通用數(shù)據(jù)通信以便提供對(duì)延遲和交互性沒(méi)有或者有極低要求的服務(wù)。原始設(shè)計(jì)沒(méi)有把重點(diǎn)放在使傳輸延遲最小。在任何電話應(yīng)用中,長(zhǎng)延遲妨礙終端用戶,并且負(fù)面影響感知服務(wù)質(zhì)量。PTT服務(wù)的當(dāng)前目標(biāo)和要求即使PTT為半雙工時(shí)也需要最小的傳輸延遲。實(shí)際上,PTT延遲要求幾乎與全雙工電話同樣嚴(yán)格。
在GPRS、EGPRS、W-CDMA等上采用基于IP的語(yǔ)音(VoIP)的PTT中,聲音信號(hào)的“口到耳”延遲(從發(fā)送方到接收方)相當(dāng)長(zhǎng),明顯比常規(guī)電路交換電話更長(zhǎng)。當(dāng)活動(dòng)發(fā)言人在不同用戶之間轉(zhuǎn)換時(shí),即,當(dāng)用戶A停止講話并開(kāi)始收聽(tīng)以便等待來(lái)自用戶B的響應(yīng)時(shí),終端用戶檢測(cè)這個(gè)延遲。用戶A把長(zhǎng)轉(zhuǎn)換延遲感知為低交互性或者來(lái)自另外的用戶的長(zhǎng)響應(yīng)時(shí)間。本發(fā)明解決的主要問(wèn)題是如何增強(qiáng)交互性。簡(jiǎn)言之,這種增強(qiáng)的交互性通過(guò)減少感知延遲并且無(wú)需減少實(shí)際傳輸和建立延遲來(lái)實(shí)現(xiàn)。但是,在論述這個(gè)問(wèn)題以及所提出的解決方案之前,提供一些背景信息。
PTT是用戶可通過(guò)一對(duì)一通信或者通過(guò)組通信進(jìn)行連接的服務(wù)。按鍵講話通信源自模擬對(duì)講無(wú)線電,在其中,用戶只要按下按鈕以便開(kāi)始發(fā)送來(lái)輪流發(fā)言。在模擬對(duì)講系統(tǒng)中,往往沒(méi)有方法禁止若干人同時(shí)發(fā)言。沖突的結(jié)果在于,消息相互重疊,以及兩種消息通常失真而無(wú)法恢復(fù)。在數(shù)字PTT系統(tǒng)中,例如在Nextel的PTT系統(tǒng)中(參見(jiàn)Nextel的網(wǎng)站),存在一種稱作“發(fā)言權(quán)控制”的管理功能,它在同一時(shí)間僅允許一個(gè)發(fā)言人。
數(shù)字PTT系統(tǒng)10的概覽如
圖1所示。采用移動(dòng)無(wú)線電12通信的用戶A經(jīng)由例如GPRS、EGPRS、W-CDMA等的無(wú)線電接入網(wǎng)16與采用移動(dòng)無(wú)線電14通信的用戶B進(jìn)行通信。無(wú)線電接入網(wǎng)16包括通過(guò)無(wú)線電接口與移動(dòng)無(wú)線電12進(jìn)行通信的典型示例無(wú)線電基站18。典型示例無(wú)線電基站22通過(guò)無(wú)線電接口與移動(dòng)無(wú)線電14進(jìn)行通信。PTT服務(wù)器20耦合到無(wú)線電基站18和22,并且協(xié)調(diào)用戶A與B之間的PTT通信的建立、控制和終止。
下面對(duì)于一對(duì)一通信給出PTT通信中涉及的一些基本步驟的一個(gè)實(shí)例。省略了例如選擇交談對(duì)象所需的那些步驟的其它步驟以便簡(jiǎn)化說(shuō)明。
1-用戶/客戶機(jī)A希望向用戶B發(fā)送消息,并按下PTT客戶機(jī)(與移動(dòng)無(wú)線電相似)上的按鈕。
2-PTT客戶機(jī)A向PTT服務(wù)器發(fā)送請(qǐng)求,請(qǐng)求準(zhǔn)許發(fā)言。
3-PTT服務(wù)器判定應(yīng)當(dāng)允許還是拒絕該請(qǐng)求,并向客戶機(jī)A回送“發(fā)言權(quán)授予”信號(hào)或者“發(fā)言權(quán)忙”信號(hào)。
4-在接收到“發(fā)言權(quán)授予”信號(hào)時(shí),客戶機(jī)A通常向用戶A提供可視或聲音信號(hào)(燈光、LED、蜂鳴聲或者短旋律)以表明用戶A可開(kāi)始發(fā)言。
5-PTT服務(wù)器還可向客戶機(jī)B發(fā)送“發(fā)言權(quán)占用”消息,通知它另一個(gè)用戶已經(jīng)取得發(fā)言權(quán)以及不久可接收語(yǔ)音包??蛻魴C(jī)B也可向用戶B提供可視或聲音信號(hào),從而為用戶B提供不久可收到消息的高級(jí)告警。
6-在接收到“發(fā)言權(quán)授予”信號(hào)時(shí),客戶機(jī)A開(kāi)始記錄來(lái)自話筒的聲音信號(hào),并且開(kāi)始語(yǔ)音編碼器處理。語(yǔ)音信號(hào)通常以塊(幀)進(jìn)行編碼。
7-PTT客戶機(jī)可把一個(gè)或若干編碼語(yǔ)音幀在傳送之前封裝成數(shù)據(jù)包。
8-來(lái)自客戶機(jī)A的數(shù)據(jù)包通過(guò)空中接口傳送給基站,并且進(jìn)一步傳送到PTT服務(wù)器。
9-PTT服務(wù)器經(jīng)由基站通過(guò)相同或不同的空中接口把數(shù)據(jù)包轉(zhuǎn)發(fā)給客戶機(jī)B。
10-客戶機(jī)B立即或者在小緩沖延遲之后開(kāi)始所接收語(yǔ)音幀的解碼器處理。
11-解碼語(yǔ)音幀通過(guò)客戶機(jī)B中的喇叭向用戶B播放。
語(yǔ)音幀的編碼和解碼以及數(shù)據(jù)包的傳送繼續(xù)進(jìn)行,只要發(fā)送用戶按下PTT按鈕。其它用戶在同一時(shí)間無(wú)法發(fā)言,并且必須等待到釋放發(fā)言權(quán)為止。一對(duì)多通信極為相似,但是其中具有若干接收方而不是只有一個(gè)接收方。每個(gè)步驟可在嘗試減少延遲以及避免用戶煩惱方面進(jìn)行優(yōu)化。
某些信號(hào)可用來(lái)標(biāo)識(shí)“講話突發(fā)”的有用屬性。PTT中的講話突發(fā)是從按下PTT按鈕到松開(kāi)期間所講的一個(gè)或若干句子。講話突發(fā)開(kāi)始(TBS)標(biāo)識(shí)講話突發(fā)的開(kāi)始,即,當(dāng)前媒體包是新講話突發(fā)的第一數(shù)據(jù)包,以及接收方的語(yǔ)音解碼器狀態(tài)應(yīng)當(dāng)重置以便匹配語(yǔ)音編碼器的狀態(tài)。例如,媒體包是包含聲音信息的數(shù)據(jù)包(例如實(shí)時(shí)傳輸協(xié)議(RTP)包)。以信號(hào)通知TBS的一個(gè)示例方式是在第一數(shù)據(jù)包的RTP首標(biāo)中設(shè)置RTP標(biāo)記位。講話突發(fā)結(jié)束(TBE)標(biāo)識(shí)講話突發(fā)的結(jié)束,例如當(dāng)前RTP媒體包是當(dāng)前講話突發(fā)的最后一個(gè)數(shù)據(jù)包。以信號(hào)通知TBE的一個(gè)示例方式是在最后一個(gè)數(shù)據(jù)包中包含RTP首標(biāo)擴(kuò)展。
在通過(guò)蜂窩技術(shù)采用基于IP的語(yǔ)音(VoIP)的PTT服務(wù)中,建立時(shí)間和傳輸延遲因許多因素而可能過(guò)長(zhǎng)。
-編碼器緩沖時(shí)間。為了節(jié)省IP/UDP/RTP首標(biāo)開(kāi)銷,即使未使用首標(biāo)壓縮,若干語(yǔ)音幀也被封裝在同一個(gè)IP/UDP/RTP數(shù)據(jù)包中。例如,如果10個(gè)語(yǔ)音幀被裝入一個(gè)RTP數(shù)據(jù)包,以及如果語(yǔ)音幀對(duì)應(yīng)于20毫秒的語(yǔ)音,則編碼器緩沖時(shí)間為200毫秒。
-解碼器緩沖時(shí)間。在接收機(jī)中需要抖動(dòng)緩沖器或幀緩沖器來(lái)補(bǔ)償在分組交換網(wǎng)絡(luò)中出現(xiàn)的延遲抖動(dòng)。典型的抖動(dòng)緩沖器通常緩沖一個(gè)或幾個(gè)IP包。對(duì)于10幀/包以及抖動(dòng)緩沖器中的3個(gè)數(shù)據(jù)包,解碼器緩沖時(shí)間為600毫秒。
-信道分配時(shí)間。數(shù)據(jù)信道通常是共享資源,以及客戶機(jī)需要在可開(kāi)始實(shí)際傳送之前分配傳輸能力。需要與管理信道分配的無(wú)線電網(wǎng)絡(luò)節(jié)點(diǎn)的握手過(guò)程。這個(gè)握手過(guò)程通常耗費(fèi)大約幾百毫秒。
-傳輸和重傳時(shí)間。無(wú)線電通信因無(wú)線電接口的性質(zhì)而遇到大量差錯(cuò)。因此,通信協(xié)議需要實(shí)現(xiàn)檢錯(cuò)和糾錯(cuò)策略,例如信道編碼、交織和重傳(例如ARQ)。因此,甚至更多的信息必須在已經(jīng)受限的無(wú)線電信道上傳送。當(dāng)接收機(jī)要求重傳沒(méi)有正確接收的數(shù)據(jù)包時(shí),延遲可能增加到多達(dá)150-200毫秒,取決于所丟失的數(shù)據(jù)包的部分。
-PTT服務(wù)器中的發(fā)言權(quán)控制。發(fā)言權(quán)控制信令通過(guò)空中接口來(lái)執(zhí)行,它至少耗費(fèi)大約200-300毫秒。如果必須等待他人停止講話,則這個(gè)時(shí)間會(huì)更長(zhǎng)。
-客戶機(jī)中的發(fā)言權(quán)控制。由于分組交換網(wǎng)絡(luò)中的變化延遲以及由于通過(guò)無(wú)線電接口的不可靠傳輸,包含發(fā)言權(quán)控制消息或講話突發(fā)信令的數(shù)據(jù)包可能被延遲或甚至丟失。這通過(guò)在客戶機(jī)中通常采用一組定時(shí)器來(lái)實(shí)現(xiàn)本地發(fā)言權(quán)控制功能進(jìn)行處理。本地發(fā)言權(quán)控制在一些情況中可能添加附加延遲。
所有這些因素構(gòu)成相當(dāng)長(zhǎng)的延遲,通常大約為一秒或幾秒。這在單一的單向通信中不是大問(wèn)題。但是在對(duì)話中,當(dāng)活動(dòng)發(fā)言方在不同人員之間轉(zhuǎn)換時(shí),長(zhǎng)延遲令人煩惱。長(zhǎng)延遲被感知為發(fā)送語(yǔ)音(講話)至聽(tīng)到其他用戶的響應(yīng)之間的長(zhǎng)“轉(zhuǎn)換時(shí)間”。
兩個(gè)用戶之間的典型對(duì)話如圖2所示,并且示出各種延遲。用戶/客戶機(jī)通過(guò)向用戶/客戶機(jī)B發(fā)送講話突發(fā)(句子1)開(kāi)始。用戶B需要一些時(shí)間來(lái)考慮答案,然后向用戶A作出響應(yīng)(句子2)。對(duì)話無(wú)疑可通過(guò)更多消息(句子)繼續(xù)進(jìn)行,但是這兩個(gè)句子足以說(shuō)明延遲效果??紤]以下不同的延遲-初始延遲di。
-句子1的傳輸延遲di1。注意,例如,如果句子的某個(gè)部分在初始延遲期間被記錄和緩沖,然后再以較高速度被發(fā)送,則di1不需要與di完全相同。為了簡(jiǎn)潔起見(jiàn),我們假定在本描述中di1=di。
-用戶B的考慮時(shí)間db。
-句子2的傳輸延遲di2。
-用戶A遇到的轉(zhuǎn)換延遲ds。
從圖2可以看到,轉(zhuǎn)換延時(shí)ds為ds=di1+db+di2(等式1) 注意,如果用戶B打斷用戶A,則在全雙工通信中,轉(zhuǎn)換延時(shí)實(shí)際上可能感知為負(fù)數(shù)。在這種情況中,根據(jù)這個(gè)定義,db為負(fù)數(shù)。但是在PTT中,如果發(fā)言權(quán)控制一次僅允許一個(gè)活動(dòng)發(fā)言人、因而禁止用戶B打斷用戶A,則轉(zhuǎn)換延時(shí)不會(huì)小于零。
用戶注意到的延遲是轉(zhuǎn)換延遲ds。根據(jù)面對(duì)面和電話通信經(jīng)驗(yàn),大部分用戶對(duì)于轉(zhuǎn)換時(shí)間延遲具有一些期望。如果轉(zhuǎn)換延遲比預(yù)期更長(zhǎng),則用戶將會(huì)不滿意服務(wù)質(zhì)量,特別是在期待快速響應(yīng)的情況中。一個(gè)實(shí)例是當(dāng)一個(gè)用戶向另一個(gè)用戶詢問(wèn)不需要太多時(shí)間考慮適當(dāng)響應(yīng)的簡(jiǎn)單問(wèn)題時(shí)。
已經(jīng)進(jìn)行理論分析和實(shí)際測(cè)試來(lái)估算這些延遲。它們已經(jīng)表明,第一句子的傳輸延遲di1可能大約為3秒或者更多。對(duì)于后續(xù)句子,傳輸延遲di2、di3、...、diN大約為1秒,不包括因信道差錯(cuò)而重傳的額外延遲。第一句子的額外延遲的原因是所需的建立時(shí)間。這種建立可對(duì)于后續(xù)句子預(yù)先進(jìn)行,以便節(jié)省一些時(shí)間。
甚至例如低于0.3-0.5秒的小傳輸延遲也可能是明顯的。對(duì)于例如高達(dá)1-2秒的較長(zhǎng)延遲,感知質(zhì)量明顯降低,而且用戶甚至可能變得煩惱和生氣。當(dāng)一個(gè)用戶詢問(wèn)另一個(gè)用戶他/她是否仍然可接通時(shí),大約5-10秒的長(zhǎng)延遲甚至可能觸發(fā)附加傳送。在嚴(yán)重的情況下,用戶可能開(kāi)始懷疑消息是否被正確轉(zhuǎn)發(fā)、或者是否丟失或者甚至懷疑服務(wù)是否被中斷。
延遲對(duì)于感知服務(wù)質(zhì)量具有大影響,比包括語(yǔ)音編解碼器在內(nèi)的大多數(shù)其它降級(jí)因素更大。因此,重要的是減少感知延遲,以便增加服務(wù)可提供的交互性等級(jí)的感知。
用戶通信中增強(qiáng)的感知交互性通過(guò)減少所感知的轉(zhuǎn)換延遲來(lái)取得,這可通過(guò)許多方式、例如通過(guò)減少傳輸和建立延遲來(lái)實(shí)現(xiàn)。本發(fā)明說(shuō)明如何進(jìn)行而無(wú)需減少實(shí)際傳輸和建立延遲。首先,識(shí)別用戶通信中的聲音信號(hào)。聲音信號(hào)則經(jīng)過(guò)分析以便識(shí)別或估算聲音信號(hào)段的開(kāi)始和結(jié)束點(diǎn)。聲音信號(hào)段優(yōu)選地(但不一定)處于聲音信號(hào)的開(kāi)始或結(jié)束處。聲音信號(hào)段可直接從聲音信號(hào)本身、從聲音信號(hào)的修改形式或者從與聲音信號(hào)關(guān)聯(lián)的信號(hào)中選取。確定是否應(yīng)當(dāng)或者可以修改聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間。聲音信號(hào)段的一個(gè)或多個(gè)修改被確定并提供給一個(gè)或多個(gè)處理單元以執(zhí)行修改。
附圖簡(jiǎn)介 圖1說(shuō)明在其中可有利地采用本發(fā)明的非限制性的示例PTT通信系統(tǒng); 圖2說(shuō)明示例時(shí)序圖,表示構(gòu)成轉(zhuǎn)換延時(shí)的各種延遲; 圖3A-3D是流程圖,說(shuō)明增強(qiáng)用戶通信中的感知交互性的示例過(guò)程; 圖4A說(shuō)明增強(qiáng)PTT系統(tǒng)、如圖1所示的PTT系統(tǒng)中的感知交互性的非限制性示例實(shí)現(xiàn); 圖4B說(shuō)明增強(qiáng)PTT系統(tǒng)、如圖1所示的PTT系統(tǒng)中的感知交互性的僅含發(fā)射機(jī)的非限制性示例實(shí)現(xiàn); 圖4C說(shuō)明增強(qiáng)PTT系統(tǒng)、如圖1所示的PTT系統(tǒng)中的感知交互性的僅含接收機(jī)的非限制性示例實(shí)現(xiàn); 圖5說(shuō)明示例時(shí)序圖,說(shuō)明縮短句子的結(jié)束如何可增強(qiáng)非限制性PTT通信上下文中的感知交互性;以及 圖6說(shuō)明示例時(shí)序圖,說(shuō)明延長(zhǎng)句子的開(kāi)始如何可增強(qiáng)非限制性PTT通信上下文中的感知交互性。
詳細(xì)說(shuō)明 為了說(shuō)明而不是限制的目的,以下說(shuō)明闡述具體細(xì)節(jié),例如具體實(shí)施例、過(guò)程、技術(shù)等。但是,本領(lǐng)域的技術(shù)人員很清楚,也可采用與這些具體細(xì)節(jié)不同的其它實(shí)施例。例如,雖然采用對(duì)PTT通信系統(tǒng)的非限制性示例應(yīng)用來(lái)幫助以下說(shuō)明,但是本發(fā)明可用于屬于半雙工、全雙工、單工等的任何基于IP的語(yǔ)音(VoIP)類型的通信。單工音頻的一個(gè)實(shí)例是“聊天”通信,在其中,一個(gè)用戶發(fā)送聲音信號(hào)(語(yǔ)音),而另一個(gè)用戶則采用文本消息來(lái)響應(yīng)。而且雖然在蜂窩無(wú)線電通信的上下文中編寫本說(shuō)明,但是,本發(fā)明適用于其它無(wú)線電系統(tǒng)(例如私有無(wú)線電系統(tǒng))以及電路交換和分組交換有線電話。實(shí)際上,本發(fā)明可適用于在其中希望修改聲音信號(hào)的一部分以便增強(qiáng)感知通信交互性的任何應(yīng)用。
在一些情況下,省略對(duì)眾所周知的方法、接口、裝置和信令技術(shù)的詳細(xì)說(shuō)明,以免不必要的細(xì)節(jié)妨礙本說(shuō)明。此外還在一些附圖中給出各個(gè)塊。本領(lǐng)域的技術(shù)人員會(huì)理解,這些功能可采用各個(gè)硬件電路、結(jié)合適當(dāng)編程的數(shù)字微處理器或通用計(jì)算機(jī)使用軟件程序和數(shù)據(jù)、采用專用集成電路(ASIC)和/或采用一個(gè)或多個(gè)數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)。
為了本說(shuō)明的目的,術(shù)語(yǔ)“聲音信號(hào)”包含任何音頻信號(hào),例如語(yǔ)音、音樂(lè)、靜寂、背景噪聲、信號(hào)音以及它們的任何組合/混合。術(shù)語(yǔ)“聲音信號(hào)段”包含聲音信號(hào)的任何部分,其中甚至包括單個(gè)聲音信號(hào)樣本或者單個(gè)音調(diào)周期、甚至必要時(shí)包括整個(gè)聲音信號(hào)。術(shù)語(yǔ)“聲音信號(hào)段”還包含描述聲音信號(hào)的任何部分的一個(gè)或多個(gè)參數(shù)。聲音信號(hào)段的一個(gè)非限制性實(shí)例可以是音頻信號(hào)的一部分,例如語(yǔ)音、音樂(lè)、靜寂、背景噪聲、信號(hào)音或者任何組合。在CELP語(yǔ)音編碼的示例上下文中的聲音信號(hào)參數(shù)的非限制性實(shí)例包括線性預(yù)測(cè)編碼(LPC)、音調(diào)預(yù)測(cè)器滯后、碼本索引、增益系數(shù)等等。
圖3A是流程圖,說(shuō)明能夠在一臺(tái)或多臺(tái)計(jì)算機(jī)或者其它電子電路上實(shí)現(xiàn)的、用于減少通信交換中涉及的用戶的感知延遲而無(wú)需減少與通信交換關(guān)聯(lián)的實(shí)際建立和傳輸延遲的示例過(guò)程。識(shí)別用戶通信中的聲音信號(hào)(框S1)。聲音信號(hào)經(jīng)過(guò)分析以便識(shí)別或估算優(yōu)選地但不一定處于聲音信號(hào)的開(kāi)始和/或結(jié)束處的聲音信號(hào)段(框S2)??騍2包括直接從聲音信號(hào)本身選擇段,從聲音信號(hào)的修改形式選擇段,或者從與聲音信號(hào)關(guān)聯(lián)的信號(hào)中選擇段。進(jìn)行應(yīng)當(dāng)或者可以修改聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間的確定,并確定一個(gè)或多個(gè)適當(dāng)?shù)男薷?框S3)。
聲音信號(hào)段修改可能是任何修改,例如縮短、延長(zhǎng)、刪除、添加、過(guò)濾、再抽樣等。如果聲音信號(hào)段的修改形式要被修改,則與段相關(guān)的參數(shù)可能被修改。在一個(gè)LPC實(shí)例中,LPC編解碼器通常產(chǎn)生/編碼LPC剩余部分,作為兩個(gè)激勵(lì)向量之和。一個(gè)是音調(diào)預(yù)測(cè)器激勵(lì)向量,它通常采用音調(diào)預(yù)測(cè)器滯后參數(shù)(音調(diào)脈沖間隔)和增益系數(shù)參數(shù)來(lái)描述。另一個(gè)是碼本激勵(lì)向量,它通常是時(shí)域信號(hào),但采用碼本索引來(lái)編碼,并采用增益系數(shù)來(lái)放大。在這個(gè)實(shí)例中可能修改的參數(shù)包括LPC剩余部分、音調(diào)預(yù)測(cè)器激勵(lì)向量、音調(diào)預(yù)測(cè)器滯后、音調(diào)脈沖間隔、增益系數(shù)、碼本激勵(lì)向量或其它碼本參數(shù)。其它參數(shù)變更無(wú)疑也是可能的。作為一個(gè)實(shí)例,向量長(zhǎng)度可能未被修改,而是改變從向量中使用的樣本的數(shù)量。例如,如果接收機(jī)僅重放幀的前半部分而忽略其余樣本。
來(lái)自框S3的信息被提供給被指定執(zhí)行修改的一個(gè)或多個(gè)處理單元(框S4)。聲音信號(hào)段經(jīng)過(guò)修改以增強(qiáng)用戶通信中的感知交互性(框S5)。一個(gè)或多個(gè)修改可分開(kāi)進(jìn)行或者相互結(jié)合進(jìn)行。修改增強(qiáng)了感知交互性-更短的延遲-而無(wú)需減少實(shí)際傳輸和/或建立延遲。但是,修改優(yōu)選地與實(shí)際傳輸和/或建立延遲減少技術(shù)一起使用。
圖3A所示的方法步驟無(wú)需以所示順序來(lái)實(shí)現(xiàn)。任何適當(dāng)?shù)捻樞蚴强山邮艿?。?shí)際上,這些步驟的兩個(gè)或兩個(gè)以上可根據(jù)需要并行執(zhí)行。例如,圖3B說(shuō)明另一個(gè)實(shí)例,其中的方法步驟S1-S5具有不同的順序以及略有不同的判定步驟。圖3C說(shuō)明步驟S1-S7,在其中,聲音信號(hào)段選擇以及最佳地修改段的方式為并行過(guò)程。即使沒(méi)有判定段長(zhǎng)度應(yīng)當(dāng)修改,這些并行過(guò)程也可根據(jù)需要或多或少地連續(xù)工作,以便在必須進(jìn)行修改時(shí)使系統(tǒng)反應(yīng)更迅速。圖3D說(shuō)明步驟S1-S7中的綜合分析方法。實(shí)質(zhì)上嘗試所有可能的變體,以及選擇最佳的一個(gè)。這也可采取更“結(jié)構(gòu)化”方式來(lái)進(jìn)行,例如 嘗試首先僅修改靜寂和/或背景噪聲段。如果這還不夠,則嘗試修改清音段。如果這與靜寂和背景噪聲段的可能修改一起是足夠的,則此過(guò)程結(jié)束。如果不是,則繼續(xù)處理穩(wěn)定濁音段。如果這與靜寂和背景噪聲段以及清音段的修改一起是足夠的,則此過(guò)程結(jié)束。如果沒(méi)有,則...等等。此過(guò)程繼續(xù)處理其它段類型,直至達(dá)到關(guān)于應(yīng)當(dāng)修改整個(gè)段的長(zhǎng)度的程度的目標(biāo)等級(jí)。采用這種結(jié)構(gòu)化方式的好處在于,長(zhǎng)度修改比其它段類型“更易于”應(yīng)用到某些段類型?!案子凇痹谶@里表示具有最小可能聲音質(zhì)量降級(jí)的最大可能修改。這種結(jié)構(gòu)化方式的方法步驟順序同樣只是一個(gè)實(shí)例,并且可以變更。
采用這種結(jié)構(gòu)化方式的實(shí)際考慮取決于相對(duì)于整個(gè)講話突發(fā)/句子的長(zhǎng)度的段長(zhǎng)度。對(duì)于存在極少預(yù)測(cè)并且緩沖器小的實(shí)時(shí)電話,可能無(wú)法進(jìn)行這種操作。但是在PTT中,緩沖可能更長(zhǎng),以及傳輸和建立延遲通常更長(zhǎng),使這種結(jié)構(gòu)化方式更具有吸引力,因?yàn)橛懈嗦曇粢M(jìn)行處理。
以上示例方式以非限制性方式說(shuō)明本發(fā)明的實(shí)現(xiàn)的靈活性。方法步驟的順序不作規(guī)定或者不是關(guān)鍵。在任何方法中,長(zhǎng)度修改以受控方式進(jìn)行以使任何失真為最小,因?yàn)橥蝗弧扒懈睢甭曇舢a(chǎn)生大量不希望的失真。
下面描述減少通信交換中涉及的用戶的感知延遲而無(wú)需減少與通信交換關(guān)聯(lián)的實(shí)際建立和傳輸延遲的各種非限制性的示例方式??刹捎脤?shí)現(xiàn)這個(gè)目標(biāo)的其它技術(shù)、實(shí)現(xiàn)和實(shí)施例。一般來(lái)說(shuō),聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間在向收聽(tīng)用戶播放之前經(jīng)過(guò)修改。被選擇進(jìn)行修改的段通常(但不一定)比聲音信號(hào)更短,以及通常(但不一定)對(duì)段的一部分、例如一個(gè)樣本或一組樣本進(jìn)行修改。例如,可在濁音期間插入或刪除的適當(dāng)部分是整個(gè)音調(diào)周期(在8kHz抽樣率通常為20-140個(gè)樣本)。在噪聲期間,可插入或刪除的適當(dāng)部分可能是數(shù)百毫秒到數(shù)秒。
下面描述的幾個(gè)示例方法可用來(lái)縮短聲音信號(hào)段的結(jié)束或者延長(zhǎng)聲音信號(hào)段的開(kāi)始。可采用其它方法,以及可修改聲音信號(hào)段中的其它位置。通過(guò)縮短聲音信號(hào)段的結(jié)束,接收用戶更早注意到聲音信號(hào)、如句子已經(jīng)結(jié)束,它允許接收用戶更早進(jìn)行響應(yīng)。通過(guò)延長(zhǎng)聲音信號(hào)的開(kāi)始處的聲音信號(hào)段,接收用戶將更早注意到正在接收消息,即使僅添加(或插入)背景噪聲。
考慮以下非限制性實(shí)例。如果聲音信號(hào)是“Should we goto the movie soon?”(我們不久去看電影?),則適當(dāng)修改可能是縮短“soon”中的長(zhǎng)“o”音以及問(wèn)號(hào)之后的任何靜寂周期。如果聲音信號(hào)是“Should we go to the movie soon?I’m ready in 5 minutes,”(我們不久去看電影?我在5分鐘后準(zhǔn)備好),則“...soon?”與“I’m...”之間的小停頓可能被選擇進(jìn)行減少。
在大部分情況中,如果修改方法適合信號(hào)的類型、如濁音、清音、靜寂、背景噪聲等,則得到更好的結(jié)果。所有單詞通常具有一個(gè)或幾個(gè)“濁音段”、“清音段”以及“起音”。以及在單詞之間,通常存在“靜寂”或“背景噪聲”的短周期?!皾嵋簟倍问蔷哂小耙粽{(diào)”的聲音,以及音調(diào)在使用聲帶時(shí)產(chǎn)生。“清音”段包括未使用聲帶時(shí)的聲音。在單詞“段”中,例如,“e”音為濁音,以及“s”、“g”、“m”、“n”和“t”為清音。例如清音、濁音和起音等的語(yǔ)音由人產(chǎn)生,而靜寂和背景噪聲則通常由周圍環(huán)境產(chǎn)生。
下面所述的實(shí)現(xiàn)主要設(shè)計(jì)用于在用戶通信終端或“客戶機(jī)”中工作,因?yàn)樗鼈円呀?jīng)具有語(yǔ)音編碼和解碼能力。雖然許多網(wǎng)絡(luò)服務(wù)器不執(zhí)行語(yǔ)音編碼和解碼,但是,如果服務(wù)器可執(zhí)行語(yǔ)音編碼和解碼,則本發(fā)明可在服務(wù)器、例如圖1的PTT服務(wù)器中實(shí)現(xiàn)。僅為了在半雙工的基于PTT的上下文中進(jìn)行說(shuō)明而描述以下實(shí)現(xiàn)。但是這些原理同樣適用于全雙工(雙向)對(duì)話,只不過(guò)沒(méi)有表明講話突發(fā)的開(kāi)始或結(jié)束的PTT按鈕。僅對(duì)于以下PTT實(shí)例,聲音信號(hào)對(duì)應(yīng)于通常自按下PTT按鈕到松開(kāi)它時(shí)由一個(gè)用戶所說(shuō)的一個(gè)句子。以下實(shí)例說(shuō)明兩個(gè)人之間的通信,但它們同樣適用于組通信。
同樣參照用于圖1所示的PTT的示例VoIP系統(tǒng),移動(dòng)無(wú)線電12包括收發(fā)信機(jī)13和控制電路,移動(dòng)無(wú)線電14包括收發(fā)信機(jī)15和控制電路,兩個(gè)基站18和22包括各自的收發(fā)信機(jī)19、23和控制電路,以及PTT服務(wù)器20可根據(jù)系統(tǒng)設(shè)計(jì)、服務(wù)和/或目的可選地包括收發(fā)信機(jī)15和控制電路。
作為適用于圖1所示的PTT通信系統(tǒng)的圖3的一個(gè)非限制性應(yīng)用,可執(zhí)行以下步驟(不一定以這種順序,并且可并行執(zhí)行某些步驟)。
1-根據(jù)聲音信號(hào)執(zhí)行分析,以便查找聲音信號(hào)的開(kāi)始或結(jié)束,估算聲音信號(hào)可能開(kāi)始或結(jié)束的可能性,估算不可能開(kāi)始或結(jié)束的可能性或者這些估算的組合。
2-根據(jù)步驟1中的分析,判定聲音信號(hào)的結(jié)束是否可能以及應(yīng)當(dāng)被縮短,或者信號(hào)的開(kāi)始是否可能以及應(yīng)當(dāng)被延長(zhǎng)。判定適合的動(dòng)作的類型。采用樣本號(hào)或幀號(hào)來(lái)確定聲音信號(hào)中的準(zhǔn)確修改位置。
3-把來(lái)自步驟2的信息提供給將對(duì)聲音信號(hào)施加修改的單元。
4-把修改施加于聲音信號(hào),并對(duì)收聽(tīng)用戶產(chǎn)生已修改信號(hào)。這個(gè)步驟可包括修改或忽略步驟2進(jìn)行的判定,取決于用于傳送媒體包的信道或網(wǎng)絡(luò)的特性。
對(duì)聲音信號(hào)的修改可按照不同方式來(lái)實(shí)現(xiàn)。一種方式是僅發(fā)射機(jī)、基于語(yǔ)音編碼器的配置。以上所有步驟都在發(fā)射機(jī)中進(jìn)行,以及對(duì)聲音信號(hào)的修改在發(fā)送編碼聲音信息之前進(jìn)行。另一種方式是僅接收機(jī)、基于語(yǔ)音解碼器的配置。以上所有步驟都在接收機(jī)中進(jìn)行,以及對(duì)聲音信號(hào)的修改在接收編碼聲音信息之后進(jìn)行。僅發(fā)射機(jī)或者僅接收機(jī)的實(shí)現(xiàn)的優(yōu)點(diǎn)是與未修改客戶機(jī)的后向兼容性。
第三種方式是分布式配置。步驟1和2可在發(fā)送編碼聲音信息之前在發(fā)射機(jī)中執(zhí)行,以及步驟4可在接收編碼聲音信息之后在接收機(jī)中執(zhí)行。步驟3可采用與用于媒體包的相同的信道或網(wǎng)絡(luò)來(lái)執(zhí)行。分布式配置可包括在接收機(jī)中重復(fù)步驟1和/或步驟2。
分布式配置可能是優(yōu)選的,因?yàn)榫幋a器更好地了解原始信號(hào),以及解碼器了解任何傳輸特性。它具有未因編碼過(guò)程失真的原始信號(hào)。如果若干語(yǔ)音幀在把數(shù)據(jù)包發(fā)送到接收機(jī)之前被封裝入數(shù)據(jù)包,則編碼器還可有權(quán)訪問(wèn)信號(hào)的較大部分。許多語(yǔ)音編碼器還具有用于編碼器處理中的預(yù)測(cè)能力。此外,解碼器了解延遲抖動(dòng),它可能對(duì)于可進(jìn)行修改的侵入程度有影響。
現(xiàn)在參照繼續(xù)非限制性PTT實(shí)例的圖4A,每個(gè)收發(fā)信機(jī)30包括發(fā)射機(jī)32和接收機(jī)36。在圖4A所示的實(shí)例中,發(fā)射機(jī)32屬于向用戶B發(fā)送聲音信號(hào)的用戶A,以及接收機(jī)36屬于從用戶A接收聲音信號(hào)的用戶B。發(fā)射機(jī)32通過(guò)適當(dāng)?shù)木W(wǎng)絡(luò)34耦合到接收機(jī)36。一個(gè)示例網(wǎng)絡(luò)是圖1所示的無(wú)線電接入網(wǎng)16。在這個(gè)實(shí)例中,聲音信號(hào)標(biāo)記為語(yǔ)音,它被變換為媒體包并采用媒體包來(lái)傳遞??刂菩帕罘珠_(kāi)表示為點(diǎn)劃線。
用戶A的無(wú)線電終端向發(fā)射機(jī)控制器38發(fā)送按鈕信號(hào)以便接通或斷開(kāi)發(fā)射機(jī)32。TX控制器還控制/管理例如在施加任何修改時(shí)以及在任何信令作為帶內(nèi)信令被添加時(shí)語(yǔ)音編碼器和打包器的工作方式。只要按下按鈕,則產(chǎn)生媒體包。按鈕信號(hào)在常規(guī)全雙工通信中不存在,但是可從發(fā)射機(jī)中所提供的語(yǔ)音活動(dòng)檢測(cè)器(VAD)產(chǎn)生相似信號(hào)。語(yǔ)音編碼器42壓縮聲音信號(hào)以減少傳輸所需的所要求網(wǎng)絡(luò)資源。語(yǔ)音編解碼器的一個(gè)實(shí)例是AMR編解碼器,在其中,聲音信號(hào)在20毫秒的幀中被處理,以及信號(hào)從64千位/秒(8kHz抽樣,8位μ律或A律)壓縮到4.75和12.2千位/秒之間。語(yǔ)音編碼器42優(yōu)選地具有語(yǔ)音活動(dòng)檢測(cè)器(VAD)以檢測(cè)聲音信號(hào)中是否存在語(yǔ)音。如果信號(hào)僅包含背景噪聲或靜寂,則語(yǔ)音編碼器42從語(yǔ)音編碼轉(zhuǎn)換到背景噪聲編碼,并開(kāi)始產(chǎn)生靜寂描述符(SID)幀來(lái)代替常規(guī)語(yǔ)音數(shù)據(jù)幀。背景噪聲的特性緩慢地變化,比語(yǔ)音慢很多。這個(gè)屬性用于僅定期發(fā)送SID幀,例如,在AMR中,每160毫秒發(fā)送一個(gè)SID幀。這在背景噪聲段期間顯著減少所要的網(wǎng)絡(luò)資源。另外,背景噪聲的長(zhǎng)度可易于增加或減少而沒(méi)有任何性能降級(jí)。SID幀中的參數(shù)通常僅描述背景噪聲的頻譜和能級(jí)而不描述任何單獨(dú)樣本。存在產(chǎn)生連續(xù)的SID幀(舒適噪聲幀)流的其它語(yǔ)音編碼器標(biāo)準(zhǔn),例如CDMA2000編解碼器規(guī)范IS-127、IS-733和IS-893。對(duì)于這些編解碼器,舒適噪聲采用極低比特率進(jìn)行編碼,作為連續(xù)流傳送而不是發(fā)送不連續(xù)流。
若干語(yǔ)音幀可在傳送之前共同封裝入IP/UDP/RTP包(媒體包)。如果沒(méi)有使用首標(biāo)壓縮,則IP、UDP和RTP首標(biāo)是整個(gè)數(shù)據(jù)包的基本部分。在IP/UDP/RTP中,封裝單元44構(gòu)建RTP、UDP和IP包。封裝單元44可分為若干封裝單元,例如一個(gè)用于RTP,一個(gè)用于UDP,以及一個(gè)用于IP。在RTP包的構(gòu)建中,封裝單元44在RTP首標(biāo)中設(shè)置標(biāo)記位和時(shí)標(biāo)值。當(dāng)聲音從靜寂或背景噪聲改變?yōu)檎Z(yǔ)音時(shí),標(biāo)記位對(duì)于起音幀通常設(shè)置為1,從而發(fā)信號(hào)通知媒體流中緩沖器修改極為適合的適當(dāng)位置。網(wǎng)絡(luò)節(jié)點(diǎn)可利用這個(gè)位來(lái)重置緩沖器。時(shí)標(biāo)對(duì)應(yīng)于當(dāng)前RTP包中的編碼聲音信號(hào)的第一聲音樣本的時(shí)間。編碼聲音信號(hào)的長(zhǎng)度(以樣本數(shù)量表示)用于對(duì)后續(xù)RTP包增加時(shí)標(biāo)。例如,如果160個(gè)樣本的10幀(=20毫秒)共同封裝入各RTP包,則時(shí)標(biāo)被增加,其中對(duì)于各RTP包10*160=1600。語(yǔ)音編碼器42和封裝單元44由發(fā)射機(jī)控制器38控制,它本身由語(yǔ)音分析器40控制。
在接收機(jī)36,所接收數(shù)據(jù)包在被拆包之前首先存儲(chǔ)在抖動(dòng)緩沖器46中。數(shù)據(jù)包因傳輸延遲抖動(dòng)而以不規(guī)則間隔到達(dá)抖動(dòng)緩沖器46。抖動(dòng)緩沖器46均衡延遲抖動(dòng),使得語(yǔ)音解碼器56以規(guī)則間隔、例如每20毫秒接收語(yǔ)音幀。抖動(dòng)緩沖器46可結(jié)合嘗試使緩沖器等級(jí)(緩沖器中的數(shù)據(jù)包數(shù)量)保持大致恒定的適配機(jī)制。當(dāng)檢測(cè)到其中設(shè)置了表明講話突發(fā)的開(kāi)始的標(biāo)記位的RTP包時(shí),SID幀可添加到抖動(dòng)緩沖器(或者幀緩沖器)中或者從其中刪除。如果使用幀緩沖器52,則抖動(dòng)緩沖器46是可選的。
拆包單元48把所接收數(shù)據(jù)包拆包為語(yǔ)音幀,并刪除IP、UDP和RTP首標(biāo)。拆包單元48可能是抖動(dòng)緩沖器46或者幀緩沖器52的一部分。如果若干語(yǔ)音幀被封裝入同一個(gè)媒體包,則具有幀緩沖器52而不是抖動(dòng)緩沖器46是有用的。幀緩沖器功能性與抖動(dòng)緩沖器相似,其中包括適配機(jī)制,但是它對(duì)語(yǔ)音幀而不是RTP包起作用。采用幀緩沖器代替抖動(dòng)緩沖器的優(yōu)點(diǎn)是增加的分辨率--如果若干語(yǔ)音幀被封裝入同一個(gè)包。如果使用抖動(dòng)緩沖器46,則幀緩沖器52是可選的。幀緩沖器52也可集成到抖動(dòng)緩沖器46中。
語(yǔ)音解碼器56從媒體包產(chǎn)生聲音信號(hào)。當(dāng)僅每N幀接收SID幀時(shí),舒適噪聲生成(CNG)在靜寂或背景噪聲周期中由語(yǔ)音解碼器56產(chǎn)生。CNG對(duì)于各語(yǔ)音幀間隔建立隨機(jī)激勵(lì)向量。激勵(lì)向量采用SID幀中包含的頻譜參數(shù)和增益系數(shù)來(lái)過(guò)濾,從而產(chǎn)生聽(tīng)起來(lái)與原始背景噪聲相似的聲音信號(hào)。所接收SID幀參數(shù)通常從先前接收的SID幀進(jìn)行內(nèi)插,以便避免頻譜以及聲音電平中的不連續(xù)。
語(yǔ)音解碼器56和任何幀緩沖器52由通過(guò)網(wǎng)絡(luò)34所接收的控制信令以及由接收機(jī)控制器54控制。如果信令集成在媒體包中,則接收機(jī)控制器54可利用來(lái)自封裝分析器50的信息。封裝分析器50還從拆包單元48和抖動(dòng)緩沖器46接收信息。
語(yǔ)音分析器40根據(jù)語(yǔ)音信號(hào)或者根據(jù)從語(yǔ)音信號(hào)導(dǎo)出的參數(shù)來(lái)確定聲音信號(hào)的性質(zhì)。例如,語(yǔ)音分析器40確定語(yǔ)音段是濁音、清音、噪聲還是靜寂;是穩(wěn)定(當(dāng)聲音沒(méi)有從幀到幀改變(或者沒(méi)有顯著改變)時(shí))還是非穩(wěn)定(當(dāng)有(顯著)變化時(shí));是音量提高還是漸弱;或者它是否包含語(yǔ)音起音(從背景噪聲轉(zhuǎn)到語(yǔ)音)。這些屬性用來(lái)查找聲音信號(hào)中的適當(dāng)位置供修改。
一個(gè)備選方案是讓語(yǔ)音分析器40估算似然特性。例如,大部分句子以漸弱周期結(jié)束。因此,在信號(hào)的這類部分期間句子結(jié)束的可能性高。這種屬性可用于縮短甚至松開(kāi)PTT按鈕之前的聲音信號(hào)。還可估算相反的可能性,即句子將延續(xù)某個(gè)時(shí)間。對(duì)于語(yǔ)音起音段以及對(duì)于穩(wěn)定語(yǔ)音段,這種可能性高,因?yàn)檫@些段之后通常跟隨更多語(yǔ)音段而不是跟隨靜寂或背景噪聲。
語(yǔ)音分析器40可集成在語(yǔ)音編碼器中,或者可能是圖4A所示的分開(kāi)功能。如果采用僅接收機(jī)的解決方案,則在接收機(jī)36中可能需要與發(fā)射機(jī)32中的語(yǔ)音分析器40相似的語(yǔ)音分析器。
發(fā)射機(jī)控制器38除了管理發(fā)射機(jī)32中的整體功能性之外,還判定聲音信號(hào)是否應(yīng)當(dāng)延長(zhǎng)或縮短以及信號(hào)中應(yīng)當(dāng)施加修改之處。修改判定可基于在語(yǔ)音分析器40中所確定的聲音信號(hào)的類型,以及在通信為PTT通信時(shí)還可能可選地基于PTT按鈕信號(hào)。發(fā)射機(jī)控制器38還可采用來(lái)自返回路徑的相應(yīng)信號(hào),即在所接收語(yǔ)音信號(hào)中。通常,在客戶機(jī)A發(fā)送媒體包時(shí),客戶機(jī)B將向客戶機(jī)A發(fā)送某種反饋信息(例如延遲、延遲抖動(dòng)、丟包)。當(dāng)修改聲音信號(hào)時(shí),這種反饋信息可在客戶機(jī)A中使用。
對(duì)于要在發(fā)射機(jī)32中執(zhí)行的聲音信號(hào)的修改,發(fā)射機(jī)控制器38向封裝單元44和/或語(yǔ)音編碼器42發(fā)送命令。對(duì)于應(yīng)當(dāng)在接收機(jī)中執(zhí)行的聲音信號(hào)的修改,發(fā)射機(jī)控制器38通過(guò)網(wǎng)絡(luò)向接收機(jī)控制器54發(fā)送信號(hào)。在僅接收機(jī)的實(shí)現(xiàn)中不需要發(fā)射機(jī)控制器38。
語(yǔ)音編碼器42可應(yīng)用由發(fā)射機(jī)控制器38判定的基于樣本的修改。實(shí)例包括以下所述的修改方法一、三、四和五。聲音信號(hào)的長(zhǎng)度可在編碼之前修改,在這種情況中,修改將在語(yǔ)音編碼器42中或者在語(yǔ)音編碼器42之前的分開(kāi)單元中執(zhí)行。因此,修改可基于樣本來(lái)進(jìn)行,而不是如修改將在封裝單元44中執(zhí)行時(shí)的情況那樣基于整個(gè)幀來(lái)進(jìn)行。這種方法在僅發(fā)射機(jī)的實(shí)現(xiàn)中特別有用。
封裝單元44應(yīng)用由發(fā)射機(jī)控制器38判定的基于幀或數(shù)據(jù)包的修改。實(shí)例包括忽略或添加SID幀以及忽略或添加NO_DATA幀(NO_DATA幀是沒(méi)有語(yǔ)音數(shù)據(jù)的幀,以及例如在幀為了系統(tǒng)信令被“偷取”時(shí)使用)。封裝單元44還添加集成到媒體包中的信令、例如在使用帶內(nèi)隱式信令時(shí)改變分包(每包的幀數(shù)),或者添加RTP首標(biāo)擴(kuò)展。從發(fā)射機(jī)到接收機(jī)的信令可通過(guò)三種方式來(lái)進(jìn)行帶外顯式信令、帶內(nèi)顯式信令以及帶內(nèi)隱式信令。對(duì)于顯式帶外信令,信令與媒體分開(kāi)傳送。作為RTP中的非限制性實(shí)例,可發(fā)送RTCP包。對(duì)于顯式帶內(nèi)信令,可使用媒體包中的字段。作為非限制性RTP實(shí)例,可設(shè)置標(biāo)記位或者添加首標(biāo)擴(kuò)展。對(duì)于隱式帶內(nèi)信令,通過(guò)改變分包、即一個(gè)數(shù)據(jù)包中傳送的幀數(shù)而不是具有恒定封裝速率來(lái)發(fā)送信號(hào)。拆包單元48在使用帶內(nèi)顯式信令時(shí)對(duì)其進(jìn)行查找和提取,并將其發(fā)送給RX控制單元。接收機(jī)36中的封裝分析器50分析所接收數(shù)據(jù)包,以便例如在使用可變分包時(shí)檢測(cè)任何帶內(nèi)隱式信令。
接收機(jī)控制器54管理接收機(jī)36中的聲音信號(hào)修改。根據(jù)直接或者經(jīng)由封裝分析器50來(lái)自發(fā)射機(jī)32的信令,以及可能還根據(jù)延遲、延遲抖動(dòng)和丟包的估算,接收機(jī)控制器54判定聲音信號(hào)是否應(yīng)當(dāng)被修改,并決定適當(dāng)?shù)男薷摹=邮諜C(jī)控制器54還可將其判定基于與以上對(duì)于發(fā)射機(jī)32所述的分析相似但在接收機(jī)中執(zhí)行的語(yǔ)音分析的結(jié)果。這種分析可基于解碼語(yǔ)音或者基于所接收語(yǔ)音編碼器參數(shù)。在僅發(fā)射機(jī)的實(shí)現(xiàn)中不需要接收機(jī)控制器54。
語(yǔ)音解碼器56應(yīng)用由接收機(jī)控制器54判定的基于樣本的修改。聲音信號(hào)的長(zhǎng)度可在解碼之后修改,在這種情況中,修改將在語(yǔ)音解碼器56中或者在語(yǔ)音解碼器56之后的分開(kāi)單元中執(zhí)行。因此,修改可基于樣本來(lái)進(jìn)行,而不是如修改在拆包單元48中執(zhí)行時(shí)的情況那樣基于整個(gè)幀來(lái)進(jìn)行。
圖4B說(shuō)明僅發(fā)射機(jī)的實(shí)現(xiàn)的一個(gè)非限制性實(shí)例。在這種情況中,語(yǔ)音在語(yǔ)音編碼器42中修改。圖4C說(shuō)明僅接收機(jī)的實(shí)現(xiàn)的一個(gè)非限制性實(shí)例。語(yǔ)音分析器60在這種情況中表示為耦合在語(yǔ)音解碼器56與接收機(jī)(RX)控制器54之間。RTP首標(biāo)中的某種信息、如標(biāo)記位在修改的管理中可能是有用的。如果使用這種首標(biāo)信息,則拆包單元48對(duì)它進(jìn)行提取并將它發(fā)送給RX控制器54。同樣的首標(biāo)信息也可由抖動(dòng)緩沖器46(未示出)來(lái)提取。
若干方法可用來(lái)縮短或延長(zhǎng)聲音信號(hào)。對(duì)于極小和很少發(fā)生的修改,能夠只添加或刪除聲音信號(hào)中的樣本。雖然這個(gè)第一示例修改方法對(duì)于很小且很少發(fā)生的修改是可行的,但是采用這種方法的更廣泛的修改將產(chǎn)生明顯失真。實(shí)現(xiàn)這個(gè)第一方法的更好方式是在產(chǎn)生合成信號(hào)之前添加或刪除LPC剩余部分中的樣本??蛇M(jìn)行這種操作,其中在靜寂和背景噪聲期間具有良好質(zhì)量,并且在清音期間僅具有較小失真。對(duì)于濁音段,采用這種方法的廣泛修改通常不是優(yōu)選的,因?yàn)橐粽{(diào)頻率會(huì)改變,它是收聽(tīng)者易于發(fā)覺(jué)的。另一個(gè)缺點(diǎn)在于,修改必須相當(dāng)小以避免失真。即使每秒僅刪除或添加幾個(gè)樣本,失真也變得明顯。對(duì)于PTT應(yīng)用,這些聲音信號(hào)段修改僅提供邊緣效應(yīng),因?yàn)榫渥油喈?dāng)短,例如5-10秒。
第二示例修改方法是通過(guò)在抖動(dòng)緩沖器46中或者在幀緩沖器52中添加或刪除舒適噪聲包來(lái)縮短或延長(zhǎng)靜寂或背景噪聲段。抖動(dòng)緩沖器中的數(shù)據(jù)包或者幀緩沖器52中的幀在這些幀被解碼之前在語(yǔ)音起音幀之前的幀處被添加或刪除。在語(yǔ)音起音處,抖動(dòng)緩沖器等級(jí)(抖動(dòng)緩沖器46中當(dāng)前的數(shù)據(jù)包數(shù)量)被分析。如果該等級(jí)低于目標(biāo)等級(jí),則舒適噪聲包被添加,以便把緩沖器填充到預(yù)期等級(jí)。如果該等級(jí)高于目標(biāo)等級(jí),則數(shù)據(jù)包從抖動(dòng)緩沖器46中刪除,以便降到預(yù)期等級(jí)。類似地,舒適噪聲幀可在幀緩沖器52中被添加和刪除。為了幫助這個(gè)操作,語(yǔ)音編碼器42優(yōu)選地對(duì)于起音幀在RTP包首標(biāo)中設(shè)置標(biāo)記位,從而發(fā)信號(hào)表明當(dāng)前幀是語(yǔ)音突發(fā)的開(kāi)始以及前導(dǎo)幀僅包含靜寂或背景噪聲。接收機(jī)(以及任何中間系統(tǒng)節(jié)點(diǎn))可利用這個(gè)信息來(lái)判定執(zhí)行延遲適配的時(shí)間。
被添加或刪除的數(shù)據(jù)包包含靜寂或背景噪聲樣本?;蛘?,那些數(shù)據(jù)包包含描述靜寂(SID幀)以及可被解碼為靜寂或背景噪聲信號(hào)的語(yǔ)音編碼器參數(shù)。當(dāng)語(yǔ)音活動(dòng)因子(VAF)不太高、例如達(dá)到50-70%時(shí),即連續(xù)語(yǔ)音突發(fā)之間有充分靜寂周期時(shí),這種第二修改方法很適用。對(duì)于PTT,可能預(yù)計(jì)高語(yǔ)音活動(dòng)因子,例如達(dá)到90-100%,因?yàn)轭A(yù)計(jì)用戶在按下按鈕時(shí)的大部分時(shí)間正在講話以及在完成時(shí)將松開(kāi)按鈕。因此,靜寂和背景噪聲周期將會(huì)很少并且較短,它提供極少修改余地。
添加或刪除舒適噪聲包的一個(gè)備選方案是延長(zhǎng)或縮短從SID幀所產(chǎn)生的聲音信號(hào)(第三示例修改方法)。SID幀可能例如每24幀才被傳送。SID幀包含通常為增益參數(shù)的關(guān)于信號(hào)能量的信息以及通常采取LPC濾波器系數(shù)的形式的頻譜的形狀。通過(guò)建立隨機(jī)激勵(lì)信號(hào)、通過(guò)以頻譜參數(shù)過(guò)濾激勵(lì)信號(hào)以及通過(guò)采用增益參數(shù),在接收機(jī)中產(chǎn)生舒適噪聲。通過(guò)SID幀,易于只是通過(guò)建立隨后通過(guò)LPC綜合濾波器進(jìn)行過(guò)濾的更短或更長(zhǎng)的隨機(jī)激勵(lì)信號(hào)來(lái)縮短或延長(zhǎng)合成信號(hào)。如果沒(méi)有使用SID幀,則相應(yīng)的參數(shù)通??稍诮邮斩藦暮铣陕曇粜盘?hào)來(lái)估算,然后可采用相似的SID合成方法。與前面所述的第二示例修改方法相似,這種第三方法在語(yǔ)音活動(dòng)因子不太高時(shí)更為適用。
第四示例修改方法是縮短或延長(zhǎng)濁音段。對(duì)于較大的修改,能夠在濁音期間在具有良好質(zhì)量的情況下添加或刪除音調(diào)周期。對(duì)于PTT,這是一種適當(dāng)?shù)男薷姆椒ǎ⑶铱稍跐嵋舳沃懈鶕?jù)需要頻繁使用。
第五示例修改方法是縮短或延長(zhǎng)清音段。對(duì)于清音段,能夠在通過(guò)LPC綜合濾波器合成之前添加或刪除LPC剩余樣本。第五方法與用于背景噪聲的第一和第三方法相當(dāng)相似。但是在這種情況中,用于產(chǎn)生激勵(lì)信號(hào)的參數(shù)對(duì)于每個(gè)幀從編碼器發(fā)送給解碼器,并且激勵(lì)無(wú)需隨機(jī)化。
下面是在示例PTT上下文中縮短聲音信號(hào)段的非限制性實(shí)例。這些實(shí)例可用來(lái)縮短聲音信號(hào)段的任何部分。
1-在語(yǔ)音解碼器中減少合成語(yǔ)音信號(hào)中的濁音段的播出時(shí)間??刹捎玫谒氖纠薷姆椒?。
2-在語(yǔ)音編碼器中在編碼之前減少濁音段的長(zhǎng)度。可采用第四示例修改方法。
3-在語(yǔ)音解碼器中減少合成語(yǔ)音信號(hào)中的清音段的播出時(shí)間。可采用第五示例修改方法。
4-在語(yǔ)音編碼器中在編碼之前減少清音段的長(zhǎng)度??刹捎玫谖迨纠薷姆椒?。
5-在編碼之前縮短或刪除靜寂或背景噪聲段/幀??刹捎玫谌纠薷姆椒ā?br>
6-在編碼器中編碼之后縮短或刪除靜寂或背景噪聲幀(SID幀)??刹捎玫诙纠薷姆椒?。
7-在解碼器中在解碼之前縮短或刪除靜寂和背景噪聲幀(SID幀)。可采用第二示例修改方法。
8-在語(yǔ)音解碼器中在解碼之后縮短或刪除靜寂和背景噪聲段/幀。可采用第三示例修改方法。
對(duì)于方法1和3,通常不知道信號(hào)是濁音還是清音,因此信號(hào)必須首先被解碼。對(duì)于動(dòng)作6和7,SID幀通常采用不同的幀類型標(biāo)識(shí)符或者不同的位分配來(lái)唯一標(biāo)識(shí),這使得容易知道該幀是否為SID幀。在已經(jīng)檢測(cè)到句子的結(jié)束時(shí),以及當(dāng)存在句子不久將結(jié)束的高可能性時(shí),例如當(dāng)語(yǔ)音信號(hào)漸弱時(shí)、通常在清音期間,可采用這些方法。當(dāng)已經(jīng)檢測(cè)到后續(xù)句子的開(kāi)始時(shí),例如當(dāng)兩個(gè)句子之間僅存在短暫停頓時(shí),或者當(dāng)存在非語(yǔ)音信號(hào)、如等待音樂(lè)時(shí),它們?cè)诰o接語(yǔ)音起音之后或者在濁音段期間可能不太有用。
表明對(duì)聲音信號(hào)以及對(duì)用戶之間的交互性的作用的一個(gè)實(shí)例在圖5中提供,在其中,句子1的結(jié)束在接收機(jī)中被縮短。由于把若干幀裝入一個(gè)RTP包,以及由于延遲抖動(dòng),當(dāng)用戶A松開(kāi)PTT按鈕時(shí),以及當(dāng)接收機(jī)接收到關(guān)于句子的結(jié)束被檢測(cè)到或者即將到來(lái)的信號(hào)時(shí),在接收機(jī)中,在抖動(dòng)/幀緩沖器中可能留下許多幀。
下面是在示例PTT上下文中延長(zhǎng)聲音信號(hào)段的非限制性實(shí)例。這些實(shí)例可用來(lái)延長(zhǎng)聲音信號(hào)段的任何部分。
1-在接收發(fā)言權(quán)授予信號(hào)之前開(kāi)始聲音信號(hào)的記錄。對(duì)背景噪聲編碼,以及緊接著接收發(fā)言權(quán)授予信號(hào)之后發(fā)送SID幀。接收機(jī)則可開(kāi)始產(chǎn)生噪聲,直到接收第一語(yǔ)音包。
2-接收機(jī)可立即開(kāi)始產(chǎn)生噪聲,即使不知道發(fā)射機(jī)上的準(zhǔn)確噪聲。在這種情況中,先前接收的SID幀可再用,或者背景噪聲可從先前接收的語(yǔ)音幀中估算。噪聲甚至可在沒(méi)有先前知識(shí)的情況下產(chǎn)生。
3-延長(zhǎng)也可采用預(yù)先記錄(存儲(chǔ))的聲音信號(hào)或者預(yù)先記錄(存儲(chǔ))的聲音信號(hào)的參數(shù)來(lái)進(jìn)行。
在已經(jīng)檢測(cè)到句子的開(kāi)始時(shí),例如在發(fā)射機(jī)已經(jīng)發(fā)送顯式信號(hào)通知接收機(jī)已經(jīng)開(kāi)始語(yǔ)音時(shí),在接收到來(lái)自PTT服務(wù)器的發(fā)言權(quán)占用信號(hào)之后,沒(méi)有接收到來(lái)自發(fā)射機(jī)的任何媒體包以及中間句子,當(dāng)停頓需要被延長(zhǎng)時(shí),可采用這些方法。當(dāng)PTT按鈕已經(jīng)被按下但在接收到發(fā)言權(quán)授予信號(hào)之前被松開(kāi)時(shí),在接收到發(fā)言權(quán)占用信號(hào)之前,因?yàn)椴恢谰渥訉⒌竭_(dá),在語(yǔ)音信號(hào)中間,例如在濁音段期間,當(dāng)完全不同的聲音干擾時(shí),當(dāng)檢測(cè)到后續(xù)句子的開(kāi)始時(shí),例如當(dāng)兩個(gè)句子之間僅存在短暫停頓時(shí),當(dāng)停頓不應(yīng)當(dāng)延長(zhǎng)時(shí),以及當(dāng)存在非語(yǔ)音信號(hào)、例如等待音樂(lè)時(shí),這些方法可能不太適合。
表明對(duì)聲音信號(hào)以及對(duì)用戶之間的交互性的作用的一個(gè)實(shí)例在圖6中提供,在其中,句子2的開(kāi)始在接收機(jī)中被延長(zhǎng)。這種延長(zhǎng)也可對(duì)于第一句子進(jìn)行。
如前面所述,如果服務(wù)器具有對(duì)聲音信號(hào)施加修改所需的語(yǔ)音編碼和解碼能力,則本發(fā)明可在服務(wù)器、如PTT服務(wù)器中實(shí)現(xiàn)。一個(gè)實(shí)例可能是,語(yǔ)音編碼能力必須在服務(wù)器中實(shí)現(xiàn),因?yàn)樗糜诰哂胁煌Z(yǔ)音編解碼器的不同蜂窩系統(tǒng)。但是,即使服務(wù)器沒(méi)有這些能力,服務(wù)器仍然可添加或刪除IP/UDP/RTP包。服務(wù)器也可在更多數(shù)據(jù)包中重新封裝和分發(fā)語(yǔ)音幀,或者可把數(shù)據(jù)包合并為更少數(shù)據(jù)包,這允許服務(wù)器添加或刪除SID和NO_DATA幀。
通過(guò)增強(qiáng)用戶通信的感知交互性,用戶可能對(duì)服務(wù)更為滿意。這個(gè)好處在無(wú)需減少通信中的任何實(shí)際傳輸和建立延遲的情況下實(shí)現(xiàn)。還存在輔助利益。例如,延長(zhǎng)句子的開(kāi)始還可用來(lái)構(gòu)建延遲抖動(dòng)的某個(gè)余量。本發(fā)明可以完全在客戶機(jī)中實(shí)現(xiàn),在這種情況中,對(duì)任何網(wǎng)絡(luò)節(jié)點(diǎn)沒(méi)有影響。即使本發(fā)明在服務(wù)器中實(shí)現(xiàn),實(shí)現(xiàn)工作僅限于服務(wù)器,并且保持了基站和其它系統(tǒng)節(jié)點(diǎn)的后向兼容性。如果僅在發(fā)射機(jī)或接收機(jī)中實(shí)現(xiàn),則也保持了不同客戶機(jī)之間的后向兼容性。
雖然已經(jīng)描述了實(shí)用和優(yōu)選實(shí)施例,但是大家要理解,本發(fā)明不是要限制為任何公開(kāi)的實(shí)施例,相反,意在涵蓋所附權(quán)利要求的范圍內(nèi)包含的各種修改和等效配置。
權(quán)利要求
1.一種增強(qiáng)包括一個(gè)或多個(gè)聲音信號(hào)的用戶通信中的感知交互性的方法,其特征在于識(shí)別用戶通信中的聲音信號(hào);基于所識(shí)別聲音信號(hào)來(lái)確定聲音信號(hào)段;確定所述用戶通信中的所述聲音信號(hào)段的長(zhǎng)度應(yīng)當(dāng)被修改;以及修改所述聲音信號(hào)段的一部分以增強(qiáng)所述用戶通信中的感知交互性。
2.如權(quán)利要求1所述的方法,其特征在于,所述聲音信號(hào)段基于所識(shí)別聲音信號(hào)的一部分、所識(shí)別聲音信號(hào)的修改形式或者與所識(shí)別聲音信號(hào)關(guān)聯(lián)的信號(hào)。
3.如權(quán)利要求1所述的方法,其特征在于,所述聲音信號(hào)段包括所述聲音信號(hào)的一部分的一個(gè)或多個(gè)樣本或者描述所述聲音信號(hào)的一部分的一個(gè)或多個(gè)參數(shù)。
4.如權(quán)利要求1所述的方法,其特征在于,所述聲音信號(hào)包括語(yǔ)音信號(hào)、所述用戶通信中的靜寂周期或者背景噪聲。
5.如權(quán)利要求4所述的方法,其特征在于,語(yǔ)音聲音信號(hào)可以是單詞、句子或多個(gè)句子。
6.如權(quán)利要求4所述的方法,其特征在于,所述用戶通信是按鍵講話(PTT)通信,以及PTT通信中的語(yǔ)音聲音信號(hào)是從發(fā)起PTT通信到結(jié)束PTT通信所接收的聲音信號(hào)。
7.如權(quán)利要求1所述的方法,其特征在于,所述修改包括修改所述聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間。
8.如權(quán)利要求1所述的方法,其特征在于,所述修改包括刪除所述聲音信號(hào)段的一部分、把聲音部分插入所述聲音信號(hào)段、或者刪除所述聲音信號(hào)段的一部分并把聲音部分插入所述聲音信號(hào)段。
9.如權(quán)利要求1所述的方法,其特征在于,所述修改包括縮短所述聲音信號(hào)段、延長(zhǎng)所述聲音信號(hào)段、或者縮短并延長(zhǎng)所述聲音信號(hào)段。
10.如權(quán)利要求1所述的方法,其特征在于,所述修改包括添加聲音信號(hào)樣本、刪除聲音信號(hào)樣本、或者添加并刪除聲音信號(hào)樣本。
11.如權(quán)利要求1所述的方法,其特征在于,所述聲音信號(hào)被壓縮,以及所述修改包括修改壓縮器剩余部分的長(zhǎng)度。
12.如權(quán)利要求11所述的方法,其特征在于,所述聲音信號(hào)采用線性預(yù)測(cè)編碼(LPC)算法來(lái)壓縮,以及所述修改包括添加LPC剩余樣本、刪除LPC剩余樣本、或者添加并刪除LPC剩余樣本。
13.如權(quán)利要求1所述的方法,其特征在于,所述修改包括通過(guò)添加或刪除舒適噪聲或者通過(guò)進(jìn)行這兩種操作來(lái)修改所述聲音信號(hào)段中的靜寂或背景噪聲的長(zhǎng)度或持續(xù)時(shí)間。
14.如權(quán)利要求1所述的方法,其特征在于,所述修改包括修改從靜寂描述符(SID)幀所產(chǎn)生的聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間。
15.如權(quán)利要求1所述的方法,其特征在于,所述修改包括添加音調(diào)周期、刪除音調(diào)周期、或者添加并刪除音調(diào)周期。
16.如權(quán)利要求1所述的方法,其特征在于,所述修改包括通過(guò)減少所述聲音信號(hào)段的播出時(shí)間、在對(duì)所述聲音信號(hào)段進(jìn)行編碼之前減少所述聲音信號(hào)段的長(zhǎng)度、或者刪除所述聲音信號(hào)段的靜寂或背景噪聲來(lái)縮短所述聲音信號(hào)段的結(jié)束。
17.如權(quán)利要求1所述的方法,其特征在于,所述修改包括通過(guò)在用戶連接被建立之前或者在允許發(fā)送所述聲音信號(hào)段之前開(kāi)始記錄或緩沖所述聲音信號(hào)段來(lái)延長(zhǎng)所述聲音信號(hào)段的開(kāi)始。
18.如權(quán)利要求1所述的方法,其特征在于,所述修改包括在接收機(jī)中通過(guò)在產(chǎn)生所述聲音信號(hào)段之前開(kāi)始產(chǎn)生背景噪聲或者通過(guò)在產(chǎn)生所述聲音信號(hào)段之前開(kāi)始產(chǎn)生預(yù)先記錄信號(hào)或者來(lái)自一個(gè)或多個(gè)存儲(chǔ)參數(shù)的信號(hào)來(lái)延長(zhǎng)所述聲音信號(hào)段的開(kāi)始。
19.如權(quán)利要求1所述的方法,其特征在于,所述增強(qiáng)的感知交互性包括減少人發(fā)送所述用戶通信直至那個(gè)人接收到響應(yīng)所感知的時(shí)延。
20.如權(quán)利要求1所述的方法,其特征在于,所述增強(qiáng)的感知交互性在不必減少實(shí)際用戶通信連接建立時(shí)間或者實(shí)際用戶通信傳輸延遲的情況下實(shí)現(xiàn)。
21.如權(quán)利要求1所述的方法,其特征在于,所述用戶通信是半雙工通信、全雙工通信或者單工通信。
22.如權(quán)利要求1所述的方法,適用于數(shù)字無(wú)線電通信系統(tǒng)中的無(wú)線電通信,并且在移動(dòng)無(wú)線電、無(wú)線電網(wǎng)絡(luò)節(jié)點(diǎn)中或者在移動(dòng)無(wú)線電和無(wú)線電網(wǎng)絡(luò)節(jié)點(diǎn)這兩者中實(shí)現(xiàn)。
23.如權(quán)利要求1所述的方法,其特征在于,所述修改在與發(fā)送所述聲音信號(hào)關(guān)聯(lián)的發(fā)射機(jī)上或者在與接收所述聲音信號(hào)關(guān)聯(lián)的接收機(jī)上發(fā)生。
24.如權(quán)利要求1所述的方法,其特征在于,所述修改在網(wǎng)絡(luò)服務(wù)器上以及在與發(fā)送所述聲音信號(hào)關(guān)聯(lián)的發(fā)射機(jī)上或者在與接收所述聲音信號(hào)關(guān)聯(lián)的接收機(jī)上發(fā)生。
25.用于增強(qiáng)包括一個(gè)或多個(gè)聲音信號(hào)的用戶通信中的感知交互性的設(shè)備,包括配置成識(shí)別所述用戶通信中的聲音信號(hào)的聲音信號(hào)分析電路(40,50或60),其特征在于所述聲音信號(hào)分析電路(40,50或60)配置成基于所識(shí)別聲音信號(hào)來(lái)確定聲音信號(hào)段,以及確定所述用戶通信中的所述聲音信號(hào)段的長(zhǎng)度應(yīng)當(dāng)被修改,以及修改電路(38,42,44,52,54或56),配置成修改所述聲音信號(hào)段的一部分以增強(qiáng)所述用戶通信中的所述感知交互性。
26.如權(quán)利要求25所述的設(shè)備,其特征在于,所述聲音信號(hào)段基于所識(shí)別聲音信號(hào)的一部分、所識(shí)別聲音信號(hào)的修改形式、或者與所識(shí)別聲音信號(hào)關(guān)聯(lián)的信號(hào)。
27.如權(quán)利要求25所述的設(shè)備,其特征在于,所述聲音信號(hào)段包括所述聲音信號(hào)的一部分的一個(gè)或多個(gè)樣本或者描述所述聲音信號(hào)的一部分的一個(gè)或多個(gè)參數(shù)。
28.如權(quán)利要求25所述的設(shè)備,其特征在于,所述聲音信號(hào)包括語(yǔ)音信號(hào)、所述用戶通信中的靜寂周期或者背景噪聲。
29.如權(quán)利要求28所述的設(shè)備,其特征在于,語(yǔ)音聲音信號(hào)可以是單詞、句子或多個(gè)句子。
30.如權(quán)利要求29所述的設(shè)備,其特征在于,所述用戶通信是按鍵講話(PTT)通信,以及PTT通信中的語(yǔ)音聲音信號(hào)是從發(fā)起PTT通信到結(jié)束PTT通信所接收的聲音信號(hào)。
31.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成修改所述聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間。
32.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成刪除所述聲音信號(hào)段的一部分、把聲音部分插入所述聲音信號(hào)段、或者刪除所述聲音信號(hào)段的一部分并把聲音部分插入所述聲音信號(hào)段。
33.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成縮短所述聲音信號(hào)段、延長(zhǎng)所述聲音信號(hào)段、或者縮短并延長(zhǎng)所述聲音信號(hào)段。
34.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成添加聲音信號(hào)樣本、刪除聲音信號(hào)樣本、或者添加并刪除聲音信號(hào)樣本。
35.如權(quán)利要求25所述的設(shè)備,其特征在于,所述聲音信號(hào)被壓縮,以及所述修改電路(38,42,44,52,54或56)還配置成修改壓縮器剩余部分的長(zhǎng)度。
36.如權(quán)利要求25所述的設(shè)備,其特征在于,所述聲音信號(hào)采用線性預(yù)測(cè)編碼(LPC)算法來(lái)壓縮,以及所述修改電路(38,42,44,52,54或56)還配置成添加LPC剩余樣本、刪除LPC剩余樣本、或者添加并刪除LPC剩余樣本。
37.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成通過(guò)添加或刪除舒適噪聲或者通過(guò)進(jìn)行這兩種操作來(lái)修改所述聲音信號(hào)段中的靜寂或背景噪聲的長(zhǎng)度或持續(xù)時(shí)間。
38.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成修改從靜寂描述符(SID)幀中所產(chǎn)生的聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間。
39.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成添加音調(diào)周期、刪除音調(diào)周期、或者添加并刪除音調(diào)周期。
40.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44,52,54或56)還配置成在不必減少實(shí)際用戶通信連接建立時(shí)間或者實(shí)際用戶通信傳輸延遲的情況下實(shí)現(xiàn)所述增強(qiáng)的感知交互性。
41.如權(quán)利要求25所述的設(shè)備,適用于數(shù)字無(wú)線電通信系統(tǒng)中的無(wú)線電通信,并且在移動(dòng)無(wú)線電、無(wú)線電網(wǎng)絡(luò)節(jié)點(diǎn)中或者在移動(dòng)無(wú)線電和無(wú)線電網(wǎng)絡(luò)節(jié)點(diǎn)這兩者中實(shí)現(xiàn)。
42.如權(quán)利要求25所述的設(shè)備,其特征在于,還包括信令電路,配置成向包括所述修改電路的一個(gè)或多個(gè)實(shí)體發(fā)送足夠信息,以便允許所述一個(gè)或多個(gè)實(shí)體進(jìn)行所述修改。
43.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(38,42,44)設(shè)置在發(fā)射機(jī)(32)中,用于發(fā)送所述聲音信號(hào)。
44.如權(quán)利要求43所述的設(shè)備,其特征在于,所述修改電路設(shè)置在所述發(fā)射機(jī)(32)中的編碼器(42)中。
45.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路(52,54,56)設(shè)置在接收機(jī)(36)中,用于接收所述聲音信號(hào)。
46.如權(quán)利要求45所述的設(shè)備,其特征在于,所述修改電路設(shè)置在所述接收機(jī)(36)中的解碼器(56)中。
47.如權(quán)利要求25所述的設(shè)備,其特征在于,所述修改電路設(shè)置在網(wǎng)絡(luò)服務(wù)器(34)上以及在用于發(fā)送所述聲音信號(hào)的發(fā)射機(jī)(32)上或者在網(wǎng)絡(luò)服務(wù)器上以及在與接收所述聲音信號(hào)關(guān)聯(lián)的接收機(jī)(36)上。
全文摘要
通過(guò)在無(wú)需減少與通信交換關(guān)聯(lián)的實(shí)際傳輸和建立延遲的情況下減少轉(zhuǎn)換通信中的活動(dòng)發(fā)射機(jī)的感知延遲,實(shí)現(xiàn)用戶通信中的感知交互性。識(shí)別用戶通信中的聲音信號(hào)。聲音信號(hào)經(jīng)過(guò)分析以便識(shí)別或估算聲音信號(hào)段。聲音信號(hào)段優(yōu)選地(但不一定)處于聲音信號(hào)的開(kāi)始或結(jié)束處。聲音信號(hào)段可直接從聲音信號(hào)本身、從聲音信號(hào)的修改形式或者從與聲音信號(hào)關(guān)聯(lián)的信號(hào)中選取。進(jìn)行應(yīng)當(dāng)或者可以修改聲音信號(hào)段的長(zhǎng)度或持續(xù)時(shí)間的確定。聲音信號(hào)段的一個(gè)或多個(gè)修改被確定并提供給一個(gè)或多個(gè)處理單元以執(zhí)行修改。
文檔編號(hào)H04Q7/38GK1943189SQ200580012005
公開(kāi)日2007年4月4日 申請(qǐng)日期2005年3月29日 優(yōu)先權(quán)日2004年4月7日
發(fā)明者T·弗蘭基拉, T·榮松, B·斯文松, K·斯文布羅, J·斯韋德貝里 申請(qǐng)人:艾利森電話股份有限公司