本發(fā)明涉及3d虛擬聲技術(shù)領(lǐng)域,具體涉及一種基于中垂面特性的虛擬聲像近似獲取方法,其生成為滿足個體聽覺特性的虛擬聲像。
背景技術(shù):
相對于真實聲源產(chǎn)生的感知聲像而言,虛擬聲像指通過信號處理的方法,模擬聲波從聲源到雙耳的物理傳播過程,從而使聽者產(chǎn)生的感知聲像。虛擬聲像技術(shù)往往只需要一副耳機,對重放硬件設(shè)備的依賴性小,故在三維(3d)電視、電影以及虛擬現(xiàn)實(virtualreality,vr)技術(shù)等領(lǐng)域具有較大的應(yīng)用前景。頭相關(guān)傳輸函數(shù)(head-relatedtransferfunction,hrtf)是虛擬聲像合成的核心部分;它表征聲波到耳的傳播過程中,人體生理器官(主要是頭部)對聲波的作用,包括繞射、反射等物理現(xiàn)象。和真實聲像相同,虛擬聲像可以位于聽者周圍三維空間的任意方位。為了合成任意方位的虛擬聲像,通常需要在計算機等重放硬件設(shè)備中存儲大量的hrtf數(shù)據(jù),其中每一對hrtf(左耳和右耳)對應(yīng)一個具體的空間方位。另一方面,hrtf和聽者的生理形態(tài)有關(guān),例如頭部偏大聽者的hrtf和頭部偏小聽者的hrtf存在差異。可見,hrtf是一個因人而異的個性化函數(shù)。已有研究表明,為了得到逼真的虛擬聲像感知效果,需要采用聽者自己的個性化hrtf數(shù)據(jù)進行虛擬聲像合成??梢栽O(shè)想,如果一套虛擬聲像重放系統(tǒng)有一百個潛在的使用者(即聽者),原則上就需要存儲一百組個性化hrtf數(shù)據(jù),且每組數(shù)據(jù)包括所有可能的空間方位??梢姡瑸榱藢崿F(xiàn)任意空間方位、高質(zhì)量虛擬聲像的重放效果,在重放硬件設(shè)備中預(yù)先存儲的hrtf數(shù)據(jù)量是非常巨大的。因此有必要采用適當(dāng)?shù)臄?shù)據(jù)簡化和壓縮方法,降低hrtf數(shù)據(jù)的存儲量,減輕對各類重放設(shè)備的硬件需求。
技術(shù)實現(xiàn)要素:
本發(fā)明為解決上述現(xiàn)有虛擬聲重放中hrtf的存儲量問題,提供了一種基于中垂面特性的虛擬聲像近似獲取方法。發(fā)明利用了中垂面hrtf和混亂錐縱截面hrtf的幅度譜相似性,以及混亂錐上任意方位的雙耳時間差相同的特性;只需要已知中垂面和水平面的hrtf數(shù)據(jù),就可以近似獲取任意空間方位的hrtf,從而實現(xiàn)任意空間方位虛擬聲像的合成和重放。本發(fā)明可有效減少虛擬聲像合成中所需存儲的hrtf的數(shù)量,減輕虛擬聲像重放系統(tǒng)的負擔(dān)。
本發(fā)明的目的通過以下技術(shù)方案實現(xiàn)。
一種基于中垂面特性的虛擬聲像近似獲取方法,包括如下步驟:
步驟1、確定目標虛擬聲像所處的混亂錐縱截面和水平面的交點坐標;
步驟2、選取交點處的雙耳頭相關(guān)傳輸函數(shù)hrtf,計算雙耳時間差;
步驟3、在中垂面上,確定和目標聲像同仰角的空間方位,用該方位的hrtf幅度譜代替目標聲像方位hrtf的幅度譜;
步驟4、根據(jù)最小相位近似方法,將目標聲像方位的雙耳hrtf幅度譜和雙耳時間差進行合成,得到目標聲像方位hrtf的近似結(jié)果;
步驟5、將單通路信號和目標聲像方位hrtf進行時間域卷積處理或等價地頻率域濾波處理,得到合成的雙耳虛擬聲信號,輸出到耳機進行重放。
進一步地,所述步驟1中以雙耳連線的中點為坐標原點,建立雙耳極坐標系統(tǒng);通常,需要采用角度和距離共同表征一個特定的聲像方位,考慮到本發(fā)明涉及的遠場hrtf與距離無關(guān),因此一個特定的聲像方位僅需偏側(cè)角θ和仰角φ表征,所述偏側(cè)角-90°≤θ≤90°表示空間聲像與原點構(gòu)成的方向矢量和中垂面的夾角;而仰角-90°≤φ≤270°表示空間聲像在中垂面的投影與水平面的夾角。
進一步地,所述步驟1中,假設(shè)目標虛擬聲像處于空間點(θ,φ),則它決定了一個偏側(cè)角為θ的混亂錐;過虛擬聲像的空間方位,做一個平行于中垂面的混亂錐縱截面,交水平面于點(θ,φ=0°)。
進一步地,所述步驟2具體包括:
步驟201、根據(jù)步驟1的結(jié)果,從已知hrtf數(shù)據(jù)庫中提取水平面(θ,φ=0°)雙耳hrtf的時間域數(shù)據(jù),即hl和hr;
步驟202、將hl和hr代入公式(1),計算兩者的相關(guān)系數(shù):
步驟203、取公式(1)相關(guān)系數(shù)c達到最大值時所對應(yīng)的τmax為雙耳時間差。由于混亂錐上各點的雙耳時間差一樣,所以公式(1)得到的雙耳時間差τmax即為目標虛擬聲像處的雙耳時間差。
進一步地,所述已知hrtf數(shù)據(jù)庫,有些采用雙耳極坐標系統(tǒng)(θ,φ),例如美國加利福尼亞大學(xué)戴維斯分校cipic數(shù)據(jù)庫;而有些采用順時針球坐標系統(tǒng)(θ',φ'),例如中國華南理工大學(xué)中國人樣本hrtf數(shù)據(jù)庫、美國麻省理工學(xué)院mithrtf數(shù)據(jù)庫。所述順時針球坐標系統(tǒng)(θ',φ')通過下面的公式(2)轉(zhuǎn)換為雙耳極坐標系統(tǒng)(θ,φ):
進一步地,步驟3中具體包括:
假設(shè)目標虛擬聲像處于空間點(θ,φ),則中垂面上和目標聲像同仰角的空間方位為(θ=0°,φ);接著從已知hrtf數(shù)據(jù)庫中提取中垂面(θ=0°,φ)的雙耳hrtf,將其幅度譜(即|h(l,median)|、|h(r,median)|)作為目標虛擬聲像處hrtf的幅度譜。
進一步地,所述步驟4中,根據(jù)最小相位近似,將目標聲像方位的雙耳hrtf幅度譜和雙耳時間差進行合成,公式為:
其中t0為聲源到雙耳的延遲時間,可根據(jù)應(yīng)用場景進行設(shè)定。
本發(fā)明的原理是:混亂錐定義為到雙耳的距離差為常數(shù)的點所構(gòu)成的曲面,因此混亂錐上所有點到雙耳的時間差異(即雙耳時間差)是相同的。由于目標聲像方位決定了一個混亂錐縱截面,因此可以計算該混亂錐縱截面和水平面交點的雙耳時間差,進而得到目標聲像方位的雙耳時間差。另一方面,hrtf幅度譜特征起源于入射聲波和生理結(jié)構(gòu)(包括頭部和耳廓等)的相互作用。當(dāng)聲源從中垂面(即前方)逐漸向側(cè)向偏移時,聲波入射角將發(fā)生變化,然而其大體的物理過程仍是相似的,因此中垂面hrtf和混亂錐縱截面hrtf的幅度譜具有較高的相似性??紤]到人耳有限的分辨能力,可以采用中垂面hrtf幅度譜近似代替混亂錐縱截面hrtf的幅度譜,而不引起聽覺誤差。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:
1.本發(fā)明只需要已知中垂面和水平面的hrtf數(shù)據(jù),就可以近似獲取任意空間方位的hrtf,從而實現(xiàn)任意空間方位虛擬聲像的合成和重放。
2.本發(fā)明可有效減少虛擬聲像合成中所需存儲的hrtf的數(shù)量,減輕虛擬聲像重放系統(tǒng)的負擔(dān)。
3.本發(fā)明可采用算法語言編制的軟件在多媒體計算機上實現(xiàn),也可以采用通用信號處理芯片(dsp硬件)電路或?qū)S玫募呻娐穼崿F(xiàn),用于各種便攜式播放設(shè)備包括智能手機、虛擬現(xiàn)實等方面的聲音重放。
附圖說明
圖1是本發(fā)明實施例的原理圖;
圖2是空間方位示意圖;
圖3是本發(fā)明實施例的多媒體計算機實現(xiàn)的信號流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明作進一步的說明,但本發(fā)明要求保護范圍并不局限于實施例表示的范圍。
圖1是本發(fā)明的一種基于中垂面特性的虛擬聲像近似獲取方法的原理方框圖。它利用了中垂面hrtf和混亂錐縱截面hrtf的幅度譜相似性,以及混亂錐上任意方位的雙耳時間差相同的特性;只需要已知中垂面和水平面的hrtf數(shù)據(jù),就可以近似獲取任意空間方位的hrtf,從而實現(xiàn)任意空間方位虛擬聲像的合成和重放。本發(fā)明可有效減少虛擬聲像合成中所需存儲的hrtf的數(shù)量,減輕虛擬聲像重放系統(tǒng)的負擔(dān)。
一種基于中垂面特性的虛擬聲像近似獲取方法,包括如下步驟:
步驟1、確定目標虛擬聲像所處的混亂錐縱截面和水平面的交點坐標;
步驟2、選取交點處的雙耳頭相關(guān)傳輸函數(shù)hrtf,計算雙耳時間差;
步驟3、在中垂面上,確定和目標聲像同仰角的空間方位,用該方位的hrtf幅度譜代替目標聲像方位hrtf的幅度譜;
步驟4、根據(jù)最小相位近似方法,將目標聲像方位的雙耳hrtf幅度譜和雙耳時間差進行合成,得到目標聲像方位hrtf的近似結(jié)果;
步驟5、將單通路信號和目標聲像方位hrtf進行時間域卷積處理或等價地頻率域濾波處理,得到合成的雙耳虛擬聲信號,輸出到耳機進行重放。
具體而言,所述步驟1中以雙耳連線的中點為坐標原點,建立雙耳極坐標系統(tǒng);通常,需要采用角度和距離共同表征一個特定的聲像方位,考慮到本發(fā)明涉及的遠場hrtf與距離無關(guān),因此一個特定的聲像方位僅需偏側(cè)角θ和仰角φ表征,所述偏側(cè)角-90°≤θ≤90°表示空間聲像與原點構(gòu)成的方向矢量和中垂面的夾角;而仰角-90°≤φ≤270°表示空間聲像在中垂面的投影與水平面的夾角。
具體而言,所述步驟1中,假設(shè)目標虛擬聲像處于空間點(θ,φ),則它決定了一個偏側(cè)角為θ的混亂錐;過虛擬聲像的空間方位,做一個平行于中垂面的混亂錐縱截面,交水平面于點(θ,φ=0°)。
具體而言,所述步驟2具體包括:
步驟201、根據(jù)步驟1的結(jié)果,從已知hrtf數(shù)據(jù)庫中提取水平面(θ,φ=0°)雙耳hrtf的時間域數(shù)據(jù),即hl和hr;
步驟202、將hl和hr代入公式(1),計算兩者的相關(guān)系數(shù):
步驟203、取公式(1)相關(guān)系數(shù)c達到最大值時所對應(yīng)的τmax為雙耳時間差。由于混亂錐上各點的雙耳時間差一樣,所以公式(1)得到的雙耳時間差τmax即為目標虛擬聲像處的雙耳時間差。
具體而言,所述已知hrtf數(shù)據(jù)庫中,有些采用雙耳極坐標系統(tǒng)(θ,φ),例如美國加利福尼亞大學(xué)戴維斯分校cipic數(shù)據(jù)庫;而有些采用順時針球坐標系統(tǒng)(θ',φ'),例如中國華南理工大學(xué)中國人樣本hrtf數(shù)據(jù)庫、美國麻省理工學(xué)院mithrtf數(shù)據(jù)庫。順時針球坐標系統(tǒng)(θ',φ')可以通過下面的公式(2)轉(zhuǎn)換為雙耳極坐標系統(tǒng)(θ,φ):
θ=arcsin(sinθ'×cosφ');(2)
具體而言,步驟3中,假設(shè)目標虛擬聲像處于空間點(θ,φ),則中垂面上和目標聲像同仰角的空間方位為(θ=0°,φ),接著從已知hrtf數(shù)據(jù)庫中提取中垂面(θ=0°,φ)的雙耳hrtf,將其幅度譜(即|h(l,median)|、|h(r,median)|)作為目標虛擬聲像處hrtf的幅度譜。
具體而言,步驟4中,根據(jù)最小相位近似,將目標聲像方位的雙耳hrtf幅度譜和雙耳時間差進行合成,公式為:
其中t0為聲源到雙耳的延遲時間,可根據(jù)應(yīng)用場景進行設(shè)定。
圖2是本發(fā)明涉及的空間方位示意圖。圖中,xyz表征三維空間,zy表征中垂面,xy表征水平面,a點代表坐標原點,c點代表目標虛擬聲像方位。左圖中,c點和a點共同決定了一個以a為頂點的混亂錐,ab為錐體的中垂線;進一步,過c點做混亂錐縱截面,交水平面于點d。右圖中,目標虛擬聲像c的仰角為∠cbd,中垂面上的e點為和目標聲像同仰角的空間方位,有∠eaf=∠cbd。本發(fā)明中,采用e的hrtf幅度譜作為目標虛擬聲像c的hrtf幅度譜;同時,采用d的雙耳時間差作為目標虛擬聲像c的雙耳時間差。
圖3是本發(fā)明實施例的多媒體計算機實現(xiàn)的信號流程圖。在實際的應(yīng)用中,需要合成的虛擬聲像方位可能不止一個,可以反復(fù)采用本發(fā)明的方法逐個進行目標虛擬聲像的hrtf的獲取。
本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護范圍之內(nèi)。