本發(fā)明涉及用于視頻記錄期間的聲音、特別是運(yùn)動(dòng)特定聲音的改善音頻呈現(xiàn)的方法和組件。此類(lèi)方法和此類(lèi)組件可從DE102008045397A1已知。
背景技術(shù):借助于伴隨有多通道電視聲音的寬屏格式的高清晰電視圖像的引入,特別是在體育事件的傳輸期間,電視觀眾與常規(guī)電視技術(shù)相比明顯更多地被卷入到體育運(yùn)動(dòng)中,因?yàn)槊黠@更多的細(xì)節(jié)是可感知的。針對(duì)直播體育事件的圖像和音頻記錄,經(jīng)常地不能以足夠的數(shù)目或在期望的接近于重要聲源的區(qū)域中安裝麥克風(fēng)。這些主要是聲音,其是用于特定運(yùn)動(dòng)的特性并強(qiáng)調(diào)圖像內(nèi)容的直接性。相應(yīng)地,例如,在足球比賽的電視記錄中,只有場(chǎng)上的極少數(shù)或沒(méi)有比賽特定聲音通常是可感知的,因?yàn)榈絿@場(chǎng)地的定向麥克風(fēng)的距離相對(duì)于嘈雜的體育場(chǎng)氣氛而言太大了。對(duì)于滑雪賽跑的電視記錄而言,具有麥克風(fēng)的數(shù)千米長(zhǎng)的滑雪道的完全覆蓋將是過(guò)于昂貴的。因此,為了比賽場(chǎng)景或賽跑的密切記錄,特性聲音通常未被音頻記錄捕捉。根據(jù)DE102008045397A1,為了在球類(lèi)運(yùn)動(dòng)事件的視頻記錄期間捕捉運(yùn)動(dòng)特定聲音,已知提供具有至少兩個(gè)定向麥克風(fēng)的強(qiáng)定向麥克風(fēng)系統(tǒng),所述至少兩個(gè)定向麥克風(fēng)中的每一個(gè)被借助于可沿著空間的所有方向活動(dòng)的引導(dǎo)實(shí)體而朝著球的當(dāng)前位置對(duì)準(zhǔn)。生產(chǎn)期間的麥克風(fēng)的引導(dǎo)在沒(méi)有人工干預(yù)的情況下自動(dòng)地發(fā)生,依賴(lài)于借助于球跟蹤方法生成的球位置數(shù)據(jù)。然而,這種已知音頻記錄技術(shù)不能應(yīng)用于每個(gè)視頻記錄,并且要求相當(dāng)高的技術(shù)努力。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的問(wèn)題是根據(jù)在開(kāi)頭描述的設(shè)計(jì)來(lái)創(chuàng)建方法和組件,其允許在任何視頻記錄期間以減少的技術(shù)努力獲得聲音的改善的音頻呈現(xiàn)。根據(jù)本發(fā)明,針對(duì)其中在最初基于傳感器捕捉圖像內(nèi)容并進(jìn)行分析的方法來(lái)解決此問(wèn)題。借助于由此獲得的信息,根據(jù)預(yù)定義標(biāo)準(zhǔn)從聲音數(shù)據(jù)庫(kù)中選擇擬合聲音事件。所選聲音事件被自動(dòng)地添加到整個(gè)視頻音頻混合的附加分量,在下文中稱(chēng)為視頻伴音。用于執(zhí)行根據(jù)本發(fā)明的方法的組件由三個(gè)核心部件組成:傳感器實(shí)體,用于檢測(cè)視頻圖像的特性圖像內(nèi)容;中央控制單元,分析所檢測(cè)的圖像內(nèi)容,并基于該圖像內(nèi)容從音頻數(shù)據(jù)庫(kù)中選擇擬合于所檢測(cè)圖像內(nèi)容的音頻樣本,其在混合器控制臺(tái)中被混合到視頻伴音。附圖說(shuō)明根據(jù)借助于僅僅示例性且非限制性示例給出的將參考附圖來(lái)閱讀的以下詳細(xì)描述,本發(fā)明將變得完全清楚,在所述附圖中:圖1示出了具有三個(gè)核心部件:傳感器實(shí)體、中央控制單元以及音頻數(shù)據(jù)庫(kù)的用于執(zhí)行根據(jù)本發(fā)明的方法的組件的示意性方框圖;圖2示出了根據(jù)圖1的組件的中央控制單元的細(xì)節(jié);并且圖3示出了用于音頻數(shù)據(jù)庫(kù)中的音頻樣本到不同種類(lèi)的分類(lèi)(樣本映射)的示例。具體實(shí)施方式在圖1中示意性地示出了用于執(zhí)行根據(jù)本發(fā)明的方法的組件1包括用于檢測(cè)視頻圖像的圖像內(nèi)容的傳感器實(shí)體10。所檢測(cè)圖像內(nèi)容被傳感器實(shí)體10以數(shù)據(jù)11的形式提供給基于軟件的分析和處理單元30,其在圖2中更詳細(xì)地示出并將在稍后解釋。例如,由電視照相機(jī)提供的運(yùn)動(dòng)事件的實(shí)時(shí)圖像(在圖1中和以下描述中稱(chēng)為“傳輸圖像”)可以被用作用于檢測(cè)圖像內(nèi)容的視頻圖像。傳感器實(shí)體10例如使用來(lái)自“機(jī)器視覺(jué)”(計(jì)算機(jī)視覺(jué))領(lǐng)域的算法來(lái)執(zhí)行傳輸圖像的分析。這些算法特別地允許針對(duì)圖像背景進(jìn)行運(yùn)動(dòng)對(duì)象的分離和跟蹤以及根據(jù)圖像區(qū)段來(lái)確定其位置。以足球比賽為例,可以相應(yīng)地確定球在場(chǎng)上的位置以及圖像區(qū)段中所示的所有球員的位置和尺寸。此外,可以借助于球員的球衣來(lái)將球員分配給不同的球隊(duì)以及計(jì)算球的運(yùn)動(dòng)方向和速度。傳輸圖像的檢測(cè)(以及分析和處理單元30中的隨后分析;圖1)此外提供能夠在比賽記錄期間使用多個(gè)電視照相機(jī)來(lái)推導(dǎo)出圖像導(dǎo)演當(dāng)前所選擇(“切割”)的電視照相機(jī)的位置和焦距的優(yōu)點(diǎn)。補(bǔ)充性地,在傳感器實(shí)體10中及分析和處理單元30中,也可以進(jìn)行音頻信號(hào)的記錄和自動(dòng)分析(在圖1和以下描述中稱(chēng)為“傳輸聲音”),其表征傳輸圖像的場(chǎng)景內(nèi)的特定動(dòng)作。例如,從傳輸聲音獲得的信息被用來(lái)在聲學(xué)上驗(yàn)證借助于視頻分析檢測(cè)的圖像動(dòng)作。此外,可以在傳感器實(shí)體10中提供以物理方式來(lái)確定出現(xiàn)在傳輸圖像中的參與者的動(dòng)作的傳感器,以獲得運(yùn)動(dòng)序列的更密切定義和捕捉。這包括例如借助于GPS或無(wú)線(xiàn)電承載系統(tǒng)來(lái)確定參與者的當(dāng)前位置。作為數(shù)據(jù)11,所述附加信息也被提供給基于軟件的分析和處理單元30。用于檢測(cè)圖像內(nèi)容的技術(shù)上不那么昂貴的可能性是將專(zhuān)用且靜態(tài)安裝的跟蹤照相機(jī)的信號(hào)而不是傳輸圖像用于視頻分析。跟蹤照相機(jī)可以被預(yù)先校準(zhǔn)至相應(yīng)的場(chǎng)景并從而簡(jiǎn)化視頻圖像中的交互和對(duì)象的自動(dòng)檢測(cè)。然而,在這種情況下,必須在外部從單元20提供關(guān)于實(shí)際傳輸圖像的信息,例如關(guān)于在圖中未示出的圖像混合器控制臺(tái)的GPIO信號(hào)或照相機(jī)元數(shù)據(jù)(將進(jìn)行解釋?zhuān)?。由傳感器?shí)體10提供的數(shù)據(jù)11的分析和處理是在單元30中執(zhí)行的,單元30在圖2中更詳細(xì)地圖示出。單元30根據(jù)例如傳感器實(shí)體10的數(shù)據(jù)11來(lái)推導(dǎo)出用于音頻數(shù)據(jù)庫(kù)的控制命令31,例如,作為基于PC或DSP的處理的一部分。在單元30中,在第一分析階段32(其獨(dú)立于傳輸圖像而分析場(chǎng)景)中,針對(duì)視頻圖像描述的基于傳感器確定的參數(shù)根據(jù)預(yù)定義規(guī)則在邏輯上相互鏈接,并且借助于結(jié)果得到的信息,生成控制命令31以用于被存儲(chǔ)在音頻數(shù)據(jù)庫(kù)40中的存檔的單獨(dú)聲音、即“音頻樣本”的選擇。該預(yù)定義規(guī)則又是獨(dú)立應(yīng)用的,并且針對(duì)每個(gè)目的,必須被預(yù)先具體地指定且引入到分析和處理單元30的軟件中。數(shù)據(jù)庫(kù)40將由控制命令31選擇的音頻樣本作為音頻信號(hào)41輸出,音頻信號(hào)41隨后被直接饋送給產(chǎn)生混合器控制臺(tái)50,并且在其中,可以與視頻伴音的其他分量混合,諸如與環(huán)繞聲(“原聲”)以及比賽評(píng)論員的“對(duì)話(huà)聲”(在適用的情況下)混合。由此,應(yīng)留心的是在音頻樣本與視頻伴音之間未發(fā)生干擾的時(shí)移倍增。在用于添加到視頻伴音的音頻樣本的選擇期間,進(jìn)行以下特征之間的區(qū)別以獲得逼真的視頻場(chǎng)景發(fā)聲的音頻編輯(按照其相關(guān)性順序):1.聲音類(lèi)型2.聲音的音量(速度)3.混響的添加(空間性)4.搖攝(向聲音分配方向)。為了將根據(jù)本發(fā)明的方法應(yīng)用于足球比賽,階段32中的規(guī)則的此類(lèi)規(guī)范意味著例如基于關(guān)于球運(yùn)動(dòng)的矢量變化從視頻分析提取的信息,可以確定新射門(mén)的起點(diǎn)。球的加速度以及場(chǎng)上的運(yùn)動(dòng)矢量的長(zhǎng)度提供關(guān)于以下各項(xiàng)的信息:其為具有分叉聲音特性的遠(yuǎn)距離射門(mén)還是傳球;以及應(yīng)根據(jù)由單元30生成的控制命令31從音頻數(shù)據(jù)庫(kù)40向產(chǎn)生混合器控制臺(tái)50(圖1)提供多大聲(“速度”值)的諧音(accordingsound)(音頻信號(hào)41)??梢砸蕾?lài)于球在場(chǎng)上的位置而進(jìn)一步改變提供給產(chǎn)生混合器控制臺(tái)50的聲音的音量,由此,可以再現(xiàn)聲音起點(diǎn)相對(duì)于觀看者的距離。在第二分析階段33(圖2)中,其根據(jù)傳輸圖像來(lái)分析參數(shù),考慮關(guān)于傳輸圖像的圖像區(qū)段的信息以用于聲音選擇。此信息被單元20作為數(shù)據(jù)21提供。在直接在傳輸圖像中執(zhí)行視頻分析的情況下,可以借助于被調(diào)查對(duì)象的尺寸來(lái)確定照相機(jī)位置和焦距。在采用單獨(dú)跟蹤照相機(jī)(圖1)或其他傳感器系統(tǒng)以用于檢測(cè)傳感器實(shí)體10中的圖像內(nèi)容的情況下,考慮關(guān)于傳輸圖像性質(zhì)的外部信息。出于此目的,從電視照相機(jī)的控制單元提取的照相機(jī)元數(shù)據(jù)是特別適用的。此外,可應(yīng)用混合器控制臺(tái)的GPIO信號(hào),其表明當(dāng)前在傳輸圖像中選擇(“切割”)多個(gè)電視照相機(jī)中的哪一個(gè)?;诖藬?shù)據(jù),第二分析階段33生成用于提供給產(chǎn)生混合器控制臺(tái)50的音頻信號(hào)410的音量的變化的控制命令34。此變化借助于由控制命令34控制的階段70而發(fā)生,以用于音頻數(shù)據(jù)庫(kù)40的音頻信號(hào)41的實(shí)時(shí)聲音編輯。借助于提供給混合器控制臺(tái)50的音頻信號(hào)410的音量的附加變化,在某種程度上,可以模擬光學(xué)距離,其中觀看者相對(duì)于圖像動(dòng)作的中心定位。以足球比賽為例,借助于球聲音的不同水平,可以重新產(chǎn)生防守的特寫(xiě)記錄或整個(gè)場(chǎng)地的廣角記錄,其中,在每種情況下,觀看者采取到動(dòng)作的不同光學(xué)距離。補(bǔ)充性地,借助于第二分析階段33,可以控制用于動(dòng)態(tài)實(shí)時(shí)聲音編輯的附屬于音頻數(shù)據(jù)庫(kù)40的階段70,使得借助于依賴(lài)于視頻圖像中的對(duì)象位置進(jìn)行的混響分量的均衡和添加,重新產(chǎn)生空氣消散和空間性的影響。在音頻信號(hào)41或410到混合器控制臺(tái)50的所述實(shí)時(shí)提供期間,由于圖像內(nèi)容的檢測(cè)和分析,在音頻信號(hào)41與視頻圖像之間發(fā)生特定時(shí)移。然而,此時(shí)移可以局限于小于四個(gè)全圖像的范圍,由此,可以有相應(yīng)音頻/視頻事件的明確關(guān)聯(lián)。借助于圖3中的“樣本映射”示出了用于足球的用于音頻數(shù)據(jù)庫(kù)40的組織的示例?!皹颖居成洹北焕斫鉃榇鎯?chǔ)在數(shù)據(jù)庫(kù)40中的音頻樣本到不同種類(lèi)的分類(lèi)??梢曰谟布突谲浖烧邔⒁纛l數(shù)據(jù)庫(kù)40投入實(shí)踐,并且其依賴(lài)于例如標(biāo)準(zhǔn)硬件/軟件采樣器或通用數(shù)據(jù)庫(kù)格式??刂泼?1和34到數(shù)據(jù)庫(kù)40的傳輸可以例如經(jīng)由midi協(xié)議發(fā)生。為了根據(jù)音頻樣本的特定特征將音頻數(shù)據(jù)庫(kù)中的音頻樣本分類(lèi),提供了“樣本映射”,其隨著應(yīng)用目的出現(xiàn)而變。已將被與實(shí)際聲音結(jié)合的足球比賽為例,可辨別用于采取用球員的身體、腳和頭進(jìn)行接球和傳球的形式的不同玩球技術(shù)的音頻樣本。對(duì)于涉及身體的玩球技術(shù)而言,用胸、膝和頭進(jìn)行的接球和傳球被進(jìn)一步多樣化。腳接球和傳球被再次劃分成群組“射門(mén)”和“傳球”。針對(duì)根據(jù)圖3的實(shí)施例,根據(jù)從分析階段33(圖2)中的視頻圖像確定的射門(mén)力量以變化的音量(“速度”)選擇音頻樣本,并且通過(guò)使用不同的音頻樣本,將不同玩球強(qiáng)度的音調(diào)差考慮在內(nèi)。例如,比起不那么強(qiáng)有力的射門(mén)的聲音,勁射的砰然聲具有較高音量以及另一頻率組成。為此原因,不那么強(qiáng)有力的射門(mén)的聲音不僅被以較低音量混入,而且另外采用了另一音頻樣本。出于此目的,在音頻樣本產(chǎn)生時(shí)以相對(duì)于聲源的變化記錄距離(2米、6米或12米)來(lái)記錄音頻樣本,以便再現(xiàn)用于勁射的直接聲音特征以及用于不那么強(qiáng)有力的射門(mén)的間接聲音特征。在重放期間,由階段70根據(jù)控制命令34而主要實(shí)時(shí)地改變諸如音量、混響分量、搖攝以及均衡的參數(shù)。這提供優(yōu)點(diǎn),即不必針對(duì)每次可能的參數(shù)化都存儲(chǔ)自己的音頻樣本,這急劇地減少了此類(lèi)音頻數(shù)據(jù)庫(kù)的產(chǎn)生期間的存儲(chǔ)要求和開(kāi)支兩者。為了提升音頻編輯場(chǎng)景的真實(shí)的總體印象,必須甚至針對(duì)連續(xù)的類(lèi)似圖像內(nèi)容采用不同的音頻樣本。出于此目的,可以提供音頻樣本的隨機(jī)旋轉(zhuǎn)。