專利名稱:音頻處理的制作方法
技術領域:
本發(fā)明涉及音頻處理。
背景技術:
在諸如數(shù)字指紋處理或水印處理(可以通過術語法務鑒定標記(forensic marking)來通稱)中,能以噪聲模式的形式(如偽隨機噪聲信號)將有效載荷信號插入原始音頻信號中。其目的一般在于噪聲信號接近于不可感知,以及它在可以聽到的情況下在主觀上并不是干擾。這種類型的技術允許以無需改變原始音頻信號的整體帶寬、比特率和格式的方式添加各種類型的有效載荷。稍后可以通過相關技術恢復有效載荷數(shù)據(jù),這樣即使以多種方式在水印應用和水印恢復之間操縱或破壞了經(jīng)水印處理的音頻信號的情況下,有效載荷數(shù)據(jù)常常仍是有效的。
可以添加的有效載荷數(shù)據(jù)的類型示例包括安全數(shù)據(jù)(例如用于識別盜版或非法拷貝的)、廣播監(jiān)視數(shù)據(jù)和描述原始音頻信號表示的音頻信號的元數(shù)據(jù)。
在將噪聲信號添加到原始音頻信號之前可以對其調(diào)制。一般而言這意味著噪聲信號的電平在原始音頻信號的電平增加時增加,而在原始音頻信號的電平降低時降低。由此,當噪聲信號可被原始音頻信號中的較響通道掩蔽時,可以包括更多有效載荷數(shù)據(jù)的噪聲信號(提供有效載荷數(shù)據(jù)的潛在更佳恢復)。
但是,如果噪聲信號對原始音頻信號跟隨得太接近,則它可能變成可聽的并潛在地在主觀上構成干擾,尤其是有諸如鼓點等的聲音時。
在包絡控制的音頻處理系統(tǒng)中,可以對受控信號(在本示例中為噪聲信號)的上升時間和下降時間應用一個時間常數(shù)。它們通稱為增高和衰減(或釋放)時間常數(shù)。如果將此類測量值應用于本示例,則結果是原始音頻信號電平的快速上升導致噪聲信號中較慢的上升。這完全是可接受的-甚至在某些情況中是期望的。但是在原始音頻信號電平中的突然降低會導致噪聲信號電平中的較慢降低。在極端的情況中,這可能導致噪聲信號瞬間地比原始音頻信號大的非期望情況。
發(fā)明內(nèi)容
本發(fā)明提出音頻處理設備,其中將有效載荷信號插入到原始音頻信號中,該設備包括噪聲發(fā)生器,可用于根據(jù)有效載荷信號生成噪聲信號;電平檢測器,用于檢測原始信號的信號電平;調(diào)制器,響應原始音頻信號中檢測到的信號電平的增加或降低來增加或降低噪聲信號的電平,以便生成調(diào)制的噪聲信號;用于將原始信號與調(diào)制的噪聲信號組合的組合器;以及信號延遲裝置;調(diào)制器相對于信號延遲裝置來操作,使得噪聲信號的電平中的降低相對于原始音頻信號的信號電平中的相應降低是時間超前的。
本發(fā)明通過如下方式來解決上文所描述的問題提出一種時間超前釋放功能,使得噪聲信號的電平中的降低相對于原始音頻信號的信號電平中的相應降低是時間超前的。換言之,相對于原始音頻信號,噪聲信號在原始音頻信號開始下降之前就開始下降??梢躁P于系統(tǒng)中的任何釋放時間常數(shù)和原始音頻信號的音頻帶寬來設置此時間超前的量,以使噪聲信號從不大于原始音頻信號或使它們之間的任何差在被視為可接受的限度內(nèi)。
在所附權利要求中定義本發(fā)明的其他各個方面和特征。
現(xiàn)在將參考附圖僅以示例的方式描述本發(fā)明的實施例,其中圖1以示意方式圖示包括指紋編碼器的數(shù)字影院設置;圖2以示意方式圖示指紋檢測器;圖3是指紋編碼器的操作的示意略圖;圖4以示意方式圖示有效載荷發(fā)生器;圖5以示意方式圖示指紋流發(fā)生器;圖6以示意方式圖示頻譜分析儀;圖7以示意方式圖示頻譜跟隨器;圖8至圖11以示意方式圖示包絡跟隨器的操作;圖12是指紋檢測器的操作的示意略圖;圖13是示出時間對準單元的一部分操作的示意流程圖。
圖14以示意方式圖示劃分成塊的可疑材料和代理材料;圖15以示意方式圖示低通濾波器設置;圖16以示意方式圖示閾值限定的信號;圖17以示意方式圖示相關操作;圖18以示意方式圖示功率曲線;圖19以示意方式圖示去卷積訓練操作;圖20以示意方式圖示幅度曲線;圖21以示意方式圖示閾值和內(nèi)插的幅度曲線;圖22以示意方式圖示圖19中所示的處理的中間結果;圖23以示意方式圖示脈沖響應;圖24以示意方式圖示平滑曲線;圖25以示意方式圖示平滑的脈沖響應;以及圖26以示意方式圖示數(shù)據(jù)處理設備。
具體實施例方式
已經(jīng)提出指紋處理或水印處理技術-更通常稱為法務鑒定標記技術,這些技術適用于視頻信號。例如參閱EP-A-1 324 262。雖然通用數(shù)學框架在原理上可應用于音頻信號,但是存在多個顯著的技術差異。在本文描述中,“指紋”和“水印”將用于指示材料的法務鑒定標記。
要考慮的主要因素之一是應該如何將指紋數(shù)據(jù)編碼到音頻信號中。人耳在靈敏度和動態(tài)范圍方面與人眼有非常大差異,這使得許多先前的商業(yè)指紋處理方案在主觀收聽(“A/B”)測試中均失效。
人耳能夠聽到48kHz采樣率下少于一個樣本的相位差,而且它在任一時間具有9個幅度等級的工作動態(tài)范圍。據(jù)此原理,考慮一種適合的編碼方法,將指紋數(shù)據(jù)編碼為僅添加到媒體中的低電平噪聲信號。
噪聲具有許多使之可有利于本任務的音質(zhì)特性,尤其是當它處于低電平時人耳往往忽略它,而且它是一般為平靜(模仿風、激流或海浪的自然聲音)而非刺激的聲音。噪聲流的隨機特征還意味著幾乎沒有可能以例如可能對視覺感知施加頻閃(strobe)影響或下意識信息的惡意使用的方式干擾大腦功能。
現(xiàn)在將描述這種技術的實施。
數(shù)學基礎考慮指紋有效載荷“矢量”(例如值流)P=p[1]-p[n]。
對于嵌入過程,將該有效載荷添加到音頻信號矢量(例如樣本流)V=v[1]..v[n],以得到經(jīng)水印處理的有效載荷矢量W=V+P。
該有效載荷矢量P的元素是統(tǒng)計上獨立的隨機變量,平均值為0,標準差為α2,其中α稱為水印的強度,書寫為N(0,α2)。簡單地說,該符號用于指示該有效載荷是高斯隨機噪聲流??s放噪聲流,使得標準差作為音頻信號在范圍+/-1.0內(nèi)。這種縮放是重要的,因為如果未正確執(zhí)行此操作的話,下面計算的相似度指標(“SimVal”)將不正確。注意這里的約定是將+/-1.0視為音頻域中的“滿標度”,這樣在本例中高斯噪聲流的許多樣本實際將大于滿標度。
對于提取過程,從經(jīng)水印處理的可疑矢量(例如考察的音頻材料的盜版拷貝)Ws減去初始代理矢量V,以得到可疑有效載荷矢量Ps=Ws-V。換言之,Ps=可疑音頻流-代理音頻流。
為了測試內(nèi)容是否是利用候選有效載荷矢量P進行水印處理的,在候選有效載荷矢量P與歸一化可疑有效載荷矢量Ps之間執(zhí)行內(nèi)循環(huán)相關(書寫為“·”),以得到相似度值,下文表示為SimValSimVal=(Ps/|Ps|)·P其中|Ps|是Ps的矢量幅度,表示|Ps|=sqrt(Ps·Ps)。這里,sqrt表示平方根函數(shù)。注意歸一化矢量意味著在矢量內(nèi)縮放值,以使它們加起來剛好幅度為1。
此公式表示Ps與P之間的統(tǒng)計相關度,最大值接近于矢量長度的平方根。我們假定如果SimVal大于特定閾值T,則Ps中存在有效載荷P,以及如果SimVal<=T,則它不存在。
為了賦予SimVal的值一些統(tǒng)計含義,通過如下公式將T的值與誤報的概率相關聯(lián)T=sqrt(2ln(M2/p sqrt(2π)))其中p是誤報的概率,ln是自然對數(shù),以及M是填充大小(即就給定音頻內(nèi)容發(fā)行的惟一有效載荷矢量的數(shù)量)。例如,如果要求錯誤的概率好于一億分之一,填充大小是1000,則值SimVal需要大于8。
一般來說,使用本技術,SimVal為10是盜版音頻材料的法務鑒定分析中有意義的目標。對于特別大的填充M,值為12可能更適合。在實驗測試中,發(fā)現(xiàn)如果在可疑音頻材料數(shù)秒的的分析內(nèi)達到8的值,則在另外數(shù)秒內(nèi)一般將達到12的值。
圖1以示意方式圖示數(shù)字影院設置,其中安全播放設備10接收加密的音頻/視頻材料連同解密密鑰。解密器20將該音頻和視頻材料解密。將解密的視頻材料提供到投影機30,以投影到屏幕40上。將解密的音頻材料提供到指紋編碼器50,指紋編碼器50按上文所描述的應用指紋。
一般來說,指紋對于該材料、影院和重播實例可以是惟一的,這將允許對盜版追溯到電影的特定顯示。
將經(jīng)指紋處理的音頻信號傳送到放大器60,放大器60驅(qū)動公知影院音響配置中的音箱70和低音音箱80。
還可以將指紋處理應用于視頻信息。可以使用公知的視頻指紋處理裝置(未示出)。
優(yōu)選地,播放設備是安全的,因為它是沒有可用于獲取未經(jīng)指紋處理的音頻(或?qū)嶋H視頻)的外部連接的密封的單元。當然,放大器60和投影機30無需一定構成該安全系統(tǒng)的一部分。
如果以來自影院演出的材料制作非法拷貝,例如使用影院內(nèi)的攝像機制作非法拷貝,則與該電影相關聯(lián)的音頻內(nèi)容將具有其中所含的指紋編碼器50編碼的指紋信息。為了研究或合法原因而建立它,可以將材料的可疑拷貝連同原始(或“代理”)材料以及用于生成原始指紋的密鑰一起提供到圖2的指紋檢測器80。在其最簡單的方面,指紋檢測器80生成特定指紋存在于可疑材料中的概率。下文將對檢測過程作更詳細的描述。
嵌入過程在視頻指紋處理中,這些技術一般是基于幀的(幀為視頻域中正常處理塊大小),指紋有效載荷矢量整體(以低電平)埋藏在每個幀中。在一些系統(tǒng)中,在幀的“較忙”圖像區(qū)域中,以及在不嚴重更改視頻內(nèi)容的特征的情況下難以或不可能移除的較低空間頻率處,將指紋的強度設為較大。該理念在于,在許多幀上,可以累計每個幀的相關,就像對一個矢量執(zhí)行相關一樣;如果可疑有效載荷Ps與候選有效載荷P之間存在真實的統(tǒng)計相關,則相關會一個幀接一個幀地繼續(xù)升高。
對于音頻來說,一般沒有此類正常處理塊。
在本實施例中,出于快速傅里葉變換(FFT)運算效率的原因,將音頻版本的處理塊大小設為2的乘冪個音頻樣本,例如64k個樣本(65536個樣本)。還要注意矢量長度與處理塊是相同大小的。
能以與視頻系統(tǒng)相同的方式累計這些音頻幀的連續(xù)相關。
每個內(nèi)容樣本有有效載荷矢量的一個樣本。有效載荷還集中在“中頻”,因為可以完全丟失高頻內(nèi)容(即>5KHz)和低頻內(nèi)容(即<150Hz),而不會有音頻質(zhì)量不可容許地丟失。這些頻率的丟失可能是劣質(zhì)錄制設備或技術在盜版部分上留下的人為痕跡,或它們可能被盜版故意移除以試圖抑制指紋恢復過程。因此更適合將有效載荷集中到更具主觀重要性的中頻,即如果不嚴重降低質(zhì)量便不能容易地移除的頻率。
一般地說1.有效載荷播種基于AES Rijndael的偽隨機數(shù)流以生成噪聲流。
2.根據(jù)音頻流的感知分析對噪聲流“整形”。
3.在低電平將整形的噪聲流加到音頻流。
生成的噪聲流在其中包含多個層,每個層從有效載荷數(shù)據(jù)的不同子集生成。將認識到可以在有效載荷內(nèi)包含其他數(shù)據(jù),如幀編號和/或日期/時間。
通過對移動計數(shù)器重復應用256位Rijndael加密以生成隨機數(shù)流。然后將這些數(shù)縮放到+/-1.0,以產(chǎn)生滿標度的白噪聲。通過向點對應用Box-Muller變換來將白噪聲流轉變成高斯噪聲。
在本實施例中,對于噪聲流有16個層。由有效載荷的前16位播種偽隨機噪聲發(fā)生器的第一層,由有效載荷的前32位播種第二層,并依此類推,直到通過整個256位有效載荷播種第16層為止。
感知分析包括簡單的頻譜分析,以便建立增益值來縮放音頻流中的每個樣本的指紋噪聲流。該理念在于音頻流中較響部分將隱藏較響強度的指紋噪聲。
進一步擴展此概念,將(要隱藏指紋的)音頻流的中頻內(nèi)容拆分成多個頻帶(即8或12個),其中優(yōu)選地將頻帶均勻分布在對數(shù)頻率刻度上(當然還可以使用任何頻帶劃分)。例如,這意味著大約將頻譜分成八組。然后分開處理每個頻帶,以產(chǎn)生各自的增益包絡以用于調(diào)制指紋噪聲流中對應頻帶的振幅。當在所有頻帶中使用包絡調(diào)制時,結果是噪聲流聽起來非常像原始音頻信號的“鬼影”再現(xiàn)。更重要的是,這種鬼影再現(xiàn)由于與內(nèi)容相似,所以當添加到原始材料時,對人耳來說變成不可聽,盡管是在相對較高的信號電平下添加的。例如,即使調(diào)制的噪聲在相對于音頻-30dB(分貝)一樣高的電平添加調(diào)制的噪聲,它在主觀上仍然幾乎不可聽。
本實施例使用2049個樣本脈沖響應核來實施“磚墻”(陡邊響應)卷積帶通濾波器,以分離每個頻帶中的信息。為速度在FFT域中進行卷積。使用卷積濾波器作為帶通濾波器而不是遞歸濾波器的一個重要原因是可以使卷積濾波器具有獨立于頻率的固定延遲。這一點是重要的原因在于,當添加噪聲流時,進行任何給定頻帶的噪聲流的調(diào)制必須與原始內(nèi)容的實際包絡對準。如果這些濾波器具有取決于頻率的延遲,則所導致的未對準難以校正,這可能導致噪聲的感知度增加,以及導致與頻率的相關值的可能變化。
圖3是指紋編碼器(如圖1的編碼器50)的操作的示意略圖。有效載荷發(fā)生器100產(chǎn)生要編碼為指紋的有效載荷數(shù)據(jù)。如上文所描述的,這可能包括多種內(nèi)容和其他標識符,它可以很好地對于內(nèi)容重放實例是唯一的。下文參考圖4進一步描述有效載荷發(fā)生器。
將有效載荷提供到指紋流發(fā)生器110。如上文所描述,這基本上是使用基于編碼密鑰的AES-Rijndael編碼的隨機數(shù)發(fā)生器,它產(chǎn)生取決于從有效載荷發(fā)生器100提供的有效載荷的輸出序列。下文參考圖5進一步描述指紋流發(fā)生器。
將(要向其提供指紋的)源材料提供到頻譜分析儀120。它分析一個或多個頻帶中的源材料的振幅或包絡。頻譜分析儀將包絡信息提供到頻譜跟隨器130。頻譜跟隨器根據(jù)來自頻譜分析儀120的包絡信息調(diào)制指紋流發(fā)生器110輸出的噪聲信號。下文參考圖6進一步描述頻譜分析儀,以及參考圖7進一步描述頻譜跟隨器。
頻譜跟隨器130的輸出是噪聲信號,該噪聲信號處于顯著低于源材料電平的電平但一般跟隨源材料的包絡。噪聲信號由加法器140添加到源材料。因此加法器140的輸出是經(jīng)指紋處理的音頻信號。
在源材料路徑中示意示出延遲單元150。這指示頻譜分析和包絡確定可以在比傳遞到加法器140的源材料版本在時間上超前的源材料版本執(zhí)行。下面將進一步描述該時間超前的特征。
圖4以示意方式圖示有效載荷生成器。如上文所描述的,它會采用諸如序號、位置標識符和位置私鑰之類的多種標識數(shù)據(jù),并生成作為種子提供到指紋流發(fā)生器110的有效載荷數(shù)據(jù)160。位置私鑰可以由加密裝置170用于對位置標識符加密。由邏輯180對有效載荷數(shù)據(jù)的多種分量進行位對準,以便作為種子輸出。
圖5以示意方式圖示指紋流生成器110。它從有效載荷發(fā)生器100接收種子數(shù)據(jù)160,并接收由擴充邏輯200擴充到十六個不同密鑰K-1...K-16的密鑰數(shù)據(jù)190。
可以可選地由加法器210向種子數(shù)據(jù)160添加幀編號。
流發(fā)生器具有十六個AES-Rijndael數(shù)發(fā)生器220...236。它們中的每一個均從密鑰擴充邏輯200接收各自的密鑰。還由來自種子數(shù)據(jù)160的各自位集對每一個數(shù)發(fā)生器播種。由種子數(shù)據(jù)160的前16位對數(shù)發(fā)生器220播種。由種子數(shù)據(jù)160的前32位對數(shù)發(fā)生器221播種,并依此類推。這種設置允許建立有效載荷的層次結構,這使得更易于通過如下方式在解碼階段搜索特定指紋首先搜索前16位的所有可能值,然后搜索第17至32位的可能值(已知前16位)并依此類推。
每個數(shù)發(fā)生器220...236的輸出提供到高斯映射裝置240...256。它們采用數(shù)發(fā)生器的輸出(實際是白噪聲),并應用已知的映射過程以產(chǎn)生具有高斯分布的噪聲。
由加法器260添加來自映射邏輯240...256的每個實例的高斯噪聲信號,以生成作為輸出的噪聲信號270。
圖6以示意方式圖示頻譜分析儀120。它接收作為輸入的(要執(zhí)行指紋處理的)源材料,并生成作為輸出的包絡信息280。
頻譜分析儀包括一組八個(在本示例中)帶通濾波器290...270,每個濾波器對來自源材料的各自頻帶的頻率濾波。這些濾波器可能在頻率上重疊或不重疊,八個濾波器覆蓋整個可用頻率范圍的程度可以是百分之百或常常遠少于此。與八個濾波器相關的各自頻帶可以是連續(xù)的(即彼此相鄰)或不連續(xù)的。所使用的濾波器(頻帶)的數(shù)量可以少于或多于八個。因此,將認識到本文的描述僅僅是這些濾波器可操作的方式的一個示例。
在本例中,濾波器處理中頻范圍,從大約150Hz至大約5kHz。這被劃分成八個對數(shù)上相等的頻帶,因此每個頻帶延伸覆蓋大約八組的其中一組。用于帶通濾波器290...297的濾波技術是根據(jù)上文描述的。
在每個帶通濾波器的輸出處是包絡檢測器300...307。這生成與各自帶通濾波器輸出端的濾波的源材料的包絡相關的包絡信號。
圖7以示意方式圖示頻譜跟隨器。頻譜跟隨器從頻譜分析儀120接收包絡信息280,并從指紋流發(fā)生器110接收高斯噪聲信號270。
將高斯噪聲信號270提供到一組帶通濾波器310...317。將它們設置為具有與頻譜分析儀120的對應濾波器290...297相同(或盡可能相近)的響應。這在噪聲頻譜內(nèi)生成八個頻帶。將每個濾波的噪聲頻帶提供到各自包絡跟隨器320...327。這采用源材料中與該頻帶的包絡相關的包絡信號,并在相同頻帶中調(diào)制濾波的噪聲信號。由加法器330將所有包絡跟隨器320...327的輸出求和,以生成整形的噪聲信號340。
包絡跟隨器可以包括縮放裝置,使得最終整形的噪聲信號340相對于源材料處于適合的電平,例如相對于源材料的-30dB。
如上文所描述的,由加法器140將整形的噪聲信號340添加到源材料,以生成作為輸出信號的經(jīng)指紋處理的源材料。
可以分開或同步地對不同的音頻聲道(如左聲道和右聲道)執(zhí)行指紋處理過程。但是優(yōu)選的是對每個聲道使用不同的噪聲信號,以避免盜版者通過比較多個聲道試圖推算(然后移除或毀壞)指紋。在兩種情況中,包絡信號280優(yōu)選地與指紋編碼的單獨音頻聲道相關。
現(xiàn)在將參考圖8至11更詳細地解釋上文所描述的包絡檢測和包絡跟隨。注意,在上文所描述的頻譜跟隨器的情況中,包絡跟隨是針對每個聲道或頻帶來進行的。而且,可以取決于可應用于頻帶的音頻頻率或頻率范圍、例如取決于該頻帶內(nèi)信號的最快上升時間來設置下文描述的時間常數(shù)。這允許它們作為一組通過僅更改時間常數(shù)與最快上升時間之間的關系來調(diào)整。
在圖8至11中,水平軸表示任意標度上的時間,實曲線表示與源材料相關的包絡信號的示例(采用示意形式),以及虛線表示(采用示意形式)包絡跟隨器320...327應用的調(diào)制。
在圖8中,響應源材料的包絡的突然上升,包絡跟隨器應用時間常數(shù)來限制噪聲信號的上升時間。這由虛線的左邊部分表示,該虛線在時間上滯后于實線的更垂直上升。此類時間常數(shù)常常稱為“增高”時間常數(shù)。但是,在圖8至11的所有附圖中要注意,雖然噪聲信號的上升速率受到限制,但是噪聲信號開始上升的時間與包絡信號開始上升的時間相同(只存在檢測延遲導致的微小時間差)。相對于包絡信號使噪聲信號上升的開始得以延遲(或甚至利用上文所描述的時間超前裝置使之超前)是可能的,但是看上去這樣做的好處不大。具體來說,使噪聲信號的上升得以延遲能限制可隱藏在上升信號之后的有用有效載荷,并且使噪聲信號開始時間超前可以提供與參考圖8的包絡的下降沿描述的那些類似的可聽人為痕跡。
相似地,在源材料包絡的下降沿處,下降點劃線所示的噪聲包絡的降低也受到“衰減”時間常數(shù)的限制。遺憾的是,這意味著隨時間從t1至t2,噪聲信號大于源材料信號,這樣噪聲可能在主觀上干擾收聽者。
圖9圖示包絡跟隨音頻效應處理器中常見的情況,由此定義“持續(xù)”周期350,該周期使包絡跟隨信號(在本例中為噪聲信號)的衰減的開始得以延遲。這使得上文所描述的情況甚至更糟,因為噪聲信號現(xiàn)在在時間t1和t3之間大于源材料信號。因此,在實施例中不使用持續(xù)周期。
下文將參考圖10和圖11描述解決此問題的措施。。
在圖10中,噪聲信號開始下降的時間相對于源材料的包絡下降的時間超前了超前時間360。在此示例中,這意味著噪聲信號截至時間t1已衰減到不重要的電平。
在圖11中,如果稍微縮減超前周期360,則噪聲信號在源材料的包絡下降之前開始下降,但是截至時間t1它尚未完成下降。這意味著在時間t1和t4之間仍有少量噪聲存在,但是問題比圖8所示的要小很多。
因此,通過在比促使噪聲下降的源材料包絡的下降早的時間開始噪聲信號的下降,可以降低或避免圖8和9所示的主觀上干擾的過度噪聲。
為了實現(xiàn)此目的,有必要在系統(tǒng)內(nèi)某個位置包括延遲,以便可以在加法器140將源材料加到噪聲的時間超前關系獲取源材料的包絡信息。圖3所示的延遲是如何實現(xiàn)此目的的一個非常簡明的示例。本領域技術人員將認識到許多其他可能性也是存在的。在上文示例中,將延遲加于從源材料到組合器140的路徑中。在此設置中,頻譜分析儀130可以按如下方式操作(如果得出超出一個,則針對每個包絡信號)(a)對于上升包絡,(由延遲單元,未示出)對包絡信號應用等于延遲組件應用的延遲τ的延遲;以及(b)對于下降包絡,對該包絡信號應用小于延遲τ的延遲。
提取過程指紋提取的主要階段如下所示1.處理可疑材料,以嘗試反轉任何損壞或失真。
2.從可疑內(nèi)容中減去所謂的代理內(nèi)容(用于描述內(nèi)容的未經(jīng)水印處理的版本的術語)以留下可疑指紋。這依賴于能夠在時間上將可疑材料與代理內(nèi)容對準。在一些情況中,可以使用經(jīng)水印處理的代理。當然代理中的水印可能通過相關而被檢測到,但是它不妨礙檢測其他水印,并且可以被忽略。以此方式,可以將安全的副本發(fā)送到操作提取過程的合約的第三方。
3.根據(jù)代理內(nèi)容的頻譜分析對可疑指紋“去整形(unshaped)”。
4.對于此內(nèi)容的填充中的每個候選有效載荷,在內(nèi)容的相對較短部分上將候選有效載荷與可疑有效載荷比較。如果值SimVal看上去是有希望的,則將該候選添加到將接受時間長很多的分析的候選短列表。
圖12是指紋檢測器(如圖2的檢測器80)的操作的示意略圖。該檢測器接收可疑材料、例如懷疑是盜版拷貝的一段內(nèi)容和相同材料的明文(未經(jīng)水印處理的)副本的所謂的代理材料。
首先將可疑材料提供到時間對準單元400。下文將參考圖13至18描述此操作。但是簡要地來說,時間對準單元檢測代理材料與可疑材料之間的任何時間偏移,由此使這兩組材料在時間上能夠?qū)?。潛在地可以由時間對準400實現(xiàn)的對準要處于某個容差內(nèi),如±一個樣本的容差。由去卷積器410執(zhí)行進一步時間校正,以使兩個信號之間能夠完全對準,下文將對此予以描述。
去卷積器對可疑材料應用脈沖響應,以嘗試使它更像代理材料。這里的目的是要(至少部分)反轉可疑材料中信號劣化的影響;下文列出了此類劣化的示例。
為此,通過去卷積器訓練單元420“訓練”去卷積器410。下文將參考圖19至25描述去卷積器訓練單元的操作,但是簡要地來說,去卷積器訓練單元將時間對準的可疑材料與代理材料比較,以便推算出表示對代理材料進行了什么操作才將其轉變成可疑材料的變換響應。由去卷積器410“逆向”應用這種變換響應。優(yōu)選地,在可疑材料內(nèi)的不同位置更新變換響應,以便表示該特定點上存在的劣化。在下文要描述的實施例中,去卷積器訓練單元檢測到的變換響應基于對可疑材料與代理材料的塊的最近部分的預定成員檢測到的響應的移動平均值。
可以提供延遲430,以補償去卷積器和去卷積器訓練操作。
交叉歸一化單元440然后執(zhí)行操作以將去卷積的可疑材料和代理材料的幅度歸一化。圖12中所示,此操作對可疑材料執(zhí)行,但是將認識到可以調(diào)整代理材料的幅度,或可以同時調(diào)整二者的幅度。
歸一化之后,減法器450建立歸一化且去卷積的可疑材料與代理材料之間的差值。將此差值信號傳遞到“去整形器”460,去整形器460設置為反轉頻譜跟隨器130執(zhí)行的噪聲整形的結果。為此,對代理材料執(zhí)行頻譜分析階段470,此操作采用與圖3的頻譜分析儀120完全相同的方式執(zhí)行。
這樣,可以認為頻譜分析儀470和去整形器460采用與頻譜分析儀120和頻譜跟隨器130相同的方式操作,所例外的是為了產(chǎn)生通常均勻的噪聲包絡作為去整形器460的輸出而使用包絡控制的增益值的倒數(shù)。將去整形器460生成的噪聲信號Ps傳遞到比較器480。按如下生成對比較器的其他輸入P。
指紋發(fā)生器490采用與圖3的有效載荷發(fā)生器100和指紋流發(fā)生器110相同的方式操作。因此,這里將不詳述這些操作。指紋發(fā)生器490進而執(zhí)行操作以產(chǎn)生可疑材料中可能存在的指紋的所有可能變體。進而測試每一個以推算各自的可能值SimVal。
當然,可能采用多個指紋發(fā)生器490和使用并行操作的多個比較器480,以便將噪聲流Ps一次與多于一個指紋比較。
提供延遲500、510以補償應用于可疑材料的處理延遲,以便使指紋發(fā)生器490生成的指紋適合地與可疑材料內(nèi)可能包含的指紋時間對準。
存儲去整形器的輸出是可能的,這樣可以執(zhí)行一個或多個與各自不同指紋(如模塊490、500、510所處理的)的進一步比較,而無需重復產(chǎn)生去整形器460的輸出的處理。
時間對準處理可疑盜版信號的第一件事是發(fā)現(xiàn)與代理信號的真實同步。
可以包括子樣本延遲,以便在需要的情況下允許對再采樣或MP3編碼效應施加的任何子樣本延遲/超前進行補償。
圖13是示出時間對準單元400的一部分操作的示意流程圖。該流程圖的每個步驟由時間對準單元400的各自部件或功能實施。
雖然在理論上來說通過(單個)直接相關過程對準可疑材料和代理材料是可能的,但是在例如電影音軌的基本材料的情況中,所需的相關處理是數(shù)量龐大的,因為這些處理操作通常隨所涉及的音頻樣本數(shù)量的平方增加。因此,本過程旨在提供至少大致對準,而無需兩個信號的完全相關。
參考圖13,在步驟600,將兩個音頻信號分成多個部分或塊。對于這兩個信號的每一個來說,這些塊在大小上是相等的,但是無需是預定的大小。這樣,一種選擇是具有(比如說)64k個樣本的固定大小,而另一種選擇是具有塊的固定數(shù)量,使得將兩段材料的較長一段(一般為代理材料)的總長度除以塊的預定數(shù)量,以便達到時間對準處理的該特定實例的所要求的塊大小。在任何情況中,塊大小應該是至少兩個樣本。
可以在圖13的步驟600之前包括低通預濾波階段(未示出)。就塊大小而言,這可以減少兩個信號之間任意未對準導致的任何人為痕跡。
在步驟605,為每個塊建立每個信號的絕對值和檢測的最大功率(參考該絕對值)。當然,也可以代之以建立不同功率特征,例如平均功率。其目的在于根據(jù)每一代理和可疑信號以功率特征信號結束,從而每個塊具有小數(shù)量(例如1或2個)的值。本示例中每個塊具有一個值。
在步驟610,對兩個功率特征信號低通濾波或平滑處理。
圖14以示意方式圖示將這兩個信號劃分成塊,由此在本示例中代理材料表示電影的全部長度,可疑材料表示從電影截取的一段。
圖15以示意方式圖示分開應用于兩個功率特征信號的低通濾波器。在乘法器611將每個樣本乘以一個系數(shù),然后在加法器612加上加法器的輸出和第二系數(shù)的積。這在乘法器613上進行。該過程產(chǎn)生每個信號的低通濾波的版本。
在此階段,這兩個功率特征信號具有一般在0與1之間的幅度。濾波過程可能引入了一些微小的超過1的偏移,但是因為步驟605中絕對值檢測的原因,沒有零以下的偏移。
在步驟630,應用閾值。圖16以示意方式圖示了此情況。此類閾值的示例可以是0.3,當然還可以使用多種其他值。
按如下應用閾值。
其目的在于將對應于該閾值的功率特征信號值映射到1的修正值。落在該閾值以下的任何信號值將被映射到0與1之間的信號值。落在該閾值之上的任何信號值將被映射到大于1的信號值。這樣,實現(xiàn)此目的的一個簡捷方式是將整個功率特征信號乘以1/閾值的值,即在本例中是3.33...。
之所以這是相關的,是因為下一步640將對這些信號應用冪率。這里的一個示例是,對每個信號求平方,就是說每個樣本值自乘。但是,還可以使用大于1、整數(shù)或非整數(shù)的其他乘冪。步驟630和640總的結果是,強化較高的信號值并弱化較低信號值的影響。此情況的產(chǎn)生是因為0與1之間的任何數(shù)自乘大于1次(例如求平方)變得更小,而大于1的任何信號值自乘大于1次變得更大。
應用了冪率之后,在步驟650對結果信號執(zhí)行可選的高通濾波過程。在步驟660,減去每個信號的平均值,以便生成具有零平均值的信號。(此步驟對于更好地操作下面的相關步驟670有用)。
最后,在步驟670,對這些功率特征信號執(zhí)行相關過程。圖17中以示意方式圖示此情況,其中對來自可疑材料的功率值填充0,以便提供與代理材料相同長度的數(shù)據(jù)集。相關過程將(有希望)生成峰值相關,它與中心位置702的偏移701表示這兩個文件之間的時間偏移。可以通過對代理或可疑信號應用相對延遲來校正此偏移。
可以利用更小的塊大小以及執(zhí)行相關有關的限制范圍來重復參考圖13至17描述的該過程(取來自第一階段的偏移701作為起始位置和近似答案)。實際上,該過程可以在適當降低塊大小的情況下重復執(zhí)行多于兩次。要產(chǎn)生好處,塊大小應該保持至少兩個樣本。
圖18以示意方式圖示步驟605生成的功率特征信號和步驟660生成的濾波的功率特征信號。這里,閾值是0.3,步驟640中的功率因數(shù)是1.5和應用了1/10的縮放。
損壞反轉損壞反轉的目的是,以使盜版的內(nèi)容變成盡可能接近于初始代理版本的方式變換盜版的內(nèi)容。這樣從盜版的版本減去代理所得到的可疑有效載荷Ps將盡可能小,這通常應該導致較大的SimVal值。
對于音頻來說,存在盜版者可能意外或故意施加的可能失真的長列表,每個失真潛在地導致SimVal值的降低■高、低、凹槽、頻帶或參數(shù)濾波■壓縮、擴展、限制、選通■驅(qū)使過度、剪裁■膨脹、閥音和其他聲音增強效果■重新采樣、ADC和DAC重新轉換■頻率偏移、抖晃度、倒相、變速■MP3-系列有損編碼/解碼技術
■回音、回響、空間化■所謂的咝聲消除(de-essing)、雜音消除、爆音消除。
為了應對盡可能多的這些損壞,指紋恢復設置包括通用去卷積器,這可以參考訓練代理信號以顯著地降低/移除卷積濾波器的操作所產(chǎn)生的任何影響。在電信(用于移除采用許多不同路徑通過系統(tǒng)的信號所施加的非期望的回音)中和歸檔的材料恢復項目(用于移除老化損壞、或移除不完善的錄制設備的人為痕跡)中可以發(fā)現(xiàn)其他先前使用的去卷積器。
簡言之,通過將可疑盜版的音頻材料和代理版本變換到FFT域中來訓練去卷積器。將期望的信號(代理)的實/虛值除以(使用復數(shù)除法)實際信號(盜版版本)的實/虛值,以獲得將實際響應變換到期望的響應的脈沖響應核的FFT。對結果FFT平滑處理,然后與先前的實例取均值,以推算出表示最近該音頻信號的一般變換的FFT。然后將該FFT轉成時間域脈沖響應核,用于作為卷積濾波器來應用(一種過程,包括將時間域信號旋轉,并對它應用窗口同步函數(shù)、如“加重平均”窗口以減少鋸齒影響)。
訓練良好的去卷積器在原理上可以將應用于盜版版本的非線性增益效應的影響降少到原來的1/10,例如通過麥克風壓縮電路來實現(xiàn)。在實驗測試中,發(fā)現(xiàn)去卷積器能夠?qū)⒚總€塊的SimVal值從15增加到40。
圖19以示意方式圖示去卷積器訓練單元420應用的去卷積器訓練操作。
該過程開始于對可疑材料(700)和代理材料(710)逐個塊進行快速傅里葉變換(FFT),其中塊大小可以是例如64k連續(xù)樣本。除法器720將FFT的其中一個除以另一個。在本例中,因為期望生成將應用于可疑材料的變換響應,所以除法器執(zhí)行操作來將代理FFT除以可疑FFT。
平均器730對來自除法器720的當前除法結果與存儲在緩沖器740中的n個最近除法結果取均值。當然,也將最近的結果添加到緩沖器,并將最久存儲的結果廢棄。n的一個示例是5。當然存儲原始FFT,形成兩個平均值(一個用于代理,一個用于可疑材料)并除上這些平均值也是可能的,但是這會增加存儲需求。
轉換器然后將取均值的除法結果(是復數(shù)結果)轉換成幅度和相位表示。
邏輯750移除任何小幅度值。這里,雖然刪除了該幅度值,但是對應相位值保留不動。邏輯750僅對幅度值操作。通過線性插值法將刪除的小幅度值替代為來自最接近的周圍非刪除的幅度值插入的值。
圖20和21中以示意方式圖示了該過程,其中圖20以示意方式圖示作為一組幅度值(未示出相位值)幅度/相位轉換器740的輸出。刪除小于閾值Tmag的任何幅度值,通過線性插值法在最接近的非刪除值之間生成替代值751、752、753。
在轉換器770將結果幅度值轉換回復數(shù)表示之前,通過低通濾波器760對結果幅度值進行平滑處理。然后應用逆向FFT 780。這生成更像圖22中所示的脈沖響應。為了達到適于對可疑材料去卷積的形式,將脈沖響應旋轉窗口大小的一半,以便將兩個半波瓣連接成如圖23中所示的中心峰值。這由邏輯790來執(zhí)行。
但是,圖23中所示的邏輯790的輸出仍不是完全適于去卷積。這是因為此響應的旁瓣791橫跨整個窗口。如果在去卷積器410中使用此類響應,則這可能導致鋸齒問題。因此,調(diào)制器800將圖23的響應乘以如圖24所示的同步窗口函數(shù),以便產(chǎn)生如圖25所示的必需的脈沖響應。這才是提供到去卷積器410的脈沖響應。
電平匹配在去卷積操作之后,使盜版信號盡可能地與代理信號的電平匹配。在實際中,試驗測試顯示執(zhí)行此操作的一種有用方式是將兩個信號的平均幅度匹配而非將其峰值匹配。
一旦實現(xiàn)這三個步驟(時間對準、去卷積和電平匹配),則從盜版材料減去代理信號以留下可疑有效載荷Ps。
可疑有效載荷的提取注意,嵌入過程中由噪聲整形器產(chǎn)生的有效載荷信號與進入其中的高斯噪聲流非常不同。為了找出值SimVal而恢復更接近匹配候選有效載荷高斯噪聲流(從統(tǒng)計意義上而言)的可疑有效載荷信號,恰當?shù)氖菍⒃肼曊蔚慕Y果反轉,即對該有效載荷信號“去整形”。
“去整形”使用相同的噪聲整形組件來實現(xiàn),所例外的是并不將噪聲流乘以增益值,而是應用除法。
從技術角度來看,另一種可能的方法、即在比較之前對候選有效載荷流執(zhí)行噪聲整形是可能的,但是由于法律原因,它得不到支持。這是因為由統(tǒng)計上獨立的樣本組成候選流違背數(shù)字版權管理系統(tǒng)中采用的數(shù)學原理。對噪聲流應用濾波器自動與樣本相關。
另一個原因是如果搜索的信號淹沒在噪聲里,則卷積技術往往操作更成功。在噪聲中查找噪聲流一般比在相似整形的余留音頻信號中查找整形的信號更有效且更可靠(因為它得到更穩(wěn)定的交叉相關)。
最后,圖26圖示數(shù)據(jù)處理設備。這僅僅是作為可以如何實施圖1的編碼器50和圖2的檢測器80的一個實例來提出的。但是,應該注意至少在圖1中,整個數(shù)字影院設置10優(yōu)選地是一個沒有外部連接的安全單元,所以至少指紋編碼器可以更好地作為硬連線設備、例如作為一個或多個現(xiàn)場可編程門陣列(FPGA)或?qū)S眉呻娐?ASIC)來實施,。
參考圖26,數(shù)據(jù)處理設備包括中央處理單元900、存儲器910(例如隨機存取存儲器、只讀存儲器、非易失性存儲器等)、提供與例如顯示器930和諸如鍵盤、鼠標或二者兼有的用戶輸入設備945的接口的用戶接口控制器920、諸如硬盤存儲裝置、光盤存儲裝置或二者兼有的存儲裝置930、用于連接到局域網(wǎng)或因特網(wǎng)950的網(wǎng)絡接口940以及信號接口960。在圖26中,以適用于指紋編碼器50的方式示出信號接口,因為它接收未經(jīng)指紋處理的材料并輸出經(jīng)指紋處理的材料。但是,當然可以使用該設備來實施指紋檢測器。
單元900、910、940、920、930、960是通過總線970來互連的。在操作中,由存儲介質(zhì)(例如光盤)或通過網(wǎng)絡或因特網(wǎng)連接950來提供計算機程序,并將其存儲在存儲器910中。由CPU 900來執(zhí)行連續(xù)指令,以執(zhí)行與如上文所描述的指紋編碼或檢測相關的功能。
權利要求
1.一種音頻處理設備,其中將有效載荷信號(160)插入到原始音頻信號中,所述設備包括噪聲發(fā)生器(220...236),可用于根據(jù)所述有效載荷信號生成噪聲信號;電平檢測器(300...307),用于檢測所述原始音頻信號的信號電平;調(diào)制器(320...327),用于響應所述原始音頻信號中所檢測的信號電平的增加或降低而分別增加或降低所述噪聲信號的電平,以便生成調(diào)制的噪聲信號(340);組合器(140),用于將所述原始音頻信號與所述調(diào)制的噪聲信號(340)組合;以及信號延遲設置(150);所述調(diào)制器(320...327)相對于所述信號延遲設置(150)來操作,使得所述噪聲信號的電平中的降低相對于所述原始音頻信號的信號電平中的相應降低是時間超前的。
2.如權利要求1所述的設備,其特征在于,所述調(diào)制器相對于所述信號延遲設置來操作,使得所述噪聲信號的電平中的增加相對于所述原始音頻信號的信號電平中的相應增加不是時間超前的。
3.如權利要求1或2所述的設備,其特征在于,所述有效載荷信號是法務鑒定標記信號。
4.如前面權利要求中任一項所述的設備,其特征在于,所述噪聲發(fā)生器是由所述有效載荷信號的至少一些播種的偽隨機噪聲發(fā)生器。
5.如權利要求4所述的設備,其特征在于,所述噪聲發(fā)生器可用于根據(jù)安全密鑰對所述有效載荷數(shù)據(jù)的至少一些加密。
6.如前面權利要求中任一項所述的設備,其特征在于,所述組合器可用于將所述調(diào)制的噪聲信號加到所述原始音頻信號。
7.如前面權利要求中任一項所述的設備,包括兩組或兩組以上的電平檢測器、調(diào)制器和組合器,設置為針對兩個或兩個以上的各自音頻頻帶操作,所述設備包括用于將兩個或兩個以上的組合器的輸出組合的部件(330)。
8.一種音頻處理方法,其中將有效載荷信號插入到原始音頻信號中,所述方法包括如下步驟根據(jù)所述有效載荷信號生成噪聲信號;檢測所述原始音頻信號的信號電平;響應所述原始音頻信號中檢測的信號電平的增加或降低而分別增加或降低所述噪聲信號的電平,以便生成調(diào)制的噪聲信號;以及將所述原始信號與所述調(diào)制的噪聲信號組合;這樣的步驟安排使得所述噪聲信號的電平中的降低相對于所述原始音頻信號的信號電平中的相應降低是時間超前的。
9.一種具有程序代碼的計算機軟件,當所述程序代碼運行在計算機上時使所述計算機執(zhí)行如權利要求8所述的方法。
10.一種提供如權利要求9所述的軟件的介質(zhì)。
11.如權利要求10所述的介質(zhì),所述介質(zhì)是存儲介質(zhì)。
12.如權利要求10所述的介質(zhì),所述介質(zhì)是傳輸介質(zhì)。
全文摘要
一種將有效載荷信號插入到原始音頻信號中的音頻處理設備,它包括噪聲發(fā)生器,可用于根據(jù)有效載荷信號生成噪聲信號;電平檢測器,用于檢測原始信號的信號電平;調(diào)制器,用于響應原始音頻信號中檢測的信號電平的增加或降低而增加或降低噪聲信號的電平,以便生成調(diào)制的噪聲信號;組合器,用于將原始信號與調(diào)制的噪聲信號組合;以及信號延遲設置;該調(diào)制器相對于信號延遲設置來操作,使得噪聲信號的電平中的降低相對于原始音頻信號的信號電平中的對應降低是時間超前的。
文檔編號G10L19/018GK1975859SQ20061014365
公開日2007年6月6日 申請日期2006年10月27日 優(yōu)先權日2005年10月28日
發(fā)明者W·E·C·肯蒂什, N·J·海恩斯 申請人:索尼英國有限公司