專利名稱:用于音頻和視頻簽名生成和檢測的特征優(yōu)化和可靠性估計的制作方法
技術領域:
本發(fā)明總體上涉及處理和分布視頻信號和音頻信號的系統(tǒng)和方法,更具體地涉及生成、傳送或使用傳輸關于視頻信號和音頻信號的相對時間對準或同步性的信息的數(shù)據的應用。在整個公開中,術語“視頻信號”指的是傳輸用于視覺感知(perception)的內容的信號,術語“音頻信號”指的是傳輸用于聽覺感知的內容的信號。在一個應用中,系統(tǒng)使用本發(fā)明的方面以建立在被信號傳輸?shù)膬热莸奶幚砗头植计陂g丟失的視頻信號和音頻信號之間的適當?shù)耐叫浴?br>
背景技術:
在音頻-視頻內容的感知質量(perceived-quality)中,視頻信號和音頻信號的相對時間對準是重要的因素。一個稱為“唇同步”的常見的例子是人的嘴唇的運動圖像和由這個人發(fā)出的語音之間的相對時間對準。各種研究表明,如果聲音與運動圖像相關,那么,如果圖像和聲音的相對時間對準的差值在一定的范圍內,那么,人類觀察者一般不知道或者容忍該差值。根據 ITU-R Recommendation ΒΤ· 1359-1,“Relative Timing of Sound and Vision for Broadcasting,”如果聲音比相關的視頻事件提前不大于約20msec或者比相關的視頻事件落后不大于約95msec,那么時間對準的差值一般是不可感知的。如果聲音比相關的視頻事件提前大于約90msec或者比相關的視頻事件落后大于約185msec,那么時間對準的差值被感知到并且一般被發(fā)現(xiàn)是不可接受的。出于本公開的目的,如果時間對準的任何差值是不可感知的或者至少是一般人類觀察者可接受的,那么視頻信號和音頻信號被視為具有適當?shù)臅r間對準或者相互同步。不幸的是,處理、分布和呈現(xiàn)音頻-視頻內容的許多方法和系統(tǒng)常常包含導致丟失適當?shù)耐叫缘臋C制。例如,在廣播中,視頻信號和音頻信號通常在諸如工作室中在信號捕獲的點處被同步化,但是,這些信號常常在廣播傳送之前被處理并且該處理可導致同步性的丟失。例如,模擬視頻信號和音頻信號可被轉換成數(shù)字形式并通過感知編碼方法處理以減少傳送內容所需要的位速率或帶寬??梢允褂弥T如色度鍵控(chroma-keying)的處理以合并來自多個視頻信號的圖像。輔助(ancillary)音頻信號可與原始音頻信號混合或替代原始音頻信號。這些和其它的處理中的許多在信號處理路徑中引入延遲。如果在視頻信號處理路徑和音頻信號處理路徑中,處理延遲不是精確地相等,那么同步性的丟失是不可避免的。另外,如果通過不同的信道獨立地分布視頻信號和音頻信號,那么常常丟失同步性。為了避免這些問題,提出并使用了搜索接收的視頻/音頻內容和已知同步的基準視頻/音頻內容之間的匹配、計算接收的視頻內容和音頻內容之間的時間對準相對于基準內容之間的對準的變化、并且延遲接收的視頻內容或接收的音頻內容以重新建立同步性的各種技術。其它已知的技術的一種限制在于,它們沒有解決匹配的可靠性或計算的對準的變化的可靠性。
發(fā)明內容
本發(fā)明的一個目的是,實現(xiàn)保持或重建可避免現(xiàn)有技術的限制的視頻信號和音頻信號之間的同步性。本發(fā)明的另一目的是,提供可用于包含視頻-音頻內容識別和驗證的各種應用中的視頻信號和音頻信號的簽名、以及其它信號與視頻信號和音頻信號的同步性。本發(fā)明實現(xiàn)傳輸代表視頻內容的一個或更多個特征的一個或更多個視頻簽名、代表音頻內容的一個或更多個特征的一個或更多個音頻簽名、以及視頻內容和音頻內容之間的時間對準的音頻/視頻(A/V)同步性簽名構造(construct)。在獨立權利要求中闡述本發(fā)明。在從屬權利要求中闡述一些有利的實現(xiàn)方式的特征。通過參照以下的討論和附圖,可以更好地理解本發(fā)明及其優(yōu)選的實現(xiàn)方式。以下的討論的內容和附圖僅作為例子被闡述,并且不應被理解為表現(xiàn)對于本發(fā)明的范圍的限制。
圖1是加入本發(fā)明的各方面以在實時地分布的諸如廣播信號的視頻信號和音頻信號之間重新建立同步性的示例性系統(tǒng)的示意性框圖。圖2是加入本發(fā)明的各方面以在可非實時地分布的諸如記錄信號的視頻信號和音頻信號之間重新建立同步性的示例性系統(tǒng)的示意性框圖。圖3示出生成用于視頻信號和音頻信號的同步性簽名構造的示例性器件。圖4是視頻簽名生成器的一個實現(xiàn)方式的示意性框圖。圖5A 5C是可用于生成表現(xiàn)視頻內容的兩個幀之間的差異的相異性量度的處理的示意性框圖。圖6A 6B是低分辨率圖像中的一組中間值的示意性框圖。圖7是音頻簽名生成器的一個實現(xiàn)方式的示意性框圖。圖8是可用于生成一段音頻內容的時間-頻率表現(xiàn)的處理的示意性框圖。圖9是低分辨率時間_頻率表現(xiàn)中的一組中間值的示意性框圖。圖10是視頻信號和音頻信號以及同步性簽名構造的示例性分布網絡的示意性框圖。圖11是使用同步性簽名構造以檢測視頻信號和音頻信號的同步性的示例性器件的示意性框圖。圖12是示出視頻/音頻流中的定時延遲的示意性框圖。圖13是使用預測模型以計算匹配置信度的量度的示例性技術的示意性框圖。圖14是管理用于視頻內容或音頻內容的拷貝的檢測的簽名數(shù)據庫的器件的示意性框圖。
圖15是可被用于實現(xiàn)本發(fā)明的各方面的器件的示意性框圖。
具體實施例方式圖1和圖2是加入本發(fā)明的各方面并且可被用于檢測和重新建立視頻信號和音頻信號之間的同步性的示例性系統(tǒng)的示意性框圖。這些系統(tǒng)中的每一個包含生成、分布和應用作為表示視頻和音頻內容以及該內容之間的時間對準的數(shù)據的邏輯結構的同步性簽名構造的功能??杀举|上通過能夠傳輸需要的信息的任何數(shù)據結構實現(xiàn)該構造。在這里引入并在后面更詳細地討論這些功能。對于諸如通過廣播信號傳輸?shù)膬热莸膶崟r地分布的視頻內容和音頻內容可使用圖1所示的系統(tǒng)。實時地分布包含實時呈現(xiàn)或回放。對于諸如通過多媒體服務器接收并存儲的內容的非實時地分布的視頻內容和音頻內容可使用圖2所示的系統(tǒng)。非實時地分布可以包含或者可以不包含內容的實時呈現(xiàn)或回放。在本公開中。術語“實時”指的是生成或捕獲并且隨后回放視頻內容和音頻內容的速率。術語“非實時”指的是比實時要快或慢的速率。雖然沒有在任何圖中示出,但是,系統(tǒng)可被配置為允許實時操作的器件與非實時操作的器件一起操作。例如,由圖1所示的實時A/V同步簽名生成器(A/V Sync Signature Generator)生成的同步性簽名構造可被配置為使得它們可被非實時地讀取并處理記錄的內容的器件使用。作為另一例子,由圖2所示的非實時A/V同步簽名生成器生成的同步性簽名構造可被配置為使得它們可被實時地處理內容的內容編輯器或發(fā)射器使用。1.實時系統(tǒng)圖1所示的實時系統(tǒng)實時地生成并分布同步性簽名構造。用于實時系統(tǒng)的本發(fā)明的實現(xiàn)方式可能需要具有比可被考慮用于非實時系統(tǒng)中的那些更低的計算復雜性、存儲器和緩沖器要求的處理。參照圖1,A/V同步簽名生成器檢查或分析視頻信號和音頻信號的內容,并且提取內容的一個或更多個特征以生成視頻簽名和音頻信號。這兩個簽名被組裝成同步性簽名構造。簽名生成器實時地接收視頻信號和音頻信號,并且,視頻信號和音頻信號隨后被實時地分布;因此,簽名生成器實時地生成同步性簽名構造。預期,對于大多數(shù)的實現(xiàn)方式,由A/V同步簽名生成器檢查的視頻信號和音頻信號將具有期望的相互時間對準;但是,這在原理上是不需要的。如果期望的話,A/V同步簽名生成器的實現(xiàn)方式可通過在實際時間對準的同步性簽名構造中包含顯式的指示來解決視頻信號和音頻信號之間的對準的已知的偏移。當生成同步性簽名構造時,該顯式的指示可被隨后的處理使用以進行需要的任何調整,以實現(xiàn)與兩個信號確實具有期望的對準相同的結果。如果已知視頻信號和音頻信號處于適當?shù)膶手?,那么可能不需要顯式的信息,并且,可以隱含地傳輸兩個信號的相對時間對準。優(yōu)選地,用于獲得它們的特征的選擇或提取處理抵抗或耐受可隨后修改傳輸視頻內容、音頻內容或同步性簽名構造的信號的處理。以下提到這些處理的一些例子。視頻信號、音頻信號和傳輸同步性簽名構造的信號也會在信號分布中經受變化的延遲。例如,像感知編碼那樣的信號處理可在信號處理路徑中施加延遲。出于以下討論的原因,被傳輸?shù)紸/V同步檢測器(A/V Sync Detector)的視頻內容和音頻內容可與用于生成同步性簽名構造的視頻內容和音頻內容不同。為了闡明該區(qū)別,根據需要在這里使用術語“目標(destination),,以識別在A/V同步檢測器處存在的信號、內容和簽名,并且,根據需要在這里使用術語“基準”以識別在A/V同步簽名生成器處存在的信號、內容和簽名。A/V同步檢測器接收傳輸目標視頻和音頻內容的視頻信號和音頻信號。它還接收傳輸同步性簽名構造的信號。它檢查或分析接收的視頻信號和音頻信號的目標內容以提取一個或更多個特征來生成目標視頻簽名和目標音頻簽名,從同步性簽名構造獲得基準視頻簽名和基準音頻簽名,比較目標視頻簽名與基準視頻簽名并比較目標音頻簽名與基準音頻簽名,并且確定與當生成同步性簽名構造時存在的時間對準相比是否在接收的視頻和目標音頻信號的相對時間對準中存在任何偏移。對準的任何偏移可被儀器或其它的顯示器呈現(xiàn),并且,并且可通過在接收的目標視頻信號和目標音頻信號中的一個或兩個上施加計算的延遲被校正以使得兩者進入適當?shù)臅r間對準中。A/V同步檢測器實時地接收目標視頻信號和目標音頻信號,并且,實時地調整目標視頻信號和目標音頻信號的相對時間對準;因此,A/V同步檢測器實時地生成目標視頻簽名和目標音頻簽名。2.非實時系統(tǒng)作為非實時地分布視頻信號和音頻信號的基于文件的系統(tǒng)的例子的圖2所示的非實時系統(tǒng)可能不需要實時地生成和分布同步性簽名構造。作為結果,用于該非實時系統(tǒng)的本發(fā)明的實現(xiàn)方式可能能夠使用具有顯著地比可在實時系統(tǒng)中實際使用的高的計算復雜性、存儲器和緩沖器要求的處理。參照圖2,在通過一個或更多個文件服務器存儲的一個或更多個文件中記錄視頻內容和音頻內容。為了便于描述,這些一個或更多個文件服務器被稱為基準文件服務器。以A/V同步簽名生成器接收相互同步的視頻-音頻內容的方式從基準文件服務器取回 (retrieve)視頻內容和音頻內容。A/V同步簽名生成器檢查或分析視頻內容和音頻內容并且提取內容的一個或更多個特征以生成視頻簽名和音頻簽名。這兩個簽名被組裝成同步性簽名構造。簽名生成器可非實時地接收視頻信號和音頻信號,并且非實時地生成同步性簽名構造??稍诒换鶞饰募掌骰虮徊煌奈募掌鞔鎯Φ囊粋€或更多個文件中記錄同步性簽名構造。正如對于上述的實時系統(tǒng),用于獲得它們的特征或處理優(yōu)選抵抗或耐受可隨后修改傳輸視頻內容、音頻內容或同步性簽名構造的信號的處理。在該非實時系統(tǒng)的典型應用中,傳輸視頻內容、音頻內容和同步性簽名構造的信號在信號處理和分布中經受變化的延遲。在圖中所示的例子中,這些信號通過網絡被分布,并且,在存儲于這里稱為目標文件服務器的一個或更多個文件服務器上的一個或更多個文件中記錄它們傳輸?shù)哪繕藘热莺湍繕撕灻?可以以不能確保目標視頻_音頻內容之間的同步性的方式從目標文件服務器取回目標視頻內容和目標音頻內容以及同步性簽名構造,并將其傳輸?shù)紸/V同步檢測器。A/ V同步檢測器檢查或分析取回的目標視頻內容和目標音頻內容以提取一個或更多個特征并生成目標視頻簽名和目標音頻信號。A/V同步檢測器從取回的同步性簽名構造獲得基準視頻信號和基準音頻信號,比較目標視頻簽名與基準視頻簽名,比較目標音頻簽名與基準音頻簽名,并且確定從目標服務器取回的目標視頻內容和目標音頻內容之間的相對時間對準是否不同于當生成同步性簽名構造時存在的相對時間對準。對準的任何差異可通過儀器或其它的顯示器被顯示,并且,可通過延遲或提前取回的目標視頻內容和目標音頻內容中的一個兩個以使兩者進入適當?shù)臅r間對準中被校正。如果期望的話,可以實時地完成目標簽名的生成以及取回的目標視頻內容和目標音頻內容的相對時間對準的調整。如果恢復同步性所需要的調整可被記錄于一個或更多個文件中以供隨后的使用,那么A/V同步檢測器不需要實時地生成視頻和音頻目標簽名。B.簽名生成圖3示出通過從被同步的基準視頻信號和基準音頻信號提取特征來生成同步性簽名構造的示例性器件。同步性簽名構造包含代表基準視頻信號的一個或更多個特征的一個或更多個基準視頻簽名、代表基準音頻信號的一個或更多個特性的一個或更多個基準音頻信號、以及用于生成基準簽名的視頻和音頻特性的相對時間對準的指示。響應以下解釋的控制信號調整包含于同步性簽名構造中的視頻簽名和音頻簽名。同步性簽名構造可隱含地或顯式地傳輸相對時間對準。1.視頻簽名和音頻簽名響應從視頻內容提取的一個或更多個視頻特性生成一個或更多個視頻簽名。響應從音頻內容提取的一個或更多個音頻特征生成一個或更多個音頻簽名??杀举|上通過使用能夠生成與內容不同的簽名的任何處理或變換從內容生成或導出視頻簽名和音頻簽名。表示簽名所需要的數(shù)據的量比表示內容所需要的數(shù)據的量少。優(yōu)選地,簽名被生成為使得表示簽名所需要的數(shù)據量不多于以足夠高的置信程度使對應的基準內容和目標內容相關聯(lián) (correlate)所需要的數(shù)據量。原理上,本質上任何期望的處理或變換可被應用于任何類型的特征以生成視頻簽名和音頻簽名。但是,在優(yōu)選的實現(xiàn)方式中,幾個考慮影響應選擇什么特征以及應使用什么處理或變換。一個考慮是,選中的特征應對于用于生成簽名的視頻內容和音頻內容是非靜止的。該考慮也適用于可被處理的內容的類型。根據從靜態(tài)或靜止內容提取的特征生成的同步性簽名構造一般不能被用于使對應的基準內容和目標內容相關聯(lián);但是,本發(fā)明的實現(xiàn)方式一般能夠處理具有靜止內容的信號,因為這種類型的信號一般不出現(xiàn)任何同步性問題。如果圖像或聲音在一定的間隔內不改變,那么沒有什么要被同步。另一考慮是,選中的特征應提供應用所需要的時間分辨率。對于內容再同步,時間分辨率應不長于20msec。對于內容識別或驗證,時間分辨率可以為10秒、1分鐘或者更長。在許多的實現(xiàn)方式中,在幀中布置視頻內容,并且,根據從各個幀提取的特征生成視頻簽名。共同的幀速率為約30Hz,從而提供約30msec的時間分辨率??赏ㄟ^以視頻幀速率的兩倍到三倍高的恒定速率提取音頻特征,提供同步所需要的分辨率。如果作為替代響應內容中的一些事件的檢測提取視頻特征和音頻特征,那么事件檢測處理的分辨率應足以支持期望的應用。又一考慮是,選中的用于生成視頻簽名和音頻簽名的特征和變換應抵抗或耐受可修改視頻內容、音頻內容或同步性簽名構造的處理。以下提到這些處理的例子。該抵抗允許從修改的內容生成不與從原來的未修改的內容生成的簽名相同也與其類似的檢測簽名。另一考慮是,應根據將使用同步性簽名構造的應用的需要、用于分布同步性簽名構造的通信信道的特性、以及對計算復雜性的任何要求或限制,確定特征的類型和數(shù)量以及變換或處理的選擇??梢允褂脝蜗蜃儞Q以生成視頻簽名和音頻簽名中的任一個或兩個。在本公開中, 術語“單向變換”指的是以通過某個逆變換從簽名恢復內容的人可識別的版本要么不可能要么在計算上不實際的方式從內容導出或生成簽名的變換。出于本公開的目的,如果逆變換(如果存在的話)的計算復雜性為正向或單向變換的計算復雜性的至少兩個數(shù)量級高,那么逆變換被視為在計算上不實際。在Regunathan Radhakrishnan等在2007年9月 29 Hil^W^BJ^^^J "Extracting Features of Video and Audio Signal Content to Provide a Reliable Identification of the Signals” 的國際專利申請?zhí)?PCT/ US2007/024744中描述了對于用于優(yōu)選的實現(xiàn)方式中的視頻內容和音頻內容的單向變換的一個例子。以下更詳細地討論這一點。用于生成視頻簽名和音頻簽名的變換和特征的選擇可以是不變的或者該選擇可以是自適應的。例如,當在被視頻信號傳輸?shù)膱D像中存在相當大的運動時,一些視頻特征或變換可良好地工作,但是,當存在很少的運動時,其它的特征或變換會表現(xiàn)較良好。類似地, 一些音頻特征或變換對于語音可良好起工作,但其它的更好地適于非語音音頻??身憫獔D 3所示的控制信號自適應地選擇或修改特征或變換。可從諸如上述的圖像運動的檢測或語音的檢測的視頻內容或音頻內容的分析、從規(guī)定什么元數(shù)據(諸如MPEG-2視頻運動矢量或 Dolby數(shù)字音頻子帶指數(shù))與視頻內容和音頻內容一起存在的信號格式的指示、簽名的預期應用的指示、或者將修改簽名生成之后的視頻內容或音頻內容的可能的處理的指示,導出適當?shù)目刂菩盘???刂菩盘栆部杀徽{整,以通過模擬各種信號處理條件、在這些條件下測量不同的簽名的性能、以及識別性能最好的簽名,選擇對于某些應用或信號修改處理優(yōu)化性能的特征和變換。以下討論視頻簽名和音頻簽名生成器的優(yōu)選的實現(xiàn)方式。對于這些特定的實現(xiàn)方式,視頻內容和音頻內容的各個簽名與視頻/音頻信號的段對應。視頻/音頻信號的各段傳輸視頻內容的幀和音頻內容的段。僅作為例子給出視頻/音頻段、視頻幀、音頻段和簽名之間的該特定的對應性。其它的布置是可能的并且有時是優(yōu)選的。a)視頻簽名生成器圖4是視頻簽名生成器100的優(yōu)選的實現(xiàn)方式的示意性框圖。相異性量度處理器 120檢查一系列的視頻幀內的兩個視頻幀la、lb的內容,并且生成代表這兩個幀的全部或一部分之間的相異性的一個或更多個量度的中間值。如果例如各視頻幀的內容由表達離散的圖片元素或像素的強度的值的陣列代表,那么,中間值可以是像素的組的強度的平均或標準偏差之間的差值的陣列。視頻簽名處理器170向中間值應用散列函數(shù)以生成識別視頻幀的內容的視頻簽名(SV) 199b??梢砸愿鞣N方式實現(xiàn)視頻簽名生成器100的部件。優(yōu)選的實現(xiàn)方式生成對于具有很少的或沒有感知影響的視頻內容的修改相對不敏感的簽名。如果對于視頻內容的修改對于感知的圖像沒有顯著的影響,那么優(yōu)選這些修改對于生成的簽名也沒有顯著的影響。兩個視頻簽名之間的差值的某量度與從其生成簽名的兩個內容之間的差值的量度相當 (commensurate)。以下討論幾個示例性實現(xiàn)方式。由于相異性量度的使用增加生成的簽名對于原始內容中的運動和其它的變化的敏感性、但消除或減少對來自隨后的處理(諸如改變亮度或對比度的處理、在不同的顏色空間之間變換的處理、或施加顏色校正的處理)的修改的敏感性,因此,以下討論的實現(xiàn)方式計算代表視頻幀之間的相異性的一個或更多個量度的中間值??蓪τ谝曨l內容的任意兩個幀la、lb計算中間值。兩個幀可以是一系列的幀內的相鄰的視頻幀,或者,它們可通過一個或更多個介入的幀相互分開。如果兩個幀通過規(guī)定的時間間隔而不是通過規(guī)定數(shù)量的介入的幀被分開,那么對于這兩個幀計算的中間值將一般更加耐受由改變視頻幀速率的編碼處理導致的修改。(1)相異性量度處理器在圖5A 5C中示出相異性量度處理器120的幾個示例性實現(xiàn)方式。參照圖5A, 部件12 從視頻幀Ia形成像素的一個或更多個組,并且,部件12 從像素的這些組中的每一個提取一個或更多個特征并且計算代表各特征的值R。部件122b從視頻幀Ib形成像素的一個或更多個組,并且,部件124b從像素的這些組中的每一個提取一個或更多個特征并且計算代表各特征的值R。部件126對于兩個視頻幀la、lb中的像素的對應的特征和對應的組計算代表值R之間的相異性量度的中間值Q。(a)像素組形成部件12 和122b可以本質上以可期望的任何方式形成像素組。以下討論幾個替代方案。如果期望的話,用于生成視頻簽名的視頻幀中的信息可僅限于總圖像的一部分,以避免由向圖像的邊緣或角添加字框或圖形的任何處理創(chuàng)建的變化。可以按諸如通過在特征提取之前剪切圖像、通過在計算代表提取的特征的值R的陣列之后剪切它們、或者通過剪切從值R計算的相異性值的陣列的各種方式實現(xiàn)這一點。優(yōu)選地,通過在特征提取之前剪切圖像實現(xiàn)這一點。對于諸如電視的視頻應用,適當?shù)募羟羞x擇圖像的中心部分,使得在圖像的邊緣附近插入視頻內容中的任何標記或其它的圖形對象不影響提取的特性。剪切也可消除由于逐行掃描和隔行掃描格式之間以及高清晰度(HD)和標準清晰度(SD)格式之間的轉換導致的對于圖像的修改。在以下各段中討論對于一個特定的HD到SD格式的轉換的剪切。如果具有1080X1920像素的分辨率的HD格式的原始視頻內容被轉換成例如具有 480X640像素的分辨率的SD格式,那么原始圖像可被剪切以選擇保持在轉換的圖像中的原始圖像的中心部分。適當?shù)募羟袕脑糎D格式圖像的左邊緣去除240個像素,并且從右邊緣去除240像素,以獲得具有與SD格式圖像相同的縱橫比的具有1080X 1440像素的分辨率的圖像。剪切的區(qū)域可被調整以去除可被上述的標記或圖形對象修改的圖像的附加區(qū)域。像素的陣列也可以被向下采樣,以減少對于可當在不同的格式之間轉換視頻的幀時出現(xiàn)的對修改的敏感性。在電視應用中,例如,圖像可被向下采樣為作為HD和SD格式以及連續(xù)掃描格式和隔行掃描格式的方便選擇的120X160像素的分辨率??赏ㄟ^檢查用視頻內容傳輸?shù)膮?shù)或其它的元數(shù)據以確定在視頻幀中傳輸?shù)膱D像的水平和垂直分辨率、響應這些分辨率選擇因子、以及通過等于該因子的量將圖像向下采樣,實現(xiàn)該向下采樣。對于這里討論的例子,對于剪切的HD格式圖像選擇等于9的因子,并且,對于SD格式圖像選擇等于4的因子。例如,假定原始視頻信號的內容處于具有1080 X 1920像素的分辨率的HD格式中。該內容可被剪切為上述的具有1080X1440像素的分辨率的圖像,并然后被9的因子向下采樣為120X 160像素的分辨率??蓮脑摰头直媛蕡D像提取特征。進一步假定原始視頻信號被轉換成具有480X640像素的SD格式。該轉換的圖像可被4的因子向下采樣為120X 160像素的分辨率,從而本質上允許像對于原始信號所作的那樣從轉換的信號提取相同的特性。 可以使用相同的向下采樣以適應從SD格式向HD格式以及連續(xù)掃描格式和隔行掃描格式之間的轉換。如果使用適當?shù)南蛳虏蓸樱敲刺卣魈崛√幚砗碗S后的簽名生成處理對于從格式之間的轉換出現(xiàn)的修改是不敏感的。如果視頻信號以在兩個場中布置視頻的幀的隔行掃描格式傳輸內容,那么它可在提取特征之前被轉換成連續(xù)掃描格式。作為替代方案,可通過僅從隔行掃描幀中的場中的一個場提取特征實現(xiàn)與掃描格式的選擇的更大的無關性。例如,可以僅從幀中的第一場或者僅從幀中的第二場提取特征。其它的場中的視頻內容會被忽略。該處理不再需要在提取特征之前轉換成連續(xù)掃描格式。在一個實現(xiàn)方式中,在具有120X160像素的分辨率的向下采樣圖像中形成像素組。參照圖6A,例如,像素組的尺寸是均勻的,并且為GX像素寬和GY像素高。組的水平尺寸GX被選擇,使得K *GX = RH并且組的垂直尺寸GY被選擇使得L *GY = RV,這里,在各視頻幀中,RH和RV分別是圖像的水平和垂直尺寸。值的一個適當?shù)倪x擇是GX = 8,GY = 8, K = 15并且L = 20。這描述組的15X20陣列,各組在向下采樣圖像中具有8X8像素的尺寸??赏ㄟ^在具有響應視頻幀中的圖像的格式調整的尺寸的原始圖像中形成像素組獲得類似的結果。繼續(xù)上述的例子,HD格式圖像被剪切為1080X1440像素的尺寸,并且, 在具有72X72像素的尺寸的剪切圖像中形成像素組。這生成像素組的15X20陣列。對于SD格式中的圖像,在具有32 X 32像素的尺寸的原始圖像中形成像素組,這生成像素組的 15X20陣列。圖6B示出尺寸不均勻的像素的組。更小的像素組的6X4陣列構成圖像的中心部分。一組的更大的像素組包圍中心部分中的組。這種類型的布置可有利地用于在感知上更顯著的各圖像的中心部分中具有內容的視頻幀信息。像素組可以本質上為任意尺寸或形狀。例如,被用更粗的線繪制的矩形包圍的圖 6B所示的圖像的中心部分會構成單一像素組,并且圖像的剩余部分會構成另一像素組。優(yōu)選地,像素被低通過濾,以減少對于由可作為視頻內容修改的結果出現(xiàn)的像素組對準中的任何變化導致的改變的敏感性??梢栽谙袼亟M形成處理期間執(zhí)行一次或更多次過濾。例如,像素可以在上述的向下采樣操作之前、在緊接著向下采樣操作之后和/或在緊接著像素組的形成之后被低通過濾。過濾器的尺寸應被選擇以平衡一方面的對于對準的改變的抵抗力和另一方面的對于視頻內容的改變的敏感性之間的權衡。較大的過濾器增加對于對準的變化的抵抗力。較小的過濾器增加對于視頻內容的變化的敏感性。如果低通過濾器被應用于以上討論的120X160向下采樣圖像,那么經驗研究顯示可通過使用具有等于1 的所有過濾器分接頭系數(shù)的3X3 二維過濾器獲得良好的結果。特征提取的以下的討論參照圖6A所示的示例性分組。(b)特征提取部件12 和124b從各像素組提取一個或更多個特征并且計算代表各特征的值R。
如果各視頻幀傳輸單色圖像,那么可從表示各像素的強度的數(shù)據e提取特征。如果各視頻幀傳輸包含由例如紅色、綠色和藍色(RGB)值表示的像素的顏色圖像,那么可從表示紅色、綠色和藍色像素分量中的每一個的數(shù)據e提取分離的特性。作為替代方案,可從根據表示紅色、綠色和藍色分量的數(shù)據導出的表示像素輝度或亮度的數(shù)據e提取特征??商崛〉囊粋€特征是平均像素強度??蓮南率将@得表示該特征的值Rave:
權利要求
1.一種用于處理視頻信號和音頻信號的方法,其中,該方法包括獲得與第一視頻信號的段的序列和第一音頻信號的段的序列對應的多個第一同步性簽名構造,其中,各第一同步性簽名構造傳輸分別代表第一視頻信號的一個或更多個段的第一視頻內容的一個或更多個第一視頻簽名;分別代表第一音頻信號的一個或更多個段的第一音頻內容的一個或更多個音頻簽名;和第一視頻內容相對于第一音頻內容的時間對準;獲得與第二視頻信號的一個或更多個段以及第二音頻信號的一個或更多個段對應的第二同步性簽名構造,并且該第二同步性簽名構造傳輸分別代表第二視頻信號的一個或更多個段的第二視頻內容的一個或更多個第二視頻簽名;分別代表第二音頻信號的一個或更多個段的第二音頻內容的一個或更多個音頻簽名;和第二視頻內容相對于第二音頻內容的時間對準;比較由所述多個第一同步性簽名構造傳輸?shù)乃鲆粋€或更多個第一視頻簽名與所述一個或更多個第二視頻簽名,以生成代表相應的第一同步性簽名構造中的第一視頻簽名和所述第二視頻簽名之間的匹配的可靠性的多個視頻匹配置信度量度,并且分析所述多個視頻匹配置信度量度,以識別第一同步性簽名構造中的被視為與第二視頻簽名最佳地匹配的選中的第一視頻簽名;比較由所述多個第一同步性簽名構造傳輸?shù)乃鲆粋€或更多個第一音頻簽名與所述一個或更多個第二音頻簽名,以生成代表相應的第一同步性簽名中的第一音頻簽名和第二音頻簽名之間的匹配的可靠性的多個音頻匹配置信度量度,并且分析所述多個音頻匹配置信度量度,以識別第一同步性簽名構造中的被視為與第二音頻簽名最佳地匹配的選中的第一音頻簽名;計算與由第二視頻簽名代表的第二視頻內容和由第二音頻簽名代表的第二音頻內容之間的時間對準相比、由第一選中的第一視頻簽名代表的第一視頻內容和由選中的第一音頻簽名代表的第一音頻內容之間的時間對準的位移,生成代表計算的位移的置信程度的位移置信度量度;以及生成代表計算的位移的位移量信號和代表位移置信度量度的位移置信度信號。
2.根據權利要求1的方法,包括計算選中的第一視頻簽名和第二視頻簽名之間的視頻偏移; 對該視頻偏移應用數(shù)學模型;響應該數(shù)學模型的輸出計算視頻匹配置信度量度;以及通過識別響應所述視頻匹配置信度量度選擇的第一同步性簽名構造中的選中的第一視頻簽名,修改哪些第一視頻簽名被視為與第二視頻簽名最佳地匹配。
3.根據權利要求2的方法,其中,該數(shù)學模型包含 保持計算的視頻偏移的歷史記錄;對該歷史記錄應用預測模型以生成預測的視頻偏移;和響應預測的視頻偏移和計算的視頻偏移之間的差值計算視頻匹配置信度量度。
4.根據權利要求1 3中的任一項的方法,包括計算選中的第一音頻簽名和第二音頻簽名之間的音頻偏移;對該音頻偏移應用數(shù)學模型;響應該數(shù)學模型的輸出計算音頻匹配置信度量度;和通過識別響應所述音頻匹配置信度量度選擇的第一同步性簽名構造中的選中的第一音頻簽名修改哪些第一音頻簽名被視為與第二音頻簽名最佳地匹配。
5.根據權利要求4的方法,該數(shù)學模型包含 保持計算的音頻偏移的歷史記錄;對該歷史記錄應用預測模型以生成預測的音頻偏移;和響應預測的音頻偏移和計算的音頻偏移之間的差值計算音頻匹配置信度量度。
6.根據權利要求1的方法,包括計算選中的第一視頻簽名和第二視頻簽名之間的視頻偏移; 計算選中的第一音頻簽名和第二音頻簽名之間的音頻偏移; 對該視頻偏移和該音頻偏移應用一個或更多個數(shù)學模型;響應所述一個或更多個數(shù)學模型的輸出計算視頻匹配置信度量度和音頻匹配置信度量度。
7.根據權利要求6的方法,其中,該數(shù)學模型包含 保持計算的視頻偏移和計算的音頻偏移的歷史記錄;對該歷史記錄應用一個或更多個預測模型以生成預測的視頻偏移和預測的音頻偏移;和響應預測的視頻偏移和計算的視頻偏移之間的差值計算視頻匹配置信度量度,并且響應預測的音頻偏移和計算的音頻偏移之間的差值計算音頻匹配置信度量度。
8.根據權利要求1的方法,包括 對計算的位移應用數(shù)學模型;響應該數(shù)學模型的輸出計算位移置信度量度;和響應位移置信度量度修改計算的位移。
9.根據權利要求8的方法,其中,該數(shù)學模型包含 保持計算的位移的歷史記錄;對該歷史記錄應用預測模型以生成預測的位移;和響應預測的位移和計算的位移之間的差值計算位移置信度量度。
10.根據權利要求8的方法,其中,該數(shù)學模型包含對計算的位移應用統(tǒng)計模型以獲得計算的位移的出現(xiàn)的可能性;和響應計算的位移的出現(xiàn)的可能性計算位移置信度量度。
11.根據權利要求1的方法,包括響應所述視頻匹配置信度量度和所述音頻匹配置信度量度生成位移置信度量度。
12.根據權利要求1 11中的任一項的方法,其中,根據從第一視頻內容提取的兩種或更多種類型的視頻內容特征生成第一視頻簽名, 根據從第一音頻內容提取的兩種或更多種類型的音頻內容特征生成第一音頻簽名,根據從第二視頻內容提取的兩種或更多種類型的視頻內容特征生成第二視頻簽名, 根據從第二音頻內容提取的兩種或更多種類型的音頻內容特征生成第二音頻簽名, 并且,該方法包括生成多個臨時視頻匹配置信度量度,各臨時視頻匹配置信度量度表示從相應的類型的視頻內容特征生成的第一視頻簽名和第二視頻簽名之間的匹配的置信度,并且使用臨時視頻匹配置信度量度來確定哪些第一同步性簽名構造傳輸被視為與第二視頻簽名最佳地匹配的第一視頻簽名;和生成多個臨時音頻匹配置信度量度,各臨時音頻匹配置信度量度表示從相應的類型的音頻內容特征生成的第一音頻簽名和第二音頻簽名之間的匹配的置信度,并且使用臨時音頻匹配置信度量度來確定哪些第一同步性簽名構造傳輸被視為與第二音頻簽名最佳地匹配的第一音頻簽名。
13.根據權利要求1 12中的任一項的方法,所述多個第一同步性簽名構造是從源位置接收的,并且所述第二同步性簽名構造是在目標位置處生成的,其中,該方法包括分析第二視頻信號的一個或更多個段中的第二視頻內容以提取一個或更多個第二視頻內容特征;處理所述一個或更多個第二視頻內容特征以生成一個或更多個第二視頻簽名; 分析第二音頻信號的一個或更多個段中的第二音頻內容以提取一個或更多個第二音頻內容特征;處理所述一個或更多個第二音頻內容特征以生成一個或更多個第二音頻簽名;和響應計算的位移和位移置信度量度處理第二視頻內容或第二音頻內容,以調整第二視頻內容相對于第二音頻內容的時間對準。
14.根據權利要求13的方法,包括在數(shù)據庫中記錄由多個第一同步性簽名構造傳輸?shù)牡谝灰曨l簽名和第一音頻簽名,并且在數(shù)據庫中記錄識別由這些第一視頻簽名和第一音頻簽名代表的第一視頻內容和第一音頻內容的對應的內容識別數(shù)據;為了比較從數(shù)據庫取回多個第一同步性簽名構造以生成多個視頻匹配置信度量度; 響應用于選中的第一視頻簽名的視頻匹配置信度量度生成視頻檢查信號,其中,所述視頻檢查信號指示由選中的第一視頻簽名代表的第一視頻內容和由第二視頻簽名代表的第二視頻內容是否是從共同的視頻內容獲得的;響應用于選中的第一音頻簽名的音頻匹配置信度量度生成音頻檢查信號,其中,所述音頻檢查信號指示由選中的第一音頻簽名代表的第一音頻內容和由第二音頻簽名代表的第二音頻內容是否是從共同的音頻內容獲得的;和響應所述視頻檢查信號、所述音頻檢查信號和與選中的第一視頻簽名和選中的第一音頻簽名對應的內容識別數(shù)據生成識別由第二同步性簽名構造代表的視頻內容和音頻內容的內容識別信號。
15.根據權利要求1 12中的任一項的方法,第二同步性簽名構造是從源位置接收的, 并且多個第一同步性簽名構造是在目標位置處生成的,其中,該方法包括分析第一視頻信號的段的序列中的第一視頻內容以提取多個第一視頻內容特征; 處理所述多個第一視頻內容特征以生成第一視頻簽名;分析第一音頻信號的段的序列中的第一音頻內容以提取多個第一音頻內容特征; 處理所述多個第一音頻內容特征以生成第一音頻簽名;和響應計算的位移和位移置信度量度處理由選中的第一視頻簽名代表的第一視頻內容或由選中的第一音頻簽名代表的第一音頻內容,以調整第一視頻內容相對于第一音頻內容的時間對準。
16.根據權利要求15的方法,包括在數(shù)據庫中記錄由第二同步性簽名構造傳輸?shù)牡诙曨l簽名和第二音頻簽名; 為了比較從數(shù)據庫取回第二同步性簽名構造以生成多個視頻匹配置信度量度; 響應用于選中的第一視頻簽名的視頻匹配置信度量度生成視頻檢查信號,其中,所述視頻檢查信號指示由選中的第一視頻簽名代表的第一視頻內容和由第二視頻簽名代表的第二視頻內容是否是從共同的視頻內容獲得的;響應用于選中的第一音頻簽名的音頻匹配置信度量度生成音頻檢查信號,其中,所述音頻檢查信號指示由選中的第一音頻簽名代表的第一音頻內容和由第二音頻簽名代表的第二音頻內容是否是從共同的音頻內容獲得的;和響應所述視頻檢查信號和所述音頻檢查信號生成驗證由選中的第一同步性簽名構造代表的視頻內容和音頻內容的身份的內容驗證信號。
17.—種包括用于執(zhí)行權利要求1 16中的任一項中所述的方法的步驟的手段的裝置。
18.一種傳輸指令的程序并且可被用于執(zhí)行指令的程序的器件讀取以執(zhí)行權利要求 1 16中的任一項的方法的介質。
全文摘要
從具有已知的相互時間關系的視頻內容和音頻內容提取特征。提取的特征被用于生成視頻簽名和音頻簽名,其與對時間關系的指示一起被組裝到同步性簽名構造中。該構造可被用于計算在遠程目標處接收的視頻內容和音頻內容之間的同步性誤差。在遠程目標處生成置信度的量度以優(yōu)化處理并提供對計算的同步性誤差的可靠性的指示。
文檔編號H04N7/24GK102177726SQ200980139527
公開日2011年9月7日 申請日期2009年8月17日 優(yōu)先權日2008年8月21日
發(fā)明者K·B·特里, R·拉達克里希南 申請人:杜比實驗室特許公司