專利名稱:基于時(shí)間片段的提取和視頻指紋的健壯性匹配的制作方法
技術(shù)領(lǐng)域:
概括地說,本發(fā)明涉及數(shù)據(jù)處理系統(tǒng),具體地,涉及用于處理視頻的方法和裝置。 更具體地,本發(fā)明涉及這樣一種計(jì)算機(jī)實(shí)現(xiàn)的方法、裝置、和計(jì)算機(jī)可用程序代碼,用于為 了近似復(fù)制品視頻的識別和視頻盜版的檢測而進(jìn)行基于片段的時(shí)間視頻指紋的提取和健 壯性匹配。
背景技術(shù):
隨著在線數(shù)字內(nèi)容的增加,越來越多的人們持續(xù)訪問在線媒體,因此識別擁有版 權(quán)的內(nèi)容的需求不斷增加。例如,擁有版權(quán)的音頻和視頻內(nèi)容的所有者關(guān)注于識別和去除 在社會網(wǎng)絡(luò)和內(nèi)容共享站點(diǎn)上其擁有版權(quán)的內(nèi)容的未授權(quán)副本。社會網(wǎng)絡(luò)和內(nèi)容共享站點(diǎn) 允許用戶張貼例如音樂、照片、和視頻的內(nèi)容,用于網(wǎng)站的其他用戶瀏覽。社會網(wǎng)絡(luò)和內(nèi)容
共享站點(diǎn)包括但不限于YouTube 、Facebook 、和MySpace 。這些社會網(wǎng)絡(luò)和內(nèi)
容共享站點(diǎn)的用戶頻繁地利用盜版的電影、圖像、和/或電視(τν)節(jié)目。擁有版權(quán)的音頻和視頻內(nèi)容的所有者關(guān)注于識別他們內(nèi)容的授權(quán)的出現(xiàn),以確保 針對擁有版權(quán)的內(nèi)容的每次出現(xiàn)都適當(dāng)?shù)匮a(bǔ)償版權(quán)的所有者。例如,所有者可希望確保針 對每次在無線電設(shè)備上播放特定歌曲時(shí)適當(dāng)?shù)刂Ц秷?bào)酬。另一方面,廣告主關(guān)注于監(jiān)視他們的廣告在例如電視、無線電設(shè)備、和/或因特網(wǎng) 上的出現(xiàn),以確保廣告內(nèi)容被廣播適當(dāng)次數(shù)。這些應(yīng)用通常共享以下需求用以從未知媒 體、在線視頻、無線電、和/或電視中識別已知擁有版權(quán)的數(shù)字媒體(例如音頻和/或視頻) 的副本或近似復(fù)制品。用于識別和保護(hù)擁有版權(quán)的內(nèi)容的目前可用方案包括水印法(watermarking)和 指紋法(fingerprinting)。水印法將可見的或不見的水印插入視頻內(nèi)容,由此識別內(nèi)容的 合法擁有者。水印法技術(shù)被設(shè)計(jì)為,使得水印被自動地傳送至視頻的任意精確副本以及傳 送至基于原始內(nèi)容的水印部分創(chuàng)建的任意衍生內(nèi)容。任意這樣的副本或衍生作品(無論授 權(quán)的或未授權(quán)的)可通過掃描嵌入在復(fù)制的或衍生視頻內(nèi)容中的水印的存在來識別。然而,即使將水印設(shè)計(jì)為在不破壞視頻內(nèi)容自身的情況下難以去除,但是水印可 能被挫敗和去除。如果成功去除了水印,則視頻內(nèi)容變?yōu)橛谰媒獬i定,并且經(jīng)由水印將不 再能夠監(jiān)視和/或檢測未授權(quán)的復(fù)制品或衍生物。由于水印的問題,另一方案(稱為基于內(nèi)容的指紋法和內(nèi)容匹配法)近來獲得了 發(fā)展,因?yàn)榛趦?nèi)容的指紋法不依賴于在視頻內(nèi)容中任何水印的存在。通過這個(gè)方案,內(nèi)容 的整個(gè)部分被看作“偽水印”,并且被概括成表征內(nèi)容的唯一音頻_視覺方面的一個(gè)或多個(gè) 唯一指紋。為了識別內(nèi)容的兩個(gè)部分是否為彼此的副本或衍生物,將內(nèi)容的兩個(gè)部分的基 于內(nèi)容的指紋相比較。如果基于內(nèi)容的指紋足夠相似,則說明內(nèi)容的兩個(gè)部分是副本、近似 復(fù)制品、或衍生物?;趦?nèi)容的視頻指紋法包括基于音頻的指紋方法,這唯一地表征視頻中的音軌或 語音?;趦?nèi)容的指紋法還基于從視頻中對關(guān)鍵幀的提取,以及使用他們的視覺特征來創(chuàng)建基于視覺關(guān)鍵幀的指紋。然后,使用這些基于幀的指紋的集來描述每個(gè)視頻。實(shí)質(zhì)上,基 于幀的視頻特征可以是全局的或局部的。換句話說,可以從整個(gè)幀或從幀的一個(gè)或多個(gè)區(qū) 域來提取基于幀的視頻特征。基于內(nèi)容的指紋法通常需要對于許多共同編輯操作和圖像/視頻處理轉(zhuǎn)換不變 的相似指紋。共同編輯操作包括但不限于,剪切、接合、和/或重新排序。圖像/視頻處理 轉(zhuǎn)換包括但不限于,剪輯、縮放、縱橫比改變、視頻重新捕獲或重新壓縮、全局照明改變、色 彩空間轉(zhuǎn)變、褪色、數(shù)據(jù)損壞和加入噪音。對于在視頻副本中觀察到的虛假視頻轉(zhuǎn)換的情況,目前可用的基于內(nèi)容的指紋法 方案具有不同程度的成功,除了健壯的基于幀的指紋法技術(shù)之外,主要是由于指紋的成功 匹配需要復(fù)雜的幀排列的事實(shí)。基于幀的指紋法技術(shù)對于大多數(shù)轉(zhuǎn)換不變。在存在幀排列問題和丟失或不正確取樣的幀時(shí),基于內(nèi)容的指紋法變得不精確和 不可靠。充分改變幀的視頻出現(xiàn)的任意圖像處理轉(zhuǎn)換也可能挫敗基于幀的匹配方案。換句 話說,目前的基于內(nèi)容的指紋法典型地不能夠檢測視頻取樣經(jīng)過了編輯操作的副本和衍生 視頻內(nèi)容。
發(fā)明內(nèi)容
所示實(shí)施例提供了一種針對基于時(shí)間、事件的視頻指紋法的計(jì)算機(jī)實(shí)現(xiàn)的方法、 裝置、和計(jì)算機(jī)程序產(chǎn)品代碼。在一個(gè)實(shí)施例中,檢測視頻內(nèi)容中的事件。所述視頻內(nèi)容包 括多個(gè)視頻幀。事件代表視頻內(nèi)容中的離散興趣點(diǎn)。使用所述事件生成基于時(shí)間、事件的 片段的集合。每個(gè)基于時(shí)間、事件的片段是覆蓋事件集合的視頻內(nèi)容的片段。使用與每個(gè) 基于時(shí)間、事件的片段相關(guān)的幀集合的基于內(nèi)容的特征的時(shí)間跟蹤,從每個(gè)基于時(shí)間、事件 的片段導(dǎo)出時(shí)間序列信號。根據(jù)每個(gè)基于時(shí)間、事件的片段的時(shí)間序列信號提取基于時(shí)間 片段的指紋,以形成與所述視頻內(nèi)容相關(guān)的基于時(shí)間片段的指紋的集合。
在所附權(quán)利要求中闡述了本發(fā)明的認(rèn)為是新穎性特征的特性。然而,當(dāng)結(jié)合附圖 閱讀時(shí),通過參照示例性實(shí)施例的以下具體實(shí)施方式
,本發(fā)明自身及其具體實(shí)施方式
將被 最佳地理解,其中圖1是可實(shí)現(xiàn)示例性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的圖形表示;圖2是根據(jù)本發(fā)明示例性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的視圖;圖3是示出根據(jù)示例性實(shí)施例的針對測試視頻生成基于片段的時(shí)間指紋以及與 指紋的參考數(shù)據(jù)庫相匹配的框圖;圖4是示出根據(jù)示例性實(shí)施例的針對擁有版權(quán)的內(nèi)容生成基于時(shí)間片段的指紋 的參考數(shù)據(jù)庫的框圖;圖5是示出根據(jù)示例性實(shí)施例的基于片段的時(shí)間指紋生成器的框圖;圖6是示出根據(jù)示例性實(shí)施例的指紋提取處理的視圖;圖7是根據(jù)示例性實(shí)施例的指紋匹配引擎的框圖;圖8是示出根據(jù)示例性實(shí)施例的匹配處理的框圖;圖9是示出根據(jù)示例性實(shí)施例的提取基于片段的時(shí)間指紋的處理的流程圖;以及
圖10是示出根據(jù)示例性實(shí)施例的使用基于時(shí)間片段的指紋確定測試片段是否匹 配于參考視頻的處理的流程圖。
具體實(shí)施例方式現(xiàn)在參照附圖,具體地參照圖1-2,提供了可實(shí)現(xiàn)本發(fā)明實(shí)施例的數(shù)據(jù)處理環(huán)境的 示例性示圖??梢岳斫?,圖1-2僅是示例性的,并沒有確定或暗示對于可實(shí)現(xiàn)本發(fā)明各個(gè)方 面和實(shí)施例的環(huán)境的限制。在不脫離本發(fā)明的精神和范圍的情況下,可以對于所述的環(huán)境 進(jìn)行許多修改。圖1示出在其中可實(shí)現(xiàn)示例性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的圖形表示。網(wǎng)絡(luò)數(shù) 據(jù)處理系統(tǒng)100是在其中可實(shí)現(xiàn)示例性實(shí)施例的計(jì)算機(jī)網(wǎng)絡(luò)。網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100包含 網(wǎng)絡(luò)102,其是用于在網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100中連接在一起的各個(gè)設(shè)備和計(jì)算機(jī)之間提供 通信鏈路的介質(zhì)。網(wǎng)絡(luò)102可包括連接,例如電線、無線通信鏈路、或光纜。在所示實(shí)例中,服務(wù)器104和服務(wù)器106與存儲單元108 —起連接至網(wǎng)絡(luò)102。此 外,客戶端110、112和114連接至網(wǎng)絡(luò)102??蛻舳?10、112和114可以是例如個(gè)人計(jì)算機(jī) 或網(wǎng)絡(luò)計(jì)算機(jī)。在所示實(shí)例中,服務(wù)器104向客戶端110、112和114提供數(shù)據(jù),例如引導(dǎo)文 件、操作系統(tǒng)圖像和應(yīng)用。在這個(gè)實(shí)例中,客戶端110、112和114是服務(wù)器104的客戶端。 網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100可包括沒有示出的附加服務(wù)器、客戶端和其它設(shè)備。在所示實(shí)例中,網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100是具有網(wǎng)絡(luò)102的互聯(lián)網(wǎng),所述網(wǎng)絡(luò)102代 表使用傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議(TCP/IP)的協(xié)議族彼此通信的在世界范圍內(nèi)的網(wǎng)絡(luò)和 網(wǎng)關(guān)的集合。在互聯(lián)網(wǎng)的中心是主節(jié)點(diǎn)或主機(jī)之間的高速數(shù)據(jù)通信線路的骨干,包括路由 數(shù)據(jù)和消息的成千上萬個(gè)商業(yè)、政府、教育和其它計(jì)算機(jī)系統(tǒng)。當(dāng)然,網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100 也可以作為多個(gè)不同類型的網(wǎng)絡(luò)(例如內(nèi)聯(lián)網(wǎng)、局域網(wǎng)(LAN)或廣域網(wǎng)(WAN))實(shí)現(xiàn)。圖1 僅用作實(shí)例,并非是不同示例性實(shí)施例的架構(gòu)限制?,F(xiàn)在轉(zhuǎn)到圖2,示出在其中可實(shí)現(xiàn)示例性實(shí)施例的數(shù)據(jù)處理系統(tǒng)的框圖。數(shù)據(jù)處理 系統(tǒng)200是計(jì)算機(jī)(例如圖1中的服務(wù)器104或客戶端110)的實(shí)例,其中可設(shè)置有用于示 例性實(shí)施例的實(shí)現(xiàn)處理的計(jì)算機(jī)可用程序代碼或指令。在這個(gè)示例性實(shí)例中,數(shù)據(jù)處理系 統(tǒng)200包括通信組織202,其提供在處理器單元204、存儲器206、持久存儲設(shè)備208、通信單 元210、輸入/輸出(I/O)單元212和顯示器214之間的通信。處理器單元204用于執(zhí)行可加載到存儲器206中的軟件的指令。根據(jù)特定實(shí)施方 式,處理器單元204可以是一個(gè)或多個(gè)處理器的集合,或可以是多處理器核。此外,處理器 單元204可以使用一個(gè)或多個(gè)異構(gòu)處理器系統(tǒng)實(shí)現(xiàn),在所述系統(tǒng)中在一個(gè)芯片上存在主處 理器和輔助處理器。作為另一示例性實(shí)例,處理器單元204可以是包含相同類型的多個(gè)處 理器的對稱多處理器系統(tǒng)。在這些實(shí)例中,存儲器206可以是例如隨機(jī)訪問存儲器或任意其它適合的易失性 或非易失性存儲設(shè)備。根據(jù)特定實(shí)施方式,持久存儲設(shè)備208可采用不同類型。例如,持久 存儲設(shè)備208可包含一個(gè)或多個(gè)組件或設(shè)備。例如,持久存儲設(shè)備208可以是硬件驅(qū)動器、 閃存、可重寫光盤、可重寫磁帶、或上述的某些組合。由持久存儲設(shè)備208使用的介質(zhì)也可 以是可拆卸的。例如,對于持久存儲設(shè)備208可使用可拆卸硬盤驅(qū)動器。在這些實(shí)例中,通信單元210提供與其它數(shù)據(jù)處理系統(tǒng)或設(shè)備的通信。在這些實(shí)例中,通信單元210是網(wǎng)絡(luò)接口卡。通信單元210可通過使用物理和無線通信鏈路中的一 個(gè)或兩者提供通信。輸入/輸出單元212允許與連接至數(shù)據(jù)處理系統(tǒng)200的其它設(shè)備輸入和輸出數(shù) 據(jù)。例如,輸入/輸出單元212可通過鍵盤和鼠標(biāo)提供用戶輸入的連接。此外,輸入/輸出 單元212可向打印機(jī)發(fā)送輸出。顯示器214提供向用戶顯示信息的機(jī)構(gòu)。用于操作系統(tǒng)和應(yīng)用或程序的指令位于持久存儲設(shè)備208上??蓪⑦@些指令加載 到存儲器206中,用于由處理器單元204執(zhí)行??墒褂梦挥诖鎯ζ?例如存儲器206)中的 計(jì)算機(jī)執(zhí)行指令通過處理器單元204執(zhí)行不同實(shí)施例的處理。這些指令稱為可通過處理器 單元204中的處理器讀取和執(zhí)行的程序代碼、計(jì)算機(jī)可用程序代碼、或計(jì)算機(jī)可讀程序代 碼??梢栽诓煌奈锢砘蛴行斡?jì)算機(jī)可讀介質(zhì)(例如存儲器206或持久存儲設(shè)備208)上 實(shí)現(xiàn)在不同實(shí)施例中的程序代碼。程序代碼216以函數(shù)形式位于計(jì)算機(jī)可讀介質(zhì)218上,并且可加載或傳送到數(shù)據(jù) 處理系統(tǒng)200,用于由處理器單元204執(zhí)行。在這些實(shí)例中,程序代碼216和計(jì)算機(jī)可讀介 質(zhì)218形成計(jì)算機(jī)程序產(chǎn)品220。在一個(gè)實(shí)例中,計(jì)算機(jī)可讀介質(zhì)218可以是有形形式,例 如插入或位于驅(qū)動器或其它設(shè)備(作為持久存儲設(shè)備208的一部分)中用于向存儲設(shè)備 (例如作為持久存儲設(shè)備208的一部分的硬盤驅(qū)動器)傳送的光盤或磁盤。在有形形式中, 計(jì)算機(jī)可讀介質(zhì)218也可以采用永久存儲器的形式(例如與數(shù)據(jù)處理系統(tǒng)200連接的硬盤 驅(qū)動器或閃存)。計(jì)算機(jī)可讀介質(zhì)218的有形形式還稱為計(jì)算機(jī)可記錄存儲介質(zhì)。在某些 實(shí)例中,計(jì)算機(jī)可讀介質(zhì)218可能不是可拆卸的??蛇x地,可通過與通信單元210的通信鏈路和/或通過與輸入/輸出單元212的 連接從計(jì)算機(jī)可讀介質(zhì)218向數(shù)據(jù)處理系統(tǒng)200傳送程序代碼216。在示例性實(shí)例中,通信 鏈路和/或連接可以是物理的或無線的。計(jì)算機(jī)可讀介質(zhì)也可以采用非有形介質(zhì)的形式, 例如包含程序代碼的通信鏈路或無線傳輸。對于數(shù)據(jù)處理系統(tǒng)200所示的不同組件不意味著對于可實(shí)現(xiàn)不同實(shí)施例的方式 的架構(gòu)限制。不同的示例性實(shí)施例可以在包括除了對于數(shù)據(jù)處理系統(tǒng)200所示的實(shí)例之外 的或代替那些實(shí)例的數(shù)據(jù)處理系統(tǒng)中實(shí)現(xiàn)。根據(jù)所示的示例性實(shí)例,在圖2中所示的其它 組件可以改變。作為一個(gè)實(shí)例,數(shù)據(jù)處理系統(tǒng)200中的存儲設(shè)備是可存儲數(shù)據(jù)的任意硬件裝置。 存儲器206、持久存儲設(shè)備208和計(jì)算機(jī)可讀介質(zhì)218是有形形式的存儲設(shè)備的實(shí)例。在另一實(shí)例中,可使用總線系統(tǒng)實(shí)現(xiàn)通信組織202,并且可包括一個(gè)或多個(gè)總線 (例如系統(tǒng)總線或輸入/輸出總線)。當(dāng)然,可使用在與總線系統(tǒng)連接的不同組件或設(shè)備之 間提供數(shù)據(jù)傳輸?shù)娜我膺m合類型架構(gòu)來實(shí)現(xiàn)總線系統(tǒng)。此外,通信單元可包括用于發(fā)送和 接收數(shù)據(jù)的一個(gè)或多個(gè)設(shè)備(例如調(diào)制解調(diào)器或網(wǎng)絡(luò)適配器)。此外,存儲器可以是例如存 儲器206或高速緩存,例如在通信組織202中的接口和存儲器控制集線器中。隨著因特網(wǎng)上內(nèi)容共享的擴(kuò)散,逐漸需要改進(jìn)作為擁有版權(quán)的素材的副本或衍生 物的視頻內(nèi)容的識別,以及需要改進(jìn)視頻盜版的檢測。目前,可在視頻內(nèi)容中插入水印,以 便于副本和衍生物的識別。盡管將水印設(shè)計(jì)為在不破壞視頻內(nèi)容自身的情況下難以去除, 但是能夠從視頻內(nèi)容挫敗和去除水印。當(dāng)成功去除水印時(shí),視頻內(nèi)容變?yōu)橛谰媒獬i定,并 且經(jīng)由水印將不再能夠監(jiān)視和/或檢測未授權(quán)的復(fù)制品或衍生物。
在另一方案中,使用基于視覺、內(nèi)容的指紋法來識別擁有版權(quán)的內(nèi)容。然而,在存 在幀排列問題以及丟失或不正確取樣的幀時(shí),目前的基于視覺、內(nèi)容的指紋法變得不精確 和不可靠。此外,充分改變幀的視覺出現(xiàn)的任意圖像處理轉(zhuǎn)換也可能挫敗現(xiàn)有技術(shù)的基于 視覺、內(nèi)容的指紋法和基于幀的匹配方法。此外,示例性實(shí)施例認(rèn)識到,因?yàn)榛谝纛l的指紋法不能夠識別具有相同視覺但 修改了音軌的視頻復(fù)制品(例如具有不同聲軌的電影),所以現(xiàn)有技術(shù)的基于音頻內(nèi)容 的指紋法并不勝任。考慮到傳統(tǒng)方法和結(jié)構(gòu)的先前和其他示例性問題、缺陷、和不足,為 了健壯的視頻盜版檢測的目的,示例性實(shí)施例提供了一種方法和裝置,用于基于時(shí)間片段 (temporalsegment)的視頻指紋的提取,以及基于測試視頻的時(shí)間片段的指紋與基于參考 時(shí)間片段的視頻指紋的匹配。在一個(gè)實(shí)施例中,該處理檢測視頻內(nèi)容中的事件。視頻內(nèi)容包括多個(gè)視頻幀。視 頻幀可選地伴隨有相應(yīng)音軌。視頻內(nèi)容可以是測試視頻,其被測試以確定視頻內(nèi)容是否為 已知擁有版權(quán)的視頻的副本或衍生物。視頻內(nèi)容還可以是已知的、擁有版權(quán)的視頻內(nèi)容。事件代表視頻內(nèi)容中的離散興趣點(diǎn)。事件可以是音頻狀態(tài)的明顯改變、視覺內(nèi)容 的改變、或視頻的語義內(nèi)容的改變。例如,事件可以是視頻中的人或物的出現(xiàn)、場景改變、或 說話者改變。根據(jù)視頻中的事件的自動檢測生成基于時(shí)間、事件的片段的集合。所述集合包括 一個(gè)或多個(gè)基于時(shí)間、事件的片段的集合。每個(gè)基于時(shí)間、事件的片段貫穿一個(gè)或多個(gè)事件 的集合。根據(jù)與每個(gè)基于時(shí)間、事件的片段中的幀排序序列相關(guān)的基于內(nèi)容的特征的時(shí)間 跟蹤(temporal tracking)從每個(gè)片段導(dǎo)出時(shí)間序列信號?;趦?nèi)容的特征是音頻特征或 視覺特征?;趦?nèi)容的特征可完全包括視覺特征、完全包括音頻特征、或音頻特征和視覺特 征的組合。提取概括和近似每個(gè)基于時(shí)間、事件的片段的時(shí)間序列信號的片段指紋,以形成 與視頻內(nèi)容相關(guān)的基于時(shí)間片段的指紋的集合。使用基于時(shí)間片段的指紋的集合來確定第一視頻剪輯的一部分是否為與第二視 頻剪輯相同的原始內(nèi)容的副本或衍生物。該處理將針對第一視頻剪輯的基于時(shí)間片段的指 紋與針對第二視頻剪輯生成的基于時(shí)間片段的指紋相比較?;谠谂c第一視頻剪輯相關(guān)的 基于時(shí)間片段的指紋以及與第二視頻剪輯相關(guān)的基于時(shí)間片段的指紋之間的相似性測量 來識別匹配的基于事件的片段,以形成匹配片段。收集在第一視頻剪輯以及第二視頻剪輯之間的所有匹配片段,以形成匹配片段的 集合。匹配片段的集合可包括基于事件的片段的一個(gè)匹配對,或片段的兩個(gè)或更多個(gè)匹配 對。從匹配片段的集合選擇生成良好線性擬合的匹配片段的子集。在生成良好線性擬合的匹配片段的子集中,基于所選的匹配片段的不重疊期間識 別針對第一視頻剪輯以及第二視頻剪輯的總視頻匹配分?jǐn)?shù)。使用總視頻匹配分?jǐn)?shù)做出關(guān)于 第一視頻剪輯是否為第二視頻剪輯的近似復(fù)制品的確定。圖3是示出根據(jù)示例性實(shí)施例的針對測試視頻生成基于片段的時(shí)間指紋以及與 指紋的參考數(shù)據(jù)庫相匹配的框圖。計(jì)算機(jī)300在任意通用計(jì)算設(shè)備中實(shí)現(xiàn),包括但不限于, 圖1中的服務(wù)器106或客戶端110、和圖2中的數(shù)據(jù)處理系統(tǒng)200?;跁r(shí)間片段的指紋生成器302是針對視頻內(nèi)容生成基于時(shí)間片段的指紋的軟件組件。視頻內(nèi)容可以是測試視頻304或已知擁有版權(quán)的內(nèi)容?;跁r(shí)間片段的指紋生成 器302將基于內(nèi)容的特征與測試視頻304的唯一時(shí)間簽名相組合,以生成基于時(shí)間片段的 指紋。在該實(shí)例中,測試視頻304是根據(jù)已知擁有版權(quán)的內(nèi)容正在被測試的視頻內(nèi)容, 以確定測試視頻304是否為擁有版權(quán)的內(nèi)容的副本或從擁有版權(quán)的內(nèi)容導(dǎo)出。測試視頻 304包括多個(gè)視頻幀。視頻幀還可選地伴隨有音軌。換句話說,測試視頻304可以僅是視 頻,或音頻和視頻的組合。測試視頻源306是正在被測試或與已知擁有版權(quán)的內(nèi)容相比較的視頻內(nèi)容 的源,以確定測試視頻304是否為擁有版權(quán)的內(nèi)容的副本或衍生物。測試視頻源306 可以是視頻內(nèi)容的在線源或離線源。例如,測試視頻源306可包括但不限于,電視節(jié) 目、網(wǎng)站上的商業(yè)視頻和/或音頻內(nèi)容、或任意其他源。網(wǎng)站的實(shí)例包括但不限于
YouTube 、Facebook 、和MySpace ?;跁r(shí)間片段的指紋生成器302檢測測試視頻304中的事件,形成在事件邊界排 列的片段,針對每個(gè)片段提取基于內(nèi)容的描述符的時(shí)間軌跡(temporal trace),以及針對 測試視頻304生成基于測試視頻的時(shí)間片段的指紋312。在該實(shí)施例中,將基于測試視頻 的時(shí)間片段的指紋312形成為概括每個(gè)視頻片段的視覺和/或音頻特征的時(shí)間軌跡的數(shù)字 有序序列。在不變的事件邊界排列片段減少了由于視頻內(nèi)容的編輯或更改可能發(fā)生的任意 幀排列問題。基于時(shí)間片段的指紋生成器302生成針對測試視頻304的基于測試視頻的 時(shí)間片段的指紋以及針對擁有版權(quán)的視頻內(nèi)容的基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋 316。在該實(shí)例中,將基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316永久地存儲在數(shù)據(jù)存儲器 310中,而基于測試視頻的時(shí)間片段的指紋312被即時(shí)生成,并僅用于匹配和視頻副本識別 目的而無需存留。然而,基于測試視頻的時(shí)間片段的指紋也可被生成和存儲在數(shù)據(jù)存儲器 310中,用于在離線匹配處理中與基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316匹配,而不是 在線地生成基于測試視頻的時(shí)間片段的指紋312。數(shù)據(jù)存儲器310是用于存儲數(shù)據(jù)的設(shè)備。數(shù)據(jù)存儲器310可實(shí)現(xiàn)為硬盤驅(qū)動器、 閃速存儲器、主存儲器、只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)、非易失性隨機(jī)存取存儲 器(NVRAM)、或任意其他類型的數(shù)據(jù)存儲設(shè)備。數(shù)據(jù)存儲器310可以在一個(gè)數(shù)據(jù)存儲設(shè)備或 多個(gè)數(shù)據(jù)存儲設(shè)備中實(shí)現(xiàn)。在該實(shí)例中,數(shù)據(jù)存儲器310可以是耦合至計(jì)算機(jī)300的本地 數(shù)據(jù)存儲設(shè)備。然而,在另一實(shí)施例中,數(shù)據(jù)存儲器310可遠(yuǎn)程位于計(jì)算機(jī)300處,或數(shù)據(jù) 存儲器310可實(shí)現(xiàn)為一個(gè)或多個(gè)本地?cái)?shù)據(jù)存儲器設(shè)備和一個(gè)或多個(gè)遠(yuǎn)程數(shù)據(jù)存儲器設(shè)備。數(shù)據(jù)存儲器310存儲針對擁有版權(quán)的內(nèi)容所生成的基于擁有版權(quán)的內(nèi)容的時(shí)間 片段的指紋316。擁有版權(quán)的內(nèi)容可以是作為已知擁有版權(quán)的內(nèi)容的任意音頻和/或視頻 內(nèi)容。擁有版權(quán)的內(nèi)容可以存儲在具有一個(gè)或多個(gè)已知擁有版權(quán)的視頻剪輯的庫或數(shù)據(jù)庫 中。數(shù)據(jù)存儲器310也存儲基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316?;跁r(shí)間片段的指紋生成器302針對已知擁有版權(quán)的內(nèi)容生成基于擁有版權(quán)的 內(nèi)容的時(shí)間片段的指紋316?;趽碛邪鏅?quán)的內(nèi)容的時(shí)間片段的指紋316包括一個(gè)或多個(gè) 基于時(shí)間片段的指紋。基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316通過基于時(shí)間片段的指 紋生成器302在線地或離線地生成。換句話說,計(jì)算機(jī)300可用于在存在網(wǎng)絡(luò)連接時(shí)或不 存在網(wǎng)絡(luò)連接時(shí)生成基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316。然后,基于時(shí)間片段的指紋生成器302針對測試視頻304生成基于測試視頻的時(shí)間片段的指紋312。然后,指紋匹 配引擎320將基于時(shí)間片段的指紋312與基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316相比較。指紋匹配引擎320是用于執(zhí)行基于時(shí)間片段的指紋匹配處理的軟件組件。指紋匹 配引擎320將基于測試視頻的時(shí)間片段的指紋312與基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指 紋316相比較。結(jié)果318指示測試視頻304是否為擁有版權(quán)的內(nèi)容的副本或衍生物。擁有 版權(quán)的內(nèi)容的副本或衍生物可稱作擁有版權(quán)的內(nèi)容的近似復(fù)制品。在一個(gè)實(shí)施例中,為了 基于內(nèi)容的視頻盜版檢測或防護(hù)的目的,使用近似復(fù)制品的檢測。因此,基于時(shí)間片段的指紋生成器302針對與測試視頻304相關(guān)的多個(gè)幀中的每 個(gè)幀提取基于幀的、基于內(nèi)容的特征。測試視頻可包括與視頻幀相應(yīng)的音頻內(nèi)容?;趦?nèi) 容的特征可以是視覺特征和/或音頻特征?;跁r(shí)間片段的指紋生成器302根據(jù)基于內(nèi)容 的特征的明顯改變檢測在與測試視頻304相關(guān)的視頻內(nèi)容中的事件。然后,基于時(shí)間片段 的指紋生成器302生成貫穿一個(gè)或多個(gè)事件的重疊片段,以形成基于時(shí)間事件的片段的集
I=I O然后,基于時(shí)間片段的指紋生成器302根據(jù)與每個(gè)基于時(shí)間、事件的片段相關(guān)的 基于內(nèi)容的特征的時(shí)間跟蹤從每個(gè)基于時(shí)間、事件的片段導(dǎo)出時(shí)間序列信號?;跁r(shí)間片 段的指紋生成器302根據(jù)每個(gè)片段的時(shí)間序列信號提取基于片段的指紋,以形成基于測試 視頻的時(shí)間片段的指紋312。指紋匹配引擎320從測試視頻304接收測試片段。指紋匹配引擎320將基于擁有 版權(quán)的內(nèi)容的時(shí)間片段的指紋316中的一個(gè)或多個(gè)基于時(shí)間片段的指紋與基于測試視頻 的時(shí)間片段的指紋312相比較。指紋匹配引擎320根據(jù)相似性測量來識別匹配片段。指紋 匹配引擎320找到生成最佳線性擬合的匹配參考片段的子集。在這個(gè)上下文中,線性擬合指的是對于匹配片段的時(shí)間布局和相對時(shí)間距離一致 的匹配片段的集合。換句話說,在視頻對中的匹配片段的時(shí)間位置之間必須存在線性關(guān)系, 從而如果在一個(gè)視頻的時(shí)間X處的片段匹配于在第二視頻中的時(shí)間Y處的片段,則Y = aX+b,其中a和b是常實(shí)數(shù)。如果每對匹配片段具有相同的線性關(guān)系(其中針對所有匹配 的片段對,常數(shù)a和b相同,或幾乎相同),則成對的匹配片段的集合生成線性擬合。匹配片 段的線性擬合的質(zhì)量取決于具有相同線性關(guān)系的匹配片段對的數(shù)目以及線性關(guān)系的參數(shù)a 和b。指紋匹配引擎320基于最佳線性擬合生成視頻匹配分?jǐn)?shù)。在該實(shí)例中,如果視頻 匹配分?jǐn)?shù)超過閾值分?jǐn)?shù),則指紋匹配引擎320生成將測試片段識別為從參考視頻潛在復(fù)制 或?qū)С龅慕Y(jié)果318。如果視頻匹配分?jǐn)?shù)低于閾值,則指紋匹配引擎320生成將測試片段識別 為不匹配參考視頻的結(jié)果318。在一個(gè)實(shí)施例中,擁有版權(quán)的內(nèi)容的內(nèi)容所有者針對擁有版權(quán)的視頻提取基于時(shí) 間片段的指紋,以生成基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316。這些指紋是基于細(xì)粒度 的時(shí)間內(nèi)容的指紋,其被設(shè)計(jì)為對于大范圍的失真具有健壯性。然后,使用基于時(shí)間片段的 指紋來檢測視頻盜版,和防止擁有版權(quán)的內(nèi)容被未授權(quán)使用。在另一實(shí)例中,視頻共享站點(diǎn)可利用基于時(shí)間片段的指紋生成器302針對視頻共 享站點(diǎn)上張貼的視頻生成基于視頻內(nèi)容的指紋。視頻共享站點(diǎn)可使用指紋匹配引擎320檢測由視頻共享站點(diǎn)的用戶提取的盜版和擁有版權(quán)的視頻的未授權(quán)使用。在該實(shí)例中,測試 視頻304是由站點(diǎn)的用戶張貼在視頻共享站點(diǎn)上的視頻。根據(jù)基于擁有版權(quán)的內(nèi)容的時(shí)間 片段的指紋316的基準(zhǔn)數(shù)據(jù)庫來匹配基于測試視頻的時(shí)間片段的指紋312。這個(gè)匹配也是 基于細(xì)粒度的時(shí)間內(nèi)容的處理,其被設(shè)計(jì)為對于大范圍的失真具有健壯性。檢測共享視頻 是否為描述符數(shù)據(jù)庫中擁有版權(quán)的視頻之一的盜版副本。圖4是示出根據(jù)示例性實(shí)施例的針對擁有版權(quán)的內(nèi)容生成基于時(shí)間片段的指紋 的參考數(shù)據(jù)庫的框圖?;跁r(shí)間片段的指紋生成器302針對擁有版權(quán)的內(nèi)容404生成基于 擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316,其方式相同于圖3中基于時(shí)間片段的指紋生成器 302針對測試視頻304生成基于測試視頻的時(shí)間片段的指紋312。數(shù)據(jù)存儲器310存儲擁有版權(quán)的內(nèi)容404。擁有版權(quán)的內(nèi)容404可使用作為已知 擁有版權(quán)的內(nèi)容的任意音頻和/或視頻內(nèi)容來實(shí)現(xiàn)。在該實(shí)例中,擁有版權(quán)的內(nèi)容404是 具有一個(gè)或多個(gè)已知擁有版權(quán)的視頻剪輯的庫或數(shù)據(jù)庫?;趽碛邪鏅?quán)的內(nèi)容的時(shí)間片段 的指紋316包含針對已知擁有版權(quán)的視頻內(nèi)容(例如擁有版權(quán)的內(nèi)容404)的基于時(shí)間片 段的指紋?;跁r(shí)間片段的指紋生成器302針對擁有版權(quán)的內(nèi)容404在線地或離線地生成基 于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316。換句話說,基于時(shí)間片段的指紋生成器302可 用于在存在網(wǎng)絡(luò)連接時(shí)或不存在網(wǎng)絡(luò)連接時(shí)生成基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋 316。然后,基于時(shí)間片段的指紋生成器302針對如圖3所示的測試視頻304生成基于測試 視頻的時(shí)間片段的指紋312。然后,指紋匹配引擎320將如圖3所示的基于時(shí)間片段的指紋 312與基于擁有版權(quán)的內(nèi)容的時(shí)間片段的指紋316相比較。圖5是示出根據(jù)示例性實(shí)施例的基于片段的時(shí)間指紋生成器的框圖?;跁r(shí)間片 段的指紋生成器302接收與測試視頻或已知擁有版權(quán)的內(nèi)容相關(guān)的視頻幀501?;趲?特征502是與基于時(shí)間片段的指紋生成器302相關(guān)的軟件組件,其提取針對每個(gè)幀的基于 內(nèi)容的特征503?;趦?nèi)容的特征503可以僅是視覺特征、僅是音頻特征、或視覺和音頻特 征的組合。事件檢測504是根據(jù)基于內(nèi)容的特征503的明顯改變檢測事件的軟件組件。事件 檢測504根據(jù)期間限制來創(chuàng)建貫穿多個(gè)事件的重疊片段。片段通過事件邊界505來定義。 換句話說,事件檢測504根據(jù)視頻剪輯的音頻_視覺內(nèi)容的狀態(tài)的明顯改變來檢測和提取 視頻幀501中的事件。例如,事件可標(biāo)記視頻拍攝或場景轉(zhuǎn)換、說話者改變,或者可簡單地 取決于整個(gè)幀或音頻強(qiáng)度改變。換句話說,事件檢測504可檢測使用視頻拍攝檢測、場景改 變、說話者改變、音頻改變、和幀強(qiáng)度改變的事件。事件檢測504也可使用音頻特征、視覺特 征、和多模特征來檢測事件。然后,基于時(shí)間片段的指紋生成器302使用事件以形成基于時(shí)間、事件的片段,其 可貫穿多個(gè)事件,可被分離或重疊,以及可覆蓋整個(gè)視頻或僅視頻子集?;跁r(shí)間、事件的 片段也可與一個(gè)或多個(gè)其他的基于時(shí)間、事件的片段重疊。在匹配中,基于時(shí)間、事件的片 段的子集生成貫穿多個(gè)幀中的幀子集的線性擬合。匹配的基于時(shí)間、事件的片段可通過間 隙來分離。片段提取506針對每個(gè)片段創(chuàng)建特征的時(shí)間序列,以形成片段時(shí)間序列507。片段 提取506使得每個(gè)基于時(shí)間、事件的片段與從每個(gè)基于時(shí)間、事件的片段提取的基于內(nèi)容
13的特征的時(shí)間軌跡相關(guān)聯(lián)。例如,一個(gè)基于視覺內(nèi)容的特征是與幀像素中的紅、綠、和藍(lán)顏 色值的總和相應(yīng)的總幀強(qiáng)度。時(shí)間序列信號可取決于總幀強(qiáng)度的時(shí)間跟蹤、基于幀區(qū)域的 強(qiáng)度序列的跟蹤、基于柵格的強(qiáng)度序列的跟蹤、和/或鄰近幀差異的跟蹤。因此,針對每個(gè)片段構(gòu)成基于幀的描述符的時(shí)間序列,以形成片段時(shí)間序列507。 描述符可以與總幀強(qiáng)度一樣簡單,或者可以是基于顏色、紋理、邊緣、和形狀特征的更復(fù)雜 特征。然后,基于片段的特征508針對每個(gè)時(shí)間片段提取基于片段的時(shí)間指紋,以形成 基于時(shí)間片段的指紋509。基于片段的特征508通過從與每個(gè)片段相關(guān)的描述符的時(shí)間序 列提取基于固定維度(fixed-dimensionality)的時(shí)間片段的指紋來進(jìn)行這個(gè)操作。固定 維度的指紋可通過將可變長度時(shí)間序列還原成固定維度特征向量的各種方法來提取,包括 但不限于,均勻取樣、向量量化、逐段線性近似、離散余弦變換(DCT)、離散小波變換(DWT)、 和離散傅立葉變換(DFT)?,F(xiàn)在轉(zhuǎn)到圖6,示出根據(jù)示例性實(shí)施例的指紋提取處理的視圖。視圖600是通過基 于時(shí)間片段的指紋生成器(例如圖3中的基于時(shí)間片段的指紋生成器302)實(shí)現(xiàn)的指紋提 取處理的視圖。視頻601可以是測試視頻或已知擁有版權(quán)的內(nèi)容?;趲奶卣?02是用于從視 頻601提取特征的軟件,例如圖5中的基于幀的特征502?;趲奶卣?02將視頻601 處理成幀,以及對于視頻的每個(gè)幀提取紅/綠/藍(lán)值的總和,得到時(shí)間序列信號。事件檢測 604根據(jù)閾值和信號的衍生物的零交點(diǎn)來檢測這個(gè)信號中的事件。片段提取606根據(jù)片段 上的最小和最大期間限制創(chuàng)建貫穿事件到事件的重疊片段。在該實(shí)例中,基于片段的特征 608以64個(gè)均勻間隔的時(shí)間點(diǎn)針對每個(gè)片段對信號進(jìn)行子取樣,得到針對片段集合的視頻 的指紋以及他們相應(yīng)的64個(gè)維度向量。然而,基于片段的特征608能夠以任意數(shù)目個(gè)時(shí)間 點(diǎn)針對每個(gè)片段對信號進(jìn)行子取樣,或生成固定維度向量。將紅/綠/藍(lán)的總和用作基于幀的特征提供了對于許多差異(包括但不限于,圍 繞視頻的黑帶、縱橫比的差異、疊加在視頻上的收尾語或固定文本、視頻的純變亮和變暗、 增益不改變地太快時(shí)的AGC、顏色空間轉(zhuǎn)換、分辨率和DC偏移的差異)的不變性或健壯性?;诟淖兊氖录z測的使用對于空間和時(shí)間差異兩者提供了不變性。即使檢測視 頻可被編輯,以及可以具有不同的時(shí)間標(biāo)度,事件檢測604應(yīng)發(fā)現(xiàn)測試信號在相似的時(shí)間 點(diǎn)改變。貫穿多個(gè)事件的重疊片段的使用也對于空間和時(shí)間差異兩者提供了不變性。即使 測試視頻可被降級,以及可以具有不同的時(shí)間標(biāo)度,片段提取606應(yīng)基于類似的短改變序 列發(fā)現(xiàn)貫穿多個(gè)事件的重疊片段。圖7是根據(jù)示例性實(shí)施例的指紋匹配引擎的框圖。指紋匹配引擎314接收針對測 試片段704的基于時(shí)間片段的指紋。指紋搜索和比較705是用于識別與比較中利用的測 試視頻匹配的參考片段的軟件組件,以確定測試視頻是否為識別的參考片段的副本或衍生 物。針對每個(gè)測試片段,指紋搜索和比較705發(fā)現(xiàn)匹配的參考片段。參考片段706是 已知擁有版權(quán)的視頻內(nèi)容的片段。針對參考片段706中的每個(gè)參考片段,指紋搜索和比較 705收集所有匹配片段708。換句話說,將測試片段704與描述符數(shù)據(jù)庫中的參考片段706相比較,并且使用精確或近似最近的相鄰搜索來找到最近的匹配參考片段,以形成匹配片 段 708。線性擬合分析710找到生成最佳線性擬合的匹配片段的子集,以形成過濾的匹配 片段712。換句話說,線性擬合分析710分析測試片段704的對于每個(gè)參考視頻的線性擬 合。針對每個(gè)參考視頻,線性擬合分析710過濾掉具有最長期間線性擬合的測試片段的子 集和匹配的參考片段,以形成過濾的匹配片段712。線性擬合分析710的使用向空間和時(shí)間差異兩者提供了不變性。即使測試視頻可 被編輯,但是線性擬合需要片段被按時(shí)間排列,但不必相連。針對每個(gè)測試視頻,匹配視頻計(jì)分714根據(jù)具有最佳線性擬合的參考視頻計(jì)算總 匹配分?jǐn)?shù),以形成匹配分?jǐn)?shù)716。匹配視頻計(jì)分714使用過濾的匹配片段712依據(jù)描述符數(shù) 據(jù)庫來計(jì)算最佳匹配分?jǐn)?shù)716。最佳匹配分?jǐn)?shù)716用于檢測測試視頻是否為擁有版權(quán)的視頻。閾值分?jǐn)?shù)比較引擎718將匹配分?jǐn)?shù)716與閾值分?jǐn)?shù)相比較,以確定測試視頻是否 為擁有版權(quán)的內(nèi)容的副本或衍生物。例如,如果匹配分?jǐn)?shù)716等于或大于閾值分?jǐn)?shù),則閾值 分?jǐn)?shù)比較引擎718將測試視頻識別為參考片段706中擁有版權(quán)的內(nèi)容的副本或衍生物。現(xiàn)在參照圖8,示出根據(jù)示例性實(shí)施例的匹配處理的框圖。比較800是匹配處理的 圖示。指紋匹配引擎(例如圖3中的指紋匹配引擎314)權(quán)衡所提取的基于時(shí)間片段的指 紋以比較和匹配視頻剪輯802和804。視頻剪輯802是來自擁有版權(quán)的內(nèi)容的庫(例如圖 3中的擁有版權(quán)的內(nèi)容314)的參考視頻。視頻剪輯804是未知測試視頻,例如圖3中的測 試視頻304??墒褂孟嗨浦讣y來識別在未知測試視頻804和已知參考視頻802之間的匹配片 段。隨后,可使用來自每個(gè)候選參考視頻的匹配片段的集合和組合期間,對于測試視頻804 和候選參考視頻802之間的總匹配質(zhì)量計(jì)分。然后,可將計(jì)分足夠高的任意候選參考視頻 聲明為未知測試視頻的近似復(fù)制品,然后將測試視頻804標(biāo)記為擁有版權(quán)的內(nèi)容的衍生 物。圖9是示出根據(jù)示例性實(shí)施例的提取基于片段的時(shí)間指紋的處理的流程圖。圖9 中的處理通過用于生成基于時(shí)間片段的指紋的軟件來實(shí)現(xiàn),例如圖3中的基于時(shí)間片段的 指紋生成器302。該處理通過針對視頻內(nèi)容中的每個(gè)幀提取基于內(nèi)容的特征來開始(步驟902)。視 頻內(nèi)容可以是測試視頻或已知擁有版權(quán)的視頻內(nèi)容。視頻內(nèi)容可以僅是視頻,僅是音頻,或 音頻和視頻的組合?;趦?nèi)容的特征是視覺特征、音頻特征、或視覺和音頻特征的組合。該處理根據(jù)基于內(nèi)容的特征的明顯改變檢測視頻內(nèi)容中的事件(步驟904)。然 后,該處理根據(jù)期間限制生成貫穿一個(gè)或多個(gè)事件的重疊片段,以形成基于時(shí)間事件的片 段的集合(步驟906)。基于時(shí)間、事件的片段的集合是兩個(gè)或更多個(gè)基于事件的片段的集
I=I O該處理根據(jù)與基于時(shí)間、事件的片段的集合中的每個(gè)基于時(shí)間、事件的片段相 關(guān)的基于內(nèi)容的特征的時(shí)間跟蹤從每個(gè)基于時(shí)間、事件的片段導(dǎo)出時(shí)間序列信號(步驟 908)。然后,該處理針對每個(gè)片段提取基于片段的時(shí)間指紋,以形成針對視頻內(nèi)容的基于時(shí) 間片段的視頻指紋(步驟910),隨后該處理終止。換句話說,圖9中的處理針對給定視頻剪輯生成一個(gè)或多個(gè)基于時(shí)間片段的指紋。圖9中的處理可執(zhí)行任意數(shù)目的次數(shù),以生成針 對測試視頻剪輯和/或針對已知擁有版權(quán)的內(nèi)容的多個(gè)基于時(shí)間片段的指紋。圖10是示出根據(jù)示例性實(shí)施例的使用基于時(shí)間片段的指紋確定測試片段是否匹 配于參考視頻的處理的流程圖。圖10中的處理通過匹配基于時(shí)間片段的指紋的軟件(例 如圖3中的指紋匹配引擎320)來實(shí)現(xiàn)。該處理通過從測試視頻內(nèi)容選擇測試片段來開始(步驟1002)。該處理將參考視 頻的基于時(shí)間片段的指紋與測試片段的基于時(shí)間片段的指紋相比較(步驟1004)。該處理 基于相似性測量來識別匹配片段(步驟1006)。該處理找到生成最佳線性擬合的匹配參考 片段的子集(步驟1008)。然后,該處理根據(jù)最佳線性擬合生成視頻匹配分?jǐn)?shù)(步驟1010)。該處理做出關(guān)于 測試視頻的匹配分?jǐn)?shù)是否超過閾值的確定(步驟1012)。如果分?jǐn)?shù)超過閾值,則處理將測試 片段識別為從參考視頻潛在導(dǎo)出(步驟1014),隨后該處理終止。返回步驟1012,如果分?jǐn)?shù)沒有超過閾值,則該處理將測試片段識別為不匹配于參 考視頻(步驟1016),隨后該處理終止。換句話說,如果匹配分?jǐn)?shù)太低,則該處理不將測試視 頻識別為與參考視頻相關(guān)的擁有版權(quán)的內(nèi)容的副本或衍生物。示例性實(shí)施例提供了一種針對基于時(shí)間、事件的視頻指紋法的計(jì)算機(jī)實(shí)現(xiàn)的方 法、裝置、和計(jì)算機(jī)程序產(chǎn)品代碼。在一個(gè)實(shí)施例中,檢測視頻內(nèi)容中的事件。所述視頻內(nèi)容 包括多個(gè)視頻幀。事件代表視頻內(nèi)容中的離散興趣點(diǎn)。使用所述事件生成基于時(shí)間、事件 的片段的集合。每個(gè)基于時(shí)間、事件的片段是覆蓋一個(gè)或多個(gè)事件的視頻內(nèi)容的片段。根 據(jù)與每個(gè)基于時(shí)間、事件的片段相關(guān)的幀的基于內(nèi)容的特征的時(shí)間跟蹤,從每個(gè)片段導(dǎo)出 時(shí)間序列信號。根據(jù)每個(gè)基于時(shí)間、事件的片段的時(shí)間序列信號導(dǎo)出片段指紋,以形成與所 述視頻內(nèi)容相關(guān)的基于時(shí)間片段的指紋的集合。將針對測試視頻剪輯的基于時(shí)間片段的指紋與針對每個(gè)參考視頻的基于時(shí)間片 段的指紋相比較。找到所有匹配的對。使用生成良好線性擬合的匹配對的子集,對候選參 考視頻的匹配進(jìn)行計(jì)分?;跁r(shí)間、片段的指紋可用于基于內(nèi)容的視頻盜版檢測或視頻盜版防護(hù)目的。通 過該處理生成的基于時(shí)間片段的指紋也可用于基于內(nèi)容的搜索、概念檢測、內(nèi)容歸類、概 括、過濾、路由、或目標(biāo)式廣告。對于例如剪切、插入、和接合的編輯操作來說,基于片段的時(shí) 間指紋法更加有健壯性。換句話說,基于片段的時(shí)間指紋法能夠更加精確和可靠地檢測副 本和衍生物,即使在視頻內(nèi)容經(jīng)過編輯操作以及對于擁有版權(quán)的視頻內(nèi)容的更改時(shí)。因此,實(shí)施例通過將基于內(nèi)容的特征與視頻的唯一時(shí)間簽名組合來提高對于編輯 和圖像處理轉(zhuǎn)換的健壯性。通過檢測視頻中的重要事件、形成在事件邊界處排列的片段并 且為每個(gè)片段提取基于內(nèi)容的描述符的事件軌跡來增加健壯性。在不變的事件邊界處排列 片段減少了上述幀排列問題。允許片段貫穿可變數(shù)目個(gè)事件,以及彼此重疊,這提供了一定 程度的冗余性,導(dǎo)致對于編輯操作的健壯性增加。將時(shí)間軌跡簽名并入指紋中減少了指紋 的依賴性,因此增加了對于圖像處理轉(zhuǎn)換的健壯性。本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例或包含硬件和軟件元素的實(shí)施例 的形式。在優(yōu)選實(shí)施例中,在包括但不限于固件、駐留軟件、微碼等的硬件和軟件中實(shí)現(xiàn)本 發(fā)明。
此外,本發(fā)明可采用從計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可訪問的計(jì)算機(jī)程序產(chǎn)品的 形式,所述計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)提供用于計(jì)算機(jī)或任意指令執(zhí)行系統(tǒng)或與其連接 的程序代碼。為了這里說明的目的,計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可以是可包含、存儲、通 信、傳播或傳輸用于指令執(zhí)行系統(tǒng)、裝置或設(shè)備或與其連接的程序的任意有形裝置。介質(zhì)可以是電子、磁、光、電磁、紅外或半導(dǎo)體系統(tǒng)(或裝置或設(shè)備)或傳播介 質(zhì)。計(jì)算機(jī)可讀介質(zhì)的實(shí)例包括半導(dǎo)體或固態(tài)存儲器、磁帶、可卸計(jì)算機(jī)磁盤、隨機(jī)存取 存儲器(RAM)、只讀存儲器(ROM)、硬盤和光盤。光盤的當(dāng)前實(shí)例包括壓縮盤-只讀存儲器 (CD-ROM)、壓縮盤-讀 / 寫(CD-R/W)和 DVD。適用于存儲和/或執(zhí)行程序代碼的數(shù)據(jù)處理系統(tǒng)包括直接或通過系統(tǒng)總線間接 與存儲器元件耦合的至少一個(gè)處理器。存儲器元件可包括在程序代碼的實(shí)際執(zhí)行期間采用 的本地存儲器、海量存儲裝置、以及提供至少一些程序代碼的臨時(shí)存儲以減少在執(zhí)行期間 必須從海量存儲裝置提取代碼的次數(shù)的高速緩存。輸入/輸出或I/O設(shè)備(包括但不限于鍵盤、顯示器、定點(diǎn)設(shè)備等)可直接或通過 中間I/O控制器耦合至系統(tǒng)。網(wǎng)絡(luò)適配器也可耦合至系統(tǒng),以使得數(shù)據(jù)處理系統(tǒng)能夠通過中間專用網(wǎng)絡(luò)或公共 網(wǎng)絡(luò)耦合至其他數(shù)據(jù)處理系統(tǒng)或遠(yuǎn)程打印機(jī)或存儲設(shè)備。調(diào)制解調(diào)器、電纜調(diào)制解調(diào)器和 以太網(wǎng)卡僅是網(wǎng)絡(luò)適配器的幾個(gè)當(dāng)前可用類型。為了說明和描述的目的提出本發(fā)明實(shí)施例的以上描述,并且其不是窮盡的,以及 并沒有將本發(fā)明限制在所公開的特定形式。對于本領(lǐng)域普通技術(shù)人員,許多變形和改變是 清楚的。選擇和描述實(shí)施例以最佳地解釋發(fā)明原理、實(shí)際應(yīng)用,以及使得本領(lǐng)域普通技術(shù)人 員能夠通過適用于特定用途的具有各種修改的各種實(shí)施例理解本發(fā)明。
權(quán)利要求
一種針對基于時(shí)間、事件的視頻指紋法的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述計(jì)算機(jī)實(shí)現(xiàn)的方法包括檢測視頻內(nèi)容中的事件,其中所述視頻內(nèi)容包括多個(gè)視頻幀,以及其中事件代表視頻內(nèi)容中的離散興趣點(diǎn);使用所述事件生成基于時(shí)間、事件的片段的集合,其中每個(gè)基于時(shí)間、事件的片段是覆蓋事件集合的視頻內(nèi)容的片段;使用與所述基于時(shí)間、事件的片段的集合中的每個(gè)基于時(shí)間、事件的片段相關(guān)的幀集合的基于內(nèi)容的特征的時(shí)間跟蹤,從所述每個(gè)基于時(shí)間、事件的片段導(dǎo)出時(shí)間序列信號;以及根據(jù)所述每個(gè)基于時(shí)間、事件的片段的時(shí)間序列信號提取片段指紋,以形成與所述視頻內(nèi)容相關(guān)的基于時(shí)間片段的指紋的集合。
2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中使用基于時(shí)間片段的指紋的集合來確 定第一視頻剪輯的一部分是否與第二視頻剪輯從相同的原始內(nèi)容導(dǎo)出,所述計(jì)算機(jī)實(shí)現(xiàn)的 方法還包括將針對所述第一視頻剪輯的基于時(shí)間片段的指紋與針對所述第二視頻剪輯生成的基 于時(shí)間片段的指紋相比較;根據(jù)在與所述第一視頻剪輯相關(guān)的基于時(shí)間片段的指紋以及與所述第二視頻剪輯相 關(guān)的基于時(shí)間片段的指紋之間的相似性測量來識別匹配的基于事件的片段,以形成匹配片 段;收集在所述第一視頻剪輯以及所述第二視頻剪輯之間的所有匹配片段,以形成匹配片 段的集合;選擇匹配片段的子集,其中匹配片段的子集包括對于與所述第二視頻剪輯相關(guān)的匹配 片段生成良好線性擬合的與所述第一視頻剪輯相關(guān)的匹配片段;根據(jù)所選的匹配片段識別針對所述第一視頻剪輯和所述第二視頻剪輯的總視頻匹配 分?jǐn)?shù);以及使用所述總視頻匹配分?jǐn)?shù)來確定所述第一視頻剪輯是否為所述第二視頻剪輯的近似 復(fù)制品。
3.如權(quán)利要求2所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括將所述總視頻匹配分?jǐn)?shù)與閾值分?jǐn)?shù)相比較;以及響應(yīng)于所述總視頻匹配分?jǐn)?shù)超過閾值分?jǐn)?shù),將所述第一視頻剪輯識別為所述第二視頻 剪輯的近似復(fù)制品。
4.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中將所述基于時(shí)間片段的指紋用于基于 內(nèi)容的搜索、概念檢測、內(nèi)容歸類、概括、過濾、路由、或目標(biāo)式廣告中的至少一個(gè)。
5.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述基于內(nèi)容的特征包括音頻特征和 視覺特征中的至少一個(gè),以及其中根據(jù)以下內(nèi)容中的至少一個(gè)來檢測每個(gè)事件視頻拍攝 檢測,場景改變,說話者改變,音頻改變,幀強(qiáng)度改變,或根據(jù)顏色、紋理、形狀、邊緣、或動作 的低級的基于內(nèi)容的描述符的改變。
6.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述基于時(shí)間、事件的片段貫穿多個(gè) 幀中的幀集合,以及其中所述幀集合僅覆蓋視頻內(nèi)容的子集。
7.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中與所述視頻內(nèi)容相關(guān)的第一基于時(shí) 間、事件的片段重疊于與所述視頻內(nèi)容相關(guān)的第二基于時(shí)間、事件的片段。
8.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述時(shí)間序列信號基于以下內(nèi)容之 一總幀強(qiáng)度的時(shí)間跟蹤、基于幀區(qū)域的強(qiáng)度序列的跟蹤、基于柵格的強(qiáng)度序列的跟蹤、和 鄰近幀差異的跟蹤。
9.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中基于以下內(nèi)容中的至少一個(gè)從片段時(shí) 間序列提取所述基于時(shí)間片段的指紋均勻取樣、逐段線性近似、離散余弦變換(DCT)、離 散小波變換(DWT)、和離散傅立葉變換(DFT)。
10.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中基于時(shí)間片段的指紋包括固定維度 特征向量。
11.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中事件描述以下內(nèi)容中至少一個(gè)的狀 態(tài)的明顯改變視頻的音頻內(nèi)容、視頻的視覺內(nèi)容、和視頻的語義內(nèi)容。
12.—種針對基于時(shí)間、事件的視頻指紋法的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀介質(zhì);在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,檢測視頻內(nèi)容中的事件的程序代碼,其中所述視頻 內(nèi)容包括多個(gè)視頻幀,以及其中事件代表視頻內(nèi)容中的離散興趣點(diǎn);在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,使用所述事件生成基于時(shí)間、事件的片段的集合的 程序代碼,其中每個(gè)基于時(shí)間、事件的片段是覆蓋事件集合的視頻內(nèi)容的片段;在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,使用與所述基于時(shí)間、事件的片段的集合中的每個(gè) 基于時(shí)間、事件的片段相關(guān)的幀集合的基于內(nèi)容的特征的時(shí)間跟蹤,從每個(gè)基于時(shí)間、事件 的片段導(dǎo)出時(shí)間序列信號的程序代碼;以及在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,根據(jù)所述每個(gè)基于時(shí)間、事件的片段的時(shí)間序列信 號提取片段指紋,以形成與所述視頻內(nèi)容相關(guān)的基于時(shí)間片段的指紋的集合的程序代碼。
13.如權(quán)利要求12所述的計(jì)算機(jī)程序產(chǎn)品,其中使用基于時(shí)間片段的指紋的集合來確 定第一視頻剪輯的一部分是否與第二視頻剪輯從相同的原始內(nèi)容導(dǎo)出,所述計(jì)算機(jī)程序產(chǎn) 品還包括在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,將針對所述第一視頻剪輯的基于時(shí)間片段的指紋與 針對所述第二視頻剪輯生成的基于時(shí)間片段的指紋相比較的程序代碼;在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,根據(jù)在與所述第一視頻剪輯相關(guān)的基于時(shí)間片段的 指紋以及與所述第二視頻剪輯相關(guān)的基于時(shí)間片段的指紋之間的相似性測量來識別匹配 的基于事件的片段,以形成匹配片段的程序代碼;在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,收集在所述第一視頻剪輯以及所述第二視頻剪輯之 間的所有匹配片段,以形成匹配片段的集合的程序代碼;在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,選擇匹配片段的子集的程序代碼,其中匹配片段的 子集包括對于與所述第二視頻剪輯相關(guān)的匹配片段生成良好線性擬合的與所述第一視頻 剪輯相關(guān)的匹配片段;在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,根據(jù)匹配片段的子集中所選的匹配片段識別針對所 述第一視頻剪輯和所述第二視頻剪輯的總視頻匹配分?jǐn)?shù)的程序代碼;以及在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,使用所述總視頻匹配分?jǐn)?shù)來確定所述第一視頻剪輯 是否為所述第二視頻剪輯的近似復(fù)制品的程序代碼。
14.如權(quán)利要求13所述的計(jì)算機(jī)程序產(chǎn)品,還包括在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,將所述總視頻匹配分?jǐn)?shù)與閾值分?jǐn)?shù)相比較的程序代碼;在所述計(jì)算機(jī)可讀介質(zhì)上存儲的,響應(yīng)于所述總視頻匹配分?jǐn)?shù)超過閾值分?jǐn)?shù),將所述 第一視頻剪輯識別為所述第二視頻剪輯的近似復(fù)制品的程序代碼。
15.如權(quán)利要求12所述的計(jì)算機(jī)程序產(chǎn)品,其中所述基于內(nèi)容的特征包括音頻特征和 視覺特征中的至少一個(gè),以及其中根據(jù)以下內(nèi)容中的至少一個(gè)來檢測每個(gè)事件視頻拍攝 檢測,場景改變,說話者改變,音頻改變,幀強(qiáng)度改變,或根據(jù)顏色、紋理、形狀、邊緣、或動作 的低級的基于內(nèi)容的描述符的改變。
16.一種自動檢測視頻盜版的裝置,所述裝置包括總線系統(tǒng);耦合至所述總線系統(tǒng)的通信系統(tǒng);連接至所述總線系統(tǒng)的存儲器,其中所述存儲器包括計(jì)算機(jī)可用程序代碼;以及耦合至所述總線系統(tǒng)的處理單元,其中所述處理單元執(zhí)行所述計(jì)算機(jī)可用程序代碼, 以執(zhí)行以下操作檢測視頻內(nèi)容中的事件,其中所述視頻內(nèi)容包括多個(gè)視頻幀,以及其中事 件代表視頻內(nèi)容中的離散興趣點(diǎn);使用所述事件生成基于時(shí)間、事件的片段的集合,其中每 個(gè)基于時(shí)間、事件的片段是覆蓋事件集合的視頻內(nèi)容的片段;使用與所述基于時(shí)間、事件的 片段的集合中的每個(gè)基于時(shí)間、事件的片段相關(guān)的幀集合的基于內(nèi)容的特征的時(shí)間跟蹤, 從每個(gè)基于時(shí)間、事件的片段導(dǎo)出時(shí)間序列信號;以及根據(jù)每個(gè)基于時(shí)間、事件的片段的時(shí) 間序列信號提取片段指紋,以形成與所述視頻內(nèi)容相關(guān)的基于時(shí)間片段的指紋的集合,其 中將近似復(fù)制品的檢測用于基于內(nèi)容的視頻盜版檢測。
17.如權(quán)利要求16所述的裝置,其中所述處理單元進(jìn)一步執(zhí)行所述計(jì)算機(jī)可用程序代 碼,以執(zhí)行以下操作將針對所述第一視頻剪輯的基于時(shí)間片段的指紋與針對所述第二視 頻剪輯生成的基于時(shí)間片段的指紋相比較;根據(jù)在與所述第一視頻剪輯相關(guān)的基于時(shí)間片 段的指紋以及與所述第二視頻剪輯相關(guān)的基于時(shí)間片段的指紋之間的相似性測量來識別 匹配的基于事件的片段,以形成匹配片段;收集在所述第一視頻剪輯以及所述第二視頻剪 輯之間的所有匹配片段,以形成匹配片段的集合;選擇匹配片段的子集,其中匹配測試片段 的子集生成對于匹配的視頻的良好線性擬合;根據(jù)匹配片段的子集中所選的匹配片段識別 針對所述第一視頻剪輯和所述第二視頻剪輯的總視頻匹配分?jǐn)?shù);以及使用所述總視頻匹配 分?jǐn)?shù)來確定所述第一視頻剪輯是否為所述第二視頻剪輯的近似復(fù)制品。
18.如權(quán)利要求17所述的裝置,其中所述處理單元進(jìn)一步執(zhí)行所述計(jì)算機(jī)可用程序代 碼,以執(zhí)行以下操作將所述總視頻匹配分?jǐn)?shù)與閾值分?jǐn)?shù)相比較;以及響應(yīng)于所述總視頻 匹配分?jǐn)?shù)超過閾值分?jǐn)?shù),將所述第一視頻剪輯識別為所述第二視頻剪輯的近似復(fù)制品。
19.一種自動檢測視頻盜版的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述計(jì)算機(jī)實(shí)現(xiàn)的方法包括將針對第一視頻剪輯的基于時(shí)間片段的指紋與針對第二視頻剪輯生成的基于時(shí)間片段的指紋相比較;根據(jù)在與所述第一視頻剪輯相關(guān)的基于時(shí)間片段的指紋以及與所述第二視頻剪輯相關(guān)的基于時(shí)間片段的指紋之間的相似性測量來識別匹配的基于事件的片段,以形成匹配片 段;收集在所述第一視頻剪輯以及所述第二視頻剪輯之間的所有匹配片段,以形成匹配片 段的集合;選擇匹配片段的子集,其中匹配片段的子集包括生成良好線性擬合的與所述第一視頻 剪輯相關(guān)的匹配片段以及與所述第二視頻剪輯相關(guān)的匹配片段;根據(jù)匹配片段的子集中所選的匹配片段識別針對所述第一視頻剪輯和所述第二視頻 剪輯的總視頻匹配分?jǐn)?shù);以及使用所述總視頻匹配分?jǐn)?shù)來確定所述第一視頻剪輯是否為所述第二視頻剪輯的近似 復(fù)制品。
20.如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括將所述總視頻匹配分?jǐn)?shù)與閾值分?jǐn)?shù)相比較;以及響應(yīng)于所述總視頻匹配分?jǐn)?shù)超過閾值分?jǐn)?shù),將所述第一視頻剪輯識別為所述第二視頻 剪輯的近似復(fù)制品。
全文摘要
一種針對基于時(shí)間、事件的視頻指紋法的計(jì)算機(jī)實(shí)現(xiàn)的方法、裝置、和計(jì)算機(jī)程序產(chǎn)品代碼。在一個(gè)實(shí)施例中,檢測視頻內(nèi)容中的事件。所述視頻內(nèi)容包括多個(gè)視頻幀。事件代表視頻內(nèi)容中的離散興趣點(diǎn)。使用所述事件生成基于時(shí)間、事件的片段的集合。每個(gè)基于時(shí)間、事件的片段是覆蓋事件集合的視頻內(nèi)容的片段。使用與每個(gè)基于時(shí)間、事件的片段相關(guān)的幀集合的基于內(nèi)容的特征的時(shí)間跟蹤,從每個(gè)基于時(shí)間、事件的片段導(dǎo)出時(shí)間序列信號。根據(jù)每個(gè)基于時(shí)間、事件的片段的時(shí)間序列信號提取基于時(shí)間片段的指紋,以形成與所述視頻內(nèi)容相關(guān)的基于時(shí)間片段的指紋的集合。
文檔編號G06F17/30GK101896906SQ200880120751
公開日2010年11月24日 申請日期2008年11月24日 優(yōu)先權(quán)日2007年12月17日
發(fā)明者A·I·耐特塞夫, J·R·史密斯, J·W·常 申請人:國際商業(yè)機(jī)器公司