專利名稱:一種廣告視頻檢測的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于視頻分析及檢索技術(shù)領(lǐng)域,具體涉及一種廣告視頻檢測的方法。
背景技術(shù):
隨著人類視頻信息的常年累積,如電視臺(tái)視頻節(jié)目的積累、網(wǎng)上數(shù)字視頻的增加、家庭視頻的增多,以及數(shù)字圖書館、視頻點(diǎn)播、遠(yuǎn)程教學(xué)等大量的應(yīng)用,視頻信息已經(jīng)出現(xiàn)爆炸性增長。為了有效地利用這些信息,視頻分析與檢索技術(shù)也就成為近年來計(jì)算機(jī)研究和應(yīng)用的熱點(diǎn)問題。
在眾多的視頻類型中,廣告視頻作為一種重要形式,伴隨著我們的日常生活,具有非常重要的使用價(jià)值和商業(yè)價(jià)值。其中,如何從視頻中自動(dòng)檢測出廣告,則是廣告視頻研究和應(yīng)用的關(guān)鍵問題。現(xiàn)有的廣告視頻檢測方法,一般是從廣告具有的圖像特征出發(fā)來進(jìn)行識(shí)別,這種方法因?yàn)閮H僅利用了圖像特征,因此存在檢測錯(cuò)誤或檢測不全的問題。如1999年在ICMCS國際會(huì)議上發(fā)表的文獻(xiàn)“AudiComa Video Analysis System for Auditing CommercialBroadcasts”(作者是J.M.Sanchez和X.Binefa),利用圖像特征檢測知道的或者注冊過的廣告,而音頻特征沒有被使用。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提出了同時(shí)利用廣告視頻具有的圖像和音頻特征,綜合進(jìn)行檢測。本發(fā)明首先檢測視頻中的鏡頭,然后以鏡頭為單位,通過鏡頭中音頻幀類型和數(shù)目的分析,識(shí)別廣告鏡頭和非廣告鏡頭,并通過平滑處理,最終檢測出廣告視頻。試驗(yàn)結(jié)果證明了本發(fā)明的有效性,從而實(shí)現(xiàn)了從視頻中自動(dòng)檢測廣告的應(yīng)用。
本發(fā)明的目的是這樣實(shí)現(xiàn)的(1)檢測視頻中的鏡頭;(2)以每個(gè)鏡頭為單位進(jìn)行分析,如滿足以下任何一個(gè)條件,則判斷該鏡頭為廣告鏡頭(A)鏡頭中包含的音頻幀數(shù)目小于n,并且該鏡頭中包含的音樂幀比例大于m,其中n是350-450之間的正整數(shù),m是15%-25%之間的百分比;或者,(B)鏡頭中音樂幀所占比例大于其它任何一個(gè)音頻種類所占的比例;(3)按照以下原則進(jìn)行平滑處理操作(a)如果連續(xù)的廣告鏡頭中有k個(gè)孤立的非廣告鏡頭,則將這k個(gè)鏡頭修改為廣告鏡頭;(b)如果連續(xù)的非廣告鏡頭中有k個(gè)孤立的廣告鏡頭,則將這k個(gè)鏡頭修改為非廣告鏡頭,其中k為2-5之間的正整數(shù);(4)集合上述檢測出的廣告鏡頭,得到廣告視頻。
進(jìn)一步,n為400,m為20%。
進(jìn)一步,運(yùn)用聲音分類器判斷音頻幀是否是音樂幀,采用基于支持向量機(jī)的分類模型進(jìn)行音頻分類。
所述分類模型分為兩部分分類器模型訓(xùn)練和分類預(yù)測。
進(jìn)一步,音頻特征采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
進(jìn)一步,分類器模型訓(xùn)練的過程是1)選擇訓(xùn)練樣本;2)提取每一個(gè)樣本的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征,并將所有這些特征寫入一個(gè)特征文件中;3)利用支持向量機(jī)生成分類器模型,分類以幀為單位,給每個(gè)音頻幀賦值一個(gè)相應(yīng)的類別,訓(xùn)練樣本的類別標(biāo)注也是以幀為單位,利用標(biāo)注好的類別進(jìn)行支持向量機(jī)模型訓(xùn)練,最終訓(xùn)練生成一個(gè)4類的分類器模型。
進(jìn)一步,所述訓(xùn)練樣本包含下列4類(1)音樂聲;(2)說話聲;(3)背景聲;(4)無聲。
進(jìn)一步,所述分類預(yù)測具體做法為對于要進(jìn)行分類的視頻,先提取該視頻對應(yīng)音頻的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征,并利用支持向量機(jī)訓(xùn)練出來的分類器模型進(jìn)行自動(dòng)分類標(biāo)注。
進(jìn)一步,k的值為3。
本發(fā)明的效果在于本發(fā)明能夠有效實(shí)現(xiàn)從視頻中檢測出廣告視頻。
本發(fā)明之所以具有如此顯著的技術(shù)效果,其原因在于現(xiàn)有的廣告視頻檢測方法,一般是從廣告具有的圖像特征出發(fā),來進(jìn)行識(shí)別。這種方法因?yàn)閮H僅利用了圖像特征,因此存在檢測錯(cuò)誤或檢測不全的問題。針對現(xiàn)有技術(shù)的不足,本發(fā)明提出了同時(shí)利用廣告視頻具有的圖像和音頻特征,綜合進(jìn)行檢測。本發(fā)明首先檢測視頻中的鏡頭邊界,然后以鏡頭為單位,通過鏡頭中音頻幀類型和數(shù)目的分析,識(shí)別廣告鏡頭和非廣告鏡頭,并通過平滑處理,最終檢測出廣告視頻。試驗(yàn)結(jié)果證明了本發(fā)明的有效性,從而實(shí)現(xiàn)了從視頻中有效檢測廣告視頻的應(yīng)用。
圖1是本發(fā)明的流程示意圖。
具體實(shí)施例方式
下面結(jié)合具體實(shí)施例,對本發(fā)明作進(jìn)一步詳細(xì)的描述。
本發(fā)明廣告視頻檢測的方法的流程圖,如圖1所示,包括以下步驟(1)檢測視頻中的鏡頭;首先使用時(shí)空切片算法(spatio-temporal slice),檢測視頻中的鏡頭,關(guān)于時(shí)空切片算法的詳細(xì)描述可以參考文獻(xiàn)“Video Partitioning byTemporal Slice Coherency”[C.W.Ngo,T.C.Pong,and R.T.Chin,IEEE Transactions on Circuits and Systems for Video Technology,Vol.11,No.8,pp.941-953,August,2001]。
(2)以每個(gè)鏡頭為單位進(jìn)行分析,如滿足以下任何一個(gè)條件,則判斷該鏡頭為廣告鏡頭;(A)鏡頭中包含的音頻幀數(shù)目小于n,并且該鏡頭中包含的音樂幀比例大于m,其中n是350-450之間的正整數(shù),m是15%-25%之間的百分比;或者(B)鏡頭中音樂幀所占比例大于其它任何一個(gè)音頻種類所占的比例。
在本實(shí)施例中,n=400,m=20%。運(yùn)用聲音分類器判斷音頻幀是否是音樂幀,音頻分類采用了基于支持向量機(jī)的分類模型,分為兩部分分類器模型訓(xùn)練和分類預(yù)測。音頻特征采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。分類器模型訓(xùn)練的過程是首先選擇訓(xùn)練樣本,然后提取每一個(gè)樣本的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征,并將所有這些特征寫入一個(gè)特征文件中,然后利用支持向量機(jī)生成分類器模型,訓(xùn)練樣本包含下列4類(1)音樂聲;(2)說話聲;(3)背景聲;(4)無聲。分類以幀為單位,給每個(gè)音頻幀賦值一個(gè)相應(yīng)的類別,訓(xùn)練樣本的類別標(biāo)注也是以幀為單位,利用標(biāo)注好的類別進(jìn)行模型訓(xùn)練,最終訓(xùn)練生成一個(gè)4類的分類器模型。分類預(yù)測時(shí),對于要進(jìn)行分類的視頻,提取該視頻對應(yīng)音頻的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征,然后利用支持向量機(jī)訓(xùn)練出來的分類器模型進(jìn)行自動(dòng)分類標(biāo)注。
(3)按照以下原則進(jìn)行平滑處理操作(a)如果連續(xù)的廣告鏡頭中有k個(gè)孤立的非廣告鏡頭,則將這k個(gè)鏡頭修改為廣告鏡頭;(b)如果連續(xù)的非廣告鏡頭中有k個(gè)孤立的廣告鏡頭,則將這k個(gè)鏡頭修改為非廣告鏡頭。在本實(shí)施例中,k=3。
(4)集合上述檢測出的廣告鏡頭,從而得到廣告視頻。
下面的實(shí)驗(yàn)結(jié)果表明,本發(fā)明能夠?qū)崿F(xiàn)從視頻中檢測出廣告視頻,證明了本發(fā)明的有效性。
試驗(yàn)使用了一個(gè)1小時(shí)的視頻,人工觀看共有9個(gè)廣告。應(yīng)用本發(fā)明的方法,如上述實(shí)施方式所示,即首先自動(dòng)檢測該視頻的鏡頭;然后以每個(gè)鏡頭為單位進(jìn)行分析,判斷該鏡頭是否為廣告鏡頭;基于上述結(jié)果,進(jìn)行平滑處理;最后,集合所有檢測出的廣告鏡頭,從而得到廣告視頻。該檢測到的廣告視頻,和原視頻中的9個(gè)廣告對比,結(jié)果是本發(fā)明檢測出了所有這9個(gè)廣告,因此取得了100%的正確率。
另外,因?yàn)楸景l(fā)明是以鏡頭為單位檢測廣告視頻,因此,在試驗(yàn)結(jié)果中,需要進(jìn)一步評價(jià)廣告視頻的邊界是否檢測準(zhǔn)確,因此,本發(fā)明使用了下列2個(gè)標(biāo)準(zhǔn)進(jìn)行評價(jià)查準(zhǔn)率=本發(fā)明檢測的正確廣告鏡頭/本發(fā)明檢測的所有廣告鏡頭;查全率=本發(fā)明檢測的正確廣告鏡頭/視頻中包括的所有廣告鏡頭。
試驗(yàn)結(jié)果采用下列方法進(jìn)行評價(jià)用本發(fā)明自動(dòng)檢測到的廣告鏡頭,和人工觀看的廣告視頻鏡頭進(jìn)行對照,最后結(jié)果如下應(yīng)用本發(fā)明的方法,查全率=100%,查準(zhǔn)率=86%。這樣,本發(fā)明檢測出了視頻中所有的廣告鏡頭,并且達(dá)到了86%的準(zhǔn)確率,取得了很好的效果。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
注本發(fā)明的工作,由國家自然科學(xué)基金支持(項(xiàng)目批準(zhǔn)號(hào)60503062)。
權(quán)利要求
1.一種廣告視頻檢測的方法,包括以下步驟(1)檢測視頻中的鏡頭;(2)以每個(gè)鏡頭為單位進(jìn)行分析,如滿足以下任何一個(gè)條件,則判斷該鏡頭為廣告鏡頭(A)鏡頭中包含的音頻幀數(shù)目小于n,并且該鏡頭中包含的音樂幀比例大于m,其中n是350-450之間的正整數(shù),m是15%-25%之間的百分比;或者,(B)鏡頭中音樂幀所占比例大于其它任何一個(gè)音頻種類所占的比例;(3)按照以下原則進(jìn)行平滑處理操作(a)如果連續(xù)的廣告鏡頭中有小于k個(gè)孤立的非廣告鏡頭,則將這k個(gè)鏡頭修改為廣告鏡頭;(b)如果連續(xù)的非廣告鏡頭中有小于k個(gè)孤立的廣告鏡頭,則將這k個(gè)鏡頭修改為非廣告鏡頭,其中k為2-5之間的正整數(shù);(4)集合上述檢測出的廣告鏡頭,得到廣告視頻。
2.如權(quán)利要求1所述的一種廣告視頻檢測的方法,其特征在于步驟(2)中,n為400,m為20%。
3.如權(quán)利要求1所述的一種廣告視頻檢測的方法,其特征在于步驟(2)中,運(yùn)用聲音分類器判斷音頻幀是否是音樂幀,采用基于支持向量機(jī)的分類模型進(jìn)行音頻分類。
4.如權(quán)利要求3所述的一種廣告視頻檢測的方法,其特征在于所述分類模型分為兩部分分類器模型訓(xùn)練和分類預(yù)測。
5.如權(quán)利要求1、2、3或4所述的一種廣告視頻檢測的方法,其特征在于音頻特征采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
6.如權(quán)利要求4所述的一種廣告視頻檢測的方法,其特征在于分類器模型訓(xùn)練的過程是1)選擇訓(xùn)練樣本;2)提取每一個(gè)樣本的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征,并將所有這些特征寫入一個(gè)特征文件中;3)利用支持向量機(jī)生成分類器模型,分類以幀為單位,給每個(gè)音頻幀賦值一個(gè)相應(yīng)的類別,訓(xùn)練樣本的類別標(biāo)注也是以幀為單位,利用標(biāo)注好的類別進(jìn)行支持向量機(jī)模型訓(xùn)練,最終訓(xùn)練生成一個(gè)4類的分類器模型。
7.如權(quán)利要求6所述的一種廣告視頻檢測的方法,其特征在于所述訓(xùn)練樣本包含下列4類(1)音樂聲;(2)說話聲;(3)背景聲;(4)無聲。
8.如權(quán)利要求4、6或7所述的一種廣告視頻檢測的方法,其特征在于分類預(yù)測具體做法為對于要進(jìn)行分類的視頻,先提取該視頻對應(yīng)音頻的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征,并利用支持向量機(jī)訓(xùn)練出來的分類器模型進(jìn)行自動(dòng)分類標(biāo)注。
9.如權(quán)利要求1所述的一種廣告視頻檢測的方法,其特征在于步驟(3)中,k的值為3。
全文摘要
本發(fā)明屬于視頻分析及檢索技術(shù)領(lǐng)域,具體涉及一種廣告視頻檢測的方法?,F(xiàn)有的廣告視頻檢測方法,一般是從廣告具有的圖像特征出發(fā)來進(jìn)行識(shí)別。這種方法因?yàn)閮H僅利用了圖像特征,因此存在檢測錯(cuò)誤或檢測不全的問題。針對現(xiàn)有技術(shù)的不足,本發(fā)明提出了同時(shí)利用廣告視頻具有的圖像和音頻特征綜合進(jìn)行檢測。本發(fā)明首先檢測視頻中的鏡頭邊界,然后以鏡頭為單位,通過鏡頭中音頻幀類型和數(shù)目的分析,識(shí)別廣告鏡頭和非廣告鏡頭,并通過平滑處理,最終檢測出廣告視頻。試驗(yàn)結(jié)果證明了本發(fā)明的有效性,從而實(shí)現(xiàn)了從視頻中自動(dòng)檢測廣告的應(yīng)用。
文檔編號(hào)H04N17/02GK101080028SQ20061008066
公開日2007年11月28日 申請日期2006年5月25日 優(yōu)先權(quán)日2006年5月25日
發(fā)明者彭宇新, 肖建國 申請人:北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正技術(shù)研究院有限公司