一種廣告視頻檢測的方法

文檔序號(hào)：7961161閱讀：339來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：一種廣告視頻檢測的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于視頻分析及檢索技術(shù)領(lǐng)域，具體涉及一種廣告視頻檢測的方法。
背景技術(shù)：
隨著人類視頻信息的常年累積，如電視臺(tái)視頻節(jié)目的積累、網(wǎng)上數(shù)字視頻的增加、家庭視頻的增多，以及數(shù)字圖書館、視頻點(diǎn)播、遠(yuǎn)程教學(xué)等大量的應(yīng)用，視頻信息已經(jīng)出現(xiàn)爆炸性增長。為了有效地利用這些信息，視頻分析與檢索技術(shù)也就成為近年來計(jì)算機(jī)研究和應(yīng)用的熱點(diǎn)問題。
在眾多的視頻類型中，廣告視頻作為一種重要形式，伴隨著我們的日常生活，具有非常重要的使用價(jià)值和商業(yè)價(jià)值。其中，如何從視頻中自動(dòng)檢測出廣告，則是廣告視頻研究和應(yīng)用的關(guān)鍵問題。現(xiàn)有的廣告視頻檢測方法，一般是從廣告具有的圖像特征出發(fā)來進(jìn)行識(shí)別，這種方法因?yàn)閮H僅利用了圖像特征，因此存在檢測錯(cuò)誤或檢測不全的問題。如1999年在ICMCS國際會(huì)議上發(fā)表的文獻(xiàn)“AudiComa Video Analysis System for Auditing CommercialBroadcasts”(作者是J.M.Sanchez和X.Binefa)，利用圖像特征檢測知道的或者注冊過的廣告，而音頻特征沒有被使用。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足，本發(fā)明提出了同時(shí)利用廣告視頻具有的圖像和音頻特征，綜合進(jìn)行檢測。本發(fā)明首先檢測視頻中的鏡頭，然后以鏡頭為單位，通過鏡頭中音頻幀類型和數(shù)目的分析，識(shí)別廣告鏡頭和非廣告鏡頭，并通過平滑處理，最終檢測出廣告視頻。試驗(yàn)結(jié)果證明了本發(fā)明的有效性，從而實(shí)現(xiàn)了從視頻中自動(dòng)檢測廣告的應(yīng)用。
本發(fā)明的目的是這樣實(shí)現(xiàn)的(1)檢測視頻中的鏡頭；(2)以每個(gè)鏡頭為單位進(jìn)行分析，如滿足以下任何一個(gè)條件，則判斷該鏡頭為廣告鏡頭(A)鏡頭中包含的音頻幀數(shù)目小于n，并且該鏡頭中包含的音樂幀比例大于m，其中n是350-450之間的正整數(shù)，m是15％-25％之間的百分比；或者，(B)鏡頭中音樂幀所占比例大于其它任何一個(gè)音頻種類所占的比例；(3)按照以下原則進(jìn)行平滑處理操作(a)如果連續(xù)的廣告鏡頭中有k個(gè)孤立的非廣告鏡頭，則將這k個(gè)鏡頭修改為廣告鏡頭；(b)如果連續(xù)的非廣告鏡頭中有k個(gè)孤立的廣告鏡頭，則將這k個(gè)鏡頭修改為非廣告鏡頭，其中k為2-5之間的正整數(shù)；(4)集合上述檢測出的廣告鏡頭，得到廣告視頻。
進(jìn)一步，n為400，m為20％。
進(jìn)一步，運(yùn)用聲音分類器判斷音頻幀是否是音樂幀，采用基于支持向量機(jī)的分類模型進(jìn)行音頻分類。
所述分類模型分為兩部分分類器模型訓(xùn)練和分類預(yù)測。
進(jìn)一步，音頻特征采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
進(jìn)一步，分類器模型訓(xùn)練的過程是1)選擇訓(xùn)練樣本；2)提取每一個(gè)樣本的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征，并將所有這些特征寫入一個(gè)特征文件中；3)利用支持向量機(jī)生成分類器模型，分類以幀為單位，給每個(gè)音頻幀賦值一個(gè)相應(yīng)的類別，訓(xùn)練樣本的類別標(biāo)注也是以幀為單位，利用標(biāo)注好的類別進(jìn)行支持向量機(jī)模型訓(xùn)練，最終訓(xùn)練生成一個(gè)4類的分類器模型。
進(jìn)一步，所述訓(xùn)練樣本包含下列4類(1)音樂聲；(2)說話聲；(3)背景聲；(4)無聲。
進(jìn)一步，所述分類預(yù)測具體做法為對于要進(jìn)行分類的視頻，先提取該視頻對應(yīng)音頻的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征，并利用支持向量機(jī)訓(xùn)練出來的分類器模型進(jìn)行自動(dòng)分類標(biāo)注。
進(jìn)一步，k的值為3。
本發(fā)明的效果在于本發(fā)明能夠有效實(shí)現(xiàn)從視頻中檢測出廣告視頻。
本發(fā)明之所以具有如此顯著的技術(shù)效果，其原因在于現(xiàn)有的廣告視頻檢測方法，一般是從廣告具有的圖像特征出發(fā)，來進(jìn)行識(shí)別。這種方法因?yàn)閮H僅利用了圖像特征，因此存在檢測錯(cuò)誤或檢測不全的問題。針對現(xiàn)有技術(shù)的不足，本發(fā)明提出了同時(shí)利用廣告視頻具有的圖像和音頻特征，綜合進(jìn)行檢測。本發(fā)明首先檢測視頻中的鏡頭邊界，然后以鏡頭為單位，通過鏡頭中音頻幀類型和數(shù)目的分析，識(shí)別廣告鏡頭和非廣告鏡頭，并通過平滑處理，最終檢測出廣告視頻。試驗(yàn)結(jié)果證明了本發(fā)明的有效性，從而實(shí)現(xiàn)了從視頻中有效檢測廣告視頻的應(yīng)用。

圖1是本發(fā)明的流程示意圖。
具體實(shí)施例方式
下面結(jié)合具體實(shí)施例，對本發(fā)明作進(jìn)一步詳細(xì)的描述。
本發(fā)明廣告視頻檢測的方法的流程圖，如圖1所示，包括以下步驟(1)檢測視頻中的鏡頭；首先使用時(shí)空切片算法(spatio-temporal slice)，檢測視頻中的鏡頭，關(guān)于時(shí)空切片算法的詳細(xì)描述可以參考文獻(xiàn)“Video Partitioning byTemporal Slice Coherency”[C.W.Ngo，T.C.Pong，and R.T.Chin，IEEE Transactions on Circuits and Systems for Video Technology，Vol.11，No.8，pp.941-953，August，2001]。
(2)以每個(gè)鏡頭為單位進(jìn)行分析，如滿足以下任何一個(gè)條件，則判斷該鏡頭為廣告鏡頭；(A)鏡頭中包含的音頻幀數(shù)目小于n，并且該鏡頭中包含的音樂幀比例大于m，其中n是350-450之間的正整數(shù)，m是15％-25％之間的百分比；或者(B)鏡頭中音樂幀所占比例大于其它任何一個(gè)音頻種類所占的比例。
在本實(shí)施例中，n＝400，m＝20％。運(yùn)用聲音分類器判斷音頻幀是否是音樂幀，音頻分類采用了基于支持向量機(jī)的分類模型，分為兩部分分類器模型訓(xùn)練和分類預(yù)測。音頻特征采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。分類器模型訓(xùn)練的過程是首先選擇訓(xùn)練樣本，然后提取每一個(gè)樣本的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征，并將所有這些特征寫入一個(gè)特征文件中，然后利用支持向量機(jī)生成分類器模型，訓(xùn)練樣本包含下列4類(1)音樂聲；(2)說話聲；(3)背景聲；(4)無聲。分類以幀為單位，給每個(gè)音頻幀賦值一個(gè)相應(yīng)的類別，訓(xùn)練樣本的類別標(biāo)注也是以幀為單位，利用標(biāo)注好的類別進(jìn)行模型訓(xùn)練，最終訓(xùn)練生成一個(gè)4類的分類器模型。分類預(yù)測時(shí)，對于要進(jìn)行分類的視頻，提取該視頻對應(yīng)音頻的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征，然后利用支持向量機(jī)訓(xùn)練出來的分類器模型進(jìn)行自動(dòng)分類標(biāo)注。
(3)按照以下原則進(jìn)行平滑處理操作(a)如果連續(xù)的廣告鏡頭中有k個(gè)孤立的非廣告鏡頭，則將這k個(gè)鏡頭修改為廣告鏡頭；(b)如果連續(xù)的非廣告鏡頭中有k個(gè)孤立的廣告鏡頭，則將這k個(gè)鏡頭修改為非廣告鏡頭。在本實(shí)施例中，k＝3。
(4)集合上述檢測出的廣告鏡頭，從而得到廣告視頻。
下面的實(shí)驗(yàn)結(jié)果表明，本發(fā)明能夠?qū)崿F(xiàn)從視頻中檢測出廣告視頻，證明了本發(fā)明的有效性。
試驗(yàn)使用了一個(gè)1小時(shí)的視頻，人工觀看共有9個(gè)廣告。應(yīng)用本發(fā)明的方法，如上述實(shí)施方式所示，即首先自動(dòng)檢測該視頻的鏡頭；然后以每個(gè)鏡頭為單位進(jìn)行分析，判斷該鏡頭是否為廣告鏡頭；基于上述結(jié)果，進(jìn)行平滑處理；最后，集合所有檢測出的廣告鏡頭，從而得到廣告視頻。該檢測到的廣告視頻，和原視頻中的9個(gè)廣告對比，結(jié)果是本發(fā)明檢測出了所有這9個(gè)廣告，因此取得了100％的正確率。
另外，因?yàn)楸景l(fā)明是以鏡頭為單位檢測廣告視頻，因此，在試驗(yàn)結(jié)果中，需要進(jìn)一步評價(jià)廣告視頻的邊界是否檢測準(zhǔn)確，因此，本發(fā)明使用了下列2個(gè)標(biāo)準(zhǔn)進(jìn)行評價(jià)查準(zhǔn)率＝本發(fā)明檢測的正確廣告鏡頭/本發(fā)明檢測的所有廣告鏡頭；查全率＝本發(fā)明檢測的正確廣告鏡頭/視頻中包括的所有廣告鏡頭。
試驗(yàn)結(jié)果采用下列方法進(jìn)行評價(jià)用本發(fā)明自動(dòng)檢測到的廣告鏡頭，和人工觀看的廣告視頻鏡頭進(jìn)行對照，最后結(jié)果如下應(yīng)用本發(fā)明的方法，查全率＝100％，查準(zhǔn)率＝86％。這樣，本發(fā)明檢測出了視頻中所有的廣告鏡頭，并且達(dá)到了86％的準(zhǔn)確率，取得了很好的效果。
顯然，本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
注本發(fā)明的工作，由國家自然科學(xué)基金支持(項(xiàng)目批準(zhǔn)號(hào)60503062)。
權(quán)利要求
1.一種廣告視頻檢測的方法，包括以下步驟(1)檢測視頻中的鏡頭；(2)以每個(gè)鏡頭為單位進(jìn)行分析，如滿足以下任何一個(gè)條件，則判斷該鏡頭為廣告鏡頭(A)鏡頭中包含的音頻幀數(shù)目小于n，并且該鏡頭中包含的音樂幀比例大于m，其中n是350-450之間的正整數(shù)，m是15％-25％之間的百分比；或者，(B)鏡頭中音樂幀所占比例大于其它任何一個(gè)音頻種類所占的比例；(3)按照以下原則進(jìn)行平滑處理操作(a)如果連續(xù)的廣告鏡頭中有小于k個(gè)孤立的非廣告鏡頭，則將這k個(gè)鏡頭修改為廣告鏡頭；(b)如果連續(xù)的非廣告鏡頭中有小于k個(gè)孤立的廣告鏡頭，則將這k個(gè)鏡頭修改為非廣告鏡頭，其中k為2-5之間的正整數(shù)；(4)集合上述檢測出的廣告鏡頭，得到廣告視頻。
2.如權(quán)利要求1所述的一種廣告視頻檢測的方法，其特征在于步驟(2)中，n為400，m為20％。
3.如權(quán)利要求1所述的一種廣告視頻檢測的方法，其特征在于步驟(2)中，運(yùn)用聲音分類器判斷音頻幀是否是音樂幀，采用基于支持向量機(jī)的分類模型進(jìn)行音頻分類。
4.如權(quán)利要求3所述的一種廣告視頻檢測的方法，其特征在于所述分類模型分為兩部分分類器模型訓(xùn)練和分類預(yù)測。
5.如權(quán)利要求1、2、3或4所述的一種廣告視頻檢測的方法，其特征在于音頻特征采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
6.如權(quán)利要求4所述的一種廣告視頻檢測的方法，其特征在于分類器模型訓(xùn)練的過程是1)選擇訓(xùn)練樣本；2)提取每一個(gè)樣本的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征，并將所有這些特征寫入一個(gè)特征文件中；3)利用支持向量機(jī)生成分類器模型，分類以幀為單位，給每個(gè)音頻幀賦值一個(gè)相應(yīng)的類別，訓(xùn)練樣本的類別標(biāo)注也是以幀為單位，利用標(biāo)注好的類別進(jìn)行支持向量機(jī)模型訓(xùn)練，最終訓(xùn)練生成一個(gè)4類的分類器模型。
7.如權(quán)利要求6所述的一種廣告視頻檢測的方法，其特征在于所述訓(xùn)練樣本包含下列4類(1)音樂聲；(2)說話聲；(3)背景聲；(4)無聲。
8.如權(quán)利要求4、6或7所述的一種廣告視頻檢測的方法，其特征在于分類預(yù)測具體做法為對于要進(jìn)行分類的視頻，先提取該視頻對應(yīng)音頻的對數(shù)能量和梅爾倒頻譜系數(shù)組成的音頻特征，并利用支持向量機(jī)訓(xùn)練出來的分類器模型進(jìn)行自動(dòng)分類標(biāo)注。
9.如權(quán)利要求1所述的一種廣告視頻檢測的方法，其特征在于步驟(3)中，k的值為3。
全文摘要
本發(fā)明屬于視頻分析及檢索技術(shù)領(lǐng)域，具體涉及一種廣告視頻檢測的方法?，F(xiàn)有的廣告視頻檢測方法，一般是從廣告具有的圖像特征出發(fā)來進(jìn)行識(shí)別。這種方法因?yàn)閮H僅利用了圖像特征，因此存在檢測錯(cuò)誤或檢測不全的問題。針對現(xiàn)有技術(shù)的不足，本發(fā)明提出了同時(shí)利用廣告視頻具有的圖像和音頻特征綜合進(jìn)行檢測。本發(fā)明首先檢測視頻中的鏡頭邊界，然后以鏡頭為單位，通過鏡頭中音頻幀類型和數(shù)目的分析，識(shí)別廣告鏡頭和非廣告鏡頭，并通過平滑處理，最終檢測出廣告視頻。試驗(yàn)結(jié)果證明了本發(fā)明的有效性，從而實(shí)現(xiàn)了從視頻中自動(dòng)檢測廣告的應(yīng)用。
文檔編號(hào)H04N17/02GK101080028SQ20061008066
公開日2007年11月28日申請日期2006年5月25日優(yōu)先權(quán)日2006年5月25日
發(fā)明者彭宇新, 肖建國申請人:北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正技術(shù)研究院有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：彭宇新;肖建國
技術(shù)所有人：北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正技術(shù)研究院有限公司
我是此專利的發(fā)明人

上一篇：移動(dòng)終端獲取應(yīng)用服務(wù)的方法
上一篇：視頻文件播放方法、裝置及嵌入式設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

戶外廣告監(jiān)測相關(guān)技術(shù)

廣告效果監(jiān)測相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種廣告視頻檢測的方法