專利名稱:體育視頻中數(shù)字時鐘的識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息識別技術(shù)領(lǐng)域,涉及一種在視頻中定位及識別數(shù)字時鐘的方法,尤其 涉及一種不采用OCR文字識別,直接通過對體育視頻中時鐘數(shù)字進(jìn)行分析、建模和識別的 方法的設(shè)計。
背景技術(shù):
在體育視頻的分析領(lǐng)域中,精確的事件檢測和場景分割是非常具有挑戰(zhàn)性的研究課 題。體育視頻分析和其他視頻處理類似,有著底層特征與高級語義之間存在的語義間隔, 同時體育比賽有著特定的結(jié)構(gòu)與規(guī)則,在體育比賽廣播中所采用的后期編輯方法,也有助
于對視頻的分析與理解。
體育比賽視頻疊加層上的比賽時間信息,配合其他網(wǎng)絡(luò)文字信息,可以實現(xiàn)精彩事件 的定位等應(yīng)用。因此高效而精確的提取體育視頻中的比賽時間信息,對于體育視頻整體分 析和檢索的正確性,具有至關(guān)重要的作用。
體育節(jié)目有很強(qiáng)的時間性,如果不能實時處理并得到分析結(jié)果,就有可能失去應(yīng)用價
值。目前己有的方法往往不能在識別的效率和精確性兩個方面,達(dá)到實際應(yīng)用的要求
1. OCR文字識別
直接獲取屏幕上的文字圖像,利用已有的OCR技術(shù)來進(jìn)行識別比賽時間,是一種很成 熟的方法。
不過,這種算法不能自動對于類似記分牌上的比賽數(shù)字時鐘進(jìn)行定位。即使能夠非常 精確的找到并提取出視頻中的文字信息,OCR識別的正確率,很大程度上依賴于提取圖像 的質(zhì)量,而具體應(yīng)用中,非常細(xì)小的疊加層文字,加上有些疊加層的半透明背景帶來的干 擾,更會使OCR識別的性能和效率大大降低。還有,需要對文字進(jìn)行事先訓(xùn)練也是OCR算
法的一大弊病。
2. TNPS算法
Yiqun LI的TNPS算法是一種專門讀取體育視頻時鐘信息的算法,這種算法利用比賽 時鐘數(shù)字在視頻時域上的周期性,有效地把一個模式識別問題,轉(zhuǎn)化為一個模式變化的檢 測問題,能夠準(zhǔn)確而高效的識別體育比賽的數(shù)字時鐘。
4然而,Yiqun LI的方法強(qiáng)烈的依賴于以下兩個條件
A. 體育比賽視頻中的計分牌不能是透明或半透明的;
B. 體育比賽視頻中的計分牌必須在比賽開始后的1分鐘之內(nèi)就出現(xiàn)在屏幕上,并且 從此以后再也不能消失。
這是兩個非常強(qiáng)的假設(shè),事實上,目前大部分電視臺制作的體育比賽都采用半透明的 計分牌,并且計分牌在正常比賽中時而出現(xiàn),時而消失。因此,單純的TNPS算法在實際 應(yīng)用中有著較大的限制。
一個實用的體育視頻分析系統(tǒng)應(yīng)該滿足有效和高效兩個能力。實時性要求我們采用更 有效的特征和更高效的算法。
發(fā)明內(nèi)容
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出了一種體育視頻中數(shù)字時鐘的識別 方法,具有實現(xiàn)簡單、應(yīng)用范圍廣的特點,并能滿足識別的效率和精確性兩個方面的要求。
本發(fā)明的原理是通過對視頻中的連續(xù)關(guān)鍵幀畫面進(jìn)行統(tǒng)計,算出可能是記分牌疊加層 的候選;根據(jù)視頻中連續(xù)相鄰幀在時鐘數(shù)字區(qū)域的相似性和周期性,在記分牌候選上定位 組成時鐘的四個數(shù)字;再根據(jù)時鐘數(shù)字之間的模式變化關(guān)系,對0-9十個數(shù)字逐個建模; 利用這些數(shù)字模板和屏幕上時鐘數(shù)字的位置,對4個時鐘數(shù)字逐個識別;最后,連續(xù)識別 時間軸上多幀圖像的時鐘,對他們的結(jié)果進(jìn)行孤立點刪除校驗,以提高識別的正確率。
本發(fā)明的特點和優(yōu)勢
本發(fā)明針對體育視頻,提出了通用性較強(qiáng)的記分牌定位方法法,以及數(shù)字時鐘定位、 建模和識別方法。主要的優(yōu)勢如下-
(1) 這是一個不需要事先進(jìn)行機(jī)器學(xué)習(xí)的輕量級算法,可以在比賽直播的過程中實時運行。
(2) 對于不同顏色字體字號的數(shù)字時鐘以及不同情況的背景環(huán)境都非常魯棒,尤其對 于下面幾種疊加層識別的難點上,體現(xiàn)出明顯的優(yōu)勢
i. 體育比賽視頻的記分牌疊加層時隱時現(xiàn);
ii. 體育比賽視頻的記分牌疊加層背景透明;
iii. 體育比賽視頻本身由于壓縮導(dǎo)致一些關(guān)鍵幀畫面模糊。
本發(fā)明針對足球視頻進(jìn)行了實驗,在經(jīng)過孤立點去除校驗之后,本發(fā)明的方法對足球 視頻可以達(dá)到100%的正確率。
圖1為本發(fā)明的方法總體流程框圖。
圖2為本發(fā)明的方法的識別結(jié)果校驗點散圖。
具體實施例方式
本發(fā)明提出的一種體育視頻中數(shù)字時鐘的識別方法,如圖1所示,該方法包括對計分 牌定位,對計分牌上的時鐘數(shù)字進(jìn)行建模,根據(jù)建立的時鐘數(shù)字模板對體育比賽時間進(jìn)行
識別,包括以下步驟
(1) 在視頻時間軸上定義一個長度為10秒以上的滑動時間窗口,該時間窗口的滑動 步長為1秒;
(2) 用所述的時間窗,按照1幀/秒的采樣率從待識別的體育視頻的開始端進(jìn)行掃描, 在該時間窗的滑動過程中,對每一個時間窗口內(nèi)的視頻進(jìn)行統(tǒng)計分析、査找候選 計分牌;如果找到候選記分牌,進(jìn)入步驟(3)對候選記分牌進(jìn)行分析;如果無 法找到候選記分牌,則將時間窗延時間軸移動1秒,繼續(xù)掃描視頻,直到找到候 選記分牌;
(3) 逐幀對候選記分牌圖像進(jìn)行預(yù)處理,然后在候選記分牌圖像上尋找"秒"時鐘數(shù) 字,彌果找到"秒"時鐘數(shù)字,則將當(dāng)前的候選記分牌標(biāo)定為最終的記分牌,并 記錄該記分牌上"秒"時鐘數(shù)字的位置,進(jìn)入步驟(4),反之,回到步驟(2), 査找下一個候選記分牌;
(4) 根據(jù)數(shù)字時鐘中"十秒"數(shù)字、"分"數(shù)字和"十分"數(shù)字與"秒"的位置關(guān)系, 從所述"秒"數(shù)字的位置向左,標(biāo)定3個和"秒"數(shù)字區(qū)域大小基本一致,且位 置連續(xù)并排的區(qū)域,將該三個區(qū)域分別記錄為"十秒"數(shù)字、"分"數(shù)字和"十 分"數(shù)字的位置,將已確定的4個時鐘數(shù)字的位置進(jìn)行保存(以便后面的比賽時 鐘識別);
(5) 根據(jù)"十秒"數(shù)字與"秒"數(shù)字的變化對應(yīng)關(guān)系,提取"秒"數(shù)字的0-9十個數(shù) 字模板并保存;
(6) 對視頻連續(xù)多個帶有記分牌標(biāo)記的圖像幀,利用四個時鐘數(shù)字的位置和0-9十個 數(shù)字模板,通過逐個匹配的方式進(jìn)行識別,得到比賽時間序列;
(7) 對步驟(6)得到的比賽時間序列,使用孤立點刪除的方法進(jìn)行校驗,去掉錯誤 的識別結(jié)果,得到最終的比賽時間序列。
6上述步驟(2)中對每一個時間窗口內(nèi)的視頻進(jìn)行統(tǒng)計分析、査找候選計分牌,具體
包括以下步驟
(21) 按照1幀/秒的采樣率,在時間窗口內(nèi)對待識別的體育視頻進(jìn)行重采樣(如果在 高性能計算機(jī)上,為了檢測的準(zhǔn)確性,也可以適當(dāng)提高采樣率),得到關(guān)鍵幀 圖像序列;
(22) 根據(jù)體育比賽視視頻中記分牌位置的常識,對得到的圖像序列中每個圖像的記 分牌區(qū)域(例如足球視頻的記分牌都出現(xiàn)在左上角或右上角,其他體育比賽 可能又有所不同,可以作相應(yīng)調(diào)整)按照公式[l],逐像素計算得到強(qiáng)度方差T
a2(x,y) = ^"、(x,y)-取y))2 [1]
上式中I(x,y)表示圖像上的坐標(biāo)(x,y)處像素的強(qiáng)度,I(x,y)表示圖像上的坐標(biāo)(x,y)
處像素的強(qiáng)度在T時間內(nèi)的平均值,T表示圖像序列的時間跨度,W(x,y)表示圖 像上的坐標(biāo)(x,y)處像素的方差;
(23) 對得到的強(qiáng)度方差圖采用動態(tài)閾值的方法進(jìn)行二值化過濾,得到該方差圖對應(yīng) 的二值圖像;該動態(tài)閾值為方差圖中每個像素周圍某個區(qū)域內(nèi)所有像素的平均 值。如公式[2]所示
上式中—(x,y)表示圖像上的坐標(biāo)(x,y)處像素的方差,W和H像素鄰域的寬度 和高度,T表示計算出的動態(tài)閾值;
(24) 對該二值圖像進(jìn)行形態(tài)學(xué)處理后做連通域分析(CCA),找到所有的連通域;
(25) 利用體育比賽的有關(guān)常規(guī)知識對得到的連通域進(jìn)行過濾(即面積太小,如幾個 或幾十像素的連通域根本不可能容納任何看得清的信息,因此不可能是計分 牌;而長寬比過于懸殊的連通域,位置不在屏幕角落的連通域,也被剔出掉), 將得到的連通域進(jìn)行標(biāo)記,并記錄該連通域的位置和在時間軸上的跨度,作為 候選計分牌。
上述步驟(3)中逐幀對候選記分牌圖像進(jìn)行預(yù)處理,然后在候選記分牌上尋找"秒"
時鐘數(shù)字,具體包括以下步驟
7(31) 1使用動態(tài)閾值T,對記分牌圖像進(jìn)行二值化處理,得到二值化圖像;
(32) 對得到的二值圖像進(jìn)行連通域分析(CCA),得到一系列有可能是"秒"時鐘 數(shù)字的區(qū)域(ROI區(qū)域);
(33) 如果同樣大小、同樣位置的ROI區(qū)域,出現(xiàn)在連續(xù)多幀中(一般不少于150幀), 則把該ROI區(qū)域標(biāo)記為一個候選時鐘數(shù)字(在該步驟中,為了可以兼容一些由于壓縮 產(chǎn)生的圖像模糊和跳幀現(xiàn)象,l到2個像素的偏移,或1到2幀的空缺,也可以認(rèn)為 連續(xù)多幀);
(34) 利用體育比賽記分牌的常識,對該候選時鐘數(shù)字作進(jìn)一步的過濾(面積太大或 太小的區(qū)域要過濾掉;長寬比太大或太小的區(qū)域也不可能是數(shù)字,要過濾掉;如果一
個侯選區(qū)域,和它具有相同位置縱坐標(biāo),也具有連續(xù)橫坐標(biāo)間隔的其他候選連通域少
于3個,那么它本身也不可能是時鐘數(shù)字,也要過濾掉);
(35)用公式[3]計算過濾后得到的每一個候選時鐘數(shù)字的時域相鄰幀圖案模式相似性
(TNPS)序列值
s(n) = 2fey)eI Bn—i(x,y) Bn(X,y) [3]
式中Bn(x,y)是視頻第n個采樣幀經(jīng)過處理得到的二值圖像中,坐標(biāo)位置在(x,y)處的值,
I代表要考察的有可能是時鐘數(shù)字的ROI區(qū)域;@是異或符號(當(dāng)a和b的值相同的
時候,a b的值為0,當(dāng)a和b的值不同的時候,a b的值為l);
(36)當(dāng)所有候選時鐘數(shù)字中的某個候選時鐘數(shù)字的TNPS值每隔1秒或間斷的每隔 1秒周期性地出現(xiàn)極大值,則將該候選時鐘數(shù)字標(biāo)記為"秒"數(shù)字(對于不同類型比 賽,TNPS周期性條件會有所不同對于比賽時間永遠(yuǎn)不停的體育比賽,例如足球比 賽,TNPS值連續(xù)每隔1秒周期性出現(xiàn)極大值;對于其它比賽,例如籃球,比賽時鐘 有時會停止,TNPS值有間斷的每隔1秒周期性出現(xiàn)極大值)。 上述步驟(5)提取"秒"數(shù)字的0-9十個數(shù)字作為模板包括如下步驟
(51) 在記分牌存在時域內(nèi),計算"十秒"時鐘數(shù)字區(qū)域連續(xù)250幀的TNPS值,把 TNPS取得最大值的那一幀,確定為"十秒"數(shù)字變化幀;
(52) 以該"十秒"數(shù)字變化幀在視頻中的位置為起點,提取其后連續(xù)250幀"秒" 數(shù)字位置的二值圖案,作為0-9是個數(shù)字的模板,其中第1-25幀為數(shù)字1的模 板,第26-50幀為數(shù)字2的模板,以此類推,得到的0-9每個數(shù)字的25個模板;(53)采用疊加求平均值的方法,把每個數(shù)字的25個模板合并為1個,得到"秒"
數(shù)字的0-9十個數(shù)字模板。 上述步驟(6)具體包括如下步驟
(61) 對"秒"時鐘數(shù)字位置的圖像用動態(tài)閾值的方法進(jìn)行二值化;
(62) 用十個數(shù)字模板的二值圖像,逐個和"秒"時鐘數(shù)字二值圖像進(jìn)行匹配,得到 的IO個匹配值S(O)、 S(l) 、 S(2) 、 S(3) S(9),匹配算法采用公式[4]:
S(i) = Max(i;一Ti(x,y) @ D(x,y)) [4]
式中,Ti(x,y)數(shù)字i模板二值圖像在坐標(biāo)(x,y)位置的值,D(x,y)帶識別區(qū)域二值
圖像在坐標(biāo)(x,y)位置的值,^是異或符號;
(63) 從上述10個匹配值中,找到一個最小的S(t),其對應(yīng)的數(shù)字t就是當(dāng)前幀"秒" 時鐘數(shù)字的取值;
(64) 對"十秒""分"和"十分"位置的圖像,進(jìn)行(61) - (63)的匹配操作,得 到當(dāng)前幀的完整比賽時間。
上述步驟(7)使用孤立點刪除的方法進(jìn)行校驗,包括如下步驟
(71) 將步驟(6)得到的連續(xù)幀識別結(jié)果序列,分別用公式[5]轉(zhuǎn)化為秒
T = (m X 10 + n) X 60 + s X 10 +1 [5]
式中,m、 n、 s和t分別代表"十分""分""十秒"和"秒"數(shù)字的值,T是 計算出的轉(zhuǎn)化為秒的結(jié)果;
(72) 畫一個比賽時間識別結(jié)果T相對視頻幀序號的散點圖,如圖2;
(73) 從圖2中可以看出大部分識別結(jié)果呈一條緩慢上升的臺階線,每25幀上一個 步長為1秒的臺階(例如1-25幀的識別結(jié)果是801,26-50幀的識別結(jié)果是802)。 將脫離了這條臺階線的孤立點作為誤差(由于關(guān)鍵幀圖像模糊造成的)去除掉。
9
權(quán)利要求
1、一種體育視頻中數(shù)字時鐘的識別方法,其特征在于,該方法包括對計分牌定位,對計分牌上的時鐘數(shù)字進(jìn)行建模,根據(jù)建立的時鐘數(shù)字模板對體育比賽時間進(jìn)行識別,具體包括以下步驟(1)在視頻時間軸上定義一個長度為10秒以上的滑動時間窗口,該時間窗口的滑動步長為1秒;(2)用所述的時間窗,按照1幀/秒的采樣率從待識別的體育視頻的開始端進(jìn)行掃描,在該時間窗的滑動過程中,對每一個時間窗口內(nèi)的視頻進(jìn)行統(tǒng)計分析、查找候選計分牌;如果找到候選記分牌,進(jìn)入步驟(3)對候選記分牌進(jìn)行分析;如果無法找到候選記分牌,則將時間窗延時間軸移動1秒,繼續(xù)掃描視頻,直到找到候選記分牌;(3)逐幀對候選記分牌圖像進(jìn)行預(yù)處理,然后在候選記分牌圖像上尋找“秒”時鐘數(shù)字,如果找到“秒”時鐘數(shù)字,則將當(dāng)前的候選記分牌標(biāo)定為最終的記分牌,并記錄該記分牌上“秒”時鐘數(shù)字的位置,進(jìn)入步驟(4),反之,回到步驟(2),查找下一個候選記分牌;(4)根據(jù)數(shù)字時鐘中“十秒”數(shù)字、“分”數(shù)字和“十分”數(shù)字與“秒”的位置關(guān)系,從所述“秒”數(shù)字的位置向左,標(biāo)定3個和“秒”數(shù)字區(qū)域大小基本一致,且位置連續(xù)并排的區(qū)域,將該三個區(qū)域分別記錄為“十秒”數(shù)字、“分”數(shù)字和“十分”數(shù)字的位置,將已確定的4個時鐘數(shù)字的位置進(jìn)行保存;(5)根據(jù)“十秒”數(shù)字與“秒”數(shù)字的變化對應(yīng)關(guān)系,提取“秒”數(shù)字的0-9十個數(shù)字模板并保存;(6)對視頻連續(xù)多個帶有記分牌標(biāo)記的圖像幀,利用四個時鐘數(shù)字的位置和0-9十個數(shù)字模板,通過逐個匹配的方式進(jìn)行識別,得到比賽時間序列;(7)對步驟(6)得到的比賽時間序列,使用孤立點刪除的方法進(jìn)行校驗,去掉錯誤的識別結(jié)果,得到最終的比賽時間序列。
2、 如權(quán)利要求l所述方法,其特征在于,所述步驟(2)中對每一個時間窗口內(nèi)的視 頻進(jìn)行統(tǒng)計分析、查找候選計分牌,具體包括以下步驟(21)按照1幀/秒的采樣率,在時間窗口內(nèi)對待識別的體育視頻進(jìn)行重采樣,得到 關(guān)鍵幀圖像序列;根據(jù)體育比賽視視頻中記分牌位置的常識,對得到的圖像序列中每個圖像的記分 牌區(qū)域,逐像素計算得到強(qiáng)度方差圖;對得到的強(qiáng)度方差圖采用動態(tài)閾值的方法 進(jìn)行二值化過濾,得到該方差圖對應(yīng)的二值圖像;該動態(tài)閾值為方差圖中每個像 素周圍某個區(qū)域內(nèi)所有像素的平均值;(22) 對該二值圖像進(jìn)行形態(tài)學(xué)處理后做連通域分析,找到所有的連通域;(23) 利用體育比賽的有關(guān)常規(guī)知識對得到的連通域進(jìn)行過濾,將得到的連通域進(jìn)行標(biāo)記,并記錄該連通域的位置和在時間軸上的跨度,作為候選計分牌。
3、 如權(quán)利要求l所述方法,其特征在于,所述步驟(3)中逐幀對候選記分牌圖像進(jìn)行預(yù)處理,然后在候選記分牌上尋找"秒"時鐘數(shù)字,具體包括以下步驟(31) 采用動態(tài)閾值的方法,對記分牌圖像進(jìn)行二值化處理,得到二值化圖像;(32) 對得到的二值圖像進(jìn)行連通域分析,得到一系列有可能是"秒"時鐘數(shù)字的區(qū)域ROI;(33) 如果同樣大小、同樣位置的ROI區(qū)域,出現(xiàn)在連續(xù)多幀中(一般不少于150幀), 則把該ROI區(qū)域標(biāo)記為一個候選時鐘數(shù)字;(34) 利用體育比賽記分牌的常識,對該候選時鐘數(shù)字作進(jìn)一步的過濾;(35) 計算過濾后得到的每一個候選時鐘數(shù)字的時域相鄰幀圖案模式相似性TNPS序 列值;(36) 當(dāng)所有候選時鐘數(shù)字中的某個候選時鐘數(shù)字的TNPS值每隔1秒或間斷的每隔1 秒周期性地出現(xiàn)極大值,則將該候選時鐘數(shù)字標(biāo)記為"秒"數(shù)字。
4、 如權(quán)利要求l所述方法,其特征在于,所述步驟(5)提取"秒"數(shù)字的0-9十個 數(shù)字作為模板包括如下步驟(51) 在記分牌存在時域內(nèi),計算"十秒"時鐘數(shù)字區(qū)域連續(xù)250幀的時域相鄰幀圖 案模式相似性TNPS序列值,把TNPS值取得最大值的那一幀,確定為"十秒" 數(shù)字變化幀;(52) 以該"十秒"數(shù)字變化幀在視頻中的位置為起點,提取其后連續(xù)250幀"秒" 數(shù)字位置的二值圖案,作為0-9是個數(shù)字的模板,其中第1-25幀為數(shù)字1的 模板,第26-50幀為數(shù)字2的模板,以此類推,得到的0-9每個數(shù)字的25個 模板;(53) 采用疊加求平均值的方法,把每個數(shù)字的25個模板合并為1個,得到"秒" 數(shù)字的0-9十個數(shù)字模板。
5、 如權(quán)利要求l所述方法,其特征在于,所述步驟(6)具體包括如下步驟(61) 對"秒"時鐘數(shù)字位置的圖像用動態(tài)閾值的方法進(jìn)行二值化;(62) 用十個數(shù)字模板的二值圖像,逐個和"秒"時鐘數(shù)字二值圖像進(jìn)行匹配,得到 的IO個匹配值;(63) 從上述10個匹配值中,找到一個最小的值,其對應(yīng)的數(shù)字就是當(dāng)前幀"秒" 時鐘數(shù)字的取值;(64) 對"十秒""分"和"十分"位置的圖像,進(jìn)行(61) - (63)的匹配操作,得 到當(dāng)前幀的完整比賽時間。
全文摘要
本發(fā)明體育視頻中數(shù)字時鐘的識別方法,屬于信息識別技術(shù)領(lǐng)域,該方法包括對計分牌定位,對計分牌上的時鐘數(shù)字進(jìn)行建模,根據(jù)建立的時鐘數(shù)字模板對體育比賽時間進(jìn)行識別,具體包括用時間窗對待識別的體育視頻進(jìn)行掃描,查找候選計分牌;對候選記分牌圖像進(jìn)行預(yù)處理后,在候選記分牌圖像上尋找“秒”時鐘數(shù)字、“十秒”數(shù)字、“分”數(shù)字和“十分”數(shù)字四個位置,提取“秒”數(shù)字的0-9十個數(shù)字模板并保存;數(shù)字模板進(jìn)行識別,得到比賽時間序列;本發(fā)明具有實現(xiàn)簡單、應(yīng)用范圍廣的特點,并能滿足識別的效率和精確性兩個方面的要求。
文檔編號G06K9/00GK101464949SQ20091007710
公開日2009年6月24日 申請日期2009年1月16日 優(yōu)先權(quán)日2009年1月16日
發(fā)明者孫立峰, 楊士強(qiáng), 凡 部 申請人:清華大學(xué)