一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法
【專利摘要】本發(fā)明公開一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,包括:利用潛在語義分析方法檢測互聯(lián)網(wǎng)賽況報(bào)道文本描述語句的事件類型;檢測足球視頻中級語義對象,劃分場地區(qū)域并進(jìn)行攻防轉(zhuǎn)換分析,確定視頻事件片段的邊界;根據(jù)中圈和哨聲檢測結(jié)果確定比賽開始時(shí)間,利用貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)攻防片段的初始語義分類;在文本描述中的粗粒度時(shí)間信息的約束下,根據(jù)文本和視頻片段的語義同步文本描述和視頻事件,實(shí)現(xiàn)足球視頻事件的語義標(biāo)注。本發(fā)明方法融合互聯(lián)網(wǎng)文本信息和視頻內(nèi)在視聽特征分析足球視頻,提高了視頻事件及其邊界檢測的準(zhǔn)確率,實(shí)現(xiàn)了足球視頻內(nèi)容的富語義標(biāo)注,為建立基于語義的視頻索引機(jī)制打下堅(jiān)實(shí)的基礎(chǔ)。
【專利說明】一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于基于內(nèi)容的視頻檢索領(lǐng)域,具體涉及一種多模態(tài)信息融合的足球視頻事件檢測和語義標(biāo)注方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù),存儲技術(shù)和網(wǎng)絡(luò)技術(shù)的高速發(fā)展以及各種數(shù)碼終端和移動設(shè)備的不斷更新,視頻數(shù)據(jù)量以爆炸式的速度不斷增長。同時(shí),由于獲取信息的時(shí)間、地點(diǎn)和方式逐漸不受限制,使得人們對于視頻檢索的需求大大增加。如何使人們快速從海量的視頻數(shù)據(jù)中找到自己感興趣的視頻片段已成為一種迫切的需求,能夠滿足這一需求的技術(shù)便是目前人們普遍關(guān)注的基于內(nèi)容的視頻檢索(CBVR,Content Based Video Retrieval)技術(shù)。視頻標(biāo)注是CBVR領(lǐng)域的關(guān)鍵技術(shù),也稱為視頻概念檢測或者高層語義分析,是指根據(jù)視頻所體現(xiàn)的內(nèi)容按概念對其賦予標(biāo)識和語義。視頻標(biāo)注是建立視頻索引,實(shí)現(xiàn)基于內(nèi)容的視頻檢索的基礎(chǔ)。從手工標(biāo)注、半自動標(biāo)注到自動標(biāo)注,視頻標(biāo)注已經(jīng)成為CBVR領(lǐng)域的研究難點(diǎn)和熱點(diǎn),視頻標(biāo)注的準(zhǔn)確性和語義豐富性是視頻檢索質(zhì)量的關(guān)鍵因素,也是基于內(nèi)容的視頻檢索系統(tǒng)成敗的關(guān)鍵。由于視頻數(shù)據(jù)本身的復(fù)雜性、不確定性和現(xiàn)有的條件所限,針對通用視頻的自動標(biāo)注很難實(shí)現(xiàn),目前人們還無法利用通用的特征或方法對不同類型內(nèi)容的視頻進(jìn)行分析。體育視頻分析是近幾年非常受關(guān)注的視頻類型,而足球運(yùn)動作為世界上最流行的體育運(yùn)動,有著非常廣泛的受眾群體和巨大的商業(yè)價(jià)值。以足球視頻為研究對象來研究如何從大量的足球視頻找到用戶感興趣的視頻內(nèi)容,并能對其進(jìn)行詳細(xì)的語義描述,滿足廣大用戶的需求,具有很高學(xué)術(shù)價(jià)值和應(yīng)用前景。
[0003]針對足球視頻事件檢測和標(biāo)注的研究吸引國內(nèi)外學(xué)術(shù)界和工業(yè)界的眾多研究人員和研究機(jī)構(gòu)重視,也涌現(xiàn)出許多好的研究成果。從基于單一模態(tài)的聽覺、視覺等特征的足球視頻分析,到基于多模態(tài)特征的足球視頻分析;從利用啟發(fā)式規(guī)則的事件檢測方法,到利用各種機(jī)器學(xué)習(xí)模型的事件檢測方法,研究人員提出了許多方法,在一定程度上推動了足球視頻檢索技術(shù)的發(fā)展。然而,受限于人工智能和機(jī)器視覺領(lǐng)域的發(fā)展,視頻分析領(lǐng)域存在眾所周知的“語義鴻溝”(Semantic Gap)問題,即視頻底層特征和高層語義之間存在著語義隔閡,如何有效地填補(bǔ)“語義鴻溝”從而提高語義級視頻檢索效率和服務(wù)質(zhì)量已經(jīng)成為CBVR的研究難點(diǎn)和最為關(guān)鍵的問題。例如,在足球比賽視頻中,目如通過首視頻分析,可以初步確定一些典型事件(射門、進(jìn)球、犯規(guī)、角球等)的位置,但無法確定是哪位球員通過何種方式射門或者進(jìn)球?,F(xiàn)有的研究表明,“語義鴻溝”的存在導(dǎo)致單純依靠視頻數(shù)據(jù)本身內(nèi)在的音視頻特征分析,很難準(zhǔn)確地檢測出視頻中的事件,并自動標(biāo)注視頻事件的語義,視頻標(biāo)注結(jié)果的粒度和準(zhǔn)確性無法滿足實(shí)際的需求,已經(jīng)成為阻礙視頻搜索引擎實(shí)用化的瓶頸。
[0004]為了實(shí)現(xiàn)視頻事件的檢測和語義標(biāo)注,研究人員尋求利用視頻外部資源來輔助視頻內(nèi)容的分析。目前所利用的視頻外部資源主要有轉(zhuǎn)錄字幕和網(wǎng)絡(luò)直播文本。轉(zhuǎn)錄字幕是通過語音識別技術(shù)轉(zhuǎn)錄生成的文字,如新聞解說和場景對話等。但轉(zhuǎn)錄字幕的輸出質(zhì)量依賴于視頻的質(zhì)量和語音識別技術(shù),并且轉(zhuǎn)錄字幕包含大量與視頻事件無關(guān)的描述,很難得到有效利用。網(wǎng)絡(luò)直播文本是在體育比賽進(jìn)行時(shí),專業(yè)的體育網(wǎng)站在其頁面上進(jìn)行的同步文字直播,具有較強(qiáng)的實(shí)時(shí)性?,F(xiàn)有的研究工作主要基于具有精確時(shí)間信息的網(wǎng)絡(luò)直播文本,通過對視頻內(nèi)時(shí)鐘的識別來建立文本描述和視頻內(nèi)容的對應(yīng)關(guān)系。然而,第一,大多數(shù)網(wǎng)絡(luò)直播文本的時(shí)間信息并不精確,一般是分鐘級的時(shí)間信息;第二,體育網(wǎng)站只對國際上的重要或著名賽事進(jìn)行網(wǎng)絡(luò)文字直播,還有許多賽事只進(jìn)行賽后的新聞報(bào)道,也就是說網(wǎng)絡(luò)直播文本的通用性不強(qiáng);第三,由于視頻時(shí)間條存在透明、位置變化、風(fēng)格變化、時(shí)隱時(shí)現(xiàn)、分辨率不高等不利因素,視頻時(shí)鐘的精確識別還面臨較大的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0005]為了解決上述技術(shù)問題,本發(fā)明提供一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其目的在于充分利用視頻內(nèi)在視聽特征,并結(jié)合視頻外部文本信息,解決足球視頻事件的檢測和富語義標(biāo)注問題,為實(shí)現(xiàn)基于內(nèi)容的足球視頻檢索打下堅(jiān)實(shí)的基礎(chǔ)。
[0006]實(shí)現(xiàn)本發(fā)明目的所采用的具體技術(shù)方案如下:
[0007]—種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,通過對互聯(lián)網(wǎng)文本和視頻內(nèi)在視聽特征等多模態(tài)信息的綜合利用,實(shí)現(xiàn)足球視頻事件的檢測和富語義標(biāo)注,包括以下步驟:
[0008](I)從互聯(lián)網(wǎng)上爬取足球比賽對應(yīng)的賽況報(bào)道文本,利用預(yù)先建立的LSA模型計(jì)算賽況報(bào)道文本中各語句的潛在語義空間查詢向量;并計(jì)算該查詢向量與各種文本事件類型的潛在語義空間向量的余弦相似度,將其歸類為具有最大相似度的事件類別;
[0009](2)檢測足球比賽對應(yīng)視頻中的多種中級語義對象,所述中級語義對象包括球門、球場標(biāo)志線、中圈以及哨聲;并劃分場地區(qū)域;
[0010](3)根據(jù)場地區(qū)域劃分結(jié)果進(jìn)行攻防轉(zhuǎn)換分析,確定視頻事件片段的邊界;
[0011](4)根據(jù)中圈和哨聲檢測結(jié)果確定比賽開始時(shí)間,利用貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)攻防視頻事件片段的初始語義分類;
[0012](5)在文本描述中的粗粒度時(shí)間信息的約束下,根據(jù)步驟(I)中得到的文本事件類型和步驟(4)中得到攻防視頻事件片段的初始語義分類同步文本描述和視頻事件片段,實(shí)現(xiàn)足球視頻事件的富語義標(biāo)注。
[0013]本發(fā)明對互聯(lián)網(wǎng)上賽況報(bào)道文本進(jìn)行分析,改進(jìn)足球視頻多種中級語義對象的提取方法,利用攻防轉(zhuǎn)換分析和事件時(shí)域轉(zhuǎn)換模式有效確定事件邊界,在文本描述中粗粒度時(shí)間信息的約束下同步文本事件描述和視頻事件片段,實(shí)現(xiàn)足球視頻內(nèi)容的富語義標(biāo)注。具體步驟如下:
[0014](I)互聯(lián)網(wǎng)文本的獲取和分析
[0015]利用網(wǎng)絡(luò)爬蟲和Web信息抽取技術(shù)獲取比賽對應(yīng)的賽況報(bào)道文本;對賽況報(bào)道文本進(jìn)行分詞、無關(guān)詞過濾和語句分割處理;利用預(yù)先建立的LSA模型計(jì)算語句的潛在語義空間查詢向量;并計(jì)算該查詢向量與各種文本事件類型的潛在語義空間向量的余弦相似度,將其歸類為具有最大相似度的事件類別;利用正則表達(dá)式提取語句的時(shí)間、相關(guān)球員、球員所屬隊(duì)伍、和事件語義描述,加上前述的事件類別共獲取五種文本元數(shù)據(jù)。
[0016](2)足球視頻中級語義對象檢測
[0017]利用馬爾科夫隨機(jī)場模型檢測足球視頻比賽場地;利用支持向量機(jī)檢測球門;采用基于直方圖的快速中圈檢測方法檢測中圈;從圖像處理的角度利用Hough變換檢測足球比賽音頻中的哨聲。
[0018](3)足球視頻事件及邊界檢測
[0019]在對足球視頻進(jìn)行鏡頭分割和分類后,根據(jù)比賽-暫停結(jié)構(gòu)分析理論把足球視頻劃分成連續(xù)的比賽-暫停(Play break,PB)結(jié)構(gòu)片段;根據(jù)場地區(qū)域劃分方法對PB結(jié)構(gòu)片段遠(yuǎn)鏡頭進(jìn)行攻防轉(zhuǎn)換分析;檢測PB結(jié)構(gòu)片段中的攻防轉(zhuǎn)換點(diǎn),結(jié)合視頻事件時(shí)域轉(zhuǎn)換模式將PB片段中最后一個(gè)攻防轉(zhuǎn)換點(diǎn)到最后一個(gè)特寫鏡頭或回放鏡頭的片段作為視頻事件的起止邊界。
[0020](4)足球視頻事件語義標(biāo)注
[0021]根據(jù)中圈和哨聲檢測結(jié)果確定視頻中比賽起始時(shí)間;提取攻防片段中的回放場景持續(xù)時(shí)間(RPD),精彩度(EXC),遠(yuǎn)鏡頭比率(FVR),球門比率(GMR),哨聲(WHS)和標(biāo)題條(CAP)共六個(gè)特征,利用貝葉斯網(wǎng)絡(luò)將攻防片段分類為進(jìn)球、射門和犯規(guī)三種類型;在文本事件描述中的粗粒度時(shí)間信息(分鐘級時(shí)間)的約束下,根據(jù)文本事件和視頻事件的類型同步文本描述和視頻事件片段,實(shí)現(xiàn)足球視頻事件的語義標(biāo)注。
[0022]本發(fā)明對足球比賽視頻內(nèi)容進(jìn)行分析,改進(jìn)了多個(gè)中級語義對象檢測方法的性能,提高了視頻事件檢測的準(zhǔn)確率和事件邊界準(zhǔn)確率,結(jié)合互聯(lián)網(wǎng)上賽況報(bào)道文本的分析,在不精確時(shí)間信息約束條件下,根據(jù)文本描述和視頻事件的語義類型同步文本和視頻事件,實(shí)現(xiàn)了足球視頻事件的富語義標(biāo)注,為基于內(nèi)容的視頻檢索打下良好的基礎(chǔ)。具體而言,本發(fā)明具有以下優(yōu)點(diǎn):
[0023](I)結(jié)合足球視頻的特點(diǎn),提出了一種快速準(zhǔn)確的足球視頻中圈檢測方法。
[0024](2)提出了一種基于Hough變換的哨聲檢測方法,提高了哨聲檢測的準(zhǔn)確率。有別于傳統(tǒng)的基于音頻特征分析的哨聲檢測方法,本發(fā)明根據(jù)哨聲頻率的特點(diǎn),從圖像處理的角度分析音頻語譜圖,采用Hough變換檢測足球視頻中的哨聲,提高了哨聲檢測的準(zhǔn)確率。
[0025](3)提高了視頻事件邊界檢測的準(zhǔn)確率。本發(fā)明對足球視頻PB結(jié)構(gòu)片段進(jìn)行攻防轉(zhuǎn)換分析,結(jié)合視頻事件時(shí)域轉(zhuǎn)換模式確定視頻事件邊界,提高了足球視頻事件邊界檢測的準(zhǔn)確率。
[0026](4)解決了利用具有非精確時(shí)間信息的網(wǎng)絡(luò)文本,實(shí)現(xiàn)文本和視頻事件同步的問題。本發(fā)明在非精確時(shí)間信息的約束下,首先檢測比賽起始時(shí)間,然后根據(jù)文本事件和視頻事件的語義類型實(shí)現(xiàn)文本和視頻事件的同步。
[0027](5)實(shí)現(xiàn)了足球視頻事件的富語義標(biāo)注。本發(fā)明利用互聯(lián)網(wǎng)上語義描述內(nèi)容豐富的賽況報(bào)道文本來實(shí)現(xiàn)足球視頻事件的語義標(biāo)注,相比網(wǎng)絡(luò)直播文本,賽況報(bào)道文本對精彩事件的描述更加具體,內(nèi)容更加豐富。
【專利附圖】
【附圖說明】
[0028]圖1為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的總體流程示意圖;
[0029]圖2為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的足球視頻事件時(shí)域轉(zhuǎn)換模式示意圖;
[0030]圖3為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的賽況報(bào)道文本分析過程示意圖;
[0031]圖4為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的哨聲檢測流程圖;
[0032]圖5為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的球場區(qū)域劃分流程圖;
[0033]圖6為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的攻防轉(zhuǎn)換分析示意圖;
[0034]圖7為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
[0035]圖8為本發(fā)明提供的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的文本-視頻事件同步過程示意圖。
【具體實(shí)施方式】
[0036]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0037]圖1為本發(fā)明一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法的總體流程示意圖,主要包括三個(gè)階段:文本分析階段,訓(xùn)練LSA分類模型,檢測文本描述語句的事件類型,提取文本事件元數(shù)據(jù);視頻分析階段,提取足球視頻中級語義對象,對PB結(jié)構(gòu)片段進(jìn)行攻防轉(zhuǎn)換分析,結(jié)合事件時(shí)域轉(zhuǎn)換模式(圖2)確定視頻事件的邊界;文本-視頻事件同步階段,在文本描述中的不精確時(shí)間信息的約束條件下,根據(jù)文本事件和視頻事件的類型同步文本事件描述和視頻事件,實(shí)現(xiàn)足球視頻事件的富語義標(biāo)注。具體包括如下步驟:
[0038](I)互聯(lián)網(wǎng)文本的獲取和分析
[0039]利用網(wǎng)絡(luò)爬蟲從體育網(wǎng)站如sports, people, com.cn, sports, sina.com.cn,sports, sohu.com, sports, qq.com等爬取比賽對應(yīng)的賽況報(bào)道文本;對賽況報(bào)道文本進(jìn)行分詞、無關(guān)詞過濾和語句分割處理;利用預(yù)先建立的潛在語義分析(Latent SemanticAnalysis, LSA)模型計(jì)算語句的潛在語義空間查詢向量;并計(jì)算該查詢向量與各種文本事件類型的潛在語義空間向量的余弦相似度,將其歸類為具有最大相似度的事件類別;利用正則表達(dá)式提取語句的時(shí)間、相關(guān)球員及球員所屬隊(duì)伍。檢測到的文本事件可以表示為一個(gè)四元組TE (t,c,p,d),t表示事件發(fā)生時(shí)間,c表示文本事件的類型,P表示事件涉及的球員及球員所屬隊(duì)伍信息,d表示事件的文本描述。如圖3所示,其中利用LSA進(jìn)行文本事件類型檢測包括模型訓(xùn)練和語句分類兩個(gè)階段,LSA訓(xùn)練階段步驟如下:
[0040]步驟1:將互聯(lián)網(wǎng)上爬取的賽況報(bào)道文本作為訓(xùn)練語料,對所有的訓(xùn)練語料進(jìn)行分詞;
[0041]步驟2:去除訓(xùn)練語料中的無關(guān)詞匯,包括停詞、球員和球隊(duì)名詞等;
[0042]步驟3:構(gòu)建詞條-文檔矩陣Xmxn。其中矩陣Xmxn的行對應(yīng)詞條,列對應(yīng)事件文檔,即m表示詞條的數(shù)目,η為語料庫中事件類型的數(shù)目,一般地,m > n。Xmxn中每個(gè)元素為詞條在其對應(yīng)事件類型中的tf-1df權(quán)重。這里tf表示詞條在相應(yīng)事件訓(xùn)練語料中出現(xiàn)的頻次,idf為詞條的倒排文檔頻率;
[0043]步驟4:利用下式對詞條-文檔矩陣Xmxn進(jìn)行奇異值分解;
[0044]^mxn = Tmxn X Snxn X D^ xn
[0045]式中,T為列正交矩陣,T中的每一列稱為左奇異向量;S為對角矩陣,其對角線上的元素為由大到小降序排列的非負(fù)奇異值;D為正交矩陣;
[0046]步驟5:選取矩陣Snxn的前k (k < η)個(gè)最大奇異值(前k個(gè)奇異值之和占所有奇異值之和的比率大于80% ),并選取前k個(gè)最大奇異值分別對應(yīng)于矩陣Tmxn和矩陣Dnxn中的列向量,通過下式計(jì)算詞條-文檔矩陣Xmxn的低階近似矩陣足nXn:
[0047]^mxn ~ ^mxk X ^kxk X ^nxfc
[0048]步驟6:構(gòu)建訓(xùn)練語料事件集的潛在語義矩陣Enxk如下:
[0049]Enxk 一 DnxkX Skxk
[0050]Enxk的每一行即表示相應(yīng)類型的事件在潛在語義空間中的坐標(biāo)。
[0051 ] 文本事件分類階段步驟如下:
[0052]步驟1:對輸入的賽況報(bào)道文本進(jìn)行事件描述語句分割(Event Descript1nSentence Segmentat1n, EDSS)。通常,在賽況報(bào)道中每一個(gè)句子用來描述一個(gè)事件,這里根據(jù)中文句子的結(jié)束標(biāo)記即句號、感嘆號來實(shí)現(xiàn)EDSS ;
[0053]步驟2:把每個(gè)事件描述語句看做一個(gè)查詢文檔,根據(jù)訓(xùn)練階段建立的詞條-文檔矩陣Xmxn中詞條的排序構(gòu)建該查詢文檔的查詢向量xq,xq的每個(gè)元素為相應(yīng)詞條在該查詢文檔中出現(xiàn)的頻次;
[0054]步驟3:將查詢向量Xq映射到潛在語義空間,得到其潛在語義表達(dá)向量Dq ;
[0055]Dq = Xjl X Tmxk X S^k
[0056]步驟4:計(jì)算Dq和第i類事件Ei的相似度sim(Dq, Ei):
廠、_DcU X
[_ (“-阿啊
[0058]式中,Ei為潛在語義矩陣Enxk第i行的行向量,即第i類事件在潛在語義空間的表示。j為向量Dq和Ei相應(yīng)位置元素的下標(biāo);
[0059]步驟5:選擇和查詢向量Dq具有最大相似度的潛在語義事件向量氏*,并將Dq歸類為馬*對應(yīng)的事件類型,表示為
[0060]i* = cirg maji (Sim(DqiEi))
[0061](2)足球視頻中級語義對象檢測
[0062]該步驟主要是對足球視頻內(nèi)在的視聽特征進(jìn)行分析,以輔助其后的視頻事件檢測、視頻事件邊界確定和視頻事件分類。利用OpenCV機(jī)器視覺庫提取足球視頻中的球門、球場標(biāo)志線、中圈和哨聲等中級語義對象。其中,球門、球場標(biāo)志線和中圈用來劃分場地區(qū)域,球門和哨聲作為視頻事件分類時(shí)的特征。球門和球場標(biāo)志線的檢測可以采用現(xiàn)有的方法,如文獻(xiàn)于俊清和張強(qiáng)等,“利用回放場景和情感激勵(lì)檢測足球視頻精彩鏡頭,計(jì)算機(jī)學(xué)報(bào),2014,37(6):1268-1280”中描述的方法。中圈的檢測步驟如下:
[0063]步驟1:在檢測到的球場線中選取角度在[80°,100° ],長度大于H/3的直線作為球場中垂線HL,這里H為輸入圖像幀F(xiàn)的高度。
[0064]步驟2:旋轉(zhuǎn)圖像幀F(xiàn)使得HL垂直,旋轉(zhuǎn)后的圖像表示為Fr。根據(jù)直線檢測結(jié)果,可以檢測到橢圓的上下候選水平切線,設(shè)一共檢測到m對候選水平切線。對于第i對候選水平切線TLup, 1、TLdown, i與中垂線HL的交點(diǎn)分別為pup, i (Xupii, yup, ,Pdown
,i (Xdown,i,^down, i),
則圓心(Xtyyc^i)和短半軸匕可以計(jì)算如下:
[0065]xc, i = (xup, i+xdown, i) /2
[0066]yc> i = (yup, ^ydown, ) /2
[0067]bj = (ydown,「yup, i) /2
[0068]步驟3:圖像幀中橢圓的長軸%和短軸h之間滿足比例關(guān)系α <^<β,α和β
分別長短軸比率的下限和上限,這里α和β分別設(shè)置為2和5。設(shè)橢圓i? bQji)和 Ee, i (Xci, yc,i; aw,bw),其中 α?!?a Xbi, a0ji = β Xbi, bQji = δ , b0ji = bj δ。對于Vp 6 P,如果 d (ρ, Ea,) > 0&d (p, Ee < O,則 p e Si, Si = {sia, sij2, Sij3,…,Si, J表示采集的候選樣本點(diǎn)集合,η為樣本點(diǎn)的個(gè)數(shù)。
[0069]步驟4:對于每個(gè)樣本點(diǎn)s e Si,計(jì)算其對應(yīng)的長半軸的值,則得到橢圓長半軸%的解空間為 Ai= {aul, aU2, aU3,…,ai>n} ? au max = max (Ai), a。min = min (Ai),在區(qū)間[Biifflinja^fflaJ上以o (經(jīng)驗(yàn)值)等間隔統(tǒng)計(jì)累積直方圖HTit5設(shè)j表示直方圖HTi中間隔的下標(biāo),Indexi = arg Inaxj(HTi),則長半軸Si計(jì)算如下:
[0070]
α? = Iindexi X σ + σ/2]
[0071]步驟5:經(jīng)過上述步驟估計(jì)出的橢圓表示為Ei (X。, i; yCji, at, bj ,統(tǒng)計(jì)Ei在圖像F1^上的可見部分的弧長L”根據(jù)測度函數(shù)M(E)對估計(jì)橢圓Ei進(jìn)行校驗(yàn),M(E)定義如下:
【權(quán)利要求】
1.一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,包括以下步驟: (1)從互聯(lián)網(wǎng)上爬取足球比賽對應(yīng)的賽況報(bào)道文本,利用預(yù)先建立的LSA模型計(jì)算賽況報(bào)道文本中各語句的潛在語義空間查詢向量;并計(jì)算該查詢向量與各種文本事件類型的潛在語義空間向量的余弦相似度,將其歸類為具有最大相似度的事件類別; (2)檢測足球比賽對應(yīng)視頻中的多種中級語義對象,所述中級語義對象包括球門、球場標(biāo)志線、中圈以及哨聲;并劃分場地區(qū)域; (3)根據(jù)場地區(qū)域劃分結(jié)果進(jìn)行攻防轉(zhuǎn)換分析,確定視頻事件片段的邊界; (4)根據(jù)中圈和哨聲檢測結(jié)果確定比賽開始時(shí)間,利用貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)攻防視頻事件片段的初始語義分類; (5)在文本描述中的粗粒度時(shí)間信息的約束下,根據(jù)步驟(I)中得到的文本事件類型和步驟(4)中得到攻防視頻事件片段的初始語義分類同步文本描述和視頻事件片段,實(shí)現(xiàn)足球視頻事件的富語義標(biāo)注。
2.根據(jù)權(quán)利要求1所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(I)中利用預(yù)先建立的LSA模型計(jì)算賽況報(bào)道文本中各語句的潛在語義空間查詢向量,具體包括: 步驟(1.1.1):將互聯(lián)網(wǎng)上爬取的賽況報(bào)道文本作為訓(xùn)練語料,對所有的訓(xùn)練語料進(jìn)行分詞; 步驟(1.1.2):去除訓(xùn)練語料中的無關(guān)詞匯,包括停詞、球員和球隊(duì)名詞; 步驟(1.1.3):構(gòu)建詞條-文檔矩陣Xmxn ;其中矩陣Xmxn的行對應(yīng)詞條,列對應(yīng)事件文檔,即m表示詞條的數(shù)目,η為語料庫中事件類型的數(shù)目,Xmxn中每個(gè)元素為詞條在其對應(yīng)事件類型中的tf-1df權(quán)重,tf表示詞條在相應(yīng)事件訓(xùn)練語料中出現(xiàn)的頻次,idf為詞條的倒排文檔頻率; 步驟(1.1.4):利用下式對詞條-文檔矩陣Xmxn進(jìn)行奇異值分解;
^mxn ' Tmxn 乂 ^nxn X Dnxn 式中,T為列正交矩陣,T中的每一列稱為左奇異向量;s為對角矩陣,其對角線上的元素為由大到小降序排列的非負(fù)奇異值;D為正交矩陣; 步驟(1.1.5):選取矩陣Snxn的前k個(gè)最大奇異值,k < n,并選取前k個(gè)最大奇異值分別對應(yīng)于矩陣Tmxn和矩陣Dnxn中的列向量,通過下式計(jì)算詞條-文檔矩陣Xmxn的低階近似矩陣兄ηα
^mxn — Tmxi( X SiiXil X Dnx^ 步驟(1.1.6):構(gòu)建訓(xùn)練語料事件集的潛在語義矩陣Enxk如下:
EnXk — DnXk XSkxk Enxk的每一行即表示相應(yīng)類型的事件在潛在語義空間中的坐標(biāo)。
3.根據(jù)權(quán)利要求2所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(I)中計(jì)算該查詢向量與各種文本事件類型的潛在語義空間向量的余弦相似度,將其歸類為具有最大相似度的事件類別,具體包括: 步驟(1.2.1):對輸入的賽況報(bào)道文本進(jìn)行事件描述語句分割(Event Descript1nSentence Segmentat1n, EDSS),在賽況報(bào)道中每一個(gè)句子用來描述一個(gè)事件,這里根據(jù)中文句子的結(jié)束標(biāo)記即句號、感嘆號來實(shí)現(xiàn)EDSS ; 步驟(1.2.2):把每個(gè)事件描述語句看做一個(gè)查詢文檔,根據(jù)訓(xùn)練階段建立的詞條-文檔矩陣Xmxn中詞條的排序構(gòu)建該查詢文檔的查詢向量xq,xq的每個(gè)元素為相應(yīng)詞條在該查詢文檔中出現(xiàn)的頻次; 步驟(1.2.3):將查詢向量Xq映射到潛在語義空間,得到其潛在語義表達(dá)向量Dq ;
Dq — Xq X r^mxk X ‘S'nxn 步驟(1.2.4):計(jì)算Dq和第i類事件Ei的相似度Sim (D,,Ei): Sim(DqiEi) =x1^L=
^jDljXpjElj 式中,Ei為矩陣Enxk第i行的行向量,即第i類事件在潛在語義空間的表示;j為向量Dq和Ei相應(yīng)位置元素的下標(biāo); 步驟(1.2.5):選擇和查詢向量Dq具有最大相似度的潛在語義事件向量氏*,并將Dq歸類為對應(yīng)的事件類型,表示為Γ = arg max(sim(Dar Ei))
1<?<η 、 i J
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(2)中檢測中圈的步驟包括: 步驟(2.1.1):在檢測到的球場線中選取角度在[80° ,100° ],長度大于H/3的直線作為球場中垂線HL,這里H為輸入圖像幀F(xiàn)的高度; 步驟(2.1.2):旋轉(zhuǎn)圖像幀F(xiàn)使得HL垂直,旋轉(zhuǎn)后的圖像表示為Fr;根據(jù)直線檢測結(jié)果,可以檢測到橢圓的上下候選水平切線,設(shè)一共檢測到m對候選水平切線;對于第i對候選水平切線TLup, 1、TLdown, i與中垂線HL的交點(diǎn)分別為pup, i (xup, i; yup, ,pd_,i (Xdown,i,^down,i),則圓心和短半軸4可以計(jì)算如下:
X。,i (Xup,i+Xdown,i) I
yc, i = (yUp, I+Ydown, i) /2
bi = (y—n,i_yuP,i)/2 步驟(2.1.3):圖像幀中橢圓的長軸%和短軸匕之間滿足比例關(guān)系α <1<β’ α和β分別長短軸比率的下限和上限;設(shè)橢圓Ea.1Ud, yCji, aQji, bQji)和yc, i; ae,i,bg.1),其中 aa,i = a Xbi, a0ji = β Xbi, ba ^ = δ , b0ji = δ ;對于 Vp G 尸,如果 d(p, EaJ > 0&d(p, Eu) < 0,則 p e Si, Si = {sia, sij2, sij3,..., Si, J 表示候選樣本點(diǎn)集合,n為樣本點(diǎn)的個(gè)數(shù); 步驟(2.1.4):對于每個(gè)樣本點(diǎn)s e Si,計(jì)算其對應(yīng)的長半軸的值,則得到橢圓長半軸的解空間為 Ai= {aia, aij2, aU3,..., ai>n};設(shè) = max(Ai), = min(Ai),在區(qū)間[Biifflinja^fflax]上以。等間隔統(tǒng)計(jì)累積直方圖HTi, σ為經(jīng)驗(yàn)值;設(shè)j表示直方圖HTi中間隔的下標(biāo),Indexi = arg Inaxj(HTi),則長半軸Si計(jì)算如下:CLi = \indexL χ σ + σ/2] 步驟(2.1.5):經(jīng)過上述步驟估計(jì)出的橢圓表示為EiUc^i, lc, i,ai,bi),統(tǒng)計(jì)Ei在圖像Fr上的可見部分的弧長Li ;根據(jù)測度函數(shù)M(E)對估計(jì)橢圓Ei進(jìn)行校驗(yàn),M(E)定義如下:
其中,橢圓 Ein,i (Xc^pyc,^a1-S,δ )和 Et^i (χ?!梗瑈^,δ,δ )分別為 Ei 的內(nèi)橢圓和外橢圓;設(shè)i* = arg maxjMjEi)),如果Mr(£>) > t,則^即為檢測到的橢圓,否則沒有檢測到橢圓。
5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(2)中的檢測哨聲的步驟包括: 步驟(2.2.1):設(shè)置音頻幀長FrameLen和幀移FrameInc參數(shù);步驟(2.2.2):讀入音頻片段進(jìn)行預(yù)加重處理,以減少尖銳噪聲影響,提升高頻信號; 步驟(2.2.3):將音頻片段分幀,以利用音頻信號短時(shí)平穩(wěn)的特性,并對音頻幀加漢明窗,以減少頻譜泄露; 步驟(2.2.4):根據(jù)下式對音頻信號進(jìn)行短時(shí)傅里葉變換,得到其語譜圖;式中,x(m)為音頻信號序列,w(η)為實(shí)數(shù)窗序列;
步驟(2.2.5):基于Ostu自適應(yīng)閾值對音頻片段語譜圖二值化; 步驟(2.2.6):利用Hough變換檢測二值圖像中的直線段; 步驟(2.2.7):遍歷檢測到的所有直線段,如果在3000Hz至4500Hz頻率之間存在持續(xù)時(shí)間超過0.1秒的直線段,則認(rèn)為該音頻片段為哨聲片段;否則為非哨聲片段。
6.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(2)中劃分場地區(qū)域具體包括: 采用決策樹劃分場地區(qū)域,將場地劃分為左邊球門區(qū)LGZ,左邊角球區(qū)LCZ,右邊球門區(qū)RGZ,右邊角球區(qū)RCZ,中圈區(qū)域MCZ和其他區(qū)域0Z。
7.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(3)中視頻事件邊界通過攻防轉(zhuǎn)換分析和事件時(shí)域轉(zhuǎn)換模式來確定,視頻事件邊界起始于PB片段最后一個(gè)攻防轉(zhuǎn)換點(diǎn),結(jié)束于特寫鏡頭或回放鏡頭。
8.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(4)根據(jù)中圈和哨聲確定比賽起始時(shí)間: 在足球視頻的開始時(shí)間段內(nèi),如果有中圈持續(xù)出現(xiàn)一段時(shí)間,并且隨后有長哨聲被檢測到,則認(rèn)為哨聲被檢測到的時(shí)間就是比賽起始時(shí)間。
9.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(4)中利用貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)攻防片段的初始語義分類,具體包 括: 根據(jù)下述特征:回放場景持續(xù)時(shí)間(RPD),精彩度(EXC),遠(yuǎn)鏡頭比率(FVR),球門比率(GMR),哨聲(WHS)和標(biāo)題條(CAP),利用貝葉斯網(wǎng)絡(luò)將足球視頻攻防片段分類為進(jìn)球、射門和犯規(guī)三種類型。
10.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的一種多模態(tài)信息融合的足球視頻事件檢測與語義標(biāo)注方法,其特征在于,所述步驟(5)中根據(jù)文本和視頻片段的語義同步文本和視頻事件,具體包括如下步驟: 步驟(5.1):對于第k個(gè)文本事件TEk(tk,ck,pk,dk),其中,tk表示第k個(gè)文本事件的時(shí)間,ck表示第k個(gè)文本事件的類型,Pk表示第k個(gè)文本事件相關(guān)的球員及球員所屬隊(duì)伍信息,dk表示第k個(gè)文本事件的語義描述,根據(jù)下式計(jì)算該文本事件在視頻中的參考幀索引rfk ;
rfk = GST+tkX60Xfr 其中,GST為步驟(4)中檢測到的比賽起始時(shí)間,fr為視頻的幀率; 步驟(5.2):從參考幀rfk分別向前和向后查找3個(gè)攻防片段作為候選視頻事件片段; 步驟(5.3):對于第i個(gè)候選視頻事件片段,提取觀察值Oi,作為貝葉斯網(wǎng)絡(luò)的輸入證據(jù),計(jì)算第i個(gè)候選視頻事件片段屬于Ck的概率Pi (Ck1i)); 步驟(5.4):根據(jù)下式從候選視頻事件片段中選取和TEk事件類型一致的,具有最大概率的視頻片段作為最佳匹配事件片段;
Γ = arg max(pj)
L' 式中,Γ表示和TEk最匹配的攻防片段; 步驟(5.5):在文本事件TEk和視頻事件片段Γ之間建立對應(yīng)關(guān)系,得到語義標(biāo)注結(jié)果,表示為 Ak(tk,sfk,efk, ck, pk, dk),其丨 sf, = sfv,efk = ef
【文檔編號】G06F17/30GK104199933SQ201410449960
【公開日】2014年12月10日 申請日期:2014年9月4日 優(yōu)先權(quán)日:2014年9月4日
【發(fā)明者】于俊清, 王贈凱, 何云峰 申請人:華中科技大學(xué)