專利名稱:一種基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種視頻監(jiān)控管理方法及其系統(tǒng),特別是涉及一種基于結(jié)構(gòu)化描述的
視頻監(jiān)控管理方法及其系統(tǒng)。
背景技術(shù):
近年來,視頻監(jiān)控系統(tǒng)建設(shè)工程在國內(nèi)各大城市普及開來,遍布城市的各類監(jiān)控 攝像設(shè)備有機(jī)地互連在一起,其視野逐漸覆蓋城市的每一個(gè)角落,構(gòu)成了信息社會(huì)中數(shù)字 城市的"眼睛",實(shí)時(shí)地監(jiān)視著城市每個(gè)角落,防止發(fā)生各種違法犯罪行為,為整個(gè)社會(huì)的穩(wěn) 定、和諧提供了保障。 目前,幾乎全部監(jiān)控系統(tǒng)的分析都依賴于人工,由于人工監(jiān)控本身固有的缺陷,人 力越來越難以勝任海量監(jiān)控視頻數(shù)據(jù)信息的分析和理解;當(dāng)攝像機(jī)的數(shù)量過多的時(shí)候,不 能做到對(duì)全部場景的連續(xù)監(jiān)控,并且由于監(jiān)控人員疲勞、疏忽、精力不集中等原因,會(huì)嚴(yán)重 影響監(jiān)視的效果。 另外,視頻數(shù)據(jù)是一種非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)量龐大,并且難以進(jìn)行分類和檢索, 有效信息利用效率低。若需要通過視頻錄像來查找某個(gè)線索或者細(xì)節(jié),必須采用人工調(diào)閱 該錄像視頻片斷方法,對(duì)該視頻錄像進(jìn)行完整的分析。比如從1段時(shí)間為3小時(shí)的監(jiān)控錄 像中查找"一個(gè)穿藍(lán)色西裝的人",必須人工從頭至尾觀看該錄像片斷,才能找出所有相關(guān) 的畫面或場景。如果給出更多、更長的監(jiān)控視頻錄像,人工就很難完成分析和查找工作了。
為了解決現(xiàn)有的視頻監(jiān)控系統(tǒng)中存在的問題,國內(nèi)外研究機(jī)構(gòu)在智能視頻監(jiān)控領(lǐng) 域也做了大量卓有成效的研究,其技術(shù)包括實(shí)時(shí)運(yùn)動(dòng)物體檢測與跟蹤(Real-Time Moving Object Detection and Tracking)、目標(biāo)識(shí)別(ObjectRecognition)、步態(tài)分析(Human Gait Analysis)以及多攝像頭協(xié)作足艮蹤(Multi—camera Coorperative Tracking)等。
中國專利申請(qǐng)?zhí)枮?00710178409. 2的發(fā)明專利公開了一種運(yùn)動(dòng)檢測方法、裝置 及一種智能監(jiān)控系統(tǒng),通過將背景差分圖像和幀間差分圖像進(jìn)行邏輯與處理獲得運(yùn)動(dòng)前景 圖像。 中國專利申請(qǐng)?zhí)枮?00410016455. 9的發(fā)明專利公開了一種具有多攝像機(jī)的智能 跟蹤監(jiān)控系統(tǒng),該系統(tǒng)包括全景攝像機(jī)和多個(gè)跟蹤攝像機(jī),在全景攝像機(jī)發(fā)現(xiàn)移動(dòng)目標(biāo)時(shí), 將目標(biāo)的準(zhǔn)確位置通知各個(gè)跟蹤攝像機(jī),有多個(gè)跟蹤攝像機(jī)分別跟蹤多個(gè)移動(dòng)目標(biāo),獲取 高清晰圖像。該發(fā)明可用于對(duì)場景或通道的視頻監(jiān)控,以進(jìn)行大范圍、多目標(biāo)的運(yùn)動(dòng)監(jiān)控。
中國專利申請(qǐng)?zhí)枮?00810161985. 0的發(fā)明專利公開了一種通過元數(shù)據(jù)描述視頻 概要的視頻概要描述方案,該發(fā)明采用了一種分級(jí)概要描述方案(DS),分級(jí)概要描述方案 至少包括一個(gè)精彩場面級(jí)DS,并且選擇性的包括概要主題列表DS。視頻概要提供導(dǎo)航功能 和瀏覽功能,并且使得有效地檢索所需要的視頻內(nèi)容具有可能性。 綜上,現(xiàn)有的智能視頻監(jiān)控技術(shù)只是分析視頻中的運(yùn)動(dòng)目標(biāo)和一些預(yù)先定義好的 異常事件,而不能產(chǎn)生關(guān)于視頻圖像內(nèi)容和特征的結(jié)構(gòu)化描述,從而難以實(shí)現(xiàn)在視頻數(shù)據(jù) 的查詢、檢索等功能;雖然也有人提出視頻概要描述方案,但是該方案未能解決視頻監(jiān)控系統(tǒng)中描述產(chǎn)生、數(shù)據(jù)存儲(chǔ)和系統(tǒng)應(yīng)用的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法及其系統(tǒng),解決
現(xiàn)有視頻監(jiān)控系統(tǒng)中存在的上述問題,應(yīng)用范圍廣,性能穩(wěn)定可靠。本發(fā)明所解決的技術(shù)問題可以采用以下技術(shù)方案來實(shí)現(xiàn) 本發(fā)明一方面提供一種基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法,其特征在于,它包 括如下的步驟 (1)對(duì)視頻圖像進(jìn)行分析、描述,將視頻圖像中包含的場景、物體、事件、敏感區(qū) 域、視覺特征等進(jìn)行分解、提取、分類、歸納和總結(jié),產(chǎn)生關(guān)于視頻圖像內(nèi)容和屬性的數(shù)據(jù)信 息; (2)對(duì)產(chǎn)生的關(guān)于視頻圖像內(nèi)容和屬性的數(shù)據(jù)信息和視頻圖像進(jìn)行壓縮編碼,生 成視頻數(shù)據(jù)和視頻描述元數(shù)據(jù); (3)視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)之間建立對(duì)應(yīng)關(guān)系,并向用戶提供瀏覽、查詢、檢 索等應(yīng)用服務(wù); (4)用戶對(duì)視頻描述元數(shù)據(jù)進(jìn)行查詢、檢索和瀏覽等操作,獲得相應(yīng)的視頻數(shù)據(jù)結(jié) 果。 在本發(fā)明的一個(gè)實(shí)施例中,在上述步驟(2)中如果發(fā)現(xiàn)在視頻數(shù)據(jù)中發(fā)生定義的 異常情況則進(jìn)行報(bào)警處理。 在本發(fā)明的一個(gè)實(shí)施例中,所述視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)之間建立對(duì)應(yīng)關(guān)系是 指在通過對(duì)應(yīng)關(guān)系確定視頻描述元數(shù)據(jù)在視頻數(shù)據(jù)中的相應(yīng)位置,所述視頻數(shù)據(jù)和視頻描 述元數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系包括時(shí)間對(duì)應(yīng)關(guān)系、空間對(duì)應(yīng)關(guān)系、文件對(duì)應(yīng)關(guān)系及幀號(hào)對(duì)應(yīng)關(guān) 系等。 在本發(fā)明的一個(gè)實(shí)施例中,對(duì)視頻圖像進(jìn)行分析、描述包括如下步驟 (1)對(duì)視頻圖像進(jìn)行分割,根據(jù)場景、鏡頭、事件、目標(biāo)、對(duì)象、時(shí)間等要素把視頻圖
像分割成視頻片斷、關(guān)鍵幀和子區(qū)域; (2)對(duì)視頻片斷、關(guān)鍵幀和子區(qū)域進(jìn)行特征提取,提取其形狀、顏色、紋理、運(yùn)動(dòng)、定 位、輪廓等視覺特征,并生成關(guān)于這些特征的描述; (3)根據(jù)提取的視覺特征進(jìn)行分類判別,產(chǎn)生關(guān)于視頻圖像的語義描述。 在本發(fā)明的一個(gè)實(shí)施例中,對(duì)視頻圖像進(jìn)行分析、描述的方式包括自動(dòng)、半自動(dòng)和
人工三種方式。 在本發(fā)明的一個(gè)實(shí)施例中,所述壓縮編碼的方法包括MPEG-1、 MPEG-2、 MPEG-4、 H. 264、 AVS、 SVAC等視頻壓縮編碼方法。 在本發(fā)明的一個(gè)實(shí)施例中,所述視頻描述元數(shù)據(jù)的文件格式和定義語言包括可擴(kuò) 展標(biāo)記語言(XML)、二進(jìn)制可擴(kuò)展標(biāo)記語言(Binary XML)以及對(duì)上述語言的擴(kuò)展和補(bǔ)充。
在本發(fā)明的一個(gè)實(shí)施例中,所述查詢、檢索的方式包括輸入檢索表達(dá)式進(jìn)行檢索 和輸入示例圖像進(jìn)行檢索兩種方式。 進(jìn)一步,所述輸入檢索表達(dá)式是指把檢索條件編制成一個(gè)表達(dá)式,根據(jù)表達(dá)式來 進(jìn)行檢索。例如查找一個(gè)紅色的小汽車,表達(dá)式可以為"汽車"+ "紅色"。
進(jìn)一步,所述輸入示例圖像進(jìn)行檢索是指輸入要查找的圖像,在給定的數(shù)據(jù)庫或 集合中查找相同或相似的圖像。 本發(fā)明另一方面提供一種基于結(jié)構(gòu)化描述的視頻監(jiān)控管理系統(tǒng),其特征在于,它 包括 視頻圖像源,用于提供視頻圖像; 視頻分析描述模塊,從視頻圖像源獲取視頻圖像并進(jìn)行分析、描述、壓縮編碼等處 理,處理后得到視頻數(shù)據(jù)、視頻描述元數(shù)據(jù); 數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)和管理視頻數(shù)據(jù)和視頻描述元數(shù)據(jù);及 應(yīng)用服務(wù)模塊,利用數(shù)據(jù)存儲(chǔ)模塊中存儲(chǔ)的視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)為終端用
戶提供包括查詢、檢索、瀏覽、過濾、偏好設(shè)定等各種數(shù)據(jù)應(yīng)用服務(wù)。 在本發(fā)明的一個(gè)實(shí)施例中,所述視頻監(jiān)控管理系統(tǒng)還包括一報(bào)警處理模塊,對(duì)所 述視頻分析描述模塊產(chǎn)生的實(shí)時(shí)的報(bào)警信息進(jìn)行處理。 進(jìn)一步,所述報(bào)警處理模塊包括聲光報(bào)警裝置和詳細(xì)報(bào)警信息顯示裝置。聲光報(bào) 警裝置主要通過聲音、閃光等手段提醒相關(guān)人員注意,詳細(xì)報(bào)警信息顯示裝置則通過屏幕 等裝置把報(bào)警時(shí)間、報(bào)警地點(diǎn)、報(bào)警內(nèi)容等信息顯示給相關(guān)人員。 在本發(fā)明的一個(gè)實(shí)施例中,所述視頻圖像源包括監(jiān)控?cái)z像機(jī)、視頻文件、視頻信號(hào) 發(fā)生裝置、視頻服務(wù)器、視頻分頻器和存儲(chǔ)視頻圖像的介質(zhì)。 在本發(fā)明的一個(gè)實(shí)施例中,所述視頻分析描述模塊的工作模式包括自動(dòng)、半自動(dòng) 和人工方式。 在本發(fā)明的一個(gè)實(shí)施例中,所述終端用戶進(jìn)行查詢或檢索時(shí),可以根據(jù)相關(guān)性對(duì) 查詢、檢索的結(jié)果進(jìn)行判斷、篩選或排序,并把相關(guān)信息反饋給所述應(yīng)用服務(wù)模塊,所述應(yīng) 用服務(wù)模塊根據(jù)反饋信息調(diào)整檢索方法和策略,提高檢索精度。 本發(fā)明的基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法及系統(tǒng),可以對(duì)視頻圖像進(jìn)行分 析、理解,并產(chǎn)生結(jié)構(gòu)化描述數(shù)據(jù),視頻數(shù)據(jù)和描述數(shù)據(jù)之間存在著對(duì)應(yīng)關(guān)系,用戶通過對(duì)
視頻描述數(shù)據(jù)的操作來實(shí)現(xiàn)對(duì)視頻圖像數(shù)據(jù)的查詢、瀏覽、檢索等信息化的應(yīng)用,工作性能
穩(wěn)定可靠,適用范圍較為廣泛,解決了海量視頻數(shù)據(jù)分析和管理的問題,降低人工監(jiān)控的成
本,提高了現(xiàn)有視頻監(jiān)控系統(tǒng)的智能化、信息化技術(shù)水平,實(shí)現(xiàn)本發(fā)明的目的。 本發(fā)明的特點(diǎn)可參閱本案圖式及以下較好實(shí)施方式的詳細(xì)說明而獲得清楚地了解。
圖1為本發(fā)明的基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法的流程示意圖; 圖2為本發(fā)明的視頻圖像的分析、描述的流程示意圖; 圖3為本發(fā)明的基于結(jié)構(gòu)化描述的視頻監(jiān)控管理系統(tǒng)的結(jié)構(gòu)示意圖; 圖4為本發(fā)明的基于結(jié)構(gòu)化描述的視頻監(jiān)控管理系統(tǒng)的網(wǎng)絡(luò)拓?fù)鋱D; 圖5為本發(fā)明的視頻圖像分割示意圖; 圖6為本發(fā)明的特征提取示意圖; 圖7為本發(fā)明的分類判別示意圖; 圖8為本發(fā)明的視覺特征和語義描述元數(shù)據(jù)示例;
圖9為本發(fā)明的視頻數(shù)據(jù)和描述元數(shù)據(jù)對(duì)應(yīng)關(guān)系和檢索過程示意圖。
具體實(shí)施例方式
為了使本發(fā)明實(shí)現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié)
合具體圖示,進(jìn)一步闡述本發(fā)明。
實(shí)施例 如圖1所示,本發(fā)明的基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法,它包括如下的步驟
(1)對(duì)視頻圖像進(jìn)行分析、描述,將視頻圖像中包含的場景、物體、事件、敏感區(qū) 域、視覺特征等進(jìn)行分解、提取、分類、歸納和總結(jié),產(chǎn)生關(guān)于視頻圖像內(nèi)容和屬性的數(shù)據(jù)信 息; (2)對(duì)產(chǎn)生的關(guān)于視頻圖像內(nèi)容和屬性的數(shù)據(jù)信息和視頻圖像進(jìn)行壓縮編碼,生 成視頻數(shù)據(jù)和視頻描述元數(shù)據(jù); (3)視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)之間建立對(duì)應(yīng)關(guān)系,并向用戶提供瀏覽、查詢、檢 索等應(yīng)用服務(wù); (4)用戶對(duì)視頻描述元數(shù)據(jù)進(jìn)行查詢、檢索和瀏覽等操作,獲得相應(yīng)的視頻數(shù)據(jù)結(jié) 果。 在本發(fā)明中,在上述步驟(2)中如果發(fā)現(xiàn)在視頻數(shù)據(jù)中發(fā)生定義的異常情況則進(jìn) 行報(bào)警處理。 例如,在視頻數(shù)據(jù)中發(fā)現(xiàn)有汽車闖紅燈,有人翻墻等異常情況,則會(huì)進(jìn)行報(bào)警處 理,提醒操作人員注意。 所述視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)之間建立對(duì)應(yīng)關(guān)系是指在通過對(duì)應(yīng)關(guān)系確定視 頻描述元數(shù)據(jù)在視頻數(shù)據(jù)中的相應(yīng)位置,所述視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系 包括時(shí)間對(duì)應(yīng)關(guān)系、空間對(duì)應(yīng)關(guān)系、文件對(duì)應(yīng)關(guān)系及幀號(hào)對(duì)應(yīng)關(guān)系等。
例如視頻描述元數(shù)據(jù)在描述視頻數(shù)據(jù)中出現(xiàn)的某個(gè)目標(biāo),給出其對(duì)應(yīng)關(guān)系文 件名20091206. avi、幀號(hào)195558、坐標(biāo)(25, 58),則可以根據(jù)這些信息定位到視頻數(shù)據(jù)的視 頻文件20091206. avi的第195558幀,可在畫面中坐標(biāo)為(25,58)的位置找到該目標(biāo)。
如圖2所示,對(duì)視頻圖像進(jìn)行分析、描述包括如下步驟 (1)對(duì)視頻圖像進(jìn)行分割,根據(jù)場景、鏡頭、事件、目標(biāo)、對(duì)象、時(shí)間等要素把視頻圖 像分割成視頻片斷、關(guān)鍵幀和子區(qū)域; (2)對(duì)視頻片斷、關(guān)鍵幀和子區(qū)域進(jìn)行特征提取,提取其形狀、顏色、紋理、運(yùn)動(dòng)、定 位、輪廓等視覺特征,并生成關(guān)于這些特征的描述; (3)根據(jù)提取的視覺特征進(jìn)行分類判別,產(chǎn)生關(guān)于視頻圖像的語義描述。 對(duì)視頻圖像、特征描述和語義描述進(jìn)行壓縮編碼,形成視頻數(shù)據(jù)、視頻描述元數(shù)據(jù)。 在本發(fā)明中,對(duì)視頻圖像進(jìn)行分析、描述的方式包括自動(dòng)、半自動(dòng)和人工三種方 式。 自動(dòng)方式是指對(duì)視頻圖像進(jìn)行分析和描述的工作全部由系統(tǒng)獨(dú)立完成,中間沒有 人工的參與或干預(yù)。 半自動(dòng)的方式是指上述分析和描述工作的一部分由系統(tǒng)完成,另一部分由人工完成,人與系統(tǒng)之間存在著交互。例如系統(tǒng)通過視頻圖像分割,把畫面中的活動(dòng)目標(biāo)圖像分 割出來,并進(jìn)行特征提取和分類判別,人工對(duì)分類的結(jié)果進(jìn)行校正,并進(jìn)行高級(jí)語義分析和 描述。 人工方式是指對(duì)視頻的分析和描述工作全部由人工來完成,并把分析描述的結(jié)果 通過人工輸入到系統(tǒng)中。 在本發(fā)明中,所述壓縮編碼的方法包括MPEG-1、MPEG-2、MPEG-4、H. 264、AVS、 SVAC 等視頻壓縮編碼方法。 在本發(fā)明中,所述視頻描述元數(shù)據(jù)的文件格式和定義語言包括可擴(kuò)展標(biāo)記語言
(XML)、二進(jìn)制可擴(kuò)展標(biāo)記語言(Binary XML)以及對(duì)上述語言的擴(kuò)展和補(bǔ)充。 在本發(fā)明中,所述查詢、檢索的方式包括輸入檢索表達(dá)式進(jìn)行檢索和輸入示例圖
像進(jìn)行檢索兩種方式。 所述輸入檢索表達(dá)式是指把檢索條件編制成一個(gè)表達(dá)式,根據(jù)表達(dá)式來進(jìn)行檢 索。例如查找一個(gè)紅色的小汽車,表達(dá)式可以為"汽車"+ "紅色"。 所述輸入示例圖像進(jìn)行檢索是指輸入要查找的圖像,在給定的數(shù)據(jù)庫或集合中查 找相同或相似的圖像。 如圖3所示,本發(fā)明的基于結(jié)構(gòu)化描述的視頻監(jiān)控管理系統(tǒng),它包括視頻圖像源 10、視頻分析描述模塊20、報(bào)警處理模塊30、數(shù)據(jù)存儲(chǔ)模塊40、應(yīng)用服務(wù)模塊50和終端用戶 60。 視頻圖像源10用于提供視頻圖像;視頻分析描述模塊20從視頻圖像源獲取視頻 圖像并進(jìn)行分析、描述、壓縮編碼等處理,處理后得到視頻數(shù)據(jù)、視頻描述元數(shù)據(jù)和實(shí)時(shí)報(bào) 警信息;報(bào)警處理模塊30對(duì)視頻分析描述模塊20產(chǎn)生的實(shí)時(shí)的報(bào)警信息進(jìn)行處理;數(shù)據(jù) 存儲(chǔ)模塊40用于存儲(chǔ)和管理視頻數(shù)據(jù)和視頻描述元數(shù)據(jù);應(yīng)用服務(wù)模塊50利用數(shù)據(jù)存儲(chǔ) 模塊40中存儲(chǔ)的視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)為終端用戶60提供包括查詢、檢索、瀏覽、過 濾、偏好設(shè)定等各種數(shù)據(jù)應(yīng)用服務(wù)。 在本發(fā)明中,視頻圖像源10包括監(jiān)控?cái)z像機(jī)、視頻文件、視頻信號(hào)發(fā)生裝置、視頻 服務(wù)器、視頻分頻器和存儲(chǔ)視頻圖像的介質(zhì)。 在本發(fā)明中,視頻分析描述模塊20的工作模式包括自動(dòng)、半自動(dòng)和人工方式。
在本發(fā)明中,終端用戶60進(jìn)行查詢或檢索時(shí),可以根據(jù)相關(guān)性對(duì)查詢、檢索的結(jié) 果進(jìn)行判斷、篩選或排序,并把相關(guān)信息反饋給應(yīng)用服務(wù)模塊50,應(yīng)用服務(wù)模塊50根據(jù)反 饋信息調(diào)整檢索方法和策略,提高檢索精度。 如圖4所示,本發(fā)明的基于結(jié)構(gòu)化描述的視頻監(jiān)控管理系統(tǒng)的網(wǎng)絡(luò)拓?fù)鋱D。圖中 虛線框表示的是系統(tǒng)的主要模塊,包括視頻圖像源10、視頻分析描述模塊20、報(bào)警處理模 塊30、數(shù)據(jù)存儲(chǔ)模塊40、應(yīng)用服務(wù)模塊50和終端用戶60。除此之外,系統(tǒng)還包括了一些其 他的監(jiān)控設(shè)備和設(shè)施,如矩陣、鍵盤、電視墻、以太網(wǎng)等。 在圖4中,視頻圖像源10為監(jiān)控?cái)z像機(jī),包括各種球形攝像機(jī)、半球攝像機(jī)、一體 化攝像機(jī)等。監(jiān)控?cái)z像機(jī)拍攝到的監(jiān)控視頻圖像經(jīng)過分頻后,一路傳送到矩陣,顯示到電視 墻或監(jiān)控屏幕上,一路傳送到視頻分析描述模塊20進(jìn)行處理。 視頻分析描述模塊20由視頻編解碼設(shè)備和視頻分析描述服務(wù)器組成。視頻編解 碼設(shè)備把視頻信號(hào)進(jìn)行編碼壓縮,并進(jìn)行傳輸或保存在本地。視頻分析描述服務(wù)器對(duì)視頻信號(hào)進(jìn)行分析描述,產(chǎn)生關(guān)于視頻圖像內(nèi)容和特征的視頻描述元數(shù)據(jù)和實(shí)時(shí)報(bào)警信息。報(bào) 警信息傳送到報(bào)警處理模塊30進(jìn)行處理,視頻描述元數(shù)據(jù)通過以太網(wǎng)傳輸?shù)綌?shù)據(jù)存儲(chǔ)模 塊40進(jìn)行存儲(chǔ)。 報(bào)警處理模塊30包括聲光報(bào)警裝置和詳細(xì)報(bào)警信息顯示裝置。聲光報(bào)警裝置主 要通過聲音、閃光等手段提醒相關(guān)人員注意,詳細(xì)報(bào)警信息顯示裝置則通過屏幕等裝置把 報(bào)警時(shí)間、報(bào)警地點(diǎn)、報(bào)警內(nèi)容等信息顯示給相關(guān)人員。 數(shù)據(jù)存儲(chǔ)模塊40由若干臺(tái)數(shù)據(jù)庫服務(wù)器組成,負(fù)責(zé)存儲(chǔ)視頻數(shù)據(jù)和視頻描述元 數(shù)據(jù)。 應(yīng)用服務(wù)模塊50由應(yīng)用服務(wù)器組成,能夠通過以太網(wǎng)訪問數(shù)據(jù)庫服務(wù)器,并提供
基于數(shù)據(jù)庫的各種應(yīng)用服務(wù),包括瀏覽、查詢、檢索、過濾、用戶偏好設(shè)定等服務(wù)。 終端用戶60可以通過臺(tái)式機(jī)、筆記本電腦、個(gè)人數(shù)字助理(PDA)、手機(jī)或其他網(wǎng)絡(luò)
終端設(shè)備訪問應(yīng)用服務(wù)器,進(jìn)行瀏覽、查詢、檢索等操作,并可以根據(jù)相關(guān)性對(duì)查詢、檢索的
結(jié)果進(jìn)行判斷、篩選或排序,把相關(guān)信息反饋給應(yīng)用服務(wù)模塊50,應(yīng)用服務(wù)模塊50可根據(jù)
反饋信息調(diào)整檢索方法和策略,提高檢索精度。 如圖5所示,本發(fā)明視頻圖像分割示意圖。待處理的視頻圖像為一段教學(xué)錄像,該 包含三個(gè)場景播音員講解、教練和學(xué)員談話、車輛在場地上練習(xí)。 首先,根據(jù)場景的變化將整個(gè)視頻分解成3個(gè)視頻片斷,每個(gè)視頻片斷包含一個(gè) 場景。分割方法采用鏡頭邊界檢測方法,比較相鄰兩幀之間的變化,如果該變化超過某個(gè)閾 值,則認(rèn)為這兩幀之間為鏡頭邊界。 其次,對(duì)每個(gè)視頻片斷提取關(guān)鍵幀,關(guān)鍵幀一般為該視頻片斷中具有代表性的視 頻幀。以視頻片斷3為例,抽取視頻片斷3的第2幀為關(guān)鍵幀。 再次,根據(jù)關(guān)鍵幀畫面中的活動(dòng)目標(biāo)對(duì)關(guān)鍵幀圖像做進(jìn)一步的分割,得到多個(gè)子 區(qū)域。這樣,通過上述步驟,把一段視頻圖像分割成若干視頻圖像片斷、關(guān)鍵幀和子區(qū)域。
如圖6所示,本發(fā)明的特征提取示意圖。對(duì)經(jīng)過分割得到包含有一輛灰色轎車的 子區(qū)域圖像進(jìn)行特征提取,獲得其區(qū)域形狀特征,并且生成關(guān)于其特征的描述。該區(qū)域形狀 的特征是采用背景差分和圖像形態(tài)學(xué)運(yùn)算的方法獲得,并采用可擴(kuò)展標(biāo)記語言(XML)對(duì)其 進(jìn)行描述。運(yùn)用類似的方法還可以獲得視頻片斷、關(guān)鍵幀、子區(qū)域的其他視覺特征及特征描 述,包括形狀、顏色、紋理、運(yùn)動(dòng)、定位、輪廓等視覺特征。 如圖7所示,本發(fā)明分類判別示意圖。圖像提取到視覺特征后,可根據(jù)其特征進(jìn)行 分類判別。分類判別的方法包括相似度計(jì)算、模板匹配、基于機(jī)器學(xué)習(xí)的分類方法、神經(jīng)網(wǎng) 絡(luò)、支持向量機(jī)等方法。本實(shí)施例中采用基于模板匹配的方法,提取圖像的區(qū)域形狀特征, 并把該特征和知識(shí)庫中的模板進(jìn)行匹配,知識(shí)庫中存有各種已經(jīng)進(jìn)行分類的模板,如果該 圖像的特征和知識(shí)庫中某個(gè)分類中模板相匹配,則認(rèn)為該圖像屬于該類別。圖7中圖像的 區(qū)域特征和知識(shí)庫中"汽車"類別中的某個(gè)模板相匹配,故分類判別的結(jié)果為"汽車"。
如圖8所示,本發(fā)明視覺特征和語義描述元數(shù)據(jù)實(shí)例。該實(shí)例的元數(shù)據(jù)采用可 擴(kuò)展標(biāo)記語言(XML),包含了圖像區(qū)域特征描述和語義描述。描述的方法是首先制定描 述的方案(MDS),然后根據(jù)描述方案把圖像的特征數(shù)據(jù)和語義描述數(shù)據(jù)用可擴(kuò)展標(biāo)記語言 (XML)表述出來。從本例中可以看出,該描述元數(shù)據(jù)包含了區(qū)域形狀特征(RegionSh即e)描 述部分和語義(Semantic)描述部分。
如圖9所示,本發(fā)明視頻數(shù)據(jù)和描述元數(shù)據(jù)對(duì)應(yīng)關(guān)系和檢索過程示意圖。用戶可 以采用輸入檢索表達(dá)式進(jìn)行檢索和輸入示例圖像進(jìn)行檢索兩種方式進(jìn)行檢索。本實(shí)施例 中,當(dāng)采用檢索表達(dá)式進(jìn)行檢索時(shí),根據(jù)檢索關(guān)鍵詞,其檢索表達(dá)式為"(^1~"+ "gray",系統(tǒng) 自動(dòng)在描述元數(shù)據(jù)中檢索關(guān)鍵詞,檢索到這些關(guān)鍵詞所在的描述單元后,根據(jù)該描述和視 頻數(shù)據(jù)的對(duì)應(yīng)關(guān)系把檢索結(jié)果和對(duì)應(yīng)的視頻畫面呈現(xiàn)給用戶。本實(shí)施例中描述元數(shù)據(jù)和視 頻數(shù)據(jù)的對(duì)應(yīng)關(guān)系為視頻文件名(2009102105. avi)、視頻幀編號(hào)(203345)和畫面區(qū)域坐 標(biāo)(25,15,89,233)。當(dāng)采用示例圖像檢索的方式時(shí),用戶輸入要查找的圖像,首先對(duì)該圖 像進(jìn)行特征提取,然后根據(jù)提取的特征在描述元數(shù)據(jù)中進(jìn)行檢索?;谔卣鞯臋z索的方法 為計(jì)算圖像特征和描述元數(shù)據(jù)中特征的相似度,如果相似度超過某個(gè)給定的閾值,則認(rèn)為 兩個(gè)特征匹配,也就可以認(rèn)定2個(gè)特征所代表的原始圖像相匹配,根據(jù)該描述和視頻數(shù)據(jù) 的對(duì)應(yīng)關(guān)系把檢索結(jié)果和對(duì)應(yīng)的視頻畫面呈現(xiàn)給用戶。 以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù) 人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本 發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變 化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi),本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其 等效物界定。
權(quán)利要求
一種基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法,其特征在于,它包括如下的步驟(1)對(duì)視頻圖像進(jìn)行分析、描述,將視頻圖像中包含的場景、物體、事件、敏感區(qū)域、視覺特征等進(jìn)行分解、提取、分類、歸納和總結(jié),產(chǎn)生關(guān)于視頻圖像內(nèi)容和屬性的數(shù)據(jù)信息;(2)對(duì)產(chǎn)生的關(guān)于視頻圖像內(nèi)容和屬性的數(shù)據(jù)信息和視頻圖像進(jìn)行壓縮編碼,生成視頻數(shù)據(jù)和視頻描述元數(shù)據(jù);(3)視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)之間建立對(duì)應(yīng)關(guān)系,并向用戶提供瀏覽、查詢、檢索等應(yīng)用服務(wù);(4)用戶對(duì)視頻描述元數(shù)據(jù)進(jìn)行查詢、檢索和瀏覽等操作,獲得相應(yīng)的視頻數(shù)據(jù)結(jié)果。
2. 如權(quán)利要求1所述的視頻監(jiān)控管理方法,其特征在于,在上述步驟(2)中如果發(fā)現(xiàn)在 視頻數(shù)據(jù)中發(fā)生定義的異常情況則進(jìn)行報(bào)警處理。
3. 如權(quán)利要求1所述的視頻監(jiān)控管理方法,其特征在于,所述視頻數(shù)據(jù)和視頻描述元 數(shù)據(jù)之間建立對(duì)應(yīng)關(guān)系是指在通過對(duì)應(yīng)關(guān)系確定視頻描述元數(shù)據(jù)在視頻數(shù)據(jù)中的相應(yīng)位 置。
4. 如權(quán)利要求3所述的視頻監(jiān)控管理方法,其特征在于,所述視頻數(shù)據(jù)和視頻描述元 數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系包括時(shí)間對(duì)應(yīng)關(guān)系、空間對(duì)應(yīng)關(guān)系、文件對(duì)應(yīng)關(guān)系及幀號(hào)對(duì)應(yīng)關(guān)系。
5. 如權(quán)利要求1所述的視頻監(jiān)控管理方法,其特征在于,對(duì)視頻圖像進(jìn)行分析、描述包 括如下步驟(1) 對(duì)視頻圖像進(jìn)行分割,根據(jù)場景、鏡頭、事件、目標(biāo)、對(duì)象、時(shí)間等要素把視頻圖像分 割成視頻片斷、關(guān)鍵幀和子區(qū)域;(2) 對(duì)視頻片斷、關(guān)鍵幀和子區(qū)域進(jìn)行特征提取,提取其形狀、顏色、紋理、運(yùn)動(dòng)、定位、 輪廓等視覺特征,并生成關(guān)于這些特征的描述;(3) 根據(jù)提取的視覺特征進(jìn)行分類判別,產(chǎn)生關(guān)于視頻圖像的語義描述。
6. 如權(quán)利要求1所述的視頻監(jiān)控管理方法,其特征在于,對(duì)視頻圖像進(jìn)行分析、描述的 方式包括自動(dòng)、半自動(dòng)和人工三種方式。
7. 如權(quán)利要求l所述的視頻監(jiān)控管理方法,其特征在于,所述壓縮編碼的方法包括 MPEG-1、 MPEG-2、 MPEG-4、 H. 264、 AVS、 SVAC等視頻壓縮編碼方法。
8. 如權(quán)利要求1所述的視頻監(jiān)控管理方法,其特征在于,所述視頻描述元數(shù)據(jù)的文件 格式和定義語言包括可擴(kuò)展標(biāo)記語言(XML)、二進(jìn)制可擴(kuò)展標(biāo)記語言(Binary XML)以及對(duì) 上述語言的擴(kuò)展和補(bǔ)充。
9. 如權(quán)利要求1所述的視頻監(jiān)控管理方法,其特征在于,所述查詢、檢索的方式包括輸 入檢索表達(dá)式進(jìn)行檢索和輸入示例圖像進(jìn)行檢索兩種方式。
10. 如權(quán)利要求9所述的視頻監(jiān)控管理方法,其特征在于,所述輸入檢索表達(dá)式是指把 檢索條件編制成一個(gè)表達(dá)式,根據(jù)表達(dá)式來進(jìn)行檢索。例如查找一個(gè)紅色的小汽車,表達(dá) 式可以為"汽車"+ "紅色"。
11. 如權(quán)利要求9所述的視頻監(jiān)控管理方法,其特征在于,所述輸入示例圖像進(jìn)行檢索 是指輸入要查找的圖像,在給定的數(shù)據(jù)庫或集合中查找相同或相似的圖像。
12. —種基于結(jié)構(gòu)化描述的視頻監(jiān)控管理系統(tǒng),其特征在于,它包括 視頻圖像源,用于提供視頻圖像;視頻分析描述模塊,從視頻圖像源獲取視頻圖像并進(jìn)行分析、描述、壓縮編碼等處理,處理后得到視頻數(shù)據(jù)、視頻描述元數(shù)據(jù);數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)和管理視頻數(shù)據(jù)和視頻描述元數(shù)據(jù);及應(yīng)用服務(wù)模塊,利用數(shù)據(jù)存儲(chǔ)模塊中存儲(chǔ)的視頻數(shù)據(jù)和視頻描述元數(shù)據(jù)為終端用戶提 供包括查詢、檢索、瀏覽、過濾、偏好設(shè)定等各種數(shù)據(jù)應(yīng)用服務(wù)。
13. 如權(quán)利要求12所述的視頻監(jiān)控管理系統(tǒng),其特征在于,所述視頻監(jiān)控管理系統(tǒng)還 包括一報(bào)警處理模塊,對(duì)所述視頻分析描述模塊產(chǎn)生的實(shí)時(shí)的報(bào)警信息進(jìn)行處理。
14. 如權(quán)利要求13所述的視頻監(jiān)控管理系統(tǒng),其特征在于,所述報(bào)警處理模塊包括聲 光報(bào)警裝置和詳細(xì)報(bào)警信息顯示裝置;所述聲光報(bào)警裝置主要通過聲音、閃光等手段提醒 相關(guān)人員注意;所述詳細(xì)報(bào)警信息顯示裝置則通過屏幕等裝置把報(bào)警時(shí)間、報(bào)警地點(diǎn)、報(bào)警 內(nèi)容等信息顯示給相關(guān)人員。
15. 如權(quán)利要求12所述的視頻監(jiān)控管理系統(tǒng),其特征在于,所述視頻圖像源包括監(jiān)控?cái)z像機(jī)、視頻文件、視頻信號(hào)發(fā)生裝置、視頻服務(wù)器、視頻分頻器和存儲(chǔ)視頻圖像的介質(zhì)。
16. 如權(quán)利要求12所述的視頻監(jiān)控管理系統(tǒng),其特征在于,所述視頻分析描述模塊的 工作模式包括自動(dòng)、半自動(dòng)和人工方式。
17. 如權(quán)利要求12所述的視頻監(jiān)控管理系統(tǒng),其特征在于,所述終端用戶進(jìn)行查詢或 檢索時(shí),可以根據(jù)相關(guān)性對(duì)查詢、檢索的結(jié)果進(jìn)行判斷、篩選或排序,并把相關(guān)信息反饋給 所述應(yīng)用服務(wù)模塊,所述應(yīng)用服務(wù)模塊根據(jù)反饋信息調(diào)整檢索方法和策略,提高檢索精度。
全文摘要
本發(fā)明的目的在于公開一種基于結(jié)構(gòu)化描述的視頻監(jiān)控管理方法及系統(tǒng),可以對(duì)視頻圖像進(jìn)行分析、理解,并產(chǎn)生結(jié)構(gòu)化描述數(shù)據(jù),視頻數(shù)據(jù)和描述數(shù)據(jù)之間存在著對(duì)應(yīng)關(guān)系,用戶通過對(duì)視頻描述數(shù)據(jù)的操作來實(shí)現(xiàn)對(duì)視頻圖像數(shù)據(jù)的查詢、瀏覽、檢索等信息化的應(yīng)用,工作性能穩(wěn)定可靠,適用范圍較為廣泛,解決了海量視頻數(shù)據(jù)分析和管理的問題,降低人工監(jiān)控的成本,提高了現(xiàn)有視頻監(jiān)控系統(tǒng)的智能化、信息化技術(shù)水平,實(shí)現(xiàn)本發(fā)明的目的。
文檔編號(hào)G06F17/30GK101778260SQ20091024739
公開日2010年7月14日 申請(qǐng)日期2009年12月29日 優(yōu)先權(quán)日2009年12月29日
發(fā)明者吳炬, 張鴻洲, 朱麗英, 梁辰, 梅林 , 沙淼淼, 胡傳平, 趙銳, 高鵬 申請(qǐng)人:公安部第三研究所