基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法

文檔序號(hào)：6334950閱讀：1191來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及的是一種視頻搜索技術(shù)領(lǐng)域的方法，具體是一種基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法。
背景技術(shù)：
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的迅速發(fā)展，網(wǎng)絡(luò)視頻的數(shù)量日趨龐大，已經(jīng)成為最為主要的互聯(lián)網(wǎng)信息傳遞媒介之一。對(duì)這些海量視頻數(shù)據(jù)進(jìn)行預(yù)覽、分析、分類和搜索成為了一個(gè)重要的研究課題。通常把視頻圖像表示為具有特征一致性的區(qū)域，該區(qū)域稱為視頻對(duì) 象，對(duì)其進(jìn)行壓縮和搜索，可以提高壓縮比和搜索效率。在基于內(nèi)容的視頻搜索中，語(yǔ)義是一個(gè)非常重要的概念。一般而言，視頻中具有語(yǔ)言學(xué)意義的物體稱為語(yǔ)義，以區(qū)分于普通的視頻對(duì)象。如飛機(jī)、教室、行人等都是語(yǔ)義。用戶能夠通過具有語(yǔ)義信息的關(guān)鍵詞對(duì)視頻進(jìn) 行搜索以得到期望的結(jié)果，這相對(duì)于傳統(tǒng)的文本關(guān)鍵詞搜索方法，在速度和準(zhǔn)確度上有相當(dāng)大的提升。因此，在視頻搜索領(lǐng)域中，視頻語(yǔ)義提取技術(shù)具有極大的研究?jī)r(jià)值。經(jīng)對(duì)現(xiàn)有技術(shù)檢索發(fā)現(xiàn)，中國(guó)專利文獻(xiàn)號(hào)CN101650728，公開了一種“視頻高層特征檢索系統(tǒng)及其實(shí)現(xiàn)”，該技術(shù)提取視頻關(guān)鍵幀圖像的底層特征(諸如顏色、形狀、紋理等)，并利用支持向量機(jī)(Support Vector Machine, SVM)對(duì)所提取的特征進(jìn)行分類，進(jìn)而提取相應(yīng)的視頻語(yǔ)義；進(jìn)一步檢索發(fā)現(xiàn)，北京郵電大學(xué)學(xué)報(bào)(2006年4月，第29卷，第2期)，題為基于支持向量機(jī)的視頻關(guān)鍵幀語(yǔ)義提取，提出了一種提取視頻關(guān)鍵幀的彩色直方圖和邊緣直方圖特征，使用多類支持向量機(jī)對(duì)特征進(jìn)行分類，從而獲得關(guān)鍵幀的語(yǔ)義的方法。上述文獻(xiàn)在視頻語(yǔ)義提取技術(shù)上提出了一些較好的方法，但仍存有一些缺陷，其主要問題是這些方法是對(duì)關(guān)鍵幀的整幅圖像提取全局特征和局部特征。然而，由于關(guān)鍵幀一般是由背景和視頻對(duì)象所組成，所以對(duì)于語(yǔ)義而言，提取的整幅圖像的特征是含有背景噪聲的特征，影響了視頻語(yǔ)義提取的準(zhǔn)確性。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足并針對(duì)視頻語(yǔ)義提取的精度要求，提供一種基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，通過分別提取鏡頭關(guān)鍵幀和視頻對(duì) 象的圖像特征，然后使用支持向量機(jī)對(duì)特征進(jìn)行分類和加權(quán)融合，最后確定視頻語(yǔ)義的方法。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的，本發(fā)明通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ) 義分類和基于關(guān)鍵幀特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算，即對(duì)于每一種語(yǔ)義所對(duì)應(yīng)的視頻對(duì)象的快速魯棒特征(Speeded Up Robust Features, SURF)、關(guān)鍵幀的SURF特征、顏色直方圖、邊緣直方圖和局部二進(jìn)制特征對(duì)應(yīng)的分類結(jié)果分別設(shè)置為A，ri; r2, r3和r4，其中巧的值為0或1，其權(quán)重分別為Wtl，W1, w2, W3和W4，其中0≤Wi≤1，Wi是預(yù)先對(duì)每一種語(yǔ)義的每種特征進(jìn)行的小樣本訓(xùn)練和測(cè)試所得的結(jié)果；然后根據(jù) ^ντ與閾值Τ。進(jìn)行比較確定
i=0
44
鏡頭中是否具有測(cè)試的語(yǔ)義，當(dāng)Σ1^^〉ι則該鏡頭中包含所測(cè)試的語(yǔ)義，反之Σμα-ι
Z=Oζ=09
則鏡頭中不包含該語(yǔ)義。所述的基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類，通過以下方式獲得第一步，通過檢測(cè)鏡頭內(nèi)相鄰幀對(duì)應(yīng)的像素點(diǎn)間的變化來(lái)構(gòu)造背景幀，具體為1. 1)讀取待檢測(cè)的鏡頭，將其第一幀作為初始化背景幀，設(shè)視頻幀的長(zhǎng)為m，寬為 η ；1.2)設(shè)置兩個(gè)的mXη矩陣，一個(gè)為計(jì)數(shù)矩陣Α，一個(gè)為標(biāo)志矩陣B，初始階段兩個(gè) 矩陣都是零矩陣，其中計(jì)數(shù)矩陣記錄幀間變化檢測(cè)中像素點(diǎn)連續(xù)不變的次數(shù)；標(biāo)志矩陣記錄像素點(diǎn)是否已被初始化；1.3)將第k幀和第k+Ι幀轉(zhuǎn)換成灰度圖像并相減當(dāng)在位置(i，j)上的像素點(diǎn)灰度值的差為0，那么計(jì)數(shù)矩陣A的元素的值加1，反之= 0 ；1. 4)搜索計(jì)數(shù)矩陣A的所有元素，當(dāng)> Τ,則標(biāo)志矩陣B相應(yīng)位置的元素= 1，同時(shí)把位置(i，j)上的像素點(diǎn)的值賦給背景幀的相應(yīng)位置的像素點(diǎn)；1.5)當(dāng)標(biāo)志矩陣B所有的元素都為1或者該鏡頭結(jié)束時(shí)，背景幀構(gòu)造完畢。第二步，提取被檢測(cè)鏡頭中的關(guān)鍵幀，查找關(guān)鍵幀中與背景幀不同的區(qū)域，以此作為視頻對(duì)象候選區(qū)域。第三步，采用靜態(tài)圖像陰影檢測(cè)方法消除視頻對(duì)象候選區(qū)域中的陰影區(qū)域。第四步，提取視頻對(duì)象的快速魯棒特征(Speeded Up Robust Features，SURF)，然后利用支持向量機(jī)對(duì)SURF特征分類，具體為4. 1)使用快速Hessian方法對(duì)視頻對(duì)象的圖像進(jìn)行特征點(diǎn)檢測(cè)。4. 2)通過計(jì)算特征點(diǎn)鄰接圓域內(nèi)χ、y方向上的Haar小波響應(yīng)來(lái)獲得主方向，在特征點(diǎn)選擇一塊大小與尺度相應(yīng)的方形區(qū)域，分成64塊，統(tǒng)計(jì)每一塊的dx，dy, I dx I，I dy 的累積和，獲得64維特征向量。4. 3)預(yù)先完成對(duì)大量的樣本提取SURF特征，并應(yīng)用K-means算法進(jìn)行聚類以獲得聚類中心，形成詞匯數(shù)量為η的視覺詞匯(Bag of Visual Words, BOVff)庫(kù)。對(duì)于視頻對(duì)象的圖像，計(jì)算它的每一個(gè)特征點(diǎn)與BOVW中詞匯的距離，由此判斷這個(gè)特征點(diǎn)屬于哪一個(gè)詞匯，然后統(tǒng)計(jì)這個(gè)視頻中每個(gè)詞匯出現(xiàn)的頻率，在此過程中，通過soft-weighting的策略，計(jì)算與某個(gè)特征點(diǎn)距離最近的4個(gè)詞匯，分別給予權(quán)重1、0. 5、 0. 25,0. 125，統(tǒng)計(jì)到最后的直方圖中，以此提高識(shí)別的準(zhǔn)確率。該直方圖矢量化后即為該視頻的BOVW特征向量，向量的長(zhǎng)度等于視頻詞匯的數(shù)量。4. 4)使用支持向量機(jī)分類器，把提取的視覺詞匯特征和預(yù)先訓(xùn)練好的視頻語(yǔ)義特征文件進(jìn)行匹配分類，得到視頻對(duì)象分類結(jié)果。預(yù)先完成訓(xùn)練的視頻語(yǔ)義為飛機(jī)、輪船、公共汽車、城市景觀、教室、游行人群、手、夜景、唱歌和電話。所述的基于關(guān)鍵幀特征的視頻語(yǔ)義分類，通過以下方式獲得步驟一，提取鏡頭關(guān)鍵幀圖像的全局特征和局部特征。
所述的全局特征包括顏色直方圖、邊緣直方圖、局部二進(jìn)制特征和SURF特征。步驟二，采用支持向量機(jī)對(duì)已知語(yǔ)義的圖像的特征進(jìn)行預(yù)先訓(xùn)練，生成訓(xùn)練文件。所述的預(yù)先訓(xùn)練的視頻關(guān)鍵幀中可能包括飛機(jī)、輪船、公共汽車、城市景觀、教室、游行人群、手、夜景、唱歌和電話等視頻語(yǔ)義。步驟三，使用支持向量機(jī)測(cè)試，把提取的每一種特征和預(yù)先訓(xùn)練好的語(yǔ)義的對(duì)應(yīng) 的特征文件進(jìn)行匹配，以得到分類結(jié)果。與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是本發(fā)明利用基于背景幀構(gòu)造的視頻對(duì)象提取方法提取視頻對(duì)象區(qū)域，然后分別利用支持向量機(jī)對(duì)視頻關(guān)鍵幀的整幅圖像和關(guān)鍵幀內(nèi)的視頻對(duì)象區(qū)域所提取的特征進(jìn)行分類，把兩者的結(jié)果加權(quán)計(jì)算以得出最終的分類結(jié) 果。相比傳統(tǒng)的對(duì)整幅圖像提取特征進(jìn)行建模并分類的方法，一方面由于分離背景，去除背景噪聲，提高了語(yǔ)義分類的精確性；另一方面，考慮到視頻對(duì)象的提取可能出現(xiàn)的誤差以及靜止的視頻語(yǔ)義，同時(shí)使用傳統(tǒng)的方法進(jìn)行分類。最后根據(jù)小樣本測(cè)試結(jié)果分別給予兩種方法得出的分類結(jié)果一定的權(quán)重計(jì)算出最終結(jié)果。兩種方法的結(jié)合使得語(yǔ)義提取的正確性得以提高。

圖1是本發(fā)明的總體流程示意圖。圖2是本發(fā)明的基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類提取的流程圖。圖3是本發(fā)明的支持向量機(jī)訓(xùn)練及分類流程圖。圖4是本發(fā)明的視頻關(guān)鍵幀的整幅圖像的語(yǔ)義提取流程圖。
具體實(shí)施例方式以下結(jié)合附圖對(duì)本發(fā)明的方法進(jìn)一步描述本實(shí)施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施，給出了詳細(xì)的實(shí)施方式和具體的操作過程，但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。如圖1所示，本實(shí)施例通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類和基于關(guān)鍵幀特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算，然后根據(jù)加權(quán)結(jié)果與與閾值進(jìn)行比較確定鏡頭中是否具有測(cè)試的語(yǔ)義。基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類提取的流程如圖2所示，其具體步驟為第一步，構(gòu)造待檢測(cè)鏡頭的背景幀，具體為a)設(shè)B(i，j，k)為第k幀構(gòu)造的背景圖像，其中(i，j)為像素點(diǎn)位置；f(i, j，k) 表示序列中第k幀圖像。讀取待檢測(cè)的鏡頭，將其第一幀作為初始化背景幀，即B(i，j，l) = f(i，j，l)。設(shè)視頻幀的長(zhǎng)為m，寬為η。b)設(shè)置兩個(gè)的mXn矩陣，一個(gè)為計(jì)數(shù)矩陣A，一個(gè)為標(biāo)志矩陣B，初始階段兩個(gè)矩陣都是零矩陣。其中，計(jì)數(shù)矩陣記錄幀間變化檢測(cè)中像素點(diǎn)連續(xù)不變的次數(shù)；標(biāo)志矩陣記錄像素點(diǎn)是否已被初始化。c)將第k幀和第k+Ι幀轉(zhuǎn)換成灰度圖像并相減。當(dāng)在位置(i，j)上的像素點(diǎn)的差值為0，那么計(jì)數(shù)矩陣A的元素的值加1，反之= 0。 d)搜索計(jì)數(shù)矩陣A的所有元素，當(dāng)> T (本實(shí)施例中閾值T設(shè)為12)，那么令標(biāo)志矩陣B相應(yīng)位置的元素bij= 1，同時(shí)把位置(i，j)上的像素點(diǎn)的值賦給背景幀的相應(yīng)位置的像素點(diǎn)，即 B(i，j，k) = f (i，j，k)。e)當(dāng)標(biāo)志矩陣B所有的元素都為1或者該鏡頭結(jié)束時(shí)，背景幀構(gòu)造完畢。第二步，從上述的鏡頭中提取關(guān)鍵幀，查找關(guān)鍵幀中與背景幀不同的區(qū)域，以此作為視頻對(duì)象候選區(qū)域。第三步，視頻對(duì)象候選區(qū)域一般是由視頻對(duì)象和其陰影組成，陰影對(duì)后續(xù)的支持向量機(jī)建模分類會(huì)產(chǎn)生誤差，因此必須消除陰影區(qū)域。E.Salvador，A. Caval Iaro, Τ.Ebrahimi 于 2001 ^ JC Shadow identification and classification using invariant color models中提出的基于C1C2C3模型的靜態(tài)圖像陰影檢測(cè)方法效果優(yōu)良，因此本實(shí)施例采用此方法對(duì)視頻對(duì)象候選區(qū)域進(jìn)行陰影區(qū)域檢測(cè)和消除。第四步，提取視頻對(duì)象的SURF特征，SURF特征具有良好的尺度不變性、旋轉(zhuǎn)不變性、亮度不變性和仿射不變性，而且計(jì)算效率高；然后利用支持向量機(jī)對(duì)特征分類，具體為a)把視頻對(duì)象的圖像轉(zhuǎn)換成積分圖，選取不同大小的箱式濾波器建立圖像的尺度空間，使用快速Hessian方法檢測(cè)每一層圖像上的極值點(diǎn)，這些極值點(diǎn)就是圖像的特征點(diǎn)。b)以特征點(diǎn)為中心，計(jì)算它的鄰接圓域內(nèi)X、y方向上的Haar小波響應(yīng)來(lái)獲得主方向。選定特征點(diǎn)主方向后，以特征點(diǎn)為中心，將坐標(biāo)軸旋轉(zhuǎn)到主方向，選擇一塊大小與尺度相應(yīng)的方形區(qū)域，分成64塊，統(tǒng)計(jì)每一塊的dx，dy，I dx I，I dy |的累積和，獲得64維特征向量。c)預(yù)先完成對(duì)大量的樣本提取SURF特征，并應(yīng)用K-means算法進(jìn)行聚類以獲得聚類中心，形成詞匯數(shù)量為η的視覺詞匯庫(kù)，本實(shí)施例中η的值設(shè)為500。對(duì)于視頻對(duì)象的圖像，計(jì)算它的每一個(gè)特征點(diǎn)與BOVW中詞匯的距離，由此判斷這個(gè)特征點(diǎn)屬于哪一個(gè)詞匯，然后統(tǒng)計(jì)這個(gè)視頻中每個(gè)詞匯出現(xiàn)的頻率，在此過程中，通過soft-weighting的策略，計(jì)算與某個(gè)特征點(diǎn)距離最近的4個(gè)詞匯，分別給予權(quán)重1、0. 5、 0. 25,0. 125，統(tǒng)計(jì)到最后的直方圖中，以此提高識(shí)別的準(zhǔn)確率。該直方圖矢量化后即為該視頻的BOVW特征向量，向量的長(zhǎng)度等于視頻詞匯的數(shù)量，即500維。d)預(yù)先已完成SVM分類器對(duì)已知語(yǔ)義的視頻對(duì)象的BOVW特征的訓(xùn)練。本實(shí)施例中的測(cè)試語(yǔ)義為TRECVID 2010中語(yǔ)義索引輕量級(jí)比賽項(xiàng)目所指定的的10種語(yǔ)義，其分別為飛機(jī)、輪船、公共汽車、城市景觀、教室、游行人群、手、夜景、唱歌和電話，每一類都已生成訓(xùn)練文件。已知語(yǔ)義的訓(xùn)練樣本是由人工選擇的合適的正負(fù)樣本，在本實(shí)施例中正負(fù)樣本集的比例為1 3，其正樣本中包含所要測(cè)試的10種語(yǔ)義種的一種，而負(fù)樣本則不包括該語(yǔ) 義。使用SVM分類器對(duì)測(cè)試的特征和預(yù)先訓(xùn)練好的語(yǔ)義特征文件進(jìn)行匹配，以確定該對(duì)象屬于哪一類語(yǔ)義。其分類流程如圖3所示，若該視頻對(duì)象屬于某一語(yǔ)義，則在這語(yǔ)義下標(biāo)記為1，否則標(biāo)記為0?；陉P(guān)鍵幀特征的視頻語(yǔ)義分類提取方法如圖4所示，具體步驟為第一步，提取鏡頭關(guān)鍵幀圖像的全局特征和局部特征。全局特征包括顏色、邊緣和紋理特征；局部特征選用具有良好的尺度不變性的SURF特征。選取這些特征的原因是顏色是圖像重要的視覺特征，它和圖像中所包含的物體或場(chǎng)景十分相關(guān)。顏色特征對(duì)圖像本身的尺寸、方向、視角及背景復(fù)雜度等的依賴性較小，因此較為可靠。本實(shí)施例中，顏色特征選用了顏色直方圖(Color Histogram)，它是最常用的表達(dá)顏色特征的方法，其優(yōu)點(diǎn)是不受圖像旋轉(zhuǎn)和平移變化的影響，進(jìn)一步借助歸一化還可不受圖像尺度變化的影響。邊緣特征反映了圖像中物體形狀的輪廓，本實(shí)施例中邊緣特征選用邊緣直方圖(EdgeHistogram)。紋理特征是不依賴于顏色或灰度的反映圖像中同質(zhì) 現(xiàn)象的視覺特征，它是所有物體表面共有的內(nèi)在特性。本實(shí)施例中紋理特征選用局部二進(jìn) 制特征(LBP)。第二步，使用支持向量機(jī)預(yù)先完成對(duì)已知語(yǔ)義的圖像四種特征的訓(xùn)練。語(yǔ)義分為飛機(jī)、輪船、公共汽車、城市景觀、教室、游行人群、手、夜景、唱歌和電話10種，對(duì)每一類都有已生成的訓(xùn)練文件。已知語(yǔ)義的訓(xùn)練樣本是由人工選擇的合適的正負(fù)樣本，在本實(shí)施例中正負(fù)樣本集的比例為1 3，其正樣本中包含所要測(cè)試的10種語(yǔ)義種的一種，而負(fù)樣本則不包括該語(yǔ)義。使用支持向量機(jī)測(cè)試，把提取的每一種特征和預(yù)先訓(xùn)練好的語(yǔ)義的相對(duì)應(yīng) 的特征文件進(jìn)行匹配，以得到分類結(jié)果。每一種特征的分類流程如圖3所示，具體為a)輸入待檢測(cè)關(guān)鍵幀的特征向量(顏色、邊緣、紋理、BOW)。b)與生成的訓(xùn)練文件進(jìn)行匹配。c)當(dāng)屬于測(cè)試的語(yǔ)義標(biāo)記為1，否則標(biāo)記為0。上述分類是并行的流程，提高了特征分類、語(yǔ)義提取的效率。如圖1所示，對(duì)上述兩部分所得的結(jié)果進(jìn)行加權(quán)計(jì)算以得到最終的結(jié)果。對(duì)于每一種語(yǔ)義，令其視頻對(duì)象SURF特征、關(guān)鍵幀SURF特征、顏色直方圖、邊緣直方圖和局部二進(jìn) 制特征對(duì)應(yīng)的分類結(jié)果分別為4，ri; r2, 1~3和r4，其中ri的值為0或1，其權(quán)重分別為Wtl， Wl，w2，W3和W4，其中OSwiS 1。預(yù)先已完成每一種語(yǔ)義的每種特征的小樣本測(cè)試，其具體
44
權(quán)重分配如表ι所示。根據(jù)ΣΜ々與閾值τ。比較確定鏡頭的語(yǔ)義類別若Σ則該鏡
i=0 i=0
4
頭中包含測(cè)試的語(yǔ)義，反之ΣwZ ^tC，則不包含。在該實(shí)施例中Τ。= 3。
Z=O表1中數(shù)據(jù)的說明在本實(shí)施例中，對(duì)50個(gè)包含飛機(jī)語(yǔ)義的鏡頭進(jìn)行特征提取，然后對(duì)每一種特征進(jìn)行測(cè)試，獲得它的預(yù)測(cè)準(zhǔn)確率作為權(quán)重值，其余幾種語(yǔ)義的權(quán)重值獲取方式與飛機(jī)一致。表 權(quán)利要求
一種基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，其特征在于，通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類和基于關(guān)鍵幀特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算，即對(duì)于每一種語(yǔ)義所對(duì)應(yīng)的視頻對(duì)象的快速魯棒特征、關(guān)鍵幀的SURF特征、顏色直方圖、邊緣直方圖和局部二進(jìn)制特征對(duì)應(yīng)的分類結(jié)果分別設(shè)置為r0，r1，r2，r3和r4，其中ri的值為0或1，其權(quán)重分別為w0，w1，w2，w3和w4，其中0≤wi≤1，wi是預(yù)先對(duì)每一種語(yǔ)義的每種特征進(jìn)行的小樣本訓(xùn)練和測(cè)試所得的結(jié)果；然后根據(jù)與閾值Tc進(jìn)行比較確定鏡頭中是否具有測(cè)試的語(yǔ)義，當(dāng)則該鏡頭中包含所測(cè)試的語(yǔ)義，反之則鏡頭中不包含該語(yǔ)義。FDA0000030578260000011.tif,FDA0000030578260000012.tif,FDA0000030578260000013.tif
2.根據(jù)權(quán)利要求1所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，其特征是，所述的基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類，通過以下方式獲得第一步，通過檢測(cè)鏡頭內(nèi)相鄰幀對(duì)應(yīng)的像素點(diǎn)間的變化來(lái)構(gòu)造背景幀；第二步，提取被檢測(cè)鏡頭中的關(guān)鍵幀，查找關(guān)鍵幀中與背景幀不同的區(qū)域，以此作為視頻對(duì)象候選區(qū)域；第三步，采用靜態(tài)圖像陰影檢測(cè)方法消除視頻對(duì)象候選區(qū)域中的陰影區(qū)域；第四步，提取視頻對(duì)象的快速魯棒特征，然后利用支持向量機(jī)對(duì)SURF特征分類。
3.根據(jù)權(quán)利要求2所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，其特征是，所述的構(gòu)造背景幀包括以下步驟·1. 1)讀取待檢測(cè)的鏡頭，將其第一幀作為初始化背景幀，設(shè)視頻幀的長(zhǎng)為m，寬為η ； 1. 2)設(shè)置兩個(gè)的mXn矩陣，一個(gè)為計(jì)數(shù)矩陣A，一個(gè)為標(biāo)志矩陣B，初始階段兩個(gè)矩陣都是零矩陣，其中計(jì)數(shù)矩陣記錄幀間變化檢測(cè)中像素點(diǎn)連續(xù)不變的次數(shù)；標(biāo)志矩陣記錄像素點(diǎn)是否已被初始化；·1.3)將第k幀和第k+Ι幀轉(zhuǎn)換成灰度圖像并相減當(dāng)在位置(i，j)上的像素點(diǎn)灰度值的差為0，那么計(jì)數(shù)矩陣A的元素的值加1，反之= 0 ；·1. 4)搜索計(jì)數(shù)矩陣A的所有元素，當(dāng)> Τ,則標(biāo)志矩陣B相應(yīng)位置的元素= 1，同時(shí)把位置(i，j)上的像素點(diǎn)的值賦給背景幀的相應(yīng)位置的像素點(diǎn)；·1.5)當(dāng)標(biāo)志矩陣B所有的元素都為1或者該鏡頭結(jié)束時(shí)，背景幀構(gòu)造完畢。
4.根據(jù)權(quán)利要求2所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，其特征是，所述的對(duì)SURF特征分類包括以下步驟·4. 1)使用快速Hessian方法對(duì)視頻對(duì)象的圖像進(jìn)行特征點(diǎn)檢測(cè)； 4. 2)通過計(jì)算特征點(diǎn)鄰接圓域內(nèi)χ、y方向上的Haar小波響應(yīng)來(lái)獲得主方向，在特征點(diǎn)選擇一塊大小與尺度相應(yīng)的方形區(qū)域，分成64塊，統(tǒng)計(jì)每一塊的dx，dy，dx|, |dy|的累積和，獲得64維特征向量；·4. 3)預(yù)先完成對(duì)大量的樣本提取SURF特征，并應(yīng)用K-means算法進(jìn)行聚類以獲得聚類中心，形成詞匯數(shù)量為η的視覺詞匯庫(kù)；·4. 4)使用支持向量機(jī)分類器，把提取的視覺詞匯特征和預(yù)先訓(xùn)練好的視頻語(yǔ)義特征文件進(jìn)行匹配分類，得到視頻對(duì)象分類結(jié)果。
5.根據(jù)權(quán)利要求4所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，其特征是，所述的聚類是指對(duì)于視頻對(duì)象的圖像，計(jì)算它的每一個(gè)特征點(diǎn)與BOVW中詞匯的距離，由此判斷這個(gè)特征點(diǎn)屬于哪一個(gè)詞匯，然后統(tǒng)計(jì)這個(gè)視頻中每個(gè)詞匯出現(xiàn)的頻率，在此過程中，通過soft-weighting的策略，計(jì)算與某個(gè)特征點(diǎn)距離最近的4個(gè)詞匯，分別給予權(quán)重 1、0. 5,0. 25,0. 125，統(tǒng)計(jì)到最后的直方圖中，以此提高識(shí)別的準(zhǔn)確率，該直方圖矢量化后即為該視頻的BOVW特征向量，向量的長(zhǎng)度等于視頻詞匯的數(shù)量。
6.根據(jù)權(quán)利要求1所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，其特征是，所述的基于關(guān)鍵幀特征的視頻語(yǔ)義分類，通過以下方式獲得步驟一，提取鏡頭關(guān)鍵幀圖像的全局特征和局部特征；步驟二，采用支持向量機(jī)對(duì)已知語(yǔ)義的圖像的特征進(jìn)行預(yù)先訓(xùn)練，生成訓(xùn)練文件；步驟三，使用支持向量機(jī)測(cè)試，把提取的每一種特征和預(yù)先訓(xùn)練好的語(yǔ)義的對(duì)應(yīng)的特征文件進(jìn)行匹配，以得到分類結(jié)果。
7.根據(jù)權(quán)利要求6所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，其特征是，所述的全局特征包括顏色直方圖、邊緣直方圖、局部二進(jìn)制特征和SURF特征。
全文摘要
一種視頻搜索技術(shù)領(lǐng)域的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法，通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類和基于關(guān)鍵幀特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算，即對(duì)于每一種語(yǔ)義所對(duì)應(yīng)的視頻對(duì)象的快速魯棒特征、關(guān)鍵幀的SURF特征、顏色直方圖、邊緣直方圖和局部二進(jìn)制特征對(duì)應(yīng)的分類結(jié)果分別加權(quán)求和后與閾值比較確定鏡頭中是否具有測(cè)試的語(yǔ)義。本發(fā)明由于分離背景，去除背景噪聲，提高了語(yǔ)義分類的精確性；同時(shí)考慮到視頻對(duì)象的提取可能出現(xiàn)的誤差以及靜止的視頻語(yǔ)義，使用傳統(tǒng)的方法進(jìn)行分類。兩種方法的結(jié)合使得語(yǔ)義提取的正確性得以提高。
文檔編號(hào)G06F17/30GK101976258SQ20101052973
公開日2011年2月16日申請(qǐng)日期2010年11月3日優(yōu)先權(quán)日2010年11月3日
發(fā)明者唐峰, 孫錟鋒, 於人則, 蔣興浩, 蔣呈明申請(qǐng)人:上海交通大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣興浩;孫錟鋒;唐峰;於人則;蔣呈明
技術(shù)所有人：上海交通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)義對(duì)象模型相關(guān)技術(shù)

語(yǔ)義分割相關(guān)技術(shù)

圖像語(yǔ)義分割相關(guān)技術(shù)

什么是圖像語(yǔ)義分割相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法