專利名稱:基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種視頻搜索技術(shù)領(lǐng)域的方法,具體是一種基于對(duì)象分割和特征 加權(quán)融合的視頻語(yǔ)義提取方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)視頻的數(shù)量日趨龐大,已經(jīng)成為最為 主要的互聯(lián)網(wǎng)信息傳遞媒介之一。對(duì)這些海量視頻數(shù)據(jù)進(jìn)行預(yù)覽、分析、分類和搜索成為了 一個(gè)重要的研究課題。通常把視頻圖像表示為具有特征一致性的區(qū)域,該區(qū)域稱為視頻對(duì) 象,對(duì)其進(jìn)行壓縮和搜索,可以提高壓縮比和搜索效率。在基于內(nèi)容的視頻搜索中,語(yǔ)義是 一個(gè)非常重要的概念。一般而言,視頻中具有語(yǔ)言學(xué)意義的物體稱為語(yǔ)義,以區(qū)分于普通的 視頻對(duì)象。如飛機(jī)、教室、行人等都是語(yǔ)義。用戶能夠通過具有語(yǔ)義信息的關(guān)鍵詞對(duì)視頻進(jìn) 行搜索以得到期望的結(jié)果,這相對(duì)于傳統(tǒng)的文本關(guān)鍵詞搜索方法,在速度和準(zhǔn)確度上有相 當(dāng)大的提升。因此,在視頻搜索領(lǐng)域中,視頻語(yǔ)義提取技術(shù)具有極大的研究?jī)r(jià)值。經(jīng)對(duì)現(xiàn)有技術(shù)檢索發(fā)現(xiàn),中國(guó)專利文獻(xiàn)號(hào)CN101650728,公開了一種“視頻高層 特征檢索系統(tǒng)及其實(shí)現(xiàn)”,該技術(shù)提取視頻關(guān)鍵幀圖像的底層特征(諸如顏色、形狀、紋理 等),并利用支持向量機(jī)(Support Vector Machine, SVM)對(duì)所提取的特征進(jìn)行分類,進(jìn)而 提取相應(yīng)的視頻語(yǔ)義;進(jìn)一步檢索發(fā)現(xiàn),北京郵電大學(xué)學(xué)報(bào)(2006年4月,第29卷,第2期),題為基于 支持向量機(jī)的視頻關(guān)鍵幀語(yǔ)義提取,提出了一種提取視頻關(guān)鍵幀的彩色直方圖和邊緣直方 圖特征,使用多類支持向量機(jī)對(duì)特征進(jìn)行分類,從而獲得關(guān)鍵幀的語(yǔ)義的方法。上述文獻(xiàn)在視頻語(yǔ)義提取技術(shù)上提出了 一些較好的方法,但仍存有一些缺陷,其 主要問題是這些方法是對(duì)關(guān)鍵幀的整幅圖像提取全局特征和局部特征。然而,由于關(guān)鍵幀 一般是由背景和視頻對(duì)象所組成,所以對(duì)于語(yǔ)義而言,提取的整幅圖像的特征是含有背景 噪聲的特征,影響了視頻語(yǔ)義提取的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足并針對(duì)視頻語(yǔ)義提取的精度要求,提供一 種基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,通過分別提取鏡頭關(guān)鍵幀和視頻對(duì) 象的圖像特征,然后使用支持向量機(jī)對(duì)特征進(jìn)行分類和加權(quán)融合,最后確定視頻語(yǔ)義的方法。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的,本發(fā)明通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ) 義分類和基于關(guān)鍵幀特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算,即對(duì)于每一種語(yǔ)義所對(duì)應(yīng)的視頻 對(duì)象的快速魯棒特征(Speeded Up Robust Features, SURF)、關(guān)鍵幀的SURF特征、顏色直 方圖、邊緣直方圖和局部二進(jìn)制特征對(duì)應(yīng)的分類結(jié)果分別設(shè)置為A,ri; r2, r3和r4,其中巧 的值為0或1,其權(quán)重分別為Wtl,W1, w2, W3和W4,其中0≤Wi≤1,Wi是預(yù)先對(duì)每一種語(yǔ)義的每種特征進(jìn)行的小樣本訓(xùn)練和測(cè)試所得的結(jié)果;然后根據(jù) ^ντ與閾值Τ。進(jìn)行比較確定
i=0
44
鏡頭中是否具有測(cè)試的語(yǔ)義,當(dāng)Σ1^^〉ι則該鏡頭中包含所測(cè)試的語(yǔ)義,反之Σμα-ι
Z=Oζ=09
則鏡頭中不包含該語(yǔ)義。所述的基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類,通過以下方式獲得第一步,通過檢測(cè)鏡頭內(nèi)相鄰幀對(duì)應(yīng)的像素點(diǎn)間的變化來(lái)構(gòu)造背景幀,具體為1. 1)讀取待檢測(cè)的鏡頭,將其第一幀作為初始化背景幀,設(shè)視頻幀的長(zhǎng)為m,寬為 η ;1.2)設(shè)置兩個(gè)的mXη矩陣,一個(gè)為計(jì)數(shù)矩陣Α,一個(gè)為標(biāo)志矩陣B,初始階段兩個(gè) 矩陣都是零矩陣,其中計(jì)數(shù)矩陣記錄幀間變化檢測(cè)中像素點(diǎn)連續(xù)不變的次數(shù);標(biāo)志矩陣 記錄像素點(diǎn)是否已被初始化;1.3)將第k幀和第k+Ι幀轉(zhuǎn)換成灰度圖像并相減當(dāng)在位置(i,j)上的像素點(diǎn)灰 度值的差為0,那么計(jì)數(shù)矩陣A的元素的值加1,反之= 0 ;1. 4)搜索計(jì)數(shù)矩陣A的所有元素,當(dāng)> Τ,則標(biāo)志矩陣B相應(yīng)位置的元素= 1,同時(shí)把位置(i,j)上的像素點(diǎn)的值賦給背景幀的相應(yīng)位置的像素點(diǎn);1.5)當(dāng)標(biāo)志矩陣B所有的元素都為1或者該鏡頭結(jié)束時(shí),背景幀構(gòu)造完畢。第二步,提取被檢測(cè)鏡頭中的關(guān)鍵幀,查找關(guān)鍵幀中與背景幀不同的區(qū)域,以此作 為視頻對(duì)象候選區(qū)域。第三步,采用靜態(tài)圖像陰影檢測(cè)方法消除視頻對(duì)象候選區(qū)域中的陰影區(qū)域。第四步,提取視頻對(duì)象的快速魯棒特征(Speeded Up Robust Features,SURF),然 后利用支持向量機(jī)對(duì)SURF特征分類,具體為4. 1)使用快速Hessian方法對(duì)視頻對(duì)象的圖像進(jìn)行特征點(diǎn)檢測(cè)。4. 2)通過計(jì)算特征點(diǎn)鄰接圓域內(nèi)χ、y方向上的Haar小波響應(yīng)來(lái)獲得主方向,在 特征點(diǎn)選擇一塊大小與尺度相應(yīng)的方形區(qū)域,分成64塊,統(tǒng)計(jì)每一塊的dx,dy, I dx I,I dy 的累積和,獲得64維特征向量。4. 3)預(yù)先完成對(duì)大量的樣本提取SURF特征,并應(yīng)用K-means算法進(jìn)行聚類以獲得 聚類中心,形成詞匯數(shù)量為η的視覺詞匯(Bag of Visual Words, BOVff)庫(kù)。對(duì)于視頻對(duì)象的圖像,計(jì)算它的每一個(gè)特征點(diǎn)與BOVW中詞匯的距離,由此判斷 這個(gè)特征點(diǎn)屬于哪一個(gè)詞匯,然后統(tǒng)計(jì)這個(gè)視頻中每個(gè)詞匯出現(xiàn)的頻率,在此過程中,通 過soft-weighting的策略,計(jì)算與某個(gè)特征點(diǎn)距離最近的4個(gè)詞匯,分別給予權(quán)重1、0. 5、 0. 25,0. 125,統(tǒng)計(jì)到最后的直方圖中,以此提高識(shí)別的準(zhǔn)確率。該直方圖矢量化后即為該視 頻的BOVW特征向量,向量的長(zhǎng)度等于視頻詞匯的數(shù)量。4. 4)使用支持向量機(jī)分類器,把提取的視覺詞匯特征和預(yù)先訓(xùn)練好的視頻語(yǔ)義特 征文件進(jìn)行匹配分類,得到視頻對(duì)象分類結(jié)果。預(yù)先完成訓(xùn)練的視頻語(yǔ)義為飛機(jī)、輪船、公 共汽車、城市景觀、教室、游行人群、手、夜景、唱歌和電話。所述的基于關(guān)鍵幀特征的視頻語(yǔ)義分類,通過以下方式獲得步驟一,提取鏡頭關(guān)鍵幀圖像的全局特征和局部特征。
所述的全局特征包括顏色直方圖、邊緣直方圖、局部二進(jìn)制特征和SURF特征。步驟二,采用支持向量機(jī)對(duì)已知語(yǔ)義的圖像的特征進(jìn)行預(yù)先訓(xùn)練,生成訓(xùn)練文件。所述的預(yù)先訓(xùn)練的視頻關(guān)鍵幀中可能包括飛機(jī)、輪船、公共汽車、城市景觀、教室、 游行人群、手、夜景、唱歌和電話等視頻語(yǔ)義。步驟三,使用支持向量機(jī)測(cè)試,把提取的每一種特征和預(yù)先訓(xùn)練好的語(yǔ)義的對(duì)應(yīng) 的特征文件進(jìn)行匹配,以得到分類結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是本發(fā)明利用基于背景幀構(gòu)造的視頻對(duì)象 提取方法提取視頻對(duì)象區(qū)域,然后分別利用支持向量機(jī)對(duì)視頻關(guān)鍵幀的整幅圖像和關(guān)鍵幀 內(nèi)的視頻對(duì)象區(qū)域所提取的特征進(jìn)行分類,把兩者的結(jié)果加權(quán)計(jì)算以得出最終的分類結(jié) 果。相比傳統(tǒng)的對(duì)整幅圖像提取特征進(jìn)行建模并分類的方法,一方面由于分離背景,去除背 景噪聲,提高了語(yǔ)義分類的精確性;另一方面,考慮到視頻對(duì)象的提取可能出現(xiàn)的誤差以及 靜止的視頻語(yǔ)義,同時(shí)使用傳統(tǒng)的方法進(jìn)行分類。最后根據(jù)小樣本測(cè)試結(jié)果分別給予兩種 方法得出的分類結(jié)果一定的權(quán)重計(jì)算出最終結(jié)果。兩種方法的結(jié)合使得語(yǔ)義提取的正確性 得以提高。
圖1是本發(fā)明的總體流程示意圖。圖2是本發(fā)明的基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類提取的流程圖。圖3是本發(fā)明的支持向量機(jī)訓(xùn)練及分類流程圖。圖4是本發(fā)明的視頻關(guān)鍵幀的整幅圖像的語(yǔ)義提取流程圖。
具體實(shí)施例方式以下結(jié)合附圖對(duì)本發(fā)明的方法進(jìn)一步描述本實(shí)施例在以本發(fā)明技術(shù)方案為前提 下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述 的實(shí)施例。如圖1所示,本實(shí)施例通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類和基于關(guān)鍵幀 特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算,然后根據(jù)加權(quán)結(jié)果與與閾值進(jìn)行比較確定鏡頭中是否 具有測(cè)試的語(yǔ)義。基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類提取的流程如圖2所示,其具體步驟為第一步,構(gòu)造待檢測(cè)鏡頭的背景幀,具體為a)設(shè)B(i,j,k)為第k幀構(gòu)造的背景圖像,其中(i,j)為像素點(diǎn)位置;f(i, j,k) 表示序列中第k幀圖像。讀取待檢測(cè)的鏡頭,將其第一幀作為初始化背景幀,即B(i,j,l) = f(i,j,l)。設(shè)視頻幀的長(zhǎng)為m,寬為η。b)設(shè)置兩個(gè)的mXn矩陣,一個(gè)為計(jì)數(shù)矩陣A,一個(gè)為標(biāo)志矩陣B,初始階段兩個(gè)矩 陣都是零矩陣。其中,計(jì)數(shù)矩陣記錄幀間變化檢測(cè)中像素點(diǎn)連續(xù)不變的次數(shù);標(biāo)志矩陣記錄 像素點(diǎn)是否已被初始化。c)將第k幀和第k+Ι幀轉(zhuǎn)換成灰度圖像并相減。當(dāng)在位置(i,j)上的像素點(diǎn)的 差值為0,那么計(jì)數(shù)矩陣A的元素的值加1,反之= 0。 d)搜索計(jì)數(shù)矩陣A的所有元素,當(dāng)> T (本實(shí)施例中閾值T設(shè)為12),那么令標(biāo)志矩陣B相應(yīng)位置的元素bij= 1,同時(shí)把位置(i,j)上的像素點(diǎn)的值賦給背景幀的相應(yīng)位 置的像素點(diǎn),即 B(i,j,k) = f (i,j,k)。e)當(dāng)標(biāo)志矩陣B所有的元素都為1或者該鏡頭結(jié)束時(shí),背景幀構(gòu)造完畢。第二步,從上述的鏡頭中提取關(guān)鍵幀,查找關(guān)鍵幀中與背景幀不同的區(qū)域,以此作 為視頻對(duì)象候選區(qū)域。第三步,視頻對(duì)象候選區(qū)域一般是由視頻對(duì)象和其陰影組成,陰影對(duì)后續(xù)的支 持向量機(jī)建模分類會(huì)產(chǎn)生誤差,因此必須消除陰影區(qū)域。E.Salvador,A. Caval Iaro, Τ.Ebrahimi 于 2001 ^ JC Shadow identification and classification using invariant color models中提出的基于C1C2C3模型的靜態(tài)圖像陰影檢測(cè)方法效果優(yōu)良,因 此本實(shí)施例采用此方法對(duì)視頻對(duì)象候選區(qū)域進(jìn)行陰影區(qū)域檢測(cè)和消除。第四步,提取視頻對(duì)象的SURF特征,SURF特征具有良好的尺度不變性、旋轉(zhuǎn)不 變性、亮度不變性和仿射不變性,而且計(jì)算效率高;然后利用支持向量機(jī)對(duì)特征分類,具體 為a)把視頻對(duì)象的圖像轉(zhuǎn)換成積分圖,選取不同大小的箱式濾波器建立圖像的尺度 空間,使用快速Hessian方法檢測(cè)每一層圖像上的極值點(diǎn),這些極值點(diǎn)就是圖像的特征點(diǎn)。b)以特征點(diǎn)為中心,計(jì)算它的鄰接圓域內(nèi)X、y方向上的Haar小波響應(yīng)來(lái)獲得主 方向。選定特征點(diǎn)主方向后,以特征點(diǎn)為中心,將坐標(biāo)軸旋轉(zhuǎn)到主方向,選擇一塊大小與尺 度相應(yīng)的方形區(qū)域,分成64塊,統(tǒng)計(jì)每一塊的dx,dy,I dx I,I dy |的累積和,獲得64維特征 向量。c)預(yù)先完成對(duì)大量的樣本提取SURF特征,并應(yīng)用K-means算法進(jìn)行聚類以獲得聚 類中心,形成詞匯數(shù)量為η的視覺詞匯庫(kù),本實(shí)施例中η的值設(shè)為500。對(duì)于視頻對(duì)象的圖像,計(jì)算它的每一個(gè)特征點(diǎn)與BOVW中詞匯的距離,由此判斷 這個(gè)特征點(diǎn)屬于哪一個(gè)詞匯,然后統(tǒng)計(jì)這個(gè)視頻中每個(gè)詞匯出現(xiàn)的頻率,在此過程中,通 過soft-weighting的策略,計(jì)算與某個(gè)特征點(diǎn)距離最近的4個(gè)詞匯,分別給予權(quán)重1、0. 5、 0. 25,0. 125,統(tǒng)計(jì)到最后的直方圖中,以此提高識(shí)別的準(zhǔn)確率。該直方圖矢量化后即為該視 頻的BOVW特征向量,向量的長(zhǎng)度等于視頻詞匯的數(shù)量,即500維。d)預(yù)先已完成SVM分類器對(duì)已知語(yǔ)義的視頻對(duì)象的BOVW特征的訓(xùn)練。本實(shí)施例 中的測(cè)試語(yǔ)義為TRECVID 2010中語(yǔ)義索引輕量級(jí)比賽項(xiàng)目所指定的的10種語(yǔ)義,其分別 為飛機(jī)、輪船、公共汽車、城市景觀、教室、游行人群、手、夜景、唱歌和電話,每一類都已生成 訓(xùn)練文件。已知語(yǔ)義的訓(xùn)練樣本是由人工選擇的合適的正負(fù)樣本,在本實(shí)施例中正負(fù)樣本 集的比例為1 3,其正樣本中包含所要測(cè)試的10種語(yǔ)義種的一種,而負(fù)樣本則不包括該語(yǔ) 義。使用SVM分類器對(duì)測(cè)試的特征和預(yù)先訓(xùn)練好的語(yǔ)義特征文件進(jìn)行匹配,以確定該 對(duì)象屬于哪一類語(yǔ)義。其分類流程如圖3所示,若該視頻對(duì)象屬于某一語(yǔ)義,則在這語(yǔ)義下 標(biāo)記為1,否則標(biāo)記為0?;陉P(guān)鍵幀特征的視頻語(yǔ)義分類提取方法如圖4所示,具體步驟為第一步,提取鏡頭關(guān)鍵幀圖像的全局特征和局部特征。全局特征包括顏色、邊緣和 紋理特征;局部特征選用具有良好的尺度不變性的SURF特征。選取這些特征的原因是顏色是圖像重要的視覺特征,它和圖像中所包含的物體或場(chǎng)景十分相關(guān)。顏色特征對(duì)圖像本身的尺寸、方向、視角及背景復(fù)雜度等的依賴性較小, 因此較為可靠。本實(shí)施例中,顏色特征選用了顏色直方圖(Color Histogram),它是最常用 的表達(dá)顏色特征的方法,其優(yōu)點(diǎn)是不受圖像旋轉(zhuǎn)和平移變化的影響,進(jìn)一步借助歸一化還 可不受圖像尺度變化的影響。邊緣特征反映了圖像中物體形狀的輪廓,本實(shí)施例中邊緣特 征選用邊緣直方圖(EdgeHistogram)。紋理特征是不依賴于顏色或灰度的反映圖像中同質(zhì) 現(xiàn)象的視覺特征,它是所有物體表面共有的內(nèi)在特性。本實(shí)施例中紋理特征選用局部二進(jìn) 制特征(LBP)。第二步,使用支持向量機(jī)預(yù)先完成對(duì)已知語(yǔ)義的圖像四種特征的訓(xùn)練。語(yǔ)義分為 飛機(jī)、輪船、公共汽車、城市景觀、教室、游行人群、手、夜景、唱歌和電話10種,對(duì)每一類都 有已生成的訓(xùn)練文件。已知語(yǔ)義的訓(xùn)練樣本是由人工選擇的合適的正負(fù)樣本,在本實(shí)施例 中正負(fù)樣本集的比例為1 3,其正樣本中包含所要測(cè)試的10種語(yǔ)義種的一種,而負(fù)樣本則 不包括該語(yǔ)義。使用支持向量機(jī)測(cè)試,把提取的每一種特征和預(yù)先訓(xùn)練好的語(yǔ)義的相對(duì)應(yīng) 的特征文件進(jìn)行匹配,以得到分類結(jié)果。每一種特征的分類流程如圖3所示,具體為a)輸入待檢測(cè)關(guān)鍵幀的特征向量(顏色、邊緣、紋理、BOW)。b)與生成的訓(xùn)練文件進(jìn)行匹配。c)當(dāng)屬于測(cè)試的語(yǔ)義標(biāo)記為1,否則標(biāo)記為0。上述分類是并行的流程,提高了特征分類、語(yǔ)義提取的效率。如圖1所示,對(duì)上述兩部分所得的結(jié)果進(jìn)行加權(quán)計(jì)算以得到最終的結(jié)果。對(duì)于每 一種語(yǔ)義,令其視頻對(duì)象SURF特征、關(guān)鍵幀SURF特征、顏色直方圖、邊緣直方圖和局部二進(jìn) 制特征對(duì)應(yīng)的分類結(jié)果分別為4,ri; r2, 1~3和r4,其中ri的值為0或1,其權(quán)重分別為Wtl, Wl,w2,W3和W4,其中OSwiS 1。預(yù)先已完成每一種語(yǔ)義的每種特征的小樣本測(cè)試,其具體
44
權(quán)重分配如表ι所示。根據(jù)ΣΜ々與閾值τ。比較確定鏡頭的語(yǔ)義類別若Σ則該鏡
i=0 i=0
4
頭中包含測(cè)試的語(yǔ)義,反之ΣwZ ^tC,則不包含。在該實(shí)施例中Τ。= 3。
Z=O表1中數(shù)據(jù)的說明在本實(shí)施例中,對(duì)50個(gè)包含飛機(jī)語(yǔ)義的鏡頭進(jìn)行特征提取,然 后對(duì)每一種特征進(jìn)行測(cè)試,獲得它的預(yù)測(cè)準(zhǔn)確率作為權(quán)重值,其余幾種語(yǔ)義的權(quán)重值獲取 方式與飛機(jī)一致。表 權(quán)利要求
一種基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,其特征在于,通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類和基于關(guān)鍵幀特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算,即對(duì)于每一種語(yǔ)義所對(duì)應(yīng)的視頻對(duì)象的快速魯棒特征、關(guān)鍵幀的SURF特征、顏色直方圖、邊緣直方圖和局部二進(jìn)制特征對(duì)應(yīng)的分類結(jié)果分別設(shè)置為r0,r1,r2,r3和r4,其中ri的值為0或1,其權(quán)重分別為w0,w1,w2,w3和w4,其中0≤wi≤1,wi是預(yù)先對(duì)每一種語(yǔ)義的每種特征進(jìn)行的小樣本訓(xùn)練和測(cè)試所得的結(jié)果;然后根據(jù)與閾值Tc進(jìn)行比較確定鏡頭中是否具有測(cè)試的語(yǔ)義,當(dāng)則該鏡頭中包含所測(cè)試的語(yǔ)義,反之則鏡頭中不包含該語(yǔ)義。FDA0000030578260000011.tif,FDA0000030578260000012.tif,FDA0000030578260000013.tif
2.根據(jù)權(quán)利要求1所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,其特征 是,所述的基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類,通過以下方式獲得第一步,通過檢測(cè)鏡頭內(nèi)相鄰幀對(duì)應(yīng)的像素點(diǎn)間的變化來(lái)構(gòu)造背景幀; 第二步,提取被檢測(cè)鏡頭中的關(guān)鍵幀,查找關(guān)鍵幀中與背景幀不同的區(qū)域,以此作為視 頻對(duì)象候選區(qū)域;第三步,采用靜態(tài)圖像陰影檢測(cè)方法消除視頻對(duì)象候選區(qū)域中的陰影區(qū)域; 第四步,提取視頻對(duì)象的快速魯棒特征,然后利用支持向量機(jī)對(duì)SURF特征分類。
3.根據(jù)權(quán)利要求2所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,其特征 是,所述的構(gòu)造背景幀包括以下步驟·1. 1)讀取待檢測(cè)的鏡頭,將其第一幀作為初始化背景幀,設(shè)視頻幀的長(zhǎng)為m,寬為η ; 1. 2)設(shè)置兩個(gè)的mXn矩陣,一個(gè)為計(jì)數(shù)矩陣A,一個(gè)為標(biāo)志矩陣B,初始階段兩個(gè)矩陣 都是零矩陣,其中計(jì)數(shù)矩陣記錄幀間變化檢測(cè)中像素點(diǎn)連續(xù)不變的次數(shù);標(biāo)志矩陣記錄 像素點(diǎn)是否已被初始化;·1.3)將第k幀和第k+Ι幀轉(zhuǎn)換成灰度圖像并相減當(dāng)在位置(i,j)上的像素點(diǎn)灰度值 的差為0,那么計(jì)數(shù)矩陣A的元素的值加1,反之= 0 ;·1. 4)搜索計(jì)數(shù)矩陣A的所有元素,當(dāng)> Τ,則標(biāo)志矩陣B相應(yīng)位置的元素= 1, 同時(shí)把位置(i,j)上的像素點(diǎn)的值賦給背景幀的相應(yīng)位置的像素點(diǎn);·1.5)當(dāng)標(biāo)志矩陣B所有的元素都為1或者該鏡頭結(jié)束時(shí),背景幀構(gòu)造完畢。
4.根據(jù)權(quán)利要求2所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,其特征 是,所述的對(duì)SURF特征分類包括以下步驟·4. 1)使用快速Hessian方法對(duì)視頻對(duì)象的圖像進(jìn)行特征點(diǎn)檢測(cè); 4. 2)通過計(jì)算特征點(diǎn)鄰接圓域內(nèi)χ、y方向上的Haar小波響應(yīng)來(lái)獲得主方向,在特征 點(diǎn)選擇一塊大小與尺度相應(yīng)的方形區(qū)域,分成64塊,統(tǒng)計(jì)每一塊的dx,dy,dx|, |dy|的累 積和,獲得64維特征向量;·4. 3)預(yù)先完成對(duì)大量的樣本提取SURF特征,并應(yīng)用K-means算法進(jìn)行聚類以獲得聚類 中心,形成詞匯數(shù)量為η的視覺詞匯庫(kù);·4. 4)使用支持向量機(jī)分類器,把提取的視覺詞匯特征和預(yù)先訓(xùn)練好的視頻語(yǔ)義特征文 件進(jìn)行匹配分類,得到視頻對(duì)象分類結(jié)果。
5.根據(jù)權(quán)利要求4所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,其特征 是,所述的聚類是指對(duì)于視頻對(duì)象的圖像,計(jì)算它的每一個(gè)特征點(diǎn)與BOVW中詞匯的距離, 由此判斷這個(gè)特征點(diǎn)屬于哪一個(gè)詞匯,然后統(tǒng)計(jì)這個(gè)視頻中每個(gè)詞匯出現(xiàn)的頻率,在此過 程中,通過soft-weighting的策略,計(jì)算與某個(gè)特征點(diǎn)距離最近的4個(gè)詞匯,分別給予權(quán)重 1、0. 5,0. 25,0. 125,統(tǒng)計(jì)到最后的直方圖中,以此提高識(shí)別的準(zhǔn)確率,該直方圖矢量化后即 為該視頻的BOVW特征向量,向量的長(zhǎng)度等于視頻詞匯的數(shù)量。
6.根據(jù)權(quán)利要求1所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,其特征 是,所述的基于關(guān)鍵幀特征的視頻語(yǔ)義分類,通過以下方式獲得步驟一,提取鏡頭關(guān)鍵幀圖像的全局特征和局部特征;步驟二,采用支持向量機(jī)對(duì)已知語(yǔ)義的圖像的特征進(jìn)行預(yù)先訓(xùn)練,生成訓(xùn)練文件;步驟三,使用支持向量機(jī)測(cè)試,把提取的每一種特征和預(yù)先訓(xùn)練好的語(yǔ)義的對(duì)應(yīng)的特 征文件進(jìn)行匹配,以得到分類結(jié)果。
7.根據(jù)權(quán)利要求6所述的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,其特征 是,所述的全局特征包括顏色直方圖、邊緣直方圖、局部二進(jìn)制特征和SURF特征。
全文摘要
一種視頻搜索技術(shù)領(lǐng)域的基于對(duì)象分割和特征加權(quán)融合的視頻語(yǔ)義提取方法,通過將基于背景幀構(gòu)造的視頻對(duì)象語(yǔ)義分類和基于關(guān)鍵幀特征的視頻語(yǔ)義分類進(jìn)行加權(quán)計(jì)算,即對(duì)于每一種語(yǔ)義所對(duì)應(yīng)的視頻對(duì)象的快速魯棒特征、關(guān)鍵幀的SURF特征、顏色直方圖、邊緣直方圖和局部二進(jìn)制特征對(duì)應(yīng)的分類結(jié)果分別加權(quán)求和后與閾值比較確定鏡頭中是否具有測(cè)試的語(yǔ)義。本發(fā)明由于分離背景,去除背景噪聲,提高了語(yǔ)義分類的精確性;同時(shí)考慮到視頻對(duì)象的提取可能出現(xiàn)的誤差以及靜止的視頻語(yǔ)義,使用傳統(tǒng)的方法進(jìn)行分類。兩種方法的結(jié)合使得語(yǔ)義提取的正確性得以提高。
文檔編號(hào)G06F17/30GK101976258SQ20101052973
公開日2011年2月16日 申請(qǐng)日期2010年11月3日 優(yōu)先權(quán)日2010年11月3日
發(fā)明者唐峰, 孫錟鋒, 於人則, 蔣興浩, 蔣呈明 申請(qǐng)人:上海交通大學(xué)