本發(fā)明涉及視頻對(duì)象分割領(lǐng)域,尤其是涉及了一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法。
背景技術(shù):
在如今的信息化社會(huì)中,視頻能給我們提供豐富而全面的信息內(nèi)容,因此其越來(lái)越受到現(xiàn)代交通、網(wǎng)絡(luò)媒體以及計(jì)算機(jī)視覺(jué)等行業(yè)的重視。但是一般原始視頻所含有的信息量都很大,其中部分甚至一大部分對(duì)于行業(yè)研究和實(shí)際應(yīng)用的意義都不大。因此,我們需要對(duì)視頻進(jìn)行縮減,提取其中有用的信息。視頻對(duì)象分割技術(shù)就是近幾年發(fā)展起來(lái)的一種提取視頻有效信息的重要基礎(chǔ)性技術(shù),它已經(jīng)廣泛運(yùn)用于交通流視頻監(jiān)控、工業(yè)自動(dòng)化監(jiān)控、安防、網(wǎng)絡(luò)多媒體交互以及視頻壓縮編碼等實(shí)際生產(chǎn)生活中。然而,原有的方法易受到光線的變化或遮擋的影響,且無(wú)法實(shí)現(xiàn)半監(jiān)督,因此實(shí)際應(yīng)用效果并不好。
本發(fā)明提出了一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法,先用卷積神經(jīng)網(wǎng)絡(luò)提取特征,再利用語(yǔ)義實(shí)例分割算法作為輸入,估計(jì)待分割對(duì)象的語(yǔ)義,接著通過(guò)條件分類器將外觀模型與語(yǔ)義先驗(yàn)相結(jié)合,最后訓(xùn)練構(gòu)架,以確定特定圖像的前景像素,在測(cè)試時(shí)間內(nèi)用權(quán)重初始化卷積神經(jīng)網(wǎng)絡(luò)并進(jìn)行微調(diào)和迭代。本發(fā)明能克服光線的變化或遮擋的影響,有效提取視頻中的有用信息,大大減少了查看視頻花費(fèi)的大量時(shí)間、人力和物力;分割更加精細(xì),準(zhǔn)確度也有所提高。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)易受到光線變化或遮擋影響的問(wèn)題,本發(fā)明的目的在于提供一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法,先用卷積神經(jīng)網(wǎng)絡(luò)提取特征,再利用語(yǔ)義實(shí)例分割算法作為輸入,估計(jì)待分割對(duì)象的語(yǔ)義,接著通過(guò)條件分類器將外觀模型與語(yǔ)義先驗(yàn)相結(jié)合,最后訓(xùn)練構(gòu)架,以確定特定圖像的前景像素,在測(cè)試時(shí)間內(nèi)用權(quán)重初始化卷積神經(jīng)網(wǎng)絡(luò)并進(jìn)行微調(diào)和迭代。
為解決上述問(wèn)題,本發(fā)明提供一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法,其主要內(nèi)容包括:
(一)卷積神經(jīng)網(wǎng)絡(luò)提取特征;
(二)語(yǔ)義選擇和語(yǔ)義傳播;
(三)通過(guò)條件分類器將外觀模型與語(yǔ)義先驗(yàn)相結(jié)合;
(四)訓(xùn)練網(wǎng)絡(luò)。
其中,所述的卷積神經(jīng)網(wǎng)絡(luò)提取特征,使用vgg16卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng);去除完全連接層和最后的池層,增加空間特征分辨率;添加跳過(guò)連接,提取超柱狀體的特征,聚合來(lái)自不同層的多尺度信息;在第二、第三、第四和第五卷積層塊相應(yīng)的合并層之前,從它們之中提取輸出特征圖;然后調(diào)整特征圖,使其與輸入圖像大小相同,并且將它們連接形成超柱狀體的特性。
其中,所述的語(yǔ)義選擇和語(yǔ)義傳播,利用語(yǔ)義實(shí)例分割算法作為輸入,估計(jì)待分割對(duì)象的語(yǔ)義;選擇多任務(wù)網(wǎng)絡(luò)級(jí)聯(lián)(mnc)作為輸入實(shí)例分割算法;mnc是一個(gè)多階段網(wǎng)絡(luò),由三個(gè)主要部分組成:共享卷積層、區(qū)域提議網(wǎng)絡(luò)(rpn)和感興趣區(qū)域(roi)-智能分類器。
進(jìn)一步地,所述的語(yǔ)義選擇,語(yǔ)義選擇發(fā)生在視頻第一幀中,根據(jù)標(biāo)定的真實(shí)數(shù)據(jù)掩碼選擇匹配對(duì)象的掩碼(處于半監(jiān)督框架中,其中第一幀的真實(shí)掩碼為輸入);選擇感興趣區(qū)域,進(jìn)行分類,將標(biāo)定的真實(shí)數(shù)據(jù)與實(shí)例分段提議重疊。
進(jìn)一步地,所述的語(yǔ)義傳播,語(yǔ)義傳播階段發(fā)生在第一幀以后,將第一幀中估計(jì)的語(yǔ)義傳播到之后的幀;使用第一輪前景估計(jì)對(duì)實(shí)例分割掩碼進(jìn)行過(guò)濾,并且選擇池頂部匹配對(duì)象。
其中,所述的通過(guò)條件分類器將外觀模型與語(yǔ)義先驗(yàn)相結(jié)合,使用完全卷積網(wǎng)絡(luò)的密集標(biāo)簽,通常表達(dá)為每個(gè)像素的分類問(wèn)題;因此,可以理解為在整個(gè)圖像上滑動(dòng)的全局分類器,并且根據(jù)外觀模型將前景或背景標(biāo)簽分配給每個(gè)像素;如果將最終分類之前的語(yǔ)義合并,可以作為當(dāng)前框架中最有可能的實(shí)例(或一組實(shí)例)的掩碼。
進(jìn)一步地,所述的像素,對(duì)于每個(gè)像素i,估計(jì)給定圖像的前景像素的概率:p(i|i);概率可以分解為由先前加權(quán)的k個(gè)條件概率的和:
其中,k=2。
進(jìn)一步地,所述的條件分類器,構(gòu)建兩個(gè)條件分類器,一個(gè)注重前景像素,另一個(gè)側(cè)重于背景像素;基于實(shí)例分割輸出估計(jì)先驗(yàn)項(xiàng)p(k|i);具體來(lái)說(shuō),如果像素位于實(shí)例分割掩碼內(nèi),則像素依賴于前景分類器;并且如果背景分類掩碼脫離實(shí)例分割掩碼,則背景分類器更重要;在實(shí)驗(yàn)中,應(yīng)用高斯濾波器將所選掩模的空間平滑作為語(yǔ)義先驗(yàn)。
進(jìn)一步地,所述的條件分類器的層,條件分類器可以以端到端可訓(xùn)練的方式集成在網(wǎng)絡(luò)中;該層采用兩個(gè)預(yù)測(cè)圖f1和f2,以及使用語(yǔ)義預(yù)先作為輸入獲得的權(quán)重圖ω;其中每個(gè)輸入元素與權(quán)重映射相乘,然后與另一個(gè)映射中的相應(yīng)元素相加:
fout(x,y)=ω(x,y)f1(x,y)+(1-ω(x,y))f2(x,y)(2)
類似地,在反向傳播步驟中,根據(jù)權(quán)重圖將頂部gtop的梯度傳播到兩個(gè)部分:
g1(x,y)=ω(x,y)gtop(x,y)(3)
g2(x,y)=(1-ω(x,y))gtop(x,y)(4)
分別如上式所示。
其中,所述的訓(xùn)練網(wǎng)絡(luò),首先,使用預(yù)先訓(xùn)練的權(quán)重初始化該體系結(jié)構(gòu)的vgg卷積神經(jīng)網(wǎng)絡(luò)的部分;訓(xùn)練架構(gòu)的目的是確定特定圖像的前景像素;
接著,專注于視頻序列中要分割的特定對(duì)象學(xué)習(xí)外觀模型,在測(cè)試時(shí)間內(nèi)用權(quán)重初始化卷積神經(jīng)網(wǎng)絡(luò)并進(jìn)行微調(diào),進(jìn)行幾次迭代;為了在每個(gè)幀中產(chǎn)生分割,對(duì)視頻序列的特定對(duì)象應(yīng)用微調(diào)網(wǎng)絡(luò),獲得與對(duì)象相對(duì)應(yīng)的掩碼,具有單個(gè)前向傳遞。
附圖說(shuō)明
圖1是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的流程示意圖。
圖3是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的語(yǔ)義選擇和語(yǔ)義傳播。
圖4是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的條件分類器。
具體實(shí)施方式
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
圖1是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的系統(tǒng)流程圖。主要包括卷積神經(jīng)網(wǎng)絡(luò)提取特征,語(yǔ)義選擇和語(yǔ)義傳播,通過(guò)條件分類器將外觀模型與語(yǔ)義先驗(yàn)相結(jié)合,訓(xùn)練網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)提取特征,使用vgg16卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng);去除完全連接層和最后的池層,增加空間特征分辨率;添加跳過(guò)連接,提取超柱狀體的特征,聚合來(lái)自不同層的多尺度信息;在第二、第三、第四和第五卷積層塊相應(yīng)的合并層之前,從它們之中提取輸出特征圖;然后調(diào)整特征圖,使其與輸入圖像大小相同,并且將它們連接形成超柱狀體的特性。
通過(guò)條件分類器將外觀模型與語(yǔ)義先驗(yàn)相結(jié)合,使用完全卷積網(wǎng)絡(luò)的密集標(biāo)簽,通常表達(dá)為每個(gè)像素的分類問(wèn)題;因此,可以理解為在整個(gè)圖像上滑動(dòng)的全局分類器,并且根據(jù)外觀模型將前景或背景標(biāo)簽分配給每個(gè)像素;如果將最終分類之前的語(yǔ)義合并,可以作為當(dāng)前框架中最有可能的實(shí)例(或一組實(shí)例)的掩碼。
對(duì)于每個(gè)像素i,估計(jì)給定圖像的前景像素的概率:p(i|i);概率可以分解為由先前加權(quán)的k個(gè)條件概率的和:
其中,k=2。
訓(xùn)練網(wǎng)絡(luò),首先,使用預(yù)先訓(xùn)練的權(quán)重初始化該體系結(jié)構(gòu)的vgg卷積神經(jīng)網(wǎng)絡(luò)的部分;訓(xùn)練架構(gòu)的目的是確定特定圖像的前景像素;
接著,專注于視頻序列中要分割的特定對(duì)象學(xué)習(xí)外觀模型,在測(cè)試時(shí)間內(nèi)用權(quán)重初始化卷積神經(jīng)網(wǎng)絡(luò)并進(jìn)行微調(diào),進(jìn)行幾次迭代;為了在每個(gè)幀中產(chǎn)生分割,對(duì)視頻序列的特定對(duì)象應(yīng)用微調(diào)網(wǎng)絡(luò),獲得與對(duì)象相對(duì)應(yīng)的掩碼,具有單個(gè)前向傳遞。
圖2是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的流程示意圖。先用卷積神經(jīng)網(wǎng)絡(luò)提取特征,再利用語(yǔ)義實(shí)例分割算法作為輸入,估計(jì)待分割對(duì)象的語(yǔ)義,接著通過(guò)條件分類器將外觀模型與語(yǔ)義先驗(yàn)相結(jié)合,最后訓(xùn)練構(gòu)架,以確定特定圖像的前景像素,在測(cè)試時(shí)間內(nèi)用權(quán)重初始化卷積神經(jīng)網(wǎng)絡(luò)并進(jìn)行微調(diào)和迭代。
圖3是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的語(yǔ)義選擇和語(yǔ)義傳播。利用語(yǔ)義實(shí)例分割算法作為輸入,估計(jì)待分割對(duì)象的語(yǔ)義;選擇多任務(wù)網(wǎng)絡(luò)級(jí)聯(lián)(mnc)作為輸入實(shí)例分割算法;mnc是一個(gè)多階段網(wǎng)絡(luò),由三個(gè)主要部分組成:共享卷積層、區(qū)域提議網(wǎng)絡(luò)(rpn)和感興趣區(qū)域(roi)-智能分類器。
語(yǔ)義選擇發(fā)生在視頻第一幀中,根據(jù)標(biāo)定的真實(shí)數(shù)據(jù)掩碼選擇匹配對(duì)象的掩碼(處于半監(jiān)督框架中,其中第一幀的真實(shí)掩碼為輸入);選擇感興趣區(qū)域,進(jìn)行分類,將標(biāo)定的真實(shí)數(shù)據(jù)與實(shí)例分段提議重疊。
語(yǔ)義傳播階段發(fā)生在第一幀以后,將第一幀中估計(jì)的語(yǔ)義傳播到之后的幀;使用第一輪前景估計(jì)對(duì)實(shí)例分割掩碼進(jìn)行過(guò)濾,并且選擇池頂部匹配對(duì)象。
圖4是本發(fā)明一種語(yǔ)義導(dǎo)向的半監(jiān)督視頻對(duì)象分割方法的條件分類器。構(gòu)建兩個(gè)條件分類器,一個(gè)注重前景像素,另一個(gè)側(cè)重于背景像素;基于實(shí)例分割輸出估計(jì)先驗(yàn)項(xiàng)p(k|i);具體來(lái)說(shuō),如果像素位于實(shí)例分割掩碼內(nèi),則像素依賴于前景分類器;并且如果背景分類掩碼脫離實(shí)例分割掩碼,則背景分類器更重要;在實(shí)驗(yàn)中,應(yīng)用高斯濾波器將所選掩模的空間平滑作為語(yǔ)義先驗(yàn)。
條件分類器可以以端到端可訓(xùn)練的方式集成在網(wǎng)絡(luò)中;該層采用兩個(gè)預(yù)測(cè)圖f1和f2,以及使用語(yǔ)義預(yù)先作為輸入獲得的權(quán)重圖ω;其中每個(gè)輸入元素與權(quán)重映射相乘,然后與另一個(gè)映射中的相應(yīng)元素相加:
fout(x,y)=ω(x,y)f1(x,y)+(1-ω(x,y))f2(x,y)(2)
類似地,在反向傳播步驟中,根據(jù)權(quán)重圖將頂部gtop的梯度傳播到兩個(gè)部分:
g1(x,y)=ω(x,y)gtop(x,y)(3)
g2(x,y)=(1-ω(x,y))gtop(x,y)(4)
分別如上式所示。
對(duì)于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。