欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種目標(biāo)檢測性能優(yōu)化的方法與流程

文檔序號:12825539閱讀:375來源:國知局
一種目標(biāo)檢測性能優(yōu)化的方法與流程

本發(fā)明涉及目標(biāo)檢測技術(shù),具體涉及一種目標(biāo)檢測性能優(yōu)化的方法。



背景技術(shù):

目標(biāo)檢測一直是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要的研究課題,同時(shí)目標(biāo)檢測也是對象識別、追蹤、動作識別的基礎(chǔ)。如今,隨著深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的成功應(yīng)用,人們在目標(biāo)檢測領(lǐng)域投入了更多的研究,比如人臉檢測、行人檢測、車輛檢測等等。

針對目標(biāo)檢測,現(xiàn)有主流的檢測框架都采用似物性檢測(objectproposal)的策略;首先,在圖片中產(chǎn)生一系列潛在的候選框,候選框標(biāo)定的區(qū)域?yàn)榕c類別無關(guān)的潛在物體;其次,采用檢測算法對候選框提取相應(yīng)的視覺特征;然后,采用分類器對提取候選框的特征進(jìn)行判斷,以確定為目標(biāo)對象類別或是背景。比如r-cnn(region-convolutionalneuralnetwork)局部卷積神經(jīng)網(wǎng)絡(luò)采取了ss(selectivesearch)選擇性搜索的方法產(chǎn)生圖像內(nèi)可能存在物體的候選框,對這些候選框內(nèi)的圖像內(nèi)容提取深度學(xué)習(xí)特征并進(jìn)行分類。應(yīng)用局部候選框策略可以大幅度減少不必要的預(yù)測,同時(shí)能緩和帶有迷惑性的背景對分類器的干擾。

然而,實(shí)際中由于候選框生成算法的精度有限,往往生成的候選框不能較好的覆蓋圖片中的物體,有不少候選框只覆蓋了物體的部分或者覆蓋了外表非常相似的背景進(jìn)而導(dǎo)致分類器的誤判,還可能是候選框包括一部分背景和一部分目標(biāo)進(jìn)而導(dǎo)致分類器的誤判。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問題,本發(fā)明提出了克服上述問題或者至少部分地解決上述問題的一種目標(biāo)檢測性能優(yōu)化的方法。

為此目的,第一方面,本發(fā)明提出一種目標(biāo)檢測性能優(yōu)化的方法,包括:

在檢測模型訓(xùn)練過程中,使用度量學(xué)習(xí)來調(diào)整樣本在特征空間的分布,用以產(chǎn)生更有區(qū)分度的特征;度量學(xué)習(xí)對應(yīng)的深度神經(jīng)網(wǎng)絡(luò)在迭代訓(xùn)練中,每一次迭代使用的候選框?yàn)橥ㄟ^聯(lián)合交疊iou信息確定的具有相同目標(biāo)對象距離滿足一定約束條件,不同目標(biāo)距離滿足一定約束條件的位置關(guān)系的候選框,以及;

查看每一輪迭代訓(xùn)練產(chǎn)生的候選框目標(biāo)的特征是否滿足相似度約束條件;

若滿足,則檢測模型在本次迭代不產(chǎn)生損失,不需要反向傳播網(wǎng)絡(luò)中各個(gè)層對應(yīng)的輸出誤差;

在測試時(shí),將待檢測圖片和圖片的候選框集合輸入到訓(xùn)練后的檢測模型中,獲得該檢測模型輸出的目標(biāo)對象坐標(biāo)和類別信息。

可選地,所述方法還包括:

在測試之前,將訓(xùn)練過程的深度神經(jīng)網(wǎng)絡(luò)的池化層采用top-k池化層替換;

其中,所述top-k池化層是通過對池化窗口中獲取最高的k個(gè)響應(yīng)值進(jìn)行平均獲取的;

深度神經(jīng)網(wǎng)絡(luò)的迭代訓(xùn)練中采用反向傳播算法,需要根據(jù)計(jì)算輸入對應(yīng)輸出的偏導(dǎo)數(shù),因此在反向傳播過程中,所述top-k池化方法對應(yīng)的偏導(dǎo)數(shù)為:

其中,top-k池化方法取排序過的池化窗口的前k個(gè)值,k為大于1的自然數(shù),xi,j為在第i個(gè)池化窗口的第j個(gè)元素,yi表示第i個(gè)池化窗口的輸出。

可選地,所述方法還包括:

將訓(xùn)練過程的度量學(xué)習(xí)對應(yīng)的深度神經(jīng)網(wǎng)絡(luò)的池化層采用能夠應(yīng)對噪聲干擾的top-k池化層替換;以及

將測試過程的檢測模型中深度神經(jīng)網(wǎng)絡(luò)的池化層采用能夠應(yīng)對噪聲干擾的top-k池化層替換;

其中,所述top-k池化層是通過對池化窗口中獲取最高的k個(gè)響響應(yīng)值進(jìn)行平均獲取的。

可選地,每一次迭代使用的候選框?yàn)橥ㄟ^聯(lián)合交疊iou信息確定的具有相同目標(biāo)對象距離滿足一定約束條件,不同目標(biāo)距離滿足一定約束條件的位置關(guān)系的候選框,包括:

針對訓(xùn)練圖片的每個(gè)局部候選框都被指定一個(gè)類別標(biāo)簽lclass來表示它是某一目標(biāo)類別或是背景;

當(dāng)一個(gè)局部候選框與正確標(biāo)注之間的iou重疊超過50%,該候選框?yàn)檎龢颖?;?dāng)一個(gè)局部候選框與任意一個(gè)正確標(biāo)注的iou覆蓋面積都在[bglow,0.5)之間時(shí),該候選框?yàn)樨?fù)樣本;bglow是一個(gè)閾值;

對每一個(gè)負(fù)樣本除了lclass外,額外指定一個(gè)候選框標(biāo)簽lproposal為與該局部候選框覆蓋面積最大的類別;

針對不符合相似性約束的三元組,根據(jù)lclass和lproposal將所有局部候選框分為不同的組,得到集合(g1,g2,...,gm);

每一組gc包括lclass=c的正樣本和lproposal=c的負(fù)樣本;對每個(gè)組gc,為目標(biāo)對象的正確標(biāo)注為lclass=c的正樣本,rn為lclass=background并且lproposal=c的負(fù)樣本;

根據(jù)公式一選取每組gc中的部分樣本來構(gòu)成三元組,組成規(guī)則是正確標(biāo)注的特征,與正確標(biāo)注特征距離最遠(yuǎn)的正樣本和與正確標(biāo)注征距離最近的負(fù)樣本的特征,分別通過argmax和argmin操作來獲得:

公式一:

分別是正確標(biāo)注,正樣本和負(fù)樣本;

約束條件為:

為正確標(biāo)注與正樣本之間的特征相似度距離為正確標(biāo)注與負(fù)樣本的特征相似度距離;

α表示預(yù)設(shè)的之間的最小距離間隔。

可選地,查看每一輪迭代訓(xùn)練產(chǎn)生的候選框目標(biāo)的特征是否滿足相似度約束條件,包括:

迭代訓(xùn)練過程中的深度神經(jīng)網(wǎng)絡(luò)損失為ltriplet,所以深度神經(jīng)網(wǎng)絡(luò)的整體優(yōu)化損失函數(shù)為:

ltotal=ω1lcls+ω2lloc+ω3ltriplet;

其中,ω1,ω2,ω3分別為預(yù)設(shè)的比例值;lcls為分類損失,lloc為定位損失,ltriplet局部候選框的相似度三元組損失。

可選地,

所述

其中,分別是正確標(biāo)注,正樣本和負(fù)樣本,α表示預(yù)設(shè)的之間的最小距離間隔。

可選地,查看每一輪迭代訓(xùn)練產(chǎn)生的候選框目標(biāo)的特征是否滿足相似度約束條件之后,所述方法還包括:

若不滿足相似度約束條件,深度神經(jīng)網(wǎng)絡(luò)會產(chǎn)生相似度損失;損失通過反向傳播算法反向傳播到每一層,并通過梯度下降算法更新模型參數(shù);如此重復(fù)迭代訓(xùn)練。

由上述技術(shù)方案可知,本發(fā)明提出的目標(biāo)檢測性能優(yōu)化的方法,通過三元組約束的引入,利用相似度距離學(xué)習(xí)可以約束正負(fù)樣本之間的相對距離,保持一定的最小距離間隔,進(jìn)而產(chǎn)生更容易被分類的特征分布,提高檢測器檢測性能。進(jìn)一步地,通過top-k池化替換原有的極大值池化,降低背景噪聲對小尺寸特征圖池化的影響,進(jìn)一步提升性能。

附圖說明

圖1為本發(fā)明一實(shí)施例提供的圖像中不同候選框在特征空間中的相對距離示意圖;

圖2為本發(fā)明一實(shí)施例提供在網(wǎng)絡(luò)模型訓(xùn)練中劃分正負(fù)樣本的示意圖;

圖3為本發(fā)明一實(shí)施例提供的增加局部相似性優(yōu)化目標(biāo)的fastrcnn網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練階段的示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。

需要說明的是,在本文中,“第一”、“第二”、“第三”、“第四”字樣僅僅用來將相同的名稱區(qū)分開來,而不是暗示這些名稱之間的關(guān)系或者順序。

目標(biāo)檢測的目的是在圖片或視頻中識別并定位特定類別的對象。檢測的過程可以看作是一個(gè)分類的過程,區(qū)分目標(biāo)與背景。

目前,通常在檢測模型訓(xùn)練中,需要構(gòu)建正負(fù)樣本集供分類器學(xué)習(xí),劃分的標(biāo)準(zhǔn)是根據(jù)與正確標(biāo)注的聯(lián)合交疊iou(intersectionofunion)的比例來決定。

本發(fā)明提出了一種利用深度神經(jīng)網(wǎng)絡(luò)(深度卷積神經(jīng)網(wǎng)絡(luò))在圖片和視頻中進(jìn)行目標(biāo)檢測性能優(yōu)化的方法,該方法在網(wǎng)絡(luò)模型的訓(xùn)練階段加入了相似性約束。相比目前主流的檢測方法如fastrcnn,本發(fā)明訓(xùn)練的檢測模型能產(chǎn)生更有區(qū)分度、更魯棒的特征。

本發(fā)明的方法主要應(yīng)用在檢測模型的訓(xùn)練階段,相比與fastrcnn,在訓(xùn)練階段使用的softmax與soomthl1損失函數(shù)優(yōu)化目標(biāo)之外,額外增加了相似性約束的損失函數(shù)。特別地,在目標(biāo)檢測階段,將待檢測的圖片與該圖片的候選框集合輸入到訓(xùn)練后的檢測模型中,檢測模型的輸出即為檢測到的對象的類別與相應(yīng)的坐標(biāo)信息。

具體地,本發(fā)明實(shí)施例提供的目標(biāo)檢測性能優(yōu)化的方法,包括:

在檢測模型訓(xùn)練過程中,使用度量學(xué)習(xí)來調(diào)整樣本在特征空間的分布,用以產(chǎn)生更有區(qū)分度的特征;度量學(xué)習(xí)對應(yīng)的深度神經(jīng)網(wǎng)絡(luò)在迭代訓(xùn)練中,每一次迭代使用的候選框?yàn)橥ㄟ^聯(lián)合交疊iou信息確定的具有相同目標(biāo)對象距離滿足一定約束條件,不同目標(biāo)距離滿足一定約束條件的位置關(guān)系的候選框,以及;

查看每一輪迭代訓(xùn)練產(chǎn)生的候選框目標(biāo)的特征是否滿足相似度約束條件;

若滿足,則檢測模型在本次迭代不產(chǎn)生損失,不需要反向傳播網(wǎng)絡(luò)中各個(gè)層對應(yīng)的輸出誤差;

若不滿足相似度約束條件,深度神經(jīng)網(wǎng)絡(luò)會產(chǎn)生相似度損失;損失通過反向傳播算法反向傳播到每一層,并通過梯度下降算法更新模型參數(shù);如此重復(fù)迭代訓(xùn)練。

另外,在測試時(shí),將待檢測圖片和圖片的候選框集合輸入到訓(xùn)練后的檢測模型中,獲得該檢測模型輸出的目標(biāo)對象坐標(biāo)和類別信息。

在本發(fā)明實(shí)施例中,訓(xùn)練過程和測試過程是單獨(dú)的兩個(gè)過程,訓(xùn)練過程中檢測模型也會進(jìn)行檢測,進(jìn)而在訓(xùn)練過程中可根據(jù)檢測模型的輸出查看模型是否符合相似度約束條件。

在具體實(shí)現(xiàn)過程中,前述的相似度約束條件為滿足整體優(yōu)化損失函數(shù)中的一部分。

深度神經(jīng)網(wǎng)絡(luò)的整體優(yōu)化損失函數(shù)為:

ltotal=ω1lcls+ω2lloc+ω3ltriplet;

其中,ω1,ω2,ω3分別為預(yù)設(shè)的比例值;lcls為分類損失,lloc為定位損失,ltriplet為候選框的相似度三元組損失,即迭代訓(xùn)練過程中總的深度神經(jīng)網(wǎng)絡(luò)損失。

其中,分別是正確標(biāo)注,正樣本和負(fù)樣本,α表示預(yù)設(shè)的之間的最小距離間隔。

也就是說,除了檢測模型在訓(xùn)練中的分類損失和定位損失優(yōu)化目標(biāo),本實(shí)施例增加局部候選框之間的特征相似度的三元組損失。因此,在模型訓(xùn)練過程中,總的優(yōu)化目標(biāo)可表示為多個(gè)損失函數(shù)的累加和:

ltotal=ω1lcls+ω2lloc+ω3ltriplet

通常ω1設(shè)為1,ω2設(shè)為1,ω3設(shè)為0.5。lcls和lloc為分類損失和定位損失,ltriplet局部候選框的相似度三元組損失。網(wǎng)絡(luò)在訓(xùn)練階段的輸出包括對局部候選框的預(yù)測類別和坐標(biāo)預(yù)測回歸值。

進(jìn)一步地,為更好的實(shí)現(xiàn)目標(biāo)檢測的性能優(yōu)化,本發(fā)明實(shí)施例中還進(jìn)行下述調(diào)整。

例如,在可選的一種實(shí)施方式中,可在測試之前,即在訓(xùn)練過程中進(jìn)行檢測時(shí),將訓(xùn)練過程的深度神經(jīng)網(wǎng)絡(luò)的池化層采用top-k池化層替換;

在可選的另一種實(shí)施方式中,可在測試之前,即在訓(xùn)練過程中進(jìn)行檢測時(shí),將訓(xùn)練過程的度量學(xué)習(xí)對應(yīng)的深度神經(jīng)網(wǎng)絡(luò)的池化層采用top-k池化層替換;且在訓(xùn)練后的檢測模型在測試時(shí),將測試過程的檢測模型中深度神經(jīng)網(wǎng)絡(luò)的池化層采用top-k池化層替換。top-k池化方法對特征圖中的背景噪聲更為魯棒。

需要說明的是,本實(shí)施例的top-k池化層是通過對池化窗口中獲取最高的k個(gè)響應(yīng)值進(jìn)行平均獲取的;

深度神經(jīng)網(wǎng)絡(luò)的迭代訓(xùn)練中采用反向傳播算法,需要根據(jù)計(jì)算輸入對應(yīng)輸出的偏導(dǎo)數(shù),因此在反向傳播過程中,所述top-k池化方法對應(yīng)的偏導(dǎo)數(shù)為:

其中,top-k池化方法取排序過的池化窗口的前k個(gè)值,k為大于1的自然數(shù),xi,j為在第i個(gè)池化窗口的第j個(gè)元素,yi表示第i個(gè)池化窗口的輸出。

也就是說,在網(wǎng)絡(luò)前向傳播階段,隨著網(wǎng)絡(luò)層數(shù)的加深,特征圖尺寸變小,背景噪聲的對池化操作的影響會更明顯。

本發(fā)明中提出top-k池化的方法。top-k池化方法取排序過的池化窗口的前k個(gè)值,計(jì)算它們的均值:

其中,xi,j為在第i個(gè)池化窗口的第j個(gè)元素,yi表示第i個(gè)池化窗口的輸出。x′i,j為第i個(gè)窗口經(jīng)過排序后的第j個(gè)元素。

為了在反向傳播過程中計(jì)算梯度,對每一個(gè)輸出yi,維護(hù)一個(gè)長度為k的向量r(yi)={xi,j|j=1,2,...,k},代表著窗口前k個(gè)值。在網(wǎng)絡(luò)訓(xùn)練過程中,權(quán)重系數(shù)的調(diào)整是通過梯度下降算法來實(shí)現(xiàn),梯度下降在更新權(quán)重時(shí),需要獲取相應(yīng)的輸入對輸出的偏導(dǎo)數(shù)。將top-k池化的方法加入深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,在反向傳播過程中,輸入關(guān)于輸出的偏導(dǎo)數(shù)為:

傳統(tǒng)的極大值池化方法對噪聲較為敏感,而top-k池化的方法在捕捉響應(yīng)值的內(nèi)在特性方面相比平均值池化方法更為有效。當(dāng)k=1,top-k池化退化成極大值池化方法,當(dāng)k=池化窗口大小時(shí),top-k池化退化成平均值池化方法。

前述的每一次迭代使用的候選框?yàn)橥ㄟ^聯(lián)合交疊iou信息確定的具有相同目標(biāo)對象距離滿足一定約束條件,不同目標(biāo)距離滿足一定約束條件的位置關(guān)系的候選框,可具體說明如下:

針對訓(xùn)練圖片的每個(gè)局部候選框都被指定一個(gè)類別標(biāo)簽lclass來表示它是某一目標(biāo)類別或是背景;

當(dāng)一個(gè)局部候選框與正確標(biāo)注之間的iou重疊超過50%,該候選框?yàn)檎龢颖?;?dāng)一個(gè)局部候選框與任意一個(gè)正確標(biāo)注的iou覆蓋面積都在[bglow,0.5)之間時(shí),該候選框?yàn)樨?fù)樣本;bglow是一個(gè)閾值;

對每一個(gè)負(fù)樣本除了lclass外,額外指定一個(gè)候選框標(biāo)簽lproposal為與該局部候選框覆蓋面積最大的類別;

針對不符合相似性約束的三元組,根據(jù)lclass和lproposal將所有局部候選框分為不同的組,得到集合(g1,g2,...,gm);

每一組gc包括lclass=c的正樣本和lproposal=c的負(fù)樣本;對每個(gè)組gc,為目標(biāo)對象的正確標(biāo)注為lclass=c的正樣本,rn為lclass=background(背景)并且lproposal=c的負(fù)樣本;

根據(jù)公式一選取每組gc中的部分樣本來構(gòu)成三元組,組成規(guī)則是正確標(biāo)注的特征,與正確標(biāo)注特征距離最遠(yuǎn)的正樣本和與正確標(biāo)注特征距離最近的負(fù)樣本的特征,分別通過argmax和argmin操作來獲得:

公式一:

分別是正確標(biāo)注,正樣本和負(fù)樣本;

約束條件為:

為正確標(biāo)注與正樣本之間的特征相似度距離為正確標(biāo)注與負(fù)樣本的特征相似度距離;

α表示預(yù)設(shè)的之間的最小距離間隔。

如圖1所示的圖片中不同局部候選框的特征分布。

本實(shí)施例中將三元組損失加入到目標(biāo)檢測模型的訓(xùn)練階段中,通過優(yōu)化不同候選框在特征空間中的相對距離,強(qiáng)化了分類器對不同物體類別的正負(fù)樣本的區(qū)分能力。通過同時(shí)優(yōu)化局部候選框的三元組損失函數(shù)和主流檢測器優(yōu)化過程中的softmax和smoothl1損失函數(shù),本發(fā)明能進(jìn)一步有效提升檢測模型的性能。

本實(shí)施例的三元組相似度約束作用在正樣本和負(fù)樣本的特征在特征空間中的相對距離。具體學(xué)習(xí)目標(biāo)是令相同物體類別的正樣本的特征距離小于包括背景在內(nèi)的不同物體類別的負(fù)樣本的特征距離,并保持一個(gè)預(yù)定的最小間隔。

上述方法只作用在模型的訓(xùn)練階段,作為一個(gè)額外的優(yōu)化目標(biāo),上述方法可靈活地加入到其他基于候選框策略的目標(biāo)檢測算法如fastrcnn和fasterrcnn的訓(xùn)練階段。

下面具體對上述用于目標(biāo)檢測的度量學(xué)習(xí)使用的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行描述:

在訓(xùn)練針對目標(biāo)檢測的深度網(wǎng)絡(luò)模型時(shí),對似物性檢測生成的候選框之間根據(jù)標(biāo)簽與相互之間的iou加入相似性約束。

在此,似物性檢測(objectproposal)會生成一系列候選框。主流的檢測算法只對每個(gè)候選框計(jì)算兩個(gè)損失函數(shù)分別是softmax損失和smoothl1損失,本實(shí)施例額外的增加了triplet三元組損失。

例如,深度神經(jīng)網(wǎng)絡(luò)的輸入包括訓(xùn)練圖片,以及似物性檢測生成的候選框集合(r1,r2,...,rn)。

在深度神經(jīng)網(wǎng)絡(luò)的最后一層全連接層產(chǎn)生了所有候選框的特征f(r)。特征經(jīng)過l2歸一化之后,它們之間的歐式距離可以代表候選框之間的相似度:

局部候選框的相似度約束使得正確標(biāo)注(groundtruth)與(positive)正樣本之間的特征距離小于正確標(biāo)注與(negative)負(fù)樣本的特征距離并保持一個(gè)最小距離間隔:

這里α表示之間的最小距離間隔,因此關(guān)于局部候選框的三元組損失可表示為:

當(dāng)采樣的候選框三元組不符合相似度距離約束時(shí),相應(yīng)的損失會反向傳播。因此在深度神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練時(shí),優(yōu)化目標(biāo)為:

其中n代表三元組的個(gè)數(shù)。

以下對局部候選框的三元組采樣進(jìn)行說明:

在檢測模型訓(xùn)練中,每個(gè)局部候選框都被指定一個(gè)類別標(biāo)簽lclass來表示它是某一目標(biāo)類別或是背景。

當(dāng)一個(gè)候選框與正確標(biāo)注之間的iou重疊超過50%,該候選框被指定為正樣本;當(dāng)一個(gè)局部候選框與任意一個(gè)正確標(biāo)注的iou覆蓋面積都在[bglow,0.5)之間時(shí),它被指定為負(fù)樣本。

bglow是一個(gè)閾值,在fastrcnn中bglow為0.1,對于iou重疊小于0.1的候選框,其興趣候選框的標(biāo)簽是不確定的。

另外,對每一個(gè)負(fù)樣本除了lclass外都額外指定一個(gè)候選框標(biāo)簽lproposal為與該候選框覆蓋面積最大的類別。

這樣所有的候選框都可根據(jù)lclass和lproposal被區(qū)分為不同的組(g1,g2,...,gm),每一組gc包括lclass=c的正樣本和lproposal=c的負(fù)樣本。

在對三元組進(jìn)行采樣的時(shí)候,對每個(gè)組gc,取決于對象的正確標(biāo)注,在lclass=c的正樣本中選取,rn在lclass=background并且lproposal=c的負(fù)樣本中選取。

由于一張圖片中實(shí)際生成的候選框數(shù)量較多,而其中大量的三元組不會違反相似約束。為了快速高效的訓(xùn)練網(wǎng)絡(luò),可選取每組中較難辨別的樣本來構(gòu)成三元組,在組gc選取三元組時(shí),選取與對象正確標(biāo)注特征距離最遠(yuǎn)的正樣本和與正確標(biāo)注特征距離最近的負(fù)樣本,形式化表述如下:

這里分別是正確標(biāo)注,正樣本和負(fù)樣本。

本發(fā)明實(shí)施例主要是在基于局部候選框的檢測器的訓(xùn)練階段加上額外的損失函數(shù),損失函數(shù)主要采用了三元組損失函數(shù),三元組的構(gòu)成主要是根據(jù)生成候選框與正確標(biāo)注的iou重合率,正確標(biāo)注如圖2左上角,正樣本如圖2左下角和正確標(biāo)注的iou重合率超過50%,負(fù)樣本如圖2右下角和正確標(biāo)注的iou重合率小于50%,圖2右上角是距離相似度的距離約束。

本發(fā)明實(shí)施例的方法可靈活地應(yīng)用到基于局部候選框的檢測算法的訓(xùn)練中,圖3是加入本發(fā)明方法的fastrcnn檢測器的vgg_m網(wǎng)絡(luò)結(jié)構(gòu)簡圖。在檢測框架中,除了原始的softmax損失和smoothl1損失,還加入了三元組損失函數(shù),在對最后一層全連接層fc7的特征經(jīng)過l2歸一化后,送入三元組損失函數(shù)。網(wǎng)絡(luò)中原有的池化層均替換為topk池化。

在實(shí)際使用測試階段,只需要通過softmax分類器獲得候選框的類別,再通過回歸獲得候選框的坐標(biāo)。三元組損失函數(shù)僅存在訓(xùn)練階段,約束網(wǎng)絡(luò)的學(xué)習(xí),在測試階段此網(wǎng)絡(luò)層將會被去除。從分類角度來看,較難分辨的候選框非常接近特征空間的分類超平面,因此容易被錯分類。三元組約束的引入,利用相似度距離學(xué)習(xí)可以約束正負(fù)樣本之間的相對距離,保持一定的最小距離間隔,進(jìn)而產(chǎn)生更容易被分類的特征分布,提高檢測器檢測性能。進(jìn)一步地,通過top-k池化替換原有的極大值池化,降低背景噪聲對小尺寸特征圖池化操作的影響,進(jìn)一步提升性能。

本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。

本領(lǐng)域技術(shù)人員可以理解,實(shí)施例中的各步驟可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(dsp)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。

雖然結(jié)合附圖描述了本發(fā)明的實(shí)施方式,但是本領(lǐng)域技術(shù)人員可以在不脫離本發(fā)明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權(quán)利要求所限定的范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
游戏| 本溪| 梁河县| 本溪| 平潭县| 慈溪市| 栾城县| 容城县| 绥棱县| 紫阳县| 宝鸡市| 扬中市| 巴林左旗| 黄浦区| 礼泉县| 嘉义市| 会昌县| 若尔盖县| 阜宁县| 鸡泽县| 阜新| 峡江县| 米林县| 徐州市| 宣化县| 全南县| 剑川县| 长兴县| 六枝特区| 安仁县| 土默特左旗| 抚松县| 浑源县| 松原市| 呼伦贝尔市| 尼玛县| 高清| 双辽市| 内江市| 上虞市| 汉沽区|