本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,尤其涉及計(jì)算機(jī)視覺領(lǐng)域中一種圖像語義分割的方法和裝置。
背景技術(shù):圖像語義分割也可以簡(jiǎn)稱為語義分割,是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究內(nèi)容,即將一幅圖像分割成具有不同語義的區(qū)域,并且標(biāo)注出每個(gè)區(qū)域?qū)儆诘念悇e,例如汽車、樹或人臉等。圖像語義分割可以用于許多應(yīng)用場(chǎng)合,例如基于內(nèi)容的圖像檢索(ContentBasedImageRetrieval,簡(jiǎn)稱為“CBIR”),場(chǎng)景理解與目標(biāo)定位等。應(yīng)理解,目標(biāo)定位就是語義分割的一個(gè)特例,只是把分割出的兩個(gè)區(qū)域分別標(biāo)注為前景與背景。傳統(tǒng)的圖像分割(以下簡(jiǎn)稱為分割)是非監(jiān)督學(xué)習(xí)問題,只是將相似的像素劃分到一起,不必利用帶有類別的訓(xùn)練樣本。傳統(tǒng)的分割技術(shù)的研究已經(jīng)有幾十年的歷史,但還是無法準(zhǔn)確地分割出目標(biāo),在大多數(shù)情況下,目標(biāo)都被過度分割成了更小的區(qū)域,即過分割。而近年才開始研究的圖像語義分割是一種監(jiān)督學(xué)習(xí)問題,要利用帶有類別的訓(xùn)練樣本進(jìn)行目標(biāo)識(shí)別。圖像語義分割結(jié)合了分割與目標(biāo)識(shí)別這兩種技術(shù),能夠?qū)D像分割成具有高級(jí)語義內(nèi)容的區(qū)域。例如,通過圖像語義分割,一幅圖像能夠被分割成分別具有“?!薄ⅰ安莸亍焙汀疤炜铡比N不同語義的區(qū)域。圖像語義分割的一類主要方法是對(duì)不同的目標(biāo)類別建立數(shù)學(xué)模型或分類器,例如特征袋、核表觀模型、區(qū)域評(píng)分模型以及統(tǒng)計(jì)推斷模型等。為了解決一個(gè)局部區(qū)域可能具有模棱兩可的不同類別的問題,可以對(duì)上下文信息進(jìn)行建模,在語義的層面上獲得不同目標(biāo)類別之間的約束關(guān)系。但是一般來說,這類基于數(shù)學(xué)模型或分類器的方法很難處理目標(biāo)類別很多時(shí)的情形。例如,如果我們的應(yīng)用場(chǎng)合中包含成千上萬種目標(biāo)類別時(shí),我們也只能不厭其煩地建立一個(gè)個(gè)目標(biāo)類別數(shù)學(xué)模型或分類器。另外,如果利用上下文信息,上下文信息的總量也會(huì)隨著目標(biāo)類別的增多而飛速增長。最近一種基于數(shù)據(jù)庫的方法代替建立數(shù)學(xué)模型或分類器方法,進(jìn)行圖像語義分割。這類方法將語義分割問題轉(zhuǎn)化為將輸入圖像與已有的帶標(biāo)注的圖像集進(jìn)行匹配的問題。在這類方法中,通過相似性匹配,能夠?qū)⒂?xùn)練圖像庫中的已有樣本的類別進(jìn)行遷移,用來標(biāo)注新的樣本。但這個(gè)方法需要對(duì)訓(xùn)練樣本中的每一個(gè)像素進(jìn)行手工標(biāo)注它所屬的類別,這個(gè)標(biāo)注過程費(fèi)時(shí)費(fèi)力,代價(jià)不菲。例如,僅對(duì)一幅圖像進(jìn)行像素級(jí)標(biāo)注大概就要花費(fèi)15到16分鐘。最近還提出了一種弱監(jiān)督語義分割方法,即不需要像素級(jí)標(biāo)注的圖像庫,而只利用圖像級(jí)標(biāo)注的訓(xùn)練圖像或參考圖像進(jìn)行語義分割。相比于其它系統(tǒng)需要對(duì)訓(xùn)練圖像進(jìn)行繁重的像素標(biāo)注而言,這種對(duì)圖像的粗略標(biāo)注會(huì)更快也會(huì)更容易獲得。但是,這類弱監(jiān)督語義分割問題非常具有挑戰(zhàn)性,因?yàn)闆]有準(zhǔn)確的像素級(jí)的標(biāo)注用來學(xué)習(xí)參考。已有的一些方法主要是依賴于這樣的假設(shè),即具有相似全局表觀的圖像傾向于具有相似的語義內(nèi)容。但是由于目標(biāo)和場(chǎng)景的變化復(fù)雜,這個(gè)假設(shè)并不總是正確的,從而可能導(dǎo)致比較嚴(yán)重的語義誤判和分割誤差。此外,在這類方法中,訓(xùn)練圖像或參考圖像并沒有和目標(biāo)圖像一起完成語義分割,而是仍然只保留圖像級(jí)的標(biāo)注。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種圖像語義分割的方法和裝置,能夠準(zhǔn)確地對(duì)目標(biāo)圖像進(jìn)行語義分割。第一方面,提供了一種圖像語義分割的方法,該方法包括:基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,該兼容參考集包括的兼容參考圖像與該目標(biāo)圖像具有相似的全局表觀,該競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像與該目標(biāo)圖像具有相異的全局表觀;將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域;基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該目標(biāo)圖像的區(qū)域的類別。結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,該方法還包括:基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的區(qū)域的類別。結(jié)合第一方面,在第一方面的第二種可能的實(shí)現(xiàn)方式中,該在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,包括:將該圖像庫中與該目標(biāo)圖像的全局表觀距離最近的N幅圖像確定為該目標(biāo)圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標(biāo)圖像It的全局表觀距離DA(IΩ,It)由下列等式(1)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標(biāo)圖像It的用于表示圖像It的全局表觀的全局表觀特征。結(jié)合第一方面,在第一方面的第三種可能的實(shí)現(xiàn)方式中,該在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,包括:對(duì)于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠(yuǎn)的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應(yīng)的競(jìng)爭(zhēng)參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(2)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;將與該兼容參考集中的N幅兼容參考圖像分別相應(yīng)的N幅競(jìng)爭(zhēng)參考圖像確定為該目標(biāo)圖像的競(jìng)爭(zhēng)參考集。結(jié)合第一方面,在第一方面的第四種可能的實(shí)現(xiàn)方式中,該將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域,包括:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域。結(jié)合第一方面或第一方面的第一種至第四種可能的實(shí)現(xiàn)方式中的任一種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式中,該確定該目標(biāo)圖像的區(qū)域的類別,包括:確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性;確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性;以該語義一致性與該圖像相關(guān)性之和最大為目標(biāo)函數(shù),確定該目標(biāo)圖像的區(qū)域的類別。結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式中,該確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性,包括:由下列等式(3)和(4)確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標(biāo)圖像,表示該兼容參考圖像,表示該競(jìng)爭(zhēng)參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個(gè)區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當(dāng)i=ls時(shí),xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個(gè)相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值。結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第七種可能的實(shí)現(xiàn)方式中,該區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗(yàn)、目標(biāo)先驗(yàn)和顯著性先驗(yàn)確定;該區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值由該區(qū)域s1和s2的一階密度先驗(yàn)確定。結(jié)合第一方面的第七種可能的實(shí)現(xiàn)方式,在第一方面的第八種可能的實(shí)現(xiàn)方式中,該區(qū)域s的基于語義的區(qū)域密度先驗(yàn),由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計(jì)確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(5)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個(gè)區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(6)確定:其中,為該區(qū)域sΩ的特征。結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第九種可能的實(shí)現(xiàn)方式中,該確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性,包括:由下列等式(7)至(9)確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性之和E:E=E1+E2(7)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標(biāo)圖像It的圖像相關(guān)性之和;E2表示該競(jìng)爭(zhēng)參考集包括的所有競(jìng)爭(zhēng)參考圖像I-與該目標(biāo)圖像It的圖像相關(guān)性之和;st、s+和s-分別表示該目標(biāo)圖像It、該兼容參考圖像I+和該競(jìng)爭(zhēng)參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(10)和(11)確定:其中,和分別表示區(qū)域st、s+和s-的特征。第二方面,提供了一種圖像語義分割的裝置,該裝置包括:第一確定模塊,用于基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,該兼容參考集包括的兼容參考圖像與該目標(biāo)圖像具有相似的全局表觀,該競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像與該目標(biāo)圖像具有相異的全局表觀;分割模塊,用于將該目標(biāo)圖像、該第一確定模塊確定的該兼容參考圖像和該第一確定模塊確定的該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域;第二確定模塊,用于基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該分割模塊將該目標(biāo)圖像分割成的區(qū)域的類別。結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,該第二確定模塊還用于:基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的區(qū)域的類別。結(jié)合第二方面,在第二方面的第二種可能的實(shí)現(xiàn)方式中,該第一確定模塊包括:第一確定單元,用于將該圖像庫中與該目標(biāo)圖像的全局表觀距離最近的N幅圖像確定為該目標(biāo)圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標(biāo)圖像It的全局表觀距離DA(IΩ,It)由下列等式(21)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標(biāo)圖像It的用于表示圖像It的全局表觀的全局表觀特征。結(jié)合第二方面,在第二方面的第三種可能的實(shí)現(xiàn)方式中,該第一確定模塊包括:第二確定單元,用于對(duì)于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠(yuǎn)的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;第三確定單元,用于將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應(yīng)的競(jìng)爭(zhēng)參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(22)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;第四確定單元,用于將與該兼容參考集中的N幅兼容參考圖像分別相應(yīng)的N幅競(jìng)爭(zhēng)參考圖像確定為該目標(biāo)圖像的競(jìng)爭(zhēng)參考集。結(jié)合第二方面,在第二方面的第四種可能的實(shí)現(xiàn)方式中,該分割模塊用于:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域。結(jié)合第二方面或第二方面的第一種至第四種可能的實(shí)現(xiàn)方式中的任一種可能的實(shí)現(xiàn)方式,在第二方面的第五種可能的實(shí)現(xiàn)方式中,該第二確定模塊包括:第五確定單元,用于確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性;第六確定單元,用于確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性;第七確定單元,用于以該語義一致性與該圖像相關(guān)性之和最大為目標(biāo)函數(shù),確定該目標(biāo)圖像的區(qū)域的類別。結(jié)合第二方面的第五種可能的實(shí)現(xiàn)方式,在第二方面的第六種可能的實(shí)現(xiàn)方式中,該第五確定單元用于:由下列等式(23)和(24)確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標(biāo)圖像,表示該兼容參考圖像,表示該競(jìng)爭(zhēng)參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個(gè)區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當(dāng)i=ls時(shí),xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個(gè)相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值。結(jié)合第二方面的第六種可能的實(shí)現(xiàn)方式,在第二方面的第七種可能的實(shí)現(xiàn)方式中,該區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗(yàn)、目標(biāo)先驗(yàn)和顯著性先驗(yàn)確定;該區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值由該區(qū)域s1和s2的一階密度先驗(yàn)確定。結(jié)合第二方面的第七種可能的實(shí)現(xiàn)方式,在第二方面的第八種可能的實(shí)現(xiàn)方式中,該區(qū)域s的基于語義的區(qū)域密度先驗(yàn),由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計(jì)確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(25)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個(gè)區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(26)確定:其中,為該區(qū)域sΩ的特征。結(jié)合第二方面的第五種可能的實(shí)現(xiàn)方式,在第二方面的第九種可能的實(shí)現(xiàn)方式中,該第六確定單元用于:由下列等式(27)至(29)確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性之和E:E=E1+E2(27)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標(biāo)圖像It的圖像相關(guān)性之和;E2表示該競(jìng)爭(zhēng)參考集包括的所有競(jìng)爭(zhēng)參考圖像I-與該目標(biāo)圖像It的圖像相關(guān)性之和;st、s+和s-分別表示該目標(biāo)圖像It、該兼容參考圖像I+和該競(jìng)爭(zhēng)參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(30)和(31)確定:其中,和分別表示區(qū)域st、s+和s-的特征。基于上述技術(shù)方案,本發(fā)明實(shí)施例的圖像語義分割的方法和裝置,通過在圖像庫中采用與目標(biāo)圖像具有相似的全局表觀的兼容參考集,以及與目標(biāo)圖像具有相異的全局表觀且與兼容參考集具有相似語義的競(jìng)爭(zhēng)參考集作為參考集,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。附圖說明為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法的示意性流程圖。圖2是根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法的另一示意性流程圖。圖3是根據(jù)本發(fā)明實(shí)施例的確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集的方法的示意性流程圖。圖4是根據(jù)本發(fā)明實(shí)施例的確定該目標(biāo)圖像的區(qū)域的類別的方法的示意性流程圖。圖5是根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置的示意性框圖。圖6是根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置的另一示意性框圖。圖7是根據(jù)本發(fā)明實(shí)施例的第一確定模塊的示意性框圖。圖8是根據(jù)本發(fā)明實(shí)施例的第二確定模塊的示意性框圖。圖9是根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置的再一示意性框圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都應(yīng)屬于本發(fā)明保護(hù)的范圍。圖1示出了根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法100的示意性流程圖。如圖1所示,該方法100包括:S110,基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,該兼容參考集包括的兼容參考圖像與所述目標(biāo)圖像具有相似的全局表觀,該競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像與所述目標(biāo)圖像具有相異的全局表觀;S120,將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域;S130,基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該目標(biāo)圖像的區(qū)域的類別。具體而言,為了對(duì)目標(biāo)圖像進(jìn)行圖像語義分割,圖像語義分割的裝置可以在圖像庫中搜索或選擇用于圖像語義分割的訓(xùn)練圖像或參考圖像,例如,圖像語義分割的裝置可以基于圖像的全局表觀距離和語義距離,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,該兼容參考集包括的圖像可以與目標(biāo)圖像具有相似的全局表觀,而競(jìng)爭(zhēng)參考集包括的圖像可以與目標(biāo)圖像具有相異的全局表觀,且與兼容參考集包括的其中一個(gè)兼容參考圖像具有相似的圖像級(jí)標(biāo)注,即競(jìng)爭(zhēng)參考集包括的圖像可以與目標(biāo)圖像具有相異的全局表觀且與兼容參考集包括的兼容參考圖像具有相似的語義;從而圖像語義分割的裝置可以將該目標(biāo)圖像、該兼容參考集包括的兼容參考圖像和該競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像過度中的每一幅圖像分割成多個(gè)區(qū)域,從而可以基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該目標(biāo)圖像的區(qū)域的類別。因此,本發(fā)明實(shí)施例的圖像語義分割的方法,通過在圖像庫中采用與目標(biāo)圖像具有相似的全局表觀的兼容參考集,以及與目標(biāo)圖像具有相異的全局表觀且與兼容參考集具有相似語義的競(jìng)爭(zhēng)參考集作為參考集,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法,采用的圖像庫可以是具有圖像級(jí)標(biāo)注的訓(xùn)練圖像庫,從而不需要對(duì)訓(xùn)練圖像庫進(jìn)行繁重的手工像素級(jí)標(biāo)注,省時(shí)省力。在本發(fā)明實(shí)施例中,可選地,如圖2所示,該方法100還包括:S140,基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的區(qū)域的類別。即在本發(fā)明實(shí)施例中,圖像語義分割的裝置可以在基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該目標(biāo)圖像的區(qū)域的類別的同時(shí),還可以基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的區(qū)域的類別。因此,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容;并且還能夠同時(shí)對(duì)無標(biāo)注的目標(biāo)圖像以及帶圖像級(jí)標(biāo)注的參考圖像進(jìn)行聯(lián)合語義分割。下文中將結(jié)合圖3和圖4,詳細(xì)描述根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法如何對(duì)目標(biāo)圖像和/或參考圖像進(jìn)行圖像語義分割。在S110中,圖像語義分割的裝置可以基于圖像的全局表觀距離和語義距離,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集。在本發(fā)明實(shí)施例中,該圖像庫可以是具有圖像級(jí)標(biāo)注的圖像庫,即該圖像庫包括的圖像具有圖像級(jí)標(biāo)注。該圖像庫可以通過手工標(biāo)定網(wǎng)絡(luò)上采集的圖像而獲得,也可以直接利用網(wǎng)絡(luò)上已經(jīng)出現(xiàn)的大量帶圖像級(jí)標(biāo)注的圖像獲得,例如可以通過采集谷歌(Google)上的圖像級(jí)標(biāo)注的圖像而獲得。應(yīng)理解,本發(fā)明實(shí)施例僅以具有圖像級(jí)標(biāo)注的圖像庫為例進(jìn)行說明,但本發(fā)明實(shí)施例并不限于此,例如,該圖像庫包括的圖像還可以具有部分或全部的像素級(jí)標(biāo)注。還應(yīng)理解,在本發(fā)明實(shí)施例中,圖像級(jí)標(biāo)注可以表示標(biāo)注圖像所包括的目標(biāo)類別,像素級(jí)標(biāo)注可以表示標(biāo)注圖像中的像素所屬的類別。在本發(fā)明實(shí)施例中,圖像的全局表觀距離用于表示圖像之間的全局表觀相似性,例如,全局表觀距離越小,可以表示圖像之間的全局表觀相似性越高,即圖像之間的全局表觀越相似;類似地,圖像的語義距離用于表示圖像之間的語義相似性,例如,語義距離越小,可以表示圖像之間的語義相似性越低,即圖像之間的語義越不相似。在本發(fā)明實(shí)施例中,兼容參考集可以表示與目標(biāo)圖像具有相似的全局表觀的圖像的集合;競(jìng)爭(zhēng)參考集可以表示與目標(biāo)圖像具有相異的全局表觀的圖像的集合,其中,競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像可以與兼容參考集包括的其中一個(gè)兼容參考圖像具有相似的圖像級(jí)標(biāo)注。從而兼容參考集和競(jìng)爭(zhēng)參考集可以為目標(biāo)圖像的語義分割提供互補(bǔ)的信息以減少語義的誤判,從而能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。在本發(fā)明實(shí)施例中,可選地,該在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,包括:將該圖像庫中與該目標(biāo)圖像的全局表觀距離最近的N幅圖像確定為該目標(biāo)圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標(biāo)圖像It的全局表觀距離DA(IΩ,It)由下列等式(1)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標(biāo)圖像It的用于表示圖像It的全局表觀的全局表觀特征。應(yīng)理解,在本發(fā)明實(shí)施例中,全局表觀特征用于表示圖像的全局表觀,也即圖像的全局表觀的特征;區(qū)域表觀特征用于表示圖像的區(qū)域表觀,也即圖像的區(qū)域表觀的特征,但本發(fā)明并不限于此。即對(duì)于一幅無標(biāo)注的目標(biāo)圖像It,可以基于等式(1),在圖像庫Ω中搜索與目標(biāo)圖像It的全局表觀距離最近的一些圖像,作為兼容參考集包括的兼容參考圖像。其中,圖像的全局表觀特征可以為任何用于衡量圖像的全局表觀特征,例如,在本發(fā)明實(shí)施例中,圖像的全局表觀特征f可以為梯度方向直方圖(HistogramofOrientedGradients,簡(jiǎn)稱為“HOG”)特征fHOG和GIST特征fGIST的組合[fHOG,fGIST]。還應(yīng)理解,在等式(1)中,符號(hào)可以表示向量的范數(shù),或者也可以稱為向量的模數(shù)或長度,但本發(fā)明并不限于此。在本發(fā)明實(shí)施例中,可選地,如圖3所示,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集的方法110,包括:S111,對(duì)于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠(yuǎn)的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;S112,將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應(yīng)的競(jìng)爭(zhēng)參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(2)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;S113,將與該兼容參考集中的N幅兼容參考圖像分別相應(yīng)的N幅競(jìng)爭(zhēng)參考圖像確定為該目標(biāo)圖像的競(jìng)爭(zhēng)參考集。具體而言,在本發(fā)明實(shí)施例中,對(duì)于兼容參考集中的每一幅兼容參考圖像n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量,例如可以基于等式(1)所示的全局表觀距離,分別確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠(yuǎn)或距離值最大的K幅圖像其中,K為自然數(shù),例如,K為圖像庫Ω中包括的圖像總數(shù)的1/10。在確定的K幅圖像中,可以再根據(jù)圖像之間的語義距離,將該K幅圖像中與該兼容參考圖像的語義距離最近或距離值最小的一幅圖像,確定為與該兼容參考圖像相應(yīng)的競(jìng)爭(zhēng)參考圖像。例如,根據(jù)等式(2)所示的語義距離,確定與兼容參考圖像相應(yīng)的競(jìng)爭(zhēng)參考圖像。應(yīng)理解,在等式(2)中,|T(·)|表示類別的集合中包括的類別的數(shù)量,例如,表示K幅圖像中的圖像所包括的類別的數(shù)量;表示該兼容參考圖像所包括的類別的數(shù)量。從而可以確定與該兼容參考集中的N幅兼容參考圖像分別相應(yīng)的N幅競(jìng)爭(zhēng)參考圖像,由此該N幅競(jìng)爭(zhēng)參考圖像形成用于目標(biāo)圖像的圖像語義分割的競(jìng)爭(zhēng)參考集。即對(duì)于每一幅兼容參考圖像,都可以確定一幅與之相應(yīng)的競(jìng)爭(zhēng)參考圖像,也即兼容參考集與競(jìng)爭(zhēng)參考集的大小相同。但應(yīng)理解,本發(fā)明實(shí)施例僅以兼容參考集與競(jìng)爭(zhēng)參考集的大小相同為例進(jìn)行說明,本發(fā)明并不限于此,兼容參考集與競(jìng)爭(zhēng)參考集的大小也可以不同。例如對(duì)于每一幅兼容參考圖像,也可以確定兩幅或更多的與之相應(yīng)的競(jìng)爭(zhēng)參考圖像。還應(yīng)理解,可以事先離線完成圖像庫Ω中所有圖像之間的語義距離的計(jì)算,從而能夠快速地確定與每幅兼容參考圖相應(yīng)的競(jìng)爭(zhēng)參考圖像。在本發(fā)明實(shí)施例中,可以基于圖像的全局表觀距離和語義距離,確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,而圖像之間的全局表觀距離可以由等式(1)確定,圖像之間的語義距離可以由等式(2)確定。但應(yīng)理解,本發(fā)明實(shí)施例僅以等式(1)和(2)為例進(jìn)行說明,但本發(fā)明并不限于此,圖像之間的全局表觀距離和語義距離還可以采用其它特征或采用其它函數(shù)進(jìn)行表示;還應(yīng)理解,在本發(fā)明實(shí)施例中,還可以基于圖像之間的其它距離度量,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,本發(fā)明并不限于此。在S120中,圖像語義分割的裝置將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域??蛇x地,圖像語義分割的裝置基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域。例如,圖像語義分割的裝置可以基于圖切割方法、正規(guī)切割方法等,對(duì)目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像進(jìn)行過度分割,形成多個(gè)區(qū)域。應(yīng)理解,在本發(fā)明實(shí)施例中,可以采用任何基于圖像的顏色和/或紋理的區(qū)域表觀特征的分割方法,對(duì)目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像進(jìn)行過度分割,本發(fā)明實(shí)施例并不限于此。還應(yīng)理解,在本發(fā)明實(shí)施例中,可以離線對(duì)圖像庫Ω中的每一幅圖像進(jìn)行過分割,并僅對(duì)目標(biāo)圖像進(jìn)行在線過分割,從而能夠縮短圖像語義分割的處理時(shí)間,并簡(jiǎn)化圖像語義分割。在S130中,圖像語義分割的裝置可以基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該目標(biāo)圖像的區(qū)域的類別。例如,圖像語義分割的裝置可以基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性之和,以及兼容參考圖像和競(jìng)爭(zhēng)參考圖像分別與目標(biāo)圖像的圖像相關(guān)性之和,確定該目標(biāo)圖像的區(qū)域的類別。具體地,在本發(fā)明實(shí)施例中,可選地,如圖4所示,根據(jù)本發(fā)明實(shí)施例的確定該目標(biāo)圖像的區(qū)域的類別的方法130,包括:S131,確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性;S132,確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性;S133,以該語義一致性與該圖像相關(guān)性之和最大為目標(biāo)函數(shù),確定該目標(biāo)圖像的區(qū)域的類別。在S131中,可選地,該確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性,包括:由下列等式(3)和(4)確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標(biāo)圖像,表示該兼容參考圖像,表示該競(jìng)爭(zhēng)參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個(gè)區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當(dāng)i=ls時(shí),xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個(gè)相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值。應(yīng)理解,θs(i)表示區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值,該程度值越大,說明區(qū)域s屬于第i個(gè)類別的可能性就越大;表示相鄰區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值,該程度值越大,說明相鄰區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的可能性就越大。還應(yīng)理解,θs也可以稱為區(qū)域s的一元?jiǎng)菽?;也可以稱為相鄰區(qū)域s1和s2的二元?jiǎng)菽?。在本發(fā)明實(shí)施例中,可選地,該區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗(yàn)、目標(biāo)先驗(yàn)和顯著性先驗(yàn)確定;該區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值由該區(qū)域s1和s2的一階密度先驗(yàn)確定。應(yīng)理解,區(qū)域s的目標(biāo)先驗(yàn)可以由下列方法確定:例如,將Ls中的第i個(gè)類別定義為目標(biāo),將其它類別定義為背景,利用圖像庫學(xué)習(xí)出目標(biāo)與背景的判別模型,從而用該判別模型對(duì)該區(qū)域s進(jìn)行打分,并可以將分值確定為該區(qū)域s的目標(biāo)先驗(yàn)。但本發(fā)明實(shí)施例并不限于此,還可以采用其它方法確定區(qū)域s的目標(biāo)先驗(yàn)。應(yīng)理解,區(qū)域s的顯著性先驗(yàn)可以由下列方法確定:將該區(qū)域s與周圍相鄰區(qū)域進(jìn)行基于直方圖和基于區(qū)域的對(duì)比度分析,確定區(qū)域s在它所在圖像I上的顯著性程度;并對(duì)圖像庫中具有相似顯著性程度的區(qū)域所在圖像進(jìn)行類別分布統(tǒng)計(jì),從而確定該區(qū)域s的顯著性先驗(yàn)。但本發(fā)明實(shí)施例并不限于此,還可以采用其它方法確定區(qū)域s的顯著性先驗(yàn)。在本發(fā)明實(shí)施例中,區(qū)域s的基于語義的區(qū)域密度先驗(yàn)例如可以由下列方法確定:首先對(duì)于圖像I中的區(qū)域s,估計(jì)它在圖像庫中每一幅圖像中的密度,該密度可以為該區(qū)域s與它在該圖像的一些鄰近區(qū)域之間的平均相似度;然后可以根據(jù)密度,按降序排列圖像庫中的所有圖像;由此可以將前幾幅圖像(例如,圖像庫包括的圖像總數(shù)的1/20)的類別分布統(tǒng)計(jì)作為區(qū)域s的基于語義的區(qū)域密度先驗(yàn)。即,在本發(fā)明實(shí)施例中,可選地,該區(qū)域s的基于語義的區(qū)域密度先驗(yàn),由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計(jì)確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(5)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個(gè)區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(6)確定:其中,為該區(qū)域sΩ的特征。應(yīng)理解,該區(qū)域s1和s2的一階密度先驗(yàn)可以由下列等式確定:其中,表示相鄰區(qū)域s1和s2在圖像庫Ω中的密度,并且可以由下列等式確定:其中,a為非零常數(shù);為圖像庫中與相鄰區(qū)域s1和s2距離最近的G個(gè)相鄰區(qū)域?qū)?;其中,圖像庫中的相鄰區(qū)域?qū)εc該相鄰區(qū)域s1和s2之間的距離由下式確定:其中,為該相鄰區(qū)域s1和s2的聯(lián)合特征;為該圖像庫中的相鄰區(qū)域?qū)Φ穆?lián)合特征;相應(yīng)地,為該相鄰區(qū)域?qū)Φ穆?lián)合特征。還應(yīng)理解,本發(fā)明實(shí)施例僅以此為例進(jìn)行說明,但本發(fā)明并不限于此,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法還可以采用其它方法確定該區(qū)域s的基于語義的區(qū)域密度先驗(yàn)、目標(biāo)先驗(yàn)和顯著性先驗(yàn),并可以采用其它方法確定該區(qū)域s1和s2的一階密度先驗(yàn)。在S132中,可選地,該確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性,包括:由下列等式(7)至(9)確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性之和E:E=E1+E2(7)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標(biāo)圖像It的圖像相關(guān)性之和;E2表示該競(jìng)爭(zhēng)參考集包括的所有競(jìng)爭(zhēng)參考圖像I-與該目標(biāo)圖像It的圖像相關(guān)性之和;st、s+和s-分別表示該目標(biāo)圖像It、該兼容參考圖像I+和該競(jìng)爭(zhēng)參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(10)和(11)確定:其中,和分別表示區(qū)域st、s+和s-的特征。在S133中,圖像語義分割的裝置以該語義一致性與該圖像相關(guān)性之和最大為目標(biāo)函數(shù),確定該目標(biāo)圖像的區(qū)域的類別。在S140中,圖像語義分割的裝置以該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性,以及該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性之和最大為目標(biāo)函數(shù),確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的區(qū)域的類別。具體而言,可以將目標(biāo)圖像、兼容參考集包括的兼容參考圖像和競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像的區(qū)域作為圖模型的頂點(diǎn),這些區(qū)域的類別是未知量。一幅圖像的語義一致性可以由一元?jiǎng)菽芎投獎(jiǎng)菽鼙硎?,即由圖像的統(tǒng)計(jì)先驗(yàn)表示;兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性可以由兼容邊和競(jìng)爭(zhēng)邊來表示,每一個(gè)兼容邊連接著目標(biāo)圖像和一幅兼容參考圖像上相似位置上的兩個(gè)區(qū)域,每一個(gè)競(jìng)爭(zhēng)邊以同樣的方式連接目標(biāo)圖像和一幅競(jìng)爭(zhēng)參考圖像上的兩個(gè)區(qū)域。該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性之和C可以由上述等式(3)和(4)確定,但應(yīng)理解,除了上文中對(duì)xs(i)和所做的約束之外,為了使得它們指示的類別相一致,xs(i)和還需要滿足下列等式(12)和(13):其中,s1和s2表示圖像I中的兩個(gè)相鄰的區(qū)域;和分別為二值類別指示向量,且當(dāng)時(shí),且當(dāng)時(shí),因此,上述等式(3)和(4)以及約束條件(12)和(13)一起可以由以矩陣符號(hào)體現(xiàn)的等式(14)表示:ΘTx+ΦTys.t.Hx=e,Ax=By,x,y∈{0,1}(14)其中,x是一個(gè)長向量,由目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的所有區(qū)域的二值類標(biāo)指示向量串連而成;類似地,y也是一個(gè)長向量,由所有二值類標(biāo)指示矩陣串連而成;x和y分別表示x和y中的元素;e為一個(gè)全1向量,而H,A和B分別為系數(shù)矩陣。該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性之和E可以由上述等式(7)至(9)確定,但應(yīng)理解,除了上文中的約束之外,為了使得z+(i,j)與和它們指示的類別相一致,還需要滿足下列等式(15)和(16):類似地,z-(i,j)需要與和它們指示的類別相一致。因此,上述等式(7)至(9)以及上述約束條件一起可以由以矩陣符號(hào)體現(xiàn)的等式(17)表示:ΨTz++ΓTz-s.t.Cz+=Dx,C′z-=D′x,x,z+,z-∈{0,1}(17)其中,z+和z-分別為由所有二值類標(biāo)指示矩陣串連而成的長向量;z+和z-分別表示z+和z-中的元素;C,C′,D和D′分別為系數(shù)矩陣。因此,結(jié)合等式(14)和(16)可以得到完整表達(dá)式(18):上述整數(shù)規(guī)劃問題可以被松弛為一個(gè)線性規(guī)劃問題。應(yīng)理解,許多算法都可用于求解線性規(guī)劃問題,得到的類標(biāo)指示向量x就確定了目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中所有區(qū)域的類別,例如,該線性規(guī)劃問題可以采用內(nèi)點(diǎn)法進(jìn)行求解。應(yīng)理解,目標(biāo)圖像和兼容參考集之間的圖像相關(guān)性可以理解為:假如目標(biāo)圖像中的一個(gè)區(qū)域與一幅兼容參考集圖像中對(duì)應(yīng)位置的區(qū)域具有相似的表觀或特征,則這兩個(gè)區(qū)域?qū)儆谕活惖目赡苄跃痛?;類似地,目?biāo)圖像和競(jìng)爭(zhēng)參考集之間的圖像相關(guān)性可以理解為:假如目標(biāo)圖像中的一個(gè)區(qū)域與一幅競(jìng)爭(zhēng)參考集圖像中對(duì)應(yīng)位置的區(qū)域具有相異的表觀,兩個(gè)區(qū)域?qū)儆诓煌惖目赡苄跃痛?。還應(yīng)理解,在本發(fā)明的各種實(shí)施例中,上述各過程的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過程構(gòu)成任何限定。因此,本發(fā)明實(shí)施例的圖像語義分割的方法,通過在圖像庫中采用與目標(biāo)圖像具有相似的全局表觀的兼容參考集,以及與目標(biāo)圖像具有相異的全局表觀且與兼容參考集具有相似語義的競(jìng)爭(zhēng)參考集作為參考集,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法,采用的圖像庫可以是具有圖像級(jí)標(biāo)注的訓(xùn)練圖像庫,從而不需要對(duì)訓(xùn)練圖像庫進(jìn)行繁重的手工像素級(jí)標(biāo)注,省時(shí)省力;并且根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法,能夠同時(shí)對(duì)無標(biāo)注的目標(biāo)圖像以及帶圖像級(jí)標(biāo)注的參考圖像進(jìn)行聯(lián)合語義分割。上文中結(jié)合圖1至圖4,詳細(xì)描述了根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法,下面將結(jié)合圖5至圖9,詳細(xì)描述根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置。圖5示出了根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置500的示意性框圖。如圖5所示,該裝置500包括:第一確定模塊510,用于基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,該兼容參考集包括的兼容參考圖像與該目標(biāo)圖像具有相似的全局表觀,該競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像與該目標(biāo)圖像具有相異的全局表觀;分割模塊520,用于將該目標(biāo)圖像、該第一確定模塊510確定的該兼容參考圖像和該第一確定模塊510確定的該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域;第二確定模塊530,用于基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該分割模塊520將該目標(biāo)圖像分割成的區(qū)域的類別。因此,本發(fā)明實(shí)施例的圖像語義分割的裝置,通過在圖像庫中采用與目標(biāo)圖像具有相似的全局表觀的兼容參考集,以及與目標(biāo)圖像具有相異的全局表觀且與兼容參考集具有相似語義的競(jìng)爭(zhēng)參考集作為參考集,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級(jí)標(biāo)注的訓(xùn)練圖像庫,從而不需要對(duì)訓(xùn)練圖像庫進(jìn)行繁重的手工像素級(jí)標(biāo)注,省時(shí)省力;并且根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,能夠同時(shí)對(duì)無標(biāo)注的目標(biāo)圖像以及帶圖像級(jí)標(biāo)注的參考圖像進(jìn)行聯(lián)合語義分割。在本發(fā)明實(shí)施例中,可選地,該第二確定模塊530還用于:基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的區(qū)域的類別。在本發(fā)明實(shí)施例中,如圖6所示,可選地,該第一確定模塊510包括:第一確定單元511,用于將該圖像庫中與該目標(biāo)圖像的全局表觀距離最近的N幅圖像確定為該目標(biāo)圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標(biāo)圖像It的全局表觀距離DA(IΩ,It)由下列等式(21)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標(biāo)圖像It的用于表示圖像It的全局表觀的全局表觀特征。在本發(fā)明實(shí)施例中,如圖7所示,可選地,該第一確定模塊510包括:第二確定單元512,用于對(duì)于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠(yuǎn)的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;第三確定單元513,用于將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應(yīng)的競(jìng)爭(zhēng)參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(22)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;第四確定單元514,用于將與該兼容參考集中的N幅兼容參考圖像分別相應(yīng)的N幅競(jìng)爭(zhēng)參考圖像確定為該目標(biāo)圖像的競(jìng)爭(zhēng)參考集。在本發(fā)明實(shí)施例中,可選地,該分割模塊520用于:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域。在本發(fā)明實(shí)施例中,如圖8所示,可選地,該第二確定模塊530包括:第五確定單元531,用于確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性;第六確定單元532,用于確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性;第七確定單元533,用于以該語義一致性與該圖像相關(guān)性之和最大為目標(biāo)函數(shù),確定該目標(biāo)圖像的區(qū)域的類別。在本發(fā)明實(shí)施例中,可選地,該第五確定單元531用于:由下列等式(23)和(24)確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標(biāo)圖像,表示該兼容參考圖像,表示該競(jìng)爭(zhēng)參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個(gè)區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當(dāng)i=ls時(shí),xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個(gè)相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值。在本發(fā)明實(shí)施例中,可選地,該區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗(yàn)、目標(biāo)先驗(yàn)和顯著性先驗(yàn)確定;該區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值由該區(qū)域s1和s2的一階密度先驗(yàn)確定。在本發(fā)明實(shí)施例中,可選地,該區(qū)域s的基于語義的區(qū)域密度先驗(yàn),由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計(jì)確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(25)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個(gè)區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(26)確定:其中,為該區(qū)域sΩ的特征。在本發(fā)明實(shí)施例中,可選地,該第六確定單元532用于:由下列等式(27)至(29)確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性之和E:E=E1+E2(27)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標(biāo)圖像It的圖像相關(guān)性之和;E2表示該競(jìng)爭(zhēng)參考集包括的所有競(jìng)爭(zhēng)參考圖像I-與該目標(biāo)圖像It的圖像相關(guān)性之和;st、s+和s-分別表示該目標(biāo)圖像It、該兼容參考圖像I+和該競(jìng)爭(zhēng)參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(30)和(31)確定:其中,和分別表示區(qū)域st、s+和s-的特征。因此,本發(fā)明實(shí)施例的圖像語義分割的裝置,通過在圖像庫中采用與目標(biāo)圖像具有相似的全局表觀的兼容參考集,以及與目標(biāo)圖像具有相異的全局表觀且與兼容參考集具有相似語義的競(jìng)爭(zhēng)參考集作為參考集,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級(jí)標(biāo)注的訓(xùn)練圖像庫,從而不需要對(duì)訓(xùn)練圖像庫進(jìn)行繁重的手工像素級(jí)標(biāo)注,省時(shí)省力;并且根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,能夠同時(shí)對(duì)無標(biāo)注的目標(biāo)圖像以及帶圖像級(jí)標(biāo)注的參考圖像進(jìn)行聯(lián)合語義分割。應(yīng)理解,本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:?jiǎn)为?dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。還應(yīng)理解,在本發(fā)明實(shí)施例中,“與A相應(yīng)的B”表示B與A相關(guān)聯(lián),根據(jù)A可以確定B。但還應(yīng)理解,根據(jù)A確定B并不意味著僅僅根據(jù)A確定B,還可以根據(jù)A和/或其它信息確定B。如圖9所示,本發(fā)明實(shí)施例還提供了一種圖像語義分割的裝置700,該裝置700包括處理器710、存儲(chǔ)器720和總線系統(tǒng)730。其中,處理器710、存儲(chǔ)器720通過總線系統(tǒng)730相連,該存儲(chǔ)器720用于存儲(chǔ)指令,該處理器710用于執(zhí)行該存儲(chǔ)器720存儲(chǔ)的指令。其中,該處理器710用于:基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,該兼容參考集包括的兼容參考圖像與該目標(biāo)圖像具有相似的全局表觀,該競(jìng)爭(zhēng)參考集包括的競(jìng)爭(zhēng)參考圖像與該目標(biāo)圖像具有相異的全局表觀;將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域;基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該目標(biāo)圖像的區(qū)域的類別。因此,本發(fā)明實(shí)施例的圖像語義分割的裝置,通過在圖像庫中采用與目標(biāo)圖像具有相似的全局表觀的兼容參考集,以及與目標(biāo)圖像具有相異的全局表觀且與兼容參考集具有相似語義的競(jìng)爭(zhēng)參考集作為參考集,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級(jí)標(biāo)注的訓(xùn)練圖像庫,從而不需要對(duì)訓(xùn)練圖像庫進(jìn)行繁重的手工像素級(jí)標(biāo)注,省時(shí)省力;并且根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,能夠同時(shí)對(duì)無標(biāo)注的目標(biāo)圖像以及帶圖像級(jí)標(biāo)注的參考圖像進(jìn)行聯(lián)合語義分割。應(yīng)理解,在本發(fā)明實(shí)施例中,該處理器710可以是中央處理單元(CentralProcessingUnit,簡(jiǎn)稱為“CPU”),該處理器710還可以是其他通用處理器、數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列(FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。該存儲(chǔ)器720可以包括只讀存儲(chǔ)器和隨機(jī)存取存儲(chǔ)器,并向處理器710提供指令和數(shù)據(jù)。存儲(chǔ)器720的一部分還可以包括非易失性隨機(jī)存取存儲(chǔ)器。例如,存儲(chǔ)器720還可以存儲(chǔ)設(shè)備類型的信息。該總線系統(tǒng)730除包括數(shù)據(jù)總線之外,還可以包括電源總線、控制總線和狀態(tài)信號(hào)總線等。但是為了清楚說明起見,在圖中將各種總線都標(biāo)為總線系統(tǒng)730。在實(shí)現(xiàn)過程中,上述方法的各步驟可以通過處理器710中的硬件的集成邏輯電路或者軟件形式的指令完成。結(jié)合本發(fā)明實(shí)施例所公開的方法的步驟可以直接體現(xiàn)為硬件處理器執(zhí)行完成,或者用處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機(jī)存儲(chǔ)器,閃存、只讀存儲(chǔ)器,可編程只讀存儲(chǔ)器或者電可擦寫可編程存儲(chǔ)器、寄存器等本領(lǐng)域成熟的存儲(chǔ)介質(zhì)中。該存儲(chǔ)介質(zhì)位于存儲(chǔ)器720,處理器710讀取存儲(chǔ)器720中的信息,結(jié)合其硬件完成上述方法的步驟。為避免重復(fù),這里不再詳細(xì)描述。可選地,作為一個(gè)實(shí)施例,該處理器710還用于:基于該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的區(qū)域的類別??蛇x地,作為一個(gè)實(shí)施例,該處理器710在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,包括:將該圖像庫中與該目標(biāo)圖像的全局表觀距離最近的N幅圖像確定為該目標(biāo)圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標(biāo)圖像It的全局表觀距離DA(IΩ,It)由下列等式(1)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標(biāo)圖像It的用于表示圖像It的全局表觀的全局表觀特征??蛇x地,作為一個(gè)實(shí)施例,該處理器710在圖像庫中確定目標(biāo)圖像的兼容參考集和競(jìng)爭(zhēng)參考集,包括:對(duì)于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠(yuǎn)的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應(yīng)的競(jìng)爭(zhēng)參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(2)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;將與該兼容參考集中的N幅兼容參考圖像分別相應(yīng)的N幅競(jìng)爭(zhēng)參考圖像確定為該目標(biāo)圖像的競(jìng)爭(zhēng)參考集??蛇x地,作為一個(gè)實(shí)施例,該處理器710將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域,包括:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像中的每一幅圖像分割成多個(gè)區(qū)域??蛇x地,作為一個(gè)實(shí)施例,該處理器710確定該目標(biāo)圖像的區(qū)域的類別,包括:確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性;確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性;以該語義一致性與該圖像相關(guān)性之和最大為目標(biāo)函數(shù),確定該目標(biāo)圖像的區(qū)域的類別??蛇x地,作為一個(gè)實(shí)施例,該處理器710確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性,包括:由下列等式(3)和(4)確定該目標(biāo)圖像、該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標(biāo)圖像,表示該兼容參考圖像,表示該競(jìng)爭(zhēng)參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個(gè)區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當(dāng)i=ls時(shí),xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個(gè)相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值??蛇x地,作為一個(gè)實(shí)施例,該區(qū)域s屬于第i個(gè)類別的相關(guān)程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗(yàn)、目標(biāo)先驗(yàn)和顯著性先驗(yàn)確定;該區(qū)域s1和s2分別屬于第i個(gè)類別和第j個(gè)類別的相關(guān)程度的程度值由該區(qū)域s1和s2的一階密度先驗(yàn)確定??蛇x地,作為一個(gè)實(shí)施例,該區(qū)域s的基于語義的區(qū)域密度先驗(yàn),由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計(jì)確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(5)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個(gè)區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(6)確定:其中,為該區(qū)域sΩ的特征。可選地,作為一個(gè)實(shí)施例,該處理器710確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性,包括:由下列等式(7)至(9)確定該兼容參考圖像和該競(jìng)爭(zhēng)參考圖像分別與該目標(biāo)圖像的圖像相關(guān)性之和E:E=E1+E2(7)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標(biāo)圖像It的圖像相關(guān)性之和;E2表示該競(jìng)爭(zhēng)參考集包括的所有競(jìng)爭(zhēng)參考圖像I-與該目標(biāo)圖像It的圖像相關(guān)性之和;st、s+和s-分別表示該目標(biāo)圖像It、該兼容參考圖像I+和該競(jìng)爭(zhēng)參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當(dāng)時(shí),z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(10)和(11)確定:其中,和分別表示區(qū)域st、s+和s-的特征。應(yīng)理解,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置700可對(duì)應(yīng)于執(zhí)行根據(jù)本發(fā)明實(shí)施例的圖像語義分割的方法的執(zhí)行主體,并對(duì)應(yīng)于根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置500,并且裝置700中的各個(gè)模塊的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖1至圖4中的各個(gè)方法的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。因此,本發(fā)明實(shí)施例的圖像語義分割的裝置,通過在圖像庫中采用與目標(biāo)圖像具有相似的全局表觀的兼容參考集,以及與目標(biāo)圖像具有相異的全局表觀且與兼容參考集具有相似語義的競(jìng)爭(zhēng)參考集作為參考集,能夠?yàn)槟繕?biāo)圖像的分割提供互補(bǔ)信息以減少語義的誤判,從而能夠采用目標(biāo)圖像、兼容參考圖像和競(jìng)爭(zhēng)參考圖像中的每一幅圖像的多個(gè)區(qū)域的語義一致性和圖像相關(guān)性,確定目標(biāo)圖像的區(qū)域的類別,由此能夠獲得準(zhǔn)確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級(jí)標(biāo)注的訓(xùn)練圖像庫,從而不需要對(duì)訓(xùn)練圖像庫進(jìn)行繁重的手工像素級(jí)標(biāo)注,省時(shí)省力;并且根據(jù)本發(fā)明實(shí)施例的圖像語義分割的裝置,能夠同時(shí)對(duì)無標(biāo)注的目標(biāo)圖像以及帶圖像級(jí)標(biāo)注的參考圖像進(jìn)行聯(lián)合語義分割。本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口、裝置或單元的間接耦合或通信連接,也可以是電的,機(jī)械的或其它的形式連接。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本發(fā)明實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以是兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分,或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到各種等效的修改或替換,這些修改或替換都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。