欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖片的標(biāo)注方法、裝置及電子設(shè)備與流程

文檔序號(hào):11251448閱讀:1398來(lái)源:國(guó)知局
圖片的標(biāo)注方法、裝置及電子設(shè)備與流程

本發(fā)明涉及圖片標(biāo)注技術(shù)領(lǐng)域,具體而言,涉及一種圖片的標(biāo)注方法、裝置及電子設(shè)備。



背景技術(shù):

在多媒體大數(shù)據(jù)時(shí)代,隨著越來(lái)越多的圖片的出現(xiàn),目前大多數(shù)基于內(nèi)容的圖片檢索方法并不能得到良好的體驗(yàn),而自動(dòng)圖片標(biāo)注(automaticimageannotation)由于可很好的促進(jìn)圖片語(yǔ)義檢索及其它相關(guān)圖片管理任務(wù)已經(jīng)成為多媒體領(lǐng)域最重要的研究方向之一。自動(dòng)圖片標(biāo)注可通過(guò)結(jié)合標(biāo)簽和圖片,把基于內(nèi)容的圖片檢索轉(zhuǎn)換為基于文本的圖片檢索。當(dāng)圖片特征和相關(guān)的語(yǔ)義標(biāo)簽得到以后,可應(yīng)用多種機(jī)器學(xué)習(xí)算法來(lái)適應(yīng)標(biāo)簽。

現(xiàn)如今,由于智能手機(jī)和無(wú)線通信網(wǎng)絡(luò)的發(fā)展,圖片的獲取越來(lái)越方便,能夠隨時(shí)隨地分享到互聯(lián)網(wǎng)上去,這帶來(lái)多媒體應(yīng)用的迫切需求,包括語(yǔ)義索引、搜索、檢索以及其他的圖片管理任務(wù)。盡管多媒體內(nèi)容分析方面做了很多工作,主要的搜索引擎產(chǎn)品還是基于文本索引技術(shù)。因而在圖片大數(shù)據(jù)的背景下,圖片標(biāo)注算法的效率、穩(wěn)定性依然不足。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種圖片的標(biāo)注方法、裝置及電子設(shè)備,以改善上述問(wèn)題。為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案如下:

第一方面,本發(fā)明實(shí)施例提供了一種圖片的標(biāo)注方法,所述方法包括對(duì)獲取到的待標(biāo)注圖片進(jìn)行特征提取,獲得所述待標(biāo)注圖片對(duì)應(yīng)的特征向量;基于所述待標(biāo)注圖片對(duì)應(yīng)的特征向量以及預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果。

第二方面,本發(fā)明實(shí)施例提供了一種圖片的標(biāo)注裝置,所述裝置包括特征提取單元和標(biāo)注單元。特征提取單元,用于對(duì)獲取到的待標(biāo)注圖片進(jìn)行特征提取,獲得所述待標(biāo)注圖片對(duì)應(yīng)的特征向量。標(biāo)注單元,用于基于所述特征提取單元獲得的所述待標(biāo)注圖片對(duì)應(yīng)的特征向量以及預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果。

第三方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,所述電子設(shè)備包括處理器和存儲(chǔ)器。所述處理器和所述存儲(chǔ)器通過(guò)總線電連接。所述存儲(chǔ)器用于儲(chǔ)存程序。所述處理器用于通過(guò)所述總線調(diào)用存儲(chǔ)在所述存儲(chǔ)器中的程序,執(zhí)行:對(duì)獲取到的待標(biāo)注圖片進(jìn)行特征提取,獲得所述待標(biāo)注圖片對(duì)應(yīng)的特征向量;基于所述待標(biāo)注圖片對(duì)應(yīng)的特征向量以及預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果。

本發(fā)明實(shí)施例提供了一種圖片的標(biāo)注方法、裝置及電子設(shè)備,對(duì)獲取到的待標(biāo)注圖片進(jìn)行特征提取,獲得所述待標(biāo)注圖片對(duì)應(yīng)的特征向量;再基于所述待標(biāo)注圖片對(duì)應(yīng)的特征向量以及預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果,以此實(shí)現(xiàn)采用多視圖半監(jiān)督圖片標(biāo)注模型對(duì)圖片進(jìn)行標(biāo)注,具備良好的噪聲認(rèn)知能力,效率高、穩(wěn)定性強(qiáng)。

本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書闡述,并且,部分地從說(shuō)明書中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明實(shí)施例了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫的說(shuō)明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。

圖1為本發(fā)明實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)框圖;

圖2為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法的流程圖;

圖3為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法中獲取預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型的流程圖;

圖4為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法中以nus-wide為訓(xùn)練數(shù)據(jù),提取llc特征、fk特征與已有算法的效果對(duì)比示意圖;

圖5為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法中以nus-wide為訓(xùn)練數(shù)據(jù),提取fc6、fc7特征與已有算法的效果對(duì)比示意圖;

圖6為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法中以mirflickr-25000為訓(xùn)練數(shù)據(jù),提取llc特征、fk特征與已有算法的效果對(duì)比示意圖;

圖7為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法中以mirflickr-25000為訓(xùn)練數(shù)據(jù),提取fc6、fc7特征與已有算法的效果對(duì)比示意圖;

圖8為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法中以iaprtc-12為訓(xùn)練數(shù)據(jù),提取llc特征、fk特征與已有算法的效果對(duì)比示意圖;

圖9為本發(fā)明第一實(shí)施例提供的圖片的標(biāo)注方法中以iaprtc-12為訓(xùn)練數(shù)據(jù),提取fc6、fc7特征與已有算法的效果對(duì)比示意圖;

圖10為本發(fā)明第二實(shí)施例提供的圖片的標(biāo)注裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來(lái)布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。同時(shí),在本發(fā)明的描述中,術(shù)語(yǔ)“第一”、“第二”等僅用于區(qū)分描述,而不能理解為指示或暗示相對(duì)重要性。

請(qǐng)參閱圖1,圖1示出了本發(fā)明實(shí)施例提供的一種電子設(shè)備100的結(jié)構(gòu)框圖。所述電子設(shè)備100可以作為用戶終端,也可以作為服務(wù)器。用戶終端可以為:pc(personalcomputer)電腦、平板電腦、手機(jī)、電子閱讀器、筆記本電腦、智能電視、機(jī)頂盒、車載終端等終端設(shè)備。如圖1所示,電子設(shè)備100可以包括存儲(chǔ)器110、存儲(chǔ)控制器111、處理器112、外設(shè)接口113、輸入輸出單元115、音頻單元116、顯示單元117。

所述存儲(chǔ)器110、存儲(chǔ)控制器111、處理器112、外設(shè)接口113、輸入輸出單元115、音頻單元116、顯示單元117各元件之間直接或間接地電連接,以實(shí)現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件之間可以通過(guò)一條或多條通訊總線或信號(hào)總線實(shí)現(xiàn)電連接。圖片的標(biāo)注方法分別包括至少一個(gè)可以以軟件或固件(firmware)的形式存儲(chǔ)于存儲(chǔ)器110中的軟件功能模塊,例如所述圖片的標(biāo)注裝置包括的軟件功能模塊或計(jì)算機(jī)程序。

存儲(chǔ)器110可以存儲(chǔ)各種軟件程序以及模塊,如本申請(qǐng)實(shí)施例提供的圖片的標(biāo)注方法及裝置對(duì)應(yīng)的程序指令/模塊。處理器112通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器110中的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)本申請(qǐng)實(shí)施例中的圖片的標(biāo)注方法。存儲(chǔ)器110可以包括但不限于隨機(jī)存取存儲(chǔ)器(randomaccessmemory,ram),只讀存儲(chǔ)器(readonlymemory,rom),可編程只讀存儲(chǔ)器(programmableread-onlymemory,prom),可擦除只讀存儲(chǔ)器(erasableprogrammableread-onlymemory,eprom),電可擦除只讀存儲(chǔ)器(electricerasableprogrammableread-onlymemory,eeprom)等。

處理器112可以是一種集成電路芯片,具有信號(hào)處理能力。上述處理器可以是通用處理器,包括中央處理器(centralprocessingunit,簡(jiǎn)稱cpu)、網(wǎng)絡(luò)處理器(networkprocessor,簡(jiǎn)稱np)等;還可以是數(shù)字信號(hào)處理器(dsp)、專用集成電路(asic)、現(xiàn)成可編程門陣列(fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件。其可以實(shí)現(xiàn)或者執(zhí)行本申請(qǐng)實(shí)施例中的公開(kāi)的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。

所述外設(shè)接口113將各種輸入/輸入裝置耦合至處理器112以及存儲(chǔ)器110。在一些實(shí)施例中,外設(shè)接口113、處理器112以及存儲(chǔ)控制器111可以在單個(gè)芯片中實(shí)現(xiàn)。在其他一些實(shí)例中,他們可以分別由獨(dú)立的芯片實(shí)現(xiàn)。

輸入輸出單元115用于提供給用戶輸入數(shù)據(jù)實(shí)現(xiàn)用戶與服務(wù)器(或本地終端)的交互。所述輸入輸出單元115可以是,但不限于,鼠標(biāo)和鍵盤等。

音頻單元116向用戶提供音頻接口,其可包括一個(gè)或多個(gè)麥克風(fēng)、一個(gè)或者多個(gè)揚(yáng)聲器以及音頻電路。

顯示單元117在所述服務(wù)器(或本地終端)與用戶之間提供一個(gè)交互界面(例如用戶操作界面)或用于顯示圖像數(shù)據(jù)給用戶參考。在本實(shí)施例中,所述顯示單元117可以是液晶顯示器或觸控顯示器。若為觸控顯示器,其可為支持單點(diǎn)和多點(diǎn)觸控操作的電容式觸控屏或電阻式觸控屏等。支持單點(diǎn)和多點(diǎn)觸控操作是指觸控顯示器能感應(yīng)到來(lái)自該觸控顯示器上一個(gè)或多個(gè)位置處同時(shí)產(chǎn)生的觸控操作,并將該感應(yīng)到的觸控操作交由處理器進(jìn)行計(jì)算和處理。

可以理解,圖1所示的結(jié)構(gòu)僅為示意,電子設(shè)備100還可包括比圖1中所示更多或者更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以采用硬件、軟件或其組合實(shí)現(xiàn)。

第一實(shí)施例

請(qǐng)參閱圖2,本發(fā)明實(shí)施例提供了一種圖片的標(biāo)注方法,所述方法包括步驟s200和步驟s210。

步驟s200:對(duì)獲取到的待標(biāo)注圖片進(jìn)行特征提取,獲得所述待標(biāo)注圖片對(duì)應(yīng)的特征向量。

步驟s210:基于所述待標(biāo)注圖片對(duì)應(yīng)的特征向量以及預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果。

基于步驟s210,進(jìn)一步地,基于表達(dá)式(1):

獲得所述待標(biāo)注圖片的預(yù)測(cè)標(biāo)簽值,以此獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果;其中,xt,t=1,2,…,m為所述待標(biāo)注圖片對(duì)應(yīng)的特征向量,wt,t=1,2,…,m為預(yù)設(shè)的映射矩陣,bt,t=1,2,…,m為預(yù)設(shè)的偏差項(xiàng),為所述待標(biāo)注圖片的預(yù)測(cè)標(biāo)簽值。

表達(dá)式(1)為所述預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型。將所述所述待標(biāo)注圖片對(duì)應(yīng)的特征向量帶入表達(dá)式(1),獲得所述待標(biāo)注圖片的預(yù)測(cè)標(biāo)簽值,即根據(jù)所述待標(biāo)注圖片的預(yù)測(cè)標(biāo)簽值,獲得其對(duì)應(yīng)的標(biāo)注結(jié)果。

基于步驟s200,所述方法還包括:對(duì)所述待標(biāo)注圖片對(duì)應(yīng)的特征向量通過(guò)主成分分析法進(jìn)行降維,獲得降維后的特征向量。

再將所述降維后的特征向量帶入預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果。

請(qǐng)參閱圖3,為了獲取預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,所述方法還可以包括步驟s300、步驟s310、步驟s320、步驟s330和步驟s340。

步驟s300:對(duì)獲取到的n個(gè)圖片進(jìn)行特征提取,獲得所述n個(gè)圖片對(duì)應(yīng)的多視圖特征及標(biāo)簽矩陣。

將所述獲取到的n個(gè)圖片作為訓(xùn)練數(shù)據(jù),分別進(jìn)行特征提取,獲得每個(gè)圖片對(duì)應(yīng)的m個(gè)視圖特征,獲得n個(gè)圖片對(duì)應(yīng)的n×m個(gè)多視圖特征。

為n個(gè)圖片中的第t個(gè)多視圖特征,其中,為第i個(gè)圖片中的第t個(gè)視圖特征,dt為其對(duì)應(yīng)第t個(gè)視圖特征的維度。訓(xùn)練數(shù)據(jù)中前l(fā)個(gè)圖片是有標(biāo)簽的,而其余n-l個(gè)圖片是沒(méi)有標(biāo)簽的。訓(xùn)練數(shù)據(jù)中與第t個(gè)視圖特征相關(guān)的標(biāo)簽矩陣為其中,c為標(biāo)簽的數(shù)量,當(dāng)(1≤i≤l),為有標(biāo)簽圖片;當(dāng)(l+1≤i≤n),為全零向量,為沒(méi)有標(biāo)簽圖片。令表示與第t個(gè)視圖特征相關(guān)的第i個(gè)圖片的第j個(gè)類別,而當(dāng)?shù)趇個(gè)圖片在第j個(gè)類別中,其余情況下,若第i個(gè)圖沒(méi)有標(biāo)簽,為0,以此利用有標(biāo)簽圖片和沒(méi)有標(biāo)簽圖片來(lái)學(xué)習(xí)視圖半監(jiān)督圖片標(biāo)注模型,提高穩(wěn)定性(魯棒性)。

步驟s310:基于所述n個(gè)圖片對(duì)應(yīng)的多視圖特征以及預(yù)設(shè)的相似度計(jì)算規(guī)則,獲得所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣。

基于步驟s310,進(jìn)一步地,基于獲得所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣,s=[sij],1≤i,j≤n為所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣,xi,xj(1≤i,j≤n)為所述n個(gè)圖片中第i、j個(gè)圖片各自對(duì)應(yīng)的多視圖特征,nk(xi)為xi的最近鄰集合k,nq(xj)為xj的最近鄰集合q。

利用多視圖特征來(lái)構(gòu)建相似度矩陣,sij的定義為所述預(yù)設(shè)的相似度計(jì)算規(guī)則,反映出了兩個(gè)圖片對(duì)應(yīng)的多視圖特征xi和xj之間的特征相似性。為了減少參數(shù)數(shù)量,本發(fā)明實(shí)施例定義了以上的相似度矩陣。

步驟s320:獲取所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣中的所有對(duì)角元值,獲得對(duì)角矩陣。

步驟s330:將所述對(duì)角矩陣減去所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣,獲得所述n個(gè)圖片對(duì)應(yīng)的拉普拉斯矩陣。

基于步驟s310,獲取對(duì)角矩陣d,其第i個(gè)對(duì)角元值通過(guò)計(jì)算得到。然后計(jì)算l=d-s,得到所述n個(gè)圖片對(duì)應(yīng)的拉普拉斯矩陣l。

步驟s340:將所述n個(gè)圖片對(duì)應(yīng)的標(biāo)簽矩陣、拉普拉斯矩陣帶入預(yù)設(shè)的目標(biāo)函數(shù)進(jìn)行迭代計(jì)算,獲得所述預(yù)設(shè)的映射矩陣和所述預(yù)設(shè)的偏差項(xiàng)。

進(jìn)一步地,為了同時(shí)得到有標(biāo)簽和沒(méi)有標(biāo)簽圖片,本發(fā)明實(shí)施例定義作為所有訓(xùn)練數(shù)據(jù)的標(biāo)簽預(yù)測(cè)矩陣,其中,為第i個(gè)圖片的預(yù)測(cè)標(biāo)簽。作為一種實(shí)施方式,根據(jù)半監(jiān)督學(xué)習(xí)方法,f可通過(guò)解目標(biāo)函數(shù)如下的最小優(yōu)化問(wèn)題得到:

表達(dá)式(2)中,為對(duì)角陣,被稱為決策方式矩陣。若第i個(gè)圖片有標(biāo)簽則其對(duì)角元uii為很大的數(shù)(設(shè)置為1010),否則,uii=1。這樣設(shè)置決策規(guī)則矩陣可使求解的標(biāo)簽預(yù)測(cè)矩陣f和y保持一致。

為了進(jìn)一步提高得到的預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型的容忍噪聲能力,本發(fā)明實(shí)施例提出了一個(gè)集成了適應(yīng)不同級(jí)別噪聲能力的魯棒的損失函數(shù)。選擇l2,p損失函數(shù),然后表達(dá)式(2)可表示為如下形式:

表達(dá)式(3)為所述預(yù)設(shè)的目標(biāo)函數(shù),其中,||·||2,p為矩陣的l2,p范數(shù),||·||f標(biāo)簽矩陣的frobenius范數(shù),符號(hào)(·)t表示矩陣的轉(zhuǎn)置,tr(·)表示矩陣的跡,μ,γ均為預(yù)設(shè)的平衡參數(shù),為預(yù)設(shè)的映射矩陣,為預(yù)設(shè)的偏差項(xiàng),為正則項(xiàng),1n為全1向量。m的l2,p范數(shù)定義為:

表達(dá)式(4)中,mi為m的第i行。

進(jìn)一步地,對(duì)n個(gè)圖片中的第t個(gè)視圖特征,本發(fā)明實(shí)施例可以從視圖特征xt計(jì)算得到相關(guān)聯(lián)的拉普拉斯矩陣lt,然后對(duì)應(yīng)的,利用表達(dá)式(3)可以計(jì)算得到視圖依賴的預(yù)測(cè)標(biāo)簽矩陣ft。據(jù)此,本發(fā)明把多視圖特征學(xué)習(xí)引入到表達(dá)式(3)中以調(diào)節(jié)不同視圖特征中相關(guān)的和補(bǔ)充的信息從而獲得更好的效果。提出共同最小化所有視圖特征的目標(biāo)函數(shù)來(lái)盡可能限制某一視圖特征的ft,即:

表達(dá)式(5)中,λ為預(yù)設(shè)的平衡參數(shù),可使每對(duì)視圖特征的輸出結(jié)果更加一致,從而達(dá)到更好的效果。該模型結(jié)合了多視圖學(xué)習(xí)和基于圖的半監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn),有效利用了大量的未加標(biāo)簽的數(shù)據(jù)和不同視圖中的補(bǔ)充信息。

由于l2,p損失函數(shù)的非凸性和l2,p正則項(xiàng),直接求解表達(dá)式(5)并不容易。為了簡(jiǎn)化計(jì)算,本發(fā)明實(shí)施例提出了一種高效的迭代算法來(lái)求解表達(dá)式(5),首先將表達(dá)式(5)轉(zhuǎn)換為:

表達(dá)式(6)中,為對(duì)角陣,其第i個(gè)對(duì)角元可以通過(guò)公式(7)計(jì)算得到:

公式(7)中,為矩陣的第i行。類似地,也為一個(gè)對(duì)角陣,其對(duì)角元可以通過(guò)公式(8)得到:

公式(8)中,為矩陣ft-fs的第i行。

由于都與ft、wt以及bt相關(guān),使得式(6)更加難以求解。據(jù)此,本發(fā)明實(shí)施例設(shè)計(jì)了一種迭代方法,在前次迭代中固定來(lái)突破障礙,這樣可通過(guò)式(6)來(lái)求解ft,wt以及bt。

通過(guò)設(shè)置式(6)關(guān)于bt的推導(dǎo)結(jié)果為0,有:

將公式(9)帶入表達(dá)式(6)中,并設(shè)置表達(dá)式(6)關(guān)于wt的推導(dǎo)結(jié)果為0,有:

wt=atft(10)

公式(10)中,有:

再將公式(9)和公式(10)帶入表達(dá)式(6)中,有:

表達(dá)式(13)中,設(shè)置目標(biāo)函數(shù)關(guān)于ft的推導(dǎo)結(jié)果為0,有:

ft=mtqt(14)

公式(14)中,有:

公式(15)、(16)中設(shè)置當(dāng)t=s,t=1,2,...,m.。據(jù)此,可通過(guò)解目標(biāo)函數(shù)來(lái)獲得ft,wt,bt的最優(yōu)解。

具體地,將所述n個(gè)圖片對(duì)應(yīng)的標(biāo)簽矩陣、拉普拉斯矩陣帶入表達(dá)式(5),通過(guò)迭代方式對(duì)表達(dá)式(5)進(jìn)行求解,隨機(jī)初始化ft,wt,bt,(t=1,2,...,m),迭代計(jì)算對(duì)ft,wt,bt,(t=1,2,...,m)進(jìn)行最優(yōu)求解,直到滿足迭代收斂為止,優(yōu)選的迭代收斂條件為:最近兩次的求解結(jié)果的變化不超過(guò)預(yù)設(shè)閾值,以此獲得所述預(yù)設(shè)的映射矩陣和所述預(yù)設(shè)的偏差項(xiàng)。在迭代過(guò)程中,首先根據(jù)公式(7)和(8)分別計(jì)算再對(duì)每個(gè)視圖(t=1,2,…,m),依次有:

根據(jù)公式(12)計(jì)算ht,根據(jù)公式(11)計(jì)算at,根據(jù)公式(15)計(jì)算mt,根據(jù)公式(16)計(jì)算qt,根據(jù)公式(14)、公式(10)、公式(9),分別更新ft,wt,bt。獲得ft,wt,bt的最優(yōu)解,以此獲得多視圖半監(jiān)督圖片標(biāo)注模型,即:

此外,為了更進(jìn)一步地說(shuō)明本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法的有益效果,應(yīng)用到了三種網(wǎng)絡(luò)圖片數(shù)據(jù)集,分別為nus-wide(包含269,648張現(xiàn)實(shí)場(chǎng)景圖片,被標(biāo)記有81種標(biāo)簽),mirflickr-25000(包含25,000張圖片和24種標(biāo)簽)以及iaprtc-12(包含20,000張來(lái)自世界各地的代表性的靜止自然景觀圖片)。數(shù)據(jù)集被分成兩部分,一部分用于訓(xùn)練,另一部分用于測(cè)試。

特征提取部分本實(shí)施例首先使用了sift局部描述符,提取了圖片的兩種視覺(jué)特征,分別基于兩種譯碼方式即llc(locality-constrainedlinearencoding)和fk(improvedfisherencoding)。llc特征向量的最終維數(shù)為k(詞匯表大小),本實(shí)施例設(shè)置k=4096。對(duì)于fk特征,特征向量最終維數(shù)等于2d*k,其中d是sift描述符的維數(shù),k是詞匯表大小。在本實(shí)施例中,通過(guò)pca(主成分分析法)將sift的描述符的維數(shù)從128降低到50。在本實(shí)施例中,fk特征向量維數(shù)為25,600,進(jìn)而通過(guò)pca降維到4096,以節(jié)約計(jì)算開(kāi)銷。最終llc和fk特征向量都為4096維。本實(shí)施例還提取了兩種新的深度學(xué)習(xí)特征,fc6、fc7(均為4096維)使用caffe基于第6層和第7層網(wǎng)絡(luò)全連接層的輸出得到。

通過(guò)實(shí)驗(yàn),本實(shí)施例對(duì)于不同的數(shù)據(jù)集設(shè)置不同的參數(shù)值以達(dá)到最好的表現(xiàn)。

對(duì)于數(shù)據(jù)集nus-wide,設(shè)置參數(shù)如下:

μ=106,γ=104,λ=104,p=0.8,q=1.9

對(duì)于數(shù)據(jù)集mirflickr-25000,設(shè)置參數(shù)如下:

μ=106,γ=102,λ=102,p=0.4,q=1.5

對(duì)于數(shù)據(jù)集iaprtc-12,設(shè)置參數(shù)如下:

μ=106,γ=104,λ=104,p=1.0,q=1.6

基于本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法得到輸出結(jié)果,本實(shí)施例采用平均準(zhǔn)確率(map)來(lái)衡量圖片標(biāo)注的表現(xiàn)。如圖4和圖5所示,以nus-wide(包含269,648張現(xiàn)實(shí)場(chǎng)景圖片,被標(biāo)記有81種標(biāo)簽)為訓(xùn)練數(shù)據(jù),以提取的llc特征向量、fk特征向量、fc6特征向量、fc7特征向量,分別對(duì)比本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法和已有的算法得出的結(jié)果。已有的算法包括典型的多視圖學(xué)習(xí)算法cca(根據(jù)是基于最小平方回歸(leastsquareregression,ls)或支持向量機(jī)(svm),分別定義為cca-ls和cca-svm)、一種新的基于ls的多視圖半監(jiān)督維度下降法(mvssdr-ls)以及兩種半監(jiān)督算法,即structuralfeatureselectionwithsparsity(sfss)和flexiblemanifoldembedding(fme)、boost算法族中的一個(gè)新算法taylorboost。圖4中,橫坐標(biāo)表示有標(biāo)簽的圖片個(gè)數(shù),1xc表示每類一個(gè),縱坐標(biāo)表示平均準(zhǔn)確率,a1為本發(fā)明實(shí)施例提供的以提取的llc特征向量、圖片的標(biāo)注方法的效果,a2為本發(fā)明實(shí)施例提供的以提取的fk特征向量、圖片的標(biāo)注方法的效果,a3為sfss算法的效果,a4為mvssdr-ls算法的效果,a5為cca-ls算法的效果,a6為taylorboost算法的效果,a7為fme算法的效果,a8為cca-svm算法的效果。圖5中,d1為本發(fā)明實(shí)施例提供的以提取的fc6特征向量、圖片的標(biāo)注方法的效果,d2為本發(fā)明實(shí)施例提供的以提取的fc7特征向量、圖片的標(biāo)注方法的效果,d3為sfss算法的效果,d4為mvssdr-ls算法的效果,d5為cca-ls算法的效果,d6為taylorboost算法的效果,d7為fme算法的效果,d8為cca-svm算法的效果。很明顯,本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法在效果上有很大提升。

同理,如圖6和圖7所示,以mirflickr-25000(包含25,000張圖片和24種標(biāo)簽)為訓(xùn)練數(shù)據(jù),以提取的llc特征向量、fk特征向量、fc6特征向量、fc7特征向量,分別對(duì)比本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法和已有的算法得出的結(jié)果。圖6中,橫坐標(biāo)表示有標(biāo)簽的圖片個(gè)數(shù),1xc表示每類一個(gè),縱坐標(biāo)表示平均準(zhǔn)確率,b1為本發(fā)明實(shí)施例提供的以提取的llc特征向量、圖片的標(biāo)注方法的效果,b2為本發(fā)明實(shí)施例提供的以提取的fk特征向量、圖片的標(biāo)注方法的效果,b3為sfss算法的效果,b4為mvssdr-ls算法的效果,b5為cca-ls算法的效果,b6為taylorboost算法的效果,b7為fme算法的效果,b8為cca-svm算法的效果。圖7中,e1為本發(fā)明實(shí)施例提供的以提取的fc6特征向量、圖片的標(biāo)注方法的效果,e2為本發(fā)明實(shí)施例提供的以提取的fc7特征向量、圖片的標(biāo)注方法的效果,e3為sfss算法的效果,e4為mvssdr-ls算法的效果,e5為cca-ls算法的效果,e6為taylorboost算法的效果,e7為fme算法的效果,e8為cca-svm算法的效果。很明顯,本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法在效果上有很大提升。

同理,如圖8和圖9所示,以iaprtc-12作為訓(xùn)練數(shù)據(jù),以提取的llc特征向量、fk特征向量、fc6特征向量、fc7特征向量,分別對(duì)比本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法和已有的算法得出的結(jié)果。圖8中,橫坐標(biāo)表示有標(biāo)簽的圖片個(gè)數(shù),1xc表示每類一個(gè),縱坐標(biāo)表示平均準(zhǔn)確率,c1為本發(fā)明實(shí)施例提供的以提取的llc特征向量、圖片的標(biāo)注方法的效果,c2為本發(fā)明實(shí)施例提供的以提取的fk特征向量、圖片的標(biāo)注方法的效果,c3為sfss算法的效果,c4為mvssdr-ls算法的效果,c5為cca-ls算法的效果,c6為taylorboost算法的效果,c7為fme算法的效果,b8為cca-svm算法的效果。圖9中,f1為本發(fā)明實(shí)施例提供的以提取的fc6特征向量、圖片的標(biāo)注方法的效果,f2為本發(fā)明實(shí)施例提供的以提取的fc7特征向量、圖片的標(biāo)注方法的效果,f3為sfss算法的效果,e4為mvssdr-ls算法的效果,f5為cca-ls算法的效果,f6為taylorboost算法的效果,f7為fme算法的效果,f8為cca-svm算法的效果。很明顯,本發(fā)明實(shí)施例提供的圖片的標(biāo)注方法在效果上有很大提升。

通過(guò)以上三種不同的圖片數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),在多視圖條件下,本發(fā)明提供的圖片的標(biāo)注方法的效果和已知算法的效果對(duì)比,適用于多視圖條件少量標(biāo)簽下的圖片標(biāo)注,并具有良好的噪聲認(rèn)知能力,能夠在較少的迭代次數(shù)下收斂。

本發(fā)明實(shí)施例提供的一種圖片的標(biāo)注方法,對(duì)獲取到的待標(biāo)注圖片進(jìn)行特征提取,獲得所述待標(biāo)注圖片對(duì)應(yīng)的特征向量;再基于所述待標(biāo)注圖片對(duì)應(yīng)的特征向量以及預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果,以此實(shí)現(xiàn)采用多視圖半監(jiān)督圖片標(biāo)注模型對(duì)圖片進(jìn)行標(biāo)注,具備良好的噪聲認(rèn)知能力,效率高、穩(wěn)定性強(qiáng)。

第二實(shí)施例

請(qǐng)參閱圖10,本發(fā)明實(shí)施例提供了一種圖片的標(biāo)注裝置400,所述裝置400包括提取單元410、相似度矩陣獲得單元420、對(duì)角矩陣獲得單元430、拉普拉斯矩陣獲得單元440、計(jì)算單元450、特征提取單元470、標(biāo)注單元480。

提取單元410,用于對(duì)獲取到的n個(gè)圖片進(jìn)行特征提取,獲得所述n個(gè)圖片對(duì)應(yīng)的多視圖特征及標(biāo)簽矩陣。

相似度矩陣獲得單元420,用于基于所述提取單元410獲得的所述n個(gè)圖片對(duì)應(yīng)的多視圖特征以及預(yù)設(shè)的相似度計(jì)算規(guī)則,獲得所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣。

作為一種實(shí)施方式,所述相似度矩陣獲得單元420可以包括相似度矩陣獲得子單元421。

相似度矩陣獲得子單元421,用于基于獲得所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣,s=[sij],1≤i,j≤n為所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣,xi,xj(1≤i,j≤n)為所述n個(gè)圖片中第i、j個(gè)圖片各自對(duì)應(yīng)的多視圖特征,nk(xi)為xi的最近鄰集合k,nq(xj)為xj的最近鄰集合q。

對(duì)角矩陣獲得單元430,用于獲取所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣中的所有對(duì)角元值,獲得對(duì)角矩陣。

拉普拉斯矩陣獲得單元440,用于將所述對(duì)角矩陣減去所述n個(gè)圖片對(duì)應(yīng)的相似度矩陣,獲得所述n個(gè)圖片對(duì)應(yīng)的拉普拉斯矩陣。

計(jì)算單元450,用于將所述n個(gè)圖片對(duì)應(yīng)的標(biāo)簽矩陣、拉普拉斯矩陣帶入預(yù)設(shè)的目標(biāo)函數(shù)進(jìn)行迭代計(jì)算,獲得所述預(yù)設(shè)的映射矩陣和所述預(yù)設(shè)的偏差項(xiàng)。

特征提取單元470,用于對(duì)獲取到的待標(biāo)注圖片進(jìn)行特征提取,獲得所述待標(biāo)注圖片對(duì)應(yīng)的特征向量。

標(biāo)注單元480,用于基于所述特征提取單元獲得的所述待標(biāo)注圖片對(duì)應(yīng)的特征向量以及預(yù)設(shè)的多視圖半監(jiān)督圖片標(biāo)注模型,獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果。

作為一種實(shí)施方式,所述標(biāo)注單元480可以包括標(biāo)注子單元481。

標(biāo)注子單元481,用于基于獲得所述待標(biāo)注圖片的預(yù)測(cè)標(biāo)簽值,以此獲得所述待標(biāo)注圖片的標(biāo)注結(jié)果;其中,xt,t=1,2,…,m為所述待標(biāo)注圖片對(duì)應(yīng)的特征向量,wt,t=1,2,…,m為預(yù)設(shè)的映射矩陣,bt,t=1,2,…,m為預(yù)設(shè)的偏差項(xiàng),為所述待標(biāo)注圖片的預(yù)測(cè)標(biāo)簽值。

所述裝置400還可以包括降維單元460。

降維單元460,用于對(duì)所述待標(biāo)注圖片對(duì)應(yīng)的特征向量通過(guò)主成分分析法進(jìn)行降維,獲得降維后的特征向量。

以上各單元可以是由軟件代碼實(shí)現(xiàn),此時(shí),上述的各單元可存儲(chǔ)于存儲(chǔ)器110內(nèi)。以上各單元同樣可以由硬件例如集成電路芯片實(shí)現(xiàn)。

本發(fā)明實(shí)施例提供的圖片的標(biāo)注裝置400,其實(shí)現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實(shí)施例相同,為簡(jiǎn)要描述,裝置實(shí)施例部分未提及之處,可參考前述方法實(shí)施例中相應(yīng)內(nèi)容。

在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,也可以通過(guò)其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)方式中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能模塊可以集成在一起形成一個(gè)獨(dú)立的部分,也可以是各個(gè)模塊單獨(dú)存在,也可以兩個(gè)或兩個(gè)以上模塊集成形成一個(gè)獨(dú)立的部分。

所述功能如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
读书| 临泉县| 平江县| 清苑县| 吴堡县| 水城县| 葫芦岛市| 宁海县| 徐水县| 新干县| 昌吉市| 九台市| 乐平市| 南川市| 彰化市| 汤原县| 巴林右旗| 余江县| 大名县| 大关县| 北宁市| 揭东县| 麦盖提县| 荔浦县| 城口县| 池州市| 井冈山市| 项城市| 巩义市| 青浦区| 榕江县| 建阳市| 克东县| 兰坪| 丰顺县| 望奎县| 布尔津县| 民勤县| 闽清县| 伊川县| 武清区|