識(shí)別對(duì)象的方法和設(shè)備以及訓(xùn)練識(shí)別器的方法和設(shè)備的制造方法
【專利說明】識(shí)別對(duì)象的方法和設(shè)備從及訓(xùn)練識(shí)別器的方法和設(shè)備
[0001 ] 本申請(qǐng)要求于2014年11月24日提交到韓國知識(shí)產(chǎn)權(quán)局的第10-2014-0164232號(hào)韓 國專利申請(qǐng)和2015年6月18日提交到韓國知識(shí)產(chǎn)權(quán)局的第10-2015-0086658號(hào)韓國專利申 請(qǐng)的優(yōu)先權(quán)權(quán)益,所述申請(qǐng)的全部?jī)?nèi)容通過引用完整地包含于此。
技術(shù)領(lǐng)域
[0002] 至少一些示例實(shí)施例設(shè)及一種用于識(shí)別對(duì)象的方法和設(shè)備,W及一種用于訓(xùn)練識(shí) 別器的方法和設(shè)備。
【背景技術(shù)】
[0003] 隨著臉部識(shí)別技術(shù)的應(yīng)用變得廣泛,通過將主成分分析(PCA)應(yīng)用于臉部圖像來 識(shí)別臉部的技術(shù)正被使用。PCA指的是在最小化圖像的本征信息的損失的同時(shí)通過在低維 特征向量空間將圖像數(shù)據(jù)投影來減少信息的技術(shù)。作為使用PCA的臉部識(shí)別方法,提取臉部 的主特征向量并通過使用從預(yù)登記的圖像提取的主成分向量而訓(xùn)練的模式分類器來識(shí)別 臉部的方法被廣泛應(yīng)用。
【發(fā)明內(nèi)容】
[0004] 至少一些示例實(shí)施例針對(duì)用于訓(xùn)練和/或使用識(shí)別器來識(shí)別輸入圖像的多個(gè)元素 的方法和/或設(shè)備。
[0005] 根據(jù)至少一些示例實(shí)施例,識(shí)別方法可包括:接收輸入圖像;使用被預(yù)訓(xùn)練為同時(shí) 識(shí)別多個(gè)元素的單個(gè)識(shí)別器識(shí)別與輸入圖像相關(guān)聯(lián)的多個(gè)元素。
[0006] 所述多個(gè)元素可包括:標(biāo)識(shí)(ID),標(biāo)識(shí)輸入圖像;至少一個(gè)屬性,與輸入圖像相關(guān) 聯(lián)。ID可標(biāo)識(shí)包括在輸入圖像中的至少一個(gè)對(duì)象。所述至少一個(gè)屬性可包括W下至少一項(xiàng): 與包括在輸入圖像中的臉部區(qū)域相應(yīng)的性別;與所述臉部區(qū)域相應(yīng)的年齡;與所述臉部區(qū) 域相應(yīng)的種族;與所述臉部區(qū)域相應(yīng)的吸引力;與所述臉部區(qū)域相應(yīng)的面部表情;與所述臉 部區(qū)域相應(yīng)的情感。所述至少一個(gè)屬性可包括性別、年齡、種族、吸引力、面部表情和情感中 的至少兩個(gè)不同的屬性。所述識(shí)別器可包括神經(jīng)網(wǎng)絡(luò),所述識(shí)別的步驟可包括基于包括在 神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)之間的預(yù)學(xué)習(xí)的權(quán)重計(jì)算與多個(gè)元素對(duì)應(yīng)的特征值。所述識(shí)別的步驟可 包括基于輸入圖像產(chǎn)生多個(gè)特征圖像。所述多個(gè)特征圖像可包括W下至少一項(xiàng):去除光照 噪聲的顏色通道圖像;方向梯度大小通道圖像;皮膚概率通道圖像;局部二元模式通道圖 像。所述識(shí)別的步驟可包括:對(duì)多個(gè)特征圖像進(jìn)行濾波;基于濾波模塊的輸出將與多個(gè)元素 相應(yīng)的特征值輸出。所述識(shí)別的步驟還可包括基于特征值識(shí)別多個(gè)元素。所述識(shí)別的步驟 可包括:獲取與包括在訓(xùn)練圖像中的臉部的部件相應(yīng)的多個(gè)部件圖像;產(chǎn)生與所述多個(gè)部 件圖像中的每個(gè)相應(yīng)的多個(gè)特征圖像。所述識(shí)別的步驟可包括:基于多個(gè)部件識(shí)別模塊的 輸出將與所述多個(gè)元素相應(yīng)的特征值輸出,其中,所述多個(gè)部件識(shí)別模塊中的每個(gè)包括對(duì) 相應(yīng)的部件圖像的特征圖像進(jìn)行濾波;基于濾波模塊的輸出將與與相應(yīng)的部件圖像相關(guān)聯(lián) 的元素相應(yīng)的特征值輸出。所述識(shí)別的步驟還可包括:基于第一元素特征輸出模塊的輸出 識(shí)別多個(gè)元素。所述識(shí)別方法還可包括:將所述多個(gè)元素和與參考圖像相關(guān)聯(lián)的多個(gè)元素 進(jìn)行比較;基于比較的結(jié)果確定輸入圖像是否與參考圖像匹配。所述比較的步驟可包括:基 于所述多個(gè)元素產(chǎn)生特征向量;將所述特征向量與參考圖像的參考向量進(jìn)行比較。
[0007] 根據(jù)至少一些示例實(shí)施例,訓(xùn)練識(shí)別器的方法可包括:接收訓(xùn)練圖像;基于訓(xùn)練圖 像和在訓(xùn)練圖像中標(biāo)記的多個(gè)元素訓(xùn)練被配置為從輸入圖像識(shí)別多個(gè)元素的識(shí)別器。
[0008] 所述多個(gè)元素可包括:標(biāo)識(shí)(ID),標(biāo)識(shí)訓(xùn)練圖像;至少一個(gè)屬性,與訓(xùn)練圖像相關(guān) 聯(lián)。ID可包括標(biāo)識(shí)包括在訓(xùn)練圖像中的至少一個(gè)對(duì)象的信息。所述至少一個(gè)屬性可包括W 下至少一項(xiàng):與包括在訓(xùn)練圖像中的臉部區(qū)域相應(yīng)的性別;與所述臉部區(qū)域相應(yīng)的年齡;與 所述臉部區(qū)域相應(yīng)的種族;與所述臉部區(qū)域相應(yīng)的吸引力;與所述臉部區(qū)域相應(yīng)的面部表 情;與所述臉部區(qū)域相應(yīng)的情感。所述至少一個(gè)屬性可包括性別、年齡、種族、吸引力、面部 表情和情感中的至少兩個(gè)不同的屬性。所述訓(xùn)練的步驟可包括計(jì)算與所述多個(gè)元素相應(yīng)的 損失。所述識(shí)別器可包括神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練的步驟可包括基于所述損失訓(xùn)練識(shí)別器學(xué)習(xí) 包括在神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)之間的權(quán)重。所述識(shí)別器可包括神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練的步驟可包 括基于隨機(jī)分段線性(PWL)模型激活包括在神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)。所述訓(xùn)練的步驟可包括基 于訓(xùn)練圖像產(chǎn)生多個(gè)特征圖像。所述多個(gè)特征圖像可包括W下至少一項(xiàng):去除光照噪聲的 顏色通道圖像;方向梯度大小通道圖像;皮膚概率通道圖像;局部二元模式通道圖像。所述 訓(xùn)練的步驟可包括:訓(xùn)練識(shí)別器對(duì)多個(gè)特征圖像進(jìn)行濾波;基于對(duì)多個(gè)特征圖像進(jìn)行濾波 的輸出訓(xùn)練識(shí)別器輸出與多個(gè)元素相應(yīng)的特征值。所述訓(xùn)練的步驟還可包括基于元素特征 輸出模塊的輸出識(shí)別多個(gè)元素。所述訓(xùn)練的步驟可包括:獲取與包括在訓(xùn)練圖像中的臉部 的部件相應(yīng)的多個(gè)部件圖像。不同元素可在所述多個(gè)部件圖像中被標(biāo)記。所述訓(xùn)練的步驟 還可包括:產(chǎn)生與所述多個(gè)部件圖像中的每個(gè)相應(yīng)的多個(gè)特征圖像。所述訓(xùn)練的步驟可包 括:基于與所述多個(gè)部件圖像相應(yīng)的多個(gè)部件識(shí)別模塊的輸出訓(xùn)練識(shí)別器輸出與多個(gè)元素 相應(yīng)的特征值;針對(duì)多個(gè)部件識(shí)別模塊中的每個(gè),訓(xùn)練部件識(shí)別模塊對(duì)相應(yīng)的部件圖像的 特征圖像進(jìn)行濾波,并基于濾波模塊的輸出訓(xùn)練部件識(shí)別模塊輸出與與相應(yīng)的部件圖像相 關(guān)聯(lián)的元素相應(yīng)的特征值。所述訓(xùn)練的步驟還可包括:基于第一元素特征輸出模塊的輸出 訓(xùn)練識(shí)別器識(shí)別多個(gè)元素。
[0009] 根據(jù)至少一個(gè)示例實(shí)施例,非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)包括:程序代碼,當(dāng)由處理器 執(zhí)行所述程序代碼時(shí),使處理器執(zhí)行包括接收訓(xùn)練圖像、基于訓(xùn)練圖像和在訓(xùn)練圖像中標(biāo) 記的多個(gè)元素訓(xùn)練被配置為從輸入圖像識(shí)別多個(gè)元素的識(shí)別器的操作。
[0010]根據(jù)至少一個(gè)示例實(shí)施例,識(shí)別設(shè)備包括:存儲(chǔ)器,存儲(chǔ)指令;一個(gè)或多個(gè)處理器, 被配置為執(zhí)行指令W使所述一個(gè)或多個(gè)處理器被配置為接收輸入圖像并使用預(yù)訓(xùn)練的單 個(gè)識(shí)別器識(shí)別與輸入圖像相關(guān)聯(lián)的多個(gè)元素。
[0011] 根據(jù)至少一個(gè)示例實(shí)施例,用于訓(xùn)練識(shí)別器的設(shè)備包括:存儲(chǔ)器,存儲(chǔ)指令;一個(gè) 或多個(gè)處理器,被配置為執(zhí)行指令W使所述一個(gè)或多個(gè)處理器被配置為接收訓(xùn)練圖像并基 于訓(xùn)練圖像和在訓(xùn)練圖像中標(biāo)記的多個(gè)元素訓(xùn)練被配置為識(shí)別輸入圖像的多個(gè)元素的識(shí) 別器。
[0012] 根據(jù)至少一個(gè)示例實(shí)施例,一種方法包括:接收多個(gè)訓(xùn)練圖像,所述多個(gè)圖像中的 每個(gè)包括一個(gè)或多個(gè)標(biāo)記的元素;基于多個(gè)訓(xùn)練圖像和包括在多個(gè)訓(xùn)練圖像中的標(biāo)記的元 素,訓(xùn)練一個(gè)或多個(gè)卷積神經(jīng)網(wǎng)絡(luò)(C順)W使所述訓(xùn)練的一個(gè)或多個(gè)C順從輸入圖像識(shí)別至 少兩個(gè)不同的元素。
[0013] 所述訓(xùn)練的步驟可包括:訓(xùn)練所述一個(gè)或多個(gè)C順對(duì)圖像標(biāo)識(shí)(ID)和至少一個(gè)圖 像屬性二者來執(zhí)行識(shí)別。所述至少一個(gè)屬性可包括W下至少一項(xiàng):與包括在輸入圖像中的 臉部區(qū)域相應(yīng)的性別;與所述臉部區(qū)域相應(yīng)的年齡;與所述臉部區(qū)域相應(yīng)的種族;與所述臉 部區(qū)域相應(yīng)的吸引力;與所述臉部區(qū)域相應(yīng)的面部表情;與所述臉部區(qū)域相應(yīng)的情感。所述 訓(xùn)練的步驟可包括:針對(duì)多個(gè)訓(xùn)練圖像中的每個(gè)產(chǎn)生多個(gè)類型的通道圖像,并基于所述多 個(gè)類型的通道圖像中的至少兩個(gè)訓(xùn)練所述一個(gè)或多個(gè)α^Ν來執(zhí)行識(shí)別。所述至少兩個(gè)類型 的通道圖像可包括第一類型和第二類型,第一類型和第二類型可W不同,并且第一類型和 第二類型中的每個(gè)可W是W下項(xiàng)之一:去除光照噪聲的顏色類型的通道圖像;方向梯度大 小類型的通道圖像;皮膚概率類型的通道圖像;局部二元模式類型的通道圖像。所述一個(gè)或 多個(gè)C順可包括單個(gè)C順,所述訓(xùn)練的步驟可包括基于至少第一類型和第二類型訓(xùn)練單個(gè) C順來執(zhí)行識(shí)別。所述一個(gè)或多個(gè)C順可至少包括第一 C順和第二C順,所述訓(xùn)練的步驟可包 括基于第一類型訓(xùn)練第一 α^Ν執(zhí)行識(shí)別和基于第二類型訓(xùn)練第二CNN執(zhí)行識(shí)別。所述方法還 可包括:融合響應(yīng)于第一 C順的訓(xùn)練產(chǎn)生的第一 C順的輸出和響應(yīng)于第二C順的訓(xùn)練產(chǎn)生的 第二CNN的輸出。
[0014] 根據(jù)至少一個(gè)示例實(shí)施例,一種方法包括:接收輸入圖像;使用一個(gè)或多個(gè)訓(xùn)練的 卷積神經(jīng)網(wǎng)絡(luò)(CNN)從輸入圖像識(shí)別至少兩個(gè)不同的元素,所述一個(gè)或多個(gè)訓(xùn)練的CNN每個(gè) 均為基于多個(gè)訓(xùn)練圖像和包括在多個(gè)訓(xùn)練圖像中的標(biāo)記的元素而訓(xùn)練的α^Ν。
[0015] 所述識(shí)別的步驟可包括:使用所述一個(gè)或多個(gè)訓(xùn)練的C順對(duì)圖像標(biāo)識(shí)(ID)和至少 一個(gè)圖像屬性執(zhí)行識(shí)別。所述至少一個(gè)屬性可包括W下至少一項(xiàng):與包括在輸入圖像中的 臉部區(qū)域相應(yīng)的性別;與所述臉部區(qū)域相應(yīng)的年齡;與所述臉部區(qū)域相應(yīng)的種族;與所述臉 部區(qū)域相應(yīng)的吸引力;與所述臉部區(qū)域相應(yīng)的面部表情;與所述臉部區(qū)域相應(yīng)的情感。所述 識(shí)別的步驟可包括:針對(duì)輸入圖像產(chǎn)生多個(gè)類型的通道圖像,并且使用所述一個(gè)或多個(gè)訓(xùn) 練的C順基于多個(gè)類型的通道圖像中的至少兩個(gè)來執(zhí)行識(shí)別。所述至少兩個(gè)類型的通道圖 像可包括第一類型和第二類型,第一類型和第二類型可W不同,并且第一類型和第二類型 中的每個(gè)可W是W下項(xiàng)之一:去除光照噪聲的顏色類型的通道圖像;方向梯度大小類型的 通道圖像;皮膚概率類型的通道圖像;局部二元模式類型的通道圖像。所述一個(gè)或多個(gè)CNN 可W是單個(gè)CNN,所述識(shí)別的過程可包括使用單個(gè)CNN基于至少第一類型和第二類型來執(zhí)行 識(shí)別。所述一個(gè)或多個(gè)C順可至少包括第一 C順和第二CNN,所述識(shí)別的步驟可包括使用第一 α^Ν基于第一類型來執(zhí)行第一識(shí)別和使用第二α^Ν基于第二類型來執(zhí)行第二識(shí)別。所述方法 還可包括:融合響應(yīng)于第一識(shí)別產(chǎn)生的第一 C順的輸出和響應(yīng)于第二識(shí)別產(chǎn)生的第二C順的 輸出。
[0016] 至少一些示例實(shí)施例的另外的方面將會(huì)部分地在W下描述中闡述,并且部分從描 述將是清楚的,或可通過本公開的實(shí)踐而獲知。
【附圖說明】
[0017] 本發(fā)明構(gòu)思的示例實(shí)施例的W上和其它特征和優(yōu)點(diǎn)將會(huì)通過參考附圖詳細(xì)描述 本發(fā)明構(gòu)思的示例實(shí)施例變得更為清楚。附圖意在描述本發(fā)明構(gòu)思的示例實(shí)施例,而不應(yīng) 被解釋為限制權(quán)利要求的意圖范圍。除非明確說明,否則附圖將不會(huì)被視為按比例繪制。
[0018] 圖1是示出根據(jù)至少一些示例實(shí)施例的訓(xùn)練設(shè)備的框圖;
[0019] 圖2示出根據(jù)至少一些示例實(shí)施例的多任務(wù)訓(xùn)練;
[0020] 圖3示出根據(jù)至少一些示例實(shí)施例的通過共同學(xué)習(xí)元素提高識(shí)別準(zhǔn)確度的識(shí)別器 的原理;
[0021] 圖4示出根據(jù)至少一些示例實(shí)施例的多任務(wù)訓(xùn)練的原理;
[0022] 圖5示出根據(jù)至少一些示例實(shí)施例的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的示例;
[0023] 圖6示出根據(jù)至少一些示例實(shí)施例的多通道訓(xùn)練;
[0024] 圖7示出根據(jù)至少一些示例實(shí)施例的多通道訓(xùn)練的原理;
[0025] 圖8和圖9示出根據(jù)至少一些示例實(shí)施例的用于多通道訓(xùn)練的DC順;
[0026] 圖10示出根據(jù)至少一些示例實(shí)施例的多部件訓(xùn)練;
[0027] 圖11示出根據(jù)至少一些示例實(shí)施例的用于多部件訓(xùn)練的DO^N;
[0028] 圖12示出根據(jù)至少一些示例實(shí)施例的多部件訓(xùn)練和多通道訓(xùn)練的結(jié)合;
[0029] 圖13示出根據(jù)至少一些示例實(shí)施例的隨機(jī)分段線性(PWL)激活模型和一般確定性 PWL激活模型之間的比較;
[0030] 圖14是示出根據(jù)至少一些示例實(shí)施例的識(shí)別設(shè)備的框圖;
[0031] 圖15A至圖1抓示出根據(jù)至少一些示例實(shí)施例的識(shí)別器的操作;
[0032] 圖16示出根據(jù)至少一些示例實(shí)施例的用戶界面化I);
[0033] 圖17至圖24示出根據(jù)至少一些示例實(shí)施例的臉部識(shí)別設(shè)備;
[0034] 圖25至圖30示出根據(jù)至少一些示例實(shí)施例的屬性。
【具體實(shí)施方式】
[0035] 在運(yùn)里公開了本發(fā)明構(gòu)思的具體示例實(shí)施例。然而,運(yùn)里公開的具體的結(jié)構(gòu)和功 能的細(xì)節(jié)僅是代表描述本發(fā)明構(gòu)思的示例