改進(jìn)的數(shù)據(jù)比較方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種對從傳感器或接口得到的數(shù)據(jù)進(jìn)行比較以確定數(shù)據(jù)之間的相似 率的方法。本發(fā)明尤其涉及一種通過機器學(xué)習(xí)的數(shù)據(jù)比較方法。
【背景技術(shù)】
[0002] 在計算機視覺(或數(shù)字視覺)領(lǐng)域?qū)崿F(xiàn)的眾多任務(wù)例如要求對諸如圖像之類的復(fù) 雜數(shù)據(jù)進(jìn)行比較以得到該數(shù)據(jù)之間的相似度分?jǐn)?shù)。
[0003] 例如,在生物計量認(rèn)證領(lǐng)域,對個體的面部圖像進(jìn)行比較以確定圖像是否是從同 一人處得到的。
[0004] 為了解決這類問題,已知從待比較的數(shù)據(jù)中提取特征,特征提取將待比較的數(shù)據(jù) 轉(zhuǎn)換為特征向量,并隨后計算特征向量之間的相似度函數(shù)。
[0005] 計算出的相似度函數(shù)通常包括預(yù)先未知的參數(shù)。這些參數(shù)被確定并通過機器學(xué)習(xí) 來逐步優(yōu)化。為此,處理單元對從數(shù)據(jù)庫中得到的一組數(shù)據(jù)進(jìn)行數(shù)據(jù)比較操作,將由相似度 函數(shù)給出的結(jié)果與實際結(jié)果進(jìn)行比較,并且相應(yīng)地優(yōu)化相似度函數(shù)的參數(shù)以得到更加可靠 的結(jié)果。
[0006] 例如,根據(jù)D·Chen,X·Cao,L·Wang,F(xiàn)·Wen和J·Sun在2012年的ECCV(European Conference on Computer Vision,歐洲計算機視覺國際會議)上發(fā)表的《Bayesian Face Revisited:AJoint Formulation》(貝葉斯面部重歷:聯(lián)合公式化),數(shù)據(jù)之間的相似度函數(shù) 的學(xué)習(xí)方法是已知的,其中,通過對兩個獨立的高斯變量求和對數(shù)據(jù)建模:一個數(shù)據(jù)所屬的 類(class)的平均值以及該數(shù)據(jù)相對于平均值的變化。
[0007] 例如,如果數(shù)據(jù)為面部圖像,則類對應(yīng)于主體的身份,并且相對于類的平均值的變 化對應(yīng)于主體的平均面部圖像與不同環(huán)境下拍攝的圖像之間可能存在的全部改變:
[0008] -圖像上的光和影,
[0009] -圖像中的面部姿態(tài),
[0010] -面部表情,
[0011] -局部模糊等。
[0012] 然而,在數(shù)據(jù)庫中將數(shù)據(jù)的質(zhì)量變化考慮在內(nèi)限制了機器學(xué)習(xí)所形成的比較性能 水平的提升。其結(jié)果是,所確定的相似度函數(shù)表現(xiàn)出欠佳的性能并因此表現(xiàn)出欠佳的比較 質(zhì)量。所提出的比較方法因而并不完全可靠。
【發(fā)明內(nèi)容】
[0013] 本發(fā)明的目的是提出一種數(shù)據(jù)比較方法,該數(shù)據(jù)比較方法相比于現(xiàn)有技術(shù)具有改 進(jìn)的性能。
[0014] 在此方面,本發(fā)明的主題是由處理單元的處理裝置實現(xiàn)對從傳感器或接口得到的 兩個計算機數(shù)據(jù)項目進(jìn)行比較的方法,該方法包括計算待比較的兩個特征向量之間的相似 度函數(shù),
[0015] 其特征在于,對高斯變量求和來對一個數(shù)據(jù)的各特征向量建模,所述變量包括:
[0016] -向量所屬的類的平均值,
[0017] -固有偏差,以及,
[0018] -向量的觀測噪聲,
[0019 ]每個特征向量與一個質(zhì)量向量相關(guān)聯(lián),該質(zhì)量向量包括特征向量的觀測噪聲的信 息,
[0020]并且在于,根據(jù)特征向量和相關(guān)聯(lián)的質(zhì)量向量來計算相似度函數(shù)。
[0021 ]有利但可選地,本發(fā)明的方法還可以包括以下特征中的至少一個:
[0022] -相似度函數(shù)是具有屬于同一類的向量的特征向量的概率密度
與與具有兩個不同類的向量的特征向量的概率密度
之間的比率的對數(shù)。
[0023] -相似度函數(shù)還根據(jù)特征向量的分量的協(xié)方差矩陣來計算,并且每個特征向量的 觀測噪聲的協(xié)方差矩陣根據(jù)相關(guān)聯(lián)的質(zhì)量向量來得到。
[0024] -該方法還包括實現(xiàn)學(xué)習(xí)算法來確定向量所屬的類的平均值和相對于類平均值的 向量偏差的協(xié)方差矩陣。
[0025]-學(xué)習(xí)算法為期望最大算法;
[0026]-相似度函數(shù)由下式給出:
[0032]并且其中,Su為所述類的平均值的協(xié)方差矩陣(類間協(xié)方差矩陣),SU為相對于平 均值的偏差的協(xié)方差矩陣(類內(nèi)協(xié)方差矩陣),并且SEX和SEy分別為所述向量X和y的所述觀 測噪聲的協(xié)方差矩陣;
[0033]-來此傳感器或接口的計算機數(shù)據(jù)是表示物理對象或物理量的數(shù)據(jù);
[0034]-來自傳感器或接口的計算機數(shù)據(jù)是圖像,并且通過對圖像應(yīng)用至少一個濾波器 得到特征向量;
[0035] -質(zhì)量向量的分量根據(jù)數(shù)據(jù)類型和形成特征向量的特征類型來生成;
[0036] -該方法還包括將所計算的相似度函數(shù)的結(jié)果與閾值進(jìn)行比較,從而確定數(shù)據(jù)是 否屬于公共類。
[0037]本發(fā)明的另一主題是一種包括代碼指令的計算機程序產(chǎn)品,該代碼指令在被處理 單元的處理裝置執(zhí)行時實現(xiàn)之前描述的方法。
[0038]本發(fā)明的另一主題是一種系統(tǒng),包括:
[0039]-數(shù)據(jù)庫,包括多個所謂的標(biāo)簽數(shù)據(jù);
[0040]-數(shù)據(jù)采集單元;以及
[0041]-處理單元,該處理單元包括處理裝置,該處理單元適用于根據(jù)兩個數(shù)據(jù)項來構(gòu)造 兩個特征向量和兩個相關(guān)聯(lián)的質(zhì)量向量,所述處理單元還適用于通過實現(xiàn)之前描述的方法 來比較數(shù)據(jù)。
[0042] 所提出的方法使得能夠在計算數(shù)據(jù)之間的相似度函數(shù)的同時考慮到數(shù)據(jù)質(zhì)量。這 使得有可能在質(zhì)量良好的數(shù)據(jù)與不確定性更大的數(shù)據(jù)之間使用可變的權(quán)重。
[0043] 例如,當(dāng)本發(fā)明的方法被應(yīng)用于圖像比較時,相似度函數(shù)對于圖像的陰影或模糊 區(qū)域并未被相似度函數(shù)的考慮權(quán)重并不如清晰可見、清楚辨別的區(qū)域那樣大。
[0044] 數(shù)據(jù)比較性能借此得到了增強。
[0045] 另外,機器學(xué)習(xí)使得能夠優(yōu)化相似度函數(shù)參數(shù)并因此提升比較方法的性能。
【附圖說明】
[0046] 根據(jù)以下僅以解釋為目的的非限定性說明并且結(jié)合附圖,本發(fā)明的其他特點、目 的和優(yōu)點將變得明顯,在附圖中:
[0047] -圖1示出了適用于實現(xiàn)比較方法的系統(tǒng)的一個示例;
[0048] -圖2示出了根據(jù)本發(fā)明的一個實施例的數(shù)據(jù)比較方法的主要步驟。
【具體實施方式】
[0049] 參考圖1,所示系統(tǒng)1包括處理單元10,處理單元10包括處理裝置11以實現(xiàn)下述計 算機數(shù)據(jù)比較方法。
[0050] 處理單元10例如可以是集成電路并且處理裝置可以是處理器。
[0051] 有利地,系統(tǒng)1還包括可選遠(yuǎn)程數(shù)據(jù)庫20,遠(yuǎn)程數(shù)據(jù)庫20在存儲器中存儲了多個數(shù) 據(jù),這些數(shù)據(jù)被處理單元10使用以實現(xiàn)下述機器學(xué)習(xí)。
[0052] 最后,系統(tǒng)1包括數(shù)據(jù)采集單元30,或者當(dāng)數(shù)據(jù)采集單元30獨立于系統(tǒng)時,系統(tǒng)包 括適用于與此單元進(jìn)行通信的接口(未示出)。以此方式,系統(tǒng)1能夠接收并處理數(shù)據(jù)b,尤其 是使用下述方法對數(shù)據(jù)b進(jìn)行比較。
[0053] 根據(jù)在下述方法中待比較的數(shù)據(jù)類型的不同,數(shù)據(jù)采集單元可以是任何類型的, 例如,光學(xué)傳感器(照相機、攝像機、掃描儀)、聲學(xué)傳感器、指紋傳感器、運動傳感器等等。數(shù) 據(jù)采集單元還可以是人機接口(鍵盤、具有觸屏接口的平板電腦)以記錄操作人員輸入的諸 如文本、圖片等數(shù)據(jù)。
[0054]計算機數(shù)據(jù)b由采集單元30得到并因而來自傳感器或者例如人機接口這樣的接 口。計算機數(shù)據(jù)b可以是代表物理對象(例如圖像、示意圖、記錄、說明)或者代表(電、機械、 熱、聲等)物理量的數(shù)據(jù),例如,由傳感器記錄的數(shù)據(jù)。
[0055]處理單元的處理裝置11有利地被配置為通過執(zhí)行合適的程序來實現(xiàn)下述數(shù)據(jù)比 較方法。
[0056]為了實現(xiàn)本方法,處理裝置11有利地還包括特征提取模塊12,特征提取模塊12適 用于根據(jù)由數(shù)據(jù)采集單元30傳送的輸入計算機數(shù)據(jù)b進(jìn)行特征提取,以便生成與數(shù)據(jù)相關(guān) 聯(lián)的特征向量X以及與特征向量相關(guān)聯(lián)的質(zhì)量向量qx。
[0057]質(zhì)量向量qx與特征向量的大小相同,并且質(zhì)量向量qx中的每個元素表明特征向量 X的對應(yīng)元素中包含的信息的質(zhì)量。替代性地,質(zhì)量向量qx可以是任意大小的。質(zhì)量向量qx 的生成取決于數(shù)據(jù)b的類型。
[0058] 例如,通過將用于此用途的一個或更多濾波器應(yīng)用于數(shù)據(jù)b,可選地隨后對濾波結(jié) 果(例如,計算出的直方圖等)進(jìn)行處理,能夠?qū)崿F(xiàn)特征提取。
[0059] 質(zhì)量向量的生成依賴于數(shù)據(jù)b的類