專利名稱:語義可視搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及可視信息分析和語義搜索。更具體地,本發(fā)明涉及存儲在例如移動電子設(shè)備的設(shè)備中的內(nèi)容的特征提取、特征和對象匹配以及特征選擇。
背景技術(shù):
隨著近些年移動設(shè)備上的圖像文件、視頻文件、音頻文件等的多媒體數(shù)據(jù)庫逐漸變得更大,對用于數(shù)據(jù)庫分類、搜索和管理的全面和精確系統(tǒng)的需求顯著增加。在早些的移動設(shè)備中,存儲空間十分有限,這導(dǎo)致相對小數(shù)目的多媒體對象存儲在設(shè)備上。由于僅少量的對象被存儲,所以精確地分類、搜索和管理實(shí)質(zhì)上不太重要。然而,由于存儲能力已經(jīng)增力口,因此已經(jīng)向移動設(shè)備用戶提供在例如移動電話的單個(gè)設(shè)備上存儲成百并且甚至成千的對象的能力。然而,由于存儲的對象太多,用戶具有尋找先前存儲的對象或組織他或她的所有多媒體文件以便稍后訪問的困難時(shí)間。在圖像檢索領(lǐng)域,現(xiàn)有的基于內(nèi)容的圖像檢索(CBIR)系統(tǒng)通過查找從目標(biāo)圖像提取的類似低級特征來搜索相關(guān)圖像。該方法的一個(gè)問題在于“類似低級特征”不會必然地確保“類似語義內(nèi)容”。這是由于若干種因素。第一,兩個(gè)“類似語義內(nèi)容”可能最終具有不同的表現(xiàn)。例如,可以存在類間對象變化(例如,山脈不必看起來類似)。第二,“類似低級特征”可能對應(yīng)于概念上不類似的對象。例如,色彩直方圖不能輕易地區(qū)分紅玫瑰與日落。第三,圖像總是包含背景混亂,這經(jīng)常會干擾低級特征匹配。盡管人類可以輕易地從語義類似內(nèi)容識別顯著的特征(例如,臉部具有代表眼部的黑色橢圓區(qū)域),但對于計(jì)算算法來說,仍極難自動地將顯著的特征與低級特征分離。盡管有多種嘗試通過基于內(nèi)容的圖像檢索來解決上面的問題,但每個(gè)嘗試均具有其自身的缺陷。例如,簽發(fā)給Jain等人的US專利號5,893,095公開了一種基于內(nèi)容的圖像檢索系統(tǒng),其基于匹配從目標(biāo)圖像提取的低級特征。此類的“原始”特征包括色調(diào)、飽和度和強(qiáng)度直方圖、邊緣密度等。然而并且如上所述,這些低級特征不總是對應(yīng)于圖像語義。先前開發(fā)的通用圖像識別/檢索系統(tǒng)用于根據(jù)四類低級特征來識別圖像,即平均色彩、色彩直方圖、紋理和形狀。在該系統(tǒng)下,用戶能夠人工地在圖像內(nèi)添加用戶定義的形狀和/或感興趣的區(qū)域以精煉搜索結(jié)果。這些用戶指定的特征經(jīng)常是很有意義的并且可以產(chǎn)生精確的結(jié)果。然而,輸入這些特征是乏味的并且對于大多數(shù)用戶來說太難。除了上述的嘗試,還有許多嘗試使用機(jī)器學(xué)習(xí)以便進(jìn)行特征選擇。例如,一個(gè)系統(tǒng)涉及使用AdaBoost ( “Adaptive Boosting”的縮寫)學(xué)習(xí)算法來訓(xùn)練臉部檢測器。給定一組訓(xùn)練臉部圖像,顯著的面部特征,例如前額和眼部周圍的高對比度區(qū)域被自動地選擇。盡管該方法演示了監(jiān)督學(xué)習(xí)以便特征選擇的可行性,但由于背景混亂的存在,其不能直接應(yīng)用地圖像數(shù)據(jù)庫檢索。在另一個(gè)方法中,選擇局部顯著的特征并且接著以合并的概率模型來表示。該模型有效地適應(yīng)了類間對象變化。然而,該方法計(jì)算量大并且因此選擇的特征的數(shù)目有限(在一個(gè)實(shí)施中僅限于六個(gè)特征)。該方法不能被直接應(yīng)用于移動應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明提供一種語義可視搜索引擎,其使用在例如移動電話的設(shè)備和其他移動電子設(shè)備中。利用本發(fā)明,使用監(jiān)督的學(xué)習(xí)方法可將顯著的特征與低級特征分離。顯著的特征可用于分類和批注新的目標(biāo)圖像。用戶可接著使用關(guān)鍵詞和/或模板項(xiàng)目來通過相應(yīng)的數(shù)據(jù)庫進(jìn)行搜索。利用本發(fā)明,可基于“語義”對象類來搜索例如圖像和視頻的相關(guān)項(xiàng)目。另外,利用本發(fā)明,從圖像和視頻編碼搜索得到的結(jié)果比由常規(guī)系統(tǒng)生成的結(jié)果更為精確和更為有意義。通過下面結(jié)合附圖的詳細(xì)描述,本發(fā)明的這些和其他目標(biāo)、優(yōu)勢和特征,連同其操作的組織和方式將變得明顯,其中在下面描述的若干附圖中,相同的元件具有相同的標(biāo)號。
圖1是可以在實(shí)現(xiàn)本發(fā)明中使用的移動電話的透視圖;圖2是圖1中的移動電話的電話電路的示意圖;圖3(a)是示出實(shí)現(xiàn)本發(fā)明原理的系統(tǒng)的學(xué)習(xí)處理的示圖;圖3(b)是示出實(shí)現(xiàn)本發(fā)明原理的系統(tǒng)的分類處理的示圖;并且圖3(c)是實(shí)現(xiàn)本發(fā)明原理的系統(tǒng)的搜索處理的示圖;圖4是根據(jù)本發(fā)明一個(gè)實(shí)施方式的如何從圖像提取低級特征的示圖;以及圖5是示出實(shí)現(xiàn)本發(fā)明的各種實(shí)施方式的流程圖。
具體實(shí)施例方式圖1和圖2示出其中本發(fā)明可被實(shí)現(xiàn)的一個(gè)示例性移動電話12。然而,應(yīng)當(dāng)理解,本發(fā)明不旨在限定于一個(gè)特定類型的移動電話12或其他電子設(shè)備。例如,本發(fā)明可以被集成進(jìn)組合的個(gè)人數(shù)字助理(PDA)和移動電話、PDA、集成消息收發(fā)設(shè)備(MD)、臺式計(jì)算機(jī)和筆記本計(jì)算機(jī)。圖1和2中的移動電話12包括殼體30、以液晶顯示器形式的顯示器32、小鍵盤34、麥克風(fēng)36、聽筒38、電池40、紅外端口 42、天線44、根據(jù)本發(fā)明的一個(gè)實(shí)施例的通用集成電路卡nCC形式的智能卡46、讀卡器48、無線接口電路52、編解碼器電路54、控制器56和存儲器58。各個(gè)電路和元件都是本領(lǐng)域公知的類型,例如Nokia移動電話系列。本發(fā)明的搜索系統(tǒng)包括三個(gè)相關(guān)的處理學(xué)習(xí)、分類和搜索。學(xué)習(xí)處理通過使用監(jiān)督的學(xué)習(xí)方法來解決先前討論的特征選擇問題。輸入包括一組相同類的樣本圖像(例如,臉部的圖像)。輸出包括從低級特征選擇的常見顯著的特征,該低級特征從示例圖像導(dǎo)出。圖3(a)示出學(xué)習(xí)處理的簡化例子,其中輸入包括一對樣本項(xiàng)目300,并且作為監(jiān)督學(xué)習(xí)處理305的結(jié)果,在輸出中識別出顯著的特征310。在分類處理中,在學(xué)習(xí)處理期間識別的顯著的特征被用于分類和批注新的目標(biāo)圖像。如圖3(b)中所示,輸入包括一個(gè)或多個(gè)目標(biāo)項(xiàng)目320,而輸出包括分配給目標(biāo)項(xiàng)目320的批注330。作為語義圖像分類處理325的結(jié)果,生成輸出。根據(jù)本發(fā)明,可以使用不同的搜索方案。如圖3(c)中所示,用戶可以提交關(guān)鍵詞340和/或模板350。系統(tǒng)接著可使用特征選擇360和基于特征項(xiàng)目匹配370來返回多個(gè)檢索項(xiàng)目380。在搜索方案的第一個(gè)中,用戶提交一個(gè)或多個(gè)關(guān)鍵詞。作為響應(yīng),具有相同或類似批注的檢索項(xiàng)目380被返回。在第二個(gè)方案中,提供一個(gè)或多個(gè)模板350和一個(gè)或多個(gè)關(guān)鍵詞340。在該情形下,從模板項(xiàng)目或項(xiàng)目350提取的低級特征首先被預(yù)過濾,并且接著隨后與目標(biāo)項(xiàng)目的特征進(jìn)行匹配。預(yù)過濾用于排除或最小化背景混亂。最為類似的項(xiàng)目或多個(gè)項(xiàng)目被檢索并且為用戶可用。在第三個(gè)方案中,僅一個(gè)或多個(gè)模板項(xiàng)目350被提供有不感興趣的指定對象。在該方案中,最為類似的低級特征被匹配。對于低級特征提取,當(dāng)涉及圖像時(shí),圖像被轉(zhuǎn)化成多尺度(mult1-scale)局部特征矢量,該矢量包括待處理的候選低級特征。應(yīng)該注意到盡管“圖像”在這里被明確地討論,但本發(fā)明可以被應(yīng)用到例如音頻文件的非圖像內(nèi)容。低級特征圍繞圖像中的突點(diǎn)局部地提取。圖4是該處理的示圖,其中三種不同類型的特征(形狀、色彩和紋理強(qiáng)度)從在三個(gè)不同尺度處的各種突點(diǎn)410提取。對于學(xué)習(xí)處理,輸入是針對語義內(nèi)容的每個(gè)分類的一組示例圖像。該組示例圖像或項(xiàng)目在數(shù)目可以成百或更多。語義內(nèi)容包括潛在相關(guān)項(xiàng)目的簡短描述,例如“臉部”、“飛機(jī)”、“山脈”和其他。每個(gè)示例圖像轉(zhuǎn)化成多尺度局部特征矢量,它們是將要處理的候選低級特征。使用監(jiān)督的學(xué)習(xí)方法,可以選擇與特定的對象類關(guān)聯(lián)的顯著的特征(例如,“眼部”對于“臉部”或“車輪”對于“汽車”)。這些選擇的特征構(gòu)成特定對象類的概率模型并且可用于隨后的分類和搜索處理。應(yīng)該注意到本發(fā)明包括通用框架并且不依賴于被實(shí)現(xiàn)的學(xué)習(xí)方法的性質(zhì)。在本發(fā)明的一個(gè)實(shí)施方式中,AdaBoosting被用于選擇特征。AdaBoosting是可視特征選擇域中的有效學(xué)習(xí)方法。然而,可選的學(xué)習(xí)方法,包括但不限于支持向量機(jī)器(SVM)模式識別、Bayesian統(tǒng)計(jì)和其他的方法也可結(jié)合本發(fā)明來實(shí)施。對于分類處理,目標(biāo)圖像首先轉(zhuǎn)化成多尺度局部特征。這些提取的特征隨后與顯著的特征進(jìn)行匹配,這些顯著的特征被表示為概率模型。如果計(jì)算的概率大于特定的閾值,則宣告成功的匹配并且相應(yīng)對象分類的批注被輸出。例如,如果由用戶保存的目標(biāo)圖像具有包含臉部的某個(gè)概率,則將與目標(biāo)圖像關(guān)聯(lián)的批注之一是“臉部”。也應(yīng)該注意到概率閾值從本發(fā)明的各種實(shí)施方式中的示例圖像或項(xiàng)目學(xué)習(xí)。在本發(fā)明的一個(gè)實(shí)施方式中,在這點(diǎn)上無需用戶干預(yù)。在搜索步驟中并且如上所討論,當(dāng)提供模板項(xiàng)目和關(guān)鍵詞時(shí),根據(jù)感興趣的分類的概率模型,首先對來自模板項(xiàng)目的低級特征進(jìn)行預(yù)過濾。該預(yù)濾波對于排除或最小化背景混亂是重要的,背景混亂經(jīng)常干擾后續(xù)的圖像匹配處理。選擇的特征與相同分類的目標(biāo)圖像或項(xiàng)目匹配。該匹配使用了基于穩(wěn)健的局部特征的圖像匹配方法。此類特定方法在 Lixin Fan 的 “ Intra-Class Variation, AffineTransformation and BackgroundClutter Towards Robust ImageMatching”詳細(xì)討論并且通過參考并入在此。如果僅模板圖像或項(xiàng)目提供有不感興趣的指定對象,則搜索處理使用如這里所述的基于低級特征的圖像匹配。再次,此類特定方法在Lixin Fan的“Intra-ClassVariation, Affine Transformation and Background Clutter Towards Robust ImageMatching”詳細(xì)討論。如果僅輸入關(guān)鍵詞,則系統(tǒng)查找具有與批注相同或類似的關(guān)鍵詞的存儲的圖像。例如,如果單詞“臉部”被輸入,則系統(tǒng)可返回具有如批注“臉部”的圖像。圖5示出本發(fā)明的各種實(shí)施方式的實(shí)現(xiàn)的流程圖。在圖5的步驟500處,多個(gè)圖像或其他項(xiàng)目被轉(zhuǎn)換成多個(gè)候選低級特征。對于多個(gè)項(xiàng)目中的每個(gè),圍繞相應(yīng)項(xiàng)目中的突點(diǎn)來局部地提取候選低級特征。在步驟510處,上述類型的監(jiān)督學(xué)習(xí)方法用于從多個(gè)候選低級特征選擇顯著的低級特征。顯著的低級特征與預(yù)定的對象分類關(guān)聯(lián)。這些預(yù)定的對象分類可描述通用對象(例如,汽車、飛機(jī)等);人體的一部分(例如臉部),地理陸標(biāo)(例如,山脈、樹木等)或其他項(xiàng)目。在步驟520處,當(dāng)新的項(xiàng)目將要被分類時(shí),目標(biāo)項(xiàng)目被轉(zhuǎn)化為多個(gè)多尺度局部特征。在步驟530處,對于多個(gè)多尺度局部特征的每個(gè),使用概率模型,多尺度局部特征與顯著的低級特征關(guān)聯(lián)。通過這種方式,例如,如果目標(biāo)項(xiàng)目具有臉部,則該特征將被匹配于具有臉部的其他項(xiàng)目并且該項(xiàng)目因此可以被分類。在步驟540處,輸入項(xiàng)目由用戶輸入進(jìn)系統(tǒng),請求對其進(jìn)行搜索。輸入項(xiàng)目可包括用于搜索的模板和/或關(guān)鍵詞。接著響應(yīng)于步驟550處的詢問,類似于輸入項(xiàng)目的項(xiàng)目可提供給用戶。如上討論,精確的處理可根據(jù)用戶是否僅輸入關(guān)鍵詞,僅輸入模板或二者來變化。應(yīng)該注意到搜索結(jié)果也可包括本地執(zhí)行和/或位于遠(yuǎn)程位置所執(zhí)行的搜索的結(jié)果,并且被搜索的項(xiàng)目可以位于本地和/或遠(yuǎn)端。在方法步驟的通常環(huán)境中描述了本發(fā)明,其可以通過包括計(jì)算機(jī)可執(zhí)行指令的程序產(chǎn)品在一個(gè)實(shí)施例中實(shí)現(xiàn),例如程序代碼,可由計(jì)算機(jī)在網(wǎng)絡(luò)互連環(huán)境中執(zhí)行。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。計(jì)算機(jī)可執(zhí)行指令,相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)和程序模塊代表用于執(zhí)行在此公開的方法的步驟的程序代碼的例子。這種可執(zhí)行指令或相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)的特定序列代表了用于執(zhí)行以這種步驟描述的功能的相應(yīng)動作的例子。本發(fā)明的軟件和web執(zhí)行可以使用標(biāo)準(zhǔn)編程技術(shù)完成,該標(biāo)準(zhǔn)編程技術(shù)具有基于規(guī)則的邏輯和其它邏輯用于完成不同的數(shù)據(jù)庫搜索步驟、相關(guān)性步驟、比較步驟和決定步驟。本發(fā)明也可以使用任意常見的編程語言(例如C/C++或匯編語言)來直接實(shí)施在軟件中。本發(fā)明也可以實(shí)現(xiàn)在硬件中并且用于消費(fèi)設(shè)備中。還應(yīng)當(dāng)注意此處和權(quán)利要求書中使用的詞語“組件”和“模塊”意欲包含使用一行或多行軟件代碼的執(zhí)行,和/或硬件執(zhí)行,和/或用于接收手動輸入的設(shè)備。為了示意和描述的目的已經(jīng)對本發(fā)明的實(shí)施例進(jìn)行了前述描述。不旨在窮舉或者將本發(fā)明限制在所公開的精確形式下,并且修改和變化可以參照上述教導(dǎo)做出,或者從本發(fā)明的實(shí)踐中獲得。選擇和描述的實(shí)施例用于解釋本發(fā)明的原理及其實(shí)際應(yīng)用以使本領(lǐng)域技術(shù)人員能夠在各種實(shí)施方式中利用本發(fā)明并且可以具有各種修改以適應(yīng)于特定的預(yù)期應(yīng)用。
權(quán)利要求
1.一種用于將移動電子設(shè)備上的目標(biāo)項(xiàng)目進(jìn)行分類的方法,所述方法包括從多個(gè)候選低級特征(510)中選擇顯著的低級特征(310 ),其中圍繞多個(gè)項(xiàng)目(300 )中的突點(diǎn)(410)局部地提取所述多個(gè)候選低級特征(510),根據(jù)監(jiān)督的學(xué)習(xí)方法(305)將顯著的低級特征與預(yù)定的對象分類關(guān)聯(lián);將目標(biāo)項(xiàng)目(320 )轉(zhuǎn)化成多個(gè)多尺度局部特征(520 );以及對于所述多個(gè)多尺度局部特征中的每一個(gè),使用概率模型(325 ;530),將多尺度局部特征與顯著的低級特征相匹配。
2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括圍繞多個(gè)項(xiàng)目中的突點(diǎn)(410)局部地提取候選低級特征(500)。
3.根據(jù)權(quán)利要求1或2所述的方法,其中所述監(jiān)督的學(xué)習(xí)方法包括AdaBoosting學(xué)習(xí)算法、Bayesian統(tǒng)計(jì)的使用或SVM模式識別。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中所述多個(gè)項(xiàng)目包括視頻和/或圖像。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其中如果多尺度局部特征和顯著的低級特征之間計(jì)算的匹配概率大于預(yù)定的閾值,則多尺度局部特征與顯著的低級特征相匹配。
6.根據(jù)權(quán)利要求5所述的方法,其中通過使用所述監(jiān)督的學(xué)習(xí)方法(305)來確定所述預(yù)定的閾值。
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,進(jìn)一步包括接收來自用戶(540)的輸入(340 ;350);以及向用戶返回與所述輸入(550)共享某些類似性的至少一個(gè)項(xiàng)目(380)。
8.根據(jù)權(quán)利要求7所述的方法,其中所述輸入包括關(guān)鍵詞(340 ),并且所述至少一個(gè)項(xiàng)目包括類似于關(guān)鍵詞的批注(330 );或者所述輸入包括模板項(xiàng)目(350),并且所述輸入中的低級特征與所述顯著的低級特征進(jìn)行比較以識別出至少一個(gè)項(xiàng)目;或者所述輸入包括模板項(xiàng)目(350)和關(guān)鍵詞(340),并且至少一個(gè)項(xiàng)目的返回包括使用感興趣的分類的概率模型來預(yù)過濾所述模板項(xiàng)目中的低級特征(360);以及將所述預(yù)過濾的低級特征與相同分類(370)中的目標(biāo)圖像進(jìn)行匹配,所述分類由關(guān)鍵詞來識別。
9.一種包括至少一個(gè)計(jì)算機(jī)可讀存儲介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)可讀存儲介質(zhì)具有其中存儲的計(jì)算機(jī)可讀程序代碼部分,當(dāng)在處理器上執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)前述權(quán)利要求1至8中任一項(xiàng)所述的方法。
10.一種電子設(shè)備(12),包括處理器(56),以及存儲單元(58),其操作性地連接到處理器并且包括用于從多個(gè)候選低級特征中選擇顯著的低級特征的計(jì)算機(jī)代碼,其中圍繞多個(gè)項(xiàng)目中的突點(diǎn)局部地提取所述多個(gè)候選低級特征,根據(jù)監(jiān)督的學(xué)習(xí)方法將顯著的低級特征與預(yù)定的對象分類相關(guān)聯(lián);用于將目標(biāo)項(xiàng)目轉(zhuǎn)化成多個(gè)多尺度局部特征的計(jì)算機(jī)代碼;以及用于使用概率模型,將多個(gè)多尺度局部特征中的每一個(gè)與顯著的低級特征相匹配的計(jì)算機(jī)代碼。
11.根據(jù)權(quán)利要求10所述的電子設(shè)備,所述存儲器單元(58)進(jìn)一步包括用于圍繞多個(gè)項(xiàng)目中的突點(diǎn)局部地提取所述多個(gè)候選低級特征的計(jì)算機(jī)代碼。
12.根據(jù)權(quán)利要求10或11所述的電子設(shè)備,其中如果多尺度局部特征和顯著的低級特征之間計(jì)算的匹配概率大于預(yù)定的閾值,則多尺度局部特征與顯著的低級特征相匹配。
13.根據(jù)權(quán)利要求12所述的電子設(shè)備,其中通過使用所述監(jiān)督的學(xué)習(xí)方法來確定所述預(yù)定的閾值。
14.根據(jù)權(quán)利要求13所述的電子設(shè)備,所述存儲器單元(58)進(jìn)一步包括用于接收來自用戶的輸入的計(jì)算機(jī)代碼;以及用于向用戶返回與所述輸入共享某些類似性的至少一個(gè)項(xiàng)目的計(jì)算機(jī)代碼。
全文摘要
本發(fā)明為語義可視搜索引擎。一種用于使得系統(tǒng)根據(jù)例如圖像或視頻剪輯的項(xiàng)目的語義意義來對它們進(jìn)行學(xué)習(xí)、分類和搜索的改進(jìn)方法、設(shè)備和計(jì)算機(jī)程序產(chǎn)品。根據(jù)本發(fā)明,可以使用監(jiān)督的學(xué)習(xí)方法來將顯著的特征與低級特征分離。顯著的特征用于分類和批注新的目標(biāo)項(xiàng)目。用戶可接著使用關(guān)鍵詞和/或模板項(xiàng)目來通過相應(yīng)的數(shù)據(jù)庫進(jìn)行搜索。
文檔編號G06F17/30GK102999635SQ20121055388
公開日2013年3月27日 申請日期2006年9月27日 優(yōu)先權(quán)日2005年9月28日
發(fā)明者范力欣 申請人:核心無線許可有限公司