專利名稱:使用語義距離學(xué)習(xí)的自動圖像注釋的制作方法
使用語義距離學(xué)習(xí)的自動圖像注釋背景近年來數(shù)字成像技術(shù)的快速進(jìn)步導(dǎo)致圖像捕捉和顯示設(shè)備的成本的顯著降低,以 及這些設(shè)備的普及度的對應(yīng)的增長。例如,圖像捕捉功能現(xiàn)在以諸如移動電話、數(shù)碼相機(jī)、 攝像頭等各種不同的形式在大眾市場層面對消費(fèi)者可用。另外,膝上型計(jì)算機(jī)現(xiàn)在也具有 集成攝像頭。結(jié)果,近年來捕捉到的數(shù)字圖像的數(shù)量已增長至空前水平。隨之而來的數(shù)據(jù) 存儲和網(wǎng)絡(luò)通信技術(shù)的進(jìn)步使得大眾市場消費(fèi)者經(jīng)濟(jì)地存儲圖像數(shù)據(jù)并將其傳遞給其他 人成為可能。現(xiàn)在也存在各種各樣的大眾市場軟件應(yīng)用,這些軟件應(yīng)用方便地向消費(fèi)者提 供出于各種不同的目的來查看、操縱和共享該圖像數(shù)據(jù)的能力。概述提供本概述是為了以簡化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一些概 念。本概述并不旨在標(biāo)識出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助 確定所要求保護(hù)的主題的范圍。此處所描述的自動圖像注釋(AIA)技術(shù)實(shí)施例通常能夠使用語義距離學(xué)習(xí)來自 動注釋圖像。在一示例性實(shí)施例中,提供了一種自動注釋新圖像的技術(shù)。首先輸入訓(xùn)練圖 像集,其中新圖像不在該訓(xùn)練圖像集中。然后用關(guān)鍵字注釋向量來手動注釋每一個訓(xùn)練圖 像。然后將該訓(xùn)練圖像集劃分成訓(xùn)練圖像的多個語義聚類,其中每一個聚類包含在語義上 相似的訓(xùn)練圖像并且每一個訓(xùn)練圖像被劃分到單個聚類中。然后對于每一個聚類學(xué)習(xí)語義 距離函數(shù)(SDF)。然后使用對應(yīng)于每一個聚類的SDF來計(jì)算新圖像和聚類中的每一個訓(xùn)練 圖像之間的成對基于特征的語義距離分?jǐn)?shù),以產(chǎn)生對應(yīng)于該聚類的成對基于特征的語義距 離分?jǐn)?shù)集,其中該集合中的每一個基于特征的分?jǐn)?shù)指定對新圖像和聚類中的特定訓(xùn)練圖像 之間的直觀語義距離的度量。然后使用對應(yīng)于每一個聚類的成對基于特征的語義距離分?jǐn)?shù) 集來為該聚類生成排序列表,該排序列表根據(jù)聚類中的每一個訓(xùn)練圖像離新圖像的直觀語 義距離來對該訓(xùn)練圖像進(jìn)行排序。然后為每一個聚類估算聚類關(guān)聯(lián)概率,該關(guān)聯(lián)概率指定 新圖像在語義上與聚類相關(guān)聯(lián)的概率。對于每一個聚類,然后將對聚類中的每一個訓(xùn)練圖 像的關(guān)鍵字注釋向量概率性地傳播至新圖像,從而產(chǎn)生對該新圖像的聚類專用概率性注釋 向量。最終,使用對應(yīng)于所有聚類的聚類關(guān)聯(lián)概率和聚類專用概率性注釋向量來生成對新 圖像的最終關(guān)鍵字注釋向量。給定已經(jīng)由此處所描述的AIA技術(shù)注釋的圖像的數(shù)據(jù)庫,當(dāng) 用戶期望搜索該數(shù)據(jù)庫并從中檢索包含特定視覺特征的特定圖像時,可使用為圖像生成的 關(guān)鍵字注釋,通過將圖像搜索/檢索過程轉(zhuǎn)換成基于文本的關(guān)鍵字搜索/檢索過程來提高 圖像檢索過程的效率和精確度。此處所描述的語義相對比較分?jǐn)?shù)(RCQ技術(shù)實(shí)施例通常提供比較兩個不同的AIA 算法的注釋精確度的方法。在一示例性實(shí)施例中,提供了一種比較兩個不同的AIA算法的 注釋精確度的技術(shù)。輸入圖像集。然后手動地將地面真值關(guān)鍵字注釋應(yīng)用于集合中的每一 個圖像。然后使用第一 AIA算法來為集合中的每一個圖像生成第一關(guān)鍵字注釋,并且使用 第二 AIA算法來為集合中的每一個圖像自動生成第二關(guān)鍵字注釋。然后,計(jì)算指定對第一 關(guān)鍵字注釋和地面真值關(guān)鍵字注釋之間的語義距離的度量的第一成對語義距離分?jǐn)?shù),并且計(jì)算指定對第二關(guān)鍵字注釋和地面真值關(guān)鍵字注釋之間的語義距離的度量的第二成對語 義距離分?jǐn)?shù)。最終,生成語義相對比較分?jǐn)?shù),該分?jǐn)?shù)通過首先確定集合中的對于其第一分?jǐn)?shù) 小于第二分?jǐn)?shù)的圖像的數(shù)量并且然后將該圖像數(shù)除以集合中的圖像總數(shù),來比較第一和第 二 AIA算法的注釋精確度。除了剛才描述的好處之外,從結(jié)合附圖所考慮的以下詳細(xì)描述中,此處所描述的 AIA技術(shù)和語義RCS技術(shù)實(shí)施例的其它優(yōu)點(diǎn)將變得顯而易見。
參考以下描述、所附權(quán)利要求書以及附圖,將更好地理解此處所描述的自動圖像 注釋(AIA)技術(shù)和語義相對比較分?jǐn)?shù)(RCQ技術(shù)實(shí)施例的具體特征、方面和優(yōu)點(diǎn),附圖中圖1以簡化形式示出了用于使用語義距離學(xué)習(xí)的AIA的多階段過程的示例性實(shí)施 例的圖示。圖2A-2C以簡化形式示出了用于自動注釋新圖像的過程的示例性實(shí)施例。圖3以簡化形式示出了用于比較兩個不同的AIA算法的注釋精確度的過程的示例 性實(shí)施例。圖4以簡化形式示出了構(gòu)成用于實(shí)現(xiàn)此處所描述的AIA技術(shù)實(shí)施例的示例性系統(tǒng) 的基于網(wǎng)絡(luò)的通用計(jì)算設(shè)備的示例性實(shí)施例的圖示。圖5示出了比較由三個不同的圖像注釋算法應(yīng)用于共同圖像的關(guān)鍵字注釋的表 格。詳細(xì)描述在以下對自動圖像注釋(AIA)技術(shù)和語義相對比較分?jǐn)?shù)(RCQ技術(shù)實(shí)施例的描述 中,對附圖進(jìn)行了參考,附圖構(gòu)成了實(shí)施例的一部分且在其中作為說明示出了可在其中實(shí) 踐該技術(shù)的具體實(shí)施例??梢岳斫?,可以使用其它實(shí)施例并且可以做出結(jié)構(gòu)上的改變而不 背離AIA技術(shù)和語義RCS技術(shù)實(shí)施例的范圍。1.0使用語義距離學(xué)習(xí)的AIA的概覽如在數(shù)字圖像處理技術(shù)中所理解的,圖像注釋一般指用于用描述圖像中的一個或 多個低級視覺特征(下文中簡稱為特征)的文本關(guān)鍵字(下文中簡稱為關(guān)鍵字形式的元數(shù) 據(jù)來標(biāo)記(下文中稱為注釋)圖像的方法。另外,AIA—般指用于為特定圖像自動生成這 些關(guān)鍵字元數(shù)據(jù)標(biāo)簽(下文中稱為關(guān)鍵字注釋或簡稱為注釋)的方法。本節(jié)提供了對AIA 技術(shù)實(shí)施例的基本概覽。手動注釋的訓(xùn)練圖像集T可由等式T = {W,...,丨;}來給出,其中Xi是描述第i個 訓(xùn)練圖像(下文中表示為TIi)中的特征的特征向量,而η是τ中的訓(xùn)練圖像的總數(shù)。已經(jīng) 手動地應(yīng)用于Τ中的每一個訓(xùn)練圖像的相關(guān)聯(lián)的關(guān)鍵字注釋集A可由等式義=^f2,...,tn} 來給出,其中、是已經(jīng)手動應(yīng)用于TIi的關(guān)鍵字注釋向量。注意,該關(guān)鍵字注釋集A在此被 認(rèn)為是對訓(xùn)練圖像的地面真值注釋。給定其中詞匯表中的每一個關(guān)鍵字描述不同的特征的 規(guī)定的關(guān)鍵字詞匯表,用詞匯表中的第j個關(guān)鍵字來注釋TIi的概率tjj)可如下給出。如 果1^用詞匯表中的第j個關(guān)鍵字來注釋,則ti(j) = 1,否則ti(j) =0。如在圖像注釋技術(shù)中所理解的,特定圖像可以用單個關(guān)鍵字或多個關(guān)鍵字來注 釋。在對特定訓(xùn)練圖像應(yīng)用多個關(guān)鍵字注釋的情況下,應(yīng)用于該圖像的關(guān)鍵字注釋的總數(shù)一般相對較小。在AIA技術(shù)的已測試實(shí)施例中,T中的每一個訓(xùn)練圖像都用一到五個不同 的關(guān)鍵字來手動注釋,并且對關(guān)鍵字詞匯表采用常規(guī)Corel關(guān)鍵字?jǐn)?shù)據(jù)庫。一般而言,此處 所描述的AIA技術(shù)實(shí)施例使用語義距離學(xué)習(xí)來自動生成對不在T中的新圖像的關(guān)鍵字注釋 向量W。將詞匯表中的第j個關(guān)鍵字關(guān)聯(lián)到新圖像的概率w(j)可由等式w(j) e
來給出。 圖1以簡化形式示出了用于使用語義距離學(xué)習(xí)的AIA的多階段過程的示例性實(shí)施 例的圖示。如圖1所描繪的,該過程一般包括學(xué)習(xí)階段100,之后是新圖像注釋階段102。數(shù) 據(jù)庫104存儲用于以上提到的手動注釋的訓(xùn)練圖像集了及其相關(guān)聯(lián)的關(guān)鍵字注釋集A的數(shù) 字圖像數(shù)據(jù)。 再次參考圖1,學(xué)習(xí)階段100 —般如下操作。首先,語義聚合階段106將數(shù)據(jù)庫104 中的訓(xùn)練圖像集劃分成多個訓(xùn)練圖像語義聚類108/112,其中每一個語義聚類包含在語義 上相似的訓(xùn)練圖像。換言之,語義聚合階段106用于將整個語義空間劃分成多個語義子空 間。注意,語義聚合階段106操作以使得數(shù)據(jù)庫104中的每一個訓(xùn)練圖像都被劃分到單個 語義聚類108/112中。一旦完成語義聚合階段106,語義距離函數(shù)(SDF)學(xué)習(xí)階段114就學(xué) 習(xí)對應(yīng)于每一個訓(xùn)練圖像語義聚類108/112的SDF f⑴116/120,其中一)是為第i個訓(xùn)練 圖像語義聚類學(xué)習(xí)的SDF。一般而言,習(xí)得的SDF f(i)測量第i個語義聚類中的訓(xùn)練圖像對 之間的語義相似度。再次參考圖1,一旦學(xué)習(xí)階段100已經(jīng)完成,新圖像注釋階段102就一般地如下操 作??梢杂靡韵路绞阶詣拥刈⑨尣辉跀?shù)據(jù)庫104中的手動注釋的訓(xùn)練圖像集了中的新圖 像122。首先,對于每一訓(xùn)練圖像語義聚類108/112,圖像排序階段IM —般如下操作???以使用聚類108/112的所學(xué)習(xí)的SDF f⑴116/120來計(jì)算新圖像122和聚類中的每一訓(xùn) 練圖像之間的成對基于特征的語義距離分?jǐn)?shù),以產(chǎn)生該聚類的成對基于特征的語義距離分 數(shù)集。分?jǐn)?shù)集中的每一基于特征的分?jǐn)?shù)指定對新圖像122和聚類108/112中的特定訓(xùn)練 圖像之間的直觀語義距離的度量。然后,可以使用該分?jǐn)?shù)集來生成排序列表126/130,排序 列表U6/130根據(jù)聚類108/112中的每一訓(xùn)練圖像與新圖像122的直觀語義距離對聚類 108/112中的每一訓(xùn)練圖像進(jìn)行排序。然后,可以估算每一聚類108/112的指定新圖像在語 義上與聚類相關(guān)聯(lián)的概率的聚類關(guān)聯(lián)概率P (i) 110/118。一旦圖像排序階段124已經(jīng)完 成,對于每一訓(xùn)練圖像語義聚類108/112,注釋傳播階段132—般如下操作。將聚類108/112 中的每一訓(xùn)練圖像的關(guān)鍵字注釋、概率性地傳播到新圖像122,以產(chǎn)生新圖像的聚類專用 概率性注釋向量《 ) 134/138。然后,通過使用每一訓(xùn)練圖像語義聚類108/112的聚類關(guān)聯(lián) 概率p(i) 110/118來組合140來自所有聚類的聚類專用概率性注釋向量w(i) 134/138,可 以生成新圖像142的最終關(guān)鍵字注釋向量W。再次參考圖1,現(xiàn)在將提供語義聚合階段106、SDF學(xué)習(xí)階段114、圖像排序階段IM 和注釋傳播階段132的示例性實(shí)施例的詳細(xì)描述。將可從以下的詳細(xì)描述明白,由于多種 原因,在此描述的AIA技術(shù)實(shí)施例是有益的,這些原因包括但不限于以下原因。AIA技術(shù)實(shí) 施例并非簡單地基于高維歐幾里得空間中的圖像之間的視覺相似性來判斷圖像之間的語 義相似性。相反,AIA技術(shù)實(shí)施例基于作為整體取得的圖像關(guān)鍵字注釋、來判斷圖像之間 的語義相似性。因而,AIA技術(shù)實(shí)施例改近新圖像142的最終關(guān)鍵字注釋w的精確度,這是 因?yàn)橛慑e誤匹配(即視覺上相似但語義上不相似的兩個圖像)所引入的注釋“噪聲”并不傳播通過學(xué)習(xí)階段100和新圖像注釋階段102。此外,為新圖像142生成的最終關(guān)鍵字注釋 w在語義上相干。在下文中描述AIA技術(shù)實(shí)施例的另外的優(yōu)點(diǎn)。2. 0學(xué)習(xí)階段再次參考圖1,本節(jié)提供上述AIA技術(shù)的學(xué)習(xí)階段100及其相關(guān)聯(lián)的兩個階段 106/114的示例性實(shí)施例的詳細(xì)描述。2. 1訓(xùn)練圖像的語義聚類本節(jié)提供上述AIA技術(shù)的語義聚合階段的示例性實(shí)施例的詳細(xì)描述。重要的是要 注意,歐幾里得空間中特定圖像集之間的視覺相似性并不必定意味著圖像在語義上相似。 相應(yīng)地,語義空間中特定圖像集之間的語義相似性并不必定意味著圖像在歐幾里得空間中 是視覺上相似的??梢酝ㄟ^下列示例來闡釋此現(xiàn)象。給定三個圖像的集合,第一圖像是太 陽的望遠(yuǎn)鏡彩色圖像,該圖像被過濾為將太陽描述為紅橙色的“火球”,第二圖像是單獨(dú)的、 完全成熟的(即紅橙色的)桃子的特寫彩色圖像,且第三圖像是多個半成熟的桃子中的一 個半成熟的(即部分綠色、部分紅橙色)桃子的特寫彩色圖像,第二圖像和第三圖像在語義 上相似但是視覺上不相似。相應(yīng)地,第一圖像和第二圖像視覺上相似但語義上不相似。如 果僅使用歐幾里得空間中的視覺相似性來比較這三個圖像,第一圖像和第二圖像將錯誤匹 配,因而將前述的“噪聲”引入到這些圖像的關(guān)鍵字注釋中,并降低它們的注釋的精確度。還重要的是要注意,包含不同的語義的圖像可以具有不同的語義相似度??梢酝?過下列示例來闡釋此現(xiàn)象。給定包括關(guān)鍵字摩托車和天空的關(guān)鍵字詞匯表以及不同類型的 摩托車的彩色圖像的集合,作為這些摩托車圖像的關(guān)鍵字注釋,形狀特征比顏色特征或紋 理特征更能提供信息。另一方面,給定相同的關(guān)鍵字詞匯表和天空中的不同類型和結(jié)構(gòu)的 散云的彩色圖像的集合,作為這些云/天空圖像的關(guān)鍵字注釋,顏色特征和紋理特征更能 提供信息。為了解決前述的現(xiàn)象,再次參考圖1,語義聚合階段106首先將該訓(xùn)練圖像集劃分 成多個訓(xùn)練圖像語義聚類108/112,其中每一語義聚類包含語義上相似的訓(xùn)練圖像,且將每 一訓(xùn)練圖像被劃分到單個聚類中,而不是僅學(xué)習(xí)100數(shù)據(jù)庫104中的手動注釋的訓(xùn)練圖像 集7"的單個語義相似性。給定數(shù)據(jù)庫104中的訓(xùn)練圖像集Γ的前述的關(guān)鍵字注釋集乂,可以 假設(shè)每一訓(xùn)練圖像的語義可以由圖像的關(guān)鍵字注釋向量、表示而非由其特征向量\表示。 可以做出此假設(shè)是因?yàn)樵谡Z義空間中關(guān)鍵字詞匯表駐留在比特征更高的層面。給定數(shù)據(jù)庫 104中的每一訓(xùn)練圖像的關(guān)鍵字注釋、包括相對少量的關(guān)鍵字的前述事實(shí),可以使用成對 鄰近度聚合技術(shù)來將訓(xùn)練圖像集T劃分成多個訓(xùn)練圖像語義聚類108/112,成對鄰近度聚 合技術(shù)基于由手動地應(yīng)用的每一訓(xùn)練圖像的關(guān)鍵字注釋、指示的語義一般地比較T中的 訓(xùn)練圖像的每一可能對并測量其間的語義相似度。更具體地,此成對鄰近度聚合技術(shù)計(jì)算 數(shù)據(jù)庫104中的訓(xùn)練圖像的每一可能對之間的成對基于注釋的語義距離分?jǐn)?shù)SDO,其中每 一分?jǐn)?shù)SDO指定用于訓(xùn)練圖像的特定對之間的直觀語義距離的度量。在此描述的AIA技 術(shù)實(shí)施例采用兩步聚合方法,現(xiàn)在將詳細(xì)描述其示例性實(shí)現(xiàn)。給定第一訓(xùn)練圖像TI1和第二訓(xùn)練圖像TI2,第一訓(xùn)練圖像TI1已經(jīng)用第一關(guān)鍵字 注釋向量手動地注釋,第一關(guān)鍵字注釋向量由a = ·^^,...,給出,其中叫是^!中的關(guān)鍵 字的總數(shù),第二訓(xùn)練圖像TI2已經(jīng)用第二關(guān)鍵字注釋向量手動地注釋,第二關(guān)鍵字注釋向量由δ = ,...,\I給出,其中η2是卜中的關(guān)鍵字的總數(shù),則TI1和TI2之間的直觀語義距離
可以由DCTI1, TI2)給出。對應(yīng)的指定對DCTI1, TI2)的度量的成對基于注釋的語義距離分 數(shù)SDO由SD(a,b)給出,SD(a,b)可以由以下等式遞歸地計(jì)算
權(quán)利要求
1.一種用來自動地注釋新圖像的計(jì)算機(jī)實(shí)現(xiàn)的過程,包括使用計(jì)算設(shè)備來執(zhí)行以下過 程動作輸入訓(xùn)練圖像集T,其中所述新圖像不在T中; 用關(guān)鍵字注釋向量手動地注釋中的每一訓(xùn)練圖像;將T劃分成多個訓(xùn)練圖像語義聚類:Tw,其中k是唯一地標(biāo)識每一聚類的變量,Tw包 括語義上相似的訓(xùn)練圖像,且將每一訓(xùn)練圖像劃分到單個聚類中; 對每一訓(xùn)練圖像語義聚類, 學(xué)習(xí)7^)的語義距離函數(shù)(SDF) f(k),利用f(k)來計(jì)算所述新圖像和7^)中的每一訓(xùn)練圖像之間的成對基于特征的語義距離 分?jǐn)?shù),以產(chǎn)生Tw的成對基于特征的語義距離分?jǐn)?shù)集,其中所述集合中的每一基于特征的分 數(shù)指定對所述新圖像和CTw中的特定訓(xùn)練圖像之間的直觀語義距離的度量,利用了 w的所述成對基于特征的語義距離分?jǐn)?shù)集來生成Tw的排序列表,其中所述列表 根據(jù)了(/(>中的每一訓(xùn)練圖像與所述新圖像的直觀語義距離來對了㈨中的該訓(xùn)練圖像進(jìn)行排 序,估算的聚類關(guān)聯(lián)概率p(k),其中p(k)指定所述新圖像在語義上與Tw相關(guān)聯(lián)的概 率,并且將丁㈨中的每一訓(xùn)練圖像的所述關(guān)鍵字注釋向量概率性地傳播至所述新圖像,以產(chǎn)生 所述新圖像的聚類專用概率性注釋向量w(k);以及禾IJ用所有訓(xùn)練圖像語義聚類(k)和w(k)來生成所述新圖像的最終關(guān)鍵字注釋向量Wo
2.如權(quán)利要求1所述的過程,其特征在于,每一訓(xùn)練圖像的所述關(guān)鍵字注釋向量充當(dāng)所述圖像的元數(shù)據(jù)標(biāo)簽,所述向量包括一個 或多個文本關(guān)鍵字,其中,從規(guī)定的關(guān)鍵字詞匯表提取所述關(guān)鍵字,并且 每一關(guān)鍵字描述所述圖像中的不同的低級視覺特征。
3.如權(quán)利要求2所述的過程,其特征在于,所述規(guī)定的關(guān)鍵字詞匯表包括Corel關(guān)鍵字 數(shù)據(jù)庫。
4.如權(quán)利要求2所述的過程,其特征在于,每一訓(xùn)練圖像的所述關(guān)鍵字注釋向量包括 一個到五個之間的不同的關(guān)鍵字。
5.如權(quán)利要求1所述的過程,其特征在于,每一訓(xùn)練圖像的語義被假定為由所述圖像 的所述關(guān)鍵字注釋向量表示,且所述將τ劃分成多個訓(xùn)練圖像語義聚類的過程動作包 括以下動作計(jì)算了中的訓(xùn)練圖像的每一可能對之間的成對基于注釋的語義距離分?jǐn)?shù)SDO,其中每 一分?jǐn)?shù)SDO指定對T中的訓(xùn)練圖像的特定對之間的直觀語義距離的度量;以及利用所述分?jǐn)?shù)SDO來將7"中的訓(xùn)練圖像劃分成H個不同的訓(xùn)練圖像語義聚類Tw。
6.如權(quán)利要求5所述的過程,其特征在于,CT中的訓(xùn)練圖像的特定對的所述成對基于注釋的語義距離分?jǐn)?shù)SDO由等式SDkbH^XminSD^M + ^JminSRa,·’6》給/=1 J^·η2 7=1出,其中,a是所述對中的一個圖像的關(guān)鍵字注釋向量,Ii1是a中的關(guān)鍵字的總數(shù),且%是a中的 特定關(guān)鍵字,并且b是所述對中的另一圖像的關(guān)鍵字注釋向量,112是13中的關(guān)鍵字的總數(shù),且…是b中的 特定關(guān)鍵字。
7.如權(quán)利要求6所述的過程,其特征在于,
8.如權(quán)利要求5所述的過程,其特征在于,所述利用所述分?jǐn)?shù)SD()來將7"中的訓(xùn)練圖 像劃分成H個不同的訓(xùn)練圖像語義聚類的過程動作包括以下動作利用恒定移位嵌入架構(gòu)來將T中的訓(xùn)練圖像嵌入到歐幾里得向量空間中;以及 基于所述分?jǐn)?shù)SDO,利用x-means算法來將所嵌入的訓(xùn)練圖像分組成H個不同的訓(xùn)練 圖像語義聚類Tw,其中所述x-means算法自動地確定H的最優(yōu)值。
9.如權(quán)利要求1所述的過程,其特征在于,由等式了二■(&,、,...,給出,η是了中的 訓(xùn)練圖像的總數(shù),Xi是包括包含在所述圖像中的低級視覺特征的第i個訓(xùn)練圖像的特征向 量,TW由等式力“)= WwG1 =P給出,其中nk是P中的訓(xùn)練圖像的數(shù)量,且所述學(xué)習(xí)τ(/ο的 語義距離函數(shù)(SDF)f(k)的過程動作包括以下動作生成:Γ(〃)的松散相對比較約束集尺,其中尺由等式咒= *」}給出,且(xa,xb, xc) 是中的訓(xùn)練圖像的滿足以下兩個條件之一的所有可能的三元組的子集 Xa和&之間的直觀語義距離大于\和、之間的所述距離的第一條件,或 Xa和^之間的直觀語義距離等于^ca和知之間的所述距離但^ca中的特征和^中的特 征之間的差異大于^Ca中的特征和A中的特征之間的差異的第二條件;從尺隨機(jī)地采樣規(guī)定數(shù)量的m個約束以得到由巧(/ = 1,...,/77)給出的7^0的松散相對比 較約束的子集;訓(xùn)練了⑷的m個不同的成對SDFhw,…,C'},其中每一成對SDF/;⑷使用巧來訓(xùn)練;以及 通過計(jì)算所述m個不同的成對SDFj/f),...,Gl的均值來生成f(k)。
10.如權(quán)利要求9所述的過程,其特征在于,每一成對SDFf{k)由等式
11.如權(quán)利要求10所述的過程,其特征在于,所述對角矩陣W使用以下二次規(guī)劃算法來計(jì)算
12.如權(quán)利要求10所述的過程,其特征在于,所述估算聚類關(guān)聯(lián)概率P(k)的過 程動作包括以下動作生成估算丁(/<)中的所述訓(xùn)練圖像的視覺特征的概率密度函數(shù)(PDF);以及 利用所述PDF來估算聚類關(guān)聯(lián)概率ρ (k)。
13.如權(quán)利要求1所述的過程,其特征在于,所述將中的每一訓(xùn)練圖像的所述關(guān)鍵 字注釋向量概率性地傳播至所述新圖像的過程動作包括以下動作利用Tw的所述排序列表來對中的所有訓(xùn)練圖像的所述關(guān)鍵字注釋向量進(jìn)行排序,以產(chǎn)生τ(/ο的由Id^)給出的經(jīng)排序關(guān)鍵字注釋集,其中nk是了⑷中的訓(xùn)練圖像的 總數(shù),且是所述排序列表中的第i個訓(xùn)練圖像的所述關(guān)鍵字注釋向量;利用:Tw的所述排序列表來對所述新圖像和Tw中的每一訓(xùn)練圖像之間的所述成對基 于特征的語義距離分?jǐn)?shù)進(jìn)行排序,以產(chǎn)生了(〃)的由·{《),#>給出的經(jīng)排序的成對基于特征的語義距離分?jǐn)?shù)集,其中Cf >是所述新圖像和所述排序列表中的第i個訓(xùn)練圖像之間 的所述成對基于特征的語義距離分?jǐn)?shù);1 d(k) -a(k)將所述聚類專用概率性注釋向量w(k)計(jì)算
14.如權(quán)利要求13所述的過程,其特征在于,α⑴被設(shè)置為使得
15.如權(quán)利要求13所述的過程,其特征在于,w(k)被歸一化為使得w(k)的L-I范數(shù)是一。
16.如權(quán)利要求1所述的過程,其特征在于,多個訓(xùn)練圖像語義聚類Tw包括H個不同的聚類,所述新圖像的最終關(guān)鍵字注釋向量w由等式W = & * 給出,并且 *表示各向量之間的元素級積。
17.一種用于比較兩種不同的自動圖像注釋(AIA)算法的注釋精確度的計(jì)算機(jī)實(shí)現(xiàn)的 過程,包括使用計(jì)算設(shè)備來執(zhí)行以下過程動作輸入圖像集T ;手動地將地面真值關(guān)鍵字注釋應(yīng)用到T中的每一圖像,其中T包括由η給出的圖像總數(shù);利用第一 AIA算法來自動地生成T中的每一圖像的第一關(guān)鍵字注釋; 利用第二 AIA算法來自動地生成T中的每一圖像的第二關(guān)鍵字注釋; 計(jì)算T中的每一圖像的第一成對語義距離分?jǐn)?shù)SD (),其中所述第一分?jǐn)?shù)SD ()指定對所 述第一關(guān)鍵字注釋和所述地面真值關(guān)鍵字注釋之間的語義距離的度量;計(jì)算T中的每一圖像的第二成對語義距離分?jǐn)?shù)SD (),其中所述第二分?jǐn)?shù)SD ()指定對所 述第二關(guān)鍵字注釋和所述地面真值關(guān)鍵字注釋之間的所述語義距離的度量;以及通過首先確定T中的對于其所述第一分?jǐn)?shù)SDO小于所述第二分?jǐn)?shù)SDO的圖像的數(shù) 量,且然后將所述圖像的數(shù)量除以η,來生成比較所述第一 AIA算法和所述第二 AIA算法的 注釋精確度的語義相對比較分?jǐn)?shù)(RCS)。
18.如權(quán)利要求17所述的過程,其特征在于,只要所述語義RCS大于0. 5,AIA算法1的注釋精確度就大于AIA算法2的注釋精確度,只要所述語義RCS小于0. 5,所述AIA算法2的注釋精確度就大于所述AIA算法1的注 釋精確度,并且只要所述語義RCS等于0. 5,所述AIA算法1和所述AIA算法2的注釋精確度就相等。
19.如權(quán)利要求17所述的過程,其特征在于,T中的每一圖像的所述成對語義距離分?jǐn)?shù)SDO 由等式
20. 一種用于自動地注釋新圖像的計(jì)算機(jī)實(shí)現(xiàn)的過程,包括使用計(jì)算設(shè)備來執(zhí)行以下 過程動作輸入訓(xùn)練圖像集T,其中所述新圖像不在Γ中;用包括一個或多個文本關(guān)鍵字的注釋向量手動地注釋T中的每一訓(xùn)練圖像,其中每一 關(guān)鍵字描述所述圖像中的不同的低級視覺特征;計(jì)算T中的訓(xùn)練圖像的每一可能對之間的成對基于注釋的語義距離分?jǐn)?shù); 利用恒定移位嵌入架構(gòu)來將了中的訓(xùn)練圖像嵌入到歐幾里得向量空間中; 利用x-means x-means算法來基于所述基于注釋的分?jǐn)?shù)將所嵌入的訓(xùn)練圖像分組成H 個不同的訓(xùn)練圖像語義聚類Tw,其中k是唯一地標(biāo)識每一聚類^)的變量; 對于每一訓(xùn)練圖像語義聚類CTw,生成”/0的松散相對比較約束集尺,其中”)由等式了⑷=·^’二給出,;^是”/o中的第i個訓(xùn)練圖像的特征向量,nk是?、戎械挠?xùn)練圖像的數(shù)量,尺由等式尺=Ml^XJM 出,且(xa,xb, xc)是中的訓(xùn)練圖像的滿足以下兩個條件之一的所有可能的三元組的子 集Xa和^之間的直觀語義距離大于^ca和知之間的所述距離的第一條件,或者 Xa和^之間的直觀語義距離等于^ca和知之間的所述距離但^ca中的特征和^中的特 征之間的差異大于^Ca中的特征和A中的特征之間的差異的第二條件,從尺隨機(jī)地采樣規(guī)定數(shù)量的m個約束以得到由巧(/…,…,叫給出的了⑷的松散相對比 較約束的子集,訓(xùn)練7^)的m個不同的成對語義距離函數(shù)(SDF) {f,(k)d,其中每一成對SDF/;㈨使 用^來訓(xùn)練,通過計(jì)算所述m個不同的成對SDF {flk),...,G”的平均值來生成:Γ⑷的SDF f⑷,利用f(k)來計(jì)算所述新圖像和7^)中的每一訓(xùn)練圖像之間的成對基于特征的語義距離 分?jǐn)?shù),以產(chǎn)生7^)的成對基于特征的語義距離分?jǐn)?shù)集,利用滬/0的所述成對基于特征的語義距離分?jǐn)?shù)集來生成了㈨的排序列表,其中所述列表 根據(jù)Tw中的每一訓(xùn)練圖像與所述新圖像的直觀語義距離來對7^)中的該訓(xùn)練圖像進(jìn)行排 序,生成估算Tw中的訓(xùn)練圖像的所述視覺特征的概率密度函數(shù)(PDF), 利用所述PDF來估算?、淼木垲愱P(guān)聯(lián)概率P (k),其中ρ (k)指定所述新圖像在語義上與 Tw相關(guān)聯(lián)的概率,利用Tw的所述排序列表來對Tw中的所有訓(xùn)練圖像的所述注釋向量進(jìn)行排序,以產(chǎn)生的由廣,...O合出的經(jīng)排序注釋集合,其中廣>是排序列表中的第i個訓(xùn)練圖像的 所述注釋向量,利用Tw的所述排序列表來對所述新圖像和Tw中的每一訓(xùn)練圖像之間的所述成對基 于特征的語義距離分?jǐn)?shù)進(jìn)行排序,以產(chǎn)生了⑷的由Id1(K),...,<1給出的經(jīng)排序的成對基 于特征的語義距離分?jǐn)?shù)集,其中of)是所述新圖像和所述排序列表中的第i個訓(xùn)練圖像之間 的所述成對基于特征的語義距離分?jǐn)?shù), 將所述新圖像的聚類專用概率性注釋向量w(k)計(jì)算為
全文摘要
圖像使用語義距離學(xué)習(xí)來自動注釋。手動注釋訓(xùn)練圖像并將其劃分成語義聚類。對于這些聚類學(xué)習(xí)語義距離函數(shù)(SDF)。使用對應(yīng)于每一個聚類的SDF來計(jì)算新圖像和聚類中的每一個圖像之間的語義距離分?jǐn)?shù)。使用對應(yīng)于每一個聚類的分?jǐn)?shù)來生成根據(jù)聚類中的每一個圖像離新圖像的語義距離來對該訓(xùn)練圖像進(jìn)行排序的排序列表。為每一個聚類估算關(guān)聯(lián)概率,該關(guān)聯(lián)概率指定新圖像在語義上與聚類相關(guān)聯(lián)的概率。從對每一個聚類中的圖像的手動注釋中生成對新圖像的聚類專用概率性注釋。使用對應(yīng)于所有聚類的關(guān)聯(lián)概率和聚類專用概率性注釋來生成對新圖像的最終注釋。
文檔編號G06F17/30GK102119389SQ200980131706
公開日2011年7月6日 申請日期2009年6月11日 優(yōu)先權(quán)日2008年6月11日
發(fā)明者S·李, T·梅, X-S·華, Y·王 申請人:微軟公司