欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大規(guī)模圖像注釋的統(tǒng)計方法

文檔序號:6594445閱讀:206來源:國知局
專利名稱:大規(guī)模圖像注釋的統(tǒng)計方法
大規(guī)模圖像注釋的統(tǒng)計方法背景隨著廉價的數(shù)碼相機(jī)、照相機(jī)電話和其他成像設(shè)備的出現(xiàn),拍攝并張貼到因特網(wǎng) 上的數(shù)字圖像的數(shù)量顯著地增長。然而,為了使用這些圖像,必須標(biāo)識和組織它們從而使得 可以瀏覽、搜索或檢索這些圖像。一個解決方案是手動圖像注釋,其中人在拍攝、上傳或登記圖像時手動地輸入描 述性文本或關(guān)鍵詞。雖然手動圖像注釋一般非常準(zhǔn)確(例如,人們一般選擇準(zhǔn)確描述),但 手動圖像注釋是耗時的且因此許多數(shù)字圖像未被注釋。另外,手動圖像注釋可能是主觀的, 因?yàn)樽⑨寛D像的人可能不考慮圖像的關(guān)鍵特征(例如,人們通常基于圖像中的人、圖像被 拍攝的時間、或圖像的位置來注釋圖像)。另一個解決方案是用關(guān)鍵詞自動地注釋圖像的自動圖像注釋。一般而言,自動圖 像注釋是基于分類的或基于概率模型的?;诜诸惖姆椒ㄔ噲D通過學(xué)習(xí)分類器(例如,貝 葉斯點(diǎn)機(jī)、支持矢量機(jī)等等)來將詞或概念進(jìn)行關(guān)聯(lián)。而概率模型方法試圖推斷圖像和注 釋之間的相關(guān)或聯(lián)合概率(例如,翻譯模型、跨媒體相關(guān)性模型、連續(xù)相關(guān)性模型等等)。雖然基于分類的和基于概率的圖像注釋算法能夠注釋小規(guī)模的圖像數(shù)據(jù)庫,但它 們一般不能注釋具有真實(shí)圖像(例如,數(shù)字圖片)的大規(guī)模數(shù)據(jù)庫。此外,這些圖像注釋算法一般不能夠注釋所有不同類型的真實(shí)圖像。例如,許多個 人圖像不包含文本信息,而web圖像可以包含不完整的或錯誤的文本信息。雖然當(dāng)前的圖 像注釋算法能夠注釋個人圖像或web圖像,但這些算法通常不能夠同時注釋這兩種類型的 圖像。此外,在真實(shí)圖像的大規(guī)模集合中,可以作為注釋標(biāo)記來跨多個圖像應(yīng)用的概念 的數(shù)量幾乎是無限的,并且取決于注釋策略。因此,為了注釋大規(guī)模的真實(shí)圖像集合,注釋 方法應(yīng)該能夠處理多個圖像中可能出現(xiàn)的無限的概念和主題。最后,鑒于每天正在生成的相當(dāng)大的數(shù)量的圖像,注釋方法必須既快速又高效。例 如,每一天幾乎有一百萬幅數(shù)字圖像被上傳到FLICKR 圖像共享網(wǎng)站上。為了每天注釋 一百萬幅圖像,必須每秒注釋十幅左右的圖像。因?yàn)樽罴褕D像注釋算法大約在1.4秒內(nèi)注 釋一幅圖像,所以無法注釋每天生成的大量圖像。因此,需要一種可以注釋包含無限數(shù)量的視覺概念的所有類型的真實(shí)生活圖像并 可以幾乎實(shí)時地注釋圖像的大規(guī)模圖像注釋技術(shù)。概述提供本概述以便介紹將在以下詳細(xì)描述中進(jìn)一步描述的與自動化圖像注釋有關(guān) 的簡化概念。本概述并不旨在標(biāo)識所要求保護(hù)的主題的必要特征,也不旨在用于確定所要 求保護(hù)的主題的范圍。在一方面,一種注釋圖像的方法可以包括編譯來自多個圖像的視覺特征和文本信 息、散列圖像視覺特征、并基于其散列值對圖像聚類。隨后從所聚類的圖像中構(gòu)建統(tǒng)計語言 模型,并使用統(tǒng)計語言模型中的一個來注釋圖像。在另一方面,一種包括在由處理器執(zhí)行時可以執(zhí)行一種方法的計算機(jī)可執(zhí)行指令的計算機(jī)可讀存儲介質(zhì),該方法包括爬行大規(guī)模圖像數(shù)據(jù)庫來收集圖像及其相應(yīng)的文本信 息。隨后使用灰塊方法從圖像中提取視覺信息,并且通過采用投影矩陣來縮減所提取的圖 像。散列經(jīng)縮減的視覺信息,并根據(jù)其散列值對圖像聚類。從所聚類的圖像中構(gòu)建一個或 多個統(tǒng)計語言模型,并且使用統(tǒng)計語言模型中的一個或多個來注釋查詢圖像。在又一方面,一種項記錄數(shù)據(jù)結(jié)構(gòu)具體化在計算機(jī)可讀介質(zhì)上,該數(shù)據(jù)結(jié)構(gòu)由數(shù) 字圖像和對應(yīng)于該數(shù)字圖像的文本注釋構(gòu)成。通過編譯來自多個圖像的視覺特征和文本信 息、散列圖像視覺特征、并基于散列值對圖像聚類來將文本注釋與數(shù)字圖像相關(guān)聯(lián)。隨后基 于所聚類的圖像構(gòu)建統(tǒng)計語言模型,并使用統(tǒng)計語言模型中的一個來注釋圖像。雖然單獨(dú)地描述上述各方面,但它們不是相互排斥的,并且給定實(shí)現(xiàn)中可以出現(xiàn) 任意數(shù)量的方面。附圖簡述參考附圖闡述詳細(xì)描述。在附圖中,附圖標(biāo)記中最左邊的數(shù)字標(biāo)識該附圖標(biāo)記首 次出現(xiàn)的附圖。在不同附圖中使用相同的附圖標(biāo)記指示相似或相同的項。

圖1是示出大規(guī)模圖像注釋技術(shù)的一個實(shí)現(xiàn)的框圖。圖2是示出可以如何使用web爬行器來收集圖像及其附隨注釋并將其存檔到數(shù)據(jù) 庫中的圖示。圖3是示出可以如何縮減數(shù)字圖像的視覺特征、如何將經(jīng)縮減的特征分組成各個 聚類、并且隨后基于聚類開發(fā)統(tǒng)計語言模型的框圖。圖4是描繪了注釋個人圖像的說明性方法的框圖。圖5是描繪了注釋web圖像的說明性方法的流程圖。詳細(xì)描述在理論上的理想情形中,給定無限規(guī)模的注釋良好的圖像數(shù)據(jù)庫,圖像注釋是相 對直接的。對于給定查詢圖像,在圖像數(shù)據(jù)庫中找到準(zhǔn)確的復(fù)制品并將該圖像的注釋傳播 到該查詢圖像。然而,在“真實(shí)世界”中,圖像數(shù)據(jù)庫一般在規(guī)模上是有限的并且包含許多不準(zhǔn)確 的描述。因此,“真實(shí)世界圖像數(shù)據(jù)庫”中的圖像通常根據(jù)圖像的相似性被分組成各個聚類。 隨后對于給定查詢圖像,選擇最相似的圖像聚類并選擇與該圖像聚類相關(guān)聯(lián)的“最佳描述” 來注釋該查詢圖像。雖然這些常規(guī)成像注釋算法能夠注釋大部分圖像,但仍然存在很大的 改進(jìn)空間。本公開涉及大規(guī)模圖像注釋的各種統(tǒng)計方法。這些統(tǒng)計方法可以注釋一般具有有 限注釋或沒有注釋的個人圖像以及一般具有噪聲和不完整注釋的基于web的圖像。在一個 實(shí)現(xiàn)中,圖像注釋技術(shù)充分利用大規(guī)?;趙eb的圖像數(shù)據(jù)庫來對幾乎無限數(shù)量的語義概 念進(jìn)行建模。圖1示出大規(guī)模圖像注釋技術(shù)的一個實(shí)現(xiàn)100。首先,爬行大規(guī)模數(shù)據(jù)庫102,并 且提取視覺特征和文本信息兩者并將其作為結(jié)構(gòu)數(shù)據(jù)(即,訓(xùn)練集)來索引104。通過將高 維圖像特征投影到具有低維度的子空間中來降低圖像數(shù)據(jù)的復(fù)雜性,同時保持大部分的圖 像信息106。隨后將高效的基于散列的聚類算法應(yīng)用于訓(xùn)練集并將帶有相同散列代碼的圖 像分組成“聚類” 108。一旦圖像被聚類成組110之后,開發(fā)統(tǒng)計語言模型(SLM)來對來自 每一聚類中的圖像的文本信息建模112。
為了注釋圖像,選擇查詢圖像114并且提取其視覺特征(例如,色彩、紋理、幾何特 征等等)和文本特征(例如,標(biāo)題、關(guān)鍵詞、URL、環(huán)繞文本等等)116。對查詢圖像的特征進(jìn) 行散列118并基于具有與查詢圖像的最大聯(lián)合概率的詞來選擇120語言模型。隨后基于與 所選語言模型122相關(guān)聯(lián)的文本、標(biāo)題、注釋、和/或關(guān)鍵詞來注釋122圖像。從web收集圖像參考圖2,在一個實(shí)現(xiàn)中,使用web爬行器從因特網(wǎng)收集圖像202連同其文本、標(biāo) 題、注釋、和/或關(guān)鍵詞204并將其存檔到數(shù)據(jù)庫206中。一般而言,可以收集盡可能多的圖 像,因?yàn)榇蟮臉颖敬笮〈_保視覺模型和查詢圖像之間的良好相關(guān)性。例如,在一個實(shí)現(xiàn)中, 從在線照片論壇(例如,僅舉幾個例子,GOOGLE IMAGES 、YAHOO IMAGE SEARCH 、和華盛頓 大學(xué)圖像數(shù)據(jù)集)收集240萬幅左右?guī)в杏幸饬x描述的高質(zhì)量web圖像?;蛘?,可以隨機(jī)地從因特網(wǎng)或其他源收集經(jīng)注釋的圖像并將其匯集成圖像集合。 一般而言,只要任何類型的圖像用某種形式的文本、標(biāo)題、注釋、或關(guān)鍵詞來注釋,便可以收 集這些圖像。隨后可以在數(shù)據(jù)庫中索引圖像及相關(guān)聯(lián)的文本或關(guān)鍵詞。存在可以索引圖像202 和文本204的許多方式(例如,僅舉幾個例子,按關(guān)鍵詞、文本串、圖像特征)。在一個實(shí)現(xiàn) 中,圖像根據(jù)關(guān)鍵詞或與圖像202相關(guān)聯(lián)的文本204來排序和分組。例如,如果存在包含日 落的多個圖像,則這些圖像可以被索引和分組在一起208。維數(shù)縮減傳統(tǒng)的聚類算法是耗時的并且在計算上是低效的,因?yàn)閿?shù)字圖像一般是復(fù)雜的 (例如,高維度)。因此,本示例性技術(shù)采用了所收集的圖像的緊湊表示來實(shí)現(xiàn)快速且高效 的圖像聚類。維數(shù)縮減的一個目的是降低圖像數(shù)據(jù)的復(fù)雜性同時保持盡可能多的原始信息。維 數(shù)縮減的第二個目的是通過略去最低有效的維數(shù)來減少噪聲和值漂移。在以下說明性技術(shù) 中實(shí)現(xiàn)這兩個目的。參考圖3,圖像的視覺特征一般應(yīng)該表示其內(nèi)容、其結(jié)構(gòu),并且對于圖像本身的變 型(例如,僅舉幾個例子,縮放、色彩、存儲格式)是穩(wěn)健的。因此,可以采用灰塊方法?;?塊特征可以表現(xiàn)為原始圖像的小的縮略圖?;覊K方法保持圖像主要內(nèi)容和結(jié)構(gòu),并且對于 比例改變是不變的。每一特征向量是許多單獨(dú)像素的平均,所以該方法對于像素值的變化 是穩(wěn)健的。此外,因?yàn)槊恳幌蛄刻卣魇腔趫D像的亮度的,所以該方法對色彩變化也是穩(wěn)健 的。在一個實(shí)現(xiàn)中,在框302處,將每一收集的圖像分成8x8的像素塊并且為每一塊計 算平均亮度“L”。每一特征的第K維數(shù)值可以被計算為Λ =17- Σ 1^i'J^k = \,2,...,n2 門)
Νk IJeBkV '其中4對應(yīng)于塊k,Nk是4中的像素數(shù)量,而L(i,j)是坐標(biāo)i,j處的像素亮度。 因此,圖像由向量Fi= (f1;f2,f3,…,fnJT表示。在替換實(shí)現(xiàn)中,圖像可以被劃分成7x 7 的灰塊、9x 9的灰塊、或任何其他合適數(shù)量的特征向量。隨后在框304處可以將高維特征投影到帶有低得多的維數(shù)的子空間中,同時保持 大部分圖像信息。在一個實(shí)現(xiàn)中,圖像的維數(shù)通過采用投影矩陣“A”來縮減。
Gi=AFi(2)為了確定投影矩陣A,對足夠大的圖像集合的特征矩陣執(zhí)行主分量分析(PCA)。隨 后可以對圖像向量排序并且保留對應(yīng)于最大本征值的向量來形成投影矩陣A。應(yīng)該注意,投 影矩陣對于大部分灰塊圖像一般是相同的。雖然通過該技術(shù)圖像可能丟失某些信息,但已 經(jīng)證明,實(shí)現(xiàn)了高精度和快速的聚類分組。通過散列來聚類聚類是基于對象成員之間的高度相似性將對象分類到各類、各類別、或分區(qū)中。在 一個實(shí)現(xiàn)中,在框306處將基于散列的聚類算法應(yīng)用于訓(xùn)練集。這種散列代碼生成本質(zhì)上 是向量量化過程。因?yàn)樽詈罅炕南蛄烤哂蠯位,所以將位分配到每一維度的方法是重要 的。在一個實(shí)現(xiàn)中,對于具有大于“平均k”的值的圖像向量,該圖像向量具有值“1”,而對于 具有小于“平均k”的值的圖像向量,圖像向量具有值“0” Hijk = 1 如果 Gik > / =平均 k(3)= 0 如果 Gik <平均 k其中平均k是維數(shù)K的平均值。通過采用這種技術(shù),K維特征向量被轉(zhuǎn)換成K位二 進(jìn)制串,即變成了圖像散列代碼。在一個實(shí)現(xiàn)中,K位串被約束為不超過32位,但也可以采用其他位串大小,諸如64 位。隨后在框308處將具有相同32位散列代碼的圖像分組成“聚類”。構(gòu)建統(tǒng)計語言模型一旦圖像被聚類成各個組之后,可以在框310處開發(fā)統(tǒng)計語言模型(SLM)來對來 自每一聚類中的圖像的文本信息建模??梢詷?gòu)造單元語法模型和經(jīng)修改的雙元語法模型來 為圖像聚類中的每一個計算單個詞概率和條件詞概率。一般而言,個人圖像可能缺少文本信息或注釋,并因此通過采用概率方法來注釋。 具體而言,查詢圖像可以通過選擇具有與該查詢(即目標(biāo))圖像的最大聯(lián)合概率的關(guān)鍵詞、 短語、或文本來注釋,如以下等式(4)所示。單元語法模型假定特定文本段或關(guān)鍵詞由每一術(shù)語獨(dú)立地生成。因此,單元語法 模型計算特定關(guān)鍵詞、短語或文本與查詢圖像相關(guān)聯(lián)的概率。w* = arg maxw{p(w, I)}(4)= arg maxw{ Σ cp (w/c) ρ (I/c) ρ (c)}在等式(4)中,p(w/c)是單元語法詞概率(即,關(guān)鍵詞、短語或術(shù)語“W”出現(xiàn)在圖 像聚類“C”中的概率),p(I/c)是查詢圖像“I”和圖像聚類“C”之間的視覺相似性,而p(c) 是聚類“C”的先驗(yàn)概率,該先驗(yàn)概率常常在預(yù)先不知道先驗(yàn)信息的情況下被統(tǒng)一初始化。例如,如果聚類中有十個圖像并且兩個關(guān)鍵詞與該聚類相關(guān)聯(lián)。如果第一關(guān)鍵詞 出現(xiàn)在五個圖像中而第二關(guān)鍵詞出現(xiàn)在兩個圖像中;則第二關(guān)鍵詞應(yīng)該與查詢圖像相關(guān)聯(lián) 的概率為2/7( %)而第一關(guān)鍵詞應(yīng)該與查詢圖像相關(guān)聯(lián)的概率為5/7(71%)。因此,與 第二關(guān)鍵詞相比,因?yàn)榈谝魂P(guān)鍵詞具有與查詢圖像相關(guān)聯(lián)的更大概率(即,71%對四%); 所以使用第一關(guān)鍵詞來注釋該查詢圖像。在一替換實(shí)現(xiàn)中,選擇其視覺特征與查詢圖像最相似的圖像聚類,并且使用其關(guān) 鍵詞、短語和/或術(shù)語來注釋查詢圖像。一般而言,由于聚類中的圖像的數(shù)量少,所以聚類中的詞的數(shù)量是有限的。因此,
7當(dāng)存在有限數(shù)量的詞時,單元語法模型可以使用貝葉斯模型使用狄利克雷(Dirichlet)先 驗(yàn)來平滑。(5)此處,p(w/C)是指定關(guān)鍵詞“W”出現(xiàn)在標(biāo)準(zhǔn)語料庫“C”中的的單元語法概率。一般而言,典型的web圖像包含噪聲和不完整的文本信息。因此,可以采用兩步概 率模型來注釋web圖像。首先,使用等式(6)來排序可用文本“n”,并且丟棄可能是噪聲的排序最低的詞。 隨后將排序最高的詞用作候選注釋“η*”。η* = arg maxn{p(n, I)}(6)= arg maxn { Σ cp (n/c) ρ (I/c) ρ (c)}在等式(6)中,ρ (η, I)是關(guān)鍵詞、短語和/或術(shù)語“η”與web圖像“I”相關(guān)聯(lián)的 概率,p(n/c)是術(shù)語“η”與圖像聚類“C”相關(guān)聯(lián)的概率,而p(I/c)是web圖像“I”與圖像 聚類“C”相關(guān)聯(lián)的概率。接著,獲得新的注釋“7”并且通過確定每一候選注釋的平均條件概率ρ (w, I/n*) 來將注釋排序。隨后可以選擇具有最高平均條件概率的候選注釋來注釋web圖像。w* = arg maxw {ρ (w, I/n*)}(7)w* = arg maxn{ Σ cp (w/c)p (n*/w, c)p (I/c)p (n*/I, c)p (c)}在等式(7)中,p(n7w, c)是雙元語法詞概率(即,給定 ”已經(jīng)與圖像聚類“C” 相關(guān)聯(lián)的情況下,每一關(guān)鍵詞、術(shù)語或注釋“η*”與圖像聚類“C”相關(guān)聯(lián)的平均條件概率)。例如,如果web圖像是帶有云的天空的圖片并用“天空”來注釋。帶有注釋“天空” 和“云”的聚類將具有這些注釋與該圖像相關(guān)的高概率。而帶有注釋“水”和“天空”的聚類 將具有較低的概率并因此被丟棄。注釋圖像因?yàn)橥ǔV皇褂蒙倭康木垲惸P蛠碛嬎懵?lián)合概率,所以本示例性圖像注釋技術(shù)是 高效的并且不會引入噪聲信息。對于個人圖像注釋,選擇在視覺上與圖像相似的聚類模型。因此,基于最接近的視 覺圖像模型來注釋個人圖像而不考慮文本相似性。圖4示出根據(jù)一個實(shí)現(xiàn)的用于注釋個人圖像的說明性方法400。術(shù)語“個人圖像” 應(yīng)該被寬泛地解釋并且一般是不具有諸如關(guān)鍵詞、標(biāo)簽、文本信息等文本信息的任何圖像。 在框402處,個人圖像可以從網(wǎng)站下載、從計算設(shè)備(例如,僅舉幾個例子,個人計算機(jī)、數(shù) 碼相機(jī)、電視電話、個人數(shù)字助理)檢索、從硬拷貝掃描、或從任何其他數(shù)字圖像的源獲得?!┻x擇了個人圖像(即,查詢圖像),在框404處可以使用灰塊技術(shù)提取其視覺 特征。在一個實(shí)現(xiàn)中,查詢圖像被分成8x 8的塊并且為每一塊計算平均亮度“L”。查詢圖 像隨后基于平均亮度值Fi = (fi;f2,f3,…,表示為K階向量。在一替換實(shí)現(xiàn)中,圖 像可以被劃分成7x 7的灰塊、9x 9的灰塊、或任何其他合適數(shù)量的灰塊。向量圖像隨后可以通過采用投影矩陣來縮減。投影矩陣“A”通過對特征矩陣執(zhí)行 主分量分析(PCA)來確定。隨后對圖像向量排序并且保留對應(yīng)于最大本征值的向量來形成 投影矩陣A。
接著在框406處,可以對查詢圖像執(zhí)行高效的基于散列的聚類算法。在一個實(shí)現(xiàn) 中,計算圖像向量的平均值“平均k”并且對值大于平均k的圖像向量賦值1而對值小于平 均k的圖像向量賦值0。這將K維圖像向量變換成K位二進(jìn)制串,即變成了查詢圖像散列代 碼。隨后將查詢圖像的散列代碼與各圖像聚類的散列代碼進(jìn)行比較。在框408處,選 擇具有與查詢圖像相同的散列代碼的聚類。最后在框410處,使用所選聚類的注釋來注釋查詢圖像。對于web圖像,可以選擇既在文本上與web圖像文本信息相似又在視覺上與web 圖像相似的聚類模型。圖5示出根據(jù)一個實(shí)現(xiàn)的用于注釋web圖像的說明性方法500。術(shù) 語“web圖像”應(yīng)該被寬泛地解釋并且一般是具有諸如關(guān)鍵詞、標(biāo)簽、文本信息等文本信息 的任何圖像。在框502處,像個人圖像一樣,web圖像可以從因特網(wǎng)網(wǎng)站下載、從計算設(shè)備 (例如,僅舉幾個例子,個人計算機(jī)、數(shù)碼相機(jī)、電視電話、個人數(shù)字助理)檢索、從硬拷貝掃 描、或從任何其他數(shù)字圖像的源獲得。一旦選擇了 web圖像(即,查詢圖像),在框504處使用灰塊技術(shù)提取圖像的視覺 特征并且通過采用投影矩陣縮減向量圖像。相關(guān)聯(lián)的文本特征被記錄在數(shù)據(jù)庫中或其他形 式的檔案中。通過使用圖像向量的平均值“平均k”來計算查詢圖像的散列值,并且對值大于平 均k的圖像向量賦值1而對值小于平均k的圖像向量賦值0。在框506處,這將K維圖像向 量變換成K位二進(jìn)制串,即變成了查詢圖像散列代碼。使用兩步概率模型來注釋web圖像。首先,可以基于查詢圖像“I”與圖像聚類“C” 相關(guān)聯(lián)的概率(即,P (I/c))以及文本η與聚類C相關(guān)聯(lián)的概率(即,ρ (n/c))來對可用文 本“η”排序。在框508處,丟棄排序最低的詞并將排序最高的詞用作候選注釋η*。獲得新的候選注釋“7”并且通過計算每一候選注釋的平均條件概率P (w,Ι/η;) 來將候選注釋排序。在框510處,選擇具有最大平均條件概率的候選注釋?,來注釋web 圖像。結(jié)論盡管用結(jié)構(gòu)特征和/或方法動作專用的語言描述了各個實(shí)現(xiàn),但可以理解,所附 權(quán)利要求書中定義的發(fā)明不必限于上述具體特征或動作。相反,這些具體特征和動作是作 為實(shí)現(xiàn)權(quán)利要求的本發(fā)明的說明性形式而公開的。
權(quán)利要求
1.一種注釋圖像的方法,包括編譯來自多個圖像的視覺特征和文本信息(104,504);散列所述多個視覺特征,并且基于所述散列值對所述多個圖像聚類(108,306,308);基于所聚類的圖像構(gòu)建一個或多個統(tǒng)計語言模型(110,112);以及使用所述統(tǒng)計語言模型中的一個或多個來注釋所述圖像(122)。
2.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述多個圖像通過爬行一個或 多個大規(guī)模圖像數(shù)據(jù)庫來收集。
3.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,散列所述多個視覺特征包括向 量量化過程,其中所述視覺特征被轉(zhuǎn)換成二進(jìn)制串。
4.如權(quán)利要求1所述的注釋圖像方法,其特征在于,將帶有相同散列代碼的圖像分組 成各個聚類。
5.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述一個或多個統(tǒng)計語言模型 是單元語法模型。
6.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述一個或多個統(tǒng)計語言模型 是雙元語法模型。
7.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述圖像是個人圖像,并且所述 圖像通過選擇帶有所述圖像和所聚類的圖像之間的最大聯(lián)合概率的詞來注釋。
8.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,所述圖像是web圖像,并且所述 圖像通過兩步概率建模技術(shù)來注釋。
9.如權(quán)利要求1所述的注釋圖像的方法,其特征在于,還包括通過使用灰塊方法從所 述多個圖像中提取視覺信息。
10.如權(quán)利要求9所述的注釋圖像的方法,其特征在于,所述灰塊方法包括將所述圖像劃分成相等大小的塊,測量每一塊的平均亮度,以及將所述圖像表示為向量。
11.如權(quán)利要求9所述的注釋圖像的方法,其特征在于,還包括通過采用投影矩陣來縮 減所述多個圖像的視覺信息。
12.一種包括在由處理器執(zhí)行時執(zhí)行如權(quán)利要求1-11所述的方法的計算機(jī)可執(zhí)行指 令的計算機(jī)可讀存儲介質(zhì)。
13.一種具體化在計算機(jī)可讀介質(zhì)上的表示項目錄中的項的數(shù)據(jù)結(jié)構(gòu),所述數(shù)據(jù)結(jié)構(gòu) 包括數(shù)字圖像O02);以及對應(yīng)于所述數(shù)字圖像的文本注釋004),所述文本注釋通過以下動作與所述數(shù)字圖像 相關(guān)聯(lián)編譯來自多個圖像的視覺特征和文本信息(104,504);散列所述多個視覺特征,并且基于所述散列值對所述多個圖像聚類(108,306,308);基于所聚類的圖像構(gòu)建一個或多個統(tǒng)計語言模型(110,112);以及使用所述統(tǒng)計語言模型中的一個或多個來注釋所述圖像(122)。
14.如權(quán)利要求13所述的具體化在計算機(jī)可讀介質(zhì)上的表示項目錄中的項的數(shù)據(jù)結(jié)構(gòu),其特征在于,所述多個圖像通過爬行一個或多個大規(guī)模圖像數(shù)據(jù)庫來收集。
15.如權(quán)利要求13所述的具體化在計算機(jī)可讀介質(zhì)上的表示項目錄中的項的數(shù)據(jù)結(jié) 構(gòu),其特征在于,還包括通過使用灰塊方法從所述多個圖像中提取視覺信息。
全文摘要
描述了大規(guī)模圖像注釋的統(tǒng)計方法。一般而言,注釋技術(shù)包括編譯來自多個圖像的視覺特征和文本信息、散列圖像視覺特征、并基于其散列值對圖像聚類。一個示例系統(tǒng)從所聚類的圖像中構(gòu)建統(tǒng)計語言模型,并且通過應(yīng)用統(tǒng)計語言模型中的一個來注釋圖像。
文檔編號G06F17/00GK102112987SQ200980131159
公開日2011年6月29日 申請日期2009年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者M·李, X·芮 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
江安县| 芮城县| 武宁县| 深州市| 五原县| 夹江县| 六盘水市| 兴化市| 丹寨县| 大新县| 玉溪市| 萝北县| 阿克苏市| 城步| 樟树市| 崇义县| 冀州市| 平顺县| 剑川县| 大洼县| 霍州市| 晋城| 台北县| 丹东市| 将乐县| 东至县| 黔南| 钦州市| 遂溪县| 丹东市| 富锦市| 三原县| 常宁市| 成武县| 土默特右旗| 韶关市| 抚宁县| 新邵县| 徐水县| 永顺县| 哈巴河县|