專利名稱:一種圖像中對象的識別方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體內(nèi)容的檢索技術(shù),尤其是一種圖像中對象的識別方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅速發(fā)展,基于文字信息的內(nèi)容搜索技術(shù)得到了迅速發(fā)展,并且成為一項重要的網(wǎng)絡(luò)應(yīng)用,例如Google、Bing和Yahoo Search等都提供相關(guān)服務(wù)。并且,最近幾年,由于移動電話、照相機(jī)和攝像機(jī)的廣泛應(yīng)用,越來越多的多媒體內(nèi)容被產(chǎn)生出來,并存儲在個人計算機(jī)或網(wǎng)站上。對這些多媒體內(nèi)容進(jìn)行檢索進(jìn)而進(jìn)行相關(guān)利用成為一項重要課題。因而,多媒體內(nèi)容的檢索技術(shù) 受到了越來越多的關(guān)注。但是,現(xiàn)有的多媒體內(nèi)容搜索或檢索系統(tǒng),例如 Google image、video searching、Flickr> Bing image 或 videosearching以及Youtube等都完全依賴于用戶輸入的文字查詢條件。用戶輸入檢索文字(例如關(guān)鍵字),系統(tǒng)通過將所述檢索文字與多媒體內(nèi)容的標(biāo)題、注解或者周圍文字進(jìn)行文字匹配而進(jìn)行多媒體內(nèi)容的搜索。并且,有些現(xiàn)有技術(shù)用于從多媒體內(nèi)容中直接提取信息,例如從多媒體內(nèi)容中尋找對象、事件或者其他信息。這種信息還可以用于進(jìn)一步的多媒體搜索或者內(nèi)容索引等?;谀P偷膶ο笞R別是最常用的在圖像中搜尋對象的方法。在這種方法中,構(gòu)建3D對象模型并將其投射至2D空間以形成圖像模型。隨后,利用特定對象的整體外觀作為模型與模型數(shù)據(jù)庫中的模型進(jìn)行外形匹配,進(jìn)而發(fā)現(xiàn)圖像中的特定對象。但是,為了準(zhǔn)確判斷圖像中存在的對象,上述的模型數(shù)據(jù)庫需要包括充足的對象模型或者對象零件模型,這種要求很難實(shí)現(xiàn)并且成本很高。另外,即使具有滿足要求的模型數(shù)據(jù)庫,由于上述的匹配過程需要對模型數(shù)據(jù)庫中的全部模型進(jìn)行操作,因此需要大量計算因此,需要一種效率更高的圖像中對象的識別技術(shù)。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供了一種圖像中對象的識別方法,包括下述步驟:從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示;和利用所述概念表示對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別所述圖像中存在的相關(guān)對象。其中,所述圖像的上下文信息包括圖像的題目、注解和圖像周圍的文字。其中,所述概念表示是所述上下文信息的一組認(rèn)知近義詞。其中,通過對所述概念表示進(jìn)行語義擴(kuò)展和推導(dǎo)得出所述一組認(rèn)知近義詞。所述方法還可以包括,將所述匹配操作中得出的與圖像的概念表示相匹配的對象模型數(shù)據(jù)庫中的模型與所述圖像進(jìn)行低層次特征匹配以識別圖像中的對象。所述方法還可以包括,在提取所述圖像的上下文信息的名詞實(shí)體之前,對所述圖像進(jìn)行預(yù)處理。
其中,所述預(yù)處理包括噪聲抑制、邊界檢測和低層次特征提取。其中,采用自然語言處理從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示。根據(jù)本發(fā)明的另一方面,提供了一種圖像中對象的識別裝置,包括:從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示的裝置;和利用所述概念表示對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別所述圖像中存在的相關(guān)對象的裝置。
圖1是根據(jù)本發(fā)明實(shí)施方式的圖像中對象識別的方法的流程圖;和 圖2是根據(jù)本發(fā)明實(shí)施方式的圖像中對象識別的裝置的框圖。
具體實(shí)施例方式下面對參考附圖對本發(fā)明的圖像中對象的識別方法方法和裝置的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述,需要注意的是,下面的描述僅是示意性的,其中所涉及的內(nèi)容并不構(gòu)成對發(fā)明所涉及內(nèi)容的限制,本領(lǐng)域技術(shù)人員在下面公開內(nèi)容的基礎(chǔ)上還可以有許多不同的變化方式,這些都屬于本發(fā)明的保護(hù)范圍。下面以基于模型的圖像中對象識別為例對本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)說明。在現(xiàn)有的基于模型的圖像中對象識別方法中,首先要建立一個對象模型數(shù)據(jù)庫,該數(shù)據(jù)庫用于識別和定位圖像中的特定對象??梢岳矛F(xiàn)有技術(shù)對象模型數(shù)據(jù)庫的建立,例如3D投射等。并且,通常是以離線方式建立所述對象模型數(shù)據(jù)庫。對象模型數(shù)據(jù)庫的作用是為圖像中的對象識別提供所需對象的形狀的全面信息。對象模型數(shù)據(jù)庫的建立可以通過各種現(xiàn)有技術(shù)來實(shí)現(xiàn)。并且,本發(fā)明的重點(diǎn)并不在于該數(shù)據(jù)庫的建立,因此在本發(fā)明中不再進(jìn)行進(jìn)一步的詳細(xì)描述。對圖像首先進(jìn)行預(yù)處理,例如噪聲抑制、邊界檢測和低層次特征提取等。然后,基于對象模型數(shù)據(jù)庫中的模型,對圖像進(jìn)行匹配操作,即可發(fā)現(xiàn)圖像中存在何種對象。但是,如上所述,該匹配操作需要大量計算。本發(fā)明的發(fā)明人發(fā)現(xiàn),圖像的上下文信息(context information)可以被用于所述匹配操作以降低匹配操作的計算量。圖像的上下文信息例如包括圖像的題目、注解和圖像周圍的文字。上下文信息通常與圖像內(nèi)容具有很高的相關(guān)性。因此,利用圖像的上下文信息對模型數(shù)據(jù)庫中的模型進(jìn)行匹配,能夠降低匹配操作的計算量,提高圖像中對象識別的效率。圖1是根據(jù)本發(fā)明實(shí)施方式的圖像中對象的識別方法的流程圖。如圖1所示,根據(jù)本發(fā)明實(shí)施方式的圖像中對象識別方法包括下述步驟:
S101,從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的“概念表示”。如上所述,圖像的上下文信息可以包括圖像的題目、注解和圖像周圍的文字等。圖像的上下文信息一般都由圖像的創(chuàng)建者或者提供者提供,在圖像存儲之前以元數(shù)據(jù)的形式存儲。有關(guān)圖像的上下文信息的元數(shù)據(jù)是數(shù)據(jù)庫領(lǐng)域的現(xiàn)有技術(shù),本發(fā)明并無意對元數(shù)據(jù)的創(chuàng)建和存儲提出任何改進(jìn),只是利用圖像的此類元數(shù)據(jù)進(jìn)行圖像中對象的識別,因此,對于圖像的上下文信息不再詳述。
現(xiàn)有技術(shù)中的自然語言處理(Natural Language Processing)技術(shù)可以用于步驟SlOl中所述的從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的“概念表示”。自然語言處理是用計算機(jī)來處理人類的語言的技術(shù),由于計算機(jī)技術(shù)的發(fā)展,人機(jī)交互的需要促進(jìn)了自然語言處理技術(shù)的快速發(fā)展。目前已經(jīng)存在一些商用的自然語言處理工具,例如:
(I)OpenNLP
OpenNLP是一個基于Java機(jī)器學(xué)習(xí) 工具包,用于處理自然語言文本。支持大多數(shù)常用的NLP任務(wù),例如:標(biāo)識化、句子切分、部分詞性標(biāo)注、名稱抽取、組塊、解析等。(2) FudanNLP
FudanNLP主要是為中文自然語言處理而開發(fā)的工具包,也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集。其能夠進(jìn)行文本分類、新聞聚類、中文分詞、詞性標(biāo)注、實(shí)體名識別、關(guān)鍵詞抽取、依存句法分析、時間短語識別、結(jié)構(gòu)化學(xué)習(xí)、在線學(xué)習(xí)、層次分類、聚類和精確推理等等。上述自然語言處理工具可以用于從圖像的題目、注解和圖像周圍的文字等上下文信息中提取出可能對象的“概念表示”。本領(lǐng)域普通技術(shù)人員可以理解,上面以說明的目的介紹了幾種目前公知的自然語言處理工具,但本發(fā)明并不局限于上述處理工具,任何能夠?qū)崿F(xiàn)所述效果的自然語言處理工具都可以用于本發(fā)明。本領(lǐng)域普通技術(shù)人員可以理解,在步驟SlOl之前,還可以對圖像首先進(jìn)行噪聲抑制、邊界檢測和低層次特征提取等預(yù)處理。在接下來的步驟S102中,利用所述概念表示對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別所述圖像中存在的相關(guān)對象。在本步驟中,可以采用所述概念表示與對象模型數(shù)據(jù)庫中每個模型的注解進(jìn)行關(guān)鍵詞匹配以識別所述圖像中的相關(guān)對象。通常,對象模型數(shù)據(jù)庫中的每個模型都會被賦予一個簡單名詞,例如家禽、家用電器等。但是,每個名詞可能包括多個子類。例如,上述家禽可能包括雞、鴨、鵝,而家用電器可能包括電視機(jī)、洗衣機(jī)、電扇、電冰箱等。因此,僅利用從圖像中提取的概念表示與對象模型數(shù)據(jù)庫中的模型進(jìn)行匹配操作將導(dǎo)致很多誤判。為了降低誤判,可選擇地,在上述步驟SlOl中,可以對上述獲取的概念表示進(jìn)行語義擴(kuò)展和推導(dǎo),得出所述上下文信息的一組認(rèn)知近義詞作為所述概念表示??梢岳矛F(xiàn)有技術(shù)對上述獲取的概念表示進(jìn)行語義擴(kuò)展和推導(dǎo),得出所述上下文信息的一組認(rèn)知近義詞。例如可以采用WordNet作為詞匯數(shù)據(jù)庫進(jìn)行語義擴(kuò)展和推導(dǎo)以得出所述一組認(rèn)知近義詞。在此種情況下,可以利用所述認(rèn)知近義詞對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別圖像中存在的相關(guān)對象??梢圆捎盟稣J(rèn)知近義詞與模型數(shù)據(jù)庫中每個模型的注解進(jìn)行關(guān)鍵詞匹配來實(shí)現(xiàn)圖像中的對象識別。可選擇地,在通過步驟SlOl和S102從對象模型數(shù)據(jù)庫中獲得匹配的模型后,可以將匹配的模型選出,與所述圖像進(jìn)行低層次特征匹配。如上所述,所述低層次特征通常為離線提取。在從圖像中識別出相關(guān)對象后,可以將關(guān)于對象的低層次特征和數(shù)據(jù)描述刪除。然后對其余的圖像低層次特征進(jìn)行例行對象識別以判斷是否還存在其他對象。 本發(fā)明的另一實(shí)施方式還提供了一種用于之行上述方法的裝置。圖2是根據(jù)本發(fā)明實(shí)施方式的圖像中對象識別的裝置的框圖。如圖2所示,圖像中對象的識別裝置200包括:裝置201,用于從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示的;和裝置202,用于利用所述概念表示對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別所述圖像中存在的相關(guān)對象的。綜上所述,根據(jù)本發(fā)明實(shí)施方式的圖像中對象的識別方法和裝置利用圖像的上下文信息與對象模型數(shù)據(jù)庫進(jìn)行匹配操作,有效地降低了匹配操作的計算量,從而大大地提到了圖像中對象識別的效率。
權(quán)利要求
1.一種圖像中對象的識別方法,其特征在于,包括下述步驟: 從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示(SlOl);和 利用所述概念表示對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別所述圖像中存在的相關(guān)對象(S102)。
2.如權(quán)利要求1所述的圖像中對象的識別方法,其中,所述圖像的上下文信息包括圖像的題目、注解和圖像周圍的文字。
3.如權(quán)利要求1或2所述的圖像中對象的識別方法,其中,所述概念表示是所述上下文信息的一組認(rèn)知近義詞。
4.如權(quán)利要求3所述的圖像中對象的識別方法,其中,通過對所述概念表示進(jìn)行語義擴(kuò)展和推導(dǎo)得出所述一組認(rèn)知近義詞。
5.如權(quán)利要求1所述的圖像中對象的識別方法,還包括,將所述匹配操作中得出的與圖像的概念表示相匹配的對象模型數(shù)據(jù)庫中的模型與所述圖像進(jìn)行低層次特征匹配以識別圖像中的對象。
6.如權(quán)利要求1所述的圖像中對象的識別方法,還包括,在提取所述圖像的上下文信息的名詞實(shí)體之前,對所述圖像進(jìn)行預(yù)處理。
7.如權(quán)利要求6所述的圖像中對象的識別方法,其中,所述預(yù)處理包括噪聲抑制、邊界檢測和低層次特征提取。
8.如權(quán)利要求1所述的圖像中對象的識別方法,其中,采用自然語言處理從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示。
9.一種圖像中對象的識別裝置(200),其特征在于,包括: 從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示的裝置(201);和 利用所述概念表示對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別所述圖像中存在的相關(guān)對象的裝置(202)。
全文摘要
本發(fā)明提供了一種圖像中對象的識別方法和裝置,所述方法包括下述步驟從圖像的上下文信息中提取名詞實(shí)體以獲取圖像中可能對象的概念表示;和利用所述概念表示對所述對象模型數(shù)據(jù)庫進(jìn)行匹配操作以識別所述圖像中存在的相關(guān)對象。
文檔編號G06K9/54GK103106239SQ20121052694
公開日2013年5月15日 申請日期2012年12月10日 優(yōu)先權(quán)日2012年12月10日
發(fā)明者宗競 申請人:江蘇樂買到網(wǎng)絡(luò)科技有限公司