本發(fā)明涉及一種用于核對圖像中的人的信息處理裝置及其控制方法。
背景技術(shù):
傳統(tǒng)上已知有這樣的裝置,其從監(jiān)視器視頻的各幀檢測人的全身或部位(part)(例如,臉部),從該臉部計算圖像特征量,并且,將該圖像特征量與視頻的幀相關(guān)聯(lián)地存儲。例如,在日本特開2013-153304號公報(以下被稱為文獻1)中公開的裝置可以用存儲的圖像特征量核對作為查詢的失蹤的孩子的臉部,并且顯示包含該孩子的視頻。
然而,在文獻1的技術(shù)中,從視頻的所有的幀檢測到的所有的臉部都被登記在數(shù)據(jù)庫中,并且,存儲極大數(shù)量的圖像特征量。所述幀可以被稀疏化(thin out),以降低處理的幀速率并減少要登記的臉部的圖像特征量的數(shù)目。在這種情況下,具有優(yōu)選的方向、尺寸、眼睛拍攝條件等的臉部的特征量可能未被登記,導(dǎo)致核對失敗。
技術(shù)實現(xiàn)要素:
鑒于上述問題而作出了本發(fā)明。本發(fā)明提供一種用于減少在核對數(shù)據(jù)庫中登記從人的全身或部位提取的特征量為止所需的延遲時間。
根據(jù)本發(fā)明的一個方面,提供一種信息處理裝置,所述信息處理裝置包括:獲取單元,其被構(gòu)造為,獲取視頻;檢測單元,其被構(gòu)造為,從所獲取的視頻的至少一幀檢測人的全身或部位;追蹤單元,其被構(gòu)造為,追蹤所檢測到的人的全身或所述部位;以及登記單元,其被構(gòu)造為,在數(shù)據(jù)庫中登記,從在從所述追蹤單元開始追蹤人的全身或所述部位的定時至所述追蹤單元追蹤結(jié)束之前的定時的第一時段期間所追蹤的人的全身或所述部位提取的特征量。
根據(jù)本發(fā)明的另一個方面,提供一種信息處理裝置的控制方法,所述控制方法包括以下步驟:獲取視頻;從所獲取的視頻的至少一幀檢測人的全身或部位;追蹤所檢測到的人的全身或所述部位;以及在數(shù)據(jù)庫中登記,從在從開始追蹤人的全身或所述部位的定時至追蹤結(jié)束之前的定時的第一時段期間所追蹤的人的全身或所述部位提取的特征量。
根據(jù)本發(fā)明,可以減少從檢測人至在核對數(shù)據(jù)庫中登記從人的全身或部位提取的特征量所需的延遲時間。
根據(jù)下面(參照附圖)對示例性實施例的描述,本發(fā)明的另外的特征將變得清楚。
附圖說明
圖1是根據(jù)實施例的裝置的框圖;
圖2是根據(jù)實施例的裝置的功能框圖;
圖3A和圖3B是用于解釋根據(jù)實施例的基于臉部方向的分類的視圖;
圖4是示出根據(jù)實施例的對象追蹤信息的內(nèi)容的視圖;
圖5是用于解釋根據(jù)實施例的圖像特征存儲單元的處理的視圖;
圖6是示出根據(jù)實施例的開始和結(jié)束對象追蹤的定時的示例的視圖;
圖7是示出根據(jù)實施例的核對數(shù)據(jù)庫的結(jié)構(gòu)的示例的視圖;
圖8是示出根據(jù)第一實施例的視頻存儲處理的流程圖;
圖9是示出圖8中的DB登記處理的流程圖;以及
圖10是示出根據(jù)第一實施例的核對處理的流程圖。
具體實施方式
現(xiàn)在將參照附圖描述本發(fā)明的實施例。請注意,下述實施例是本發(fā)明的具體實現(xiàn)方式的示例或者所附權(quán)利要求中所述的布置的具體示例。
[第一實施例]
圖1是根據(jù)本實施例的圖像核對裝置100的框圖。裝置100將被描述為既用作用于圖像搜索的服務(wù)器裝置又用作客戶端裝置的裝置。然而,服務(wù)器功能和客戶端功能可由獨立的裝置形成。服務(wù)器裝置不必由單個裝置實現(xiàn),并且,處理可以被分布給多個計算機裝置。在服務(wù)器裝置由多個計算機裝置構(gòu)成時,它們通過局域網(wǎng)(LAN)連接,以相互通信。各個計算機裝置可由諸如個人計算機(PC)或工作站(WS)等的信息處理裝置實現(xiàn)。
參照圖1,CPU 101是控制整個圖像核對裝置100的中央處理單元。ROM 102是存儲不需要改變的程序(例如,BIOS)或參數(shù)的只讀存儲器。RAM 103是臨時地存儲從外部裝置等供給的程序或數(shù)據(jù)的隨機存取存儲器。外部存儲設(shè)備104是永久地置于計算機裝置100中的諸如硬盤等的大容量存儲設(shè)備。外部存儲設(shè)備104存儲裝置的操作系統(tǒng)(OS)、與圖像核對相關(guān)聯(lián)的應(yīng)用和在核對時要參考的核對數(shù)據(jù)庫(以下被稱為核對DB)。如稍后將描述的,由攝像機拍攝的視頻數(shù)據(jù)也被存儲在外部存儲設(shè)備104中。
輸入設(shè)備接口105是用于接收用戶操作和輸入數(shù)據(jù)的諸如指向設(shè)備或鍵盤等的輸入設(shè)備109的接口。輸出設(shè)備接口106是被構(gòu)造為顯示由計算機裝置100保持的顯示數(shù)據(jù)或供給的數(shù)據(jù)的監(jiān)視器110的接口。通信接口107是被構(gòu)造為將該裝置連接到諸如因特網(wǎng)等的網(wǎng)絡(luò)111的通信接口。網(wǎng)絡(luò)照相機112a至網(wǎng)絡(luò)照相機112c與網(wǎng)絡(luò)111連接。請注意,給網(wǎng)絡(luò)照相機112a至網(wǎng)絡(luò)照相機112c中的各個分配照相機ID。這里假設(shè)分別給網(wǎng)絡(luò)照相機112a、網(wǎng)絡(luò)照相機112b和網(wǎng)絡(luò)照相機112c分配照相機ID 1、2和3來進行描述。至少一個網(wǎng)絡(luò)照相機就足夠了,并且可以連接任意數(shù)量的網(wǎng)絡(luò)照相機。系統(tǒng)總線108是可通信地連接上述單元101至107的傳輸線。
在上述布置中,當該裝置被通電時,CPU 101執(zhí)行在ROM 102中存儲的BIOS程序,從外部存儲設(shè)備104加載OS(操作系統(tǒng))到RAM 103,并且,執(zhí)行OS。結(jié)果是,該裝置用作信息處理裝置。在OS的控制下,從外部存儲設(shè)備104執(zhí)行與圖像核對相關(guān)聯(lián)的客戶端程序和服務(wù)器程序。該裝置由此用作圖像核對裝置。
圖2是根據(jù)實施例的視頻核對裝置的功能框圖。圖2是在CPU 101執(zhí)行搜索服務(wù)器和客戶端的兩種功能的程序的情況中的功能框圖。
在本實施例中,將描述這樣的示例,其中,從臉部獲得的臉部特征用作圖像特征,并且,使用該圖像特征進行圖像特征核對。
控制處理單元211進行用于控制由附圖標記201至207、209和210表示的處理單元的主要處理。
視頻輸入單元201經(jīng)由通信接口107從網(wǎng)絡(luò)照相機112a至網(wǎng)絡(luò)照相機112c接收視頻幀,并且將它們存儲在外部存儲設(shè)備104中。輸入幀速率被假設(shè)是,例如,30幀/秒。結(jié)果是,在外部存儲設(shè)備104中創(chuàng)建網(wǎng)絡(luò)照相機112a至網(wǎng)絡(luò)照相機112c的運動圖像文件。視頻輸入單元201也將接收到的視頻幀供給到臉部檢測單元206。
臉部檢測單元206使用臉部方向檢測單元207和臉部特征提取單元209進行臉部檢測。臉部特征提取單元209檢測視頻幀中的臉部區(qū)域,提取特征量,并且將其返回到臉部檢測單元206。在本實施例中,作為臉部特征量,獲得臉部器官點的SIFT(Scale Invariant Feature Transform,尺度不變特征變換)特征量。在提取臉部特征量時,臉部特征提取單元209也將臉部區(qū)域的外接矩形的左上角的坐標和該外接矩形的尺寸(寬度W和高度H)返回到臉部檢測單元206。請注意,可以替代尺寸返回外接矩形的右下角的坐標。
臉部方向檢測單元207檢測由臉部檢測單元206檢測到的臉部的方向,并且,將該方向分類到預(yù)設(shè)方向圖案中的一個。臉部方向檢測單元207將臉部方向圖案編號作為分類結(jié)果返回到臉部檢測單元206。請注意,檢測圖像中的人臉的方向的技術(shù)是已知的,將省略其詳細描述。請注意,關(guān)于臉部方向檢測的文獻是:
Erik Murphy-Chutorian,″Head pose estimation for driver assistance systems:A robust algorithm and experimental evaluation″,in Proc.IEEE Conf.Intelligent Transportation Systems,2007,pp.709-714。
根據(jù)本實施例的臉部方向檢測單元207確定圖3A所示的5×5圖案中的哪個對應(yīng)于關(guān)注的臉部的方向。請注意,盡管在圖3A中示出5×5圖案,然而,圖案的數(shù)量并不受特別的限制。如果各個網(wǎng)絡(luò)照相機具有足夠高的分辨率,則特征量或方向的精確度變高。因此,可以增加圖案的數(shù)量。在所示的圖案中,向前看的臉部的圖案位于中心。垂直和水平方向上的偏差角越大,離中心的距離就越長。換句話說,臉部方向圖案被布置為使得臉部向前看,因為其位置變得靠近5×5圖案的中心。在臉部核對中,在使用向前看的臉部時,獲得高的精確度。也就是說,對于在5×5圖案的中心的臉部方向,優(yōu)先級最高,并且,隨著離中心的距離增大,優(yōu)先級下降。圖3B示出臉部方向圖案編號的示例。如圖3B所示,向前看的臉部的臉部方向圖案編號是“1”。在其周圍分配臉部方向圖案編號2至9,并且,在這些編號的外面分配臉部方向圖案編號10至25。請注意,臉部方向圖案編號2至9不必總是如圖所示的那樣。這也適用于臉部方向圖案編號10至25。
如上所述,臉部檢測單元206使用臉部方向檢測單元207和臉部特征提取單元209從由網(wǎng)絡(luò)照相機112a至網(wǎng)絡(luò)照相機112c接收到的各個視頻幀獲得人臉的位置、尺寸、特征量和臉部方向圖案編號。
在從控制處理單元211接收追蹤開始指令信息時,追蹤處理單元205設(shè)置當前幀中的指定臉部作為追蹤開始目標臉部,并且在后續(xù)的幀圖像中進行對應(yīng)臉部的追蹤處理。追蹤開始指令信息包括表示作為幀圖像的源的網(wǎng)絡(luò)照相機的信息(照相機ID)、表示追蹤目標臉部的初始位置的信息、以及用來指定要追蹤的臉部的對象ID。盡管細節(jié)從稍后的描述將變得清楚,但追蹤開始指令信息還包括追蹤計數(shù)和表示結(jié)束幀的定時的信息(在本實施例中,Tp1和Tp2中的一個)。對象ID的初始值是1。每當找到要追蹤的臉部,該值就被遞增“1”。請注意,使用日本特開2002-373332號公報中公開的技術(shù)來進行追蹤圖像中的人的處理。
在接收追蹤開始指令信息時,追蹤處理單元205在RAM 103上生成如圖4所示的對象追蹤信息。一個對象追蹤信息由照相機ID和對象ID指定。針對一個對象追蹤信息設(shè)置追蹤計數(shù)和最后一幀編號的數(shù)據(jù)。稍后將對這些數(shù)據(jù)進行詳細的描述,然而,這里將省略其詳細描述。
在對象追蹤信息中存儲的信息包括在開始一天的攝像記錄之后指示裝置開始追蹤時的幀編號(或時間)。另外,包括對應(yīng)視頻幀中的追蹤目標臉部的外接矩形的左上角的位置、以及尺寸(寬度和高度)、臉部方向圖案編號和臉部的特征量。作為這些信息,使用來自臉部方向檢測單元207和臉部特征提取單元209的信息。
只要視頻幀被順序地輸入,并且,正繼續(xù)追蹤對應(yīng)的臉部,追蹤處理單元205就將上述的幀編號、位置、尺寸、臉部方向圖案編號和特征量添加至對應(yīng)對象追蹤信息。如果臉部變成不可追蹤,則追蹤處理單元205請求控制處理單元211在核對DB中登記對應(yīng)的對象ID。請注意,在由于處于追蹤的人(的臉部)移到照相機的視場之外而無法識別臉部或者人向后看的情況下,臉部變成不可追蹤。
在接收到登記請求時,控制處理單元211將對應(yīng)的對象追蹤信息傳輸?shù)綀D像特征存儲單元202并使其在核對DB中進行存儲處理(登記處理)。稍后將描述圖像特征存儲單元202的細節(jié)。當?shù)怯浱幚斫Y(jié)束時,控制處理單元211從RAM 103擦除登記的對象追蹤信息。
請注意,移到照相機的視場之外的人可以再次移入照相機的視場中。本實施例的裝置不能確定移到照相機的視場之外的人和再次移入照相機的視場中的人是否為同一人。由于這種原因,對于再次移入照相機的視場中的人的臉部,分發(fā)新的對象ID,并且,追蹤開始。因此,追蹤處理單元205最終對照相機的攝像場中的被識別為臉部的所有的對象進行追蹤處理。因此,生成與實際上正被追蹤的臉部的數(shù)量一樣多的圖4所示的多個對象追蹤信息。在一個網(wǎng)絡(luò)照相機的視場中至多存在約40至約50個臉部區(qū)域,各個臉部區(qū)域具有可識別為臉部的尺寸。即使當考慮存在三個網(wǎng)絡(luò)照相機時,追蹤對象臉部的數(shù)量也最多為150。當前計算機可以充分地應(yīng)對該數(shù)量的臉部。
假設(shè)從網(wǎng)絡(luò)照相機接收到視頻幀,并且,在圖6中的時刻t0第一次檢測到人A的臉部。在這種情況下,為人A分發(fā)對象ID,并且,生成人A的對象追蹤信息。對人A進行追蹤處理,直到該人A變成不可追蹤的時刻t3。在這段時間,如果在時刻t1第一次在同一攝像場中檢測到另一個人B的臉部,則為該人B分發(fā)對象ID,并且,生成該人B的對象追蹤信息。對人B進行追蹤處理,直到該人B變成不可追蹤的時刻t2。
接下來,將參照圖5描述圖像特征存儲單元202的存儲處理。如已描述的,在對某人臉部的追蹤處理結(jié)束時進行存儲處理。
圖5中的附圖標記500表示在對象追蹤信息中存儲的臉部方向圖案編號的時間轉(zhuǎn)變。請注意,為了描述方便,圖5示出在對象追蹤信息中存儲共八個臉部方向圖案的示例。
首先,圖像特征存儲單元202對在對象追蹤信息中存儲的各個臉部方向圖案編號的出現(xiàn)計數(shù)進行總計處理。圖5中的附圖標記501表示總計結(jié)果。各個臉部圖案的右下側(cè)的編號表示出現(xiàn)計數(shù)(累積數(shù))。
如圖3B所示,臉部方向圖案編號是1至25。因此,臉部方向ID的總計結(jié)果被表達為變量F(臉部方向圖案編號)。在本實施例中,與追蹤對象臉部對應(yīng)地在核對DB中最多登記四個特征量。當然,該數(shù)量僅僅是一個示例,并且,可以登記更多的特征量。
在本實施例中,按編號的順序設(shè)置臉部方向圖案編號的優(yōu)先級(圖3B)。圖像特征存儲單元202按此順序布置總計變量F(1)至F(25),并且找到出現(xiàn)計數(shù)為非零(1或更大)的前四個圖案。在圖5中,如附圖標記502所示,陰影圖案F(1)、F(2)、F(3)和F(6)對應(yīng)于這些圖案。也就是說,決定對象追蹤信息中的臉部方向圖案編號=1,2,3和6的特征量作為核對DB的登記候選。
這里,臉部方向圖案編號“1”的出現(xiàn)計數(shù)F(1)是“1”。也就是說,在對象追蹤信息中只存在一個臉部方向圖案編號“1”的特征量。由于這種原因,圖像特征存儲單元202在核對DB中登記對象追蹤信息中的臉部方向圖案編號“1”的特征量。
由于臉部方向圖案編號“2”的出現(xiàn)計數(shù)F(2)是“2”,所以決定要登記所述特征量中的一個。在這種實施方式下,登記兩個臉部中的具有較大尺寸的一個臉部的特征量,作為表示對應(yīng)方向的特征量。如果臉部尺寸大,則在拍攝人的臉部時離照相機的距離短,并且,可以預(yù)期高的精確度。這也適用于臉部方向圖案編號=3和6。
結(jié)果是,在本實施例中,在核對DB中與一個對象ID對應(yīng)地登記四個臉部特征量。另外,如果臉部方向不重復(fù),并且,臉部向前看的程度高,則可以使登記臉部特征量的可能性高。因此,可以防止核對DB變得龐大。另外,隨著臉部尺寸變大,要登記的特征量的優(yōu)先級也變高,并且,能夠預(yù)期達到精確的匹配處理。
仍存在一個問題。此問題是由于在核對DB中登記臉部特征量的定時被設(shè)置為臉部(人)變成不可追蹤的定時而發(fā)生。例如,考慮當前時刻是圖6中的時刻t4,并且,作為查詢圖像輸入作為失蹤的孩子的人A的臉部的情況。在這種情況下,網(wǎng)絡(luò)照相機中的任意一個在當前時刻(時刻t4)正拍攝人A的臉部。然而,該臉部仍處于追蹤中,并且,人A的臉部的特征量仍未被登記在核對DB中。也就是說,即使作為查詢圖像輸入人A的臉部的特征量,并且,在時刻t4開始核對處理,在從時刻t0至t4的最新時段內(nèi)的人A的臉部也不能是搜索目標。當搜索例如失蹤的孩子等的人時,指定最靠近最新時刻的位置是重要的。因此,不能忽視此問題。
考慮到上述問題,作為本實施例的特性特征,不僅臉部變成不可追蹤的定時、還有時限,都被設(shè)置為在核對DB中登記臉部特征量的定時。例如,在圖6中,在從開始追蹤人A的時刻t0起經(jīng)過預(yù)設(shè)時間Tp1之后的時刻t5,即使仍可以檢測人A的臉部,也在核對DB中進行對人A的臉部的特征量的登記處理。結(jié)果是,由于經(jīng)由追蹤處理在早期階段在核對DB中開始對人A的臉部的特征量的登記處理,所以當在時刻t4開始核對處理時可以將人A設(shè)置為搜索目標。時刻t4是一個示例。如果在時刻t5之后在核對DB中登記人A的臉部的特征量,則可以將人A設(shè)置為搜索目標。
在本實施例中,要在核對DB中登記的一個對象的臉部特征量的數(shù)量是4。然而,在決定要登記的特征量之前的候選的數(shù)量優(yōu)選地更大。這是因為對各個臉部方向上的出現(xiàn)臉部的最大尺寸進行更新的可能性變高。因此,當在第一次的時間Tp1進行了核對DB中的登記之后,在第二次或后續(xù)次開始核對DB中的登記處理之前的時間優(yōu)選地長于時間Tp1。將參照圖6對此進行描述。在從對該人A的追蹤開始時刻t0起經(jīng)過了時間Tp1之后的時刻t5,開始核對DB中的人A的第一登記處理。令Tp2是對同一人A進行核對DB中的第二次或后續(xù)次的登記處理之前的時間。在本實施例中,保持由Tp2≥Tp1給出的關(guān)系。更具體地,Tp1是約10秒,并且,Tp2是約20秒。這些值可以被適當?shù)卦O(shè)置,或者,可以設(shè)置為同一值。因為需要縮短第一次在DB中登記對象的臉部特征量為止的時間,以提早將該人設(shè)置為搜索目標,所以使Tp1更短以保持Tp2≥Tp1。
請注意,各個對象ID必須是唯一的。在本實施例中,即使同一人A正被追蹤,從時刻t0至t5(第一次追蹤),從時刻t5至t6(第二次連續(xù)追蹤)和從時刻t6至t7(第三次連續(xù)追蹤),也分配不同的對象ID。
從追蹤開始時刻起經(jīng)過時間Tp1或Tp1+Tp2×n(n=1,2...)之后的時刻在對象之間變化。需要可以識別追蹤處理是第一次追蹤還是第二次或后續(xù)次追蹤。
由于上述原因,根據(jù)實施例的追蹤處理單元205設(shè)置“1”給圖4所示的對象追蹤信息中的由附圖標記402表示的追蹤計數(shù),以指示它是人檢測之后的第一次追蹤。此時刻可以在新創(chuàng)建對象追蹤信息時由第一幀編號指定。例如,在圖4的示例中,當創(chuàng)建照相機ID=1和對象ID=00001的對象追蹤信息時的第一幀編號是“12345”。假設(shè)網(wǎng)絡(luò)照相機112a至網(wǎng)絡(luò)照相機112c中的各個以30幀/秒的幀速率拍攝圖像。如果Tp1=10秒,則在此時段內(nèi)拍攝300個幀。也就是說,核對DB中的登記的時刻t5是“12645”(=12345+300)。因此,當新創(chuàng)建對象追蹤信息時,追蹤處理單元205設(shè)置“12645”給由附圖標記401表示的結(jié)束幀編號。上述處理由追蹤處理單元205根據(jù)由控制處理單元211設(shè)置的追蹤開始指令信息進行。
如上所述,追蹤處理單元205追蹤目標幀,并且,將包括幀編號、位置和尺寸、臉部方向圖案編號和特征量的記錄添加至對象追蹤信息。如果正追蹤的臉部由于該人移到視場之外或向后看而變成不可追蹤,則追蹤處理單元205將包括作為引數(shù)(argument)的對應(yīng)對象ID的對核對DB的登記請求發(fā)送(發(fā)出)到控制處理單元211。
如果在追蹤處理期間當前幀編號到達了結(jié)束幀編號401,則追蹤處理單元205將包括對應(yīng)對象ID和表示當前幀編號已經(jīng)到達結(jié)束幀編號的信息的登記請求發(fā)送到控制處理單元211。
在后一種情況下,也就是說,如果當前幀編號到達了結(jié)束幀編號401,則控制處理單元211可以檢測正在進行連續(xù)追蹤,因此,向追蹤處理單元205通知包括新對象ID和用來定義結(jié)束幀的定時的“Tp2”(由于連續(xù)追蹤)的追蹤開始指令信息。結(jié)果是,追蹤處理單元205創(chuàng)建用于連續(xù)追蹤的對象追蹤信息并繼續(xù)追蹤對應(yīng)的臉部。
圖7示出根據(jù)本實施例的核對DB的結(jié)構(gòu)的示例。在外部存儲設(shè)備104中分配核對DB。如圖7所示,核對DB的一個記錄,由存儲對象ID、特征量(在本實施例中,最多四個特征量)、照相機ID、檢測到登記的臉部特征量的臉部的時段的第一幀編號(時刻)、坐標和臉部尺寸的字段而形成。在這些數(shù)據(jù)當中,特征量用作搜索中的密鑰。
基于上述解釋,接下來將參照圖8的流程圖描述根據(jù)本實施例的視頻記錄的主要處理。本處理由控制處理單元211進行。
在步驟S81中,控制處理單元211經(jīng)由通信接口107從網(wǎng)絡(luò)照相機112a至112c接收視頻幀,并且,將它們作為核對目標的運動圖像文件而記錄在外部存儲設(shè)備104中。通過添加例如照相機ID來創(chuàng)建此時創(chuàng)建的三個運動圖像文件的文件名。
接下來,控制處理單元211將當前視頻幀傳輸?shù)侥槻繖z測單元206。在步驟S82中,控制處理單元211使臉部檢測單元206執(zhí)行臉部檢測處理。結(jié)果是,可以獲得在視頻幀中存在的各個臉部的檢測結(jié)果。在步驟S83中,控制處理單元211基于當前視頻幀的檢測結(jié)果和緊鄰之前的視頻幀的檢測結(jié)果來確定在當前視頻幀中是否存在未追蹤的臉部。如果存在未追蹤的臉部,則處理前進到步驟S84。在步驟S84中,控制處理單元211將包括存在要新追蹤的臉部的位置、臉部的尺寸、新對象ID、照相機ID、幀編號、追蹤計數(shù)“1”和用來定義結(jié)束幀作為引數(shù)的時間“Tp1”的追蹤開始指令信息,發(fā)送到追蹤處理單元205。結(jié)果是,追蹤處理單元205創(chuàng)建如圖4所示的對象追蹤信息,并對臉部進行追蹤處理。
另一方面,在步驟S85中,控制處理單元211確定是否從追蹤處理單元205接收到登記請求。如果接收到登記請求,則控制處理單元211使處理前進到步驟S86,將登記請求的對象追蹤信息傳輸?shù)綀D像特征存儲單元202,并且使其在核對DB中進行登記處理。在步驟S87中,控制處理單元211確定在步驟S86中接收到的登記請求是否包括表示當前幀編號已經(jīng)到達結(jié)束幀編號401的信息,換句話說,確定是否由于該人不可追蹤而發(fā)出登記請求。在確定由于該人不可追蹤而發(fā)出登記請求時,控制處理單元211在步驟S89中刪除在核對DB中登記的對象追蹤信息并進行從步驟S81起的處理。
如果由于當前幀編號到達了結(jié)束幀編號401而發(fā)出登記請求,則在步驟S88中,控制處理單元211將包括新的對象ID和Tp2的追蹤開始指令信息發(fā)送到追蹤處理單元205。結(jié)果是,追蹤處理單元205進行連續(xù)的追蹤處理。下一個最長的追蹤時間是由Tp2設(shè)置的定時。然后,控制處理單元211進行步驟S89的處理。
接下來將參照圖9的流程圖描述步驟S86的DB登記處理(圖像特征存儲單元202的處理)。
在步驟S91中,圖像特征存儲單元202從控制處理單元211接收對象追蹤信息。圖像特征存儲單元202分析接收到的對象追蹤信息,并且,進行各個臉部方向圖案編號的總計處理。也就是說,圖像特征存儲單元202獲得臉部方向圖案編號1至25的出現(xiàn)計數(shù)F(1)至F(25)。
在步驟S93中,圖像特征存儲單元202將變量i初始化為1。圖像特征存儲單元202使處理前進到步驟S94,并且,確定變量i是否為25或更小,即,是否完成對所有出現(xiàn)計數(shù)的檢查。如果變量i是25或更小(檢查是不完整的),則圖像特征存儲單元202在步驟S93中將變量i初始化為1并將變量j初始化為0。變量i是用來指定出現(xiàn)計數(shù)F()的變量,并且,變量j是用來計數(shù)要登記的特征量的數(shù)量的變量。
在步驟S94中,圖像特征存儲單元202將變量i與25進行比較。如果變量i是25或更小,則未檢查所有的出現(xiàn)計數(shù)F()。因此,圖像特征存儲單元202使處理前進到步驟S95,以將變量j與在核對DB中要登記的特征量的預(yù)設(shè)的上限數(shù)N(在本實施例中,N=4)進行比較。如果j<N,則要在核對DB中登記的特征量的數(shù)量尚未達到上限數(shù)N。因此,圖像特征存儲單元202使處理前進到步驟S96。在步驟S96中,圖像特征存儲單元202確定臉部方向圖案編號i的出現(xiàn)計數(shù)F(i)是否為非零(1或更大)。如果出現(xiàn)計數(shù)F(i)是非零,則在步驟S97中,圖像特征存儲單元202決定臉部方向圖案編號=i中的最大臉部尺寸的特征量作為用于核對DB的登記目標。由于決定了一個登記目標,所以圖像特征存儲單元202在步驟S98中進行使變量j遞增1的處理。然后,圖像特征存儲單元202在步驟S100中進行使變量i遞增1的處理,并且,使處理返回到步驟S94。
如果步驟S94和S95的確定結(jié)果之一是“否”,則圖像特征存儲單元202使處理前進到步驟S99。在步驟S99中,圖像特征存儲單元202將被決定作為登記目標的特征量與對象ID、幀編號、照相機ID、位置和尺寸信息一起登記在核對DB中,并結(jié)束處理。請注意,在變量j到達N之前,變量i可以是25。在這種情況下,要登記的特征量的數(shù)量小于4。
上面描述了根據(jù)本實施例的視頻數(shù)據(jù)和特征量登記處理。接下來將描述根據(jù)本實施例的核對處理。核對處理由查詢視頻輸入單元203、臉部檢測單元206、臉部特征核對單元210、核對結(jié)果顯示單元204和控制這些單元的控制處理單元211實現(xiàn)。下面將參照圖10的流程圖描述核對處理。
在步驟S601中,控制處理單元211指示查詢視頻輸入單元203輸入查詢視頻。查詢視頻的輸入源并不受特別的限制。例如,由搜索客戶端保持的便攜式終端可以與該裝置連接,并且,拍攝要搜索的人的臉部的圖像可作為查詢視頻被傳輸?shù)皆撗b置。請注意,如果該裝置與因特網(wǎng)連接,則查詢視頻可以作為郵件被接收。無論如何,當輸入查詢視頻時,進行指定查詢?nèi)说哪槻康奶幚?。例如,臉部方向檢測單元207檢測在查詢視頻中存在的所有的臉部,將矩形框架添加至檢測到的臉部,并且在顯示設(shè)備上顯示臉部,以使搜索客戶端選擇它們中的一個作為搜索目標臉部圖像(查詢臉部圖像)。請注意,如果只有一個臉部被檢測到,則該臉部可以被處理為無條件選擇的臉部。當決定查詢臉部圖像時,將在檢測到該查詢臉部圖像時提取的特征量決定為檢測密鑰。
在步驟S602中,控制處理單元211獲得在核對DB中登記的對象ID的總數(shù)M(記錄數(shù))??刂铺幚韱卧?11請求臉部特征核對單元210使用獲取的數(shù)M和查詢臉部圖像的特征量作為引數(shù)來進行核對處理。
在步驟S603中,圖像特征核對單元210將變量i初始化為0。在步驟S604中,確定變量i是否等于或小于M。如果i<M,則對所有記錄的核對是不完整的。因此,處理前進到步驟S606。在步驟S606中,臉部特征核對單元210讀出核對DB的第i記錄,并且,讀出在該記錄中存儲的Ni特征量。在本實施例中,Ni最大為4,如已經(jīng)描述的。計算查詢臉部圖像的特征量與Ni特征量中的各個之間的距離,并且,決定最短距離作為查詢臉部圖像和第i記錄的對象ID的人臉之間的距離。臉部特征核對單元210將這對對象ID和決定距離存儲在RAM 103的預(yù)定區(qū)域中。此后,為了用下一個記錄進行核對處理,變量i被遞增“1”,并且,處理返回到步驟S604。
重復(fù)上述處理。在與所有記錄的比較處理結(jié)束時(在確定變量i=M時),在RAM 103中存儲與所有的登記的對象ID的距離。在步驟S605中,臉部特征核對單元210按升序排列在RAM 103中存儲的距離,并結(jié)束處理。
作為此后的處理,控制處理單元211將核對結(jié)果傳輸?shù)胶藢Y(jié)果顯示單元204,從而進行核對結(jié)果顯示處理。關(guān)于如何顯示,例如,顯示按距離的升序布置的預(yù)定數(shù)量的臉部圖像的列表。當選擇臉部圖像中的一個時,基于幀編號和對應(yīng)于臉部的照相機ID,進行例如從對應(yīng)的位置再現(xiàn)運動圖像的處理。
請注意,在上述實施例中,如果在一個對象追蹤信息中存在多個相同的臉部方向圖案編號,則決定最大臉部尺寸的特征量作為登記目標。然而,可以在考慮除了尺寸以外的條件或者作為尺寸的補充條件作為特征量的情況下決定登記目標。例如,模糊程度小的視頻幀中的特征量可被優(yōu)選地登記,或者,具有閉合的眼睛或張開的嘴的臉部可以以低優(yōu)先級被登記。
如用于靜止圖像的照相機中一樣,甚至在用于拍攝運動圖像的照相機中快門速度也可以取決于場地的亮度改變。因此,臉部圖像可能會在暗地方或者由于對象的移動速度而模糊。這樣直接導(dǎo)致圖像特征量或?qū)傩孕畔⒔导?。為了估計模糊,獲得臉部圖像區(qū)域中的頻率分量,并且,獲得低頻分量和高頻分量之比。如果低頻分量的比例超過預(yù)定值,則可以確定已經(jīng)發(fā)生模糊。另外,如果存在閉合的眼睛或張開的嘴,則該器官的圖像特征量劣化。在一些情況下,也在屬性信息中發(fā)生錯誤。
此外,當使用諸如尺寸、閉合的眼睛和模糊的多個參數(shù)等決定登記目標的特征量時,假設(shè)具有對應(yīng)于參數(shù)類型的坐標軸的空間,并且,獲得該坐標空間中的距離。
臉部方向圖案編號2至9被布置為包圍中心位置,因此,可以被視為同一級別。因而,如果在臉部方向圖案編號2至9當中存在其總計結(jié)果是非零的多個圖案,則重復(fù)決定最大尺寸的特征量,直到該數(shù)量達到要登記的特征量的數(shù)量(在本實施例中,為4)。然而,如上所述,對于一個臉部方向圖案編號,最多登記一個特征量。這也適用于臉部方向模式編號10至25。
如上所述,根據(jù)本實施例,當從檢測到要追蹤的臉部起經(jīng)過預(yù)定時間(在本實施例中,Tp1)時,在核對DB中登記此時段檢測到的臉部特征量。因此,當Tp1被設(shè)置為幾秒至幾十秒時,接近當前時刻的人實質(zhì)上可以被設(shè)置為核對目標。
根據(jù)本實施例,其方向相互不同的臉部的特征量可以與一個對象ID對應(yīng)地被登記在核對DB中。也就是說,由于同一方向上的臉部的特征量沒有被反復(fù)地登記,所以可以防止核對DB不必要地變得龐大。另外,在本實施例中,給向前看的臉部賦予高優(yōu)先級,并且,按優(yōu)先級的順序在核對DB中登記預(yù)定數(shù)量的特征量。這樣使得可以進一步防止核對DB變得龐大,并且可以登記精確的特征量。即使臉部方向相同,也登記可以預(yù)期對于諸如臉部尺寸等的條件具有高精確度的特征量。因此,也可以使核對精確度變高。
請注意,在本實施例中,追蹤處理單元205對追蹤目標臉部進行追蹤,并且,在此時段將特征量和臉部的方向添加至對象追蹤信息。然而,在臉部檢測中,只需要確定對象是否為人臉。因此,可以進行簡單的臉部檢測,并且,在結(jié)束追蹤之后,可以計算要在核對DB中登記的更精確的特征量或臉部方向。
在本實施例中,與一個臉部方向?qū)?yīng)地登記的特征量的數(shù)量是1。如果允許DB稍微龐大,則該數(shù)量可以被設(shè)置為預(yù)定數(shù)量或更小。在這種情況下,可以由用戶設(shè)置預(yù)定數(shù)量(管理員適當?shù)卦O(shè)置該數(shù)量)。
請注意,在本實施例中,已經(jīng)描述這樣的示例,其中,從臉部獲得的臉部特征用作圖像特征,并且,使用該圖像特征進行圖像特征核對。然而,可以使用從比臉部寬的頭部區(qū)域或者直到腳趾的全身區(qū)域獲得的圖像特征。例如,從頭部區(qū)域或全身區(qū)域提取局部二值模式(Local Binary Pattern,LBP)特征量或方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征量并使用該特征量。
在本實施例中,由臉部檢測單元206檢測到的臉部由追蹤處理單元205追蹤。然而,如日本特開2002-373332號公報中所述,可以從運動向量檢測對象,可以估計下一幀中的搜索位置,并且,可以通過模板匹配來進行人追蹤。在這種情況下,從被追蹤的人的位置檢測臉部,并且,如果檢測到臉部,則進行通過臉部檢測對其分類的處理。如果沒有檢測到臉部,則可以將沒有檢測到臉部的圖像分類為一組。如上所述,本實施例可以被廣泛地應(yīng)用于這樣的形式,其中,當檢測人的全身或部位并追蹤檢測到的人全身或部位時,登記從該人的全身或部位提取的特征量。在本實施例中,描述了臉部通過臉部方向被分類并被登記在核對DB中的示例。然而,可以通過例如臉部表情(微笑的臉部、含淚的臉部等)對臉部分類。也就是說,本實施例可以被廣泛地應(yīng)用于將從輸入視頻提取的臉部分類到預(yù)定組(臉部方向或臉部表情)并登記的布置。
[第二實施例]
在第一實施例中,如圖6所示,即使追蹤處理單元205在從時刻t0到t3的時段追蹤人A,獨立的對象ID也從時刻t0至t5、從時刻t5至t6和從時刻t6至t7被登記在DB中。在第二實施例中,將描述在從時刻t0至t3的區(qū)間中使用一個公共對象ID的示例。更具體地,在時刻t5和t6,連續(xù)地使用由追蹤處理單元205在時刻t0創(chuàng)建的對象追蹤信息。
控制處理單元211和圖像特征存儲單元202的處理不同于第一實施例。下面將描述與第一實施例的不同之處。
只有當正在進行連續(xù)追蹤時,控制處理單元211不執(zhí)行步驟S89。換句話說,只有當人不可追蹤時,控制處理單元211刪除登記的對象追蹤信息。另外,替代步驟S88,控制處理單元211進行如下處理,將對應(yīng)的對象追蹤信息中的追蹤計數(shù)402遞增“1”,并且,將結(jié)束幀編號更新為“當前組編號+F×Tp2”(F是由攝像機攝像的幀速率)。
在接收到具有與在核對DB中已經(jīng)登記的對象ID相同的ID的對象追蹤信息的登記請求時,圖像特征存儲單元202通過將該請求視為更新對應(yīng)的對象ID的登記的特征量的請求來進行處理。
結(jié)果是,例如,在圖6所示的時刻t5,在核對DB中登記在“t0-t5”區(qū)間中通過追蹤處理獲得的人A的特征量。因此,如第一實施例中一樣,在開始追蹤人A時的早期階段(對應(yīng)于時間Tp1的時段)的特征量可以被設(shè)置為核對目標。在時刻t6,更新在區(qū)間“t0-t6”中通過追蹤處理獲得的具有相同的對象ID的人A的特征量。也就是說,只要進行連續(xù)的追蹤,要登記的特征量的數(shù)量就決不增加。另外,隨著時間流逝,追蹤間隔變長。因此,可以提高要登記的特征量的可靠性。
上面描述了第一實施例和第二實施例。在這些實施例中,在核對DB中與一個臉部方向?qū)?yīng)地登記一個特征量。然而,可以設(shè)置與一個臉部方向?qū)?yīng)的可登記的特征量的數(shù)量。在這些實施例中,在連續(xù)追蹤中使用兩種時間Tp1和Tp2。然而,可以根據(jù)追蹤計數(shù)改變這些時間。
其他實施例
還可以通過讀出并執(zhí)行記錄在存儲介質(zhì)(也可更完整地稱為“非暫時性計算機可讀存儲介質(zhì)”)上的計算機可執(zhí)行指令(例如,一個或更多個程序)以執(zhí)行上述實施例中的一個或更多個的功能、并且/或者包括用于執(zhí)行上述實施例中的一個或更多個的功能的一個或更多個電路(例如,專用集成電路(ASIC))的系統(tǒng)或裝置的計算機,來實現(xiàn)本發(fā)明的實施例,并且,可以利用通過由系統(tǒng)或裝置的計算機例如讀出并執(zhí)行來自存儲介質(zhì)的計算機可執(zhí)行指令以執(zhí)行上述實施例中的一個或更多個的功能、并且/或者控制一個或更多個電路以執(zhí)行上述實施例中的一個或更多個的功能的方法,來實現(xiàn)本發(fā)明的實施例。計算機可以包括一個或更多個處理器(例如,中央處理單元(CPU),微處理單元(MPU)),并且可以包括分開的計算機或分開的處理器的網(wǎng)絡(luò),以讀出并執(zhí)行計算機可執(zhí)行指令。計算機可執(zhí)行指令可以例如從網(wǎng)絡(luò)或存儲介質(zhì)被提供給計算機。存儲介質(zhì)可以包括例如硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、分布式計算系統(tǒng)的存儲器、光盤(諸如壓縮光盤(CD)、數(shù)字通用光盤(DVD)或藍光光盤(BD)TM)、閃存裝置以及存儲卡等中的一個或更多個。
本發(fā)明的實施例還可以通過如下的方法來實現(xiàn),即,通過網(wǎng)絡(luò)或者各種存儲介質(zhì)將執(zhí)行上述實施例的功能的軟件(程序)提供給系統(tǒng)或裝置,該系統(tǒng)或裝置的計算機或是中央處理單元(CPU)、微處理單元(MPU)讀出并執(zhí)行程序的方法。
雖然參照示例性實施例對本發(fā)明進行了描述,但是應(yīng)當理解,本發(fā)明不限于所公開的示例性實施例。應(yīng)當對所附權(quán)利要求的范圍給予最寬的解釋,以使其涵蓋所有這些變型例以及等同的結(jié)構(gòu)和功能。