專利名稱:按照事件的多層圖像聚類的制作方法
背景技術(shù):
為了便于檢索、回顧、成冊以及其它對圖像的處理,圖片的圖像和其它記錄經(jīng)常按照事件分類。通常,這是通過手動或自動的方法來實現(xiàn)的。在某些情況下,圖像和其它記錄已經(jīng)通過將事件劃分為子事件而被進一步分類。有時提供進一步的劃分。
雖然當前所知和被利用的用于區(qū)分圖像的方法是令人滿意的,但是它們也有缺點。手動分類很有效,但是除非圖像數(shù)量很小,否則其速度慢且任務(wù)繁重。自動的方法是可用的,但是它們趨向于具有大量限制,諸如由于缺乏連貫性、靈活性和精確性而造成的固有的不準確。
一些自動的方法將圖像區(qū)分為具有基于顏色、形狀或紋理的相似圖像特征的組。該方法可被用于按照事件分類,但是當用于該目的時,該方法固有地是困難的。Lim,J-H等人在IEEE Multimedia,Vol.10(4),Oct.-Dec.2003,第28-37頁上發(fā)表的“Home PhotoContent Modeling for Personalized Event-Based Retrieval”揭示了利用圖像內(nèi)容按照事件的圖像分類。
很多圖像伴有元數(shù)據(jù),即可用于幫助對圖像進行分組的相關(guān)聯(lián)的非圖像信息。這種元數(shù)據(jù)的一個例子是諸如日期和時間的按時間順序的數(shù)據(jù),以及諸如全球定位系統(tǒng)(“GPS”)地理定位數(shù)據(jù)的地理數(shù)據(jù)。由于事件是時間限制并通常是空間限制的,因此這些類型的數(shù)據(jù)特別適用于按照事件進行分組。很久以來,用戶通過查看每一個圖像并按照時間順序和地理分類,對圖像進行手動分組。上述所引用的Lim等人的文章中提出了在利用圖像內(nèi)容的按照事件的自動圖像分類中對時間順序和地理數(shù)據(jù)的使用。
于2003年8月12日出版的A.Loui和E.Pavie的編號為6,606,411名稱為“Amethod for automatically classfying imageinto events”的美國專利,以及于2002年2月26日出版的A.Loui和E.Pavie的編號為6,351,556名稱為“A method for automaticallycomparing content of images for classification into events”的美國專利揭示了利用二手段(two-means)事件聚類算法按照事件來聚類圖像內(nèi)容。二手段事件聚類利用時間和圖像內(nèi)容來分組圖像。
該二手段算法在兩個總的步驟中建立事件邊界。首先,基于圖像之間的時間差別將集合劃分為各個事件。然后將各圖像跨過事件邊界進行比較,需要的話合并事件。一旦利用上面的程序建立起事件邊界,就采取附加的步驟來進一步將事件劃分為子事件。如同事件檢測,該過程包括多個步驟,并考慮圖像內(nèi)容和日期-時間。然而,這兩個信息源的角色被顛倒過來。該算法首先比較相鄰圖像的內(nèi)容,并試驗性地標記子事件的邊界。然后根據(jù)日期-時間信息檢查這些子事件,如果邊界與真實的時間差別不符合,則將這些子事件合并。
盡管由這些參考文獻所教導(dǎo)的二手段算法可以得到合理的或良好的結(jié)果,但廣泛的測試表明其連貫性存在問題。當圖像集包括大的時間差別時,它們通常偏移這些值,造成較少找到的事件。在最極端的情況下,加入單個圖像阻止了所有其它事件的檢測。該連貫性問題是一個缺點。
因此,希望能夠提供自動的聚類方法、計算機程序和設(shè)備,能夠相對連貫地以相對較低的錯誤率對大的圖像集合進行自動分類和分級。
發(fā)明內(nèi)容
本發(fā)明由權(quán)利要求所定義。本發(fā)明在較寬的方面,提供了一種基于諸如與每個記錄相關(guān)聯(lián)的時間和/或定位的特征值,將記錄序列分類為事件的方法。該方法中,連續(xù)記錄之間的特征差別被確定。特征差別被秩評定(ranked)。三個或更多特征差別聚類的序列被計算。這些聚類按照代表事件之間區(qū)別的各個特征差別相對似然度的降序而被安排。這些記錄可以包含圖像。
本發(fā)明的有益效果是,提供了改善的自動聚類方法、計算機程序和設(shè)備,它們能夠相對連貫地以相對較低的錯誤率對大的圖像集合進行自動分類和分級。
參考以下對本發(fā)明實施例的描述,并結(jié)合附圖,本發(fā)明的上述及其它特征和目標以及獲得它們的方式將變得更加明顯,本發(fā)明本身也將更加好懂,其中圖1是顯示該方法特征的流程圖。
圖2是該系統(tǒng)的實施例的簡圖。
圖3是解釋圖1的方法中分類為聚類的圖。
圖4是圖1方法的實施例中時間差別的直方圖。邊界和聚類被指示。
圖5-6是解釋了圖1方法的另一個實施例中目標范圍應(yīng)用的直方圖。
圖7是對于一個圖像數(shù)據(jù)庫,實驗地確定的總的事件比例對時間差別的繪圖。
圖8是與圖7相同的繪圖,添加了聚類層的邊界。
圖9是集合與全局事件發(fā)生率之間的差別對圖7數(shù)據(jù)的事件比例的繪圖。
具體實施例方式
該方法中,基于記錄之間的特征值差別代表事件之間區(qū)別的不同的相對似然度,記錄的數(shù)據(jù)庫被分類為多個不同的聚類和余項。
在下面的描述中,本發(fā)明的一些實施例將被作為軟件程序來描述。本領(lǐng)域普通技術(shù)人員將會很容易地認識到,這些軟件的等價物也可以用硬件來構(gòu)造。記錄通常描述為與圖像和圖像序列有關(guān)。其它類型的記錄單獨地或以與圖像和圖像序列任意組合的形式而被以相似的方式處理,但是被修改以提供適當?shù)妮敵霾顒e。輸出可以由反映聚類結(jié)果的信息的通信來提供。
由于圖像處理算法和系統(tǒng)是公知的,本發(fā)明的描述將特別地直接針對形成根據(jù)本發(fā)明方法或者與本發(fā)明方法更直接地協(xié)作的部分的系統(tǒng)。這些算法和系統(tǒng)的其它方面,以及用于產(chǎn)生和以其它方式處理其所涉及的圖像信號的硬件和/或軟件,在這里沒有被特別示出或描述的,可以從本領(lǐng)域中已知的這些系統(tǒng)、算法、組件以及元件中選擇。給出如下面的說明書所做出的描述以后,其所有的軟件實施是方便的,并在本領(lǐng)域的常規(guī)技術(shù)中。
本發(fā)明可以在計算機硬件和計算機化的裝備中實施。例如,本方法可以在數(shù)碼相機、數(shù)字打印機以及在個人計算機中實現(xiàn)。參見圖2,示出了用于實施本發(fā)明的計算機系統(tǒng)110。盡管計算機系統(tǒng)110是為了解釋優(yōu)選實施例而示出,但是本發(fā)明不限于所示出的計算機系統(tǒng)110,它也可以被用在任意的電子處理系統(tǒng)上,諸如建立在數(shù)碼相機、家用計算機、電話亭、零售或批發(fā)照相洗印,或任意其它處理數(shù)字圖像的系統(tǒng)中。計算機系統(tǒng)110包括基于微處理器的單元112(這里也稱為數(shù)字圖像處理器),用于接收并處理軟件程序并執(zhí)行其它處理功能。顯示器114被電連接到基于微處理器的單元112,用于顯示與軟件相關(guān)聯(lián)的用戶相關(guān)信息,例如通過圖形用戶接口。鍵盤116也被連接到基于微處理器的單元112,用于允許用戶向軟件輸入信息。作為對利用鍵盤116進行輸入的替代,鼠標11 8可以被用于移動顯示器114上的選擇器120,以及用于選擇選擇器120所覆蓋在上面的選項,這在本領(lǐng)域是公知的。
通常包括軟件程序的只讀光盤存儲器(CD-ROM)124被插入到基于微處理器的單元,用于提供向基于微處理器單元112輸入軟件程序和其它信息的裝置。另外,軟盤126也可以包括軟件程序,并被插入到基于微處理器的單元112,用于輸入軟件程序。可替代地,只讀光盤存儲器(CD-ROM)124或軟盤126可被插入到位于外部的磁盤驅(qū)動單元122,該磁盤驅(qū)動單元122被連接到基于微處理器的單元112。更進一步,如本領(lǐng)域所公知的,基于微處理器的單元112可以被編程,以便在內(nèi)部存儲軟件程序?;谖⑻幚砥鞯膯卧?12還可以具有網(wǎng)絡(luò)連接127,諸如電話線,連接到諸如局域網(wǎng)或互聯(lián)網(wǎng)的外部網(wǎng)絡(luò)。打印機128也可以被連接到基于微處理器的單元112,以便對從計算機系統(tǒng)110輸出的硬拷貝進行打印。
圖像也可以經(jīng)由個人計算機卡(PC卡)130而被顯示在顯示器114上,該個人計算機卡(PC卡)130諸如原來所公知的PCMCIA卡(基于個人計算機存儲卡國際聯(lián)盟的規(guī)范),它包括電子地嵌入在卡130中的數(shù)字化的圖像。該PC卡130最后被插入到基于微處理器的單元112,用于允許圖像在顯示器114上的視覺顯示。可替代地,PC卡130可被插入到位于外部的PC卡閱讀器132,該PC卡閱讀器132被連接到基于微處理器的單元112。圖像還可以經(jīng)由光盤124、軟盤126或網(wǎng)絡(luò)連接127而被輸入。存儲在PC卡130、軟盤126或光盤124上,或通過網(wǎng)絡(luò)連接127輸入的任何圖像,可以通過諸如數(shù)碼相機(未示出)或掃描儀(未示出)的各種來源而得到。圖像還可以經(jīng)由連接到基于微處理器的單元112的相機對接端口136直接從數(shù)碼相機134輸入,或者經(jīng)由連接到基于微處理的單元112的電纜連接138或經(jīng)由連接到基于微處理的單元112的無線連接140,直接從數(shù)碼相機134輸入。
輸出設(shè)備提供已經(jīng)經(jīng)歷過變換的最終圖像。輸出設(shè)備可以是打印機或其它提供紙件或其它硬拷貝最終圖像的輸出設(shè)備。輸出設(shè)備還可以是將最終圖像作為數(shù)字文件提供的輸出設(shè)備。輸出設(shè)備還可以包括輸出的組合,諸如打印的圖像和諸如CD或DVD的存儲單元上的數(shù)字文件。
本發(fā)明可以與多種產(chǎn)生數(shù)字圖像的捕獲設(shè)備一起使用。例如,圖2可以表示數(shù)字照相洗印系統(tǒng),其中圖像捕獲設(shè)備是用于在彩色底片或反轉(zhuǎn)膠片上捕獲場景的常規(guī)感光膠片照相機,以及用于在膠片上掃描顯影圖像并產(chǎn)生數(shù)字圖像的膠片掃描設(shè)備。捕獲設(shè)備還可以是具有電子成像器的電子捕獲單元(未示出),該電子成像器諸如電荷耦合裝置或CMOS成像器。電子捕獲單元可以具有模數(shù)轉(zhuǎn)換器/放大器,該模數(shù)轉(zhuǎn)換器/放大器從電子成像器接收信號,放大信號并將信號轉(zhuǎn)換為數(shù)字形式,然后將圖像信號傳輸?shù)交谖⑻幚砥鞯膯卧?12。
基于微處理器的單元112提供處理數(shù)字圖像的工具,以便在預(yù)期輸出設(shè)備或媒體上生成令人喜愛的圖像。本發(fā)明可以與各種輸出設(shè)備一起使用,該輸出設(shè)備可以包括但不局限于數(shù)字照相打印機和軟拷貝顯示器?;谖⑻幚砥鞯膯卧?12可被用于處理數(shù)字圖像,以便以這樣的方式對數(shù)字圖像的全部的亮度、色階、圖像結(jié)構(gòu)等做出調(diào)整,使得令人喜愛的圖像可以由圖像輸出設(shè)備產(chǎn)生。本領(lǐng)域普通技術(shù)人員將認識到,本發(fā)明不局限于僅僅這些提到的圖像處理功能。
數(shù)字圖像包括一個或更多數(shù)字圖像通道或顏色成分。每個數(shù)字圖像通道是像素的二維陣列。每個像素值與成像捕獲設(shè)備對應(yīng)于像素的物理區(qū)域所接收到光的數(shù)量有關(guān)。對于彩色成像應(yīng)用,數(shù)字圖像將常常由紅、綠和藍數(shù)字圖像通道組成。運動成像應(yīng)用可被認為是數(shù)字圖像的序列。本領(lǐng)域普通技術(shù)人員將會認識到,本發(fā)明可應(yīng)用于但不局限于用于這里所提到的任何應(yīng)用的數(shù)字圖像通道。盡管數(shù)字圖像通道描述成被安排為行和列的像素值二維陣列,但本領(lǐng)域普通技術(shù)人員將會認識到,本發(fā)明可應(yīng)用在具有相同效果的非直線陣列。
圖2所示的通常的控制計算機可以將本發(fā)明存儲為計算機程序產(chǎn)品,該計算機程序產(chǎn)品具有存儲在計算機可讀存儲介質(zhì)上的程序,該計算機可讀存儲介質(zhì)可以包括,例如諸如磁盤(諸如軟盤)或磁帶的磁存儲介質(zhì);諸如光盤、光帶或機器可讀條形碼的光存儲介質(zhì);諸如隨機訪問存儲器(RAM)或只讀存儲器(ROM)的固態(tài)電子存儲設(shè)備。本發(fā)明相關(guān)聯(lián)的計算機程序?qū)嵤┻€可以存儲在任意其它用于存儲由離線存儲裝置所指示的計算機程序的物理設(shè)備或介質(zhì)中。在描述本發(fā)明之前,注意到本發(fā)明可以被利用在任意的諸如個人計算機的公知計算機系統(tǒng)中,這將方便我們的理解。
應(yīng)該注意,本發(fā)明可以以軟件和/或硬件組合的形式來實施,并且不限于被物理連接和/或位于相同物理位置內(nèi)部的設(shè)備。圖2中所示的一個或更多設(shè)備可以被定位在遠處,并經(jīng)由網(wǎng)絡(luò)連接。一個或更多設(shè)備可被無線連接,諸如通過射頻鏈接,或者直接或經(jīng)由網(wǎng)絡(luò)連接。
本發(fā)明可以被用于各種用戶情境和環(huán)境。示例性的情境和環(huán)境不受限制地包括,批發(fā)數(shù)字照相洗印(它涉及示例性的處理步驟或階段,諸如膠片導(dǎo)入(filmin)、數(shù)字處理、打印出來)、零售數(shù)字照相洗印(膠片導(dǎo)入、數(shù)字處理、打印出來)、家庭打印(家庭掃描的膠片或數(shù)字圖像、數(shù)字處理、打印出來)、桌面軟件(將算法應(yīng)用到數(shù)字打印以便使它們更好——或甚至只是改變它們的軟件)、數(shù)字實現(xiàn)(來自介質(zhì)或通過網(wǎng)頁的數(shù)字圖像導(dǎo)入、數(shù)字處理、介質(zhì)上的數(shù)字形式或通過網(wǎng)頁的數(shù)字形式或打印在硬拷貝打印上的圖像輸出)、電話亭(數(shù)字或掃描的輸入、數(shù)字處理、數(shù)字或硬拷貝輸出)、移動設(shè)備(例如可以被用作處理單元、顯示單元或給出處理指令單元的PDA或蜂窩電話),以及作為經(jīng)由萬維網(wǎng)提供的服務(wù)。
在每種情況下,本發(fā)明可以是獨立的,也可以是大的系統(tǒng)解決方案的一部分。此外,人的界面,例如掃描或輸入、數(shù)字處理、對用戶的顯示器(如果需要的話)、用戶輸入要求或處理指令(如果需要的話)、輸出,每一個都可以在相同或不同的設(shè)備和物理位置上,設(shè)備和位置之間的通信可以經(jīng)由公共的或私有的網(wǎng)絡(luò)連接,或基于介質(zhì)的通信。其中與本發(fā)明的前面公開一致的是,本發(fā)明的方法可以完全是自動的,可以具有用戶輸入(是完全或部分手動的),可以使用戶或操作者能夠回顧,以便接受/拒絕結(jié)果,或者可以有元數(shù)據(jù)(可以是用戶提供的、測量設(shè)備(例如照相機)提供的,或者是由算法確定的元數(shù)據(jù))幫助。此外,算法可以與各種工作流用戶界面方案對接。
本發(fā)明包括這里所述實施例的組合。參考“特定實施例”等等是指出現(xiàn)在本發(fā)明至少一個實施例中的特征。單獨地參考“一個實施例”或“特定實施例”等等不一定是指相同的實施例;然而,這些實施例不是相互排斥的,除非指示出它們是互相排斥的,或者這對本領(lǐng)域普通技術(shù)人員來說是顯而易見的。
該方法利用與單獨圖像相關(guān)聯(lián)的和/或由單獨圖像導(dǎo)出的特征值來分類。特征值可以代表元數(shù)據(jù)或由元數(shù)據(jù)導(dǎo)出,元數(shù)據(jù)就是以某種允許信息與圖像一起被傳輸?shù)姆绞脚c單獨圖像相關(guān)聯(lián)的非圖像信息。例如,元數(shù)據(jù)有時與圖像信息被提供在相同的文件中。這些信息的例子包括日期、時間、閃燈對焦(flash firing)、光源類型、透鏡焦距、GPS數(shù)據(jù)、照相機類型、照相機序列號以及用戶名。
“特征值”可以代表任意種類的非圖像信息,該非圖像信息可以以次序的允許特征值秩評定的形式出現(xiàn)。在這里特征值被作為數(shù)值對待。將會明白,如果特征值是非數(shù)值的,則將會在使用時提供轉(zhuǎn)換,轉(zhuǎn)換為與事件有關(guān)的差別成比例的數(shù)值。適用于圖像類型記錄(是圖像或包括圖像的記錄)的不同類型特征值的一些例子如下時間、日期、日期-時間(日期和時間)、位置、人的出現(xiàn)、特定個體的出現(xiàn)、場景類型、圖像特性,該圖像特性諸如色彩(colorfulness)、顏色類型、清晰度以及兩個或更多這些因素的組合。
這些方法對于利用非圖像信息,根據(jù)事件對圖像進行分組來說大多是有益的,該非圖像信息可以具有大量的可能值,諸如時間順序數(shù)據(jù)和地理數(shù)據(jù)。這些數(shù)據(jù)可以被概括成提供與參考之間的差別或數(shù)據(jù)內(nèi)部的差別。如果關(guān)聯(lián)特征值的信息和單獨圖像沒有丟失的話,則該特征值通常與相關(guān)聯(lián)的圖像文件一起提供,但是可以與圖像文件分離。
如果特征值在給定數(shù)據(jù)庫中是唯一的,則是方便的;如果不是唯一的,則可以提供秩排序(rankordering)規(guī)則,以便允許對副本進行秩評定。秩排序規(guī)則可以任意地排序副本,或者基于附加測度,諸如其它與圖像相關(guān)聯(lián)的元數(shù)據(jù)。副本特征值對聚類的影響并不重要,除非副本的相對百分比很大。在這種情況下,利用特定特征的聚類與實際事件不緊密相關(guān),改變用于聚類的特征是可取的。
用于秩評定的特征值中的差別可以相對于已經(jīng)建立的標準,諸如日期和時間或GPS地理坐標。該差別還可以相對于任意的參考。(為了方便起見,下面的很多討論涉及基于時間順序和/或地理的特征值。)例如,一個或幾個照相機可以與任意的參考時間同步。同樣地,特定的GPS坐標設(shè)置可以被選擇作為用于后面距離測量的任意的起始點。參考本身不一定需要時間或地點固定。距離可以是相對于參考照相機或其它可移動特征。以相同的方式,時間可以以與特定參考時間或最近的參考時間序列之間的差別來測量。例如,圖像可以由多個獨立操作的照相機提供。可移動的參考可被指定為其中一個照相機。在該情況下,當圖像由其它照相機捕獲時,參考照相機可以具有不同的絕對空間位置,且差別可以是來自參考照相機的在不同圖像的捕獲時間的區(qū)別。
對于圖像集合的內(nèi)部差別可以是來自集合中一個或更多其它鄰近的或相關(guān)圖像的圖像的差別。方便的差別來自于最近鄰的或排序順序中前面的圖像。來自最初在膠片上捕獲的圖像的元數(shù)據(jù)通常包括該信息。數(shù)字照相機通常以順序的方式向圖像分配文件名。內(nèi)部差別的特定例子包括流逝的時間和距前面圖像的距離。
內(nèi)部差別可以基于所有記錄或預(yù)先確定大小的子集的平均。該平均可以是算術(shù)平均。其它“平均”諸如中位數(shù)和模(median and mode),可以在適當?shù)臅r候使用。
在這里總體上討論的特征是標量(即,特征值具有一個維度)。特征值可以具有更高的維度。例如,方便的特征可以是日期-時間和地理距離的向量。當具有更高維度的特征時,邊界可以以多種方式選擇。例如,向量的分量可以被標度并結(jié)合成單一的標量值。該標量值然后可以作為標量特征,利用如二手段聚類的技術(shù)以相同的方式聚類。在其它方法中,利用用于標量特征的聚類技術(shù),對向量的每個分量可以找到單獨的邊界。向量本身可以基于分量組的聯(lián)合或交叉而被分類。例如,考慮時間差別和地理距離的向量。利用二手段聚類,在或多或少可能是事件的時間差別之間找到邊界。利用用于距離分量的二手段聚類找到相似的邊界。然后基于分量的聚類,時間差別和距離的向量被分類。如果向量的兩個分量都被認為更有可能是事件,則該向量就被認為更有可能是事件,否則該向量被認為不大可能是事件。
特征值可以是不同記錄相似度的測度。例如,對圖像來說,圖像內(nèi)容相似度的特征值可以是基于諸如圖像對比度、動態(tài)范圍以及顏色特性的測度。其它基于圖像內(nèi)容的特征值是按照時間順序排列的圖像的塊直方圖差別。在這種情況下,圖的水平軸代表決直方圖差別,它是兩個按照時間順序相繼排列的圖像的相對差別(或不相似度)的測度。在事件內(nèi)部一對圖像之間的直方圖差別將會很小,而在事件邊界上的一對圖像之間的相應(yīng)差別將會相對較大。塊直方圖差別還可以與以其它方式排列的數(shù)據(jù)或沒有排列順序的數(shù)據(jù)一起使用。
決直方圖差別被方便地作為從單位1(或其它與單位元相關(guān)聯(lián)的值)中減去塊直方圖相似度后的余項來提供。塊直方圖相似度可以以本領(lǐng)域技術(shù)人員所公知的方式來確定,諸如在專利號為6,351,556的美國專利中所描述的程序,在這里通過引用將其結(jié)合進來。
在特定的實施例中,塊直方圖差別由下列方程來表示塊直方圖差別=1-Inter(R,C)其中Inter(R,C)是直方圖交叉方程Inter(R,C)=Σi=1nmin(Ri,Ci)Σi=1nRi]]>其中R和C是兩個相繼的圖像(也被分別稱為參考圖像和候選圖像),n是直方圖中bin的數(shù)量。
一種可替代的利用預(yù)先確定的閾值的塊直方圖差別確定方法也是適合的,它被公開在編號為6,606,411的美國專利中,在這里通過引用將其結(jié)合進來。
特征值可選地在進行平均之前用標度函數(shù)進行標度。該標度函數(shù)是連續(xù)數(shù)學函數(shù),它是可逆的,并具有正的、下降的斜率。因此,該標度函數(shù)保留小的特征值差別,并壓縮大的特征值差別。用于特定用途的標度函數(shù)可以試探性地確定。特征值可被安排在直方圖中,特征值利用標度函數(shù)進行修改,以提供標度的直方圖。
這里討論的方法總得來說是在對數(shù)據(jù)庫中的所有記錄進行分類的情境中。不一定非得這樣。例如,一些記錄可以被手動或自動地排除在聚類之外。該方法還可以針對預(yù)先存在的組的代表性記錄進行分組。從這個角度說,在這里與該方法相關(guān)地進行討論的術(shù)語“記錄的數(shù)據(jù)庫”可以被認為是代表記錄的集合,該集合能夠在特定時間聚類,且特征區(qū)別是在該集合的記錄之間。這樣的記錄集合可以與潛在的物理或邏輯記錄集合共同擴展,也可以不與潛在的物理或邏輯記錄集合共同擴展。
圖1是顯示該方法總體的流程圖。數(shù)字化的記錄被輸入到計算機系統(tǒng),其中本發(fā)明的軟件程序?qū)⑺鼈兎诸悶榛ゲ幌嗤姆N類。這些記錄被按照特征值順序秩評定(除非這已經(jīng)進行過了),并且記錄被提供(10)用于分類。在記錄是圖像且秩評定特征是各個圖像的捕獲日期和時間的實施例中,圖像按照時間順序而秩評定。
連續(xù)記錄之間的特征值差別(在這里也被稱為“特征差別”)接下來被確定(20)。例如,這可以是與圖像相關(guān)聯(lián)的捕獲日期-時間值之間的時間差別。特征差別以直方圖或其它形式按照秩排列(rankordered)(30)。直方圖的一個例子被示于圖4中。在這種情況下,特征是時間,直方圖的橫坐標是以諸如分鐘為單位的時間差別,直方圖的縱坐標是具有所指示的時間差別的圖像的數(shù)量。圖像由變暗的塊來指示。三個聚類之間的邊界由虛線80來顯示。
直方圖或其它秩評定可以利用時間差別標度函數(shù)而被標度,以提供標度的直方圖來代替初始的直方圖。該標度是為了更方便地對具有大范圍值的特征差別進行處理,這些值能夠在沒有不能接收的信息丟失的情況下而被壓縮。在剛剛討論的實例直方圖中,這樣的標度可以減小整個的時間差別范圍,而保留小的時間差別并壓縮大的時間差別。該標度可以被選擇,使得在后面的分類步驟中,壓縮不改變聚類。
以秩(rank)排列的特征差別定義了未聚類的差別集。然后,通過從未聚類的差別集中劃分(40)代表事件之間間隔的特征差別的聚類而開始聚類過程。這也可被描述為算出或計算第一聚類以及該聚類與剩余的特征差別之間的第一邊界。第一聚類中的特征差別比剩余的特征差別更可能代表事件之間的區(qū)別。用于計算的特定程序?qū)⒃谙旅嬖敿氂懻摗?br>
事件是記錄的分組,該分組反映了信息(記錄基于該信息)中的分組。例如,當被用于與圖像捕獲有關(guān)時,術(shù)語“事件”在這里被定義為由圖像捕獲設(shè)備的用戶主觀認定的重要的出現(xiàn)或發(fā)生?!斑吔纭笔窃谥狈綀D或其它特征值差別秩評定中的數(shù)值水平,該特征值差別將兩個具有事件的不同似然度的組區(qū)別開來。
除了定義第一聚類,邊界將特征值差別的余數(shù)重新定義(50)為未聚類的差別集,用于下一個聚類和下一個邊界的計算(40)。(每個計算步驟(40)在這里也被稱作“層”。第二邊界定義第二聚類,并再一次將剩余的未聚類的特征差別重新定義(50)為未聚類的差別集,用于下一次迭代。
參見圖3,重復(fù)的計算步驟的結(jié)果是時間差別的三個或更多互相排斥的聚類的序列,以各時間差別在事件之間的相對似然度的降序排列。換句話說,首先計算具有這樣的特征差別的聚類,該特征差別具有代表事件之間區(qū)別的最大似然度;然后第一聚類的特征差別從未聚類的差別集中移除,并且計算下一個具有特征差別的聚類,該特征差別具有代表事件之間區(qū)別的次最大似然度。該程序可以重復(fù)順序地進行,將聚類從未聚類的差別集中區(qū)分出來。該區(qū)分提供了以代表事件之間區(qū)別的各個特征差別相對似然度的降序排列的聚類。
當所有的邊界都被計算之后剩余的最后的未聚類差別集在這里也被稱為最終“聚類”。在所有層都被確定之后的剩余特征差別的最終聚類代表一組特征差別,該組特征差別最不可能代表事件之間的區(qū)別,也就是說,最終聚類是一組事件內(nèi)部的特征差別。該最終聚類也可以被稱作“非事件”聚類。
層的計算繼續(xù)(60)進行預(yù)先確定數(shù)目的迭代,或者直到達到停止標準。合適的停止標準的一個例子是限制特征差別(limit featuredifference)。在這種情況下,特征差別聚類的計算繼續(xù)進行,直到達到限制特征差別。這可以例如通過在該聚類的計算之后,在每個時間差別聚類中檢查特征差別的范圍來確定。如果找到了限制特征差別,該聚類就被丟棄,序列恢復(fù)到在前次迭代時出現(xiàn)的特征差別聚類。向前看(forward-looking)的程序可替代地被用于做出同樣種類的決定。在特定實施例中,特征差別是時間差別,限定特征差別(停止標準)是在8到60分鐘范圍內(nèi)的最小持續(xù)時間,或者更優(yōu)選地是16分鐘。(在這里,時間包括通過舍入到所指示的值所提供的范圍。)停止標準可以是用于停止的用戶決定。例如,用戶界面可以顯示每層計算之后的事件組織。在檢查完聚類之后,用戶可以決定是否想要更精細的事件區(qū)別。如果想要更精細的區(qū)別,則可以計算附加的層,直到用戶滿意或達到其它的停止標準。
邊界和聚類的計算可以利用各種不同的程序來進行,程序包括如在編號為No.6,606,411的美國專利中所公開的二手段事件聚類。在二手段事件聚類中,基于特征差別的事件區(qū)別利用叫作兩組K手段(K-means)程序(即二手段)的算法來完成。在二手段算法中,特征差別被分為兩組,使得來自組的手段(means)的變化被最小化。該邊界劃分兩個組。
邊界和聚類的計算還可以利用基于方差的事件聚類算法來進行,該算法被公開在美國專利申請序列號為No.10/997,411,2004年11月17日提交的,名稱為“VARIANCE-BASED EVENT CLUSTERING”的文獻中。該基于方差的算法計算諸如標準偏差的所有特征差別的均值和方差測度,基于這些值確定邊界。脫離集合均值大于一定數(shù)量的標準偏差的任意時間差別被認為是事件。從集合的均值和標準偏差計算得到標準偏差的精確值、事件閾值。從特征值的方差度量的計算符合一般的統(tǒng)計程序。方差度量是與相對于特定均值的值的集合的方差有關(guān)的統(tǒng)計參數(shù)。適當?shù)姆讲疃攘康睦影藴势?、方差、平均偏差以及樣本方差。能夠比得上序列號為No.10/997,411的美國專利申請的分組閾值的邊界,是相對于方差度量而被設(shè)置的。例如,當方差度量是標準偏差時,邊界是標準偏差的倍數(shù)。用于特定用途的適當?shù)谋稊?shù)可以利用示例性的圖像集而被試探性地確定。
該方法還可以與其它分組方法一起使用,包括試探性聚類。
不同的分組方法可被用于不同的層。例如,二手段聚類可被用于計算第一聚類,隨后利用基于方差的聚類來計算第二聚類,等等。這種方法的一個優(yōu)點在于,更快但不太精確的方法可被用于一個或更多更早的層,而更慢但更精確的方法可被用于后面的層。這樣減少了聚類的整個計算時間,而不會全面喪失精確度。該方法的其它優(yōu)點在于,它允許對每個層使用最合適的方法。例如,二手段聚類技術(shù)的特性可以使其比基于方差的聚類更適用于在大的特征差別中尋找邊界。對于不同層的方法的適用性可以通過測試圖像數(shù)據(jù)庫而試探性地確定。
在對特征差別聚類之后,聚類被指定(90)。指定確定了在進一步的使用、向用戶呈現(xiàn)、進一步的分析等期間數(shù)據(jù)庫中事件的組織。除了最后一個特征差別聚類以外,所有的特征差別聚類都可以被指定為具有事件之間的特征差別,最后一個特征差別聚類可以被指定為事件內(nèi)部的特征差別的非事件聚類??商鎿Q地,不同聚類或聚類集合可被指定為事件和子劃分,即劃分各個事件的子事件、劃分各個子事件的子子事件等等。在簡單的例子中,每個聚類被指定為不同的級別事件、子事件等等??商鎿Q地,每個水平上聚類的數(shù)目可以大于一和/或可以根據(jù)所述水平而變化。
關(guān)于如何指定特征差別的聚類的判決可以基于對數(shù)據(jù)庫的圖像內(nèi)容的分析和使用相似數(shù)據(jù)庫的經(jīng)驗而試探性地進行。關(guān)于如何指定的判決還可以初始地或作為自動確定的缺省指定的替代而由用戶做出。由于聚類本身不被指定步驟改變,因此通過改變指定幾乎沒有施加計算負擔。因此,用戶可以被允許以不同方式將特征差別的聚類的指定來回地改變,并且在做出最終判決之前觀察結(jié)果。
可以進行進一步的分析。事件中斷可被檢查出來。例如,在圖像數(shù)據(jù)庫的每個事件內(nèi)部,圖像內(nèi)容可被分析,以便確定在時間上最接近鄰近事件的圖像是否可以被保留在由聚類分析確定的事件中,或者鄰近事件是否可以合并在一起。用于這種分析的程序是公知的,諸如前面所述的基于決的直方圖比較程序。當記錄被分組為事件之后,程序可被用于在每個事件內(nèi)部進行進一步的子分類。如前所述的內(nèi)容分析可被用于該目的。前面所述的聚類的重新指定可以在進一步分析之前或之后發(fā)生,取決于方便性和所施加的計算負擔。
該方法允許記錄的不同聚類在進一步的分析中被不同地對待。由于每個聚類包括具有相似的事件概率的記錄,附加的分析步驟可被調(diào)整到那個概率。如果分析是對每個圖像聚類定制的,在結(jié)果中就有更高精確度的可能。方法對于不同層的適用性可以通過對圖像數(shù)據(jù)庫的測試而試探性地確定。
例如,編號為No.6,606,411的美國專利揭示了通過比較跨越兩個事件的多個圖像而檢查事件中斷的方法。對每次圖像比較,使用下面的步驟來確定是否應(yīng)該將事件合并。
(a)將全局直方圖交叉與全局閾值進行比較。如果沒有達到閾值,不合并事件。否則,繼續(xù)進行步驟b。
(b)將塊直方圖交叉與塊的低閾值和塊的高閾值進行比較。如果既沒有達到高閾值也沒有達到低閾值,則不合并事件。如果低閾值和高閾值都被達到,則合并事件。否則,繼續(xù)進行步驟c。
(c)將3段交叉(3-segment intersection)與3段閾值(3-segment threshold)進行比較。如果達到閾值,合并事件。否則,繼續(xù)進行步驟d。
(d)如果圖像被上移、下移、左移或右移,則檢查高的交叉值。如果沒有交叉值是高的,則不合并事件。否則,向高交叉值移動圖像,并從步驟b開始重復(fù)。
在每一步的比較中進行的合并判決依賴于特定的閾值。因此,全局閾值、塊的低閾值、塊的高閾值以及3段閾值對比較結(jié)果有重要影響。如果閾值被降低,則更多的閾值將被達到且更多的事件將被合并;如果閾值被提高,則更少的閾值將被達到且更多的事件將被保留下列。閾值的影響使它們成為用于基于事件之間特征差別聚類的定制的良好目標。當對由從“最有可能是事件”聚類得到的特征差別區(qū)別的事件邊界進行比較時可以使用高閾值。同樣地,當對由從“最不可能是事件”聚類得到的特征差別區(qū)別的事件邊界進行比較時可以使用低閾值。這種定制能夠允許事件邊界比較,以保留更多的最可能的事件區(qū)別,并且合并更多的最不可能的事件區(qū)別。用于不同聚類的閾值的精確值可以靠經(jīng)驗選擇。
序列號為No.10/997,411,2004年11月17日提交的,名稱為“VARIANCE-BASED EVENT CLUSTERING”的美國專利申請公開了一種用于基于位置信息來驗證事件邊界的方法。該方法包括查找特征差別集合的均值和統(tǒng)計變化,并由事件閾值函數(shù)計算事件閾值。從均值變化大于事件閾值的特征差別被認為是事件差別,而剩余的被認為是非事件差別。該方法可被用于確認來自多個層的特征差別聚類的特征差別是否應(yīng)該被認為是代表事件之間的差距。每個聚類的位置信息可以用基于方差的方法來分析,且不同的事件閾值函數(shù)可被用于每個聚類。由于事件閾值函數(shù)影響著那些特征差別被認為代表事件的區(qū)別,因此可以為聚類選擇不同的函數(shù),以在高概率聚類中保留更多的事件邊界,且在低概率聚類中合并更多的邊界。
在特定實施例中,在聚類之前,特征值差別被編輯,以排除那些在一個或更多數(shù)值范圍中的特征值。該技術(shù)對于調(diào)整由如二手段聚類的一些分組方法產(chǎn)生的層的數(shù)目來說可以是有幫助的。如果很多小的特征差別被忽略,則該方法可以識別較大數(shù)量的具有較小聚類的層。可替換地,如果很多大的時間差別被忽略,則該方法可以識別較少數(shù)量的具有較大聚類的層。利用具有日期-時間特征差別的圖像的數(shù)據(jù)庫對該技術(shù)進行的測試指示,編輯以排除小于最小持續(xù)時間的事件差別提供了更加精確的聚類邊界。用于該最小持續(xù)時間的優(yōu)選范圍是2到24分鐘。更優(yōu)選的最小持續(xù)時間是8分鐘。
參見圖5-6,為了提升記錄(諸如不同的圖像集)的不同數(shù)據(jù)庫之間的一致性,在特定實施例中,層區(qū)別(即邊界)可向特定目標范圍平移。每一層的目標范圍由上目標和下目標或邊界來定義。每個范圍的下邊界可以方便地作為下一層的上邊界。可以基于利用記錄的相似收集而試探性確定的值設(shè)置用于每個層的目標范圍。相似性可以手動確定,或者利用圖像的內(nèi)容分析等等。在特定實施例中,目標范圍根據(jù)如下步驟而被應(yīng)用(a)查找邊界(圖5-6中的附圖標記80)。
(b)將邊界與由目標范圍所定義的層的下邊界進行比較。
(c)如果邊界高于下邊界,則接收結(jié)果;否則,繼續(xù)進行步驟d。
(d)重新計算特征差別集上的邊界加上單一的模擬特征差別(圖6中的附圖標記90)等于層的上邊界。模擬特征差別僅僅是為了該計算的目的而被包括,它用于向預(yù)期的范圍平移邊界。
向目標范圍平移邊界可以自動地進行,或者可以與未平移的邊界一起出現(xiàn),作為用戶選擇的可選方案。
實驗該方法的目的是將事件之間差距的概率相似的事件差別分組在一起。該算法通過利用真實的消費者圖像進行測試來對該目標進行評估。12000幅以上的圖像是從15名參與者那里收集到的。每個參與者將他自己的圖像按事件分類。然后邊界用第三方評委來檢查,少量的異常被糾正。得到的對每個集合的事件判斷被相對于標度的時間而被畫出,如圖7。
然后利用這里公開的多層方法,圖像集被分為不同的時間差別范圍(層)。每個時間差別范圍被映射到事件判斷,以查找處在層的開頭和結(jié)尾處的事件部分?;谶@些值,計算事件發(fā)生在該層中的比率。圖8中示出了一個例子,其中每一層的線的斜率描述了事件的發(fā)生率。
對于所有的層,在15個圖像集的每一個中查找事件發(fā)生率。然后將每一層的比率對所有的圖像集取平均,生成每一層的全局事件發(fā)生率。由于每一層意味著代表跨越圖像集的相似的事件概率,因此在層的事件發(fā)生率上應(yīng)該幾乎沒有變化。為了測試該假設(shè),集合之間的差別和全局事件發(fā)生率被在規(guī)則的間隔上測量(參見圖9)。然后將這些誤差值對所有集合取平均,以便為層邊界的集合找到平均的錯誤發(fā)生率。
按照上述方法為多層方法的眾多變化計算錯誤發(fā)生率。正如應(yīng)該預(yù)料到的,影響結(jié)果的主要因素之一是層的數(shù)目。對于少如一層多如九層進行測試。得到的錯誤發(fā)生率的值被示于表1中。對于這些測試,層的目標值被計算為k手段中心(k-means centers)(k等于層的數(shù)目)之間的中間點。
通過該測試,利用層邊界的進一步實驗揭示了,錯誤發(fā)生率確實與事件聚類的性能有關(guān)。利用一或兩層獲得的高錯誤發(fā)生率的值導(dǎo)致相對低的事件聚類質(zhì)量。利用三層的事件聚類性能相當好,并隨著層數(shù)的增加性能提高。正如錯誤發(fā)生率值所預(yù)示的,在大約六層時性能達到峰值,并且性能基本不再隨著附加的層數(shù)而提高。基于這些結(jié)果,三層的最小值是當前優(yōu)選的。
表1
錯誤發(fā)生率的最小化可被用作用于聚類特征差別的停止標準。在這種情況下,用于被分類的數(shù)據(jù)庫的層數(shù)由與試探性地確定的最小錯誤發(fā)生率相對應(yīng)的層數(shù)來設(shè)置,該最小錯誤發(fā)生率是為記錄的相似數(shù)據(jù)庫或為從正在被分類的數(shù)據(jù)庫得到的記錄的采樣而確定的。
權(quán)利要求
1.一種基于與每個記錄相關(guān)聯(lián)的特征值,將所述記錄的序列分類為事件的方法,所述方法包括如下步驟確定連續(xù)的所述記錄之間的特征差別;對所述特征差別進行秩評定;并且計算所述特征差別的三個或更多聚類的序列,所述特征差別按照代表事件之間區(qū)別的各個所述特征差別相對似然度的降序而被安排。
2.根據(jù)權(quán)利要求1所述的方法,進一步包括,將在所述降序中最低的聚類中的各所述特征差別指定為在事件之內(nèi),并將在所述降序中最高的聚類中的各所述特征差別指定為在事件之間。
3.根據(jù)權(quán)利要求2所述的方法,進一步包括,將在所述最低和最高聚類之間的一個或更多中間聚類中的每個所述特征差別指定為在事件之間。
4.根據(jù)權(quán)利要求3所述的方法,進一步包括,分析與所述最高聚類中的各個所述特征差別不同的在至少其中一個所述中間聚類中的各個所述特征差別。
5.根據(jù)權(quán)利要求2所述的方法,進一步包括,將在所述最低和最高聚類之間的至少一個中間聚類中的各個所述特征差別指定為事件的子劃分。
6.根據(jù)權(quán)利要求1所述的方法,進一步包括,響應(yīng)預(yù)先確定的停止標準停止所述計算。
7.根據(jù)權(quán)利要求1所述的方法,進一步包括,在所述序列的所述計算期間將所述聚類重復(fù)地呈現(xiàn)給用戶;并且允許所述用戶在每次所述呈現(xiàn)之后,停止所述計算。
8.根據(jù)權(quán)利要求1所述的方法,其中所述計算進一步包括利用不同的聚類算法,對至少兩個所述聚類進行聚類。
9.一種用于圖像分類的計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括具有計算機程序的計算機可讀存儲介質(zhì),該計算機程序被存儲在計算機可讀存儲介質(zhì)上用于執(zhí)行權(quán)利要求1的步驟。
10.一種基于與每個記錄相關(guān)聯(lián)的特征值,將所述記錄的序列分類為事件的方法,所述方法包括如下步驟確定連續(xù)的所述記錄的特征值之間的差別以提供特征差別;對所述特征差別進行秩評定,以提供未聚類的差別集;并且按順序?qū)⑺鎏卣鞑顒e的多個聚類從所述未聚類的差別集中劃分出來,所述聚類是互相排斥的,所述劃分是按照代表事件之間區(qū)別的各個所述特征差別相對似然度的降序進行。
11.根據(jù)權(quán)利要求10所述的方法,進一步包括將在至少兩個所述聚類中的每個所述特征差別指定為在事件之間。
12.根據(jù)權(quán)利要求10所述的方法,進一步包括對所述至少兩個聚類的各個所述特征差別進行不同的分析。
13.根據(jù)權(quán)利要求12所述的方法,其中所述分析進一步包括計算子聚類。
14.根據(jù)權(quán)利要求10所述的方法,進一步包括,將所述聚類第一劃分中的每個所述特征差別指定為在事件之間,并將在至少一個其它的所述聚類中的每個所述特征差別指定為事件的子劃分。
15.根據(jù)權(quán)利要求10所述的方法,進一步包括,繼續(xù)所述劃分,直到達到預(yù)先確定的停止標準。
16.根據(jù)權(quán)利要求15所述的方法,其中所述停止標準是預(yù)先確定的事件發(fā)生率的值。
17.根據(jù)權(quán)利要求15所述的方法,其中所述停止標準是限制特征差別。
18.根據(jù)權(quán)利要求17所述的方法,其中所述特征差別是時間差別,且所述限制特征差別是在8到60分鐘范圍內(nèi)的最小時間差別。
19.根據(jù)權(quán)利要求18所述的方法,其中所述限制特征差別是16分鐘的最小時間差別。
20.根據(jù)權(quán)利要求10所述的方法,其中所述劃分進一步包括使用二手段事件聚類算法和基于方差度量的聚類算法的至少其中之一。
21.根據(jù)權(quán)利要求10所述的方法,其中所述劃分進一步包括使用二手段事件聚類算法對至少其中一個所述聚類進行劃分,并利用基于方差度量的不同聚類算法對至少一個其它所述聚類進行劃分。
22.根據(jù)權(quán)利要求10所述的方法,其中所述記錄每個都具有單一的圖像或圖像序列。
23.一種將記錄的數(shù)據(jù)庫分類為事件的方法,所述記錄每一個都具有相關(guān)聯(lián)的特征值,所述特征值是序數(shù)的并具有一維或更高維度,所述記錄按照各個所述特征值的順序而被秩評定,所述方法包括如下步驟確定連續(xù)的所述記錄之間的特征值差別;對所述特征值差別進行秩評定,以提供未聚類的差別集;由所述未聚類差別集的所述特征值差別計算邊界,所述邊界定義相對地更有可能代表事件之間區(qū)別的所述未聚類差別集的所述差別的聚類,所述邊界重新定義所述未聚類的差別集以排除所述聚類;并且重復(fù)所述計算至少一次。
24.根據(jù)權(quán)利要求23所述的方法,其中重復(fù)所述計算直到2到5個邊界被提供。
25.根據(jù)權(quán)利要求24所述的方法,其中所述特征差別是下列項目的其中之一時間差別、位置差別、內(nèi)容相似度差別,以及兩個或更多這些差別的組合。
26.根據(jù)權(quán)利要求23所述的方法,其中所述特征差別是時間和位置差別的向量。
27.根據(jù)權(quán)利要求23所述的方法,其中所述重復(fù)繼續(xù)進行,直到達到預(yù)先確定的停止標準。
28.根據(jù)權(quán)利要求27所述的方法,進一步包括對至少兩個所述聚類進行不同分析。
29.根據(jù)權(quán)利要求23所述的方法,進一步包括,將在首次定義的所述聚類中的每一個所述特征差別指定為在事件之間,且將在所有其它所述聚類中的每一個所述特征差別指定為在事件之內(nèi)。
30.一種基于與每個圖像文件相關(guān)聯(lián)的日期-事件信息,對被分類為事件的圖像文件的數(shù)據(jù)庫進行組織的設(shè)備,所述設(shè)備包括確定連續(xù)的所述記錄之間特征差別的裝置;對所述特征差別進行秩評定的裝置;計算所述特征差別的三個或更多聚類序列的裝置,所述特征差別按照代表事件之間區(qū)別的各個所述特征差別相對似然度的降序而被安排;以及將在所述降序中最低的聚類中的各所述特征差別指定為在事件之內(nèi),并將在所述降序中最高的聚類中的各所述特征差別指定為在事件之間的裝置。
全文摘要
在基于與每個記錄相關(guān)聯(lián)的特征值例如時間和/或位置來將記錄的序列分類為事件的方法中,確定連續(xù)的記錄之間的特征差別。對所述特征差別進行秩評定。計算特征差別的三個或更多聚類的序列。所述聚類按照代表事件之間區(qū)別的各個特征差別相對似然度的降序而被安排。這些記錄可以包含圖像。
文檔編號G06F17/30GK101073078SQ200580039386
公開日2007年11月14日 申請日期2005年11月16日 優(yōu)先權(quán)日2004年11月17日
發(fā)明者B·D·克勞斯, A·C·P·路易 申請人:伊斯曼柯達公司