專利名稱:用于對存儲于存儲媒體之上的信息信號進(jìn)行再現(xiàn)的裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種裝置,其用于對存儲在第一存儲媒體上的信息信號進(jìn)行再現(xiàn),所述裝置包括—讀出裝置,用于讀出來自第一存儲媒體的信息信號,—輸出裝置,用于將信息信號提供給一個顯示單元,—用戶可控輸入裝置,用于接收使用戶可以訪問所述信息信號的命令。
本發(fā)明還涉及一種方法,其用于對存儲在記錄媒體上的、存儲在計(jì)算機(jī)程序內(nèi)的以及存儲在有形媒體上的信息信號、以及載有所述計(jì)算機(jī)程序的信號進(jìn)行再現(xiàn)。
以往,以利用基本VHS磁帶功能播放、快進(jìn)和快速倒帶的線性方式,對視頻節(jié)目進(jìn)行觀看和訪問。
基于硬盤的錄像機(jī)正迅速出現(xiàn)在市場上。它們能顯著提高所存儲的信息量,同時也可隨機(jī)對其進(jìn)行訪問。像快進(jìn)和快速倒帶這樣的傳統(tǒng)的VCR功能不能利用這一特性,也不能幫助用戶迅速瀏覽視頻內(nèi)容。
當(dāng)前的趨勢是在提供音頻視頻信息的同時,還提供一個內(nèi)容描述(即將來的國際標(biāo)準(zhǔn)MPEG-7,用于為多媒體內(nèi)容創(chuàng)建一組標(biāo)準(zhǔn)的描述符)。必須以這樣一種方式使用這種描述,以便使家庭用戶能夠在所記錄的節(jié)目的若干小時之內(nèi),快速有效地進(jìn)行搜索。主要的問題是用戶系統(tǒng)的交互作用。但是,便于使用和憑直覺操作的工具(intuitivetools)都局限在執(zhí)行基于鍵盤的搜索。
到目前為止,快進(jìn)和快速倒帶還是訪問和瀏覽記錄在磁帶或盤形媒體上的視頻資料的最通用的便于使用的工具。但是,由于能存儲在家用設(shè)備內(nèi)的多媒體數(shù)據(jù)的迅猛增長,使它們顯得越來越不合適了。
本發(fā)明的一個目的是提供另一種便于使用和憑直覺操作的工具,這種工具適合于在視頻資料內(nèi)進(jìn)行快速有效的搜索,其中所述視頻資料例如是幾個小時的記錄節(jié)目或是具有象圖片或幻燈節(jié)目這樣的圖像的數(shù)據(jù)庫。
依據(jù)本發(fā)明的一種裝置的特征在于用戶可控制輸入裝置適于在片刻后接收第一指令,所述裝置還包括用于控制所述讀出裝置開始讀出的一個裝置,所述開始讀出是從所述信息信號內(nèi)的第二位置處開始讀出來自存儲媒體的信息信號;在所述第二位置處的信息信號,顯示出與接收所述第一指令的所述時刻所讀出的、第一位置處的信息相似,或是與在所述時刻之前讀出的信息信號的一部分相似。
本發(fā)明是基于對以下情況的認(rèn)識而作出的。許多節(jié)目,例如是新聞節(jié)目、脫口秀、天氣預(yù)報,都是非常頻繁地播出的。在這類節(jié)目中,圖像背景幾乎是一樣的。此外,在一個節(jié)目中,都是同一個人進(jìn)行表演。在新聞節(jié)目中,一般都是在改換一格塊新聞時,才顯示新聞播音員。通過搜索其中出現(xiàn)了新聞播音員的圖像,從而有可能跳轉(zhuǎn)到下一格塊新聞。這一特征使得用戶能從視頻流內(nèi)的一個圖像跳轉(zhuǎn)到下一個(前一個)“相似”的圖像。在本發(fā)明的一個最佳實(shí)施例中,相似性的標(biāo)準(zhǔn)(對兩個圖像間的相似等級的評估),可以依據(jù)從視頻信號中提取出的低級特征(像顏色、結(jié)構(gòu)、形狀以及邊緣)或是輔助信息,所述輔助信息例如可以是人工生成的或是半自動生成的高級描述。跳轉(zhuǎn)到下一個(前一個)相似圖像這一功能性與圖像的比較方式無關(guān),也與所使用的相似性的概念無關(guān)。在多媒體檢索領(lǐng)域,基于內(nèi)容的圖像檢索是眾所周知的技術(shù)。本發(fā)明采用其結(jié)果,并給予用戶一個有力的、憑直覺操作的、非常容易使用的工具,用于瀏覽視頻數(shù)據(jù)。本發(fā)明的一個目的是允許依據(jù)所述視頻內(nèi)容而指向視頻數(shù)據(jù)的訪問。在正常播放期間,或是通過使用另一種訪問視頻內(nèi)容的方式,例如是一個關(guān)鍵幀瀏覽器,所述用戶暗中將當(dāng)前圖像選作查詢圖像,系統(tǒng)執(zhí)行檢索相似圖像所需的操作,該系統(tǒng)僅僅選擇了具有是“下一個(前一個)”這種進(jìn)一步的約束的一個結(jié)果,最后,跳轉(zhuǎn)到視頻流內(nèi)的相應(yīng)位置上??梢岳脙蓚€按鈕來實(shí)現(xiàn)這種功能,其中每個搜索方向一個。用這種方式,用戶跳到節(jié)目的感興趣部分所必須執(zhí)行的操作,就是按一個按鈕。因此,本發(fā)明特別適合于支持終端用戶,對用戶數(shù)字視頻記錄器內(nèi)的視頻資料進(jìn)行瀏覽。
參照附圖,通過參照附圖的三個實(shí)施例說明本發(fā)明的這些以及其它方面更加明顯。
現(xiàn)在,通過參照附圖通過舉例來更詳細(xì)地說明本發(fā)明的實(shí)施例。這些附圖中,
圖1顯示了依據(jù)本發(fā)明的一個裝置的實(shí)施例;圖2顯示了為能夠執(zhí)行跳轉(zhuǎn)到下一個相似圖像這一功能要采取的步驟。
圖3說明了利用8種不同顏色的可視物所執(zhí)行的提取過程。
圖4顯示了依據(jù)本發(fā)明的一種裝置的另一個實(shí)施例。
圖1顯示了依據(jù)本發(fā)明的一個裝置的實(shí)施例。該裝置包括一個讀出單元2,其用于讀出存儲于存儲媒體4上的一個信息信號。該裝置可具有從視頻記錄器或機(jī)頂盒所知道的功能性,它們都包含一個記錄媒體。信息信號可以是存儲于預(yù)先記錄的記錄載體(像CD或磁帶)或是記錄設(shè)備上的一個TV信號,所述記錄設(shè)備例如可以是硬盤驅(qū)動器。信息信號可以是能顯示于顯示屏的任意類型的信息。在一個最佳實(shí)施例中,信息信號是包含一個圖像序列的視頻信號。但是本發(fā)明可用于對任意類型的圖像集合或是幻燈節(jié)目集合進(jìn)行瀏覽,所述圖像集合例如可以是存儲在記錄媒體上的圖片。存儲媒體可以是以硬盤驅(qū)動器、可更換存儲媒體或是固態(tài)存儲器的形式,其中所述可更換存儲媒體例如可以是光盤(像DVD或CD)。但是,也可以使用能夠存儲大量信息的任何其它合適的存儲媒體。將從存儲媒體中讀出的信息信號提供給輸出單元6,該輸出單元6用于將該信息提供給未示出的一個顯示單元。可以將該顯示單元組合到該裝置內(nèi)。
該裝置還包括一個用戶可控輸入單元8,其用于接收使用戶能夠訪問并觀看所存儲的信息信號的指令。用戶可控輸入單元最好是以一個遙控器的形式。但是,也可以利用語音控制。以遙控器形式的一個可控輸入單元,最好包括用于產(chǎn)生“跳到下一個相似圖像”的指令的一個鍵,以及用于產(chǎn)生“跳到前一個相似圖像”的指令的一個鍵。這些指令被提供給控制單元10。將控制單元設(shè)置為對讀出單元2進(jìn)行控制。當(dāng)讀出單元處于正常播放模式時,依賴于到下一個相似圖像的跳轉(zhuǎn),控制單元適用于終止從記錄媒體上讀出信息信號和跳轉(zhuǎn)到具有與當(dāng)接收到跳轉(zhuǎn)到下一個相似圖像命令時所讀出的圖像相似的視頻描述符的下一個圖像。下面,將非常詳細(xì)地說明確定什么圖像是相似圖像以及確定什么圖像是下一個或前一個相似圖像的方法??梢岳脠D像的顏色信息來規(guī)定一個圖像的可視描述符。但是,也可以利用其它可視描述符,例如是符合MPEG-7標(biāo)準(zhǔn)的內(nèi)容描述。
該裝置還包括一個搜索單元14,其用于找到下一個/前一個相似圖像。在接收到“跳到下一個/前一個”指令之后,搜索單元將首先確定在發(fā)出所述命令時刻所讀出的信息信號的可視描述符。在第一實(shí)施例中,搜索單元通過讀出與從數(shù)據(jù)庫中讀出的信息信號相對應(yīng)的可視描述符,確定對于讀出單元2讀出的信息信號的可視描述符。數(shù)據(jù)庫可以與所述信息信號一起存儲于存儲媒體4上。但是,數(shù)據(jù)庫可以存儲在搜索單元能夠訪問的每個適當(dāng)?shù)拇鎯γ襟w上。例如,數(shù)據(jù)庫可以存儲在通過互聯(lián)網(wǎng)連接可對其進(jìn)行訪問的一個服務(wù)器上。數(shù)據(jù)庫包括有關(guān)信息信號內(nèi)的多個圖像的信息,這些信息具有相似的可視描述符,并具有這些圖像在所述信息信號內(nèi)的位置。例如,如果信息信號是一個記錄好的視頻節(jié)目,則數(shù)據(jù)庫包括一個表,在這個表中,所述視頻節(jié)目內(nèi)的每一個場景是一個記錄。此外,每個記錄具有到該視頻節(jié)目內(nèi)的下一個相似的可視描述符(讀出圖像)的指針,以及到所述視頻節(jié)目內(nèi)的前一個可視描述符的一個指針。這樣,當(dāng)接收到“跳到下一個/前一個”的指令時,搜索單元讀出與當(dāng)前所讀的場景相應(yīng)的記錄,并將下一個/前一個圖像的位置提供給讀出單元2。讀出單元開始讀出由搜索單元14所提供的位置處的信息信號。
可通過任何適當(dāng)?shù)倪B接,例如是電話線或電纜,從服務(wù)提供者處得到所述數(shù)據(jù)庫。也可以在將信息信號記錄到記錄媒體上的同時,在所述裝置中產(chǎn)生所述數(shù)據(jù)庫。因此,所述裝置包括未示出的一個提取單元。在將所述信息信號記錄到記錄媒體上的期間,將信息信號提供提取單元。提取單元為該信息信號,例如是為每一個場景,產(chǎn)生一個可視參數(shù)。可視描述符將被存儲在記錄媒體上的一個數(shù)據(jù)庫內(nèi)。所述記錄媒體并不一定與存儲有信息信號的記錄媒體相同。在下文中,我們將會對提取可視描述符的方法進(jìn)行說明。此外,裝置包括一個單元,其用于確定對于每個場景,究竟哪個圖像或場景將被看作是下一個以及前一個相似圖像。所述圖像的位置將為存儲在數(shù)據(jù)庫內(nèi)的相應(yīng)單元內(nèi)。以下,還要詳細(xì)說明確定所述圖像的方法。
數(shù)據(jù)庫可以以鏈表的形式,在鏈表中,每個入口都包括到所述信息信號內(nèi)的下一個以及/或前一個位置的一個指針。但是,數(shù)據(jù)庫的入口可以包括有關(guān)在所述位置上的內(nèi)容的信息,一個位置可以是諸如像一個場景這樣的一部分信息信號的信號圖像。響應(yīng)指令“跳到相似圖像”,搜索單元在數(shù)據(jù)庫內(nèi)搜索下一個位置??梢砸詭追N適當(dāng)?shù)姆绞剑瑯?gòu)成內(nèi)容表目類型的數(shù)據(jù)庫。數(shù)據(jù)庫可以包括幾個列表。每個列表都與一個定義的特征相關(guān)。具有相同特征的信息信號部分的多個位置被放置于同一個列表內(nèi),且最好能按照它們在所述信息信號內(nèi)的位置而順序存儲?,F(xiàn)在,可以通過搜索列表和與接收到所述指令時刻的讀出位置相應(yīng)的所述列表的表目,實(shí)現(xiàn)指令“跳到下一個”。通過取得所述列表內(nèi)的下一個入口,可控制讀出單元讀出與所述下一個入口相應(yīng)的位置上的信息信號。
在數(shù)據(jù)庫的另一個實(shí)施例中,數(shù)據(jù)庫內(nèi)的每一個入口都與所述信息信號內(nèi)的一個位置相對應(yīng)。每次接收到指令“跳到下一個”時,就再存儲一次內(nèi)容表目。入口的順序是由與接收指令時刻的讀出位置相對應(yīng)的入口相似的程度來確定。這一實(shí)施例使得用戶能跳轉(zhuǎn)到最相似的信息信號部分。
圖4顯示了本發(fā)明裝置的一個實(shí)施例,它適合于在包含一個圖像序列的一個信息信號上跳轉(zhuǎn),所述圖像序列例如可以是一個視頻節(jié)目。最好是,所述信息信號是以一個MPEG視頻信號的形式。在這個實(shí)施例中,搜索單元具有一個輸入端,用于接收來自讀出單元2的信息信號。在接收到“跳到下一個/前一個相似圖像”的指令之后,搜索單元將首先確定當(dāng)前所讀出的信息信號的可視描述符。之后,讀出單元2將處于搜索模式。在這種模式中,在信息信號上執(zhí)行的讀出要快于普通模式。從記錄媒體中,可以讀出全部信息信號,也可以僅僅讀出一部分信息信號,例如僅僅是MPEG信號中的I幀。所讀出的信號被提供給搜索單元14,搜索單元從所提供的信號中提取出可視描述符,并分析所提取出的可視描述符是否與接收指令時刻所讀出的信息信號的可視描述符相似。一旦找到相似的描述符,則讀出單元2將返回正常模式。
跳到下一個相似圖像的功能性還可被用于幾種有用的任務(wù)中。在哪里可以使用它的幾個例子的分類如下。
—當(dāng)廣播公司使用一個靜態(tài)圖像(例如全屏頻道標(biāo)志),以便能區(qū)分開該節(jié)目與商業(yè)廣告的開始(結(jié)束)時,則可以利用它,跳過商業(yè)廣告中斷。
—在一個新聞節(jié)目中,利用播音員(anchor person)圖像跳轉(zhuǎn)到下一格塊新聞也是非常有用的。通常,所播出的新聞節(jié)目都有副標(biāo)題,因此我們可以假定有非常詳細(xì)的、非常精確的有關(guān)它們的信息。在這種假設(shè)下,對它們好像更好使用基于關(guān)鍵字的搜索,而不是跳到下一個(前一個)相似圖像這一功能性。無論如何,這種工具允許從一段新聞跳到下一(前一)段新聞,而不需要用戶讀組織信息。
—允許跳到天氣預(yù)報或體育新聞或具有固定標(biāo)題的一個節(jié)目內(nèi)的一個特定部分。
—也可用于跳到一個節(jié)目的開始或結(jié)尾,該節(jié)目具有它自己的固定的開頭說明(fixed credit)或結(jié)束標(biāo)題。
—作為視頻剪輯(video clips)的音樂節(jié)目現(xiàn)在是相當(dāng)普通的。跳轉(zhuǎn)到下一個(前一個)相似圖像這一功能性,可用于從一個視頻剪輯跳到另一個視頻剪輯。
—許多文獻(xiàn)片都有關(guān)于不同的主題的特定部分,它們都以特殊的標(biāo)識開始。用戶可以不需要花費(fèi)快進(jìn)所耗費(fèi)的時間,而直接跳到這個顯示下一個主題的標(biāo)識。
正像最后兩個例子那樣,可以在具有以下結(jié)構(gòu)(相同的字母與相似的幀相對應(yīng))的每一個節(jié)目中,利用跳到下一個/前一個相似圖像的按紐AAAAAAAAbbbbbbbbbAAAccccccAAAdddAAAAeeeeeeeeeeeeeeAAAAAAAAAAAA......在幀之間進(jìn)行跳轉(zhuǎn)。在新聞節(jié)目中,一幀與正在朗讀一條新聞的播音員(anchorperson)相對應(yīng)。在文件片中,這些幀與男演員(或女演員)介紹的一個主題的一個場景相對應(yīng),且在這些幀之間交錯排列有文獻(xiàn)條目。在TV演出中幾乎也是這樣,在這樣的一幀內(nèi),一個男演員(女演員)介紹將要出現(xiàn)的事件或?qū)⒁霈F(xiàn)的來賓。正如在演出中那樣,男演員(女演員)通常對音樂視頻剪輯進(jìn)行介紹。的確,這種結(jié)構(gòu)在普通的廣播電視節(jié)目中非常通用。
似乎是,通過將所述視頻構(gòu)建到場景內(nèi)和僅僅通過使用跳到下一個場景的按鈕都可以達(dá)到同樣的結(jié)果。由于依據(jù)本發(fā)明的瀏覽功能允許直接跳轉(zhuǎn)到下一個相似的場景,而不僅僅是跳轉(zhuǎn)到下一個場景或關(guān)鍵幀,因而它與對視頻執(zhí)行預(yù)構(gòu)建的更傳統(tǒng)的分級方式不同。跳轉(zhuǎn)到下一個(前一個)相似圖像的功能,可用于視頻導(dǎo)航的目的,還可用于對圖像或幻燈片進(jìn)行瀏覽。
當(dāng)視頻節(jié)目的預(yù)告(trailer)位于一個節(jié)目的開始部分時,它可能非常有用,當(dāng)它表現(xiàn)為商業(yè)廣告時,同樣非常有用。在前一種情況下,一旦節(jié)目被廣播并被記錄,則用戶可以從這些節(jié)目預(yù)告中選取一個圖像,并跳轉(zhuǎn)到該節(jié)目內(nèi)的同一個圖像處。利用這種方法,用戶能夠從與所述圖像相應(yīng)的一個位置處,開始觀看視頻節(jié)目。在后一種情況下(即新聞節(jié)目內(nèi)的標(biāo)題),用戶可以利用從節(jié)目預(yù)告中選出的一個圖像,從而跳轉(zhuǎn)到該節(jié)目內(nèi)的感興趣部分。在這種情況下,節(jié)目預(yù)告可被看作是節(jié)目的內(nèi)容表目。
如果我們能使用戶選擇某些圖像作為最喜愛的圖像,則用于跳轉(zhuǎn)到下一個/前一個相似圖像的圖像可以以這些圖像為基礎(chǔ)。用戶可以不使用視頻流的圖像部分,而是在一組最喜歡的圖像之間進(jìn)行選擇。這種所謂的最喜愛的圖像列表,例如允許以下方案—用戶觀看一個新聞節(jié)目,他發(fā)現(xiàn)他最喜歡的一個搖滾樂團(tuán)已經(jīng)制作了一個新的視頻剪輯。新聞節(jié)目僅僅包含了一分鐘的該視頻預(yù)覽。用戶將這個重要的視頻圖像存儲在他最喜愛的圖像列表內(nèi),并記錄了幾個小時的視頻剪輯,這些視頻剪輯表明將要播放的所述新的視頻剪輯。第二天,利用先前存儲的圖像,他能夠在記錄材料中試圖找到整個視頻剪輯。
—用戶正在觀看一個新聞節(jié)目,他了解到,在下午Hakkinen發(fā)生了非常嚴(yán)重的Mc Laren F1賽車事故。由于他那會兒沒有時間,所以他記錄了整個比賽,但并不想觀看?,F(xiàn)在,他可以利用存儲在他最喜愛的圖像列表內(nèi)的、來自新聞節(jié)目的事故圖像,跳轉(zhuǎn)到發(fā)生撞車的片段上。
跳轉(zhuǎn)到下一個(前一個)相似圖像的功能,需要與視頻序列的每個圖像,都與下一個(前一個)最相似的圖像相關(guān)。兩個連續(xù)幀通常都非常相似。在執(zhí)行跳到下一個(前一個)相似圖像時,必須拋開這些幀。一個辦法是在一組連續(xù)的相似幀內(nèi)僅僅考慮一幀。這等價于將一個視頻分割為若干小片段,并為每個小片段選擇一個典型的靜止圖像(關(guān)鍵幀),之后,僅僅在這些關(guān)鍵幀之間尋找相似性。
需要注意的是跳轉(zhuǎn)到下一個(前一個)相似圖像的功能,與獲得描述符的方式無關(guān),與相似性的測量方式無關(guān)。
在一個最佳實(shí)施例中,從每一個關(guān)鍵幀中,自動提取出一個可視描述符。如果兩個關(guān)鍵幀的可視描述符之間的距離低于一個預(yù)定閾值,則認(rèn)為這兩個關(guān)鍵幀相似。跳轉(zhuǎn)到下一個(前一個)相似圖像的功能,不僅僅考慮了相似性,還考慮了這些幀之間的相對位置,這是因?yàn)樗仨氈粰z索出一個下一個(前一個)相似圖像。圖2顯示了該最佳實(shí)施例所執(zhí)行的步驟。
當(dāng)用戶按動跳轉(zhuǎn)到下一個相似圖像的按鈕時,系統(tǒng)檢索下一個小片段的描述符,并執(zhí)行兩個濾除操作。首先,它對發(fā)出詢問的關(guān)鍵幀的可視描述符與下一個(前一個)關(guān)鍵幀的描述符進(jìn)行比較。與發(fā)出詢問的關(guān)鍵幀的描述符的距離大于一個固定閾值的關(guān)鍵幀都被舍棄。第二濾除操作是依據(jù)剩余的關(guān)鍵幀在特征空間內(nèi)與所詢問的關(guān)鍵幀的距離,從而將它們至少分為兩個群集。這兩個群集是通過根據(jù)它們的相似性對圖像進(jìn)行分類,以及通過考慮它們與所詢問的關(guān)鍵幀之間的順序差而得到的。當(dāng)這些差中的一個超過某個閾值時,則所有這些順序圖像都被放入一個單獨(dú)的群集內(nèi)。按照先后順序,對與所詢問的關(guān)鍵幀最近的圖像群集進(jìn)行存儲,第一幀就是與所述下一個相似圖像相應(yīng)的那個。
以下,將對有關(guān)可能使用的可視描述符進(jìn)行詳細(xì)說明。
當(dāng)前的圖形匹配和圖像理解技術(shù)還遠(yuǎn)遠(yuǎn)不能實(shí)現(xiàn)利用語義術(shù)語來解釋可視內(nèi)容的目的。這樣,就有必要依賴低級可視特征。顏色、結(jié)構(gòu)、形狀和運(yùn)動是最常用的感覺可視特征。已證明,顏色信息對遮蔽、圖像大小和方向是健全的。結(jié)構(gòu)描述符對于對相似的結(jié)構(gòu)圖案進(jìn)行分類是非常強(qiáng)大的,但是它們對于處理自然場景內(nèi)的不相似區(qū)域不太有效。同樣,還可以使用外形描述符。由于這些描述符需要對圖像進(jìn)行分割,而這又需要大量的計(jì)算能力,因此,當(dāng)前,它們對于用戶電子產(chǎn)品來說,還過于昂貴。此外,當(dāng)前可行的圖像分割技術(shù)對于普通的現(xiàn)實(shí)世界的圖像來說,還不夠健全。
人類對顏色的感知是一個復(fù)雜的過程。當(dāng)處理可視數(shù)據(jù)和顏色表示時,采取了幾種簡化的設(shè)想。在像素這一級別上處理顏色特征,像素級別意味著對一種顏色的感知不受周圍顏色的影響。此外,觀看條件,例如是周圍的光線、觀看者的距離以及顯示器的品質(zhì)不予考慮。首先,給出可視物的一個定義。可視物I是一個完整的圖像,或是表現(xiàn)為顏色空間CS內(nèi)的一組像素值的圖像的任意形狀區(qū)域(矩形或不規(guī)則形狀)。
以下段落展現(xiàn)了對感覺可視特征的定量表示進(jìn)行編碼的一組描述符。同時,還展現(xiàn)了提取程序以及與之相關(guān)的相似性匹配標(biāo)準(zhǔn)。
彩色直方圖是我們非常熟悉的一種描述可視物的低級顏色特征的方法。它可以表現(xiàn)為三種獨(dú)立的顏色分布,或是表現(xiàn)為一個彩色信道內(nèi)的一個分布情況。對于彩色空間CS內(nèi)的一個給定的可視物I,將彩色直方圖定義為離散,這樣,存在n個不同的顏色。一個彩色直方圖H(I)是一個矢量<H1、H2......、Hn>,其中每個成分Hj都包括顏色Cj的像素在可視物I內(nèi)的百分比。
彩色直方圖是相當(dāng)有效的彩色內(nèi)容表目示法。好的方面是它們的計(jì)算非常有效。此外,彩色直方圖對源于相機(jī)旋轉(zhuǎn)、放大、分辨率的改變以及局部遮蔽等引起的變化非常遲鈍。但是,它們對光條件非常敏感,并會由于彩色空間量化,而在表示顏色內(nèi)容時出現(xiàn)問題。量化必須足夠精細(xì),從而使得感覺不同的顏色不在同一個量化級內(nèi)。這種思維可以應(yīng)用于出現(xiàn)在以下部分內(nèi)的所有基于直方圖的描述符。
可通過為可視物內(nèi)的每個像素值計(jì)算量化值,并逐步增加直方圖內(nèi)的相應(yīng)格塊,從而提取出一個彩色直方圖。之后,可以依據(jù)可視物的大小,使這些格塊內(nèi)的像素?cái)?shù)目歸一化。如果處理具有相同維數(shù)的可視物,則可以省略著最后一步。應(yīng)當(dāng)注意,所述提取處理需要一個線性時間。
可以利用彩色直方圖,使用不同的距離度量來確定色彩相似性。它們會產(chǎn)生關(guān)于有效性和計(jì)算復(fù)雜度的不同的檢索特性。再加上對色彩空間的選擇和色彩量化的選擇、以及相似性匹配標(biāo)準(zhǔn)的選擇,這是實(shí)現(xiàn)可視檢索技術(shù)中的非常重要的一個方面。
用于彩色直方圖的三種常用的相似性度量是L1距離、歐幾里德或L2距離以及平方距離。分別令H(Iq)和H(It)為詢問和目標(biāo)直方圖,則L1距離定義如下D1=Σi=1n|Hi(Iq)-Hi(It)|----(2.1)]]>歐幾里德距離或L2距離定義如下D2=Σi=1n(Hi(Iq)-Hi(it))----(2.2)]]>在這些定義中,對各個顏色斗(colour buckets)之間的差進(jìn)行均勻加權(quán)。L1距離和L2距離都忽略了對相似的,但不是同一的直方圖組成部分做比較。例如一個深紅色圖像與一個紅色圖像之間的不相似性就好像與一個蘭色圖像的不相似性一樣。通過在距離計(jì)算中使用直方圖組成部分的相似性的度量,有可能改善直方圖的匹配。
利用二次方距離來解決這個問題,其定義如下D3=(Hi(Iq)-Hi(It))TW(Hi(Iq)-Hi(It)) (2.3)其中W=[aij]以及aij表示具有下標(biāo)i和j的顏色的感覺上的相似性。這種度量比較了所有的直方圖組成部分,并利用兩兩加權(quán)系數(shù),對內(nèi)部組成部分的距離進(jìn)行加權(quán)。利用aij=1-dij而得出對于互相關(guān)aij的一個適當(dāng)?shù)闹担渲衐ij是下標(biāo)為i和j的顏色之間的歸一化距離,這個歸一化是對于該顏色空間內(nèi)兩個顏色之間的最大距離而實(shí)現(xiàn)的。由于二次方距離對所有組成部分之間的交叉相似性進(jìn)行了計(jì)算,因此它要比L1和L2距離在計(jì)算上更昂貴。
當(dāng)使用了MPEG-2標(biāo)準(zhǔn)中所采用的壓縮算法時,有可能以很低成本,僅僅利用一個局部譯碼,就能從視頻流中提取出被稱為DC-圖像的幀的縮小版(縮小了64倍)。它們是通過僅僅考慮一個全尺寸幀的8×8的數(shù)據(jù)塊的二維離散余弦變換的DC系數(shù),從而得到的。由于DC圖像是幀的縮小版或是塊分解版(block-resolution),因而可以假設(shè)它們表示同一內(nèi)容。出于檢索關(guān)鍵幀的目的,對于I幀有可能從可用的DC圖像中以低成本在數(shù)字視頻流中直接提取出可視描述符。在MPEG數(shù)據(jù)流中,可以將一個I幀看作一個關(guān)鍵幀。為簡化它們的實(shí)施過程,設(shè)計(jì)一個提取處理,使得所得到的提取處理就像是輸入了一個特定顏色空間的一個像素值陣列。還有可能利用場景變換算法將它們結(jié)合在一起,并在將MPEG-2解碼限制在最低需求的情況下,對描述符進(jìn)行計(jì)算。
彩色直方圖描述符既可用于YCbCr又可用于HSV顏色空間。YCbCr顏色空間最好就是它在MPEG-2標(biāo)準(zhǔn)中所使用的格式,這樣,直接從視頻流提取出的顏色信息就不再需要進(jìn)一步的變換。此外,即便不是嚴(yán)格意義的感覺均勻,但從這一點(diǎn)來看,它要好于用于在用戶界面內(nèi)顯示關(guān)鍵幀的RGB彩色空間。
接下來,對可能使用的YCbCr彩色空間的三種不同顏色的量化進(jìn)行定義。應(yīng)當(dāng)注意,其它量化也同樣適用。
—將Y、Cb和Cr彩色信道分別線性量化為16、4以及4個量化級。所得到的描述符可被看作是單獨(dú)—個256個格塊的可變直方圖。
—將Y、Cb和Cr彩色信道分別線性量化為16、8以及8個量化級。所得到的描述符可被看作是單獨(dú)一個1024個格塊的可變直方圖。
—將Y、Cb和Cr彩色信道分別線性量化為16、16以及16個量化級。所得到的描述符可被看作是單獨(dú)一個4096個格塊的可變直方圖。
由于HSV彩色空間近似感覺均勻,所以通過定義一個適當(dāng)?shù)牧炕?,可以獲取一個緊湊、完整的顏色集合,因而它同樣也是適用的。利用以下等式[36],可以實(shí)現(xiàn)從RGB到HSV的轉(zhuǎn)換ν=max(r,g,b)s=v-min(r,g,b)v]]> 其中(r,g,b)是RGB空間內(nèi)的一點(diǎn),(h,s,v)是HSV空間內(nèi)的相應(yīng)的一點(diǎn),當(dāng)max(r,g,b)≠min(r,g,b)時,(r′,g′,b′)定義如下r′=v-rv-min(r,g,b)]]>g′=v-gv-min(r,g,b)]]>b′=v-bv-min(r,g,b)]]>對于r,g,b∈
,變換給出了h,s,v∈
。
對計(jì)算一個離散彩色直方圖所需的彩色空間量化進(jìn)行設(shè)計(jì),以便產(chǎn)生166個顏色[5,7,8,19,23]的緊湊集合。我們堅(jiān)信,色彩是感官上非常重要的一個特征,對它使用了最精細(xì)的量化。按20度的步長,將圓柱狀的HSV彩色空間的色彩環(huán)分開。以這種方式,三基色以及黃色、紫紅和青色中的每一個都是利用三個子部分(sub-division)來表示的。將飽和度和值中的每一個都量化為三個量化級,這三個量化級在這些尺度上產(chǎn)生了較大的感知公差。通過采用18個色彩、3個飽和度、3個值再加上4個附加灰度,就可以認(rèn)為有166個不同的顏色(18×3×3+4=166)。
通過考慮三個YCbCr量化級以及HSV量化級而得到的四顏色直方圖,都是從全尺寸圖像和DC-圖像中提取出來的。這樣,每一個關(guān)鍵幀都具有相關(guān)的8個不同顏色的直方圖。
通過利用L1以及歐幾里德距離,可以對不同圖像的顏色直方圖進(jìn)行比較。
在YCbCr彩色空間的三個量化級之間,可以利用從DC圖像以及與L1距離的比較而提取出的256個格塊的直方圖,得到最佳結(jié)果。這樣,就證實(shí)了L1距離所執(zhí)行的效果要好于更昂貴的歐幾里德距離。此外,還發(fā)現(xiàn)從DC圖像中而不是從全尺寸幀中提取直方圖,并沒有降低這個描述符的檢索特性。
還發(fā)現(xiàn),從DC圖像中提取出的HSV彩色空間內(nèi)的166個格塊的直方圖,要優(yōu)于YCbCr彩色空間內(nèi)的直方圖。這個結(jié)果是由于HSV彩色空間接近感知均勻,與YCbCr彩色空間的256個離散值相比,將HSV彩色空間量化為166個不同顏色提供了更好的顏色范圍。
盡管可以適度鑒別出一個全局顏色描述,但缺少空間信息會導(dǎo)致在比較多個可視物時,給出太多的虛假正像,所述全局彩色描述符例如可以是由一個彩色直方圖提供的一個顏色描述。感覺上不相同的所檢索的可視物可能具有非常相似的彩色直方圖。為改善檢索效果和精度,可以同時使用顏色特征以及空間關(guān)系。也考慮空間信息色柵直方圖以及隨后的基于直方圖的描述符將所述全局顏色特征擴(kuò)展為一個局部顏色特征。
為了對由傳統(tǒng)的彩色直方圖所表示的全局顏色特征進(jìn)行擴(kuò)展,一種通常的方法是將可視物分割為子塊,并從每一個子塊中提取出顏色特征。色柵直方圖就遵循這一方案,它可以由10個直方圖構(gòu)成。在這種情況下,利用一個3×3的矩形網(wǎng)格,將該可視物分割為9個區(qū)域。從每一個區(qū)域中,計(jì)算出一個傳統(tǒng)的彩色直方圖。第10個直方圖是完整的可視物的彩色直方圖??赏ㄟ^考慮重疊區(qū)域來改善子塊劃分。利用這個方案,使得這種描述符對于小區(qū)域的變換相對較遲鈍。
色柵直方圖的提取處理基本上與傳統(tǒng)的彩色直方圖的提取處理一致。唯一不同的是要增加的直方圖的組成部分也依賴于可視物內(nèi)像素的空間位置。
由于色柵直方圖是由傳統(tǒng)的彩色直方圖構(gòu)成的,用于對直方圖進(jìn)行比較的同一個距離度量也可以用于子塊直方圖。兩個色柵直方圖之間的距離將是這些子塊距離的總和。另外,我們還可以依據(jù)子塊直方圖在所述圖像內(nèi)的位置,對它們之間的距離進(jìn)行加權(quán)。例如,由于對大多數(shù)可視物來說中央?yún)^(qū)域吸引了觀看者的注意力,因而對中央塊的加權(quán)應(yīng)當(dāng)多于其它塊,所以在判斷相似性時,人們對一個圖像的中央傾注了更多的關(guān)注。
可通過利用一個3×3的方形網(wǎng)格,將一個全尺寸的關(guān)鍵幀劃分為9個區(qū)域,并通過為每一個子塊計(jì)算出一個64個格塊的彩色直方圖,從而得到了色柵直方圖的描述符。另外,還計(jì)算用于整個圖像的另一個64個格塊的直方圖。這樣,該描述符就由10個直方圖構(gòu)成。
每個直方圖都是在YCbCr彩色空間內(nèi)計(jì)算的。將Y、Cb和Cr彩色信道中的每一個都線性量化為4個量化級。最好是,被用作MPEG-2數(shù)據(jù)流內(nèi)的顏色信息的YCbCr彩色空間,在這種格式下是可用的。
用于對不同圖像的色柵直方圖進(jìn)行比較的距離,是相應(yīng)的幾個子區(qū)直方圖之間的L1距離或歐幾里德距離之和。
另外,我們依據(jù)子塊直方圖在所述圖像內(nèi)的位置,對它們之間的距離進(jìn)行加權(quán)。對中央塊距離的加權(quán)是對其它區(qū)域加權(quán)的2到10倍。
對同一個圖像的實(shí)驗(yàn)測試顯示色柵直方圖能給出較好的結(jié)果,但平均而言,它并不比傳統(tǒng)的直方圖更好。即便在距離的計(jì)算中使用了不同的加權(quán),但考慮到執(zhí)行提取、比較以及存儲而引起的額外花費(fèi),使得檢索效果沒有得到改善。
顏色結(jié)構(gòu)直方圖或(在文獻(xiàn)中也叫做班點(diǎn)直方圖(blob hisogram))利用結(jié)構(gòu)元件,來表示可視物的局部顏色結(jié)構(gòu),其中所述結(jié)構(gòu)元件包括幾種像素值。傳統(tǒng)的彩色直方圖利用一個特定的顏色來描繪單個像素值的相對頻率。顏色結(jié)構(gòu)直方圖則與它們不同,這是因?yàn)樗鼈兝靡粋€特定的顏色對包含一種像素的結(jié)構(gòu)元件的相對頻率進(jìn)行編碼。顏色結(jié)構(gòu)直方圖從傳統(tǒng)彩色直方圖中繼承了恒定的特征,又通過嵌入一個空間信息,而大大地增加了它們的識別力。
如果我們考慮存在n個不同顏色的離散的彩色空間CS,則用于可視物I的一個顏色結(jié)構(gòu)直方圖可定義如下
定義2一個顏色結(jié)構(gòu)直方圖H(I)是一個矢量<H1,H2,......,Hn>,其中每個分量Hj都包括含有顏色Cj的一個或多個像素的所述可視物I內(nèi)的結(jié)構(gòu)元件的數(shù)目。
結(jié)構(gòu)元件的空間內(nèi)容取決于可視物的大小,但是,通過對可視物和結(jié)構(gòu)元件同時進(jìn)行子采樣,使得結(jié)構(gòu)元件內(nèi)的樣本數(shù)目保持恒定。如果我們選擇以8×8的模式出現(xiàn)的、在結(jié)構(gòu)元件內(nèi)的64個采樣,該模式下的兩個采樣之間的距離,將會隨著可視物尺寸的增大而增大。如果這些可視物都被調(diào)整到一個固定的基本尺寸,則可以使用同一個8×8的結(jié)構(gòu)元件,否則可以按照如下方式確定子采樣系數(shù)和結(jié)構(gòu)元件的寬度以及高度。令E為原始可視物I內(nèi)的結(jié)構(gòu)元件的空間范圍,即空間范圍為E×E。令K為所應(yīng)用的子采樣系數(shù),即K={1,2,4,8,16......},其中K=1表示沒有子采樣,K=2表示按水平和垂直2維執(zhí)行的子采樣,等等,K和E定義如下p=max{0,round(0.5·log2(寬·高)-8)}K=2pE=8K其中,寬和高是指矩形可視物I。如果p<0,則我們認(rèn)為p=0。
通過觀察可視物的所有單元,并對包含在覆蓋于每個單元上的結(jié)構(gòu)元件內(nèi)的所有像素的顏色進(jìn)行檢索,并逐步增加相應(yīng)的格塊,從而可以計(jì)算出顏色結(jié)構(gòu)直方圖??梢栽谔幚斫Y(jié)束時,按結(jié)構(gòu)元件的數(shù)目使直方圖的格塊歸一化。圖3顯示了利用8種不同顏色的一個可視物的提取處理。
作為4×4個像素大小的一個方塊的結(jié)構(gòu)元件32,像一個滑動窗那樣越過可視物。在某個位置(在圖中僅僅描述了該可視物的一部分),結(jié)構(gòu)元件包括4個顏色為C0的像素、6個顏色為C1的像素以及6個顏色為C2的像素。這樣,列C0、C1和C2內(nèi)的格塊將會遞增。于是,在這種情況下,對結(jié)構(gòu)元件執(zhí)行了三次計(jì)數(shù),其中,對該結(jié)構(gòu)元件區(qū)域內(nèi)所出現(xiàn)的每種顏色計(jì)數(shù)一次。
由于顏色結(jié)構(gòu)直方圖、顏色相關(guān)圖、顏色自相關(guān)圖、顏色相干矢量以及聯(lián)合直方圖都是基于直方圖的描述符,因此,可以利用為傳統(tǒng)彩色直方圖所提供的同一個相似匹配標(biāo)準(zhǔn),對所有這些其它的可視描述符進(jìn)行比較。當(dāng)然,不同特征空間內(nèi)的距離值不具有可比性。
顏色相關(guān)圖是按顏色對檢索的表,其中對于<i,j>的第k個入口指定了找到與顏色為Ci的一個像素相距距離k的顏色為Cj的一個像素的概率。顏色相關(guān)圖顯示了顏色的空間相關(guān)性如何隨距離變化。
給出一個可視物I和一個離散的有n個不同顏色的彩色空間CS,令I(lǐng)(p)表示像素值p∈I的顏色。這樣,標(biāo)記p∈Ic與p∈I,I(p)=c意義相同。我們利用L∞-范數(shù)來測量像素值之間的距離對于像素P1=(x1,y1),P2=(x21,y2),我們定義‖P1-P2‖≡max{|x1-x2|,|y1-y2|}我們用[n]來表示集合{1,2,......,n}。利用這種記號,i∈[n]顏色直方圖H(I)被定義如下hci(I)=Prp∈I[p∈Ici]]]>對于可視物I內(nèi)的任意一個像素值, 給出了像素顏色為ci的概率。令距離d∈[n]是事先固定的。這樣,i,j∈[m],k∈[d],I的顏色相關(guān)圖被定義如下γci,cj(k)≡Prp1∈Ic1,p2∈I[P2∈Icj|||p1-p2||=k]]]>給出圖像內(nèi)的顏色為ci的任何一個像素,則 給出了與該給定像素相距距離k處的一個像素的顏色為cj的概率。
當(dāng)在一個可視物內(nèi)的不同顏色的數(shù)目非常大時,顏色相關(guān)圖的空間和時間的計(jì)算復(fù)雜度增大,這就降低了其檢索性能??梢酝ㄟ^僅僅考慮完全相同的顏色之間的相關(guān)性,從而部分地避免這種情況。這種專用的顏色相關(guān)圖被稱為顏色自相關(guān)圖。I的自相關(guān)圖僅僅捕獲到了完全相同的顏色之間的空間相關(guān),它被定義為;αc(k)(I)≡γc,c(k)(I)]]>通過包括與可視物上的顏色分布相關(guān)的空間信息,使得顏色相關(guān)圖和自相關(guān)圖提供了比顏色直方圖還要好的識別力,特別是在處理具有相似的顏色,但具有不同顏色布局的可視物的情況下,更是如此。
計(jì)算可視物I的顏色相關(guān)圖的自然算法(naive algorithm)應(yīng)該考慮每個P1∈顏色cj的I,以及對于每一個k∈[d],利用‖P1-P2‖=k,對所有的P2∈顏色cj的I進(jìn)行計(jì)數(shù)。不幸的是,這需要花費(fèi)0(d2S)的時間,其中S是I的像素值的總數(shù)。為了避免這種昂貴的計(jì)算,在1999年的International Jouranal of Computer Vision,第35卷,No.3的第245-268頁的文章“Spatial Color Indexing and Application”中,描述了基于動態(tài)編程的一種有效的算法。這使得計(jì)算時間減小到0(dS)。
依據(jù)檢索的有效性,已經(jīng)發(fā)現(xiàn)具有L1距離的顏色自相關(guān)圖,要好于傳統(tǒng)的直方圖。盡管如此,但如果我們考慮其執(zhí)行計(jì)算、比較以及存儲所附加的費(fèi)用,則最佳描述符還是便宜、有效的彩色直方圖。
眾所周知的顏色相干矢量基本上是為包含與顏色分布相關(guān)的某些信息而擴(kuò)展的彩色直方圖。一個顏色的相干被定義為該顏色的像素作為一個可視物I的大相似顏色區(qū)域成員的程度。我們考慮一個可視物I,在給定的彩色直方圖H(I)的顏色斗內(nèi)的每一個像素,或者可以被分為相干的,或者也可以被分為非相干的,這取決于它是否是大相似顏色區(qū)的一部分。一個顏色相干矢量(CCV)為每一種顏色都存儲了相干與非相干像素的百分比。如果我們需要調(diào)用第j個離散顏色αj的相干像素的百分比,以及非相干像素βj的百分比,則可以利用一對矢量來表示一個顏色相干矢量,其中每個顏色用于每個離散的顏色<(α1,β1),......,(αn,βn)>
注意,通過對符號αn、βn保持相同的意義,可以利用如下矢量來表示一個傳統(tǒng)的顏色直方圖<α1+β1,......,αn+βn>。
顏色相干矢量(CCT)能防止一個可視物內(nèi)的相干像素與另一個可視物內(nèi)的相干像素進(jìn)行匹配。通過將相干像素同非相干像素分離開,CCV提供了比彩色直方圖更出色的識別力。
用于提取顏色相干矢量的第一步是通過用一個小的局部鄰域(一般是8個相鄰的像素)內(nèi)的平均值來代替像素值,而使可視物輕微模糊。這樣,消除了相鄰像素之間的小的變化。最好是,使用具有n個不同顏色的離散顏色空間。
下一步是對一個指定顏色斗內(nèi)的像素進(jìn)行分類,將其分為相干的或不相干的。一個相干像素是同一個顏色的一個大像素群的一部分,而不相干像素則不是。我們通過對連接分量進(jìn)行計(jì)算,從而確定出該像素群。
定義3連通分量C是這樣的最大像素集合,以致對于任意兩個像素P,P′∈C,在C內(nèi),在P和P′之間存在一條通路。
定義4C內(nèi)的一條通路是這樣的像素序列P=P1,P2,......,Pn-P′,以致每個像素P′∈C,且任意兩個連續(xù)的像素Pi,Pi+1,都彼此相鄰。如果一個像素位于另一個像素的8個最相鄰的像素之中,我們就認(rèn)為兩個像素是相鄰的。
注意,只對給定顏色斗內(nèi)的連通分量進(jìn)行計(jì)算。當(dāng)連通分量的計(jì)算結(jié)束時,每個像素將精確地屬于一個連通分量。我們依據(jù)其連通分量的像素的大小,將像素分為相干的或不相干的。如果一個像素的連接分量的大小超過一個規(guī)定值τ,則該像素是相干的;否則,該像素就是不相干的,τ通常被設(shè)定為可視物大小的1%。
我們發(fā)現(xiàn),從檢索效果、計(jì)算費(fèi)用以及響應(yīng)時間來看,與L1距離相比,被量化為166種顏色(給出了332個格塊的矢量)的HSV彩色空間內(nèi)的顏色相干矢量,是最好的可視描述符。
與常規(guī)的顏色直方圖相似,顏色相干矢量可以對光條件的改變非常敏感。保持與光無關(guān)的顏色屬性的一種辦法可以是僅僅使用HSV顏色描述符內(nèi)的色調(diào)以及飽和度分量,或是經(jīng)由RGB彩色空間的紅、綠和藍(lán)的和,使紅、綠和藍(lán)歸一化。
本領(lǐng)域人員所熟知的聯(lián)合直方圖,是顏色相干矢量和顏色直方圖的一種概括。通過不僅僅是考慮顏色相干,同時還考慮一組局部像素特征,就可以將這些連通直方圖看作是多維直方圖。一個連通直方圖中的每個入口都包括由特征值的一個特定組合所描述的所述圖像內(nèi)的若干像素。更準(zhǔn)確地說,給出一個k個特征的集合,其中第1個特征具有n1個可能值,聯(lián)合直方圖是一個k維矢量,以致聯(lián)合直方圖內(nèi)的每個入口都包含由一組k元特征值所描述的一個可視物內(nèi)的像素的百分比。因此,聯(lián)合直方圖的大小為 它是每個特征的一些值的可能的組合數(shù)。如同顏色直方圖對像素顏色的密度進(jìn)行編碼那樣,聯(lián)合直方圖對幾個像素特征的連接密度進(jìn)行編碼??梢詫⒁粋€顏色相干矢量看作是僅僅將顏色和顏色相干用作特征的一個聯(lián)合直方圖??梢詫⑸珫胖狈綀D看做是將屬于一個特定子區(qū)的顏色和位置用作特征的聯(lián)合直方圖。通過使用再一些附加的特征,象邊緣密度(一個像素的邊緣密度是圍繞該像素的一個小鄰域內(nèi)的邊緣與像素的比值)、結(jié)構(gòu)(texturedness)(一個像素的結(jié)構(gòu)是某些相鄰像素的個數(shù),這些相鄰像素的亮度比所述像素的高出一個固定值)、梯度量值(梯度量值是表示亮度在最大變化方向上改變得有多快的一種度量)、等級(rank)(一個像素P的等級被定義為在其亮度小于P的亮度的局部鄰域內(nèi)的像素個數(shù))等,......,聯(lián)合直方圖提供了比顏色相干矢量更出色的辨別力。
從一個可視物提取出聯(lián)合直方圖的步驟,依賴于所選取的用于表征可視內(nèi)容的特征。一般,選擇可以在線性時間內(nèi)有效計(jì)算出的特征。
除了可以被看作是聯(lián)合直方圖的色柵直方圖和顏色相干矢量之外,還使用將顏色、顏色相干以及平均結(jié)構(gòu)復(fù)雜度作為特征的聯(lián)合直方圖。平均結(jié)構(gòu)復(fù)雜度的估測利用了嵌入MPEG-2視頻流的壓縮域信息。當(dāng)它們超過一個閾值時,將每個塊的離散余弦變換的64個系數(shù)都設(shè)置為最大值,而當(dāng)它們低于該閾值時,將上述64個系數(shù)設(shè)置為0。如果非零像素的個數(shù)高于另一個預(yù)定閾值,則這個塊被判定為“復(fù)雜”。除了顏色和顏色相干,還可以依據(jù)像素所屬的塊的結(jié)構(gòu)復(fù)雜度,將一個關(guān)鍵幀的每個像素分成兩類。
聯(lián)合直方圖的的平均檢索性能可以與通過采用顏色相干矢量而獲取的平均檢索性能相提并論。附加的結(jié)構(gòu)特征改善了辨別力,但是實(shí)現(xiàn)所述特性的費(fèi)用比較高。
利用I幀來改善關(guān)鍵幀的檢索效果。如果關(guān)鍵幀不是按照特定標(biāo)準(zhǔn)選出的,那么,采用相鄰I幀的可視描述符,能夠提高針對跳轉(zhuǎn)到下一個(前一個)相似圖像這一功能的檢索效果。不是僅僅考慮用于每個關(guān)鍵幀的一個可視描述符,而是對靠近所述關(guān)鍵幀的一組I幀的所有描述符進(jìn)行計(jì)算,此外,我們還分配給它其距離接近查詢數(shù)值的描述符。
以下,是這項(xiàng)技術(shù)的更準(zhǔn)確的說明。我們假定,對于每個鏡頭片段,將第一個I幀選為關(guān)鍵幀。給出一個視頻序列V=[f0,f1,......,fn],其中fi∈V是第i個I幀,令kq∈V為所查詢的關(guān)鍵幀,區(qū)間是被認(rèn)為是不相似的兩個圖像上的最大距離。
ks∈Vs.t.距離(kq,ks),則S={fi|s≤i≤s+N,N≥0} f’∈Ss.t.d=距離(kq,f′)∧f’∈Sd≤距離(kq,f)最后,將與I幀f′以及距離值d相關(guān)的描述符分配給關(guān)鍵幀ks。
在一個最佳實(shí)施例中,選取了N個不同的常數(shù)值。此外,還采用了每個鏡頭片段的所有I幀(在這種情況下,N取決于片段的長度)。
已經(jīng)發(fā)現(xiàn),圖像相似性的搜索是可能的,且在單一一個節(jié)目的關(guān)鍵幀上執(zhí)行時非常有效。在不同的節(jié)目之間進(jìn)行搜索也是可能的,但比較困難,這是因?yàn)榫薮髷?shù)目的所涉及關(guān)鍵幀。對于幾十萬的圖像,主要的問題是虛假正像以及高的響應(yīng)時間。
虛假正像源于不同圖像具有相似的可視描述符。圖像越多,發(fā)現(xiàn)具有相似顏色但是內(nèi)容完全不同的幀的概率就越大。為減小虛假正像的數(shù)目,即提高搜索精度,可以使用非常有鑒別力的可視描述符。
由于非常有鑒別力的描述符的計(jì)算復(fù)雜度,使得進(jìn)一步增加了響應(yīng)時間。為減少響應(yīng)時間,即便是在連接時,也可以采取兩個策略。第一個策略,稱為預(yù)濾除,利用一個粗描述符來選取第一組潛在的相似圖像。這樣,僅僅將非常有鑒別力的以及計(jì)算昂貴的描述符用于選擇所述第一組內(nèi)的圖像,這樣就需要更容易接受的響應(yīng)時間。第二個策略在于,在比較描述符時,避免連續(xù)掃描。數(shù)據(jù)存取結(jié)構(gòu)在本領(lǐng)域內(nèi)是公知的,像R樹、S樹或M樹,它們允許某種方式的描述符的結(jié)構(gòu),以致有可能僅僅保留相關(guān)的圖像,而不用分析整個數(shù)據(jù)庫。這些表征需要將描述符建模為矢量內(nèi),或度量空間內(nèi)的點(diǎn),這種作法對數(shù)據(jù)管理系統(tǒng)添加了一些計(jì)算成本。這樣,它們適合于非常大的視頻(圖像)數(shù)據(jù)庫。
盡管是參照最佳實(shí)施例對本發(fā)明進(jìn)行的說明,但應(yīng)當(dāng)理解這些都是非限制性的例子。這樣,各種未脫離權(quán)利要求書所定義的本發(fā)明范圍的修改,都是本領(lǐng)域人員能夠想像得到的。舉個例子,可以由第三方將包含記錄資料特征的內(nèi)容表目提供給用戶,作為使記錄資料更有吸引力的一項(xiàng)服務(wù)。如果內(nèi)容表目是以用戶的興趣為基礎(chǔ)的,則他的興趣就確定了信息信號的多個部分之間的相似性的內(nèi)容。
動詞“包括”及其動詞變化的使用并不排除權(quán)利要求中所聲明的內(nèi)容之外所出現(xiàn)的元件或步驟。此外,在一個元件之間使用的冠詞“a”或“an”并不排除出現(xiàn)若干這種元件。在權(quán)利要求書中,位于圓括號之間的任何參考標(biāo)記不應(yīng)解釋是為對權(quán)利要求書的范圍的限制。本發(fā)明既可以通過硬件也可以通過軟件來實(shí)現(xiàn)??梢杂猛粋€硬件表示幾個“裝置”。此外,本發(fā)明存在于每一個新穎的特征,或是若干特征的組合。
權(quán)利要求
1.用于對存儲在第一存儲媒體中的信息信號進(jìn)行再現(xiàn)的一種裝置,該裝置包括—讀出裝置,用于讀出來自所述第一存儲媒體的所述信息信號,—輸出裝置,用于向一個顯示單元提供所述信息信號,—用戶可控輸入裝置,用于接收能使用戶訪問所述信息信號的命令,其特征在于所述用戶可控輸入裝置適用于在一個時刻接收第一命令,所述裝置還包括一個裝置,其用于控制讀出裝置開始從在所述信息信號中的第二位置處的所述存儲媒體讀出信息信號;在所述第二位置處的信息信號具有顯示出與在接收所述第一命令的所述時刻讀出的、第一位置處的信息信號的特征或所述時刻之前讀出的信息信號的特征相似的特征。
2.依據(jù)權(quán)利要求1的裝置,其特征在于所述控制裝置還適用于讀出來自第二存儲媒體的數(shù)據(jù)信號,所述數(shù)據(jù)信號包括關(guān)于信息信號內(nèi)的位置和具有相似特征的信息信號內(nèi)的其它位置的信息。
3.依據(jù)權(quán)利要求2的裝置,其特征在于所述裝置還包括用于從所述信息信號中提取出所述特征的提取裝置,用于依據(jù)所述提取出的特征而確定具有相似特征的位置以便獲取所述數(shù)據(jù)信號的裝置,以及用于將所述數(shù)據(jù)信號寫入所述第二存儲媒體的寫入裝置。
4.依據(jù)權(quán)利要求1的裝置,其特征在于所述特征與相應(yīng)于所述信息信號內(nèi)位置的圖像的顏色直方圖相關(guān)。
5.依據(jù)權(quán)利要求1的裝置,其特征在于所述特征與相應(yīng)于所述信息信號內(nèi)位置的圖像的色柵直方圖相關(guān)。
6.依據(jù)權(quán)利要求1的裝置,其特征在于所述特征與相應(yīng)于所述信息信號內(nèi)位置的圖像的顏色結(jié)構(gòu)直方圖相關(guān)。
7.依據(jù)權(quán)利要求1的裝置,其特征在于所述用戶可控輸入裝置包括輸入裝置,其用于控制所述讀出裝置開始讀出在緊隨在所述時刻的所述信息信號內(nèi)的所述位置之后的一個位置處的信息信號。
8.依據(jù)權(quán)利要求1的裝置,其特征在于所述用戶可控輸入裝置包括輸入裝置,其用于控制所述讀出裝置在所述時刻的信息信號內(nèi)的所述位置之前的一個位置處的信息信號。
9.用于對存儲在第一存儲媒體上的信息信號進(jìn)行再現(xiàn)的方法,所述裝置包括以下步驟—讀出來自第一存儲媒體的信息信號,—將所述信息信號提供給一個顯示單元,—接收能使用戶訪問所述信息信號的命令,其特征在于所述方法還包括有步驟—在一個時刻接收第一命令,—在所述信息信號內(nèi)的第二位置處開始讀出來自所述存儲媒體的所述信息信號,在所述第二位置處的所述信息信號顯示出與接收所述第一命令的所述時刻讀出的所述第一位置處的信息信號的相似性,或顯示出與所述時刻之前讀出的所述信息信號部分的相似性。
10.用于能使處理器執(zhí)行按照權(quán)利要求9的方法的計(jì)算機(jī)程序。
11.裝載按照權(quán)利要求10的計(jì)算機(jī)程序的有形媒體。
12.載有按照權(quán)利要求10的計(jì)算機(jī)程序的信號。
全文摘要
用于對存儲在第一存儲媒體(4)上的信息信號進(jìn)行再現(xiàn)的一種裝置。該裝置包括用于讀出來自第一存儲媒體的信息信號的讀出單元(2),用于將所述信息信號提供給一個顯示單元的輸出單元(6),以及用于接收使用戶能訪問所述信息信號的命令的用戶可控輸入單元(8)。用戶可控輸入單元適用于在一個時刻接收第一命令。所述裝置還包括一個單元(10),其用于響應(yīng)所述第一命令,控制讀出裝置開始讀出在所述信息信號的第二位置的來自所述存儲媒體的信息信號;在所述第二位置處的信息信號具有顯示出與接收所述第一命令的所述時刻讀出的第一位置上的信息信號的特征或所述時刻之前讀出的信息信號的特征相似的特征。
文檔編號H04N5/765GK1394342SQ01803465
公開日2003年1月29日 申請日期2001年9月5日 優(yōu)先權(quán)日2000年9月8日
發(fā)明者M·巴比里 申請人:皇家菲利浦電子有限公司