專利名稱:確定視聽信號中的語義單元的起點的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種確定片段的起點的方法,該片段對應(yīng)于視聽信號的語義單元。本發(fā)明還涉及一種用于將視聽信號分割為對應(yīng)于語義單元的片段的系統(tǒng)。本發(fā)明還涉及被劃分成對應(yīng)于語義單元并具有可識別起點的片段的視聽信號。本發(fā)明還涉及一種計算機程序。
背景技術(shù):
2003 年 11 月 2-5 日在西安關(guān)于 Machine Learning and Cybernetics 的第二屆 國際會議論文集卷 5 的第 3008-3011 頁 Wang,C.等人的“Automatic story segmentation of news video based on audiovisual features and text information”涉及一禾中基于視 聽特征和文本信息的新聞故事自動分割方案,基本思想是首先檢測針對新聞視頻的鏡頭 邊界,隨后通過使用文本檢測算法識別主題字幕幀以得到分割提示。在下一個步驟中,通過 使用短時能量和短時平均零交叉率參數(shù)來檢測靜音片段。如果靜音周期包含在連續(xù)的主題 字幕開端之間,并且靜音周期與鏡頭邊界組的聯(lián)合不是空的,則通過靜音周期的半途的位 置處的幀被選擇為故事邊界。如果連續(xù)的靜音周期與主題字幕開端交替,并且靜音周期與 鏡頭邊界組的聯(lián)合是空的,則它示出新聞故事在一個主持人鏡頭內(nèi),并且在該故事周圍沒 有鏡頭邊界。連續(xù)的主題字幕開端對之間的最長靜音周期被選擇為故事邊界。所述已知方法的問題在于,它依賴于靜音周期的存在來確定故事邊界。而且,為了 使該方法起作用,必需按照順序檢測字幕。許多表示新聞項目的視聽信號包括沒有靜音周 期或字幕的新聞項目。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于在視聽信號中相對精確地并在相對較大范圍的新 聞項目類型上檢測具有與新聞項目的特性相似的特性的語義單元的起點的方法、系統(tǒng)、視 聽信號和計算機程序。該目的是通過根據(jù)本發(fā)明的確定片段的起點的方法實現(xiàn)的,該片段對應(yīng)于視聽信 號的語義單元,該方法包括處理信號的音頻成分以檢測滿足低音頻功率標(biāo)準(zhǔn)的部分,以及處理視聽信號以識別對應(yīng)于鏡頭的部分的邊界,其中視聽信號的視頻成分被處理以評估用于識別由至少一個鏡頭形成的視頻部 分的標(biāo)準(zhǔn),該至少一個鏡頭滿足用于識別包括圖像的特定類型的鏡頭的標(biāo)準(zhǔn),主持人可能 被表示在該圖像中,該視頻部分僅僅包括該特定類型的鏡頭,其中,如果滿足低音頻功率標(biāo)準(zhǔn)的部分的至少一個終點位于所識別的視頻部分的 邊界之間的特定間隔處,則與滿足低音頻功率標(biāo)準(zhǔn)的部分一致并位于所識別的視頻部分的 邊界之間的點被選擇為片段的起點,并且其中,當(dāng)確定沒有滿足低音頻功率標(biāo)準(zhǔn)的部分與所識別的視頻部分一致時,選擇該視頻部分的邊界作為片段的起點。鏡頭是在一個連續(xù)的運動期間真實或虛擬像機記錄的鄰接圖像序列,該連續(xù)運動 表示在一個場景中的時間和空間中連續(xù)的動作。低音頻功率標(biāo)準(zhǔn)可以是相對于信號音頻成 分的其它部分的低音頻功率標(biāo)準(zhǔn)、絕對標(biāo)準(zhǔn)或這兩個標(biāo)準(zhǔn)的組合。盡管在此主要參照新聞 廣播來描述所述方法,但是由作為主持人(compare)的人引入的項目構(gòu)成的其它類型的視 聽信號可以被類似地分割。當(dāng)確定沒有滿足低音頻功率標(biāo)準(zhǔn)的部分與滿足用于識別該特定類型的鏡頭的標(biāo) 準(zhǔn)的鏡頭一致時,通過選擇至少一個特定類型的適當(dāng)?shù)闹鞒秩绥R頭的邊界作為片段的起 點,這確保起點與滿足用于識別合適的主持人鏡頭或主持人鏡頭的不中斷序列的標(biāo)準(zhǔn)的部 分相關(guān)聯(lián)。因此,即使新聞項目不以靜音開始或不包含靜音,合適的主持人鏡頭的點仍將被 識別為新聞項目的起點。因為與滿足低音頻功率標(biāo)準(zhǔn)的部分一致并位于所識別的視頻部分 的邊界之間的點被選擇為片段的起點,如果滿足低音頻功率標(biāo)準(zhǔn)的部分的至少一個終點位 于所識別的視頻部分的邊界之間的間隔處,則起點被相對精確地確定。特別地,當(dāng)新聞讀者 宣布橋接兩個連續(xù)的新聞項目時,起點可被確切地確定。這是因為恰在新聞讀者移到下一 個新聞項目之前可能存在對應(yīng)于低音頻功率部分的暫停。上述效應(yīng)是獨立于視聽信號中存 在的主持人鏡頭的類型而實現(xiàn)的。定位合適的主持人鏡頭和滿足低音頻功率標(biāo)準(zhǔn)的部分是 足夠的。因此,該方法適于許多不同類型的新聞廣播。在一個實施例中,處理視聽信號的視頻成分包括評估用于識別所述特定類型的鏡 頭的標(biāo)準(zhǔn),該評估包括確定鏡頭的至少一個圖像是否滿足與至少一個其它圖像的相似度。一種效果是利用了主持人鏡頭的特性,該特性是主持人鏡頭在新聞廣播的整個過 程中是相對靜止的,不必依賴于對任意特定類型的內(nèi)容的檢測。因此,該方法適合于在寬范 圍的新聞廣播中使用,不管背景的類型、副標(biāo)題或標(biāo)志的存在或主持人鏡頭的其它特性,還 包括該主持人如何顯示(全身,在桌子或講臺之后,等等)。在一個變型中,評估用于識別特定類型的鏡頭的標(biāo)準(zhǔn)包括確定鏡頭的至少一個 圖像是否滿足與該鏡頭中所包含的至少一個其它圖像的相似度。該變型利用下述事實主持人鏡頭是相對靜止的。該主持人一般是固定不動的,并 且背景不會改變太多。在一個變型中,評估用于識別特定類型的鏡頭的標(biāo)準(zhǔn)包括確定鏡頭的至少一個 圖像是否滿足與至少一個其它鏡頭的至少一個其它圖像的相似度。該變型利用下述事實來自特定源的節(jié)目中的不同主持人鏡頭彼此在很大程度上 相似。具體地,節(jié)目主持人一般是同一個人并且一般被表示在同一位置,背景相同。該方法的一個實施例包括分析包含相似圖像的鏡頭在視聽信號上分布的均勻性。廣播中的項目趨于相似的長度,使得主持人鏡頭在節(jié)目中應(yīng)當(dāng)相對均勻地分布。 彼此相似但不重新出現(xiàn)的鄰接鏡頭將趨于成為相同的單個語義單元的部分而不是主持人 fe頭。在一個實施例中,處理視聽信號的視頻成分包括評估用于識別特定類型的鏡頭 的標(biāo)準(zhǔn),該評估包括分析該鏡頭中所包含的至少一個圖像的內(nèi)容以檢測該鏡頭所包含的至 少一個圖像中表示的任意的人的面部。該實施例在檢測寬范圍廣播中的主持人鏡頭方面是較有效的。它對文化差異相對不關(guān)心,因為在幾乎所有廣播文化中主持人的面部在主持人鏡頭中是顯著的。在一個實施例中,處理視聽信號的視頻成分以評估用于識別視頻部分的標(biāo)準(zhǔn)包括 下述的至少一個a)確定鏡頭是否是連續(xù)的鏡頭序列的第一個,該鏡頭的每一個被確定滿足用于識 別特定類型的鏡頭的標(biāo)準(zhǔn),該特定類型的鏡頭包括其中可能表示主持人的圖像,該序列具 有比特定最小長度更大的長度,以及b)確定鏡頭是否滿足用于識別特定類型的鏡頭的標(biāo)準(zhǔn),該特定類型的鏡頭包括其 中可能表示主持人的圖像;并且此外是否滿足具有比特定最小長度更大的長度的標(biāo)準(zhǔn)。該實施例在增加識別與節(jié)目主持人的一個引導(dǎo)對應(yīng)的視聽信號的一部分的全部 的機會方面是有效的。特別地,在發(fā)生快速變回到節(jié)目主持人或兩個節(jié)目主持人之間的地 方,這些不被錯誤地識別為對新項目(例如新的新聞項目)的引導(dǎo),而被識別為對一個特定 新聞項目的引導(dǎo)的繼續(xù)。該方法的一個實施例包括當(dāng)確定了滿足低音頻功率標(biāo)準(zhǔn)的多個部分的每一部分 的至少一個終點位于所識別的視頻部分的邊界之間的特定間隔處時,選擇與該多個部分中 第一個出現(xiàn)的部分一致的點作為片段的起點。一種效果是在主持人鏡頭或主持人鏡頭的背靠背序列內(nèi)存在一個項目時,該項 目的起點也被相對可靠地確定。一個變型進(jìn)一步包括當(dāng)至少確定第一與第二部分之間的間隔的長度超過特定閾 值時,選擇與滿足低音頻功率標(biāo)準(zhǔn)的多個部分中的并在第一部分之后的第二個部分一致的 點作為另一個片段的起點。因此,在主持人鏡頭或主持人鏡頭的不中斷序列內(nèi)存在一個項目并且在相同的主 持人鏡頭或主持人鏡頭的不中斷序列內(nèi)開始下一個項目時,實現(xiàn)項目的分割而沒有錯過任 何起點。該方法的一個實施例包括對多個所識別的視頻部分的每一個,連續(xù)地確定滿足 低音頻功率標(biāo)準(zhǔn)的部分的至少一個終點是否位于所識別的視頻部分的邊界之間的特定間 隔處。一種效果是視聽信號被相對有效地分割,因為下一項目的起點一般是前一項目的 終點。因此,連續(xù)地處理主持人鏡頭(在該方法中片段的至少一個起點被確定為與每個主 持人鏡頭一致)是實現(xiàn)完全分割成視聽信號的語義單元的高效方式。在該方法的一個實施例中,通過評估第一窗口上的平均音頻功率相對于第二窗口 上的平均音頻功率來檢測滿足低音頻功率標(biāo)準(zhǔn)的部分,其中第二窗口大于第一窗口。—種效果是“靜音周期”相對于背景音頻水平而被確定。因此,例如在主持人暫停 同時背景主題正播放時,或在主持人鏡頭為位置上的主持人時,廣播中的暫停被可靠地識 別。根據(jù)另一個方面,根據(jù)本發(fā)明的用于將視聽信號分割為對應(yīng)于語義單元的片段的 系統(tǒng)被配置為處理該信號的音頻成分以檢測滿足低音頻功率標(biāo)準(zhǔn)的部分,以及處理該視聽信號以識別對應(yīng)于鏡頭的部分的邊界,其中視聽信號的視頻成分被處理以評估用于識別由至少一個鏡頭形成的視頻部 分的標(biāo)準(zhǔn),該至少一個鏡頭滿足用于識別包含圖像的特定類型的鏡頭的標(biāo)準(zhǔn),主持人可能被表示在圖像中,該視頻部分僅僅包括該特定類型的鏡頭,并且其中該系統(tǒng)被布置成,當(dāng)確定滿足低音頻功率標(biāo)準(zhǔn)的部分的至少一個終點位于所識別的視頻部分的邊 界之間的特定間隔處時,選擇與滿足低音頻功率標(biāo)準(zhǔn)的部分一致的并位于視頻部分的邊界之間的點作為 片段的起點,并且其中該系統(tǒng)被布置成當(dāng)確定沒有滿足低音頻功率標(biāo)準(zhǔn)的部分與所識別的 視頻部分一致時,選擇視頻部分鏡頭的邊界作為片段的起點。在一個實施例中,該系統(tǒng)被配置為執(zhí)行根據(jù)本發(fā)明的方法。根據(jù)另一個方面,根據(jù)本發(fā)明的視聽信號被劃分為對應(yīng)于語義單元并具有由信號 的配置指示的起點的片段,并且包括音頻成分,包含滿足低音頻功率標(biāo)準(zhǔn)的部分,以及視頻成分,包括視頻部分,至少一個該視頻部分滿足用于識別由至少一個特定類 型的鏡頭形成的視頻部分的標(biāo)準(zhǔn),該至少一個特定類型的鏡頭包括其中可能表示有主持人 的圖像,并且至少一個該視頻部分僅僅包含該特定類型的鏡頭,其中滿足低音頻功率標(biāo)準(zhǔn)并具有位于滿足用于識別特定類型鏡頭的標(biāo)準(zhǔn)的鏡頭 的邊界之間的特定間隔處的至少一個終點的至少一個部分與片段的起點一致,并且其中片段的至少一個起點與滿足該標(biāo)準(zhǔn)并與滿足低音頻功率標(biāo)準(zhǔn)的部分不一致的視 頻部分的邊界一致。在一個實施例中,視聽信號可借助根據(jù)本發(fā)明的方法獲得。根據(jù)本發(fā)明的另一方面,提供一種計算機程序,其包括一組指令,當(dāng)這組指令并入 機器可讀取介質(zhì)中時能夠使具有信息處理能力的系統(tǒng)執(zhí)行根據(jù)本發(fā)明的方法。
現(xiàn)在將參照附圖更詳細(xì)描述本發(fā)明,在附圖中圖1是具有硬盤存儲設(shè)備的綜合接收解碼機的簡化框圖;圖2是示出視聽信號的部分的示意圖;圖3是確定視聽信號中新聞項目的起點的方法的流程圖;以及圖4是示出圖3所示方法的細(xì)節(jié)的流程圖。
具體實施例方式綜合接收解碼機(IRD)l包括網(wǎng)絡(luò)接口 2、解調(diào)器3和解碼器4,用于接收數(shù)字電視 廣播、視頻點播服務(wù)等等。網(wǎng)絡(luò)接口 2可連到基于數(shù)字、衛(wèi)星、陸地或IP的廣播或窄播網(wǎng) 絡(luò)。解碼器的輸出包括一個或多個節(jié)目流,其包括例如MPEG-2或H. 264或類似格式的(壓 縮的)數(shù)字視聽信號。對應(yīng)于節(jié)目或事件的信號可以存儲在例如硬盤、光盤或固態(tài)存儲設(shè) 備等大容量存儲設(shè)備5上。存儲在大容量存儲設(shè)備5上的視聽數(shù)據(jù)可以被用戶訪問以便在電視系統(tǒng)(未示 出)上回放。為此,IRD 1設(shè)有用戶接口 6,例如電視系統(tǒng)的屏幕上顯示的遙控和圖形菜單。 IRD 1由中央處理器(CPU) 7控制,中央處理器使用主存儲器8執(zhí)行計算機程序代碼。為了 回放和顯示菜單,IRD 1進(jìn)一步設(shè)有視頻編碼器9和音頻輸出級10,用于生成適合于電視系 統(tǒng)的視頻和音頻信號。CPU 7中的圖形模塊(未示出)生成由IRD 1和電視系統(tǒng)提供的圖形用戶接口(GUI)的圖形成分。盡管廣播提供者將會把節(jié)目流分割為多個事件并且包含用于識別這些事件的輔 助數(shù)據(jù),但是這些事件一般將對應(yīng)于完整的節(jié)目,例如完整的新聞節(jié)目,其在這里將被用作 一個實例。越來越多的新聞節(jié)目在電視和因特網(wǎng)上廣播。幾乎每個頻道具有它自己的每日新 聞播報,并且許多專用的新聞頻道也已經(jīng)變得可獲得。大量可獲得的內(nèi)容使用戶幾乎不可 能觀看所有這些內(nèi)容。而且,大部分新聞項目(與單獨的主題相關(guān)的新聞節(jié)目內(nèi)的單獨語 義單元)通常從較早的新聞節(jié)目開始重復(fù)。如果用戶最近已經(jīng)觀看了新聞節(jié)目,則他自然 可能對再次觀看相同的新聞項目不感興趣。用戶一般也不會對觀看所有可獲得的新聞項目 感興趣。IRD 1被編程以執(zhí)行這樣的例行程序其使得它能夠得到完整的新聞節(jié)目(例如, 在節(jié)目流中識別的)并且檢測該節(jié)目中新的新聞項目的起點,由此使得新聞節(jié)目能夠分割 為單獨的語義單元,該語義單元比設(shè)有表示節(jié)目的視聽數(shù)據(jù)的輔助數(shù)據(jù)中識別的語義單元 小。圖2是顯示新聞廣播的部分的示意性時間線。視聽信號的片段lla-e對應(yīng)于單獨 的新聞項目,并且被示出在表示地面實況(groundtruth)的上部時間線中。邊界12a_f表 示每下一個新聞項目的起點,其對應(yīng)于前面的新聞項目的終點。視聽信號的視頻成分包括對應(yīng)于圖像或半像的視頻幀(例如MPEG-2或H. 264視 頻幀)的序列。鄰接幀的分組對應(yīng)于鏡頭。在該上下文中,鏡頭是在一個連續(xù)的移動期間 真實或虛擬像機記錄的鄰接圖像序列,并且所述圖像序列中每個圖像序列表示場景中在時 間和空間中的連續(xù)動作。在鏡頭之中,一些鏡頭表示一個或多個新聞讀者,并且在圖2中被 表示為主持人鏡頭13a_e。主持人鏡頭被檢測并且被用于確定片段11的起點12,如下面將 會解釋。視聽信號的音頻成分包括其中具有相對較低強度的音頻信號的部分,在這里被稱 為靜音周期14a_h。這些靜音周期也被IRD 1使用以確定對應(yīng)于新聞項目的視聽信號的片 段11的起點12。參照圖3和4,當(dāng)被提示分割對應(yīng)于新聞節(jié)目的視聽信號時,IRD1獲得對應(yīng)于該視 聽信號的數(shù)據(jù)(步驟15)。隨后,進(jìn)行對靜音周期14的定位(步驟16)并且識別鏡頭邊界 (步驟17)。當(dāng)然,與存在的新聞項目相比存在更多的鏡頭,因為一個新聞項目一般由多個 鏡頭組成。這些鏡頭被分類為主持人鏡頭和其它鏡頭(步驟18)。在一個實施例中,定位靜音周期的步驟16包括在短時間窗口上將音頻信號強度 與對應(yīng)于絕對值的閾值(例如預(yù)定值)比較。在另一個實施例中,在第一移動窗口上的平 均音頻功率與在以與第一窗口相同速率處理的第二窗口上的平均音頻功率的比被確定。第 二窗口大于第一窗口,即它對應(yīng)于視聽信號的音頻成分的更大部分。實際上,針對長周期的 步行平均(例如對應(yīng)于以正常呈現(xiàn)速度下的20秒)與針對短周期(例如1秒)的步行平 均相比較。當(dāng)長期與短期平均的比在比第二閾值長的間隔上大于閾值(例如10)時,認(rèn)為 靜音周期14已被檢測到。第二閾值足夠高以確保僅僅顯著的暫停被歸類為靜音周期并且 是低音頻功率標(biāo)準(zhǔn)的一部分。在一個實施例中,僅僅確定了例如l_5kHz的特定頻率范圍內(nèi) 的音頻功率。
例如,識別鏡頭的步驟17可以包括識別視頻信號的視頻成分中的突然轉(zhuǎn)變或者 分析由視頻編碼標(biāo)準(zhǔn)定義的特定類型的視頻幀出現(xiàn)的順序。該步驟17也可以與后續(xù)步驟 18組合,使得僅僅檢測主持人鏡頭。在這樣的組合的實施例中,相鄰的主持人鏡頭可以合并 為一個鏡頭。分類鏡頭的步驟18包括評估用于識別包含視頻幀的鏡頭的標(biāo)準(zhǔn),在該視頻幀中 可能出現(xiàn)一個或多個主持人。該標(biāo)準(zhǔn)可以是包括若干子標(biāo)準(zhǔn)的標(biāo)準(zhǔn)。在該步驟18中執(zhí)行 下列評估中的一個或多個。首先,IRD 1可以確定在考慮中的鏡頭的至少一個圖像是否滿足與相同鏡頭中所 包含的至少一個其它圖像(更具體地,均勻分布在該鏡頭上的一組圖像)的相似度。這用 于識別相對靜止的鏡頭。相對靜止的鏡頭一般對應(yīng)于主持人鏡頭,因為主持人或多個人在 進(jìn)行他們的廣播的同時不會移動太多,而且所捕獲的他們的圖像的襯托背景也不會變化太
^^ o其次,IRD 1可以確定在考慮中的鏡頭的至少一個圖像是否滿足與在新聞節(jié)目中 的多個其它鏡頭(例如所有后續(xù)鏡頭)中每一個的至少一個圖像的相似度。如果該鏡頭相 似于多個其它鏡頭的每一個并且這些相似的其它鏡頭被分布為使得它們的分布超過分布 的均勻度的閾值,則該鏡頭(和這些其它鏡頭)被確定為對應(yīng)于主持人鏡頭13??梢岳缤ㄟ^分析所述鏡頭中包含的選定圖像的色彩直方圖的平均來確定鏡頭 的相似性??商娲?,可以通過分析每個鏡頭的選定的一個或多個圖像的特定空間頻率分 量的時間發(fā)展,并且隨后比較這些發(fā)展以確定相似鏡頭,由此確定相似性。也可以使用鏡頭 特征(如在鏡頭期間像素變化的量或鏡頭中存在的移動量)來確定鏡頭中所包含的圖像彼 此有多相似。其它相似度也是可能的,并且它們可以單獨地或以組合方式應(yīng)用以確定在考 慮中的鏡頭與其它鏡頭有多相似,或鏡頭中所包含的圖像彼此有多相似。 分布的均勻度可以是相似鏡頭之間的時間間隔的標(biāo)準(zhǔn)偏差,或相對于該時間間隔 的平均長度的標(biāo)準(zhǔn)偏差。其它度量也是可能的。第三,可替代地或此外對相似性的評估,考慮中的鏡頭中所包含的單獨圖像的內(nèi) 容可被分析以確定它是否是主持人鏡頭。特別地,可以執(zhí)行前景/背景分割,以便典型地針 對主持人鏡頭的特定類型的元素的存在來分析圖像。例如,可以執(zhí)行面部檢測和識別算法。 所檢測到的面部可以與存儲在大容量存儲設(shè)備5中的已知主持人的數(shù)據(jù)庫進(jìn)行比較。在另 一個實施例中,從新聞節(jié)目的多個鏡頭中提取面部。聚類算法用于識別在整個新聞節(jié)目中 復(fù)現(xiàn)的那些面部。包含超過預(yù)定數(shù)量的一個或多個圖像(其中表示了復(fù)現(xiàn)的面部)的那些 鏡頭被確定以對應(yīng)于主持人鏡頭13。該步驟18的所有上述變型可以在幀上、半像上執(zhí)行,而不是在圖像上執(zhí)行。據(jù)觀察,用于識別主持人鏡頭的標(biāo)準(zhǔn)可被限制為僅僅是一個或多個特定類型的主 持人鏡頭。特別地,該標(biāo)準(zhǔn)可以包括拒絕很短(例如短于90秒)的鏡頭。可以應(yīng)用其它類 型的過濾器。在主持人鏡頭13已被識別并且靜音周期14被定位之后,啟發(fā)式邏輯用于確定對 應(yīng)于新聞項目的片段11的起點12。鏡頭且特別是主持人鏡頭13被連續(xù)地處理,因為一個 片段11的起點12是前一個片段11的終點,使得對至少主持人鏡頭13的連續(xù)處理是最有 效的。
9
至少一個起點12與每個主持人鏡頭13相關(guān)聯(lián),不管在該主持人鏡頭13期間是否 出現(xiàn)任何靜音周期14。事實上,如果確定了沒有對應(yīng)于靜音周期14的音頻成分的部分具有 位于主持人鏡頭13的邊界內(nèi)的間隔上的至少一個終點,則這個主持人鏡頭13的起點被識 別為片段11的起點12(步驟19)。因此,如果在主持人鏡頭13期間沒有檢測到靜音,例如 因為恰在主持人鏡頭13之前出現(xiàn)了靜音周期,則該新聞項目在主持人鏡頭13的開端處被 分割。例如,圖2中的第三主持人鏡頭13c與靜音周期14不重疊,并且因此它的起點被識 別為第四片段lid的起點12d。如果僅僅一個靜音周期14具有位于主持人鏡頭13的邊界內(nèi)的間隔上的至少一個 終點,則與靜音周期14 一致的點被選擇(步驟20)作為片段11的起點12。該點可以是靜 音周期14的起點或?qū)?yīng)于靜音周期14的間隔上某處(例如半途通過)的點。擴展到下一 個鏡頭的靜音周期14在所示的實施例中未被考慮。事實上,主持人鏡頭13的邊界之間的 間隔(靜音周期14的至少該終點必須位于該間隔上)一般地在與主持人鏡頭13的端部邊 界有些距離處結(jié)束,例如在5秒與9秒之間或在鏡頭長度的75%處結(jié)束。然而,在所示的實 施例中,該間隔對應(yīng)于完整的主持人鏡頭13。使用所示的啟發(fā)式方法,與圖2中的第二主持 人鏡頭13b —致的第五靜音周期14e被識別為第三片段11c的起點12c。如果確定了多個靜音周期14具有位于在考慮中的主持人鏡頭13的邊界之間的間 隔上的至少一個終點(圖4),則與這些靜音周期中的第一個出現(xiàn)的靜音周期一致的點被選 擇為片段的起點(步驟21)。因此,在圖2中,第一靜音周期14a和第二靜音周期14b都與 第一主持人鏡頭13a—致。第一鏡頭周期14a被選擇為第一片段11a的起點12a。相似地, 第六靜音周期14f和第七靜音周期14g具有至少一個位于第四主持人鏡頭13d的邊界內(nèi)的 間隔上的終點。與第六靜音周期14f 一致的點被選擇為第五片段lie的起點12e。情況可能是這樣的新聞項目完全地包含在單個主持人鏡頭13的邊界內(nèi)。該主持 人一般將會在新聞項目之間暫停,或者在該點可能發(fā)生兩個主持人之間的交接。在任一種 情況中,將存在短靜音。IRD 1確定在考慮中的主持人鏡頭13的總長度Atsh。t(步驟22)。 IRD 1還確定在主持人鏡頭13期間出現(xiàn)的第一個靜音周期與下一個靜音周期之間的每個 間隔A、的長度(步驟23)。如果這些間隔A、的任意一個的長度超過特定閾值,則在 第一間隔端部處超過閾值的靜音周期是另一個片段11的起點12。該閾值可以是主持人鏡 頭13的總長度Atsh。t的一部分。在所示的實施例中,如果靜音周期之間的間隔A、的任 意一個的長度超過第一閾值Th并且主持人鏡頭13的總長度A tshot超過第二閾值Th2,則 僅僅選擇另一個起點(步驟24)。這些步驟23、24可以通過從與第二起點一致的靜音周期 計算間隔長度來重復(fù)執(zhí)行,從而找到在考慮中的主持人鏡頭13內(nèi)的第三起點,等等。參照 圖2,第一靜音周期14a和第二靜音周期14b均與第一主持人鏡頭13a—致。第二靜音周期 14b被選擇為第二片段lib的起點12b,因為第一主持人鏡頭13a足夠長并且第一靜音周期 14a與第二靜音周期14b之間的間隔也足夠長。相反地,第六靜音周期14f與第七靜音周期 14g之間的間隔太短并且/或者第四主持人鏡頭13d太短。從圖2中顯見,第三和第四靜音周期14c、d(其沒有與主持人鏡頭13的邊界之間 的間隔上的點一致的至少一個終點)不被選擇為對應(yīng)于新聞項目的片段11的起點12。通過對與新聞項目對應(yīng)的片段11的起點12的位置的確定,視聽信號可以被索引 以允許快速訪問特定新聞項目,例如通過存儲表示起點12的數(shù)據(jù),該數(shù)據(jù)與包括視聽數(shù)據(jù)的文件相關(guān)聯(lián)??商娲?,該文件可以被分割為單獨的文件以便分開處理。在任一情況下, IRD 1能夠向用戶提供更多的個人化新聞內(nèi)容,或至少允許用戶在按該方式分割的新聞節(jié) 目的內(nèi)部導(dǎo)航。例如,IRD 1能夠為用戶呈現(xiàn)一種略過用戶不感興趣的那些新聞項目的簡 單方式。可替代地,該設(shè)備可以為用戶呈現(xiàn)對新聞節(jié)目中存在的所有項目的快速概覽,并且 允許用戶選擇他或她感興趣的那些項目。應(yīng)當(dāng)注意,上面描述的實施例說明而非限制本發(fā)明,并且本領(lǐng)域技術(shù)人員將能夠 設(shè)計許多可替代實施例,而不脫離所附權(quán)利要求的范圍。在權(quán)利要求中,括號之間的任何附 圖標(biāo)記不應(yīng)當(dāng)被解釋為限制該權(quán)利要求。動詞“包括”及其變化形式的使用不排除權(quán)利要 求中敘述的元件或步驟之外的元件或步驟的存在。元件之前的冠詞“一”或“一個”不排除 多個這樣的元件的存在。本發(fā)明可以借助包含若干不同元件的硬件實現(xiàn),并且借助適當(dāng)編 程的計算機實現(xiàn)。在列舉了若干裝置的設(shè)備權(quán)利要求中,這些裝置中的若干個可以由同一 項硬件體現(xiàn)。在相互不同的從屬權(quán)利要求中記載某些措施這個純粹事實并不表示這些措施 的組合不能被有利地使用。盡管已經(jīng)描述了一種使用IRD 1的實現(xiàn)方式,但是這里所概述的方法可以容易地 在個人或手持計算機、數(shù)字電視機或類似設(shè)備上實現(xiàn)。如本領(lǐng)域技術(shù)人員將會明白的,“裝置”的意思是包括在操作中執(zhí)行或被設(shè)計以執(zhí) 行指定功能的任何硬件(比如單獨或集成電路或電子元件)或軟件(比如程序或程序的一 部分),無論該功能單獨地還是與其它功能結(jié)合,無論孤立方式還是與其它元件協(xié)作?!坝嬎?機程序”將被理解為意思是存儲在計算機可讀取介質(zhì)(比如光盤)上的、可經(jīng)由網(wǎng)絡(luò)(比如 因特網(wǎng))下載的或以任何其它方式可銷售的任何軟件產(chǎn)品。
權(quán)利要求
一種確定片段(11)的起點(12)的方法,該片段(11)對應(yīng)于視聽信號的語義單元,包括處理信號的音頻成分以檢測滿足低音頻功率標(biāo)準(zhǔn)的部分(14),以及處理視聽信號以識別對應(yīng)于鏡頭的部分的邊界,其中視聽信號的視頻成分被處理以評估用于識別由至少一個鏡頭形成的視頻部分的標(biāo)準(zhǔn),該至少一個鏡頭滿足用于識別包含圖像的特定類型的鏡頭的標(biāo)準(zhǔn),主持人可能被表示在該圖像中,該視頻部分僅僅包括該特定類型的鏡頭,其中,如果滿足低音頻功率標(biāo)準(zhǔn)的部分(14)的至少一個終點位于所識別的視頻部分(13)的邊界之間的特定間隔處,則與滿足低音頻功率標(biāo)準(zhǔn)的部分(14)一致并位于所識別的視頻部分(13)的邊界之間的點被選擇為片段(11)的起點(12),并且其中,當(dāng)確定沒有滿足低音頻功率標(biāo)準(zhǔn)的部分與所識別的視頻部分(13c)一致時,選擇該視頻部分的邊界作為片段(11d)的起點(12d)。
2.根據(jù)權(quán)利要求1的方法,其中處理視聽信號的視頻成分包括評估用于識別所述特 定類型的鏡頭的標(biāo)準(zhǔn),該評估包括確定鏡頭的至少一個圖像是否滿足與至少一個其它圖像 的相似度。
3.根據(jù)權(quán)利要求2的方法,其中評估用于識別所述特定類型的鏡頭的標(biāo)準(zhǔn)包括確定 鏡頭的至少一個圖像是否滿足與該鏡頭中所包含的至少一個其它圖像的相似度。
4.根據(jù)權(quán)利要求2或3的方法,其中評估用于識別所述特定類型的鏡頭的標(biāo)準(zhǔn)包括 確定鏡頭的至少一個圖像是否滿足與至少一個其它鏡頭的至少一個其它圖像的相似度。
5.根據(jù)權(quán)利要求4的方法,包括分析包含相似圖像的鏡頭在視聽信號上分布的均勻性。
6.根據(jù)權(quán)利要求1-5中任一項的方法,其中處理視聽信號的視頻成分包括評估用于 識別所述特定類型的鏡頭的標(biāo)準(zhǔn),該評估包括分析該鏡頭中所包含的至少一個圖像的內(nèi)容 以檢測該鏡頭所包含的至少一個圖像中表示的任意的人的面部。
7.根據(jù)權(quán)利要求1-6中任一項的方法,其中處理視聽信號的視頻成分以評估用于識別 視頻部分的標(biāo)準(zhǔn)包括下述的至少一個a)確定鏡頭是否是連續(xù)的鏡頭序列的第一個,該鏡頭的每一個被確定以滿足用于識肘 所述特定類型的鏡頭的標(biāo)準(zhǔn),該特定類型的鏡頭包括其中可能表示主持人的圖像,且該序 列具有比特定最小長度更大的長度,以及b)確定鏡頭是否滿足用于識別特定類型的鏡頭的標(biāo)準(zhǔn),該特定類型的鏡頭包括其中可 能表示主持人的圖像;并且此外是否滿足具有比特定最小長度更大的長度的標(biāo)準(zhǔn)。
8.根據(jù)前述權(quán)利要求中任一項的方法,包括當(dāng)確定了滿足低音頻功率標(biāo)準(zhǔn)的多個部 分(14a,b,f,g)的每一部分的至少一個終點位于所識別的視頻部分(13a,d)的邊界之間 的特定間隔處時,選擇與所述多個部分(14a,b,f,g)中第一個出現(xiàn)的部分一致的點作為片 段(11a,e)的起點(12a,e)。
9.根據(jù)權(quán)利要求8的方法,進(jìn)一步包括當(dāng)至少確定第一與第二部分(14a,b)之間的 間隔(Atij)的長度超過特定閾值時,選擇與滿足低音頻功率標(biāo)準(zhǔn)的所述多個部分(14a,b) 中的并在第一部分(14a)之后的第二部分一致的點作為另一個片段(lib)的起點。
10.根據(jù)前述權(quán)利要求中任一項的方法,包括對多個所識別的視頻部分(13)的每一個,連續(xù)地確定滿足低音頻功率標(biāo)準(zhǔn)的部分(14)的至少一個終點是否位于所識別的視頻 部分(13)的邊界之間的特定間隔處。
11.根據(jù)前述權(quán)利要求中任一項的方法,其中通過評估第一窗口上的平均音頻功率相 對于第二窗口上的平均音頻功率來檢測滿足低音頻功率標(biāo)準(zhǔn)的部分(14),該第二窗口大于該第一窗口。
12.一種用于將視聽信號分割為對應(yīng)于語義單元的片段(11)的系統(tǒng),該系統(tǒng)被配置為處理該信號的音頻成分以檢測滿足低音頻功率標(biāo)準(zhǔn)的部分(14),以及 處理該視聽信號以識別對應(yīng)于鏡頭的部分的邊界,其中視聽信號的視頻成分被處理以評估用于識別由至少一個鏡頭形成的視頻部分 (13)的標(biāo)準(zhǔn),該至少一個鏡頭滿足用于識別包含圖像的特定類型的鏡頭的標(biāo)準(zhǔn),主持人可 能被表示在所述圖像中,該視頻部分僅僅包括該特定類型的鏡頭,并且其中該系統(tǒng)被布置 成,當(dāng)確定滿足低音頻功率標(biāo)準(zhǔn)的部分(14)的至少一個終點位于所識別的視頻部分(13) 的邊界之間的特定間隔處時,選擇與滿足低音頻功率標(biāo)準(zhǔn)的部分(14) 一致并位于視頻部分(13)的邊界之間的點作 為片段(11)的起點(12),并且其中該系統(tǒng)被布置成當(dāng)確定沒有滿足低音頻功率標(biāo)準(zhǔn)的部分(14)與所識別的視頻部分 (13) —致時,選擇該視頻部分(13)的邊界作為片段(11)的起點(12)。
13.根據(jù)權(quán)利要求12的系統(tǒng),被配置為執(zhí)行根據(jù)權(quán)利要求1-11中任一項的方法。
14.一種視聽信號,被劃分為對應(yīng)于語義單元并具有由信號的配置指示的起點(12)的 片段(11),該視聽信號包括音頻成分,包含滿足低音頻功率標(biāo)準(zhǔn)的部分(14),以及視頻成分,包括視頻部分,至少一個該視頻部分滿足用于識別由至少一個特定類型的 鏡頭形成的視頻部分的標(biāo)準(zhǔn),該至少一個特定類型的鏡頭包括其中可能表示主持人的圖 像,并且至少一個該視頻部分僅僅包含該特定類型的鏡頭,其中滿足低音頻功率標(biāo)準(zhǔn)并具有位于滿足所述標(biāo)準(zhǔn)的視頻部分(13)的邊界之間的特 定間隔處的至少一個終點的至少一個部分(14)與片段(11)的起點(12) —致,并且其中片段(Ild)的至少一個起點(12d)與視頻部分(13c)的邊界一致,所述視頻部分(13c) 滿足所述標(biāo)準(zhǔn)并與滿足低音頻功率標(biāo)準(zhǔn)的部分(14)不一致。
15.根據(jù)權(quán)利要求14的視聽信號,該視聽信號可借助根據(jù)權(quán)利要求1-11中任一項的方 法獲得。
16.一種計算機程序,其包括一組指令,當(dāng)這組指令并入機器可讀取介質(zhì)中時能夠使具 有信息處理能力的系統(tǒng)執(zhí)行根據(jù)權(quán)利要求1-11中任一項的方法。
全文摘要
一種確定片段(11)的起點(12)的方法,該片段對應(yīng)于視聽信號的語義單元,所述包括處理該信號的音頻成分以檢測滿足低音頻功率標(biāo)準(zhǔn)的部分(14);以及處理該視聽信號以識別對應(yīng)于鏡頭的部分的邊界。視聽信號的視頻成分被處理以評估用于識別由特定類型的至少一個鏡頭形成的視頻部分的標(biāo)準(zhǔn),該特定類型的至少一個鏡頭包括其中可能表示主持人的圖像。如果滿足低音頻功率標(biāo)準(zhǔn)的部分(14)的至少一個終點位于所識別的視頻部分(13)的邊界之間的特定間隔處,則與滿足低音頻功率標(biāo)準(zhǔn)的部分(14)一致且位于所識別的視頻部分的邊界之間的點被選擇為片段(11)的起點(12)。當(dāng)確定沒有滿足低音頻功率標(biāo)準(zhǔn)的部分與所識別的視頻部分(13)一致時,該視頻部分的邊界被選擇為片段(11)的起點(12)。
文檔編號G06F17/30GK101855897SQ200880115993
公開日2010年10月6日 申請日期2008年11月10日 優(yōu)先權(quán)日2007年11月14日
發(fā)明者B·佐特考, L·王, P·方塞卡 申請人:皇家飛利浦電子股份有限公司