本申請案主張2014年9月2日申請的標(biāo)題為“用于基于漸進(jìn)式改良從視頻序列選擇幀的方法(A METHOD FOR SELECTING FRAMES FROM VIDEO SEQUENCES BASED ON INCREMENTAL IMPROVEMENT)”的第14/475,074號美國專利申請案的優(yōu)先權(quán),所述案的全文以引用方式并入本文中。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻處理的領(lǐng)域,且更特定來說涉及用于從視頻選擇關(guān)鍵幀的經(jīng)改良方法。
背景技術(shù):
關(guān)鍵視頻幀的選擇可用于許多應(yīng)用中。舉例來說,常期望提取并呈現(xiàn)可傳達(dá)視頻的準(zhǔn)確且可辨識摘要或概要的視頻數(shù)據(jù)的一些子集。關(guān)鍵幀提取算法用于從視頻選擇信息最豐富幀的子集,其目標(biāo)為用有限數(shù)目個幀表示視頻中的最重要內(nèi)容。關(guān)鍵幀提取應(yīng)用于若干廣泛領(lǐng)域的視頻處理中,例如視頻概述、產(chǎn)生DVD中的章名、視頻索引及從視頻打印。摘要或概要還可促進(jìn)視頻共享或幫助用戶決定整個視頻是否值得下載或觀看。關(guān)鍵幀提取是活躍的研究領(lǐng)域,且已提出用于從視頻提取關(guān)鍵幀的許多方法。
用于通過提取關(guān)鍵視頻幀來產(chǎn)生視頻摘要的算法在所屬領(lǐng)域中是已知的,但其具有通過本發(fā)明解決的缺點。主要基于幀間運動檢測確定關(guān)鍵視頻幀的現(xiàn)存算法(例如在Aaron T.Deever的第8,599,313號美國專利中揭示的算法)具有至少兩個缺點。此些算法要么不考慮品質(zhì)度量以協(xié)助關(guān)鍵幀的選擇,要么需要多個度量的廣泛聯(lián)合優(yōu)化(計算昂貴的方法)。
舉例來說,J.Luo等人的標(biāo)題為“從視頻剪輯提取關(guān)鍵幀候選(Extracting key frames candidates from video clip)”的第7,889,794號美國專利的方法通過對視頻剪輯執(zhí)行指示場景或相機平移的全域運動估計來分析視頻剪輯以確定關(guān)鍵幀。作為額外實例,I.Wilf等人的標(biāo)題為“從視頻序列選擇關(guān)鍵幀的方法(Method of selecting key-frames from a video sequence)”的第7,184,100號美國專利教示通過使用區(qū)域分析及運動分析兩者比較視頻序列中的每一幀與相鄰幀而從視頻序列選擇關(guān)鍵幀。
現(xiàn)有技術(shù)方法不包含或組合其它不基于運動的度量(例如視頻幀的圖像品質(zhì)或語義內(nèi)容)以改良關(guān)鍵幀選擇過程的品質(zhì)。將此些度量集成到此些方法中將需要新的復(fù)雜且耗時的優(yōu)化過程。因此,需要制定使用額外品質(zhì)度量改良當(dāng)前算法的新策略。本發(fā)明的一個目的是選擇感知上佳于通過常見基于運動的方法選擇的關(guān)鍵幀但稍微影響計算成本的關(guān)鍵幀。本發(fā)明的進(jìn)一步目的是通過在無需算法的新優(yōu)化或新特征的規(guī)范化的情況下并入新度量來改良現(xiàn)存算法。
技術(shù)實現(xiàn)要素:
本申請案旨在用于自動地且有效地組合多個度量以從視頻序列選擇所關(guān)注或關(guān)鍵幀的新方法。在一個方面中,所述方法包含從視頻序列選擇參考幀及在所述經(jīng)組合度量下迭代地計算候選幀相對于所述參考幀的改良或增益。根據(jù)本發(fā)明的度量可包含圖像品質(zhì)度量,例如清晰度、對比度及噪聲;基于運動的度量,例如相機抖動及運動模糊;及美學(xué)品質(zhì)度量,例如圖像的構(gòu)成以及臉部的品質(zhì)及表情。在其它方面中,本發(fā)明使用其它基于內(nèi)容的特征以制定用于改良算法的新度量。此些基于內(nèi)容的特征包含圖像的顏色直方圖、圖像的黑色直方圖、圖像的語義信息、圖像中的對象、圖像的背景及圖像的前景。
在一個實施例中,本發(fā)明方法包括計算清晰度度量及所檢測人臉的品質(zhì)度量,本文中稱為faceIVI。根據(jù)此方法,計算每一參考關(guān)鍵幀及時間上相鄰于每一參考關(guān)鍵幀的多個候選幀中的每一者的清晰度得分及faceIVI得分。在其它實施例中,本發(fā)明方法包含計算其它度量。
附圖說明
圖1A到B含有說明本發(fā)明的一種方法的流程圖。
圖2A展示從視頻序列中的幀選擇的兩個參考關(guān)鍵幀。
圖2B展示其中與兩個相鄰參考關(guān)鍵幀相關(guān)聯(lián)的多個候選關(guān)鍵幀重疊的情況。
圖2C展示調(diào)整重疊的多個候選關(guān)鍵幀使得其不再重疊的一種方法。
圖3是說明從基于運動的關(guān)鍵幀提取算法輸出的主列表的實例。
圖4是說明對應(yīng)主列表幀的預(yù)定義搜索范圍內(nèi)具有最高圖像清晰度得分的候選幀的實例。
圖5是說明對應(yīng)主列表幀的預(yù)定義搜索范圍內(nèi)具有最高faceIVI得分的候選幀的實例。
圖6是說明在根據(jù)本發(fā)明的方法合并來自圖4的輸出與來自圖5的輸出之后的主列表的實例。
圖7是說明從圖6的主列表選擇的關(guān)鍵幀的最終列表的實例。
圖8是展示根據(jù)本發(fā)明的實施例的系統(tǒng)的組件的高級圖。
具體實施方式
本申請案揭示用于從視頻序列選擇關(guān)鍵幀的經(jīng)改良方法。如所屬領(lǐng)域的技術(shù)人員將明白,本申請案中揭示的本發(fā)明方法適于運用許多類型的關(guān)鍵幀選擇算法進(jìn)行實施。舉例來說,本申請案中揭示的方法可用來改良所屬領(lǐng)域中已知的關(guān)鍵幀選擇算法,包含但不限于基于運動的算法,例如在Aaron T.Deever的第8,599,313號美國專利中揭示的算法,所述專利的揭示內(nèi)容以引用方式并入本文中。替代地,所揭示方法與基于鏡頭邊界檢測的算法兼容。在本發(fā)明的方法中,通過基于某些品質(zhì)度量在參考關(guān)鍵幀附近搜索來識別候選幀。在本發(fā)明的一個方面中,所使用品質(zhì)度量可為清晰度度量及所檢測人臉的品質(zhì)度量,本文中稱為faceIVI。
在下文描述中,將從通常將被實施為軟件程序的方面描述本發(fā)明的一些實施例。所屬領(lǐng)域的技術(shù)人員將認(rèn)知,此軟件的等效物還可構(gòu)建在硬件中,且硬件實施方案可帶來可能夠在更廣泛應(yīng)用中(例如在實時系統(tǒng)中)使用本發(fā)明的優(yōu)點。因為圖像操控算法及系統(tǒng)是熟知的,本發(fā)明描述將尤其旨在形成根據(jù)本發(fā)明的方法的部分或與根據(jù)本發(fā)明的方法更直接地協(xié)作的算法及系統(tǒng)。可從所屬領(lǐng)域中已知的此些系統(tǒng)、算法、組件及元件選擇本文中未具體展示或描述的此些算法及系統(tǒng)的其它方面,連同涉及所述方面的用于產(chǎn)生及以其它方式處理圖像信號的硬件及軟件。鑒于如本發(fā)明中描述的根據(jù)本發(fā)明的系統(tǒng),可用于本發(fā)明的實施方案的本文中未具體展示、建議或描述的軟件是常見的且在所屬領(lǐng)域的一般技術(shù)范圍內(nèi)。
本發(fā)明包含本文中描述的實施例的組合。對“特定實施例”等的引用指代存在于本發(fā)明的至少一個實施例中的特征。對“實施例”或“特定實施例”等的單獨引用未必指代相同實施例;然而,此些實施例并不互斥,除非如此指示或所屬領(lǐng)域的技術(shù)人員易于理解。在引用“方法”等中使用單數(shù)或復(fù)數(shù)并非為限制性。應(yīng)注意,除非上下文另外明確地提及或要求,否則單詞“或”在本發(fā)明中以非排斥意義加以使用。
將參考圖1A到B中展示的步驟描述本發(fā)明方法的一個實施例的步驟。首先,在步驟101中,使用關(guān)鍵幀提取算法(例如前文提及的基于運動的算法)從視頻序列計算參考關(guān)鍵幀的主列表。還可使用其它算法,例如基于鏡頭邊界檢測的算法。出于在下文論述中說明的目的,每一參考關(guān)鍵幀將被標(biāo)記為RKFi,其中i是1與主列表中的參考關(guān)鍵幀的數(shù)目之間的整數(shù)。
在步驟102中,基于單品質(zhì)度量、品質(zhì)度量的組合或一些其它量度將來自主列表的參考關(guān)鍵幀的子集指定為最終幀。在步驟103到107a-b中相同地處理主列表中的參考關(guān)鍵幀中的每一者,而不管其是否被指定為最終幀。在步驟108中使用此指定。
對主列表中的每一參考關(guān)鍵幀執(zhí)行步驟103到107a或107b。在步驟103中,計算相鄰于主列表中的每一參考關(guān)鍵幀RKFi的多個候選幀中的每一者的清晰度得分。在本文中由記號SHARP(frame)標(biāo)記此清晰度得分計算。多個候選幀可為緊接視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀、緊隨視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀、或緊接視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀及緊隨視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀兩者。
在本發(fā)明的一個方面中,如果視頻序列中的兩個參考關(guān)鍵幀與一定數(shù)目個候選幀的接近度使得所述序列中的幀將是兩個參考關(guān)鍵幀的候選幀,那么一定數(shù)目個候選幀經(jīng)調(diào)整使得每一候選幀與僅一個參考關(guān)鍵幀相關(guān)聯(lián)。舉例來說,考慮其中多個候選幀被選擇為每一參考關(guān)鍵幀前的三十個幀及每一參考關(guān)鍵幀后的三十個幀的情況,步驟101中選擇的又兩個相鄰參考關(guān)鍵幀通過視頻序列中的僅二十個幀分離。在此情況中,此兩個參考關(guān)鍵幀的多個候選幀將減少。在一個方面中,此兩個參考關(guān)鍵幀中的前者可與三十個前候選幀及十個后候選幀相關(guān)聯(lián),而此兩個參考關(guān)鍵幀中的后者可與十個前候選幀及三十個后候選幀相關(guān)聯(lián)。換句話來說,兩個連續(xù)參考關(guān)鍵幀之間的介入候選幀的數(shù)目一分為二并且第一半分配給結(jié)合前一參考關(guān)鍵幀考慮的多個候選幀且第二半分配給結(jié)合后一參考關(guān)鍵幀考慮的多個候選幀。
圖2A到C中展示此調(diào)整。在圖2A中,已從視頻序列201的片段選擇參考關(guān)鍵幀210及220。圖2B說明多個候選幀211(結(jié)合前一參考關(guān)鍵幀210考慮)將如何與多個候選幀221(結(jié)合后一參考關(guān)鍵幀220考慮)重疊。圖2C展示借此參考關(guān)鍵幀210與220之間的距離對半分并且第一半與前面多個候選幀212相關(guān)聯(lián)且第二半與后面多個候選幀222相關(guān)聯(lián)的調(diào)整。圖2A到C中說明的調(diào)整僅是可在此方法內(nèi)使用的一個代表性調(diào)整。
返回到圖1A到B中的流程圖中的步驟104,對于主列表中的每一參考關(guān)鍵幀RKFi,識別并存儲與所述參考關(guān)鍵幀相關(guān)聯(lián)的來自多個候選幀當(dāng)中具有最高清晰度得分的幀。出于說明的目的,與參考關(guān)鍵幀RKFi相關(guān)聯(lián)的具有最高清晰度得分的候選幀在本文中被標(biāo)記為CFi,Sharp。
在步驟105中,計算相鄰于主列表中的每一參考關(guān)鍵幀RKFi的多個候選幀中的每一者的faceIVI得分。通過檢測每一候選幀中人臉出現(xiàn)的任何區(qū)域并評估所述區(qū)域的品質(zhì)來計算faceIVI得分。在本文中由記號FACEIVI(frame)標(biāo)記此faceIVI得分計算。不描繪被分析人臉的任何候選幀不接收faceIVI得分,其可由空值、零值或一些其它指示來反映。在步驟103與105之間將結(jié)合每一參考關(guān)鍵幀考慮的多個候選幀是相同的,使得評估相同候選幀的清晰度得分及faceIVI得分。換句話來說,如上文揭示,歸因于與參考關(guān)鍵幀的接近度對多個候選幀的任何調(diào)整適用于這兩個步驟。
在步驟106中,對于主列表中的每一參考關(guān)鍵幀RKFi,識別并存儲與所述參考關(guān)鍵幀相關(guān)聯(lián)的來自多個候選幀當(dāng)中具有最高faceIVI得分的幀。出于說明的目的,與參考關(guān)鍵幀RKFi相關(guān)聯(lián)的具有最高faceIVI得分的候選幀被標(biāo)記為CFi,Face。如果記錄具有清晰度得分及faceIVI得分的幀,那么所述方法前進(jìn)到步驟107a。另一方面,如果不存在具有faceIVI得分的候選幀,那么所述方法前進(jìn)到步驟107b。
在步驟107a中,計算通過用具有最高清晰度得分的幀CFi,Sharp或具有最高faceIVI得分的幀CFi,Face取代參考關(guān)鍵幀RKFi將完成的清晰度得分及faceIVI得分的總增加;且用具有最大總增加的候選幀(CFi,Sharp或CFi,Face)取代參考關(guān)鍵幀RKFi。在所述方法的一個方面中,如下般計算清晰度得分及faceIVI得分的凈增加:
及
其中
Si是通過用具有最高清晰度得分的幀CFi,Sharp取代參考關(guān)鍵幀RKFi將完成的清晰度得分及faceIVI得分的凈增加,且
Fi是通過用具有最高faceIVI得分的幀CFi,Face取代參考關(guān)鍵幀RKFi將完成的清晰度得分及faceIVI得分的凈增加。
然而,如果兩個候選幀(CFi,Sharp及CFi,Face)的清晰度得分及faceIVI得分的總增加是負(fù)的,那么參考關(guān)鍵幀RKFi不被任一候選幀取代,而是仍保留在主列表中。
可能的是,如果參考關(guān)鍵幀RKFi的相關(guān)聯(lián)候選幀中的一者具有所檢測臉區(qū)域,那么在參考關(guān)鍵幀RKFi不含有所檢測臉區(qū)域時到達(dá)步驟107a處。在此情況中,通過除以FACEIVI(RKFi)來評估Fi是不可能的。在此事件中,可將Fi的第二項設(shè)置為與包含視頻摘要中的人臉的相對可期望性相稱的預(yù)定值。如果設(shè)計者高度重視視頻摘要中的臉,那么此預(yù)定值可為1.0,或如果設(shè)計者希望在品質(zhì)度量之間找到不同平衡,那么此預(yù)定值可為一些更小值。如果具有最高清晰度得分的幀CFi,Sharp具有任何所檢測臉區(qū)域,那么Si的計算將遇到相同問題,且因此FACEIVI(CFi,Sharp)可被評估為非零值。在此事件中,與Fi的第二項相似,也可將Si的第二項設(shè)置為預(yù)定值。否則,如果具有最高清晰度得分的幀CFi,Sharp不具有任何所檢測臉區(qū)域,那么Fi的第二項可被評估為零。
如果在步驟107a之后主列表中存在更多參考關(guān)鍵幀,那么所述方法在步驟103中繼續(xù)處理下一參考關(guān)鍵幀。否則,所述方法繼續(xù)進(jìn)行步驟108。
在步驟107b中,在參考關(guān)鍵幀RKFi的候選幀未被指派faceIVI得分時,由具有最高清晰度得分的候選幀CFi,Sharp取代參考關(guān)鍵幀,條件是此幀的清晰度得分SHARP(CFi,Sharp)超過預(yù)定義閾值。如果在步驟107b之后主列表中存在更多參考關(guān)鍵幀,那么所述方法在步驟103中繼續(xù)處理下一參考關(guān)鍵幀。否則,所述方法繼續(xù)進(jìn)行步驟108。
在步驟108中,從主列表中在步驟102被指定為最終幀的如已在步驟103到107a-b中通過取代修改的關(guān)鍵幀產(chǎn)生最終列表。
在步驟109中,基于在步驟103到107a-b中完成的品質(zhì)的總增加選擇性地將在步驟102中未被指定為最終幀的來自主列表的關(guān)鍵幀添加到最終列表,使得最終列表包含此些關(guān)鍵幀中的每一者,所述關(guān)鍵幀的清晰度得分及faceIVI得分的總增加超過預(yù)定義閾值。舉例來說,如果參考關(guān)鍵幀(RKFi)最初未被指定為最終幀,但用來自多個相關(guān)聯(lián)候選幀的幀取代且所述幀的品質(zhì)的總增加(Si或Fi,適用時)超過預(yù)定義閾值,那么將所述參考關(guān)鍵幀添加到最終列表。否則,參考關(guān)鍵幀(RKFi)被舍棄且不出現(xiàn)在最終列表中。
圖3到7說明所述方法的各個階段處的各種參考關(guān)鍵幀及候選幀的實例。圖3是說明如在步驟101中識別的從基于運動的關(guān)鍵幀提取算法輸出的主列表的實例。在此實例中,主列表含有六個參考關(guān)鍵幀31到36且參考關(guān)鍵幀34到36被指定為最終幀。
圖4展示在步驟104中選擇的候選幀41到46,其是每一參考關(guān)鍵幀的預(yù)定義搜索范圍內(nèi)具有最高圖像清晰度得分的幀。
圖5展示在步驟106中選擇的候選幀51、53、55及56,其是每一參考關(guān)鍵幀的預(yù)定義搜索范圍內(nèi)具有最高faceIVI得分的幀。不存在對應(yīng)于參考關(guān)鍵幀32及34的幀,因為在與所述參考關(guān)鍵幀相關(guān)聯(lián)的任何候選幀中找不到可檢測臉。
圖6是說明在對每一參考關(guān)鍵幀執(zhí)行步驟107a及107b之后的主列表的實例。在括號中指示每一關(guān)鍵幀的來源。舉例來說,第一關(guān)鍵幀31是用候選幀51(具有最高faceIVI得分的幀)取代,所述候選幀51在圖6中表現(xiàn)為關(guān)鍵幀61;關(guān)鍵幀32是用候選幀42(具有最高清晰度得分的幀)取代,所述候選幀42在圖6中表現(xiàn)為關(guān)鍵幀62;以此類推。
圖7是說明如在步驟108及109中指定的從圖6的主列表選擇的關(guān)鍵幀的最終列表的實例。在步驟108中,將最終列表的幀73到75選擇為最終幀。在步驟109中選擇幀71及72,因為其品質(zhì)的總增加足夠高以超過預(yù)定閾值。已省略來自圖6中的主列表的第二關(guān)鍵幀。此最終輸出既比在步驟102處產(chǎn)生的最終幀的原始列表更具代表性又比在步驟101處產(chǎn)生的原始主列表更簡潔。
在本發(fā)明方法的替代實施例中,省略步驟102、108及109,使得主列表中的所有關(guān)鍵幀出現(xiàn)在最終列表中。
本發(fā)明中揭示的方法的主要優(yōu)點是可在不實行整個新優(yōu)化程序或廣泛規(guī)范化(歸因于不同特征維度)過程的情況下使用不同度量。本文中揭示的方法的本質(zhì)是在考慮所有度量的情況下在相對于參考關(guān)鍵幀評估新候選幀時確定品質(zhì)的凈增加或減小。因此,可容易以模塊化方式將新度量并入到算法中??蓮娜魏晤愋偷膱D像序列(不限于視頻序列)選擇或提取此些方法所操作的幀集。舉例來說,幀集可來自在事件中捕獲的圖像集,或來自源自視頻序列的靜止圖像與幀的混合物。
圖8是根據(jù)本發(fā)明的實施例的用于識別并改良來自視頻序列的關(guān)鍵幀集的系統(tǒng)的組件的高級圖。所述系統(tǒng)包含數(shù)據(jù)處理系統(tǒng)810、外圍系統(tǒng)820、用戶接口系統(tǒng)830及數(shù)據(jù)存儲系統(tǒng)840。外圍系統(tǒng)820、用戶接口系統(tǒng)830及數(shù)據(jù)存儲系統(tǒng)840通信地連接到數(shù)據(jù)處理系統(tǒng)810。
數(shù)據(jù)處理系統(tǒng)810包含實施本發(fā)明的各個實施例的過程(包含本文中描述的示例性過程)的一或多個數(shù)據(jù)處理裝置。短語“數(shù)據(jù)處理裝置”或“數(shù)據(jù)處理器”意圖包含任何數(shù)據(jù)處理裝置,例如中央處理單元(“CPU”)、臺式計算機、膝上型計算機、主機計算機、個人數(shù)字助理、數(shù)字相機、蜂窩式電話,或用于處理數(shù)據(jù)、管理數(shù)據(jù)或處置數(shù)據(jù)(無論是運用電組件、磁組件、光學(xué)組件、生物組件還是以其它方式實施)的任何其它裝置。
數(shù)據(jù)存儲系統(tǒng)840包含經(jīng)配置以存儲信息(包含執(zhí)行本發(fā)明的各個實施例的過程(包含本文中描述的示例性過程)所需的信息)的一或多個處理器可訪問存儲器。數(shù)據(jù)存儲系統(tǒng)840可為分布式處理器可訪問存儲器系統(tǒng),其包含經(jīng)由多個計算機或裝置通信地連接到數(shù)據(jù)處理系統(tǒng)810的多個處理器可訪問存儲器。另一方面,數(shù)據(jù)存儲系統(tǒng)840無需是分布式處理器可訪問存儲器系統(tǒng)且因此,可包含位于單數(shù)據(jù)處理器或裝置內(nèi)的一或多個處理器可訪問存儲器。
短語“處理器可訪問存儲器”意圖包含任何處理器可訪問數(shù)據(jù)存儲裝置,無論是易失性的或非易失性的、電子的、磁性的、光學(xué)的還是以其它方式的存儲裝置,包含但不限于寄存器、軟盤、硬盤、光盤、DVD、快閃存儲器、ROM及RAM。
短語“通信地連接”意圖包含其中可傳達(dá)數(shù)據(jù)的裝置、數(shù)據(jù)處理器或程序之間的任何類型的連接,無論是有線還是無線連接。短語“通信地連接”意圖包含單數(shù)據(jù)處理器內(nèi)的裝置或程序之間的連接、位于不同數(shù)據(jù)處理器中的裝置或程序之間的連接及根本不位于數(shù)據(jù)處理器中的裝置之間的連接。就此來說,盡管數(shù)據(jù)存儲系統(tǒng)840被展示為與數(shù)據(jù)處理系統(tǒng)810分離,但所屬領(lǐng)域的技術(shù)人員將明白,數(shù)據(jù)存儲系統(tǒng)840可全部或部分存儲在數(shù)據(jù)處理系統(tǒng)810內(nèi)。進(jìn)一步就此來說,盡管外圍系統(tǒng)820與用戶接口系統(tǒng)830被展示為與數(shù)據(jù)處理系統(tǒng)810分離,但所屬領(lǐng)域的技術(shù)人員將明白,此些系統(tǒng)中的一者或兩者可全部或部分存儲在數(shù)據(jù)處理系統(tǒng)810內(nèi)。
外圍系統(tǒng)820可包含經(jīng)配置以將數(shù)字內(nèi)容記錄提供到數(shù)據(jù)處理系統(tǒng)810的一或多個裝置。舉例來說,外圍系統(tǒng)820可包含數(shù)字靜物相機、數(shù)字?jǐn)z像機、蜂窩式電話或其它數(shù)據(jù)處理器。數(shù)據(jù)處理系統(tǒng)810在從外圍系統(tǒng)820中的裝置接收數(shù)字內(nèi)容記錄之后可將此些數(shù)字內(nèi)容記錄存儲在數(shù)據(jù)存儲系統(tǒng)840中。
用戶接口系統(tǒng)830可包含鼠標(biāo)、鍵盤、另一計算機、或數(shù)據(jù)從其輸入到數(shù)據(jù)處理系統(tǒng)810的任何裝置或裝置組合。就此來說,盡管外圍系統(tǒng)820被展示為與用戶接口系統(tǒng)830分離,但外圍系統(tǒng)820可被包含為用戶接口系統(tǒng)830的部分。
用戶接口系統(tǒng)830還可包含顯示裝置、處理器可訪問存儲器、或數(shù)據(jù)通過數(shù)據(jù)處理系統(tǒng)810輸出到其的任何裝置或裝置組合。就此來說,如果用戶接口系統(tǒng)830包含處理器可訪問存儲器,那么此存儲器可為數(shù)據(jù)存儲系統(tǒng)840的部分,即使用戶接口系統(tǒng)830與數(shù)據(jù)存儲系統(tǒng)840在圖8中被展示為分離。
本發(fā)明的另一實施例利用以整個幀的圖像品質(zhì)量度及所述幀中的所檢測臉的圖像品質(zhì)量度為特征的分級搜索。在此實施例中,首先使用關(guān)鍵偵提取算法(例如前文提及的基于運動的算法)從視頻序列計算參考關(guān)鍵幀的主列表,如上文關(guān)于步驟101描述。還可使用其它算法,例如基于鏡頭邊界檢測的算法。出于在下文論述中說明的目的,每一參考關(guān)鍵幀將被標(biāo)記為RKFi,其中i是1與主列表中的參考關(guān)鍵幀的數(shù)目之間的整數(shù)。
然后,將來自主列表的參考關(guān)鍵幀的子集指定為最終列表,如上文關(guān)于步驟102描述。基于單品質(zhì)度量、品質(zhì)度量的組合或一些其它量度指定最終列表幀。
在此實施例的下一步驟中,計算相鄰于主列表中的每一參考關(guān)鍵幀RKFi的多個候選幀中的每一者的清晰度得分,如上文關(guān)于步驟103描述。在本文中由記號SHARP(frame)標(biāo)記此清晰度得分計算。多個候選幀可為緊接視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀、緊隨視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀、或緊接視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀及緊隨視頻序列中的每一參考關(guān)鍵幀的一定數(shù)目個幀兩者。
然后,執(zhí)行清晰度搜索,其中如果非參考關(guān)鍵幀具有大于絕對閾值的清晰度,那么所述幀將取代參考關(guān)鍵幀??蓞⒖贾髁斜泶_定絕對閾值。絕對閾值還可為預(yù)置常數(shù),或可基于幀集中的平均圖像品質(zhì)從全幀集計算。如果任何初始參考關(guān)鍵幀被取代,那么此步驟導(dǎo)致第二主列表,包含取代的參考關(guān)鍵幀。此步驟還導(dǎo)致第二最終列表。第二最終列表與初始最終列表相同,但還在第二最終列表中用相同取代幀取代第二主列表中取代的任何參考關(guān)鍵幀。
在清晰度搜索期間,存在即使正取代的幀不在最終列表中幀仍可被推廣到第二最終列表的可能性。此推廣可在幀的清晰度大于上文描述的絕對閾值且?guī)旧锨逦诔跏紖⒖缄P(guān)鍵幀時發(fā)生。可使用若干方法來確定幀何時基本上清晰于參考關(guān)鍵幀。舉例來說,可預(yù)置絕對清晰度差,使得具有高于預(yù)置差的清晰度差的任何幀被視為基本上清晰于初始參考關(guān)鍵幀。替代地,可計算幀集或任何幀子集當(dāng)中的標(biāo)準(zhǔn)清晰度偏差,且可使用所述標(biāo)準(zhǔn)偏差來確定幀何時基本上清晰于參考關(guān)鍵幀。舉例來說,可將幀的清晰度與初始參考關(guān)鍵幀的清晰度之間的差除以上文描述的標(biāo)準(zhǔn)偏差以確定差是否大于閾值。如果差大于閾值,那么幀可被視為基本上清晰于初始參考關(guān)鍵幀。因為此類型的推廣,第二最終列表可能含有多于初始最終列表的幀。
在完成清晰度搜索之后,使用第二主列表執(zhí)行基于faceIVI的搜索,其中如果非參考關(guān)鍵幀具有大于絕對閾值的faceIVI得分,那么所述幀將取代參考關(guān)鍵幀??梢耘c上文關(guān)于清晰度搜索描述的方式相似的方式確定絕對閾值。如果來自第二主列表的任何參考關(guān)鍵幀被取代,那么此步驟導(dǎo)致第三主列表,包含取代的參考關(guān)鍵幀。此步驟還導(dǎo)致第三最終列表。第三最終列表與第二最終列表相同,但還在第三最終列表中用相同取代幀取代第三主列表中取代的任何參考關(guān)鍵幀。
正如清晰度搜索,存在即使正取代的幀不在第二最終列表中幀仍可被推廣到第三最終列表的可能性。此推廣可在幀的faceIVI得分大于上文描述的絕對閾值且?guī)膄aceIVI得分基本上大于第二主列表中的參考關(guān)鍵幀時發(fā)生??墒褂萌舾煞椒▉泶_定幀的faceIVI得分何時基本上大于參考關(guān)鍵幀。舉例來說,可預(yù)置絕對faceIVI得分差,使得具有高于預(yù)置差的faceIVI得分的任何幀被視為具有基本上大于初始參考關(guān)鍵幀的faceIVI得分。替代地,可計算幀集或任何幀子集當(dāng)中的faceIVI得分的標(biāo)準(zhǔn)偏差,且可使用所述標(biāo)準(zhǔn)偏差來確定幀何時具有基本上大于參考關(guān)鍵幀的faceIVI得分。舉例來說,可將幀的faceIVI得分與參考關(guān)鍵幀的faceIVI得分之間的差除以上文描述的標(biāo)準(zhǔn)偏差以確定差是否大于閾值。如果差大于閾值,那么幀可被視為具有基本上大于初始參考關(guān)鍵幀的faceIVI得分。因為此類型的推廣,第三最終列表可能含有多于第二最終列表的幀。
在上文描述的實施例中,可顛倒清晰度搜索與faceIVI搜索的順序,使得在清晰度搜索之前執(zhí)行faceIVI搜索。另外,可計算圖像品質(zhì)量度(例如定界臉區(qū)域的清晰度),而非計算視頻幀中的所檢測臉中的每一者的faceIVI得分。然后將使用此清晰度得分來選擇待包含在最終列表中的具有臉的最佳幀。應(yīng)注意,在評估中可將其它品質(zhì)因子(例如對比度、噪聲、臉部表情)用作量度或量度組合。
本發(fā)明已特別參考其某些優(yōu)選實施例詳細(xì)地作描述,但將理解,可在本發(fā)明的精神及范圍內(nèi)實現(xiàn)變動及修改。