欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于關(guān)注度分析的音視頻文件摘要方法

文檔序號(hào):2830868閱讀:567來源:國知局
專利名稱:一種基于關(guān)注度分析的音視頻文件摘要方法
技術(shù)領(lǐng)域
本發(fā)明涉及音視頻分析領(lǐng)域,更進(jìn)一步涉及基于內(nèi)容的音視頻摘要分 析領(lǐng)域,特別是一種基于關(guān)注度分析的音頻文件摘要方法和基于此方法的 音視頻文件摘要方法。
背景技術(shù)
音視頻數(shù)據(jù)作為一種動(dòng)態(tài)、直觀、形象的數(shù)字媒體承載了大量豐富的 語義信息,越來越多地出現(xiàn)在各類信息服務(wù)和應(yīng)用場(chǎng)合,如何自動(dòng)而高效 地從大量音視頻數(shù)據(jù)中挖掘出有效內(nèi)容信息,建立音視頻摘要和提取其中 的精彩片段已成為當(dāng)前基于內(nèi)容的音視頻分析領(lǐng)域一個(gè)前沿問題。
音視頻數(shù)據(jù)是以非結(jié)構(gòu)化形式存儲(chǔ)的。通過建立音視頻摘要、提取其 中精彩片段一方面可以方便用戶對(duì)音視頻數(shù)據(jù)庫內(nèi)容進(jìn)行基于語義的快 速檢索、瀏覽,有利于多媒體數(shù)字圖書館的建設(shè)。另一方面隨著個(gè)人數(shù)字 移動(dòng)設(shè)備(手機(jī)、掌上電腦、商務(wù)通等)中多媒體技術(shù)的大量應(yīng)用,也可 以滿足不斷增加的人們對(duì)隨時(shí)隨地瀏覽音視頻數(shù)據(jù)的要求。而且,無線傳 輸設(shè)備帶寬的限制,要求能夠用有限的帶寬成本來獲得最有價(jià)值即最精彩 的信息以節(jié)省下載花費(fèi),音視頻摘要技術(shù)滿足了這種移動(dòng)用戶定制需求。
當(dāng)前基于內(nèi)容的音視頻分析主要分為兩類 一類是針對(duì)視頻中客觀事 實(shí)的理解,所分析的對(duì)象是具有客觀屬性的,不以人的情緒變化或個(gè)體間 的差異而發(fā)生改變;另一類是對(duì)音視頻文件中傳達(dá)的情感信息進(jìn)行理解, 是基于人們對(duì)音視頻的主觀感知來進(jìn)行分析的。本發(fā)明關(guān)注后者。音視頻 中的一些片段通常會(huì)比其他部分內(nèi)容更多地吸引觀眾的注意力,引起觀眾 共鳴,影響其情緒變化,這些片段具有較高的情感關(guān)注度(attention)。情 感關(guān)注度分析,也可稱為注意力分析,就是要從音視頻文件中自動(dòng)獲得這 些具有較高關(guān)注度的片段,以幫助生成音視頻摘要,便于音視頻傳輸和個(gè) 性化定制。
在現(xiàn)有技術(shù)中,雖然已有一些對(duì)音視頻文件中音頻關(guān)注度進(jìn)行分析的 工作,但他們?cè)趯?duì)聽覺模態(tài)關(guān)注度方面的研究還很不夠。目前在音頻關(guān)注度分才斤方面專交為典型的工作是文章A generic framework of user attention model and its application in video summarization. Yu fei Ma, Xian sheng Hua, Lu lie, Hong jiang Zhang, IEEE transaction on multimedia, 2 0 0 5中提到的方法,i亥 方法較為簡單,其主要內(nèi)容如下
首先,采用使用單一分類器結(jié)合音頻底層特征進(jìn)行訓(xùn)練與測(cè)試將視頻 文件中的音頻進(jìn)行分類;
然后,根據(jù)所述音頻分類結(jié)果,對(duì)視頻中的典型聲音類型建立關(guān)注度 分析模型,得到各聲音類型的關(guān)注度曲線;
從底層特征角度出發(fā)對(duì)音頻中影響用戶關(guān)注度的主要因素 一 一音量元 素與音量變化元素進(jìn)行自底向上(bottom-up)建模
《=d
&《〃她《; & =五—/她^。r
其中f 。和^分別為歸 一化的音頻平均能量與歸 一化的音頻平均能量峰
值;£_和£—分別為音頻平均能量與平均能量峰值;Mu&,和m^—分別 為二者的最大值。
使用中層情感特征M,£A與對(duì)音頻中影響用戶關(guān)注度的語音與音 樂因素進(jìn)行自頂向下(top-down)建模
印eec/ —八fw ,
其中風(fēng)p"與隊(duì)掛分別為音頻中影響用戶關(guān)注度的中層情感特征語音和
音樂因素的模型。A;w, AC , AC,分別為在一個(gè)滑動(dòng)窗口 w范圍內(nèi)聲音的 語音、音樂和總共的亞節(jié)數(shù)(subsegment )。
最后,根據(jù)上述聲音類型的關(guān)注度曲線確定摘要。
使用線性加權(quán)融合的方式融合上述各模型獲得最終的用戶關(guān)注模型,進(jìn) 而確定摘要
M = A x《+^ XU V^腿,c 。
在該模型形成的音視頻文件關(guān)注度時(shí)序變化曲線上通過設(shè)定閾值選擇 超過閾值的峰值片斷作為音視頻文件的精彩摘要片斷。
這種分析方法音頻分類效果差,從而使后續(xù)的聲音類型的關(guān)注度曲線
5精度低;且僅適用于特定類型音視頻文件中的音頻關(guān)注度分析,未對(duì)音頻 中其他影響用戶關(guān)注度的因素進(jìn)行分析,適用范圍較窄。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的基于關(guān)注度分析的摘要方法音頻分類效 果差,且適用范圍窄的缺陷,從而提供一種音頻分類效果好,適用于各種 類型音視頻的內(nèi)容分析的音視頻摘要生成方法。
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于關(guān)注度分
析的音頻文件摘要方法,包括下列步驟
1) 基于二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進(jìn) 行音頻分類,其中所述二叉層次型的分類樹算法在每一分類層選用不同特 征和分類器;
2) 根據(jù)音頻分類結(jié)果,對(duì)典型聲音類型建立關(guān)注度分析模型,得到典 型聲音類型的關(guān)注度曲線;
3) 根據(jù)典型聲音類型的關(guān)注度曲線確定摘要。 根據(jù)本發(fā)明的另一方面,上述步驟l)包括下列步驟
11) 分割音頻文件成為音頻例子;
12) 基于所述二叉層次型的分類樹算法,按照典型聲音類型對(duì)所述音 頻例子進(jìn)行分類。
根據(jù)本發(fā)明的又一方面,該音頻例子的相鄰音頻例子間取50%的重疊。
根據(jù)本發(fā)明的又一方面,上述步驟2)中對(duì)典型聲音類型建立關(guān)注度 分析模型根據(jù)下列因素能量、音調(diào)和平均過零率。
根據(jù)本發(fā)明的又一方面,上述步驟2)還包括步驟將關(guān)注度分析模 型計(jì)算的結(jié)果歸一化至區(qū)間[O, l]。
根據(jù)本發(fā)明的又一方面,上述歸一化采用高斯歸一化標(biāo)準(zhǔn)。
根據(jù)本發(fā)明的又一方面,上述步驟3)采用順序決策融合方法融合關(guān) 注度分析曲線,進(jìn)而確定摘要。
根據(jù)本發(fā)明的又一方面,上述典型聲音類型包括精彩同步聲音和精彩 異步聲音。
根據(jù)本發(fā)明的又一方面,上述步驟3)包括下列步驟 使用精彩異步聲音曲線粗略定位精彩片段右邊界;利用語音邊界檢測(cè)精確定位所述精彩片斷的邊界。
根據(jù)本發(fā)明的再一方面,在步驟1)之前還包括對(duì)音頻文件進(jìn)行預(yù)加 重處理的步驟。
根據(jù)本發(fā)明的再一方面,還提供了 一種基于關(guān)注度分析的音視頻文件
摘要方法,包括下列步驟
a) 基于二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進(jìn) 行音頻分類,其中二叉層次型的分類樹算法在每一分類層選用不同特征和 分類器;
b) 根據(jù)音頻分類結(jié)果,對(duì)典型聲音類型建立關(guān)注度分析模型,得到典 型聲音類型的關(guān)注度曲線;
c) 對(duì)視頻文件的時(shí)間關(guān)注度和空間關(guān)注度進(jìn)行建模,得到視覺精彩度 曲線;
d) 根據(jù)典型聲音類型的關(guān)注度曲線和視覺精彩度曲線確定摘要。 本發(fā)明采用基于二叉層次型結(jié)構(gòu)與多分類器選擇的音頻分類樹算法,
對(duì)音頻的分類效果好。選取符合人類主觀情感規(guī)律的特征進(jìn)行建模,通過 對(duì)音視頻文件中影響觀眾注意力的主要因素進(jìn)行分析,獲得音視頻情感關(guān) 注度變化情況,進(jìn)而生成摘要,具有框架擴(kuò)展性強(qiáng),可廣泛適用于體育、 影視、新聞、訪談等各類音視頻文件的優(yōu)點(diǎn)。綜合模型中的精彩異步因素, 采用非線性融合方法,使本方法具有魯棒性和預(yù)測(cè)能力。


下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)的說明,其中
圖1是基于情感關(guān)注度分析的音頻摘要算法流程圖。
圖2是基于二叉層次型結(jié)構(gòu)與多分類器選擇決策的音頻分類算法示意圖。
圖3是基于情感關(guān)注度分析的音視頻摘要算法流程圖。
圖4是順序決策融合算法示意圖。
圖5是一段視頻文件的情感關(guān)注度曲線示意圖。
圖6是精彩候選片斷邊界確定方法示意圖。
具體實(shí)施例方式
本發(fā)明對(duì)于音視頻文件從人類主觀情感認(rèn)知角度出發(fā)進(jìn)行分析,選取最為有效的特征進(jìn)行建模,提出符合人類主觀感知規(guī)律的建模方法。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的算法流程圖。該方法具體步驟如下
首先,選擇該音頻文件中典型聲音類型,特別是能夠表達(dá)情感的聲音 類型,采用基于二叉層次型的分類樹算法按照典型聲音類型進(jìn)行分類,將 音頻文件按照時(shí)序變化根據(jù)不同的典型聲音類型進(jìn)行標(biāo)定。
每類音頻文件都會(huì)有其代表性的典型聲音類型,通常這些典型聲音類 型中包含了更為豐富的語義信息,更能引起觀眾的注意力。例如在訪談中, 語音、靜音、觀眾的笑聲、掌聲為其中的典型聲音類型, 一段精彩片斷之 后一般會(huì)緊跟觀眾的笑聲或鼓掌聲;在影視文件的音頻中,語音、靜音、 音樂等聲音為典型聲音類型;在體育節(jié)目的音頻中,觀眾歡呼聲、解說員 解說聲、比賽相關(guān)聲音等為典型聲音類型,進(jìn)球得分的精彩片斷之后一般 會(huì)跟隨觀眾的歡呼聲或者解說員的激烈解說聲,進(jìn)球時(shí)總會(huì)伴有擊球聲。 一般伴隨精彩片段同時(shí)出現(xiàn)的較為突出的聲音類型稱為精彩同步聲音,例 如上述的擊球聲;另外,有些聲音類型會(huì)緊隨精彩片段之后出現(xiàn),稱之為 精彩異步聲音,例如上述精彩片段發(fā)生之后的笑聲和歡呼聲。精彩同步聲 音模型是指對(duì)應(yīng)于精彩同步聲音類型的模型,精彩異步聲音模型是指對(duì)應(yīng) 于精彩異步聲音類型的模型。
以體育比賽中的音頻文件處理為例對(duì)該步驟進(jìn)行說明。為了減少尖銳
噪聲影響,提升高頻信號(hào),對(duì)原始音頻數(shù)據(jù)作預(yù)加重(re-emphasize )處理。
設(shè)x(")為原始信號(hào),yO)為處理后信號(hào),貝'J:
K") = -0.97*x("-1) 公式(1 )
將處理后的音頻文件分割為定長的音頻例子(audio samples ),相鄰音 頻例子間取50%的重疊,將這些帶有重疊的音頻例子作為分類等后續(xù)處理 的基本單元。
對(duì)音頻分類,現(xiàn)有技術(shù)的音頻分類算法基本上不使用分層結(jié)構(gòu),僅使 用單一分類器(支持向量機(jī)SVM、隱馬爾科夫模型HMM、 Adaboost分類 器等),分類特征固定,或簡單使用融合多個(gè)分類器的單層結(jié)構(gòu)采用投票 判別決策的方法進(jìn)行音頻分類,分類效果較差。本發(fā)明提供了一種基于二 叉層次型的分類樹算法進(jìn)行音頻例子分類的方法。分類后,整個(gè)音頻文件按 照時(shí)序被分成了各個(gè)聲音類型的片段,該分類結(jié)果作為對(duì)各個(gè)代表性聲音 類型建模的依據(jù),還可以作為后續(xù)確定精彩候選片斷邊界的根據(jù)。該方法 具體描述如下在音頻分類的訓(xùn)練與測(cè)試時(shí),分層次進(jìn)行。每一層次可以分別選擇對(duì) 該層的兩類聲音類型分類效果最優(yōu)的底層音頻特征,并可以使用不同的分 類器進(jìn)行分類,如圖2所示。
關(guān)于底層音頻特征選擇,在第一層使用能量(Energy)與過零率(Zero Cross Rate)兩個(gè)特征來區(qū)分靜音與非靜音。在第二層使用MFCC(12維), Pitch,靜音比例,低頻能量比率、高過零率比率來區(qū)分語音與非語音。其 中,MFCC是Mel標(biāo)度頻率域提取的到譜系數(shù),它描述了人耳對(duì)頻率感知 的非線性特征,常用于語音識(shí)別與說話人識(shí)別。音調(diào)(Pitch)是語音中的 音調(diào)特征,是判別語音與非語音的重要特征之一。靜音比例是音頻例子特 ;f正,定義如下
<formula>formula see original document page 9</formula>
即 一段音頻例子中靜音采樣點(diǎn)個(gè)數(shù)占整個(gè)音頻例子采樣點(diǎn)數(shù)的百分比。由 于語音較其他類型聲音會(huì)有較多的停頓之處,所以靜音比例是區(qū)分語音與 其他類型聲音的良好特征。低頻能量比率為頻域音頻例子特征,在非靜音 音頻中,語音比其他類型聲音含有更多靜音,因此語音信號(hào)中頻域能量低 于某個(gè)閾值的比例要高于其他類型,所以該特征也是區(qū)分語音與非語音的
一個(gè)顯著特征。低頻能量比率定義為
Z^i (3^二 一Z[sgn(a^(£72)-£0)) + l] 7>式(3 )
高過零率比率定義為
ZC朋她=—y [sgn(ZC7 (") — 1. 5avgZC7 ) +1]
2AfS 公式(4)
以上兩式中,W為一個(gè)音頻例子中的幀數(shù),五(")為第n幀的頻域能量,
表示求平均運(yùn)算,sgn表示返回括號(hào)內(nèi)函數(shù)的整數(shù)。在第三層,使用短時(shí)
平均能量、過零率、帶寬來判別歡呼聲與非歡呼聲。在歡呼聲中過零率的
變化率要低于其他類型音頻,所以該音頻例子特征為區(qū)分歡呼聲的良好特
征之一。第四層使用子帶能量、帶寬、過零率、頻率中心特征來分類擊球
聲與其他類型聲音。以上僅是以體育比賽中的音頻數(shù)據(jù)處理示例,音頻分
類特征的選擇可針對(duì)不同音頻數(shù)據(jù)根據(jù)上述思想進(jìn)行擴(kuò)展與更新。
由于采樣、樣本分布及特征提取方法的不同,不同的分類器會(huì)單獨(dú)表
現(xiàn)出對(duì)某個(gè)單獨(dú)特征或某個(gè)單獨(dú)分類問題的偏好,所以綜合各個(gè)分類器的優(yōu)點(diǎn)將分類器進(jìn)行組合與選擇來進(jìn)行決策判別可以提高分類的堆石用度/遲 到比使用單一分類器更好的性能。在本發(fā)明中選用在音頻分類中使用較多 并具有較好分類效果的多種不同分類器作為候選分類器,如支持向量機(jī)
SVM、隱馬爾科夫模型(HMM)、高斯混合模型(GMM)等。設(shè)使用的 分類器集合為尸=^,《,......,^},第i層的訓(xùn)練樣本集合為x,^A:,;^,......,;u,
第i層的音頻類別為4^4p^。對(duì)第i層上分類器巧的選擇方法是
<formula>formula see original document page 10</formula>
max表示對(duì)括號(hào)內(nèi)分式取最大值,arg表示取令括號(hào)內(nèi)分式取最大值的參 數(shù)J的值。所以公式(5)的含義是對(duì)該層的兩類聲音類型分類效果最優(yōu) 的分類器選擇使括號(hào)內(nèi)函數(shù)取得最大值的分類器。在測(cè)試時(shí)使用該分類器 對(duì)未知數(shù)據(jù)進(jìn)行分類可降低運(yùn)算復(fù)雜度、提高運(yùn)算效率。
在對(duì)代表性聲音類型進(jìn)行準(zhǔn)確分類的基礎(chǔ)上,本發(fā)明對(duì)音頻文件中的 代表性聲音類型建立關(guān)注度分析模型,得到各聲音類型的關(guān)注度曲線。
音頻中影響用戶關(guān)注度的主要因素有能量(五"wgv,)、音調(diào)() 和平均過零率(^),其中能量的大小可以衡量各類聲音的強(qiáng)弱程度,音 調(diào)的高低可以衡量語音的尖銳程度,平均過零率可以衡量音樂的緩急程 度。以上是優(yōu)選因素,當(dāng)然也可以綜合其它因素,例如帶寬、線性預(yù)測(cè)系 數(shù)、子帶能量等特征。如網(wǎng)球比賽的音頻中典型聲音類型包括語音、鼓掌 聲、笑聲、音樂和擊球聲等,本發(fā)明采用上述因素對(duì)這些典型聲音類型關(guān) 注度模型表示如下
<formula>formula see original document page 10</formula>M'。"=C,') xl00% ^臓0匿欲)(弱〃 x 100%
<formula>formula see original document page 11</formula>
公式(10) <formula>formula see original document page 11</formula>公式(11 )
<formula>formula see original document page 11</formula>公式(12)
其中風(fēng)^, ^,,碼。 , Mw,是分別對(duì)語音、鼓掌聲、笑聲、音
樂和擊球聲的關(guān)注度模型。n, p, q, r, k分別是每個(gè)音頻例子中采樣點(diǎn) 數(shù)目。
把上述各聲音類型關(guān)注度模型計(jì)算的結(jié)果歸一化至區(qū)間[O, l]內(nèi),例 如通過高斯歸一化標(biāo)準(zhǔn)進(jìn)行此操作。對(duì)于一段確定的音頻文件的各個(gè)聲 音類型,連接每個(gè)音頻例子上的相應(yīng)關(guān)注度值,在時(shí)序上獲得多條關(guān)注度 變化曲線語音關(guān)注度曲線C^,笑聲關(guān)注度曲線C,^,掌聲關(guān)注度曲線 C,,音樂關(guān)注度曲線C^、和擊球聲關(guān)注度曲線Q,。這些曲線從不同方面 反映了觀眾傾聽該文件時(shí)的關(guān)注度變化情況。
融合所有聲音類型的關(guān)注度曲線確定最終的音頻文件時(shí)序精彩程度 變化情況,以精彩關(guān)注度時(shí)序曲線表示。對(duì)各個(gè)不同的聲音類型關(guān)注度模 型,可以采用公知技術(shù)的方法,不考慮精彩異步聲音模型的特殊性從而采 用線性加權(quán)融合方式進(jìn)行融合。本發(fā)明還提供了一種優(yōu)選的順序決策融合 方法,該方法采用更為符合人類主觀感知特點(diǎn)的非線性融合方法,具有更 強(qiáng)的魯棒性與預(yù)測(cè)能力。采用順序決策融合算法獲得的音頻例子的精彩關(guān) 注度如下式所示
乾-(、.氣e+A歸I畫+H^CeH"G(") 公式(13 )
其中、e,義自,4,分別為每個(gè)精彩同步聲音模型的權(quán)重,滿足均大于0且
l+U4, = i。 p, q分別為精彩異步聲音片段(掌聲和笑聲)的持續(xù)時(shí)
間(以秒為單位)。G(")為高斯平滑窗,n是平滑參數(shù),優(yōu)選的n取60。由 音頻文件精彩關(guān)注度形成的曲線即是該文件的精彩關(guān)注度時(shí)序曲線。
如公知技術(shù)的方法,可以直接使用閾值法在音頻文件的精彩關(guān)注度時(shí) 序曲線上選取超出閾值的片斷作為精彩候選片斷(閾值/可根據(jù)具體需要 設(shè)定)。該方法尤其適用于不存在精彩異步影響因素的音頻文件,例如恐 怖片、紀(jì)錄片等。若音頻文件中存在精彩異步影響因素,例如情景喜劇、訪談節(jié)目等, 還可以采用如下所述優(yōu)選方案。以上述體育比賽為例, 一般在精彩片段發(fā) 生后會(huì)馬上出現(xiàn)一段歡呼聲。
首先,使用精彩異步聲音曲線和C,粗略定位發(fā)生在觀眾掌聲或 歡呼聲之前的精彩片段位置。在對(duì)整段音頻文件進(jìn)行準(zhǔn)確分類的基礎(chǔ)上, 以精彩異步聲音如笑聲等發(fā)生的左邊界作為精彩候選片斷的右邊界,從該 處開始向前查看,若其之前的語音片斷長度^e大于預(yù)先設(shè)定的閾值 則將該語音片斷的開始點(diǎn)設(shè)為精彩候選片斷的左邊界,否則繼續(xù)向前查找 前一段語音片斷的開始點(diǎn)直到該片斷長度大于或等于Ar為止。
再利用語音邊界檢測(cè)(靜音檢測(cè))來精確定位這些精彩片斷的左右邊 界。因?yàn)樵谡Z音片斷中一句完整的意思表達(dá)完之后會(huì)有一小段停頓,所以 需要找出這些語音中的停頓點(diǎn)以避免在最初確定邊界時(shí)破壞視頻的完整 性。左右邊界之間的那段視頻片斷就是最終的摘要,如圖3所示。
上述是音頻摘要方法,不僅可以對(duì)單純的音頻文件進(jìn)行處理,也可以 對(duì)音視頻文件中的聽覺模態(tài)進(jìn)行處理。同時(shí)對(duì)于后者,在該方法的基礎(chǔ)上 增加視頻關(guān)注度的分析,從而綜合聽覺與視覺兩方面的因素對(duì)各類音視頻
文件進(jìn)行更完善地摘要處理,音視頻相結(jié)合的關(guān)注度分析算法流程如圖4所示。
其中視頻關(guān)注度分析方法具體步驟如下
視頻文件中的圖像特征如顏色、紋理、形狀等可以從一幀圖像中計(jì)算 獲得,稱為"視頻幀內(nèi)特征"。與其對(duì)應(yīng)的,需從至少兩幀圖像中獲得的 圖像特征稱為"視頻幀間特征"。由于視頻文件中的精彩片段通常會(huì)持續(xù) 多幀,單一視頻幀的個(gè)別情況通常對(duì)整段視頻影響不大。所以本發(fā)明從運(yùn) 算效率角度出發(fā)采用與精彩片段密切相關(guān)的4見頻幀間特征"來對(duì)視覺關(guān) 注度建立評(píng)價(jià)標(biāo)準(zhǔn)。
視覺模態(tài)不僅包含空間信息也包含時(shí)間信息,這些信息都會(huì)對(duì)用戶注 意力產(chǎn)生影響。本發(fā)明在視覺模態(tài)分別對(duì)空間信息與時(shí)間信息進(jìn)行關(guān)注度 表示。通常平均運(yùn)動(dòng)向量(motion vector)可以較好地表征視頻幀間的運(yùn)動(dòng)情 況,當(dāng)一秒鐘內(nèi)的平均運(yùn)動(dòng)向量較大時(shí)該視頻場(chǎng)景往往具有較大的運(yùn)動(dòng)變 化強(qiáng)度,更易于吸引觀眾的注意力。盡管有些時(shí)候運(yùn)動(dòng)向量并沒有真實(shí)地 反映視頻中的運(yùn)動(dòng)信息,但利用這一特征可以在絕大多數(shù)情況下降低運(yùn)算 復(fù)雜度并得到正確結(jié)果。本發(fā)明把視覺空間信息關(guān)注度M_表示為<formula>formula see original document page 13</formula>
其中MJ^表示從解碼過程中獲得的第i幀的運(yùn)動(dòng)向量,k為視頻幀速(例
如25幀/秒)。
在時(shí)間維度,鏡頭轉(zhuǎn)換率(shot change rate)通常被用于描述攝像機(jī)運(yùn) 動(dòng)。當(dāng)鏡頭切換較為頻繁時(shí),通常是視頻內(nèi)容緊張激烈的時(shí)刻,觀眾的注 意力也更容易被吸引。視覺時(shí)間信息關(guān)注度M^表示為
<formula>formula see original document page 13</formula>
其中pw和分別是第*幀左右兩側(cè)最近鄰的鏡頭邊界幀號(hào);參數(shù)5 為常數(shù),由w("-p("確定,用于保證M^的值分布于0%到100%之間。
類似地,各視覺精彩度評(píng)價(jià)公式的取值范圍也可以使用高斯歸一化標(biāo) 準(zhǔn)限定在區(qū)間[O, l]內(nèi),對(duì)于一段確定的視頻文件,可以使用上述公式(14) 和(15)在時(shí)序上獲得兩條視覺精彩度曲線視覺空間關(guān)注度曲線C一視 覺時(shí)間關(guān)注度曲線Q。綜合語音關(guān)注度曲線C,、笑聲關(guān)注度曲線C,^、 掌聲關(guān)注度曲線C,、音樂關(guān)注度曲線。 ,和擊球聲關(guān)注度曲線^,,基于 順序決策融合算法將多條曲線進(jìn)行融合得到最終的音視頻文件關(guān)注度時(shí) 序變化曲線,如圖5所示。 一段音視頻文件的情感關(guān)注度曲線如圖6所示。
與音頻摘要類似,音視頻摘要的順序決策融合算法表述如下使用精 彩同步模型m^,《m, m,一m_, i^,等結(jié)合精彩異步模型m^, m,。a來
確定最終的視頻文件時(shí)序精彩程度變化情況。采用該順序決策融合算法所 獲得的視頻文件精彩程度評(píng)價(jià)標(biāo)準(zhǔn)如下式所示<formula>formula see original document page 13</formula>
其中V, l, l,義,,4分別為每個(gè)精彩同步聲音模型的權(quán)重,滿足 均大于0且V+4j^+UK p, q分別為精彩異步聲音模型掌
聲模型、笑聲模型的持續(xù)時(shí)間(以秒為單位)。G(")為高斯平滑窗,n是平
滑參數(shù)(如n可取60)。
本發(fā)明適用于各類型音頻及音視頻文件摘要的提取,其中不同類型文
件僅需在關(guān)注度建模時(shí)作細(xì)微的調(diào)整,整體方法不變。該方法具有計(jì)算復(fù)
雜度較低、得到的摘要片段符合人類主觀感知規(guī)律的優(yōu)點(diǎn),在實(shí)驗(yàn)中使用
本方法生成的音頻和音視頻文件摘要取得了良好的效果。應(yīng)該注意到并理解,在不脫離后附的權(quán)利要求所要求的本發(fā)明/々精神 和范圍的情況下,能夠?qū)ι鲜鲈敿?xì)描述的本發(fā)明做出各種修改和改進(jìn)。因 此,要求保護(hù)的技術(shù)方案的范圍不受所給出的任何特定示范教導(dǎo)的限制。
權(quán)利要求
1.一種基于關(guān)注度分析的音頻文件摘要方法,包括下列步驟1)基于二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進(jìn)行音頻分類,其中所述二叉層次型的分類樹算法在每一分類層選用不同特征和分類器;2)根據(jù)所述音頻分類結(jié)果,對(duì)所述典型聲音類型建立關(guān)注度分析模型,得到所述典型聲音類型的關(guān)注度曲線;3)根據(jù)所述典型聲音類型的關(guān)注度曲線確定摘要。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1 )包括下列 步驟11) 分割音頻文件成為音頻例子;12) 基于所述二叉層次型的分類樹算法,按照所述典型聲音類型對(duì)所 述音頻例子進(jìn)行分類。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述音頻例子的相鄰音 頻例子間取5 0%的重疊。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在步驟12)中,在所 述每一分類層采用對(duì)該層兩類典型聲音類型分類效果最優(yōu)的音頻特征。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在步驟12)中,在所 述每一分類層根據(jù)分類器能夠正確分類的概率選擇分類器。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟2)中對(duì)所 述典型聲音類型建立關(guān)注度分析模型根據(jù)下列因素能量、音調(diào)和平均過 零率。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟2)還包括 步驟將所述關(guān)注度分析模型計(jì)算的結(jié)果歸一化至區(qū)間[O, l]。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述歸一化采用高斯歸 一化標(biāo)準(zhǔn)。
9. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3)采用順序 決策融合方法融合所述關(guān)注度分析曲線,進(jìn)而確定摘要。
10. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所迷典型聲音類型包 括精彩同步聲音和精彩異步聲音。
11. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3)包括下列步驟使用精彩異步聲音曲線粗略定位精彩片段右邊界; 利用語音邊界檢測(cè)精確定位所述精彩片斷的邊界。
12. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟1)之前 還包括對(duì)所述音頻文件進(jìn)行預(yù)加重處理的步驟。
13. —種基于關(guān)注度分析的音視頻文件摘要方法,包括下列步驟a) 基于二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進(jìn) 行音頻分類,其中所述二叉層次型的分類樹算法在每一分類層選用不同特 征和分類器;b) 根據(jù)所述音頻分類結(jié)果,對(duì)所述典型聲音類型建立關(guān)注度分析模 型,得到所述典型聲音類型的關(guān)注度曲線;c) 對(duì)視頻文件的時(shí)間關(guān)注度和空間關(guān)注度進(jìn)行建模,得到視覺精彩度 曲線;d) 根據(jù)所述典型聲音類型的關(guān)注度曲線和所述視覺精彩度曲線確定 摘要。
全文摘要
本發(fā)明提供一種基于關(guān)注度分析的音頻文件摘要方法和基于此方法的音視頻文件摘要方法。該音頻文件摘要方法包括下列步驟1)基于二叉層次型的分類樹算法按照音頻文件中的典型聲音類型進(jìn)行音頻分類,其中二叉層次型的分類樹算法在每一分類層選用不同特征和分類器;2)根據(jù)音頻分類結(jié)果,對(duì)典型聲音類型建立關(guān)注度分析模型,得到典型聲音類型的關(guān)注度曲線;3)根據(jù)典型聲音類型的關(guān)注度曲線確定摘要。該方法結(jié)合音視頻文件的視覺模態(tài)分析可以更好的完成音視頻文件摘要方法。本發(fā)明對(duì)音視頻的分類效果好。選取符合人類主觀情感規(guī)律的特征進(jìn)行建模,具有框架擴(kuò)展性強(qiáng),可廣泛適用于體育、影視、新聞、訪談等各類音視頻文件的優(yōu)點(diǎn)。
文檔編號(hào)G10L15/00GK101539925SQ20081010234
公開日2009年9月23日 申請(qǐng)日期2008年3月20日 優(yōu)先權(quán)日2008年3月20日
發(fā)明者蔣樹強(qiáng), 鄭軼佳, 黃慶明 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
镇巴县| 奉化市| 成都市| 海原县| 阳朔县| 武汉市| 沙湾县| 田阳县| 金塔县| 托克逊县| 腾冲县| 浠水县| 高雄县| 阿城市| 中江县| 清水县| 唐山市| 始兴县| 聂荣县| 开阳县| 乐山市| 兴安县| 连云港市| 田东县| 肥东县| 东乌珠穆沁旗| 金门县| 新田县| SHOW| 泗洪县| 温宿县| 栖霞市| 石台县| 弋阳县| 西畴县| 黑水县| 抚远县| 芜湖县| 新野县| 安徽省| 济宁市|