專利名稱:一種新聞節(jié)目的分段方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體技術(shù)領(lǐng)域,尤其涉及一種新聞節(jié)目的分段方法。
背景技術(shù):
伴隨信息時(shí)代的發(fā)展、多媒體資料的增多,新聞廣播節(jié)目日益呈現(xiàn)海量化的規(guī)模。 為了便捷的獲取感興趣的內(nèi)容,需要對(duì)這些資料進(jìn)行信息提取。其中,對(duì)新聞節(jié)目的分段是很重要的任務(wù),它有利于迅速定位各個(gè)主題,找到本次節(jié)目的要點(diǎn)信息。有效地新聞分段, 獲得相對(duì)完整、獨(dú)立的新聞主題,還有利于語(yǔ)音識(shí)別技術(shù)的有效展開,取得較好的效果。通常會(huì)采用人工觀看、標(biāo)注的方法。需要編輯把節(jié)目完整地觀看一遍,在主題切換時(shí)進(jìn)行標(biāo)記即可。工具比較簡(jiǎn)單,可以單獨(dú)記下時(shí)間分割點(diǎn),也可以直接用音視頻切分工具切開。一般來(lái)說(shuō),準(zhǔn)確率較高。但很明顯該方法費(fèi)時(shí)費(fèi)力。如果編輯不用心或者為了加速,可能會(huì)錯(cuò)過(guò)一些分割點(diǎn),帶來(lái)誤差?;谀J阶R(shí)別的自動(dòng)方法,主要分為音頻分段法和視頻分段法兩大類。通過(guò)把視頻和音頻結(jié)合起來(lái)也許可以克服兩者的缺點(diǎn)。如果能判別哪些段是音頻分的好些,而哪些段是視頻分的好些,就可以把兩者的優(yōu)點(diǎn)結(jié)合起來(lái)。因?yàn)橐纛l分段一般是基于能量和靜音長(zhǎng)短的,而新聞中由于播音員的聲音較快, 有可能會(huì)出現(xiàn)兩個(gè)新聞主題銜接很快,幾乎沒有停頓的現(xiàn)象。這時(shí)候,利用視頻的信息就可以幫助正確地把段給分出來(lái)。同時(shí),視頻分段的方法比較單一、性能不是很穩(wěn)定,如果以音頻作為基礎(chǔ)進(jìn)行二次分段,則可以增強(qiáng)視頻分段的性能。然而如何把握音頻和視頻分段的長(zhǎng)處和弱點(diǎn),正確指出哪些段是音頻分的好些, 而哪些段又是視頻分的好些,是該技術(shù)方案的要點(diǎn)和難點(diǎn)。一般來(lái)說(shuō),需要融入大量人工判斷,或者利用開發(fā)集調(diào)整參數(shù)的方法,都很費(fèi)時(shí)費(fèi)力,又會(huì)隨著節(jié)目的變化而變化,性能得不到保證。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種新聞節(jié)目的分段方法,極大增加了新聞節(jié)目分段的自動(dòng)化,保證了新聞節(jié)目分段的準(zhǔn)確性。為達(dá)此目的,本發(fā)明采用以下技術(shù)方案 一種新聞節(jié)目的分段方法,包括以下步驟
A、采集音視頻數(shù)據(jù);
B、從新聞節(jié)目中挑選出主持人的片段、采訪人的片段和節(jié)目音樂的片段;
C、根據(jù)所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)訓(xùn)練全局背景模
型;
D、將所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的語(yǔ)音/音樂分別在所述全局背景模型上進(jìn)行自適應(yīng),計(jì)算映射矢量作為空間矢量,得到自適應(yīng)模型;
E、對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段,調(diào)節(jié)閾值,使得每個(gè)片段不短于預(yù)設(shè)時(shí)長(zhǎng);
3F、根據(jù)所述自適應(yīng)模型,逐段進(jìn)行語(yǔ)音/音樂識(shí)別,對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注,同時(shí)保留置信度打分信息;
G、對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段,提取視頻關(guān)鍵幀,對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)
證;
H、合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。步驟A還包括以下步驟
將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式,采樣率為16千赫。步驟A中,采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù);采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)。步驟B中,主持人的片段、采訪人的片段和節(jié)目音樂的片段的長(zhǎng)度不少于10秒,每類不少于20句。步驟C中,主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)不少于100個(gè)小時(shí)。步驟E中,閾值是新聞節(jié)目每個(gè)片段的語(yǔ)音能量,新聞節(jié)目分段后每個(gè)片段不少于10秒。步驟G進(jìn)一步包括以下步驟
對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段,提取視頻關(guān)鍵幀; 根據(jù)視頻關(guān)鍵幀進(jìn)行切分,重新進(jìn)行語(yǔ)音/音樂的發(fā)生者的身份的驗(yàn)證,并保留置信度打分信息,直到置信度打分高于預(yù)設(shè)值為止。步驟H還包括以下步驟
對(duì)待合并的片段提取視頻關(guān)鍵幀,如果判斷待合并的片段包含了不少于1個(gè)新聞主題,則不進(jìn)行合并。采用了本發(fā)明的技術(shù)方案,大大增加了新聞主題分段的自動(dòng)化,從各個(gè)步驟保證了說(shuō)話人驗(yàn)證的性能,采用最好的說(shuō)話人識(shí)別技術(shù),而且能克服環(huán)境和信道的差異,從而保證了新聞分段的準(zhǔn)確性。同時(shí)利用視頻信息,可以對(duì)于音頻分段不確定的地方進(jìn)行二次驗(yàn)證,保證了分段的充分性,以及相似新聞合并的合理性,對(duì)于性能的改善很明顯,由于只對(duì)部分地方進(jìn)行視頻關(guān)鍵幀的提取,計(jì)算量的增加不會(huì)太大。
圖1是本發(fā)明具體實(shí)施方式
中新聞節(jié)目分段的流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過(guò)具體實(shí)施方式
來(lái)進(jìn)一步說(shuō)明本發(fā)明的技術(shù)方案。圖1是本發(fā)明具體實(shí)施方式
中新聞節(jié)目分段的流程圖。如圖1所示,該新聞節(jié)目分段的流程包括以下步驟
一種新聞節(jié)目的分段方法,包括以下步驟
步驟101、采集音視頻數(shù)據(jù)。采用電腦和電視卡的方式采集電視節(jié)目中的音視頻數(shù)據(jù); 采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù),將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV 格式(pcm無(wú)壓縮),采樣率為16千赫。
4
由于電視卡以及聲卡錄制的格式是確定的,只需要針對(duì)特定格式進(jìn)行編程轉(zhuǎn)碼即可。步驟102、從新聞節(jié)目中挑選出主持人的片段、采訪人的片段和節(jié)目音樂的片段。根據(jù)以往新聞節(jié)目挑選出各個(gè)主持人的片段、其它采訪人的片段、節(jié)目音樂的片段,每一段的長(zhǎng)度需要十秒以上,每種類型的片段數(shù)最好超過(guò)幾十句。步驟103、根據(jù)主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)訓(xùn)練全局背
景模型。首選選用以往新聞節(jié)目的所有數(shù)據(jù),訓(xùn)練全局背景模型。如果節(jié)目?jī)?nèi)容較多,可以選擇近期的,訓(xùn)練數(shù)據(jù)一般要達(dá)到一百個(gè)小時(shí)以上為宜。步驟104、將主持人的片段、采訪人的片段和節(jié)目音樂的片段的語(yǔ)音/音樂分別在全局背景模型上進(jìn)行自適應(yīng),計(jì)算映射矢量作為空間矢量,得到自適應(yīng)模型。步驟105、對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段,調(diào)節(jié)閾值,閾值一般是指新聞節(jié)目每個(gè)片段的語(yǔ)音能量,從而使得每段的長(zhǎng)度在十秒以上。步驟106、根據(jù)自適應(yīng)模型,逐段進(jìn)行語(yǔ)音/音樂識(shí)別,對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注,包括主持人1,主持人2,其它采訪人,音樂等,同時(shí)保留置信度打分信肩、ο步驟107、對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段,提取視頻關(guān)鍵幀,對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)證。例如,當(dāng)某片段的置信度打分較低時(shí),很可能是混入了多個(gè)不同的語(yǔ)音/音樂的發(fā)生者,根據(jù)視頻關(guān)鍵幀進(jìn)行切分,重新進(jìn)行語(yǔ)音/音樂的發(fā)生者的身份的標(biāo)注,并保留置信度打分信息,直到語(yǔ)音/音樂的發(fā)生者分割的結(jié)果較單一,置信度打分高于預(yù)設(shè)值為止。步驟108、合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。根據(jù)新聞節(jié)目(例如新聞聯(lián)播)中,每段新聞通常是由單個(gè)主持人介紹的,有時(shí)會(huì)附加其它采訪人的錄音,因此,當(dāng)遇到主持人身份的轉(zhuǎn)換(采訪人除外)、以及音樂處,是新聞主題切換的可能地方。同時(shí),對(duì)待合并的片段提取視頻關(guān)鍵幀,如果視頻關(guān)鍵幀變化較小,說(shuō)明假設(shè)成立,否則,說(shuō)明待合并的片段可能包含了多個(gè)新聞主題,則暫時(shí)不進(jìn)行合并。據(jù)統(tǒng)計(jì),人工分段的時(shí)間消耗一般略大于新聞的時(shí)長(zhǎng),例如新聞聯(lián)播大概需要35 分鐘,而采用了本具體實(shí)施方式
,大概只需要不到5分鐘,速度提高了七倍。性能上,錯(cuò)誤率小于3%,接近人工標(biāo)注的準(zhǔn)確率。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種新聞節(jié)目的分段方法,其特征在于,包括以下步驟A、采集音視頻數(shù)據(jù);B、從新聞節(jié)目中挑選出主持人的片段、采訪人的片段和節(jié)目音樂的片段;C、根據(jù)所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)訓(xùn)練全局背景模型;D、將所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的語(yǔ)音/音樂分別在所述全局背景模型上進(jìn)行自適應(yīng),計(jì)算映射矢量作為空間矢量,得到自適應(yīng)模型;E、對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段,調(diào)節(jié)閾值,使得每個(gè)片段不短于預(yù)設(shè)時(shí)長(zhǎng);F、根據(jù)所述自適應(yīng)模型,逐段進(jìn)行語(yǔ)音/音樂識(shí)別,對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注,同時(shí)保留置信度打分信息;G、對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段,提取視頻關(guān)鍵幀,對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)證;H、合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。
2.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法,其特征在于,步驟A還包括以下步驟將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式,采樣率為16千赫。
3.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法,其特征在于,步驟A中,采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù);采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法,其特征在于,步驟B中,主持人的片段、采訪人的片段和節(jié)目音樂的片段的長(zhǎng)度不少于10秒,每類不少于20句。
5.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法,其特征在于,步驟C中,主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)不少于100個(gè)小時(shí)。
6.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法,其特征在于,步驟E中,閾值是新聞節(jié)目每個(gè)片段的語(yǔ)音能量,新聞節(jié)目分段后每個(gè)片段不少于10秒。
7.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法,其特征在于,步驟G進(jìn)一步包括以下步驟對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段,提取視頻關(guān)鍵幀; 根據(jù)視頻關(guān)鍵幀進(jìn)行切分,重新進(jìn)行語(yǔ)音/音樂的發(fā)生者的身份的驗(yàn)證,并保留置信度打分信息,直到置信度打分高于預(yù)設(shè)值為止。
8.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法,其特征在于,步驟H還包括以下步驟對(duì)待合并的片段提取視頻關(guān)鍵幀,如果判斷待合并的片段包含了不少于1個(gè)新聞主題,則不進(jìn)行合并。
全文摘要
本發(fā)明公開了一種新聞節(jié)目的分段方法,采集音視頻數(shù)據(jù),從新聞節(jié)目中挑選出主持人、采訪人和節(jié)目音樂的片段,根據(jù)片段數(shù)據(jù)訓(xùn)練全局背景模型,將片段的語(yǔ)音/音樂分別在全局背景模型上進(jìn)行自適應(yīng),計(jì)算映射矢量作為空間矢量,得到自適應(yīng)模型,對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段,調(diào)節(jié)閾值,根據(jù)自適應(yīng)模型,逐段進(jìn)行語(yǔ)音/音樂識(shí)別,對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注,同時(shí)保留置信度打分信息,對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段,提取視頻關(guān)鍵幀,對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)證,合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。采用了本發(fā)明的技術(shù)方案,極大增加了新聞節(jié)目分段的自動(dòng)化,保證了新聞節(jié)目分段的準(zhǔn)確性。
文檔編號(hào)H04N5/262GK102170528SQ201110073049
公開日2011年8月31日 申請(qǐng)日期2011年3月25日 優(yōu)先權(quán)日2011年3月25日
發(fā)明者伍昕, 劉趙杰, 吳鵬 申請(qǐng)人:天脈聚源(北京)傳媒科技有限公司