一種新聞節(jié)目的分段方法

文檔序號(hào)：7620203閱讀：513來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：一種新聞節(jié)目的分段方法
技術(shù)領(lǐng)域：
本發(fā)明涉及多媒體技術(shù)領(lǐng)域，尤其涉及一種新聞節(jié)目的分段方法。
背景技術(shù)：
伴隨信息時(shí)代的發(fā)展、多媒體資料的增多，新聞廣播節(jié)目日益呈現(xiàn)海量化的規(guī)模。為了便捷的獲取感興趣的內(nèi)容，需要對(duì)這些資料進(jìn)行信息提取。其中，對(duì)新聞節(jié)目的分段是很重要的任務(wù)，它有利于迅速定位各個(gè)主題，找到本次節(jié)目的要點(diǎn)信息。有效地新聞分段，獲得相對(duì)完整、獨(dú)立的新聞主題，還有利于語(yǔ)音識(shí)別技術(shù)的有效展開，取得較好的效果。通常會(huì)采用人工觀看、標(biāo)注的方法。需要編輯把節(jié)目完整地觀看一遍，在主題切換時(shí)進(jìn)行標(biāo)記即可。工具比較簡(jiǎn)單，可以單獨(dú)記下時(shí)間分割點(diǎn)，也可以直接用音視頻切分工具切開。一般來(lái)說(shuō)，準(zhǔn)確率較高。但很明顯該方法費(fèi)時(shí)費(fèi)力。如果編輯不用心或者為了加速，可能會(huì)錯(cuò)過(guò)一些分割點(diǎn)，帶來(lái)誤差?；谀Ｊ阶R(shí)別的自動(dòng)方法，主要分為音頻分段法和視頻分段法兩大類。通過(guò)把視頻和音頻結(jié)合起來(lái)也許可以克服兩者的缺點(diǎn)。如果能判別哪些段是音頻分的好些，而哪些段是視頻分的好些，就可以把兩者的優(yōu)點(diǎn)結(jié)合起來(lái)。因?yàn)橐纛l分段一般是基于能量和靜音長(zhǎng)短的，而新聞中由于播音員的聲音較快，有可能會(huì)出現(xiàn)兩個(gè)新聞主題銜接很快，幾乎沒有停頓的現(xiàn)象。這時(shí)候，利用視頻的信息就可以幫助正確地把段給分出來(lái)。同時(shí)，視頻分段的方法比較單一、性能不是很穩(wěn)定，如果以音頻作為基礎(chǔ)進(jìn)行二次分段，則可以增強(qiáng)視頻分段的性能。然而如何把握音頻和視頻分段的長(zhǎng)處和弱點(diǎn)，正確指出哪些段是音頻分的好些，而哪些段又是視頻分的好些，是該技術(shù)方案的要點(diǎn)和難點(diǎn)。一般來(lái)說(shuō)，需要融入大量人工判斷，或者利用開發(fā)集調(diào)整參數(shù)的方法，都很費(fèi)時(shí)費(fèi)力，又會(huì)隨著節(jié)目的變化而變化，性能得不到保證。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種新聞節(jié)目的分段方法，極大增加了新聞節(jié)目分段的自動(dòng)化，保證了新聞節(jié)目分段的準(zhǔn)確性。為達(dá)此目的，本發(fā)明采用以下技術(shù)方案一種新聞節(jié)目的分段方法，包括以下步驟
A、采集音視頻數(shù)據(jù)；
B、從新聞節(jié)目中挑選出主持人的片段、采訪人的片段和節(jié)目音樂的片段；
C、根據(jù)所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)訓(xùn)練全局背景模
型；
D、將所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的語(yǔ)音/音樂分別在所述全局背景模型上進(jìn)行自適應(yīng)，計(jì)算映射矢量作為空間矢量，得到自適應(yīng)模型；
E、對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段，調(diào)節(jié)閾值，使得每個(gè)片段不短于預(yù)設(shè)時(shí)長(zhǎng)；
3F、根據(jù)所述自適應(yīng)模型，逐段進(jìn)行語(yǔ)音/音樂識(shí)別，對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注，同時(shí)保留置信度打分信息；
G、對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段，提取視頻關(guān)鍵幀，對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)
證；
H、合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。步驟A還包括以下步驟
將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式，采樣率為16千赫。步驟A中，采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)；采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)。步驟B中，主持人的片段、采訪人的片段和節(jié)目音樂的片段的長(zhǎng)度不少于10秒，每類不少于20句。步驟C中，主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)不少于100個(gè)小時(shí)。步驟E中，閾值是新聞節(jié)目每個(gè)片段的語(yǔ)音能量，新聞節(jié)目分段后每個(gè)片段不少于10秒。步驟G進(jìn)一步包括以下步驟
對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段，提取視頻關(guān)鍵幀；根據(jù)視頻關(guān)鍵幀進(jìn)行切分，重新進(jìn)行語(yǔ)音/音樂的發(fā)生者的身份的驗(yàn)證，并保留置信度打分信息，直到置信度打分高于預(yù)設(shè)值為止。步驟H還包括以下步驟
對(duì)待合并的片段提取視頻關(guān)鍵幀，如果判斷待合并的片段包含了不少于1個(gè)新聞主題，則不進(jìn)行合并。采用了本發(fā)明的技術(shù)方案，大大增加了新聞主題分段的自動(dòng)化，從各個(gè)步驟保證了說(shuō)話人驗(yàn)證的性能，采用最好的說(shuō)話人識(shí)別技術(shù)，而且能克服環(huán)境和信道的差異，從而保證了新聞分段的準(zhǔn)確性。同時(shí)利用視頻信息，可以對(duì)于音頻分段不確定的地方進(jìn)行二次驗(yàn)證，保證了分段的充分性，以及相似新聞合并的合理性，對(duì)于性能的改善很明顯，由于只對(duì)部分地方進(jìn)行視頻關(guān)鍵幀的提取，計(jì)算量的增加不會(huì)太大。

圖1是本發(fā)明具體實(shí)施方式
中新聞節(jié)目分段的流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過(guò)具體實(shí)施方式
來(lái)進(jìn)一步說(shuō)明本發(fā)明的技術(shù)方案。圖1是本發(fā)明具體實(shí)施方式
中新聞節(jié)目分段的流程圖。如圖1所示，該新聞節(jié)目分段的流程包括以下步驟
一種新聞節(jié)目的分段方法，包括以下步驟
步驟101、采集音視頻數(shù)據(jù)。采用電腦和電視卡的方式采集電視節(jié)目中的音視頻數(shù)據(jù)；采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)，將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV 格式(pcm無(wú)壓縮)，采樣率為16千赫。
4
由于電視卡以及聲卡錄制的格式是確定的，只需要針對(duì)特定格式進(jìn)行編程轉(zhuǎn)碼即可。步驟102、從新聞節(jié)目中挑選出主持人的片段、采訪人的片段和節(jié)目音樂的片段。根據(jù)以往新聞節(jié)目挑選出各個(gè)主持人的片段、其它采訪人的片段、節(jié)目音樂的片段，每一段的長(zhǎng)度需要十秒以上，每種類型的片段數(shù)最好超過(guò)幾十句。步驟103、根據(jù)主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)訓(xùn)練全局背
景模型。首選選用以往新聞節(jié)目的所有數(shù)據(jù)，訓(xùn)練全局背景模型。如果節(jié)目?jī)?nèi)容較多，可以選擇近期的，訓(xùn)練數(shù)據(jù)一般要達(dá)到一百個(gè)小時(shí)以上為宜。步驟104、將主持人的片段、采訪人的片段和節(jié)目音樂的片段的語(yǔ)音/音樂分別在全局背景模型上進(jìn)行自適應(yīng)，計(jì)算映射矢量作為空間矢量，得到自適應(yīng)模型。步驟105、對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段，調(diào)節(jié)閾值，閾值一般是指新聞節(jié)目每個(gè)片段的語(yǔ)音能量，從而使得每段的長(zhǎng)度在十秒以上。步驟106、根據(jù)自適應(yīng)模型，逐段進(jìn)行語(yǔ)音/音樂識(shí)別，對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注，包括主持人1，主持人2，其它采訪人，音樂等，同時(shí)保留置信度打分信肩、ο步驟107、對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段，提取視頻關(guān)鍵幀，對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)證。例如，當(dāng)某片段的置信度打分較低時(shí)，很可能是混入了多個(gè)不同的語(yǔ)音/音樂的發(fā)生者，根據(jù)視頻關(guān)鍵幀進(jìn)行切分，重新進(jìn)行語(yǔ)音/音樂的發(fā)生者的身份的標(biāo)注，并保留置信度打分信息，直到語(yǔ)音/音樂的發(fā)生者分割的結(jié)果較單一，置信度打分高于預(yù)設(shè)值為止。步驟108、合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。根據(jù)新聞節(jié)目(例如新聞聯(lián)播)中，每段新聞通常是由單個(gè)主持人介紹的，有時(shí)會(huì)附加其它采訪人的錄音，因此，當(dāng)遇到主持人身份的轉(zhuǎn)換(采訪人除外)、以及音樂處，是新聞主題切換的可能地方。同時(shí)，對(duì)待合并的片段提取視頻關(guān)鍵幀，如果視頻關(guān)鍵幀變化較小，說(shuō)明假設(shè)成立，否則，說(shuō)明待合并的片段可能包含了多個(gè)新聞主題，則暫時(shí)不進(jìn)行合并。據(jù)統(tǒng)計(jì)，人工分段的時(shí)間消耗一般略大于新聞的時(shí)長(zhǎng)，例如新聞聯(lián)播大概需要35 分鐘，而采用了本具體實(shí)施方式
，大概只需要不到5分鐘，速度提高了七倍。性能上，錯(cuò)誤率小于3%，接近人工標(biāo)注的準(zhǔn)確率。以上所述，僅為本發(fā)明較佳的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種新聞節(jié)目的分段方法，其特征在于，包括以下步驟A、采集音視頻數(shù)據(jù)；B、從新聞節(jié)目中挑選出主持人的片段、采訪人的片段和節(jié)目音樂的片段；C、根據(jù)所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)訓(xùn)練全局背景模型；D、將所述主持人的片段、采訪人的片段和節(jié)目音樂的片段的語(yǔ)音/音樂分別在所述全局背景模型上進(jìn)行自適應(yīng)，計(jì)算映射矢量作為空間矢量，得到自適應(yīng)模型；E、對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段，調(diào)節(jié)閾值，使得每個(gè)片段不短于預(yù)設(shè)時(shí)長(zhǎng)；F、根據(jù)所述自適應(yīng)模型，逐段進(jìn)行語(yǔ)音/音樂識(shí)別，對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注，同時(shí)保留置信度打分信息；G、對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段，提取視頻關(guān)鍵幀，對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)證；H、合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。
2.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法，其特征在于，步驟A還包括以下步驟將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式，采樣率為16千赫。
3.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法，其特征在于，步驟A中，采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)；采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法，其特征在于，步驟B中，主持人的片段、采訪人的片段和節(jié)目音樂的片段的長(zhǎng)度不少于10秒，每類不少于20句。
5.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法，其特征在于，步驟C中，主持人的片段、采訪人的片段和節(jié)目音樂的片段的數(shù)據(jù)不少于100個(gè)小時(shí)。
6.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法，其特征在于，步驟E中，閾值是新聞節(jié)目每個(gè)片段的語(yǔ)音能量，新聞節(jié)目分段后每個(gè)片段不少于10秒。
7.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法，其特征在于，步驟G進(jìn)一步包括以下步驟對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段，提取視頻關(guān)鍵幀；根據(jù)視頻關(guān)鍵幀進(jìn)行切分，重新進(jìn)行語(yǔ)音/音樂的發(fā)生者的身份的驗(yàn)證，并保留置信度打分信息，直到置信度打分高于預(yù)設(shè)值為止。
8.根據(jù)權(quán)利要求1所述的一種新聞節(jié)目的分段方法，其特征在于，步驟H還包括以下步驟對(duì)待合并的片段提取視頻關(guān)鍵幀，如果判斷待合并的片段包含了不少于1個(gè)新聞主題，則不進(jìn)行合并。
全文摘要
本發(fā)明公開了一種新聞節(jié)目的分段方法，采集音視頻數(shù)據(jù)，從新聞節(jié)目中挑選出主持人、采訪人和節(jié)目音樂的片段，根據(jù)片段數(shù)據(jù)訓(xùn)練全局背景模型，將片段的語(yǔ)音/音樂分別在全局背景模型上進(jìn)行自適應(yīng)，計(jì)算映射矢量作為空間矢量，得到自適應(yīng)模型，對(duì)新聞節(jié)目根據(jù)端點(diǎn)檢測(cè)進(jìn)行分段，調(diào)節(jié)閾值，根據(jù)自適應(yīng)模型，逐段進(jìn)行語(yǔ)音/音樂識(shí)別，對(duì)每一段語(yǔ)音/音樂的發(fā)生者的身份進(jìn)行標(biāo)注，同時(shí)保留置信度打分信息，對(duì)置信度打分低于預(yù)設(shè)值的新聞節(jié)目片段，提取視頻關(guān)鍵幀，對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)證，合并相鄰并且語(yǔ)音/音樂的發(fā)生者相同的新聞節(jié)目片段。采用了本發(fā)明的技術(shù)方案，極大增加了新聞節(jié)目分段的自動(dòng)化，保證了新聞節(jié)目分段的準(zhǔn)確性。
文檔編號(hào)H04N5/262GK102170528SQ201110073049
公開日2011年8月31日申請(qǐng)日期2011年3月25日優(yōu)先權(quán)日2011年3月25日
發(fā)明者伍昕, 劉趙杰, 吳鵬申請(qǐng)人:天脈聚源(北京)傳媒科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：伍昕;吳鵬;劉趙杰
技術(shù)所有人：天脈聚源(北京)傳媒科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

頸內(nèi)動(dòng)脈分段方法相關(guān)技術(shù)

水晶燈分段器拆卸方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種新聞節(jié)目的分段方法