專利名稱:自動加配字幕的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種自動加配字幕的方法和系統(tǒng)。具體可應(yīng)用于對影視作品或現(xiàn)場會議的實時和非實時的字幕加配,以及字幕腳本的自動獲取。
背景技術(shù):
字幕是社會“信息無障礙”環(huán)境建設(shè)的重要組成部分。在字幕的需求群體中,很大一部分是聽力殘障人士。據(jù)中國殘疾人聯(lián)合會統(tǒng)計,我國目前約有2057萬言語聽力殘疾人,占6000萬殘疾人總數(shù)的34.3%,每年還新增聾兒3萬多人。此外,還存在著一部分成年后因各種原因失聰?shù)娜?,特別是因年老而引起聽力減退的老年失聰者。對于聽力殘障人士來說,由于沒有了輸入聽覺信號的刺激,他(她)們無法通過聲音這個渠道獲取知識和信息。這樣一來,通過視覺渠道輸入就成了他(她)們獲取知識和信息的主要途徑。
影視作品是聽力殘障人士認(rèn)識社會、了解社會、與社會溝通的一個重要渠道。通常地,影視作品中兼具圖像、聲音和文字等多種模態(tài)的信息,它們相輔相成,互相配合。圖像固然有它豐富、形象和生動等優(yōu)點,但是可想而知,對于聽力殘障人士而言,僅僅依靠圖像來獲取的知識和信息將會大打折扣,嚴(yán)重影響其獲取知識和信息的能力。雖然現(xiàn)在已經(jīng)一些新聞資訊類節(jié)目在播出過程中加配了手語播報員,但這種方式也存在一些不足, 譬如各地手語不規(guī)范不統(tǒng)一,難以制定統(tǒng)一的手語標(biāo)準(zhǔn);投入高而效率低,需要專門訓(xùn)練和培訓(xùn)手語翻譯人員;手語翻譯常常因為跟不上說話速度而導(dǎo)致內(nèi)容缺失。
文字,從它產(chǎn)生的那天起,就起著記載與溝通的作用。由文字構(gòu)成的書面語言,有顯明、直接、通達(dá)和嚴(yán)謹(jǐn)?shù)葍?yōu)點,它是任何其它語言(如聲音、圖像、肢體等)所無法替代的。影視作品中的字幕是圖像、聲音的補充和延伸,可以獨立地表情達(dá)意,在影視作品中有著不可代替的地位和作用。因此,在影視作品中加配字幕,對于幫助聽力殘障人士欣賞和理解影視作品、獲取知識和信息具有重大的意義。
對健聽人士而言,在一些場合下,對字幕依然有需求,例如1、在聲音嘈雜的場合比如火車站、公交汽車等地方觀看影視作品;
2、在需要相對安靜的場合比如當(dāng)深夜觀看影視作品;3、對方言的理解有些采用方言制作的影視作品需要字幕來幫助更好地理解節(jié)目;4、學(xué)說普通話影視作品中的字幕,配合語音,有利于長期說方言的孩子學(xué)說普通話;5、外國人學(xué)中文加配字幕的影視作品對于外國人學(xué)中文的聽說讀寫;6、因家中有聾人這些健聽群體一般傾向選擇加配了字幕的影視作品;7、健聽人聽力受損由于各種因素影響而聽力下降的健聽人士會越來越依賴于字幕;8、出于對影視作品完全理解的考慮。
所以,從根本上來講,除了通過圖像、聲音等渠道來理解影視作品的內(nèi)涵外,以文字形式出現(xiàn)的字幕,是保證人們在各種不同的場合下更好地理解節(jié)目內(nèi)容的一個重要補充,是任何一個完整制作的影視作品不可缺少的組成部分,這無論對于聽障人士,還是對于健聽人士都是有意義的。
當(dāng)前,字幕加配主要以手工方式完成。其工作流程,根據(jù)影視節(jié)目的性質(zhì),可以分為現(xiàn)場直播字幕加配,準(zhǔn)現(xiàn)場直播字幕加配,非現(xiàn)場直播字幕加配三種?,F(xiàn)場直播節(jié)目,指的是事先無腳本,實時播出的電視節(jié)目;準(zhǔn)現(xiàn)場直播節(jié)目,指的是事先準(zhǔn)備有腳本,實時播出的電視節(jié)目;非現(xiàn)場直播節(jié)目,即錄播節(jié)目,指非實時播出的節(jié)目。
人工字幕加配的流程為聽錄由專門人員采用“邊聽邊錄”的方式錄入字幕腳本,腳本已經(jīng)事先給定,則可略過這一步驟。
校對由審核人員對聽錄人員給出的腳本,進(jìn)行審校。其過程類似聽錄,也采用“邊聽邊?!钡姆绞健?br>
對齊將字幕與聲音在時間線上對齊。這一部分由編導(dǎo)手工完成。
字幕輸出將字幕疊加在影片上。對于電視臺,傳統(tǒng)上,該工作由專門的字幕機完成,目前較為先進(jìn)的非線性編輯系統(tǒng)均已經(jīng)集成該功能;此外字幕也可以通過閉路電視線路傳輸,并由專門設(shè)備(如機頂盒)疊加在電視信號中(稱為Closed-Caption)。
對于英語等采用表音文字的語言,當(dāng)前已有速記鍵盤技術(shù),能夠?qū)崟r錄入字幕,從而達(dá)到為現(xiàn)場直播節(jié)目加配字幕的目的。而目前中文等采用表意文字的語言,則尚未能夠達(dá)到這個目標(biāo)。
人工字幕加配費時費力,難以滿足人們對字幕加配的要求。因此自動字幕加配技術(shù)是值得研究和開發(fā)的。在本發(fā)明所針對的字幕聽錄、對齊領(lǐng)域,當(dāng)前已經(jīng)存在的技術(shù)列舉如下自動語音識別技術(shù),可以用以輔助聽錄。目前,該技術(shù)主要采用基于隱馬爾科夫模型的模式識別技術(shù)。當(dāng)前已存在的商業(yè)系統(tǒng)包括IBM公司的Via Voice系統(tǒng),Dragon System公司的Naturally Speaking,以及Microsoft公司的Whisper系統(tǒng)。目前,幾乎所有的自動語音識別系統(tǒng)都存在識別率過低的問題。在國際前沿研究領(lǐng)域,美國國家標(biāo)準(zhǔn)局(NIST)組織的語音識別評測表明,當(dāng)前最為先進(jìn)的中文新聞?wù)Z音的語音識別字錯誤率,為19%-30%之間(NIST Evaluation on RichTranscription 2003 Spring),(BBN,prim系統(tǒng),字錯誤率19.1%)。
語音文本自動對齊技術(shù)。當(dāng)前語音文本自動對齊技術(shù)一般以單句為單位,進(jìn)行小段的音素對齊。其中,具有最先進(jìn)水平的研究單位為OGI,其系統(tǒng)結(jié)合了HMM和ANN技術(shù),對單句的語音進(jìn)行音素及對齊。對于漢語語音,其與手工對齊的一致率在20ms下為79.33。
然而對于大段語音文本對齊和實時語音文本對齊技術(shù),目前尚未檢索到任何文獻(xiàn)或系統(tǒng)。
從以上分析可以看出,巨大的字幕需求,以及國內(nèi)相對落后的字幕加配現(xiàn)狀,對字幕自動加配技術(shù)的研制和開發(fā)提出了迫切的要求。為此,本發(fā)明開發(fā)了一套相對完整的字幕自動加配解決方案,用于解決非現(xiàn)場直播影視節(jié)目和現(xiàn)場直播節(jié)目的字幕自動加配問題。該套解決方案涵蓋了字幕加配過程的各個環(huán)節(jié),包括字幕腳本的自動生成、字幕的輔助校對、字幕的大段對齊和字幕的實時對齊等。該解決方案充分利用了高速發(fā)展的計算機技術(shù)和語音信號處理技術(shù),能夠節(jié)約大量的人力成本,極大地提高影視作品字幕加配的效率。一旦該成果得到實用化,必將大大促進(jìn)我國“字幕工程”的發(fā)展,它不僅具有重要的社會意義,而且還具有巨大的市場價值。
發(fā)明內(nèi)容
發(fā)明目的
當(dāng)前對于字幕的最主要需求包括1、字幕的自動生成和校對;2、非現(xiàn)場直播節(jié)目的字幕大段對齊;3、現(xiàn)場直播節(jié)目的字幕實時對齊。
考慮到當(dāng)今的科學(xué)和技術(shù)水平,要滿足上述三個要求,存在著以下的技術(shù)難點,而這些技術(shù)難點正是本作品要重點解決的問題,同時,科學(xué)合理地解決這些技術(shù)難點也是本作品的創(chuàng)新和貢獻(xiàn)之所在。
1、如何快速準(zhǔn)確地得到字幕腳本字幕腳本的準(zhǔn)確自動識別是一項及其困難的任務(wù)。一方面,影視節(jié)目中的聲學(xué)環(huán)境變化多樣,包括演播室中安靜環(huán)境下的語音、戶外噪聲環(huán)境下的語音、或是音樂背景噪聲下的語音等等;另一方面,影視節(jié)目中的說話人也是變化多樣的,從標(biāo)準(zhǔn)的播音員,到采訪記者,甚至包括帶方言口音的被采訪者等等。因此,根據(jù)聲學(xué)環(huán)境和說話人的差異來分割、分類和聚類影視節(jié)目中的語音是字幕自動識別的重要一步。同時,對于這樣一個復(fù)雜多變的任務(wù),設(shè)計一個魯棒性強、說話人無關(guān)的大詞匯量連續(xù)語音識別系統(tǒng)是至關(guān)重要的?;谥眯哦却蚍值淖帜惠o助校對系統(tǒng)進(jìn)一步保證了字幕腳本的準(zhǔn)確性??紤]到有效性的要求,本發(fā)明還對自動連續(xù)語音識別系統(tǒng)進(jìn)行了優(yōu)化,在保證準(zhǔn)確率輕微下降的前提下,優(yōu)化識別系統(tǒng)使其達(dá)到實時處理(指處理時間小于或等于語音本身的時間)。
2、如何快速準(zhǔn)確地對齊字幕腳本利用當(dāng)前比較成熟的單句自動對齊技術(shù),可以準(zhǔn)確地完成以句為單位的對齊任務(wù)。但是從實用性角度考慮,把大段的影視節(jié)目先切分成單句,然后再利用單句對齊技術(shù)進(jìn)行對齊的想法是不可行,這是因為其一,切分大段的節(jié)目語音本身會引入誤差,不準(zhǔn)確的切分結(jié)果將可能導(dǎo)致大段對齊的結(jié)果不可接受;其二,在對齊過程中會產(chǎn)生累計誤差擴散的現(xiàn)象。因此,如何將對齊過程中產(chǎn)生的累計誤差控制在允許的范圍之內(nèi)是關(guān)鍵的一步。本發(fā)明基于動態(tài)規(guī)劃的思想,實現(xiàn)了字幕腳本的大段對齊,保證了對齊的時間信息的準(zhǔn)確性。
3、如何實時地對齊字幕腳本字幕腳本的實時對齊不同于離線方式的大段對齊,它同時要求時間的實時性和結(jié)果的準(zhǔn)確性。通常地,有多種不同的思路來完成字幕的實時對齊。一種方法就是通過自動語音識別系統(tǒng),即時地識別出字幕腳本,并且直接輸出字幕作為對齊結(jié)果,達(dá)到實時對齊的效果。但是這種方法有它的缺陷。首先,現(xiàn)階段針對影視節(jié)目的實時語音識別系統(tǒng)的識別正確率不可能達(dá)到100%,會導(dǎo)致最終得到正確率較低的字幕腳本;其次,直接輸出自動語音識別的結(jié)果不能進(jìn)行人工校對,無法保證字幕腳本的準(zhǔn)確性。本發(fā)明把實時字幕對齊的任務(wù)限定于新聞資訊類節(jié)目,利用事先準(zhǔn)備好的節(jié)目文稿動態(tài)構(gòu)建搜索網(wǎng)絡(luò),這樣就同時保證了字幕的準(zhǔn)確性和實時性。
技術(shù)方案下面說明本發(fā)明的字幕加配方法和系統(tǒng)所采用的技術(shù)方案。
本發(fā)明基于統(tǒng)計模式識別的理論,設(shè)計并實現(xiàn)了字幕自動加配系統(tǒng)及其解決方案。針對非現(xiàn)場直播類型的影視節(jié)目和現(xiàn)場直播型電視節(jié)目。根據(jù)本發(fā)明的字幕加配分別采用如下的技術(shù)方案針對非現(xiàn)場直播類型的影視節(jié)目,字幕自動加配系統(tǒng)包括三個模塊字幕自動識別模塊,用于自動識別影視作品中與視頻流相對應(yīng)的字幕腳本;字幕輔助校對模塊,進(jìn)行字幕校對;以及,字幕大段對齊模塊,用于將得到的音頻和字幕腳本在時間尺度上按照一定的語言單元自動對齊,在播放影視節(jié)目時可以準(zhǔn)確地同步顯示相應(yīng)字幕。
針對現(xiàn)場直播型電視節(jié)目,字幕自動加配系統(tǒng)即為實時對齊模塊,用于將事先準(zhǔn)備好的節(jié)目文稿與實時輸入的音頻流在時間軸上對齊,并且實時地顯示字幕。
以下將對這四個模塊的功能實現(xiàn)分別進(jìn)行介紹1、字幕的自動識別字幕自動識別的功能是完成自動識別影視作品中與視頻流相對應(yīng)的字幕腳本的任務(wù),以取代傳統(tǒng)的“邊聽邊記”的字幕腳本生成方式。其輸入是影視作品的視頻文件,輸出是其對應(yīng)的字幕腳本。該功能包括如下順序處理過程(1)從影視作品視頻流中提取出音頻流;(2)分析該音頻流,并自動將其分割成不同聲學(xué)環(huán)境下的小單元;(3)對分割單元進(jìn)行分類處理,分出男性語音和女性語音;(4)根據(jù)聲學(xué)環(huán)境和說話人的相似性等信息,對分割單元進(jìn)行合并聚類;(5)利用大詞匯量連續(xù)語音識別系統(tǒng),識別聚類后的分割單元,輸出詞網(wǎng)格(Lattice)。
2、字幕的輔助校對為了讓字幕真正起到傳播信息和啟發(fā)教育的作用,必須保證字幕正確。由于在影視作品中,聲學(xué)環(huán)境和說話人差異很大,連續(xù)語音識別系統(tǒng)自動生成的字幕不可避免地會存在錯誤,需要部分人工校對。為了快速、方便地進(jìn)行字幕校對,系統(tǒng)需要字幕的輔助校對功能。該功能輸入的是自動語音識別系統(tǒng)輸出的詞網(wǎng)格,輸出的是帶有置信度(Confidence)信息的最優(yōu)識別結(jié)果。該功能包括如下順序處理過程(1)裁減不可達(dá)路徑,優(yōu)化詞網(wǎng)格;(2)計算詞網(wǎng)格中每個候選詞的置信度;(3)利用最短路徑搜索(Best-Path Search)算法搜索詞網(wǎng)格,得到最優(yōu)的識別結(jié)果。
3、字幕的大段對齊對于非現(xiàn)場直播的影視節(jié)目,從事先錄制的節(jié)目中可以提取出相應(yīng)的音頻,利用字幕的自動識別可以得到相應(yīng)的字幕腳本(或者直接利用事先就準(zhǔn)備好的節(jié)目文稿)。字幕大段對齊的功能就是將得到的音頻和字幕腳本在時間尺度上按照一定的語言單元自動對齊,得到標(biāo)注有時間信息的節(jié)目文稿,在播放影視節(jié)目時可以準(zhǔn)確地同步顯示相應(yīng)字幕。該功能的輸入是音頻文件和字幕文件,輸出是標(biāo)注有時間信息的字幕文稿。
4、字幕的實時對齊對于現(xiàn)場直播的影視節(jié)目,沒有事先錄制好的節(jié)目,不可能得到音頻并進(jìn)行自動語音識別。但是對于新聞資訊類節(jié)目來說,一般都會有事先準(zhǔn)備好的節(jié)目文稿。字幕實時對齊的功能就是將該事先準(zhǔn)備好的節(jié)目文稿與實時輸入的音頻流在時間軸上對齊,并且實時地顯示字幕。其輸入是節(jié)目文稿和實時音頻流,輸出是實時的字幕腳本。
綜上所述,該字幕自動加配系統(tǒng)的目標(biāo)和定位輔助用戶方便快速地得到字幕腳本并進(jìn)行校正,實現(xiàn)非現(xiàn)場直播影視節(jié)目的大段對齊和實現(xiàn)現(xiàn)場直播新聞資訊類節(jié)目的實時對齊。它涉及了完整字幕制作過程中的每一個主要環(huán)節(jié),是影視作品的字幕加配的一個較完整的解決方案。
下面結(jié)合附圖對本發(fā)明進(jìn)一步詳細(xì)地說明圖1是非現(xiàn)場直播型節(jié)目加配流程圖;圖2是現(xiàn)場直播型節(jié)目加配流程圖;圖3字幕自動加配解決方案演示系統(tǒng)的主界面;圖4自動語音識別模塊的系統(tǒng)框圖;圖5語音自動分割、分類和聚類的處理流程圖;圖6用于語音的自動分割、分類和聚類的分類器級聯(lián)結(jié)構(gòu);圖7美標(biāo)度倒譜系數(shù)的計算過程;圖8自動語音識別中的信息編解碼過程;圖9隱馬爾可夫模型(HMM);圖10 Viterbi算法;圖11詞網(wǎng)格示例;圖12字幕輔助校對模塊的處理流程圖;圖13字幕的大段對齊模塊框圖;圖14文本的字-音轉(zhuǎn)換流程圖;圖15全切分詞圖;圖16漢語聲學(xué)模型的拓?fù)浣Y(jié)構(gòu);圖17字幕大段對齊的處理流程圖;圖18字幕實時對齊的處理流程圖;圖19實時對齊解碼網(wǎng)絡(luò)的基本結(jié)構(gòu)。
具體實施例方式
下面參照本發(fā)明的附圖,更詳細(xì)地描述本發(fā)明的最佳實施例。
基于統(tǒng)計模式識別理論,本發(fā)明實現(xiàn)了一個針對新聞聯(lián)播節(jié)目的字幕加配系統(tǒng),系統(tǒng)的工作界面如圖3所示圖1所示為非現(xiàn)場直播型節(jié)目加配流程圖,針對非現(xiàn)場直播節(jié)目,本系統(tǒng)的工作流程為1、字幕自動識別字幕自動識別的任務(wù)是自動地識別出影視作品中音頻對應(yīng)的字幕腳本。本發(fā)明基于統(tǒng)計隱馬爾可夫模型(Hidden Markov Model,HMM)實現(xiàn)了一個說話人無關(guān)的大詞匯量連續(xù)語音識別系統(tǒng)?;诮y(tǒng)計的自動語音識別是現(xiàn)行國際上最流行的語音識別方法,它已經(jīng)被驗證了比其他的語音識別方法(比如基于人工神經(jīng)網(wǎng)絡(luò)的方法)更加有效。圖4是字幕自動識別模塊的框圖,包括訓(xùn)練過程和識別過程。
(1)語音的自動分割、分類和聚類影視節(jié)目的長度一般都在幾十分鐘到幾個小時之間不等。通常,這么長的語音是無法直接用于自動語音識別的,在識別之前必須自動地將其分割成較小的語音片斷;另一方面,影視節(jié)目中包含有復(fù)雜多變的聲學(xué)環(huán)境和形形色色的說話人,必須根據(jù)聲學(xué)環(huán)境和說話人信息的“同一性”原則,將這些分割后的語音片斷進(jìn)行分類和聚類。本作品基于高斯混合模型(Gaussian Mixture Model,GMM)實現(xiàn)語音的自動分割、分類和聚類,處理流程圖5所示。
靜音檢測(Voice Activity Detection,VAD)的目的是檢測出影視節(jié)目中的靜音和停頓。大多數(shù)VAD算法都是基于信號能量、過零率、信號周期性以及線性預(yù)測編碼系數(shù)。但是基于這些區(qū)分參數(shù)的VAD算法對于含噪情況的性能較差,且切分過細(xì)。我們采用基于長時語音信息的VAD方法,它可以檢測出說話語句之間的長停頓,而忽略語句內(nèi)部的短時停頓。
貝葉斯信息準(zhǔn)則(Bayesian Information Criteria,BIC)已經(jīng)被證明是一種有效的用于定位聲音轉(zhuǎn)折點的方法。它的基本思想是利用一個滑動窗,分別計算相鄰兩個窗的似然得分,如果相鄰兩個窗的似然比高于某一個閾值,就可能存在一個潛在的轉(zhuǎn)折點。
根據(jù)大數(shù)定律,一個任意的分布都可以在任意精度下用足夠多的高斯分量的混合來近似地逼近。盡管我們沒法確定用于語音分類的概率密度函數(shù)的真實分布,但是理論上只要高斯分量足夠多,就可以用這些高斯分量的混合來近似地模擬用于語音分類的概率密度分布。在本系統(tǒng)中采用了16維MFCC(注)作為特征,利用期望最大化(Expectation-Maximization,EM)算法訓(xùn)練得到256個高斯分量混合的GMM模型用于語音的分類。訓(xùn)練數(shù)據(jù)包括11小時的CCTV1新聞聯(lián)播數(shù)據(jù)和1997年美國國家技術(shù)標(biāo)準(zhǔn)局(NIST)提供的50分鐘HUB4英語數(shù)據(jù)。針對影視節(jié)目這種多類分類任務(wù),系統(tǒng)采用多個二類分類器級聯(lián)的方式,如圖6所示,最終將影視節(jié)目中的語音分為七大類。最后,將相鄰的同類語音進(jìn)行合并處理,得到最終的分割、分類和聚類結(jié)果。
(2)特征提取特征提取的目的是為了提取更好地體現(xiàn)語音中穩(wěn)定的有用信息作為自動語音識別的特征。語音信號的一個基本特性是短時平穩(wěn)特性,短時分析是語音信號特征提取的基礎(chǔ)。在提取特征之前一般先要對語音信號進(jìn)行預(yù)加重處理,提升語音的高頻分量以減少信道對語音信號高頻成分的衰減。隨后,將語音信號進(jìn)行分幀處理(通常采用幀長25毫秒,幀移10毫秒),并加漢明(Hamming)窗平滑[12]。
常用的用于自動語音識別的聲學(xué)特征是美標(biāo)度倒譜系數(shù)MFCC(MelFrequency Cepstral Coefficients),它是受人的聽覺系統(tǒng)研究成果的推動,基于人的聽感知機理而導(dǎo)出的聲學(xué)特征,更符合人耳聽覺的非線性心理現(xiàn)象[10,12]。計算MFCC特征的過程如圖7所示在本系統(tǒng)中采用的特征是12維MFCC倒譜系數(shù)加上能量,以及它們的一階和二階差分,一共構(gòu)成39維特征向量。另外,為了消除信道的卷積噪聲的影響,系統(tǒng)在提取MFCC特征的基礎(chǔ)上,引入了倒譜均值歸一化(Cepstral MeanNormalization,CMN)來對信道進(jìn)行補償。
(3)用于搜索解碼的知識庫基于統(tǒng)計的自動語音識別系統(tǒng)需要在統(tǒng)計模型的基礎(chǔ)上,利用模式識別的方法進(jìn)行語音的自動識別。通常,這些統(tǒng)計模型被稱為自動語音識別的知識庫(Knowledge Base),包括聲學(xué)模型(Acoustic Model,AM)、語言模型(LanguageModel,LM)、和發(fā)音模型(Pronunciation Model,PM)。
如圖8所示,自動語音識別系統(tǒng)通常假定語音信號(如圖中的語音波形所示)是一系列符號(如圖中的符號序列所示)的一種編碼(Encoding)實現(xiàn)。這樣一來,識別一個給定的語音信號就相當(dāng)于一個解碼(Decoding)過程。為了在給定語音信號的前提下有效地識別出隱含的符號序列,根據(jù)語音的短時平穩(wěn)性,連續(xù)的語音波形通常先通過特征提取模塊將其轉(zhuǎn)換為一系列等長度的離散向量(如圖中的特征向量所示),并假定這一系列的離散向量能夠準(zhǔn)確地表征對應(yīng)的語音波形。因此,識別器的任務(wù)就是要實現(xiàn)從語音特征向量到隱含符號序列這樣一個映射(Mapping)過程。在這過程中,聲學(xué)模型(AM)的角色就是利用大量的語音數(shù)據(jù),對不同符號單元的聲學(xué)特性差異進(jìn)行建模;語言模型(LM)定義了符號序列的語言限制,扮演著對識別器允許的語言進(jìn)行建模的角色。另外,對于某一種特定的語言來說,符號單元通常有不同層次的定義,比如漢語中的詞、字、音節(jié)和聲韻母等等,發(fā)音模型(PM)就是實現(xiàn)了這些不同層次的語言單元之間的映射。
如上所述,聲學(xué)模型建模不同符號單元的聲學(xué)差異。隱馬爾可夫模型HMM是當(dāng)前最流行的一種語音信號時變特征的建模方法。它由兩個相互關(guān)聯(lián)的隨機過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的具有有限狀態(tài)的Markov鏈,另一個是與Markov鏈的每個狀態(tài)相關(guān)聯(lián)的觀測向量的隨機過程。語音等時變信號某一段的特征就由對應(yīng)狀態(tài)觀測符號的隨機過程描述,而信號隨時間的變化則由隱Markov鏈的狀態(tài)間的轉(zhuǎn)移概率描述,發(fā)音器官的運動則隱藏在Markov狀態(tài)鏈之后。這也是基于統(tǒng)計的HMM之所以能夠成為語音信號處理的強大工具的內(nèi)在原因。由于語音信號是一個時間序列,因此,我們一般采用自左向右的模型結(jié)構(gòu),如圖9所示。從圖中可以看出,HMM模型的參數(shù)包括初始狀態(tài)分布、狀態(tài)轉(zhuǎn)移概率分布、和觀測向量的概率分布(通常用GMM模型模擬)。估計這些參數(shù),即訓(xùn)練HMM模型的經(jīng)典算法是Baum-Welch算法,這是一個基于遞推的算法,又稱為前向-后向算法,該算法基于最大似然(Maximum Likelihood,ML)準(zhǔn)則,屬于EM算法的一種。
表4.1列舉了自動語音識別的聲學(xué)模型訓(xùn)練的一些參數(shù)和設(shè)置,包括聲學(xué)模型訓(xùn)練數(shù)據(jù)。
表4.1聲學(xué)模型的訓(xùn)練
在語音識別系統(tǒng)中,語言模型事先給出了解碼器允許的語言的先驗概率,這對于在解碼過程中限定搜索空間、消除歧義具有重要的作用。目前最廣泛應(yīng)用的語言模型是N元文法語言模型,即認(rèn)為當(dāng)前詞出現(xiàn)的概率與其前N-1個詞有關(guān),這前N-1個詞被成為當(dāng)前詞的歷史。隨著N的增大,模型的數(shù)目急劇上升,就要求有更多的訓(xùn)練語料。考慮到數(shù)據(jù)的稀疏問題和模型的可訓(xùn)練性,通常N取值為3,即得到三元文法(Trigram)語言模型,這可以看作是一個二階的馬爾可夫過程。語言模型訓(xùn)練是根據(jù)三元詞對在訓(xùn)練語料中出現(xiàn)的次數(shù),利用最大似然估計法得到模型的參數(shù)。即使在N<3的情況下,仍然有可能出現(xiàn)數(shù)據(jù)稀疏的現(xiàn)象而導(dǎo)致某些詞對沒有在訓(xùn)練語料中出現(xiàn)過,因此必須進(jìn)行數(shù)據(jù)的平滑處理,常見的平滑方法有回退(Back off)方法、Discounting方法、Good-Turing平滑方法和Witten-Bell平滑方法等等。表4.2列出了自動語音識別的語言模型訓(xùn)練的一些參數(shù)和設(shè)置,包括語言模型的訓(xùn)練數(shù)據(jù)。
表4.2語言模型的訓(xùn)練
發(fā)音模型,即發(fā)音詞典,建立了不同層次的語言單元之間的映射關(guān)系。在本系統(tǒng)中,聲學(xué)模型刻畫了不同的發(fā)音單元之間的差異,語言模型描述了語言層面上的詞或語義信息,而發(fā)音詞典則是實現(xiàn)了從“詞”到“音”的“一對一”或“一對多”映射。我們建立了一個包含64275個詞條的單發(fā)音詞典,而且保證了發(fā)音詞典的詞條和語言模型中的詞條的一致性。下面是部分發(fā)音詞典示例北京大學(xué) b ei3j ing1 d a4x ve2
北京市 b ei3 j ing1 sh ib4挑戰(zhàn)杯 tiao3 zh an4 b ei1左邊一列是詞條,對應(yīng)于語言模型中的詞條,右邊一列是該詞條的發(fā)音,對應(yīng)于聲學(xué)模型的建模單元。同一個詞條可以包含多個發(fā)音,而且可以為每一個多發(fā)音詞條指定概率。
(4)搜索解碼自動語音識別的解碼過程實際上是完成了語音特征向量序列到輸出符號序列的映射過程。在給定的輸入語音特征向量的前提下,如果能找到與其對應(yīng)的最優(yōu)狀態(tài)序列,由于聲學(xué)模型確定了HMM狀態(tài)序列和發(fā)音單元序列之間的對應(yīng)關(guān)系,那么就可以根據(jù)得到的發(fā)音單元“解碼”出最終的識別結(jié)果。這個過程可以通過圖10形象地反映出來。在圖中的二維空間中,橫坐標(biāo)表示語音幀(時間),縱坐標(biāo)表示狀態(tài),解碼的過程就相當(dāng)于在該二維空間中從左到右、逐列地搜索得到一條最優(yōu)的路徑。在搜索過程中,每一時刻的概率得分綜合了聲學(xué)模型和語言模型的得分。整個過程可以通過遞推的方式有效地實現(xiàn)。
當(dāng)然,上面描述的只是Viterbi算法的基本思想。在實際應(yīng)用過程中,尤其對于大詞匯量連續(xù)語音識別系統(tǒng),這種基于網(wǎng)格(Lattice)的搜索方式是無法滿足時間和空間需求的。本系統(tǒng)采用基于詞樹(Lextree)的解碼方式,用樹形結(jié)構(gòu)組織發(fā)音詞典中的詞條,有效地共享了搜索路徑,提高了搜索效率。
字幕的自動語音識別模塊的輸出不是單一的最優(yōu)結(jié)果,而是一個詞網(wǎng)格(Word Lattice),得到的詞網(wǎng)格作為字幕輔助校對模塊的輸入,用于字幕自動識別的后處理。
2、字幕輔助校對本系統(tǒng)的自動語音識別以句子為單位進(jìn)行識別,輸出得到的對應(yīng)的一個詞網(wǎng)格。詞網(wǎng)格實際上是一個有向無環(huán)圖(Directed Acyclic Graphs,DAG),包括有節(jié)點(Node)和邊(Edge)。每個節(jié)點帶有相應(yīng)的時間信息,每條邊帶有起止節(jié)點、對應(yīng)的候選詞、聲學(xué)模型得分和語言模型得分等信息。詞網(wǎng)格實際上就是自動語音識別系統(tǒng)輸出的多候選結(jié)果的一種緊湊表示,從DAG的起點(<s>)到終點(</s>)的每一條路徑都是語音識別系統(tǒng)的一種候選輸出結(jié)果。如圖11所示。
本系統(tǒng)中的字幕輔助校對模塊的目的有兩個1、在優(yōu)化的詞網(wǎng)格上,利用最優(yōu)路徑搜索得到最終的字幕自動識別結(jié)果;2、對輸出結(jié)果進(jìn)行置信度打分,輔助用戶進(jìn)行字幕的手工校對,節(jié)省時間,提高效率。該模塊的處理流程如圖12所示。
(1)網(wǎng)格優(yōu)化在詞網(wǎng)格中,并不能保證每個節(jié)點都能到達(dá)網(wǎng)格的終點</s>;另一方面,只有從起點<s>到終點</s>的完整路徑才有可能是自動語音識別的一個候選結(jié)果。因此,網(wǎng)格優(yōu)化是第一步,它裁減網(wǎng)格中不完整路徑上的節(jié)點及其相應(yīng)的邊,這樣就保證了后續(xù)處理得到的每一條路徑的完整性,同時減小了網(wǎng)格的大小,節(jié)省了搜索時間。具體的處理過程如下(1)從起點<s>開始,從前往后遍歷詞網(wǎng)格,標(biāo)記出所有到起點<s>不可達(dá)的節(jié)點;(2)從終點</s>開始,從后往前遍歷詞網(wǎng)格,標(biāo)記出所有到終點</s>不可達(dá)的節(jié)點;(3)裁減詞網(wǎng)格中到達(dá)起點<s>或終點</s>不可達(dá)的節(jié)點及其相應(yīng)的邊。
可以通過遞歸算法實現(xiàn)詞網(wǎng)格的遍歷。實驗結(jié)果表明,經(jīng)過網(wǎng)格優(yōu)化后,平均裁減掉了將近50%的不完整路徑上的節(jié)點。
(2)基于詞的后驗概率計算詞網(wǎng)格中的每一條邊對應(yīng)于一個可能的候選詞,同時還帶有這個詞在某一段時間內(nèi)的聲學(xué)模型得分和語言模型得分,這些得分是在自動語音識別解碼過程中保留下來的,可以直接利用這些模型得分計算每一條邊的后驗概率,即在給定某一段時間內(nèi)的語音特征向量序列后,觀測到某一個詞(對應(yīng)于某一條邊)的后驗概率。這些邊的后驗概率可以采用類似于前向-后向(Forward-Backward)算法遞推地計算得到。用于后驗概率計算的語言模型得分可以直接利用詞網(wǎng)格中的得分,或者可以用更精細(xì)(比如提高語言模型的階數(shù))的語言模型進(jìn)行重打分,這就需要對原始的詞網(wǎng)格進(jìn)行相應(yīng)的擴展。本模塊中采用直接利用網(wǎng)格的語言模型得分計算基于詞的后驗概率。
(3)全局最優(yōu)路徑搜索可以證明,用于自動語音識別解碼的Viterbi搜索算法并不一定保證能夠搜索得到全局的最優(yōu)路徑?;谶@樣的考慮,本模塊在自動語音識別輸出的詞網(wǎng)格中,利用動態(tài)規(guī)劃的思想,進(jìn)行全局最優(yōu)路徑的搜索,路徑的得分是基于詞網(wǎng)格中的聲學(xué)模型和語言模型得分。由于詞網(wǎng)格是自動語音識別最有可能的候選結(jié)果的緊湊表示,因此在這樣的網(wǎng)格上進(jìn)行最優(yōu)路徑搜索的效率就很高,同時保證這樣搜索得到的結(jié)果是全局最優(yōu)的。實驗結(jié)果表明,經(jīng)過這樣的后處理,自動語音識別的字正確率能有將近1%-2%的絕對提高。
(4)基于詞的置信度計算計算詞網(wǎng)格中每個詞的后驗概率,我們就可以把在某一段時間內(nèi)同一個詞的所有后驗概率相加,得到的和就可以直接作為這一段時間內(nèi)這個詞的置信度。通過設(shè)置相應(yīng)的門限,就可以把置信度高于該門限的詞判別為正確,把置信度低于該門限的詞判別為錯誤。在實際系統(tǒng)中,就可以把可能錯誤的詞標(biāo)以不同的顏色,來輔助用戶進(jìn)行字幕的校對。
3、字幕大段對齊圖13是字幕大段對齊模塊的系統(tǒng)處理流程圖。該模塊又包括文本的字-音轉(zhuǎn)換、聲學(xué)建模、和大段對齊等幾個子模塊。
(1)文本的字-音轉(zhuǎn)換當(dāng)輸入系統(tǒng)的文本是漢字串時,首先需要把漢字串轉(zhuǎn)換成拼音串,以便從輸入文本中生成聲學(xué)模型串。文本的字-音轉(zhuǎn)換是將漢字文本轉(zhuǎn)換成對應(yīng)的拼音串的過程,包括分詞、詞性標(biāo)注和注音三個子模塊。具體的流程如圖14所示。
本系統(tǒng)基于最短路徑搜索算法對漢字文本進(jìn)行分詞處理。具體實現(xiàn)過程是1、對于一個漢語句子,建立一個有向無環(huán)圖;2、把相鄰兩個漢字之間的間隔作為節(jié)點,相鄰兩節(jié)點之間的漢字對應(yīng)一條邊;3、查找詞典,如果任意兩個節(jié)點之間的漢字串構(gòu)成了一個詞典詞,則在這兩個節(jié)點間添加一條邊;4、依此類推,將句子中的所有可能的成詞作為邊添加到該有向無環(huán)圖中,就得到相應(yīng)于漢語句子的全切分詞圖,如圖15所示就是“中國人民萬歲”這個句子對應(yīng)的全切分詞圖;5、用六個月的人民日報語料訓(xùn)練得到二元文法(Bigram)語言模型,使用該二元文法語言模型給全切分詞圖中的邊賦權(quán)值;6、最后使用最短路徑搜索算法在起點到終點的所有路徑中找到一條最短路徑作為最終的分詞結(jié)果。
本系統(tǒng)使用基于隱馬爾可夫模型的方法進(jìn)行詞性標(biāo)注。在詞性標(biāo)注HMM模型中,狀態(tài)對應(yīng)于詞性,每個狀態(tài)的輸出觀測符號對應(yīng)于詞,同時,假定每一個詞性的概率分布只與上一個詞的詞性有關(guān),并且每一個詞性的輸出概率分布只與其詞性本身有關(guān),這兩個假設(shè)也正好符合隱馬爾可夫模型的兩個前提。這樣,HMM模型中的狀態(tài)轉(zhuǎn)移概率即是詞性間的跳轉(zhuǎn)概率,每個狀態(tài)輸出觀測符號的概率即是對應(yīng)詞性一定的條件下輸出某一詞的概率,這些參數(shù)可以從正確標(biāo)注詞性的語料中訓(xùn)練得到。有了這些參數(shù)之后,對于任何一個給定的觀測符號序列(詞串),我們就可以通過前面所介紹的Viterbi算法,搜索得到一條最大可能的狀態(tài)序列,即可得到該詞串所對應(yīng)的詞性序列。
本系統(tǒng)使用基于決策樹(Decision Tree)的方法對經(jīng)過了分詞和詞性標(biāo)注的漢字文本進(jìn)行注音。文本的注音問題關(guān)鍵就是解決多音字(詞)的發(fā)音問題。根據(jù)2002年微軟亞洲研究院的一個統(tǒng)計,漢語文本中多音字的字?jǐn)?shù)占到文本總字?jǐn)?shù)的8.95%,對單音字詞,可以通過查找發(fā)音詞典直接標(biāo)出其拼音;對于多音字(詞),系統(tǒng)重點解決了其中最主要的41個多音字和22個多音詞的注音,完全解決這些多音字(詞)將可使注音正確率達(dá)到99.93%。由于多音字(詞)的讀音類別比較固定,因此可以將確定多音字(詞)的讀音問題看成一個分類問題。在訓(xùn)練過程中,對訓(xùn)練語料中的每個多音字(詞),提取與該多音字(詞)相鄰的左右各3個詞的詞性作為特征,訓(xùn)練一棵決策樹。決策樹的建立采用經(jīng)典的C4.5算法。在識別過程中,對于經(jīng)過分詞和詞性標(biāo)注后的文本,順序標(biāo)出其中單音字詞的讀音;而對于其中的多音字(詞),提取其左右3個詞的詞性作為特征,將得到的特征通過相應(yīng)的決策樹來確定在該上下文語境下此多音字(詞)的讀音,最終完成文本的注音過程。
實驗結(jié)果表明,該文本的字-音模塊的標(biāo)注拼音的正確率達(dá)到了99.4%。
(2)聲學(xué)建模如前面所述,聲學(xué)模型是用來建模語音層特征和語言層信息之間關(guān)系的。在字幕的大段對齊模塊中,系統(tǒng)采用的仍然是當(dāng)前聲學(xué)建模的主流方法-隱馬爾可夫模型建模,但是,在具體的模型結(jié)構(gòu)和參數(shù)上,又和用于字幕自動語音識別的聲學(xué)模型不完全一樣。
根據(jù)漢字的音節(jié)結(jié)構(gòu)特點,并考慮到協(xié)同發(fā)音的影響,聲學(xué)建模單元選擇語境相關(guān)的帶調(diào)三音子。在漢語的發(fā)音中,聲母的持續(xù)時間一般都比較短,而韻母的持續(xù)時間比較長,所以在HMM聲學(xué)建模中采用了聲母3狀態(tài),韻母5狀態(tài)的拓?fù)浣Y(jié)構(gòu),并且各狀態(tài)之間沒有跨越跳轉(zhuǎn)。同時,為了表示語音中的靜音和短暫停,引入了靜音(silence)模型和短暫停(Short Pause,SP)模型。每個模型狀態(tài)用16個高斯混合來模擬其觀測矢量的輸出概率分布。各模型的拓?fù)浣Y(jié)構(gòu)如圖16所示,其中(a)表示聲母、(b)表示韻母、(c)表示靜音、(d)表示短暫停。
聲學(xué)模型的訓(xùn)練語料采用863語音數(shù)據(jù)庫,該語音庫是國內(nèi)比較權(quán)威的大詞匯量的非特定人漢語連續(xù)語音識別的訓(xùn)練語音數(shù)據(jù)庫。它包括200個說話人,男女各半,每人520到625句話,覆蓋了2185個連續(xù)句子。說話人來自北京等六省二市沒有明顯口音的人,語句內(nèi)容選自1993年和1994年的《人民日報》,存儲格式為16KHz采樣,16位PCM量化的WAV格式。
通過基于最大似然(Maximum Likelihood)準(zhǔn)則的前向-后向(Baum-Welch)訓(xùn)練算法后,結(jié)果一共產(chǎn)生了285184個邏輯模型,再經(jīng)過決策樹聚類之后最終得到29660個物理模型作為字幕大段對齊的聲學(xué)模型。
(3)大段對齊第4.1小節(jié)介紹的Viterbi算法實際上是一種時間同步、寬度優(yōu)先的搜索算法,隨著時間的同步推移而逐步擴展,每次只保留當(dāng)前時刻為止最優(yōu)的路徑,最終回溯得到最佳的狀態(tài)序列。Viterbi解碼算法同樣可以用于語音和文本的自動對齊中,在回溯時需要記錄的是每個聲學(xué)模型的駐留時間,而不是模型內(nèi)容,這一點區(qū)別于語音識別中的Viterbi解碼算法。通過這樣的Viterbi解碼過程,就可以得到每一幀的特征矢量對應(yīng)的模型狀態(tài),根據(jù)HMM的拓?fù)浣Y(jié)構(gòu)把這些狀態(tài)拼接起來,就可以得到每個模型的駐留語音幀邊界,進(jìn)一步可以根據(jù)需要得到每個字、詞和句子對應(yīng)的語音幀,這就是單句語音和文本自動對齊的基本原理。
但是這種單句語音和文本對齊方法應(yīng)用于諸如影視節(jié)目這種大段語音和文本的自動對齊時將遇到新的問題。這主要是單句對齊結(jié)果的錯誤誤差會隨著解碼時間的推移而逐步累積,越長的語音段將產(chǎn)生越大的累積錯誤。所以,對于大段語音和文本的自動對齊,我們不能僅僅依靠單句的“強制對齊解碼”方法得到完全解決。
我們用于解決大段語音和文本對齊問題的辦法是利用“分而治之(Divide andConquer)”的思想,將大段語音和文本對齊的問題分解成若干個單句語音和文本對齊的問題,這樣一來,我們就可以把累積錯誤控制在局部范圍內(nèi),從而使大段對齊問題得到解決。算法的基本思想是選定一段待處理的語音,以該語音片斷為基準(zhǔn),通過嘗試不同的文本段,來尋找最佳的語音和文本匹配。算法的處理流程是首先對語音和文本進(jìn)行句邊界檢測,取一語音段,動態(tài)地與事先估計的文本段及其相鄰段落相匹配,進(jìn)行強制對齊,當(dāng)對齊打分結(jié)果大于一定門限時,繼續(xù)取下一語音段進(jìn)行對齊,重復(fù)上述過程直至全部語音已處理完成。具體的系統(tǒng)框果如圖17所示圖2所示為現(xiàn)場直播型節(jié)目加配流程圖,對于現(xiàn)場直播類節(jié)目,本系統(tǒng)的工作流程為1、手工獲取字幕腳本為了進(jìn)行字幕實施對齊,需要首先獲得預(yù)先準(zhǔn)備好的字幕文本。對于現(xiàn)場直播類節(jié)目,本系統(tǒng)并不涉及獲取手工腳本的方法。
2、字幕實時對齊當(dāng)VIterbi強制對齊解碼直接應(yīng)用于實時語音和文本對齊解碼時,又將會產(chǎn)生新的問題。強制對齊解碼有一個向前搜索-向后回溯的過程;而對于實時的解碼,當(dāng)新的連續(xù)語音流到達(dá)時,解碼器就得立即做出判斷,并在適當(dāng)時間內(nèi)輸出相應(yīng)的字幕腳本,此時,它不可能不斷地回溯并尋找最佳路徑。
我們解決的辦法是讓解碼器在語音流和文本流中同時進(jìn)行實時搜索,當(dāng)有新的語音幀到來時,通過尋找相應(yīng)聲學(xué)模型的穩(wěn)定駐留時間來同步語音流和文本流中的位置指針,達(dá)到語音和文本實時對齊的目的。圖18是字幕實時對齊模塊的流程圖,其中的文本字-音轉(zhuǎn)換、聲學(xué)建模等子模塊和上一小節(jié)的字幕大段對齊模塊相一致。
具體實現(xiàn)原理如下在進(jìn)行對齊之前,需要將對齊文本展開成為解碼所需的狀態(tài)網(wǎng)絡(luò)。為了得到狀態(tài)網(wǎng)絡(luò),首先將文本轉(zhuǎn)換成拼音串,然后對拼音串中的每一個音節(jié)從聲學(xué)模型庫中拷貝相應(yīng)的模型進(jìn)行鏈接,構(gòu)成解碼時用到的狀態(tài)網(wǎng)絡(luò)。這個網(wǎng)絡(luò)實際上就同時包含了語音流和文本流的信息,并在其中分別設(shè)置了位置指針。該網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖19所示,其中的SP是短暫停模型。
網(wǎng)絡(luò)中的每一個結(jié)點代表語音聲學(xué)模型HMM的一個狀態(tài),當(dāng)開始輸入語音以后,系統(tǒng)以幀同步的方式在識別網(wǎng)絡(luò)中進(jìn)行Viterbi解碼,每當(dāng)新的語音幀被接收到時,系統(tǒng)在前一幀解碼結(jié)果的基礎(chǔ)上進(jìn)行路徑擴展、裁減和模型得分計算。當(dāng)所有存活路徑所涉及到的狀態(tài)得分計算完畢以后,系統(tǒng)將狀態(tài)按得分情況進(jìn)行排序。當(dāng)發(fā)現(xiàn)連續(xù)5幀的最優(yōu)狀態(tài)沒有發(fā)生變化時,從理論上講,當(dāng)前幀語音有較大概率從屬于該狀態(tài)所對應(yīng)的詞字。在這種情況下,系統(tǒng)將文本流中上次輸出位置到當(dāng)前詞字位置之間的文本進(jìn)行輸出。
嚴(yán)格意義上講,保持連續(xù)5幀的最優(yōu)狀態(tài)并不能完全保證當(dāng)前假設(shè)字詞位置的正確性,并且說話中間偶然出現(xiàn)的增減字情況也會造成解碼的累積誤差。在這種情況下,系統(tǒng)對狀態(tài)得分進(jìn)行了進(jìn)一步的置信度判決,并設(shè)置較寬的裁減門限。實驗中發(fā)現(xiàn),當(dāng)裁減門限設(shè)置在500左右時,系統(tǒng)具有較好的容錯能力。實驗發(fā)現(xiàn),在通常情況下,兩句話(約20個字左右,6~8秒時間)之內(nèi)的語音的刪除與插入錯誤可以得到有效地糾正。
性能評價我們對字幕自動加配解決方案中的主要模塊進(jìn)行了性能測試,測試的模塊包括文本的字-音轉(zhuǎn)換模塊、字幕的自動識別模塊、字幕的大段對齊模塊和字幕的實時對齊模塊。
1、字幕自動識別模塊的性能用于字幕自動識別模塊測試的聲學(xué)模型、語言模型和發(fā)音模型直接采用在實施方式中介紹過的相應(yīng)模型。實驗的測試語料是2002年12月20日的完整新聞聯(lián)播節(jié)目,視頻長度30分鐘,總共包含10151個漢字。測試平臺是Intel Pentium43.0GHz/1GB內(nèi)存。測試的結(jié)果如表5.1所示。
表5.1字幕自動識別模塊的測試結(jié)果
值得說明的是,本模塊采用的模型都是通用的模型,并沒有針對新聞聯(lián)播這個特定的領(lǐng)域訓(xùn)練專門聲學(xué)模型和語言模型,換句話說,該字幕自動識別模塊是和領(lǐng)域無關(guān)的。這樣做的好處是提高了模塊的可定制性,用戶可以根據(jù)自己的特定任務(wù),有針對性地重新訓(xùn)練相關(guān)模型,或者進(jìn)行模型的自適應(yīng)等,這將會極大地提高自動識別系統(tǒng)的性能。
根據(jù)美國國家標(biāo)準(zhǔn)技術(shù)局(National Institute of Standard Technology,NIST)2003年廣播新聞?wù)Z音識別國際評測的結(jié)果,當(dāng)年針對漢語的廣播新聞?wù)Z音識別的最好結(jié)果是字正確率為19%。盡管由于測試語料的不一致(NIST評測任務(wù)還包括廣播電臺語音的識別)使得結(jié)果沒有可比性,但是這也說明了該通用的字幕自動識別系統(tǒng)的性能同樣達(dá)到了同領(lǐng)域的領(lǐng)先水平。
2、字幕大段對齊模塊的性能實驗的測試數(shù)據(jù)是中央電視臺CCTV1的2002年12月16日和2002年12月20日的新聞聯(lián)播節(jié)目,分別從中截取了約25.7分鐘和11.4分鐘的語音,用這37.1分鐘的語音進(jìn)行測試。測試是在P4 1.8GHz/512MB內(nèi)存的機器上進(jìn)行的。
性能的評價標(biāo)準(zhǔn)是以實驗室6位同學(xué)對上述測試數(shù)據(jù)的手工標(biāo)注結(jié)果的一致率為參考的。在40毫秒門限下,這6位同學(xué)的手工標(biāo)注結(jié)果的一致率為92.55%。
對于字幕大段對齊的性能來說,當(dāng)選取幀長為16毫秒,幀移為4毫秒時,在40毫秒門限下,對齊結(jié)果與手工對齊結(jié)果的一致率為92.03%;而在80毫秒門限下的一致率達(dá)到100%,這意味著在80毫秒誤差門限內(nèi),字幕大段對齊模塊的自動對齊結(jié)果和人工對齊的結(jié)果是一致的,而對于80毫秒的誤差,人的肉眼是感覺不到的。這樣的自動對齊性能不僅可以用于字幕的對齊,而且足夠用于實驗室的科學(xué)研究(如用于語音合成)。整個解碼時間為14.15分鐘,可以處理實時對齊。
3、字幕實時對齊模塊的性能對于字幕實時對齊來說,其性能的評價相對比較困難,現(xiàn)在國際上沒有統(tǒng)一的標(biāo)準(zhǔn)來評價一個實時對齊系統(tǒng)。通過實驗表明,字幕實時對齊模塊的性能已經(jīng)達(dá)到了對齊系統(tǒng)的實時性和準(zhǔn)確性的要求的。比如,對一個約30分鐘的新聞聯(lián)播字幕文稿進(jìn)行實時對齊時,在用戶配合的情況(用戶最大限度根據(jù)文本朗讀語音)下,在句子層次上肉眼沒有感覺到明顯的偏差,在字層次上的對齊平均誤差約在1~2秒之內(nèi);而在用戶不配合的情況下,系統(tǒng)仍能自動糾正前后6~8秒鐘的語音和文本不匹配錯誤。
在實際應(yīng)用的字幕自動加配系統(tǒng)中,關(guān)心的重點是句子層次上的加配精度而不要求精確到字的層次上。從這點來看,該實時對齊模塊的性能已經(jīng)基本達(dá)到了實用化的要求。
盡管為說明目的公開了本發(fā)明的具體實施例和附圖,其目的在于幫助理解本發(fā)明的內(nèi)容并據(jù)以實施,但是本領(lǐng)域的技術(shù)人員可以理解在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi),各種替換、變化和修改都是可能的。因此,本發(fā)明不應(yīng)局限于最佳實施例和附圖所公開的內(nèi)容。
權(quán)利要求
1.一種自動加配字幕的方法,針對非現(xiàn)場直播節(jié)目,具體包括以下步驟1)自動識別出影視作品中音頻對應(yīng)的字幕腳本;2)進(jìn)行字幕輔助校對;3)進(jìn)行字幕大段對齊。
2.如權(quán)利要求1所述的自動加配字幕的方法,其特征在于,自動識別影視作品中的字幕腳本,具體步驟為1)對語音進(jìn)行自動分割、分類和聚類;2)對上一步驟中得到的語音信號進(jìn)行特征提取;3)在統(tǒng)計模型的基礎(chǔ)上,利用模式識別的方法進(jìn)行語音的自動識別;4)進(jìn)行搜索解碼。
3.如權(quán)利要求1所述的自動加配字幕的方法,其特征在于,進(jìn)行字幕輔助校對的具體步驟為1)進(jìn)行詞網(wǎng)格優(yōu)化;2)利用網(wǎng)格的語言模型得分計算基于詞的后驗概率;3)進(jìn)行全局最優(yōu)路徑搜索;4)計算詞網(wǎng)格中每個詞的后驗概率,得到一段時間內(nèi)這個詞的置信度。
4.如權(quán)利要求1所述的自動加配字幕的方法,其特征在于,字幕大段對齊的具體步驟為1)進(jìn)行文本的字-音轉(zhuǎn)換;2)聲學(xué)建模;3)將大段語音和文本自動對齊。
5.如權(quán)利要求3所述的自動加配字幕的方法,其特征在于,詞網(wǎng)格優(yōu)化的具體步驟為1)從起點開始,從前往后遍歷詞網(wǎng)格,標(biāo)記出所有到起點不可達(dá)的節(jié)點;2)從終點開始,從后往前遍歷詞網(wǎng)格,標(biāo)記出所有到終點不可達(dá)的節(jié)點;3)裁減詞網(wǎng)格中到達(dá)起點或終點不可達(dá)的節(jié)點及其相應(yīng)的邊。
6.一種自動加配字幕的方法,針對現(xiàn)場直播類節(jié)目,具體包括以下步驟1)手工獲取字幕腳本;2)進(jìn)行字幕實時對齊,即將獲得的字幕腳本與實時輸入的音頻流在時間軸上對齊,并且實時地顯示字幕。
7.一種自動加配字幕的系統(tǒng),針對非現(xiàn)場直播類影視節(jié)目,包括字幕自動識別模塊,用于自動識別影視作品中與視頻流相對應(yīng)的字幕腳本;字幕輔助校對模塊,進(jìn)行字幕校對;以及,字幕大段對齊模塊,用于將得到的音頻和字幕腳本在時間尺度上按照一定的語言單元自動對齊,在播放影視節(jié)目時可以準(zhǔn)確地同步顯示相應(yīng)字幕。
8.一種自動加配字幕的系統(tǒng),針對現(xiàn)場直播類電視節(jié)目,包括實時對齊模塊,用于將事先準(zhǔn)備好的節(jié)目文稿與實時輸入的音頻流在時間軸上對齊,并且實時地顯示字幕。
9.如權(quán)利要求8所述的自動加配字幕的系統(tǒng),其特征在于實時對齊模塊還包括文本的字-音轉(zhuǎn)換模塊、聲學(xué)建模模塊、和大段對齊模塊。
全文摘要
本發(fā)明基于統(tǒng)計模式識別的理論,設(shè)計并實現(xiàn)了字幕自動加配系統(tǒng)及其解決方案。針對非現(xiàn)場直播類型的影視節(jié)目和現(xiàn)場直播型電視節(jié)目。本發(fā)明的字幕加配分別采用如下的技術(shù)方案針對非現(xiàn)場直播類型的影視節(jié)目,字幕自動加配系統(tǒng)包括三個模塊字幕自動識別模塊,用于自動識別影視作品中與視頻流相對應(yīng)的字幕腳本;字幕輔助校對模塊,進(jìn)行字幕校對;以及,字幕大段對齊模塊,用于將得到的音頻和字幕腳本在時間尺度上按照一定的語言單元自動對齊,在播放影視節(jié)目時可以準(zhǔn)確地同步顯示相應(yīng)字幕。針對現(xiàn)場直播型電視節(jié)目,字幕自動加配系統(tǒng)即為實時對齊模塊,用于將事先準(zhǔn)備好的節(jié)目文稿與實時輸入的音頻流在時間軸上對齊,并且實時地顯示字幕。
文檔編號H04N5/278GK1870728SQ200510011770
公開日2006年11月29日 申請日期2005年5月23日 優(yōu)先權(quán)日2005年5月23日
發(fā)明者遲惠生, 吳璽宏, 黃松芳, 高勤, 呂春霞, 吳昊, 田 浩 申請人:北京大學(xué)