欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種字幕對準方法及裝置與流程

文檔序號:12598532閱讀:438來源:國知局
一種字幕對準方法及裝置與流程

本發(fā)明屬于計算機技術領域,尤其涉及一種字幕對準方法及裝置。



背景技術:

多媒體中使用的媒體包括文字、圖片、音頻(包含音樂、語音旁白、特殊音效)、視頻(動畫和影片等),在多媒體制作過程中,可在如圖片、音頻、視頻等播放界面添加字幕,使得在多媒體播放時顯示字幕。傳統(tǒng)方式使用手拍字幕,通過手動方式確定字幕在時間軸上的起止位置,時間軸上標識句的起止位置,如100句則需要手動輸入200次,效率低下,無法適應高精度要求的字幕顯示。現有技術中使用軟件確定字幕在時間軸上起止位置,但是以句切分,且在出現有多人語音時,無法進一步精確對準字幕,出現將多人語音按噪音處理的現象,字幕校準的精準度低。



技術實現要素:

本發(fā)明的目的在于提供一種字幕校準方法及裝置,旨在解決由于現有技術中使用軟件校準以句切分,無法進一步精確對準字幕,導致字幕校準精度低的問題。

一方面,本發(fā)明提供了一種字幕校準方法,所述方法包括下述步驟:

獲取音視頻數據和初始字幕數據;

對所述音視頻數據進行語音識別,確定音色對應的語音區(qū)間,根據所述語音區(qū)間生成帶時間軸的第一字幕,并對所述音視頻數據進行語音轉換得到轉換文本信息;

依據所述初始字幕數據和/或所述轉換文本信息對所述帶時間軸的第一字幕進行校準,依據所述校準結果生成帶時間軸的第二字幕。

另一方面,本發(fā)明提供了一種字幕校準裝置,所述裝置包括:

獲取模塊,用于獲取音視頻數據和初始字幕數據;

識別模塊,用于對所述獲取模塊獲取的音視頻數據進行語音識別,確定音色對應的語音區(qū)間,根據所述語音區(qū)間生成帶時間軸的第一字幕,并對所述音視頻數據進行語音轉換得到轉換文本信息;

校準模塊,用于依據所述獲取模塊獲取的初始字幕數據和/或所述識別模塊得到的轉換文本信息對所述帶時間軸的第一字幕進行校準,依據所述校準結果生成帶時間軸的第二字幕。

在本發(fā)明實施例中,可獲取音視頻數據和初始字幕數據,對音視頻數據進行語音識別,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息,依據初始字幕數據和/或轉換文本信息對帶時間軸的第一字幕進行校準,依據校準結果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數據,可字幕自動對位生成時間軸,并根據語音識別進行再次校準,可對不同音色的語音進行校準,大大提高了字幕校準的精準度。

附圖說明

圖1是本發(fā)明實施例一提供的字幕對準方法的實現流程圖;

圖2是本發(fā)明實施例二提供的字幕對準方法的實現流程圖;

圖3是本發(fā)明實施例三提供的字幕對準方法的實現流程圖;

圖4是本發(fā)明實施例四提供的字幕對準方法的示意圖;

圖5是本發(fā)明實施例五提供的字幕對準裝置的結構圖。

具體實施方式

為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

本發(fā)明實施例中的字幕校準方法可應用于計算機領域中的多媒體字幕制作,在多媒體制作過程中,如可在圖片、音頻、視頻的播放界面添加字幕,使得在多媒體播放時顯示字幕。本發(fā)明實施例實現對音視頻數據,字幕自動對位生成時間軸,并根據語音識別進行再次校準,可對不同音色的語音進行校準,大大提高了字幕校準的精準度。本發(fā)明實施例中的裝置可運行于計算機終端設備中,如用于制作字幕的電腦、服務器等,本發(fā)明實施例中的字幕校準例如電子書制作中的字幕校準、視頻制作中的字幕校準、電子教輔制作中的字幕校準等,還可以包括語音制作中的字幕校準等,具體不受本發(fā)明實施例的限制。

以下結合具體實施例對本發(fā)明的具體實現進行詳細描述:

實施例一:

圖1示出了本發(fā)明實施例一提供的字幕校準方法的實現流程,為了便于說明,僅示出了與本發(fā)明實施例相關的部分,詳述如下:

S101,獲取音視頻數據和初始字幕數據。

作為一種可選的實施方式,獲取音視頻數據和該音視頻數據對應的初始字幕數據,其中,音視頻數據可以包括音頻數據,視頻數據,初始字幕數據可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。

S102,對音視頻數據進行語音識別,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息。

作為一種可選的實施方式,對音視頻數據進行語音識別,確定音色對應的語音區(qū)間。具體實現中可計算音視頻數據的能量和過零率,由計算結果確定所述語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。進一步的,短時過零率為單位時間內過零發(fā)生的次數,設為Zn,為避免虛假的過零,提高過零率計算的魯棒性,引入門限|T|,則Zn為:

短時能量:

獲取到預設的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,計算音視頻數據的短時能量和短時過零率,并判斷計算結果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。

進一步的,還可識別音色,進而確定不同音色的語音區(qū)間。具體實現中,識別音視頻數據中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,帶時間軸的第一字幕包括音色標識對應的字幕。

進一步可選的,對包含多重字幕的情況,通過本發(fā)明實施例中對音色進行識別,可將不同音色對應不同字幕,生成多個帶時間軸的字幕。

進一步實現中,可根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息。確定不同音色對應的語音區(qū)間后,由語音區(qū)間生成帶時間軸的第一字幕。進一步的,對音視頻數據進行語音轉換,與語音庫中的文本進行匹配,將音視頻數據中的語音轉換為文本信息。

S103,依據初始字幕數據和/或轉換文本信息對帶時間軸的第一字幕進行校準,依據校準結果生成帶時間軸的第二字幕。

作為一種可選的實施方式,依據初始字幕數據和/或轉換文本信息對帶時間軸的第一字幕進行校準,依據校準結果生成帶時間軸的第二字幕。具體實現中,包括:

將初始字幕數據與帶時間軸的第一字幕進行語音區(qū)間的校準;和/或

將初始字幕數據與轉換文本信息比對,依據比對結果與帶時間軸的第一字幕進行字與字的校準。

具體實現中,可實現對音色的語音區(qū)間的校準,還可實現對語音區(qū)間的字與字的校準,還可實現音色的語音區(qū)間以及語音區(qū)間的字與字的校準,具體不受本發(fā)明實施例的限制。

進一步的,將初始字幕數據與步驟S102中得到的帶時間軸的第一字幕進行比較,主要是語音區(qū)間的校準。具體實現中,播放帶時間軸的第一字幕,對第一字幕進行復讀,依據復讀的語音波形進行第一字幕與初始字幕數據的校對。

更進一步的,還可以將初始字幕數據與轉換文本信息進行比對,依據比對結果對帶時間軸的第一字幕進行字與字的校準,具體實現中,可先模糊匹配語音區(qū)間的字數、關鍵字、相近字、相似詞等,在匹配出現不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設模糊搜索范圍,設為局部搜索,如可設為在當前一句話的前后某個停頓或時間值。

在匹配準確率低于預設準確率時,則對再次進行語音識別和校準,直到滿足預設準確率時,輸出帶時間軸的第二字幕,最為該音視頻數據的最終匹配字幕。其中,預設準確率如可設為90%、95%等。

進一步可選的,在步驟S103之后,本發(fā)明實施例提供的字幕校準方法還可以包括步驟:

在接收到對帶時間軸的第二字幕的修改反饋信息時,標識修改反饋對應的語音區(qū)間,并進行自修正。

具體實現中,生成的帶時間軸的第二字幕在使用過程中,在檢測到不準確的字幕校準時,可點擊該不準確之處,并觸發(fā)修改反饋,系統(tǒng)接收到對帶時間軸的第二字幕的修改反饋信息后,標識該修改反饋對應的語音區(qū)間,并進行自修正,具體的,再次對該區(qū)間的語音進行語音識別,進行字與字的校準,修正后更新帶時間軸的第二字幕。使得本發(fā)明實施例的字幕校準方法具備自學習功能。

本發(fā)明實施例提供一種字幕校準方法,可獲取音視頻數據和初始字幕數據,對音視頻數據進行語音識別,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息,依據初始字幕數據和/或轉換文本信息對帶時間軸的第一字幕進行校準,依據校準結果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數據,字幕自動對位生成時間軸,并根據語音識別進行再次校準,可對不同音色的語音進行校準,適用于至少一種音色的語音的字幕校準,適用于至少一重字幕的校準,還可對字幕校準進行自修正,大大提高了字幕校準的精準度和適用范圍。

實施例二:

圖2示出了本發(fā)明實施例二提供的字幕校準方法的實現流程圖,為根據音色進行語音區(qū)間的校準的流程示意圖,包括步驟S201~S205,詳述如下:

S201,輸入音視頻數據和初始字幕數據。

作為一種可選的實施方式,輸入音視頻數據和該音視頻數據對應的初始字幕數據,其中,音視頻數據可以包括音頻數據,視頻數據,初始字幕數據可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。

S202,計算音視頻數據的能量和過零率,由計算結果確定語音區(qū)間。

作為一種可選的實施方式,可計算音視頻數據的能量和過零率,由計算結果確定所述語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。獲取到預設的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,計算音視頻數據的短時能量和短時過零率,并判斷計算結果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。

S203,識別音視頻數據中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕。

作為一種可選的實施方式,對音視頻數據進行語音識別,識別不同的音色,并對不同音色進行標識,進而識別音視頻數據中包含的音色標識,并識別該音色標識對應的語音區(qū)間,生成該音色標識對應的字幕,生成的字幕帶時間軸。

S204,將初始字幕數據與音色標識對應的字幕進行語音區(qū)間的校準,依據校準結果生成帶時間軸的第二字幕。

作為一種可選的實施方式,將初始字幕數據與步驟S203中生成的音色標識對應的字幕進行比較,主要是語音區(qū)間的校準。具體實現中,播放帶時間軸的音色標識對應的字幕,對字幕進行復讀,依據復讀的語音波形進行字幕與初始字幕數據的校對。進一步的,對應包含多個音色標識的字幕,則初始字幕數據中對應多個字幕,在進行校準時,依據語音區(qū)間每個音色出現的先后順序匹配音色標識對應初始字幕數據中具體的字幕。進一步的,依據校準結果生成帶時間軸的第二字幕,第二字幕為已進行音色標識和語音區(qū)間校準的帶時間軸的字幕。

S205,對音視頻數據進行語音轉換得到轉換文本信息,依據轉換文本信息對帶時間軸的第二字幕校準,依據校準結果更新第二字幕的時間軸。

作為一種可選的實施方式,在步驟S204中已生成完成音色標識對應的語音區(qū)間的校準的第二字幕,本步驟中,繼續(xù)對第二字幕進行校準,具體的,對音視頻數據進行語音轉換得到轉換文本信息,可先模糊匹配語音區(qū)間的字數、關鍵字、相近字、相似詞等,在匹配出現不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設模糊搜索范圍,設為局部搜索,如可設為在當前一句話的前后某個停頓或時間值。

在匹配準確率低于預設準確率時,則對再次進行語音識別和校準,直到滿足預設準確率時,依據校準結果更新帶時間軸的第二字幕,得到該音視頻數據的最終匹配字幕。其中,預設準確率如可設為90%、95%等。

本發(fā)明實施例提供一種字幕校準方法,輸入音視頻數據和初始字幕數據,計算音視頻數據的能量和過零率,由計算結果確定語音區(qū)間,識別音視頻數據中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,將初始字幕數據與音色標識對應的字幕進行語音區(qū)間的校準,依據校準結果生成帶時間軸的第二字幕,對音視頻數據進行語音轉換得到轉換文本信息,依據轉換文本信息對帶時間軸的第二字幕校準,依據校準結果更新第二字幕的時間軸。通過本發(fā)明實施例,對音視頻數據,可字幕自動對位生成時間軸,并根據語音識別進行再次校準,可對不同音色的語音進行校準,適用于至少一種音色的語音的字幕校準,適用于至少一重字幕的校準,還可對字幕校準結果再次進行語音識別模糊匹配,進一步進行自修正,大大提高了字幕校準的精準度和適用范圍。

實施例三:

圖3示出了本發(fā)明實施例三提供的字幕校準方法的實現流程圖,為根據語音識別對音視頻的字幕進行字與字的校準的流程示意圖,包括步驟S301~S304,詳述如下:

S301,輸入音視頻數據和初始字幕數據。

作為一種可選的實施方式,輸入音視頻數據和該音視頻數據對應的初始字幕數據,其中,音視頻數據可以包括音頻數據,視頻數據,初始字幕數據可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。

S302,計算音視頻數據的能量和過零率,由計算結果確定語音區(qū)間。

作為一種可選的實施方式,可計算音視頻數據的能量和過零率,由計算結果確定語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。獲取到預設的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,計算音視頻數據的短時能量和短時過零率,并判斷計算結果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。

S303,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息。

作為一種可選的實施方式,對音視頻數據進行語音識別,識別不同的音色,并對不同音色進行標識,進而識別音視頻數據中包含的音色標識,并識別該音色標識對應的語音區(qū)間,生成該音色標識對應的字幕,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕。

進一步實現中,可對音視頻數據進行語音轉換得到轉換文本信息。對音視頻數據進行語音轉換,與語音庫中的文本進行匹配,將音視頻數據中的語音轉換為文本信息,得到該音視頻數據對應的轉換文本信息。

S304,將初始字幕數據與轉換文本信息比對,依據比對結果與帶時間軸的第一字幕進行字與字的校準,依據校準結果生成帶時間軸的第二字幕。

作為一種可選的實施方式,可將初始字幕數據與轉換文本信息進行比對,依據比對結果對帶時間軸的第一字幕進行字與字的校準,具體實現中,可先模糊匹配語音區(qū)間的字數、關鍵字、相近字、相似詞等,再匹配出現不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設模糊搜索范圍,設為局部搜索,如可設為在當前一句話的前后某個停頓或時間值。

在匹配準確率低于預設準確率時,則對再次進行語音識別和校準,直到滿足預設準確率時,輸出帶時間軸的第二字幕,最為該音視頻數據的最終匹配字幕。其中,預設準確率如可設為90%、95%等。

本發(fā)明實施例提供一種字幕校準方法,輸入音視頻數據和初始字幕數據,計算音視頻數據的能量和過零率,由計算結果確定語音區(qū)間,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息,將初始字幕數據與轉換文本信息比對,依據比對結果與帶時間軸的第一字幕進行字與字的校準,依據校準結果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數據,可字幕自動對位生成時間軸,可對不同音色的語音進行校準,并根據語音識別進行再次校準,實現字與字的校準,大大提高了字幕校準的精準度和適用范圍。

實施例四:

圖4示出了本發(fā)明實施例四提供的字幕校準方法的示意流程圖,包括步驟S401~S410,如下:

S401,導入音視頻文件。

S402,導入字幕文稿。

S403,對音視頻文件進行語音識別。

S404,判斷是否使用字幕文稿斷句模式。

S405,解析語音間隔長度。

S406,生成帶時間軸的字幕文件。

S407,根據文檔斷句生成帶時間軸的字幕文件。

S408,將字幕文件與字幕文稿進行內容比對合并。

S409,再次校準。

S410,生成最終字幕。

具體實現中,可導入音視頻文件和字幕文稿,并對音視頻文件進行語音識別。判斷是否使用文稿斷句模式,若判斷結果為是,則根據文檔斷句生成帶時間軸的字幕文件,具體的,即依據語音識別解析到語音區(qū)間以及根據文稿斷句生成帶時間軸的字幕文件,具體語音識別實現方式參見實施例一,在此不重復。若判斷結果為否,則解析語音間隔長度,生成帶時間軸的字幕文件,即識別音色對應的語音區(qū)間,并生成音色對應的帶時間軸的第一字幕。進一步的,將兩種方式得到的字幕文稿進行比對合并,再進行校準,此時校準可人工進行,或再次語音識別進行自修正,或根據意見反饋進行自修正,進而生成最終字幕,最終字幕帶時間軸。具體實施細節(jié)可參見實施例一,在此不重復。

本發(fā)明實施例提供一種字幕校準方法,可根據是否使用字幕文稿斷句模式進行字幕校準,同時可結合使用字幕文稿和不使用字幕文稿兩種情況生成的字幕文件進行比對合并,并再次進行校準,最后輸出帶時間軸的最終字幕,可大大提高字幕校準的準確率。

實施例五:

圖5示出了本發(fā)明實施例五提供的字幕校準裝置的結構圖,為了便于說明,僅示出了與本發(fā)明實施例相關的部分,其中,本發(fā)明實施例提供的裝置可包括:獲取模塊51,識別模塊52以及校準模塊53。

獲取模塊51,用于獲取音視頻數據和初始字幕數據。

作為一種可選的實施方式,獲取模塊51獲取音視頻數據和該音視頻數據對應的初始字幕數據,其中,音視頻數據可以包括音頻數據,視頻數據,初始字幕數據可以為原始的字幕底稿,包含字幕文字,進一步的,可包含文字和標點等。

識別模塊52,用于對獲取模塊51獲取的音視頻數據進行語音識別,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息。

作為一種可選的實施方式,對音視頻數據進行語音識別,確定音色對應的語音區(qū)間。進一步可選的,識別模塊52還可以包括:區(qū)間計算單元521。

區(qū)間計算單元521,用于計算音視頻數據的能量和過零率,由計算結果確定語音區(qū)間;其中,語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。

進一步的,短時過零率為單位時間內過零發(fā)生的次數,為避免虛假的過零,提高過零率計算的魯棒性,引入門限。區(qū)間計算單元521獲取到預設的能量閾值和過零率閾值,其中,能量閾值包括最低能量閾值和最高能量閾值,區(qū)間計算單元521計算音視頻數據的短時能量和短時過零率,并判斷計算結果是否大于最低能量閾值或大于過零率閾值,若是,則確認是語音信號的起始點,若計算結果大于最高能量閾值,則確認為正常的語音信號,若該語音信號持續(xù)一段時間,則確認落入有聲區(qū)間。

進一步可選的,識別模塊52還可以包括:音色識別單元522。

音色識別單元522,用于識別音視頻數據中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,帶時間軸的第一字幕包括音色標識對應的字幕。

具體實現中,音色識別單元522可識別音色,進而確定不同音色的語音區(qū)間。具體的,識別音視頻數據中包含的音色標識以及音色標識對應的語音區(qū)間,生成音色標識對應的字幕,帶時間軸的第一字幕包括音色標識對應的字幕。

對包含多重字幕的情況,通過本發(fā)明實施例中對音色進行識別,可將不同音色對應不同字幕,生成多個帶時間軸的字幕。

進一步實現中,識別模塊52可根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息。確定不同音色對應的語音區(qū)間后,由語音區(qū)間生成帶時間軸的第一字幕。進一步的,對音視頻數據進行語音轉換,與語音庫中的文本進行匹配,將音視頻數據中的語音轉換為文本信息。

校準模塊53,用于依據獲取模塊51獲取的初始字幕數據和/或識別模塊52得到的轉換文本信息對帶時間軸的第一字幕進行校準,依據校準結果生成帶時間軸的第二字幕。

作為一種可選的實施方式,校準模塊53可以包括:區(qū)間校準單元531和/或字字校準單元532;

區(qū)間校準單元531,用于將初始字幕數據與帶時間軸的第一字幕進行語音區(qū)間的校準;

字字校準單元532,用于將初始字幕數據與轉換文本信息比對,比對結果與帶時間軸的第一字幕進行字與字的校準。

具體實現中,校準模塊53可實現對音色的語音區(qū)間的校準,還可實現對語音區(qū)間的字與字的校準,還可實現音色的語音區(qū)間以及語音區(qū)間的字與字的校準,具體不受本發(fā)明實施例的限制。

進一步的,區(qū)間校準單元531將初始字幕數據與帶時間軸的第一字幕進行比較,主要是語音區(qū)間的校準。具體實現中,播放帶時間軸的第一字幕,對第一字幕進行復讀,依據復讀的語音波形進行第一字幕與初始字幕數據的校對。

更進一步的,字字校準單元532將初始字幕數據與轉換文本信息進行比對,依據比對結果對帶時間軸的第一字幕進行字與字的校準,具體實現中,可先模糊匹配語音區(qū)間的字數、關鍵字、相近字、相似詞等,在匹配出現不一致時再次對該語音區(qū)間的進行語音識別,然后再一次進行字與字的匹配和校準。進一步,可預設模糊搜索范圍,設為局部搜索,如可設為在當前一句話的前后某個停頓或時間值。

在匹配準確率低于預設準確率時,則對再次進行語音識別和校準,直到滿足預設準確率時,輸出帶時間軸的第二字幕,得到該音視頻數據的最終匹配字幕。其中,預設準確率如可設為90%、95%等。

進一步可選的,本發(fā)明實施例提供的字幕校準裝置還可以包括:自修正模塊54。

自修正模塊54,用于在接收到對帶時間軸的第二字幕的修改反饋信息時,標識修改反饋對應的語音區(qū)間,并進行自修正。

具體實現中,生成的帶時間軸的第二字幕在使用過程中,在檢測到不準確的字幕校準時,可選中字幕中的不準確之處,并觸發(fā)修改反饋,系統(tǒng)接收到對帶時間軸的第二字幕的修改反饋信息后,標識該修改反饋對應的語音區(qū)間,并進行自修正,具體的,再次對該區(qū)間的語音進行語音識別,進行字與字的校準,修正后更新帶時間軸的第二字幕。使得本發(fā)明實施例的字幕校準方法具備自學習功能。

本發(fā)明實施例提供一種字幕校準裝置,獲取模塊可獲取音視頻數據和初始字幕數據,識別模塊可對音視頻數據進行語音識別,確定音色對應的語音區(qū)間,根據語音區(qū)間生成帶時間軸的第一字幕,并對音視頻數據進行語音轉換得到轉換文本信息,校準模塊可依據初始字幕數據和/或轉換文本信息對帶時間軸的第一字幕進行校準,依據校準結果生成帶時間軸的第二字幕。通過本發(fā)明實施例,對音視頻數據,字幕自動對位生成時間軸,并根據語音識別進行再次校準,可對不同音色的語音進行校準,適用于至少一種音色的語音的字幕校準,適用于至少一重字幕的校準,還可對字幕校準進行自修正,大大提高了字幕校準的精準度和適用范圍。

本發(fā)明實施例還公開了一種終端設備,用于運行圖5所示的裝置,該裝置的結構和功能可參見圖5所示實施例的相關描述,在此不再贅述。在終端設備本端進行初始字幕數據、音視頻數據的輸入、音視頻數據的處理和存儲、字幕校準的處理。需要說明的是,本實施例提供的終端設備與圖1~圖4所示的字幕校準方法相對應,為基于圖1~圖4所示的字幕校準方法的執(zhí)行主體。本發(fā)明實施例中終端設備具體如用于制作字幕的電腦、服務器等。

在本發(fā)明實施例中,字幕校準裝置的各模塊、單元可由相應的硬件或軟件單元實現,可以為獨立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本發(fā)明。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平顺县| 淄博市| 镇安县| 桓仁| 安仁县| 西充县| 封开县| 高台县| 蓝山县| 古交市| 临泉县| 华容县| 沁水县| 河北区| 阿瓦提县| 东海县| 咸阳市| 伽师县| 京山县| 化德县| 临高县| 大安市| 九龙城区| 赣榆县| 建平县| 邵阳市| 祁阳县| 鄱阳县| 阜宁县| 青岛市| 大安市| 小金县| 循化| 镇平县| 讷河市| 璧山县| 灵宝市| 改则县| 布尔津县| 西城区| 会同县|