一種字幕對(duì)準(zhǔn)方法及裝置與流程

文檔序號(hào)：12598532閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種字幕對(duì)準(zhǔn)方法及裝置與流程

技術(shù)特征：

1.一種字幕校準(zhǔn)方法，其特征在于，所述方法包括下述步驟：

獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù)；

對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音識(shí)別，確定音色對(duì)應(yīng)的語音區(qū)間，根據(jù)所述語音區(qū)間生成帶時(shí)間軸的第一字幕，并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息；

依據(jù)所述初始字幕數(shù)據(jù)和/或所述轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn)，依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕。

2.如權(quán)利要求1所述的方法，其特征在于，所述依據(jù)所述初始字幕數(shù)據(jù)和/或轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn)，依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕，包括：

將所述初始字幕數(shù)據(jù)與所述帶時(shí)間軸的第一字幕進(jìn)行語音區(qū)間的校準(zhǔn)；和/或

將所述初始字幕數(shù)據(jù)與所述轉(zhuǎn)換文本信息比對(duì)，依據(jù)所述比對(duì)結(jié)果與所述帶時(shí)間軸的第一字幕進(jìn)行字與字的校準(zhǔn)。

3.如權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音識(shí)別，確定音色對(duì)應(yīng)的語音區(qū)間，生成帶時(shí)間軸的第一字幕，并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換，得到轉(zhuǎn)換文本信息，包括：

識(shí)別所述音視頻數(shù)據(jù)中包含的音色標(biāo)識(shí)以及所述音色標(biāo)識(shí)對(duì)應(yīng)的語音區(qū)間，生成所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕，所述帶時(shí)間軸的第一字幕包括所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕。

4.如權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音識(shí)別，確定音色對(duì)應(yīng)的語音區(qū)間，生成帶時(shí)間軸的第一字幕，并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息，包括：

計(jì)算所述音視頻數(shù)據(jù)的能量和過零率，由所述計(jì)算結(jié)果確定所述語音區(qū)間；所述語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。

5.如權(quán)利要求1所述的方法，其特征在于，所述依據(jù)所述初始字幕數(shù)據(jù)和/或所述轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn)，依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕之后，所述方法還包括：

在接收到對(duì)所述帶時(shí)間軸的第二字幕的修改反饋信息時(shí)，標(biāo)識(shí)修改反饋對(duì)應(yīng)的語音區(qū)間，并進(jìn)行自修正。

6.一種字幕校準(zhǔn)裝置，其特征在于，所述裝置包括：

獲取模塊，用于獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù)；

識(shí)別模塊，用于對(duì)所述獲取模塊獲取的音視頻數(shù)據(jù)進(jìn)行語音識(shí)別，確定音色對(duì)應(yīng)的語音區(qū)間，根據(jù)所述語音區(qū)間生成帶時(shí)間軸的第一字幕，并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息；

校準(zhǔn)模塊，用于依據(jù)所述獲取模塊獲取的初始字幕數(shù)據(jù)和/或所述識(shí)別模塊得到的轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn)，依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕。

7.如權(quán)利要求6所述的裝置，其特征在于，所述校準(zhǔn)模塊包括：區(qū)間校準(zhǔn)單元和/或字字校準(zhǔn)單元；

所述區(qū)間校準(zhǔn)單元，用于將所述初始字幕數(shù)據(jù)與所述帶時(shí)間軸的第一字幕進(jìn)行語音區(qū)間的校準(zhǔn)；

所述字字校準(zhǔn)單元，用于將所述初始字幕數(shù)據(jù)與所述轉(zhuǎn)換文本信息比對(duì)，依據(jù)所述比對(duì)結(jié)果與所述帶時(shí)間軸的第一字幕進(jìn)行字與字的校準(zhǔn)。

8.如權(quán)利要求6所述的裝置，其特征在于，所述識(shí)別模塊包括：

音色識(shí)別單元，用于識(shí)別所述音視頻數(shù)據(jù)中包含的音色標(biāo)識(shí)以及所述音色標(biāo)識(shí)對(duì)應(yīng)的語音區(qū)間，生成所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕，所述帶時(shí)間軸的第一字幕包括所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕。

9.如權(quán)利要求6所述的裝置，其特征在于，所述識(shí)別模塊包括：

區(qū)間計(jì)算單元，用于計(jì)算所述音視頻數(shù)據(jù)的能量和過零率，由所述計(jì)算結(jié)果確定所述語音區(qū)間；所述語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。

10.如權(quán)利要求6所述的裝置，其特征在于，所述裝置還包括：

自修正模塊，用于在接收到對(duì)所述帶時(shí)間軸的第二字幕的修改反饋信息時(shí)，標(biāo)識(shí)修改反饋對(duì)應(yīng)的語音區(qū)間，并進(jìn)行自修正。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)