1.一種字幕校準(zhǔn)方法,其特征在于,所述方法包括下述步驟:
獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù);
對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音識(shí)別,確定音色對(duì)應(yīng)的語音區(qū)間,根據(jù)所述語音區(qū)間生成帶時(shí)間軸的第一字幕,并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息;
依據(jù)所述初始字幕數(shù)據(jù)和/或所述轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn),依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕。
2.如權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述初始字幕數(shù)據(jù)和/或轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn),依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕,包括:
將所述初始字幕數(shù)據(jù)與所述帶時(shí)間軸的第一字幕進(jìn)行語音區(qū)間的校準(zhǔn);和/或
將所述初始字幕數(shù)據(jù)與所述轉(zhuǎn)換文本信息比對(duì),依據(jù)所述比對(duì)結(jié)果與所述帶時(shí)間軸的第一字幕進(jìn)行字與字的校準(zhǔn)。
3.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音識(shí)別,確定音色對(duì)應(yīng)的語音區(qū)間,生成帶時(shí)間軸的第一字幕,并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換,得到轉(zhuǎn)換文本信息,包括:
識(shí)別所述音視頻數(shù)據(jù)中包含的音色標(biāo)識(shí)以及所述音色標(biāo)識(shí)對(duì)應(yīng)的語音區(qū)間,生成所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕,所述帶時(shí)間軸的第一字幕包括所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕。
4.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音識(shí)別,確定音色對(duì)應(yīng)的語音區(qū)間,生成帶時(shí)間軸的第一字幕,并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息,包括:
計(jì)算所述音視頻數(shù)據(jù)的能量和過零率,由所述計(jì)算結(jié)果確定所述語音區(qū)間;所述語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。
5.如權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述初始字幕數(shù)據(jù)和/或所述轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn),依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕之后,所述方法還包括:
在接收到對(duì)所述帶時(shí)間軸的第二字幕的修改反饋信息時(shí),標(biāo)識(shí)修改反饋對(duì)應(yīng)的語音區(qū)間,并進(jìn)行自修正。
6.一種字幕校準(zhǔn)裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取音視頻數(shù)據(jù)和初始字幕數(shù)據(jù);
識(shí)別模塊,用于對(duì)所述獲取模塊獲取的音視頻數(shù)據(jù)進(jìn)行語音識(shí)別,確定音色對(duì)應(yīng)的語音區(qū)間,根據(jù)所述語音區(qū)間生成帶時(shí)間軸的第一字幕,并對(duì)所述音視頻數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換得到轉(zhuǎn)換文本信息;
校準(zhǔn)模塊,用于依據(jù)所述獲取模塊獲取的初始字幕數(shù)據(jù)和/或所述識(shí)別模塊得到的轉(zhuǎn)換文本信息對(duì)所述帶時(shí)間軸的第一字幕進(jìn)行校準(zhǔn),依據(jù)所述校準(zhǔn)結(jié)果生成帶時(shí)間軸的第二字幕。
7.如權(quán)利要求6所述的裝置,其特征在于,所述校準(zhǔn)模塊包括:區(qū)間校準(zhǔn)單元和/或字字校準(zhǔn)單元;
所述區(qū)間校準(zhǔn)單元,用于將所述初始字幕數(shù)據(jù)與所述帶時(shí)間軸的第一字幕進(jìn)行語音區(qū)間的校準(zhǔn);
所述字字校準(zhǔn)單元,用于將所述初始字幕數(shù)據(jù)與所述轉(zhuǎn)換文本信息比對(duì),依據(jù)所述比對(duì)結(jié)果與所述帶時(shí)間軸的第一字幕進(jìn)行字與字的校準(zhǔn)。
8.如權(quán)利要求6所述的裝置,其特征在于,所述識(shí)別模塊包括:
音色識(shí)別單元,用于識(shí)別所述音視頻數(shù)據(jù)中包含的音色標(biāo)識(shí)以及所述音色標(biāo)識(shí)對(duì)應(yīng)的語音區(qū)間,生成所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕,所述帶時(shí)間軸的第一字幕包括所述音色標(biāo)識(shí)對(duì)應(yīng)的字幕。
9.如權(quán)利要求6所述的裝置,其特征在于,所述識(shí)別模塊包括:
區(qū)間計(jì)算單元,用于計(jì)算所述音視頻數(shù)據(jù)的能量和過零率,由所述計(jì)算結(jié)果確定所述語音區(qū)間;所述語音區(qū)間包括有聲區(qū)間和無聲區(qū)間。
10.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:
自修正模塊,用于在接收到對(duì)所述帶時(shí)間軸的第二字幕的修改反饋信息時(shí),標(biāo)識(shí)修改反饋對(duì)應(yīng)的語音區(qū)間,并進(jìn)行自修正。