音視頻字幕生成方法及裝置的制造方法

文檔序號：9490323閱讀：1150來源：國知局

音視頻字幕生成方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及語音處理技術領域，具體涉及一種音視頻字幕生成方法及裝置。
【背景技術】
[0002] 隨著移動互聯(lián)網(wǎng)的發(fā)展和智能終端的普及，人們對物質(zhì)文化的需求越來越多樣性，如人們的閱讀習慣正從紙質(zhì)書籍向數(shù)字化媒體轉(zhuǎn)移，出現(xiàn)了與書籍相關的音視頻，人們可以通過聽有聲讀物的音頻或看相關視頻來達到閱讀的目的。字幕的出現(xiàn)，使音視頻以一種更加直觀可靠的方式幫助人們了解音視頻的內(nèi)容，越來越多的用戶習慣了添加字幕的音視頻文件，然而由于字幕的制作較復雜，尤其是使用大段的語音數(shù)據(jù)與大段的文本數(shù)據(jù)來生成字幕，甚至無法生成，從而造成如有聲小說類音視頻經(jīng)常沒有字幕，用戶只能依靠聽到的內(nèi)容進行理解，用戶體驗效果較差。
[0003] 現(xiàn)有的音視頻字幕的生成方法一般直接將大段的語音數(shù)據(jù)與大段的文本數(shù)據(jù)通過動態(tài)規(guī)劃的方法進行同步后，根據(jù)同步結(jié)果將文本數(shù)據(jù)顯示給用戶。這種方法直接使用大段的語音數(shù)據(jù)及大段文本數(shù)據(jù)進行動態(tài)規(guī)劃，由于動態(tài)規(guī)劃方法需要根據(jù)文本和語音長度構(gòu)建搜索空間，查找最優(yōu)路徑，根據(jù)最優(yōu)路徑對語音數(shù)據(jù)和文本數(shù)據(jù)進行同步；如果文本數(shù)據(jù)與語音數(shù)據(jù)的長度較長時，很難查找到最優(yōu)路徑，查找效率越低，并且查找過程對硬件的要求也較高，很難達到實用效果。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供一種音視頻字幕生成方法及裝置，以簡單高效地實現(xiàn)文本數(shù)據(jù)的顯示與語音數(shù)據(jù)的同步，使生成的字幕更完整。
[0005] 為此，本發(fā)明提供如下技術方案：
[0006] 一種音視頻字幕生成方法，包括：
[0007] 接收待生成字幕的語音數(shù)據(jù)及文本數(shù)據(jù)；
[0008] 根據(jù)發(fā)音人韻律對所述語音數(shù)據(jù)進行切分，得到符合說話人習慣的各語音數(shù)據(jù) 段；
[0009] 根據(jù)所述語音數(shù)據(jù)段對所述文本數(shù)據(jù)進行切分，得到與所述語音數(shù)據(jù)段對應的文本數(shù)據(jù)段；
[0010] 根據(jù)各語音數(shù)據(jù)段的時間信息獲取與所述語音數(shù)據(jù)段對應的文本數(shù)據(jù)段的開始時間和結(jié)束時間。
[0011] 優(yōu)選地，所述根據(jù)所述語音數(shù)據(jù)段對所述文本數(shù)據(jù)進行切分，得到與所述語音數(shù) 據(jù)段對應的文本數(shù)據(jù)段包括：
[0012] 對各語音數(shù)據(jù)段進行語音識別，得到與各語音數(shù)據(jù)段對應的識別文本段，并依序形成識別文本段序列；
[0013] 濾除所述文本數(shù)據(jù)中的特殊字符及標點，得到過濾后文本數(shù)據(jù)，并在所述過濾后文本數(shù)據(jù)中對應標點的位置設置標記點；
[0014] 采用錨點匹配方法依次匹配所述識別文本段序列中各識別文本段與所述過濾后文本數(shù)據(jù)，以確定所述過濾后文本數(shù)據(jù)中的錨點位置；
[0015] 根據(jù)確定的錨點位置對所述文本數(shù)據(jù)進行切分，得到與所述語音數(shù)據(jù)段對應的文本數(shù)據(jù)段。
[0016] 優(yōu)選地，所述采用錨點匹配方法依次匹配所述識別文本段序列中各識別文本段與所述過濾后文本數(shù)據(jù)包括：
[0017] 從所述過濾后文本數(shù)據(jù)的起始位置開始設置錨點，并獲取當前識別文本段；
[0018] 匹配過程：依次截取錨點位置至錨點位置后的標記點之間的文本作為待匹配文本段，如果當前標記點不是過濾后文本數(shù)據(jù)的結(jié)束位置，則計算待匹配文本段與當前識別文本段的匹配度，直至所述匹配度大于設定閾值后，將所述待匹配文本段對應的標記點作為新的錨點，并獲取下一個識別文本段作為當前識別文本段，繼續(xù)執(zhí)行所述匹配過程。
[0019] 優(yōu)選地，所述方法還包括：
[0020] 對各文本數(shù)據(jù)段與其對應的語音數(shù)據(jù)段進行精確同步；
[0021] 根據(jù)精確同步結(jié)果，得到各文本數(shù)據(jù)段中的各字和/或詞的時間信息。
[0022] 優(yōu)選地，所述對各文本數(shù)據(jù)段與其對應的語音數(shù)據(jù)段進行精確同步包括：
[0023] 對各文本數(shù)據(jù)段進行分詞及字音轉(zhuǎn)換，得到所述文本數(shù)據(jù)段的發(fā)音符號序列；
[0024] 將所述文本數(shù)據(jù)段的發(fā)音符號序列轉(zhuǎn)換為語法單元序列；
[0025] 將所述語法單元序列轉(zhuǎn)換為上下文標注序列；
[0026] 提取各文本數(shù)據(jù)段對應的語音數(shù)據(jù)段的頻譜特征；
[0027] 利用所述上下文標注序列及所述頻譜特征對所述文本數(shù)據(jù)段與對應的語音數(shù)據(jù) 段進行精確同步。
[0028] 優(yōu)選地，所述利用所述上下文標注序列及所述頻譜特征對所述文本數(shù)據(jù)段與對應的語音數(shù)據(jù)段進行精確同步包括：
[0029] 獲取所述上下文標注序列與每幀語音數(shù)據(jù)的聲學特征之間的最優(yōu)路徑；
[0030] 根據(jù)所述最優(yōu)路徑將所述上下文標注序列與每幀語音數(shù)據(jù)進行對齊。
[0031] 一種音視頻字幕生成裝置，包括：
[0032] 接收模塊，用于接收待生成字幕的語音數(shù)據(jù)及文本數(shù)據(jù)；
[0033] 語音數(shù)據(jù)切分模塊，用于根據(jù)發(fā)音人韻律對所述語音數(shù)據(jù)進行切分，得到符合說話人習慣的各語音數(shù)據(jù)段；
[0034] 文本數(shù)據(jù)切分模塊，用于根據(jù)所述語音數(shù)據(jù)段對所述文本數(shù)據(jù)進行切分，得到與所述語音數(shù)據(jù)段對應的文本數(shù)據(jù)段；
[0035] 第一時間信息獲取模塊，用于根據(jù)各語音數(shù)據(jù)段的時間信息獲取與所述語音數(shù)據(jù) 段對應的文本數(shù)據(jù)段的開始時間和結(jié)束時間。
[0036] 優(yōu)選地，所述文本數(shù)據(jù)切分模塊包括：
[0037] 語音識別單元，用于對各語音數(shù)據(jù)段進行語音識別，得到與各語音數(shù)據(jù)段對應的識別文本段，并依序形成識別文本段序列；
[0038] 過濾單元，用于濾除所述文本數(shù)據(jù)中的特殊字符及標點，得到過濾后文本數(shù)據(jù)，并在所述過濾后文本數(shù)據(jù)中對應標點的位置設置標記點；
[0039] 匹配單元，用于采用錨點匹配方法依次匹配所述識別文本段序列中各識別文本段與所述過濾后文本數(shù)據(jù)，以確定所述過濾后文本數(shù)據(jù)中的錨點位置；
[0040] 切分單元，用于根據(jù)確定的錨點位置對所述文本數(shù)據(jù)進行切分，得到與所述語音數(shù)據(jù)段對應的文本數(shù)據(jù)段。
[0041] 優(yōu)選地，所述匹配單元，具體用于從所述過濾后文本數(shù)據(jù)的起始位置開始設置錨點，并獲取當前識別文本段，執(zhí)行匹配過程：依次截取錨點位置至錨點位置后的標記點之間的文本作為待匹配文本段，如果當前標記點不是過濾后文本數(shù)據(jù)的結(jié)束位置，則計算待匹配文本段與當前識別文本段的匹配度，直至所述匹配度大于設定閾值后，將所述待匹配文本段對應的標記點作為新的錨點，并獲取下一個識別文本段作為當前識別文本段，繼續(xù)執(zhí) 行所述匹配過程。
[0042] 優(yōu)選地，所述裝置還包括：
[0043] 精確同步模塊，用于對各文本數(shù)據(jù)段與其對應的語音數(shù)據(jù)段進行精確同步；
[0044] 第二時間信息獲取模塊，用于根據(jù)所述精確同步模塊的精確同步結(jié)果，得到各文本數(shù)據(jù)段中的各字和/或詞的時間信息。
[0045] 優(yōu)選地，所述精確同步模塊包括：
[0046] 分詞單元，用于對各文本數(shù)據(jù)段進行分詞，得到分詞序列；
[0047] 字音轉(zhuǎn)換單元，用于對所述分詞序列進行字音轉(zhuǎn)換，得到所述文本數(shù)據(jù)段的發(fā)音符號序列；
[0048] 語法單元序列生成單元，用于將所述文本數(shù)據(jù)段的發(fā)音符號序列轉(zhuǎn)換為語法單元序列；
[0049] 上下文標注序列生成單元，用于將所述語法單元序列轉(zhuǎn)換為上下文標注序列；
[0050] 特征提取單元，用于提取各文本數(shù)據(jù)段對應的語音數(shù)據(jù)段的頻譜特征；
[0051] 精確同步單元，用于利用所述上下文標注序列及所述頻譜特征對所述文本數(shù)據(jù)段與對應的語音數(shù)據(jù)段進行精確同步。
[0052] 優(yōu)選地，所述精確同步單元包括：
[0053] 最優(yōu)路徑獲取子單元，用于獲取所述上下文標注序列與每幀語音數(shù)據(jù)的聲學特征之間的最優(yōu)路徑；
[0054] 對齊子單元，用于根據(jù)所述最優(yōu)路徑將所述上下文標注序列與每幀語音數(shù)據(jù)進行對齊。
[0055] 本發(fā)明實施例提供的音視頻字幕生成方法及裝置，結(jié)合發(fā)音韻律對待生成字幕的大段語音數(shù)據(jù)進行切分，得到多個語音數(shù)據(jù)段，然后根據(jù)各語音數(shù)據(jù)段對待生成字幕的文本數(shù)據(jù)進行切分，得到與所述語音數(shù)據(jù)段對應的文本數(shù)據(jù)段。由于切分得到的語音數(shù)據(jù)段更符合發(fā)音人的斷句習慣，從而可以使各文本數(shù)據(jù)段語義更完整，在字幕顯示時，更容易讓人理解，而且有效提高了同步效率，降低了硬件要求。
[0056] 進一步地，本發(fā)明實施例以文本數(shù)據(jù)段為單位進行文本數(shù)據(jù)段與語音數(shù)據(jù)段的精確同步，得到各文本數(shù)據(jù)段中的各字和/或詞的時間信息，從而使字幕與語音的同步更精確。
【附圖說明】
[0057] 為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例，對于本領域普通技術人員來講，還可以根據(jù)這些附圖獲得其他的附圖。
[0058]圖1是本發(fā)明實施例音視頻字幕生成方法的一種流程圖；
[0059] 圖2是本發(fā)明實施例中采用錨點匹配方法對識別文本段與

完整全部詳細技術資料下載

當前第1頁1 2 3 4