本公開涉及文本生成,尤其涉及一種字幕生成方法、展示方法、電子設備及存儲介質。
背景技術:
1、大部分多媒體資源都會提供字幕。字幕可能是外掛形式,也可能內嵌在多媒體資源的視頻幀中。外掛形式展示的字幕可以單獨關閉和隱藏,也可以調節(jié)字體、字號等屬性。然而,內嵌字幕在多媒體資源播放時無法被單獨關閉和隱藏,也無法對字幕的字體、字號等屬性進行調節(jié)。
2、老年用戶的視力下降,對于內嵌字幕的識別能力降低,如果播放多媒體資源時仍展示內嵌字幕,可能會降低老年用戶的觀看體驗?;诖耍绾翁嵘夏暧脩魧τ诎▋惹蹲帜坏亩嗝襟w資源的觀看體驗,成為本領域的研究熱點。
技術實現(xiàn)思路
1、有鑒于此,本公開提出了一種字幕生成方法、展示方法、電子設備及存儲介質。本公開的字幕生成方法可以根據多媒體資源的視頻幀自動生成字幕文件,該字幕文件可以生成以外掛形式展示的待展示字幕,并使得待展示字幕的字號大于內嵌字幕,優(yōu)化老年用戶的觀看體驗。
2、根據本公開的一方面,提供了一種字幕生成方法,所述方法用于為支持長輩專屬字幕模式的多媒體資源生成字幕文件,所述方法包括:使用檢測模型對所述多媒體資源的視頻幀進行檢測,確定包括內嵌字幕的視頻幀;根據包括內嵌字幕的視頻幀的時間戳,確定所述多媒體資源的多個字幕展示時間段,每個字幕展示時間段內的每個視頻幀都包括內嵌字幕;使用第一識別模型對每個字幕展示時間段內的視頻幀進行識別,根據識別結果確定該字幕展示時間段對應的待展示字幕文本;根據所述多個字幕展示時間段對應的待展示字幕文本,得到所述多媒體資源的字幕文件,以所述長輩專屬字幕模式播放所述多媒體資源時,所述字幕文件用于生成以外掛字幕形式展示的待展示字幕,所述待展示字幕的字號大于所述內嵌字幕的字號。
3、在一種可能的實現(xiàn)方式中,所述使用檢測模型對所述多媒體資源的視頻幀進行檢測,確定包括內嵌字幕的視頻幀,包括:使用所述檢測模型對所述多媒體資源的視頻幀中位于文本框檢測區(qū)域內的圖像進行檢測,確定包括內嵌字幕的視頻幀,并針對包括內嵌字幕的每一視頻幀,確定至少一個文本框;根據所述多媒體資源的內嵌字幕展示區(qū)域與視頻幀的第一參考邊的最大距離、最小距離,確定有效文本框的中心點與所述第一參考邊的參考距離,以及有效文本框的參考高度;針對確定的每個文本框,根據該文本框的坐標,計算該文本框的中心點與所述第一參考邊的實際距離和所述參考距離的第一差值,以及所述參考高度與該文本框的高度的第二差值;在任意一個文本框對應的第一差值的絕對值大于第一閾值或者任意一個文本框對應的第二差值大于第二閾值時,將該文本框去除。
4、在一種可能的實現(xiàn)方式中,所述第一識別模型支持逐幀識別模式,所述第一識別模型包括多個參數不同的子模型,在所述逐幀識別模式下,所述使用第一識別模型對每個字幕展示時間段內的視頻幀進行識別,包括:針對每個字幕展示時間段內的每一視頻幀,分別使用多個子模型對該視頻幀對應的至少一個文本框進行識別,每個子模型對于每個文本框的識別結果包括該文本框對應的初始字幕文本;針對每個子模型,合并該子模型對于任意一個視頻幀對應的文本框的識別結果,作為該子模型對于該視頻幀的識別結果,該視頻幀對應的識別結果包括每個子模型對于該視頻幀的識別結果。
5、在一種可能的實現(xiàn)方式中,所述根據識別結果確定該字幕展示時間段對應的待展示字幕文本,包括:從所述多個子模型中選擇一個子模型;在選出的子模型對于任意一個字幕展示時間段內的任意兩個視頻幀的識別結果的相似度小于第三閾值時,將該字幕展示時間段分割為多個字幕展示時間段,使選出的子模型對于每個字幕展示時間段內的每兩個視頻幀的識別結果的相似度大于或等于第三閾值;在選出的子模型對于任意一個字幕展示時間段內的每兩個視頻幀的識別結果的相似度均大于或等于第三閾值時,從各子模型對于該字幕展示時間段內的視頻幀的所有識別結果的交集中,找出出現(xiàn)次數最大的識別結果,根據所述出現(xiàn)次數最大的識別結果確定該字幕展示時間段對應的待展示字幕文本。
6、在一種可能的實現(xiàn)方式中,所述第一識別模型支持采樣識別模式,所述第一識別模型包括多個參數不同的子模型,在所述多媒體資源的每個字幕展示時間段內的各視頻幀包括相同的內嵌字幕時,在所述采樣識別模式下,所述使用第一識別模型對每個字幕展示時間段內的視頻幀進行識別,包括:從每個字幕展示時間段內選擇至少一個視頻幀,針對從任意一個字幕展示時間段內選擇的每一視頻幀,分別使用多個子模型對該視頻幀對應的至少一個文本框的圖像進行識別,每個子模型對于每個文本框的識別結果包括該文本框對應的初始字幕文本;針對每個子模型,合并該子模型對于任意一個視頻幀對應的文本框的識別結果,作為該子模型對于該視頻幀的識別結果,該視頻幀對應的識別結果包括每個子模型對于該視頻幀的識別結果。
7、在一種可能的實現(xiàn)方式中,所述根據識別結果確定該字幕展示時間段對應的待展示字幕文本,包括:從各子模型對于該字幕展示時間段內的視頻幀的所有識別結果的交集中,找出出現(xiàn)次數最大的識別結果,根據所述出現(xiàn)次數最大的識別結果確定該字幕展示時間段對應的待展示字幕文本。
8、在一種可能的實現(xiàn)方式中,所述方法還包括:各子模型對于任意一個字幕展示時間段內的視頻幀的所有識別結果沒有交集時,擴大所述文本框檢測區(qū)域,重新執(zhí)行針對包括內嵌字幕的每一視頻幀,確定至少一個文本框及之后的步驟。
9、在一種可能的實現(xiàn)方式中,所述方法還包括:各子模型對于任意一個字幕展示時間段內的視頻幀的所有識別結果沒有交集時,使用第二識別模型對所述多媒體資源在該字幕展示時間段的音頻進行語音識別,得到該字幕展示時間段對應的語音識別字幕文本;所述語音識別字幕文本與任意一個子模型對于該字幕展示時間段內的視頻幀的所有識別結果有交集時,根據所述語音識別字幕文本確定該字幕展示時間段對應的待展示字幕文本。
10、在一種可能的實現(xiàn)方式中,所述針對每個子模型,合并該子模型對于任意一個視頻幀對應的文本框的識別結果,作為該子模型對于該視頻幀的識別結果,包括:針對對應于多個文本框的任意一個視頻幀,合并任意一個子模型對于該視頻幀對應的多個文本框的識別結果時,在相鄰文本框對應的識別結果中間增加空格。
11、在一種可能的實現(xiàn)方式中,子模型對于視頻幀的識別結果還包括空格,所述方法還包括:在任意一個子模型對于任意一個視頻幀的識別結果包括空格時,根據該空格的位置,判斷該視頻幀所屬的字幕展示時間段對應的待展示字幕文本中的相同位置處是否存在空格;未存在空格時,在該相同位置處增加空格。
12、在一種可能的實現(xiàn)方式中,所述方法還包括:相鄰字幕展示時間段對應的待展示字幕文本相同且時間間隔未超出第四閾值時,將該相鄰字幕展示時間段合并為一個字幕展示時間段,將該相鄰字幕展示時間段對應的待展示字幕文本作為合并后的字幕展示時間段對應的待展示字幕文本;以外掛字幕形式展示所述待展示字幕時,每個字幕展示時間段對應的待展示字幕文本在該字幕展示時間段內展示。
13、根據本公開的另一方面,提供了一種字幕生成裝置,所述裝置用于為支持長輩專屬字幕模式的多媒體資源生成字幕文件,所述裝置包括:檢測模塊,用于使用檢測模型對所述多媒體資源的視頻幀進行檢測,確定包括內嵌字幕的視頻幀;第一確定模塊,用于根據包括內嵌字幕的視頻幀的時間戳,確定所述多媒體資源的多個字幕展示時間段,每個字幕展示時間段內的每個視頻幀都包括內嵌字幕;第一識別模塊,用于使用第一識別模型對每個字幕展示時間段內的視頻幀進行識別,根據識別結果確定該字幕展示時間段對應的待展示字幕文本;第二確定模塊,用于根據所述多個字幕展示時間段對應的待展示字幕文本,得到所述多媒體資源的字幕文件,以所述長輩專屬字幕模式播放所述多媒體資源時,所述字幕文件用于生成以外掛字幕形式展示的待展示字幕,所述待展示字幕的字號大于所述內嵌字幕的字號。
14、在一種可能的實現(xiàn)方式中,所述使用檢測模型對所述多媒體資源的視頻幀進行檢測,確定包括內嵌字幕的視頻幀,包括:使用所述檢測模型對所述多媒體資源的視頻幀中位于文本框檢測區(qū)域內的圖像進行檢測,確定包括內嵌字幕的視頻幀,并針對包括內嵌字幕的每一視頻幀,確定至少一個文本框;根據所述多媒體資源的內嵌字幕展示區(qū)域與視頻幀的第一參考邊的最大距離、最小距離,確定有效文本框的中心點與所述第一參考邊的參考距離,以及有效文本框的參考高度;針對確定的每個文本框,根據該文本框的坐標,計算該文本框的中心點與所述第一參考邊的實際距離和所述參考距離的第一差值,以及所述參考高度與該文本框的高度的第二差值;在任意一個文本框對應的第一差值的絕對值大于第一閾值或者任意一個文本框對應的第二差值大于第二閾值時,將該文本框去除。
15、在一種可能的實現(xiàn)方式中,所述第一識別模型支持逐幀識別模式,所述第一識別模型包括多個參數不同的子模型,在所述逐幀識別模式下,所述使用第一識別模型對每個字幕展示時間段內的視頻幀進行識別,包括:針對每個字幕展示時間段內的每一視頻幀,分別使用多個子模型對該視頻幀對應的至少一個文本框進行識別,每個子模型對于每個文本框的識別結果包括該文本框對應的初始字幕文本;針對每個子模型,合并該子模型對于任意一個視頻幀對應的文本框的識別結果,作為該子模型對于該視頻幀的識別結果,該視頻幀對應的識別結果包括每個子模型對于該視頻幀的識別結果。
16、在一種可能的實現(xiàn)方式中,所述根據識別結果確定該字幕展示時間段對應的待展示字幕文本,包括:從所述多個子模型中選擇一個子模型;在選出的子模型對于任意一個字幕展示時間段內的任意兩個視頻幀的識別結果的相似度小于第三閾值時,將該字幕展示時間段分割為多個字幕展示時間段,使選出的子模型對于每個字幕展示時間段內的每兩個視頻幀的識別結果的相似度大于或等于第三閾值;在選出的子模型對于任意一個字幕展示時間段內的每兩個視頻幀的識別結果的相似度均大于或等于第三閾值時,從各子模型對于該字幕展示時間段內的視頻幀的所有識別結果的交集中,找出出現(xiàn)次數最大的識別結果,根據所述出現(xiàn)次數最大的識別結果確定該字幕展示時間段對應的待展示字幕文本。
17、在一種可能的實現(xiàn)方式中,所述第一識別模型支持采樣識別模式,所述第一識別模型包括多個參數不同的子模型,在所述多媒體資源的每個字幕展示時間段內的各視頻幀包括相同的內嵌字幕時,在所述采樣識別模式下,所述使用第一識別模型對每個字幕展示時間段內的視頻幀進行識別,包括:從每個字幕展示時間段內選擇至少一個視頻幀,針對從任意一個字幕展示時間段內選擇的每一視頻幀,分別使用多個子模型對該視頻幀對應的至少一個文本框的圖像進行識別,每個子模型對于每個文本框的識別結果包括該文本框對應的初始字幕文本;針對每個子模型,合并該子模型對于任意一個視頻幀對應的文本框的識別結果,作為該子模型對于該視頻幀的識別結果,該視頻幀對應的識別結果包括每個子模型對于該視頻幀的識別結果。
18、在一種可能的實現(xiàn)方式中,所述根據識別結果確定該字幕展示時間段對應的待展示字幕文本,包括:從各子模型對于該字幕展示時間段內的視頻幀的所有識別結果的交集中,找出出現(xiàn)次數最大的識別結果,根據所述出現(xiàn)次數最大的識別結果確定該字幕展示時間段對應的待展示字幕文本。
19、在一種可能的實現(xiàn)方式中,所述裝置還包括:擴大模塊,用于在各子模型對于任意一個字幕展示時間段內的視頻幀的所有識別結果沒有交集時,擴大所述文本框檢測區(qū)域,并使所述裝置包括的各模塊重新執(zhí)行針對包括內嵌字幕的每一視頻幀,確定至少一個文本框及之后的步驟。
20、在一種可能的實現(xiàn)方式中,所述裝置還包括:第二識別模塊,用于在各子模型對于任意一個字幕展示時間段內的視頻幀的所有識別結果沒有交集時,使用第二識別模型對所述多媒體資源在該字幕展示時間段的音頻進行語音識別,得到該字幕展示時間段對應的語音識別字幕文本;第三確定模塊,用于在所述語音識別字幕文本與任意一個子模型對于該字幕展示時間段內的視頻幀的所有識別結果有交集時,根據所述語音識別字幕文本確定該字幕展示時間段對應的待展示字幕文本。
21、在一種可能的實現(xiàn)方式中,所述針對每個子模型,合并該子模型對于任意一個視頻幀對應的文本框的識別結果,作為該子模型對于該視頻幀的識別結果,包括:針對對應于多個文本框的任意一個視頻幀,合并任意一個子模型對于該視頻幀對應的多個文本框的識別結果時,在相鄰文本框對應的識別結果中間增加空格。
22、在一種可能的實現(xiàn)方式中,子模型對于視頻幀的識別結果還包括空格,所述裝置還包括:判斷模塊,用于在任意一個子模型對于任意一個視頻幀的識別結果包括空格時,根據該空格的位置,判斷該視頻幀所屬的字幕展示時間段對應的待展示字幕文本中的相同位置處是否存在空格;增加模塊,用于未存在空格時,在該相同位置處增加空格。
23、在一種可能的實現(xiàn)方式中,所述裝置還包括:合并模塊,用于在相鄰字幕展示時間段對應的待展示字幕文本相同且時間間隔未超出第四閾值時,將該相鄰字幕展示時間段合并為一個字幕展示時間段,將該相鄰字幕展示時間段對應的待展示字幕文本作為合并后的字幕展示時間段對應的待展示字幕文本;以外掛字幕形式展示所述待展示字幕時,每個字幕展示時間段對應的待展示字幕文本在該字幕展示時間段內展示。
24、根據本公開的另一方面,提供了一種字幕展示方法,所述方法包括:響應于長輩專屬字幕模式被觸發(fā),獲取當前播放的包括內嵌字幕的多媒體資源的字幕文件;根據所述字幕文件渲染得到所述多媒體資源的待展示字幕,所述待展示字幕的字號大于所述多媒體資源的內嵌字幕的字號;對所述多媒體資源的每一視頻幀中與所述待展示字幕的重疊區(qū)域進行遮蔽或模糊化處理,得到待展示的視頻幀;向用戶展示所述待展示的視頻幀和所述待展示字幕,所述待展示的字幕以外掛字幕形式展示。
25、在一種可能的實現(xiàn)方式中,所述字幕文件根據以上所述的字幕生成方法生成。
26、根據本公開的另一方面,提供了一種字幕展示裝置,所述裝置包括:獲取模塊,用于響應于長輩專屬字幕模式被觸發(fā),獲取當前播放的包括內嵌字幕的多媒體資源的字幕文件;渲染模塊,用于根據所述字幕文件渲染得到所述多媒體資源的待展示字幕,所述待展示字幕的字號大于所述多媒體資源的內嵌字幕的字號;處理模塊,用于對所述多媒體資源的每一視頻幀中與所述待展示字幕的重疊區(qū)域進行遮蔽或模糊化處理,得到待展示的視頻幀;展示模塊,用于向用戶展示所述待展示的視頻幀和所述待展示字幕,所述待展示的字幕以外掛字幕形式展示。
27、在一種可能的實現(xiàn)方式中,所述字幕文件由以上所述的字幕生成裝置生成。
28、根據本公開的另一方面,提供了一種電子設備,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為在執(zhí)行所述存儲器存儲的指令時,實現(xiàn)上述方法。
29、根據本公開的另一方面,提供了一種非易失性計算機可讀存儲介質,其上存儲有計算機程序指令,其中,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)上述方法。
30、根據本公開的另一方面,提供了一種計算機程序產品,包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質,當所述計算機可讀代碼在電子設備的處理器中運行時,所述電子設備中的處理器執(zhí)行上述方法。
31、根據本公開實施例的字幕生成方法,對于支持長輩專屬字幕模式的多媒體資源,通過使用檢測模型對多媒體資源的視頻幀進行檢測,可確定包括內嵌字幕的視頻幀;根據包括內嵌字幕的視頻幀的時間戳,可確定多媒體資源的多個字幕展示時間段,每個字幕展示時間段內的每個視頻幀都包括內嵌字幕;使用第一識別模型對每個字幕展示時間段內的視頻幀進行識別,根據識別結果可確定該字幕展示時間段對應的待展示字幕文本;根據多個字幕展示時間段對應的待展示字幕文本,可得到多媒體資源的字幕文件,以長輩專屬字幕模式播放多媒體資源時,字幕文件用于生成以外掛字幕形式展示的待展示字幕,待展示字幕的字號大于內嵌字幕的字號。綜上所述,本公開的字幕生成方法可以根據多媒體資源的視頻幀自動生成字幕文件,該字幕文件可以生成以外掛形式展示的待展示字幕,并使得待展示字幕的字號大于內嵌字幕,優(yōu)化老年用戶的觀看體驗。
32、根據本公開實施例的字幕展示方法,響應于長輩專屬字幕模式被觸發(fā),獲取當前播放的包括內嵌字幕的多媒體資源的字幕文件,根據字幕文件渲染得到多媒體資源的待展示字幕,待展示字幕的字號大于多媒體資源的內嵌字幕的字號,使得待展示字幕與老年用戶的需求更為適應;對多媒體資源的每一視頻幀中與待展示字幕的重疊區(qū)域進行遮蔽或模糊化處理,得到待展示的視頻幀,向用戶展示待展示的視頻幀和待展示字幕,待展示的字幕以外掛字幕形式展示,使得待展示字幕的背景是遮蔽或模糊化處理后的圖像,提高待展示字幕的展示效果。
33、根據下面參考附圖對示例性實施例的詳細說明,本公開的其它特征及方面將變得清楚。