本發(fā)明屬于圖像處理領(lǐng)域,具體涉及一種視頻字幕實時翻譯方法。
背景技術(shù):
近年來,在自然場景圖像中的文本檢測和識別已經(jīng)成為計算機視覺、模式識別甚至文檔分析領(lǐng)域中的熱門研究主題。研究人員提出了大量的從自然場景圖像中提取文本信息的新想法和方法。然而,目前在對視頻字幕進行翻譯時,由于從圖像中提取文本信息的時間復雜度較高,因此無法實現(xiàn)視頻字幕實時翻譯。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種視頻字幕實時翻譯方法,以解決目前在對視頻字幕進行翻譯時,因從圖像中提取文本信息的時間復雜度較高而無法實現(xiàn)視頻字幕實時翻譯的問題。
根據(jù)本發(fā)明實施例的第一方面,提供一種視頻字幕實時翻譯方法,包括:
對從視頻中截取的原始圖像進行多通道提取,獲得多個單通道圖像;
基于最大穩(wěn)定極值區(qū)域mser算法,分別提取原始圖像和多個單通道圖像的mser區(qū)域;
引入局部對比度文本特征,計算各個mser區(qū)域與其背景區(qū)域之間的局部對比度,并根據(jù)各個局部對比度,確定是否將對應的mser區(qū)域濾除;
引入邊界關(guān)鍵點文本特征,確定各個mser區(qū)域的邊界關(guān)鍵點;
以所述邊界關(guān)鍵點作為分類篩選特征,對濾除后所剩各個mser區(qū)域通過訓練后的支持向量機svm進行分類篩選,獲得文本區(qū)域;
根據(jù)豎直方向上每相鄰兩個文本區(qū)域之間的距離,對各個文本區(qū)域進行文本行區(qū)分,根據(jù)同一文本行上每相鄰兩個文本區(qū)域之間的距離,對同一文本行的各個文本區(qū)域進行分類;
基于分類后的各個文本區(qū)域進行視頻字幕實時翻譯。
在一種可選的實現(xiàn)方式中,在對從視頻中截取的原始圖像進行多通道提取,獲得多個單通道圖像之前,所述方法還包括:對所述原始圖像進行包括銳化和模糊的預處理。
在另一種可選的實現(xiàn)方式中,所述對從視頻中截取的原始圖像進行多通道提取,獲得多個單通道圖像包括:對所述原始圖像和預處理后的原始圖像分別進行r、g、b、h、s、v六個通道的圖像提取,從而獲得多個單通道圖像。
在另一種可選的實現(xiàn)方式中,所述計算出各個mser區(qū)域與其背景區(qū)域之間的局部對比度,并根據(jù)各個局部對比度,確定是否將對應的mser區(qū)域濾除包括:
根據(jù)以下公式計算出各個mser區(qū)域與其背景之間的局部對比度lc:
其中,n表示對應mser區(qū)域的像素個數(shù),k表示對應背景區(qū)域的像素點個數(shù),ri、gi、bi分別表示對應mser區(qū)域所在圖像的三個通道紅、綠、藍的取值,i表示對應mser區(qū)域的第i個像素點,j表示對應背景區(qū)域的第j個像素點;
以及針對每個mser區(qū)域,若該mser區(qū)域的局部對比度小于第一預設閾值,則將該mser區(qū)域濾除。
在另一種可選的實現(xiàn)方式中,所述確定各個所述mser區(qū)域的邊界關(guān)鍵點包括:
針對每個mser區(qū)域,將該mser區(qū)域中檢測到mser像素點的灰度值設為255,其他像素點的灰度值設為0;
逐次遍歷該mser區(qū)域中的各個像素點,若該像素點的灰度值為255,其相鄰像素點中至少有一個的灰度值為0,則確定該像素點為輪廓點;
在至少獲得一個mser區(qū)域的所有輪廓點后,采用道格拉斯-普克算法對各個輪廓點進行壓縮,去除冗余點,獲得對應mser區(qū)域的邊界關(guān)鍵點。
在另一種可選的實現(xiàn)方式中,還以濾除后所剩各個mser區(qū)域的寬高比、面積周長比、凸包面積比、筆畫寬度面積比作為分類篩選特征,對濾除后所剩各個mser區(qū)域通過訓練后的svm進行分類篩選。
在另一種可選的實現(xiàn)方式中,在訓練svm的過程中,正樣本和負樣本的數(shù)量比控制在1:3,其中所述正樣本為翻譯目標語言對應的字母和阿拉伯數(shù)字,負樣本為在所述分別提取出原始圖像和多個單通道圖像的mser區(qū)域后,對提取出的mser區(qū)域進行人工識別標記的非文本區(qū)域。
在另一種可選的實現(xiàn)方式中,所述根據(jù)豎直方向上每相鄰兩個文本區(qū)域之間的距離,對各個文本區(qū)域進行文本行區(qū)分包括:
根據(jù)以下公式計算出豎直方向上每相鄰兩個文本區(qū)域之間的距離dv:
其中,b1表示豎直方向上相鄰上側(cè)文本區(qū)域的底部的y軸坐標,t2表示豎直方向上相鄰下側(cè)文本區(qū)域的頂部y軸坐標,h2表示豎直方向上相鄰下側(cè)文本區(qū)域的高度;
針對豎直方向上每相鄰兩個文本區(qū)域,若該相鄰兩個文本區(qū)域之間的距離dv大于第二預設閾值,則將該相鄰兩個文本區(qū)域歸為同一文本行,否則將該相鄰兩個文本區(qū)域歸為不同文本行。
在另一種可選的實現(xiàn)方式中,所述根據(jù)同一文本行上每相鄰兩個文本區(qū)域之間的距離,對同一文本行的各個文本區(qū)域進行分類包括:
根據(jù)以下公式計算出同一文本行的每相鄰兩個文本區(qū)域之間的距離dh:
其中,
針對同一文本行的每相鄰兩個文本區(qū)域,若該相鄰兩個文本區(qū)域之間的距離dh大于第三預設閾值,則將該相鄰兩個文本區(qū)域歸為一類,否則表示該相鄰兩個文本區(qū)域歸為不同類。
在另一種可選的實現(xiàn)方式中,在從視頻中截取原始圖像時按幀截取視頻圖片,并將截取的視頻圖像下方三分之二的區(qū)域作為所述原始圖像。
本發(fā)明的有益效果是:
1、本發(fā)明在對文本進行識別之前,首先引入多個單通道圖像,有效地利用原始圖像的顏色信息,向文本區(qū)域的提取提供更加豐富的基礎數(shù)據(jù),然后引入局部對比度,對根據(jù)原始圖像和多個單通道圖像中提取出的mser區(qū)域進行閾值過濾,可以提高文本區(qū)域提取的準確度,并且局部對比度過濾的時間復雜度為線性時間,過濾時間較短,可以為視頻字幕實時翻譯提供基礎,引入邊界關(guān)鍵點作為svm分類篩選特征,即便在圖像發(fā)生旋轉(zhuǎn)和縮放時也能排除mser區(qū)域中非文本區(qū)域干擾,從而可以提高文本區(qū)域提取對圖像旋轉(zhuǎn)和縮放的敏感度,在對mser區(qū)域執(zhí)行完基于局部對比度的閾值過濾后,對濾除所剩的mser區(qū)域通過svm分類器篩選,可以提高文本區(qū)域提取的準確度,針對訓練篩選結(jié)束后獲得的文本區(qū)域,本發(fā)明采用豎直方向文本行分類和水平方向同一文本行文本區(qū)域分類這兩層文本分類算法,大大降低了時間復雜度,提高了單詞識別的速率,為實現(xiàn)視頻字幕實時翻譯提供了基礎,由此通過本發(fā)明可以實現(xiàn)視頻字幕實時準確的翻譯;
2、本發(fā)明通過對原始圖像進行銳化預處理,可以使銳化后的原始圖像能夠增強文本區(qū)域與其周圍背景的對比度,更有利于文本檢測,本發(fā)明通過對原始圖像進行模糊預處理,可以使處于復雜背景下的文本區(qū)域更加凸顯,從而更有利于文本檢測;
3、本發(fā)明通過在訓練svm時將正樣本和負樣本的數(shù)量比控制在1:3,可以優(yōu)化篩選效果,從而進一步提高文本區(qū)域獲取的準確度;
4、本發(fā)明通過在從視頻中截取原始圖像時首先按幀截取視頻圖像,然后截取視頻圖像的部分區(qū)域作為原始圖像,可以提高識別精度,降低檢測時間。
附圖說明
圖1是本發(fā)明視頻字幕實時翻譯方法的一個實施例流程圖;
圖2是本發(fā)明拉普拉斯運算模板的一個示意圖;
圖3是邊界關(guān)鍵點示意圖;
圖4是文本行約束參數(shù)說明示意圖;
圖5是字母寬度與間隔比統(tǒng)計圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案,并使本發(fā)明實施例的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明實施例中技術(shù)方案作進一步詳細的說明。
在本發(fā)明的描述中,除非另有規(guī)定和限定,需要說明的是,術(shù)語“連接”應做廣義理解,例如,可以是機械連接或電連接,也可以是兩個元件內(nèi)部的連通,可以是直接相連,也可以通過中間媒介間接相連,對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語的具體含義。
參見圖1,為本發(fā)明視頻字幕實時翻譯方法的一個實施例流程圖。該視頻字幕實時翻譯方法可以包括:
步驟s101、對從視頻中截取的原始圖像進行多通道提取,獲得多個單通道圖像。
本實施例中,視頻資源可以分為兩種:一種是可離線播放的本地視頻,一種是需聯(lián)網(wǎng)播放的在線視頻。針對本地視頻,可以向用戶提供對應的軟件,該軟件中可以包括離線翻譯數(shù)據(jù)庫,當用戶將本地視頻與軟件建立連接后,軟件會按照本專利中方法對本地視頻中的字幕進行文本識別,在完成文本識別后,軟件會采用離線翻譯數(shù)據(jù)庫對該識別出的文本進行自動翻譯,并將翻譯結(jié)果返回傳輸給本地視頻進行顯示;針對在線視頻,可以向用戶提供對應的軟件,也可以搭建web服務器,向用戶提供web在線服務,當用戶將在線視頻與web服務器建立鏈接后,web服務器會按照本專利中方法對在線視頻中的字幕進行文本識別,在完成本文識別后,web服務器會對識別出的文本進行翻譯,并將翻譯結(jié)果返回傳輸給在線視頻進行顯示。
為了實現(xiàn)視頻的實時翻譯功能,在從視頻中截取原始圖像時可以按幀截取視頻圖像,并且為了提高識別精度,降低檢測時間,可以對截取到的視頻圖像進行區(qū)域截取,例如只截取圖像底部三分之二的區(qū)域作為原始圖像。
在從視頻中截取原始圖像后,可以首先對原始圖像進行包括銳化和模糊的預處理。在對原始圖像進行銳化預處理時可以按照公式(1)進行銳化處理:
g(x,y)=f(x,y)+c[▽2f(x,y)](1)
其中,g(x,y)和f(x,y)分別表示銳化預處理后的原始圖像和原始圖像,c的取值根據(jù)銳化所使用的模板而定,如果使用是圖2(a)或圖2(b)所示的模版,則c=-1;如果使用的是圖2(c)所示的兩種模版,則c=1。銳化后的原始圖像能夠增強文本區(qū)域與其周圍背景的對比度,更有利于文本檢測。
在對原始圖像進行模糊預處理時可以按照公式(2)對原始圖像進行高斯濾波:
其中,f(x)表示模糊預處理后的原始圖像,μ表示遵從正態(tài)分布的隨機變量的均值,σ2表示隨機變量x的方差。本發(fā)明通過對原始圖像進行模糊預處理,可以使處于復雜背景下的文本區(qū)域更加凸顯,從而更有利于文本檢測。
在原始圖像完成預處理后,可以首先對原始圖像和預處理后的原始圖像進行r(紅)、g(綠)、b(藍)、h(色調(diào))、s(飽和度)、v(亮度)六個通道的圖像提取,從而獲得多個單通道圖像。本發(fā)明通過進行多通道圖像提取,可以有效地將顏色信息利用起來,向文本區(qū)域的提取提供更加豐富的基礎數(shù)據(jù),從而使基于這些文本區(qū)域所識別翻譯出的字幕更加準確。
步驟s102、基于mser算法,分別提取原始圖像和多個單通道圖像的mser區(qū)域。
本實施例中,為了加快提取速率,本發(fā)明對mser算法中涉及到的參數(shù)做了以下設置:設定閾值的步長為5,最小的mser面積為80,最大的mser面積為14400。由于mser算法為本領(lǐng)域公知的圖像提取方法,因而在此不再對mser算法的具體提取過程做贅述。
步驟s103、引入局部對比度文本特征,計算出各個mser區(qū)域與其背景區(qū)域之間的局部對比度,并根據(jù)各個局部對比度,確定是否將對應的mser區(qū)域濾除。
本實施例中,步驟s102中提取的mser區(qū)域并非都為文本區(qū)域,經(jīng)申請人研究發(fā)現(xiàn),文本要被識別出,必須要與其背景有一定的對比度,而文本區(qū)域與其背景區(qū)域的對比度,以及非文本區(qū)域與其背景區(qū)域的對比度并不相同,且前者對比度高于后者對比度。基于該特點,本發(fā)明引入了局部對比度的特征來濾除非文本區(qū)域。首先,可以采用以下公式(3)計算出各個mser區(qū)域與其背景區(qū)域之間的局部對比度lc:
其中,n表示對應mser區(qū)域的像素個數(shù),k表示對應背景區(qū)域的像素點個數(shù),ri、gi、bi分別表示對應mser區(qū)域所在圖像的三個通道紅、綠、藍的取值,i表示對應mser區(qū)域的第i個像素點,j表示對應背景區(qū)域的第j個像素點。
然后,可以根據(jù)各個mser區(qū)域的局部對比度大小來確定是否將對應的mser區(qū)域濾除,其中針對每個mser區(qū)域,若該mser區(qū)域的局部對比度小于第一預設閾值,則將該mser區(qū)域濾除,否則不將該mser區(qū)域濾除。經(jīng)申請人研究發(fā)現(xiàn),非文本區(qū)域的局部對比度lc通常小于0.35,即該第一預設閾值可以為0.35。雖然本發(fā)明在步驟s101中對圖像進行多通道圖像提取,可以為獲得的更多文本區(qū)域提供豐富的數(shù)據(jù)基礎,但是與此同時也引入了更多的非文本區(qū)域,本發(fā)明通過采用局部對比度對mser區(qū)域進行過濾,可以排除mser區(qū)域中部分非文本區(qū)域干擾項,從而可以提高文本區(qū)域提取準確度。另外,本發(fā)明中根據(jù)局部對比度濾除非文本區(qū)域的時間復雜度為線性時間,因此過濾所需時間較短,可以為視頻字幕實時翻譯提供基礎。
步驟s104、引入邊界關(guān)鍵點文本特征,確定各個mser區(qū)域的邊界關(guān)鍵點。
本實施例中,在確定各個mser區(qū)域的邊界關(guān)鍵點時,首先,對各個mser區(qū)域進行圖像二值化,其中針對每個mser區(qū)域,將該mser區(qū)域中檢測到mser像素點的灰度值設為255,其他像素點的灰度值設為0。然后,逐次遍歷該mser區(qū)域中的各個像素點,若該像素點的灰度值為255,其相鄰像素點中至少有一個的灰度值為0,則確定該像素點為輪廓點,其中可以采用從上至下從左到右的順序逐次遍歷該mser區(qū)域內(nèi)的各個像素點,若該像素點的灰度值p(x,y)=255,且其右側(cè)相鄰像素點的灰度值p(x+1,y),左側(cè)相鄰像素點的灰度值p(x-1,y),上側(cè)相鄰像素點的灰度值p(x,y+1),下側(cè)相鄰像素點的灰度值p(x,y-1)中有一個值為0,則確定該像素點為輪廓點,其中x表示像素點的x軸坐標,y表示像素點的y軸坐標。
在至少獲得一個mser區(qū)域的所有輪廓點后,采用道格拉斯-普克算法對各個輪廓點進行壓縮,去除冗余點,獲得對應mser區(qū)域的邊界關(guān)鍵點,如圖3所示。其中,本發(fā)明可以每獲得一個mser區(qū)域的所有輪廓點后,采用道格拉斯-普克算法對各個輪廓點進行壓縮,去除冗余點,獲得該mser區(qū)域的邊界關(guān)鍵點(即去除冗余點后剩下的輪廓點);也可以每獲得預設數(shù)量個mser區(qū)域的所有輪廓點后,采用道格拉斯-普克算法對各個輪廓點進行壓縮,去除冗余點,獲得該預設數(shù)量個mser區(qū)域的邊界關(guān)鍵點;或者可以獲得所有mser區(qū)域的所有輪廓點后,采用道格拉斯-普克算法對各個輪廓點進行壓縮,去除冗余點,獲得所有mser區(qū)域的邊界關(guān)鍵點。經(jīng)申請人研究發(fā)現(xiàn),英文字母的邊界關(guān)鍵點k的個數(shù)通常在5至16個之間,即預設的數(shù)值范圍為5至16,當mser區(qū)域的邊界關(guān)鍵點的個數(shù)k小于5或者大于16時,在翻譯英文時可以確定該mser區(qū)域為非文本區(qū)域。
步驟s105、以所述邊界關(guān)鍵點作為分類篩選特征,對濾除后所剩各個mser區(qū)域通過訓練后的svm進行分類篩選,獲得文本區(qū)域。
本實施例中,在完成步驟s103中的閾值過濾后,本發(fā)明除了采用邊界關(guān)鍵點作為分類篩選特征,還選擇濾除后所剩各個mser區(qū)域的寬高比(w/h)、面積周長比
在一個區(qū)域的外輪廓像素點集合中,通過一定的順序?qū)⑵渲幸徊糠贮c連接起來,就能最大程度還原該區(qū)域,本發(fā)明中包含最少像素點的集合就是邊界關(guān)鍵點。由于即便圖像發(fā)生旋轉(zhuǎn)和縮放都不會對其邊界關(guān)鍵點造成影響,因此本發(fā)明通過引入邊界關(guān)鍵點作為分類篩選特征,即便在圖像發(fā)生旋轉(zhuǎn)和縮放時也可以排除mser區(qū)域中非文本區(qū)域干擾項,從而可以提高文本區(qū)域提取對圖像旋轉(zhuǎn)、尺寸變化等的敏感度。
步驟s106、根據(jù)豎直方向上每相鄰兩個文本區(qū)域之間的距離,對各個文本區(qū)域進行文本行區(qū)分,根據(jù)同一文本行上每相鄰兩個文本區(qū)域之間的距離,對同一文本行的各個文本區(qū)域進行分類。
本實施例中,結(jié)合圖4和圖5所示,在根據(jù)豎直方向上每相鄰兩個文本區(qū)域之間的距離,對各個文本區(qū)域進行文本行區(qū)分時,可以首先根據(jù)公式(4)計算出豎直方向上每相鄰兩個文本區(qū)域之間的距離dv:
其中,b1表示豎直方向上相鄰上側(cè)文本區(qū)域的底部的y軸坐標,t2表示豎直方向上相鄰下側(cè)文本區(qū)域的頂部y軸坐標,h2表示豎直方向上相鄰下側(cè)文本區(qū)域的高度,如圖4所示。然后,針對豎直方向上每相鄰兩個文本區(qū)域,若該相鄰兩個文本區(qū)域之間的距離dv大于第二預設閾值,則將該相鄰兩個文本區(qū)域歸為同一文本行,否則將該相鄰兩個文本區(qū)域歸為不同文本行。經(jīng)申請人研究發(fā)現(xiàn),當豎直方向上相鄰兩個文本區(qū)域之間的距離dv大于0.62時,該相鄰兩個文本區(qū)域處于同一文本行,因此該第二預設閾值可以為0.62。
另外,在根據(jù)同一文本行上每相鄰兩個文本區(qū)域之間的距離,對同一文本行的單詞進行區(qū)分時,可以首先根據(jù)公式(5)計算出同一文本行的每相鄰兩個文本區(qū)域之間的距離dh:
其中,
步驟s107、基于分類后的各個文本區(qū)域進行視頻字幕實時翻譯。
本實施例中,在獲得分類后的各個文本區(qū)域后,可以采用開源的框架tesseract進行文本識別,同時為了系統(tǒng)的統(tǒng)一管理,需要把tesseract和opencv圖像處理運行庫進行整合。在識別出文本后,可以將文本以字母串的形式傳遞到google翻譯提供的接口,獲取翻譯結(jié)果,最后顯示給用戶,從而實現(xiàn)視頻字幕實時翻譯。
由上述實施例可見,本發(fā)明在對文本進行識別之前,首先引入多個單通道圖像,有效地利用原始圖像的顏色信息,向文本區(qū)域的提取提供更加豐富的基礎數(shù)據(jù),然后引入局部對比度文本特征,對根據(jù)原始圖像和多個單通道圖像中提取出的mser區(qū)域進行閾值過濾,可以提高文本區(qū)域提取的準確度,并且局部對比度過濾的時間復雜度為線性時間,過濾時間較短,可以為視頻字幕實時翻譯提供基礎,引入邊界關(guān)鍵點作為svm分類篩選特征,即便在圖像發(fā)生旋轉(zhuǎn)和縮放時也能排除mser區(qū)域中非文本區(qū)域干擾,從而可以提高文本區(qū)域提取對圖像旋轉(zhuǎn)和縮放的敏感度,在對mser區(qū)域執(zhí)行完基于局部對比度的閾值過濾后,對濾除所剩的mser區(qū)域通過訓練好的svm分類篩選,可以提高文本區(qū)域提取的準確度,針對訓練篩選結(jié)束后獲得的文本區(qū)域,本發(fā)明采用豎直方向文本行分類和水平方向同一文本行文本區(qū)域分類這兩層文本分類算法,大大降低了時間復雜度,提高了單詞識別的速率,為實現(xiàn)視頻字幕實時翻譯提供了基礎,由此通過本發(fā)明可以實現(xiàn)視頻字幕實時準確的翻譯。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
應當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。