一種基于交互平臺的復(fù)雜背景中文本的快速檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機視覺和人機交互領(lǐng)域,尤其涉及一種基于交互平臺的復(fù)雜背景 中文本的快速檢測方法。
【背景技術(shù)】
[0002] 復(fù)雜背景中的文本檢測問題,在計算機視覺領(lǐng)域和人機交互領(lǐng)域都視為一個經(jīng)典 難題。原因有兩點,首先這項技術(shù)有著廣泛的應(yīng)用。比如,可以利用這項技術(shù)讓手機等智能 設(shè)備為我們讀書念報,或應(yīng)用于無人車上讓車輛自動識別路標路牌。其次,文本檢測問題有 時非常難解決的,因為文本檢測不同于人臉、車輛、行人等一般的目標檢測。文本的形狀更 加多變(往往出現(xiàn)不同程度的形變、模糊),與背景更加相似,并且計算時間復(fù)雜度很高。
[0003] 對于復(fù)雜背景的文本檢測,目前主要有三種方法:1.基于紋理的文本檢測方法。 2.基于區(qū)域的文本檢測方法。3.基于深度學(xué)習(xí)的方法。
[0004] 基于紋理的文本檢測方法,是把復(fù)雜背景中的文本視為一種特殊的紋理。通常采 用滑動窗的方法進行紋理提取,再用Gabor濾波等對光線魯棒對邊緣信息敏感的濾波器進 行圖像預(yù)處理,最后用灰度直方圖的方法統(tǒng)計圖像中的像素分布情況進而確定滑動窗中是 否有文本存在。其缺點是對背景較為復(fù)雜的圖片處理效果不好,并且由于用到了滑動窗方 法其計算效率是非常低的。
[0005] 基于區(qū)域的文本檢測方法,是人文復(fù)雜背景中的文本都是一種局部連通的特殊區(qū) 域。其基本思想是利用連通區(qū)域提取算法將圖像中的所有連通部分提取出來,然后用訓(xùn)練 分類器或制定篩選規(guī)則將文本部分與背景部分進行區(qū)分,最后再將所得到的文本進行整 合。其缺點在于過于依賴于連通區(qū)域的提取算法,但SWT或MSER這樣的連通區(qū)域算法對低 對比度圖像的提取效果是非常不理想的,從而影響整體的檢測率。
[0006] 基于深度學(xué)習(xí)的方法,是最近最流行的方法之一。其主要思想是利用海量的數(shù)據(jù) 及高性能的計算機訓(xùn)練一個多層的神經(jīng)網(wǎng)絡(luò)。這種方法為了提高訓(xùn)練效率一般要用GPU進 行加速。其缺點在于,需要海量的標注數(shù)據(jù)十分耗時耗力,并且一般對水平的文本效果較 好,但旋轉(zhuǎn)的情況準確率不高。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于交互平臺的復(fù)雜背景中文 本的快速檢測方法,解決了文本定位速度過慢的問題,可以快速的將圖片中文本定位,并有 車父強的魯棒性。
[0008] 本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種基于交互平臺的復(fù)雜背景中文 本的快速檢測方法,它包括以下步驟:
[0009] S1 :輸入圖像預(yù)處理:對輸入的圖像進行預(yù)處理操作,增強文本邊緣對比度;
[0010] S2 :文本候選區(qū)域快速定位:對步驟S1預(yù)處理后的圖像作輪廓檢測,并用矩形框 將每個閉合區(qū)域框選出來,然后通過SIFT算法快速定位每個矩形框中的所有角點,將角點 個數(shù)作為初步篩選條件進行初步篩選;
[0011] S3 :候選區(qū)域歸一化:通過歸一化算法首先將圖像調(diào)整到統(tǒng)一的大小,再通過前 向映射的方法將原圖像中的內(nèi)容投射到歸一化后的圖片的正中心,并適當?shù)男拚嵌龋?br>[0012] S4 :文本/背景篩選:首先離線的根據(jù)訓(xùn)練樣本提取具有魯棒性的特征,經(jīng)過訓(xùn)練 后的分類器篩選后的候選區(qū)域為檢測出的文本區(qū)域。
[0013] 所述的步驟S1包括以下子步驟:
[0014]S11:將輸入的圖像進行直方圖均值化,使得原始圖像的灰度直方圖從比較集中的 某個灰度區(qū)間變成在全部灰度范圍的均勻分布,公式如下:
[0016] 式中,η為圖像的像素總和,nk是當前灰度級像素的個數(shù),L是圖像中可能出現(xiàn)的 像素灰度級的總數(shù);
[0017]S12:采用圖像銳化算法對圖像進行加強:采用Kirsch算子模板對圖像上的每一 個像素點進行卷積求導(dǎo)數(shù),所述的Kirsch算子模板的數(shù)量N代表方向的數(shù)量,對圖像上的 N個特點邊緣方向做出最大響應(yīng),運算中取最大值作為圖像的邊緣輸出。
[0018] 所述的步驟S2包括以下子步驟:
[0019]S21:對步驟S1預(yù)處理后的圖像作輪廓檢測,并用矩形框?qū)⒚總€閉合區(qū)域框選出 來;
[0020] S22 :通過SIFT算法快速定位每個矩形框中的所有角點;
[0021] S23 :統(tǒng)計落在每個矩形框中的角點個數(shù),公式如下:
[0023] 式中,k代表第k個矩形框區(qū)域,w和h分別代表所述矩形框區(qū)域的寬和長,p(X,y) 代表矩形框的二值圖像,s(x,y)代表矩形框?qū)?yīng)的SIFT角點圖;
[0024]S24:用單位面積的角點個數(shù)作為初步篩選條件,公式如下:
[0026]當PRNk的值大于某個值時,認為該區(qū)域含有文本。
[0027] 所述的步驟S3包括以下子步驟:
[0028]S31:采用Moment算法求出原圖像中內(nèi)容的形心,公式如下:
[0031] 式中,X和y分別代表圖像中(X,y)像素的坐標,f(x,y)代表在(X,y)點的像素 值;P和q代表階數(shù);mpq代表Moment算子;X。和y。分別代表原矩形框內(nèi)的內(nèi)容形心的坐標 值;
[0032]S32:計算矩形框中內(nèi)容的傾斜角度Θ,公式如下:
[0033]μρ(1=Σ χΣγ(χ-χε)(y-yc)f(x,y);
[0034] tan θ= μ n/μ〇2;
[0035] S33:經(jīng)過前向映射后得到新圖像,公式如下:
[0037]式中,X'。和y'。分別代表歸一化圖長寬的一半,(X',y')代表改變大小后的圖像 的中心,α和β代表映射比例。
[0038] 步驟S4中所述的特征包括方向梯度直方圖特征、文本的起/終點與交叉點個數(shù)、 幾何特征、輪廓的梯度均值;所述的幾何特征包括:矩形框面積、非〇像素點個數(shù)、輪廓周 長。
[0039] 所述的方向梯度直方圖特征的提取包括以下子步驟:
[0040] S51 :將圖像按照一定形式花費為多個圖像塊,每個圖像塊包含多個圖像單元;
[0041] S52 :計算圖像單元中每個像素的梯度,公式如下:
[0042]Gx(x,y) =H(x+1,y)-Η(χ-1,y);
[0043] Gy(x,y) =H(x,y+1)-H(x,y-1);
[0044] 式中,H(x,y)表示在(x,y)點的像素值,Gx(x,y)和Gy(x,y)分別表示在這點上的 x方向和y方向的梯度值;
[0045] S53 :計算梯度幅值G(x,y)和梯度方向α(X,y),公式如下:
[0048] S54 :根據(jù)梯度幅值G(x,y)和梯度方向α(X,y)計算每一區(qū)域中落在每個方向中 像素的個數(shù),作為方向梯度直方圖的提取的特征。
[0049] 所述的文本的起/終點與交叉點個數(shù)的提取包括文本的起/終點的提取和交叉點 個數(shù)的提?。黄渲?,所述的文本的起/終點的提取為:在某像素點的鄰域中只有一個非零點 與其連通,則認為是起/終點;所述的交叉點個數(shù)的提取包括以下幾種情況:
[0050] (1)當含有三個相鄰像素時:如果與這個像素直接相連的像素中同時也與任意對 角方向的像素相連,那么這個點不是交叉點;如果相鄰的像素中彼此不想連通,那么這個像 素點就是交叉點;
[0051] (2)當含有四個相鄰像素時:如果相鄰像素中,有任意兩個像素在對角方向同時 相連,那個這個點不是交叉點;否則,是交叉點;
[0052] (3)當含有五個或以上相鄰像素時:都視為是交叉點。
[0053] 所述的輪廓的梯度均值的提取包括以下子步驟:
[0054] S61 :采用S0BEL算子進行計算,公式如下:
[0055]gx(x,y) =f(x+l,y_l)+2f(x+l,y)+f(x+l,y+l)-f(x_l,y-l)-2f(x_l,y)-f(x_l ,y+l);
[0056]gy(x,y) =f(x-l,y+l)+2f(x,y+l)+f(x+l,y+l)-f(x-l,y-l)-2f(x,y-l)_f(x+l ,y_l);
[0057] 式中,f(x,y)表示在(x,y)點的像素值,gx(x,y)和gy(x,y)分別表示在這點上的 X方向和y方向的梯度值;
[0058] S62 :根據(jù)輪廓圖對輪廓上的像素點梯度求平均值,得到的平均值作為輪廓的梯度 均值提取的特征。
[0059] 所述的步驟S4包括以下子步驟:
[0060] S41 :離線的根據(jù)訓(xùn)練樣本提取具有魯棒性的特征;
[0061] S42 :經(jīng)過分類器篩選后的候選區(qū)域為檢測出的文本區(qū)域;
[0062] S43 :將備選區(qū)域進行整合后輸出結(jié)果。
[0063] -種基于交互平臺的復(fù)雜背景中文本的快速檢測方法還包括一個分類器訓(xùn)練步 驟S0,包括以下子步驟:
[0064] S01 :將正負樣本分類;
[0065] S02 :提取特征;
[0066] S03 :對分類器訓(xùn)練,訓(xùn)練后的分類器為步驟S4提供基礎(chǔ);所述的分類器為隨機森 林分類器。
[0067] 本發(fā)明的有益效果是:本發(fā)明實現(xiàn)復(fù)