一種數(shù)字圖書的版面分析方法
【專利摘要】本發(fā)明公開了一種數(shù)字圖書的版面分析方法?;趨^(qū)域分割的版面分析方法本質上是一種以JEPG或TIF格式存儲圖書的圖像分割與區(qū)域分類。本發(fā)明首先利用形態(tài)學運算并結合Gabor線性濾波器的方法提取圖片邊緣以及過分割區(qū)域的基礎合并,實現(xiàn)圖書區(qū)域的分割,然后對分割的圖像塊進行區(qū)域填充及排序,重新構建閱讀順序,最后對圖像區(qū)域進行特征提取,訓練分類器得到各區(qū)域屬性,實現(xiàn)圖書的區(qū)域分離,提高OCR引擎的識別正確性以及圖書查詢的準確率。
【專利說明】
一種數(shù)字圖書的版面分析方法
技術領域
[0001] 本發(fā)明涉及一種對數(shù)字圖書館中以圖像形式存在的圖片的版面分析技術,尤其涉 及一種區(qū)域分割及分類的版面分析技術。
【背景技術】
[0002] 隨著計算機和網(wǎng)絡技術的研究和發(fā)展,數(shù)字圖書館正在從基于信息的處理和簡單 的人機界面逐步向基于知識的處理和廣泛的機器之間的理解發(fā)展,從而使人們能夠利用計 算機和網(wǎng)絡更大范圍地拓展智力活動的能力,在所有需要交流、傳播、存儲和利用知識的領 域,包括電子商務、教育、遠程醫(yī)療等,發(fā)揮極其重要的作用。
[0003] 由于CADAL數(shù)字圖書館中的圖書以圖像的形式存在,需在經(jīng)過OCR處理,識別其中 的文字,進行版面分析,才能夠進行深度服務。目前專業(yè)的OCR軟件有:漢王OCR,ABBYY FineReader,Simp 1 eOCR,TopOCR,F(xiàn)reeOCR 等等。
[0004] 數(shù)字圖書館項目使用的專業(yè)OCR軟件為漢王OCR,支持處理灰度、黑色、彩色三種色 彩的JPG、PDF、T IF、BMP等格式的圖像文件,同時可識別簡體、繁體和英文三種語言,最后將 其轉換成TXT、RTF、HTM和XLS等多種輸出形式。而在實際掃描過程中,我們可以發(fā)現(xiàn),若圖片 中嵌入圖像塊,則會很大程度地影響掃描效果。如圖1所示,其中(a)為需要進行OCR處理的 原始圖片,圖(b)為不經(jīng)文本圖像分離,直接OCR之后得到的文本文件效果圖??梢钥闯?,原 圖中的圖像區(qū)域經(jīng)過OCR處理之后,無法得到正確的效果,出現(xiàn)了亂碼的情況,這是因為該 圖片文件中存在圖像塊。
[0005] 因此為了提高OCR軟件處理效果,得到更為準確的文本文件,需要對圖像文件進行 更進一步的版面分析,實現(xiàn)文本與圖像塊的分離,得到圖像塊的坐標信息,從而在OCR處理 分析時實現(xiàn)過濾功能,這就是本次設計需要完成的內容。
[0006] 版面分析常與OCR技術相結合,在OCR識別前需要對圖像進行版面分析,版面分析 結果的準確性,直接影響文檔識別和復原的效果。實驗中發(fā)現(xiàn)的OCR軟件存在的版面分析問 題有:(如圖1(b)所示):
[0007] (1)公式識別出現(xiàn)問題,無法提取完整公式或者將公式作為文字塊提取。
[0008] (2)無法識別流程圖這樣的插圖或者插圖識別不完整。
[0009] (3)因掃描模糊問題,將文字塊錯誤地分類為插圖區(qū)域。
[0010] (4)圖旁邊的描述性文字沒有正確分離。
【發(fā)明內容】
[0011] 本發(fā)明的目的在于提供一種基于區(qū)域切割與分類的數(shù)字圖書版面分析方法,從而 提高OCR軟件處理效果,得到更為準確的文本文件
[0012] 本發(fā)明解決其技術問題采用的技術方案如下:一種數(shù)字圖書的版面分析方法,包 括以下步驟:
[0013] 1)圖書版面的區(qū)域分割:對數(shù)字圖書頁面進行區(qū)域分割,首先,利用形態(tài)學運算對 原始圖像做腐蝕、開閉、邊緣檢測、膨脹移除處理,得到過分割圖片,過分割圖片中具有較多 的區(qū)域碎片,接著利用Gabor線性濾波器進行原始圖像邊緣的再提取,對碎片化區(qū)域進行初 步合并,最后利用碎片化區(qū)域的位置信息對初步合并后的區(qū)域進行再合并;
[0014] 2)閱讀順序重構:對步驟1)分割后的區(qū)域進行填充,增加虛擬點以及區(qū)域之間的 距離關系,設計優(yōu)化問題及約束條件,得到閱讀順序;
[0015] 3)區(qū)域類型分類:提取、篩選分割區(qū)域的特征,形成可靠的特征向量,得到區(qū)域類 型屬性,對其中的有用區(qū)域進行存儲;
[0016] 4)將各區(qū)域的坐標反饋給OCR引擎,從而在OCR處理分析時實現(xiàn)過濾功能,提高軟 件處理效果。
[0017] 進一步地,步驟1)中所述的圖書版面區(qū)域分割中的形態(tài)學運算、Gabor線性濾波、 碎片化區(qū)域合并,具體為:
[0018] 1.1)基于圖像邊緣的形態(tài)學方法,即對原始圖像進行灰度變化后,利用腐蝕、膨 脹、開閉運算提取圖片邊緣,并移除孤立圖像后,得到過分割圖片;
[0019] 1.2)Gabor線性濾波:用Gabor實部濾波進行平滑操作,虛部濾波進行邊緣檢測和 初始合并:
[0020] Gabor復數(shù)表達:
[0026] 其中:
[0027] X7 =x cosB+y sinB
[0028] y7 =-χ sinB+y cosB
[0029] 公式中參數(shù)的含義及參數(shù)的配置問題:
[0030] X,y為空間域像素的位置;
[0031] 波長(λ):它的值以像素為單位,輸入圖像尺寸/5;
[0032]方向(Θ):該參數(shù)指定了Gabor函數(shù)并行條紋的方向,取值范圍為(0°~360°);
[0033]相位偏移(Φ):它的取值范圍(0°~180°),-90度對應反對稱函數(shù),0度為中心對稱 的center-on函數(shù),90度對應反對稱函數(shù),180度對應center-off函數(shù);
[0034] 長寬比(T):即空間縱橫比,該參數(shù)決定了Gabor函數(shù)形狀的橢圓率,當T=1時, 形狀為圓形,當τ〈1時,形狀隨著平行條紋方向而拉長;帶寬(b):Gab〇r濾波器的半響應空 間頻率,帶寬b和σ/λ的比率有關,其中 〇表示Gabor函數(shù)的高斯因子的標準差:
[0037] 1.3)碎片化區(qū)域再合并:
[0038] 1.3.1)行合并
[0039] 通過步驟1.1)以及1.2)得到初步合并的分割區(qū)域,并得到各區(qū)域的位置坐標 (left,top,right,bottom),其中,文字行是不完整的文字行,一行文字被切割為分離的多 個區(qū)域塊,通過比較各區(qū)域間的位置坐標以及區(qū)域的高度,同時考慮圖像掃描的誤差分析, 假設區(qū)域X的坐標為(leftx,top x,rightx,bottomx),區(qū)域y的坐標為(lefty,topy,righty, bottomy),同時滿足以下三個坐標條件的區(qū)域合并為同一文本行:
[0041] 通過對區(qū)域進行遍歷,實現(xiàn)同行文字的行合并;
[0042] 1.3.2)重合區(qū)域合并
[0043] 分割區(qū)域有較多重合或者重復區(qū)域,根據(jù)重復區(qū)域的坐標特點進行合并。同時滿 足以下兩個坐標條件的區(qū)域定義為重合區(qū)域,并進行區(qū)域合并:
[0045] 進一步地,所述的閱讀順序重構具體包括以下子步驟:
[0046] 2.1)對已知區(qū)域進行行填充。假設在步驟1)中得到了~個區(qū)域4={^1,^3 3, ... .xn},xi表示任意一個區(qū)域,Xi按照區(qū)域的bottom值進行遞增,通過步驟1)得到Xi的區(qū)域 位置,首先,令height = top-bottom,根據(jù)height的閾值初步判斷區(qū)域是否為圖像區(qū)域,通 過判斷區(qū)域的位置關系以及坐標特征,對區(qū)域進行擴充,得到 Xl擴充后的區(qū)域位置(left, top,right,bottom),下列兩種情況,需要進行文本行擴充,假設圖像區(qū)域X的坐標為 (leftx,topx,rightx,bottom x),區(qū)域y的坐標為(lefty,topy,righty,bottomy)
[0047] 2.1.1)文本區(qū)域出現(xiàn)在圖像區(qū)域的附近:
[0049] 2.1.2)相鄰文本區(qū)域的擴充:
[0050] bottomx<topx+i
[0051] 2 . 2 )近鄰塊的選擇:根據(jù)X i區(qū)域位置,計算得到中心點的坐標
從而計算得到兩個區(qū)域之間的距 離:
[0053]其中,若兩區(qū)域之間的位置關系不滿足正常閱讀習慣,即滿足以下兩個條件中任 意一個,則令 distij = 1.7976931348623157E308;
[0054] L0055J 其中,誤差值根據(jù)掃描結果而定;
[0056] 2.3)設計優(yōu)化問題如下:
[0057] 利用整數(shù)線性規(guī)劃來構造閱讀順序使得所有區(qū)域之間的距離之和為最小,公式表 示如下:
[0059] 得到每個覆蓋所有區(qū)域的單獨回路;
[0060] 2.4)約束條件設計,其中:
[0062] 設計約束如下:
[0063] (4)每個區(qū)域只能與其他另一個區(qū)域相連;
[0064] (5)兩個區(qū)域之間不允許有雙向的邊;
[0065] (6)考慮閱讀順序,要求兩區(qū)域之間的順序不能為左上;
[0067] (4)人為構造虛擬點及起始區(qū)域,結束區(qū)域,得到約束條件:
[0068] ui-uj+nxij^in-l whenKi! = j^in
[0069] 每個可行解包含只有一條覆蓋了所有區(qū)域的封閉區(qū)域序列,其中定義虛擬點到起 始區(qū)域,結束區(qū)域的距離為0,虛擬點到其他區(qū)域的距離為1.7976931348623157E308;定義 起始區(qū)域為bottom值最小的區(qū)域,定義結束區(qū)域為bottom值最大的區(qū)域。
[0070] 進一步地,所述步驟3)具體包括以下子步驟:
[0071] 3.1)對二值圖像中的連通域進行標記,得到二值圖像的標記矩陣后,得到測量標 注矩陣L中每一個標注區(qū)域的一系列屬性;
[0072] 3.2)區(qū)域紋理特征利用流式細胞儀工具盒進行函數(shù)計算,這些功能的擴展基礎是 灰度共生矩陣GLCM?;叶裙采仃嚹芊从吵鰣D像灰度關于方向、相鄰間隔、變化幅度的總和 信息。
[0073] 3.3)對特征進行挑選,選擇特征值對區(qū)域進行分類分析;
[0074] 3.4)利用隨機森林算法給定區(qū)域類型,包括內容文本、圖像、表格、公式、頁眉頁 腳、頁碼、無用區(qū)、公式標號。
[0075] 5、根據(jù)權利要求4所述的一種數(shù)字圖書版面分析方法,其特征在于,所述步驟3.3) 中,選擇29個特征值對區(qū)域進行分類分析,具體為:area,maxal,minal,eccent,equivDia, solidity,extent, peri ,autoc,contr,corrm,corrp,cprom,cshad,dissi,energ,entro, homom,homop,maxpr,sosvh,savgh,svarh,senth,dvarh,inflh,inf2h,indnc,idmnc;具體 特征含義如下所示:
[0076]
[0078]本發(fā)明方法與現(xiàn)有技術相比具有的有益效果:
[0079] 1.通過形態(tài)學運算以及Gabor邊緣濾波結合處理圖像,在利用形態(tài)學方法對圖片 進行過分割的基礎上,利用Gabor邊緣濾波進行過分割的區(qū)域的邊緣再檢測,從而實現(xiàn)分割 區(qū)域的基礎合并
[0080] 2.利用文本區(qū)域的行合并和重合區(qū)域合并,提高了區(qū)域分割的準確性和完整性;
[0081 ] 3.通過判斷區(qū)域的位置關系以及坐標特征,對文本行進行填充,構造虛擬點以及 起始區(qū)域,終止區(qū)域,設計優(yōu)化問題以及約束條件,提高閱讀順序重構的正確性,提高了讀 者的閱讀質量;
[0082] 4.在圖像分類中,基于灰度共生矩陣,在基于二值圖像連通區(qū)域的特征提取的基 礎上,擴展了紋理特征,利用流式細胞儀工具盒進行計算的函數(shù)計算。最后使用了隨機樹算 法處理分類問題。實驗證明,該方法對圖像區(qū)域提取的準確率較高,對復雜背景或者分布不 規(guī)則的圖像也能較好地實現(xiàn)各屬性區(qū)域的區(qū)分。
【附圖說明】
[0083]圖1 OCR版面分析效果圖展示;
[0084]圖2已有的版面分析效果圖;
[0085]圖3是本發(fā)明方法模塊展示圖;
[0086] 圖4是本發(fā)明的流程圖;
[0087] 圖5 CADAL數(shù)字圖書館中的樣本;
[0088] 圖6是完成區(qū)域分割及閱讀順序重構的展示圖;
[0089]圖7是區(qū)域類型分類結果。
【具體實施方式】
[0090] 下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。
[0091] 本發(fā)明提供的一種數(shù)字圖書的版面分析方法,包括以下步驟:
[0092] 1)圖書版面的區(qū)域分割:對數(shù)字圖書頁面進行區(qū)域分割,首先,利用形態(tài)學運算對 原始圖像做腐蝕、開閉、邊緣檢測、膨脹移除處理,得到過分割圖片,過分割圖片中具有較多 的區(qū)域碎片,接著利用Gabor線性濾波器進行原始圖像邊緣的再提取,對碎片化區(qū)域進行初 步合并,最后利用碎片化區(qū)域的位置信息對初步合并后的區(qū)域進行再合并;
[0093] 2)閱讀順序重構:對步驟1)分割后的區(qū)域進行填充,增加虛擬點以及區(qū)域之間的 距離關系,設計優(yōu)化問題及約束條件,得到閱讀順序;
[0094] 3)區(qū)域類型分類:提取、篩選分割區(qū)域的特征,形成可靠的特征向量,得到區(qū)域類 型屬性,對其中的有用區(qū)域進行存儲;
[0095] 4)將各區(qū)域的坐標反饋給OCR引擎,從而在OCR處理分析時實現(xiàn)過濾功能,提高軟 件處理效果。
[0096]進一步地,步驟1)中所述的圖書版面區(qū)域分割中的形態(tài)學運算、Gabor線性濾波、 碎片化區(qū)域合并,具體為:
[0097] 1.1)基于圖像邊緣的形態(tài)學方法,即對原始圖像進行灰度變化后,利用腐蝕、膨 脹、開閉運算提取圖片邊緣,并移除孤立圖像后,得到過分割圖片;具體實施步驟如下: [0098] (1)對得到的灰度圖像進行閾值處理,得到二值圖像。
[0099] (2)對二值圖像進行腐蝕。創(chuàng)建一個半徑為8的平坦型圓盤結構對圖像進行多重腐 蝕。
[0100] (3)對腐蝕后圖像進行膨脹操作。此時,為了達到預期效果,創(chuàng)建一個8*8的正方形 結構元素對圖像進行膨脹處理。
[0101] (4)運用形態(tài)學開運算imopen及閉運算imclose估計圖像背景。開運算是為了平滑 圖像輪廓,使狹窄的連接處斷開從而實現(xiàn)細小突出部分的刪除,開運算時構建一個半徑為5 的圓盤結構。閉運算相當于開運算的逆過程,連接狹窄的缺口使之成為一個整體的部分,閉 運算是采用了 5*5的正方形結構元素。
[0102] (5)標記圖像中灰度值不同的點,利用邊緣檢測算子SobehSobel算子能夠平滑噪 聲,對消除噪聲影響有較好的效果。
[0103] Sobel算子中包括橫向模板以及縱向模板,實際使用中,常用如下兩個模板來檢測 圖像邊緣。
[0112] (6)移除孤立的圖像。利用移除函數(shù)bwmorph對圖像進行指定的形態(tài)學操作,不過 應用此操作N次。
[0113] 1.2)Gabor線性濾波:Gabor濾波器具有空間最優(yōu)和頻率最優(yōu)的特性,具有與人類 生物視覺相似的特性,對應于空間頻率、空間位置以及方向選擇性的局部結構信息,Gabor 濾波器均能夠很好地表示與描述。同時,Gabor濾波器具有自相似的特點,即一個母小波通 過膨脹和旋轉操作可以產(chǎn)生實驗所需的不同參數(shù)的Gabor濾波器。實際應用中,在頻域的不 同尺度,不同方向上,Gabor均可以提取相關特征。
[0114] Gabor有兩個部分,即實部和虛部,用Gabor實部濾波進行平滑操作,虛部濾波進行 邊緣檢測和初始合并:
[0121] 其中:
[0122] X7 =x cosB+y sinB
[0123] y7 =-χ sinB+y cosB
[0124] 公式中參數(shù)的含義及參數(shù)的配置問題:
[0125] x,y為空間域像素的位置;
[0126] 波長(λ):它的值以像素為單位,輸入圖像尺寸/5;
[0127] 方向(Θ):該參數(shù)指定了Gabor函數(shù)并行條紋的方向,取值范圍為(0°~360°);
[0128] 相位偏移(Φ):它的取值范圍(0°~180°),-90度對應反對稱函數(shù),0度為中心對稱 的center-on函數(shù),90度對應反對稱函數(shù),180度對應center-off函數(shù);
[0129] 長寬比(T):即空間縱橫比,該參數(shù)決定了Gabor函數(shù)形狀的橢圓率,當T=1時, 形狀為圓形,當T〈 1時,形狀隨著平行條紋方向而拉長;
[0130] 帶寬(b):Gabor濾波器的半響應空間頻率,帶寬b和σ/λ的比率有關,其中σ表示 Gabor函數(shù)的高斯因子的標準差:
[0133] 具體實施步驟如下:
[0134] (1)將im圖像轉化成double類型;
[0135] (2)構造余弦濾波器和正弦濾波器,調整濾波器參數(shù),并進行測試;
[0?36] (3)利用imrotate函數(shù)實現(xiàn)濾波器的旋轉;
[0137] evenFilter = imrotate(evenFilter,angle, 'bilinear');
[0138] oddFilter = imrotate(oddFilter,angle, 'bilinear');
[0139] (4)調用濾波器進行濾波操作;
[0140] Eim = filter2(evenFilter, im) ; %Even filter result
[0141] 0im = filter2(oddFilter, im) ; %0dd filter result
[0142] Aim = sqrt(Eim. '2+0im. '2) ; %Amplitud
[0143] 返回幅值圖像。
[0144] 1.3)碎片化區(qū)域再合并:
[0145] 1.3.1)行合并
[0146] 通過步驟1 . 1)以及1.2)得到初步合并的分割區(qū)域,并得到各區(qū)域的位置坐標 (left,top,right,bottom),其中,文字行是不完整的文字行,一行文字被切割為分離的多 個區(qū)域塊,通過比較各區(qū)域間的位置坐標以及區(qū)域的高度,同時考慮圖像掃描的誤差分析, 假設區(qū)域X的坐標為(leftx,top x,rightx,bottomx),區(qū)域y的坐標為(lefty,topy,righty, bottomy),同時滿足以下三個坐標條件的區(qū)域合并為同一文本行:
[0148]通過對區(qū)域進行遍歷,實現(xiàn)同行文字的行合并;
[0149] 1.3.2)重合區(qū)域合并
[0150] 分割區(qū)域有較多重合或者重復區(qū)域,根據(jù)重復區(qū)域的坐標特點進行合并。同時滿 足以下兩個坐標條件的區(qū)域定義為重合區(qū)域,并進行區(qū)域合并:
[0152] 具體步驟如下所示:
[0153] 已知:給定兩個矩形A和B,我們可以定義矩形A的左上角坐標(A.left,A. top),右 下角坐標為(A. right, A. bottom),矩形B的左上角坐標(Β· left,Β· top),右下角坐標為 (B·right,Β·bottom)
[0154] 輸出:若矩形A與矩形B重合或者有相交,則將矩形A與矩形B合并,得到合并后矩形 C的坐標。
[0155] 矩形A內的任意點(x,y),包括四邊上的點,應滿足如下不等式組
[0156] A. left^ix^iA.right ①
[0157] A. top A. bottom ②
[0158] 同理,B內的點滿足
[0159] B. left^ix^iB. right ③
[0160] B. top bottom ④
[0161] 若A、B有重合,則必定存在點同時滿足①②③④,所以有
[0162] max(A. left,B. left)<=min(A.right,B.right)
[0163] max(A. top, B. top) <=min( A. bottom, B. bottom)
[0164] 經(jīng)過合并之后我可以得到較為完整的圖像塊和文本塊。
[0165] 進一步地,所述的閱讀順序重構具體包括以下子步驟:
[0166] 2.1)對已知區(qū)域進行行填充。假設在步驟1)中得到了~個區(qū)域4={^1,^3 3, ... .xn},xi表示任意一個區(qū)域,Xi按照區(qū)域的bottom值進行遞增,通過步驟1)得到Xi的區(qū)域 位置,首先,令height = top-bottom,根據(jù)height的閾值初步判斷區(qū)域是否為圖像區(qū)域,通 過判斷區(qū)域的位置關系以及坐標特征,對區(qū)域進行擴充,得到 Xl擴充后的區(qū)域位置(left, top,right,bottom),下列兩種情況,需要進行文本行擴充,假設圖像區(qū)域X的坐標為 (leftx,topx,rightx,bottomx),區(qū)域y的坐
[0167] 標為(lefty,topy,righty,bottomy)
[0168] 2.1.1)文本區(qū)域出現(xiàn)在圖像區(qū)域的附近:
[0170] 2.1.2)相鄰文本區(qū)域的擴充:
[0171] bottomx<topx+i
[0172] 2 . 2 )近鄰塊的選擇:根據(jù)X i區(qū)域位置,計算得到中心點的坐標
,從而計算得到兩個區(qū)域以和幻之間的距 離:
[0176]其中,誤差值根據(jù)掃描結果而定;
[0177] 2.3)設計優(yōu)化問題如下:
[0178] 利用整數(shù)線性規(guī)劃來構造閱讀順序使得所有區(qū)域之間的距離之和為最小,公式表 示如下:
[0180] 得到每個覆蓋所有區(qū)域的單獨回路;
[0181] 2.4)約束條件設計,其中:
[0183] 設計約束如下:
[0184] (1)每個區(qū)域只能與其他另一個區(qū)域相連;
[0185] (2)兩個區(qū)域之間不允許有雙向的邊;
[0186] (3)考慮閱讀順序,要求兩區(qū)域之間的順序不能為左上;
[0174] 其中,若兩區(qū)域之間的位置關系不滿足正常閱讀習慣,即滿足以下兩個條件中任 意一個,則令 distij = 1.7976931348623157E308;[0175]
[0188] (4)人為構造虛擬點及起始區(qū)域,結束區(qū)域,得到約束條件:
[0189] ui-uj+nxij<n-l whenKi! = j<n
[0190] 每個可行解包含只有一條覆蓋了所有區(qū)域的封閉區(qū)域序列,其中定義虛擬點到起 始區(qū)域,結束區(qū)域的距離為0,虛擬點到其他區(qū)域的距離為1.7976931348623157E308;定義 起始區(qū)域為bottom值最小的區(qū)域,定義結束區(qū)域為bottom值最大的區(qū)域。
[0191] 所述步驟3)具體包括以下子步驟:
[0192] 3.1)對二值圖像中的連通域進行標記,得到二值圖像的標記矩陣后,得到測量標 注矩陣L中每一個標注區(qū)域的一系列屬性;
[0193] 3.2)區(qū)域紋理特征利用流式細胞儀工具盒進行函數(shù)計算,這些功能的擴展基礎是 灰度共生矩陣GLCM?;叶裙采仃嚹芊从吵鰣D像灰度關于方向、相鄰間隔、變化幅度的總和 ig 息
[0194] 3.3)對特征進行挑選,選擇29個特征值對區(qū)域進行分類分析;具體為:area, maxal,minal,eccent,equivDia,solidity,extent,peri,autoc,contr,corrm,corrp, cprom,cshad,dissi,energ,entro,homom,homop,maxpr,sosvh,savgh,svarh,senth, dvarh,inflh,inf2h,indnc,idmnc;具體特征含義如下所示:
[0195]
[0197] 3.4)利用隨機森林算法給定區(qū)域類型,包括內容文本、圖像、表格、公式、頁眉頁 腳、頁碼、無用區(qū)、公式標號。
[0198] 實施例
[0199] 下面結合本發(fā)明的方法詳細說明本實例實施的具體步驟,這里以CADAL圖書館數(shù) 字圖書館掃描的電子圖書中的某一頁作為例子,如圖5所示,說明圖3的所有過程。
[0200] 1)讀取原始圖片,對彩色圖片進行灰度處理,讀入灰度圖片
[0201] 2)提取圖片邊緣。創(chuàng)建一個8*8的正方形結構元素對圖像進行膨脹處理。運用形態(tài) 學開運算imopen及閉運算imclose估計圖像背景。開運算是為了平滑圖像輪廓,使狹窄的連 接處斷開從而實現(xiàn)細小突出部分的刪除,開運算時構建一個半徑為5的圓盤結構。閉運算相 當于開運算的逆過程,連接狹窄的缺口使之成為一個整體的部分,閉運算是采用了 5*5的正 方形結構元素。標記圖像中灰度值不同的點,利用邊緣檢測算子Sobel。
[0202] 3)進行線性Gabor濾波器濾波,在過分割圖片基礎上進行更近一步的邊緣檢測
[0203] 4)對重合及包含關系的分割區(qū)域進行合并,利用每個分割區(qū)域的坐標特點。
[0204] 5)對步驟4)得到的文本行進行擴充,得到擴充后各區(qū)域的坐標(left,right,top, bottom),計算得到(centerx,centery),從而計算distij〇
[0205 ] 構造虛擬點,s tar t -區(qū)域,end -區(qū)域,并對上述的N+3區(qū)域構造約束條件
[0210] 6)提取分割的區(qū)域特征,基于灰度共生矩陣,提取合并后的分割區(qū)域的特征值。包 括基于二值圖像連通域的特征值以及紋理特征。
[0211] 7)利用步驟6)得到的特征值進行區(qū)域屬性分類,保存區(qū)域位置。
【主權項】
1. 一種數(shù)字圖書的版面分析方法,其特征在于,包括W下步驟: 1) 圖書版面的區(qū)域分割:對數(shù)字圖書頁面進行區(qū)域分割,首先,利用形態(tài)學運算對原始 圖像做腐蝕、開閉、邊緣檢測、膨脹移除處理,得到過分割圖片,過分割圖片中具有較多的區(qū) 域碎片,接著利用Gabor線性濾波器進行原始圖像邊緣的再提取,對碎片化區(qū)域進行初步合 并,最后利用碎片化區(qū)域的位置信息對初步合并后的區(qū)域進行再合并; 2) 閱讀順序重構:對步驟1)分割后的區(qū)域進行填充,增加虛擬點W及區(qū)域之間的距離 關系,設計優(yōu)化問題及約束條件,得到閱讀順序; 3) 區(qū)域類型分類:提取、篩選分割區(qū)域的特征,形成可靠的特征向量,得到區(qū)域類型屬 性,對其中的有用區(qū)域進行存儲; 4) 將各區(qū)域的坐標反饋給OCR引擎,從而在OCR處理分析時實現(xiàn)過濾功能,提高軟件處 理效果。2. 根據(jù)權利要求1所述的一種數(shù)字圖書的版面分析方法,其特征在于,步驟1)中所述的 圖書版面區(qū)域分割中的形態(tài)學運算、Gabor線性濾波、碎片化區(qū)域合并,具體為: 1.1) 基于圖像邊緣的形態(tài)學方法,即對原始圖像進行灰度變化后,利用腐蝕、膨脹、開 閉運算提取圖片邊緣,并移除孤立圖像后,得到過分割圖片; 1.2) Gabor線性濾波:用Gabor實部濾波進行平滑操作,虛部濾波進行邊緣檢測和初始 合并: Gabor復數(shù)表達:其中: χ/ =x cos白+ysin白 y/ =-χ sin白+ycos白 公式中參數(shù)的含義及參數(shù)的配置問題: x,y為空間域像素的位置; 波長(λ):它的值W像素為單位,2《λ《輸入圖像尺寸/5; 方向(Θ):該參數(shù)指定了Gabor函數(shù)并行條紋的方向,取值范圍為(0°~360°); 相位偏移(Φ):它的取值范圍(0°~180° ),- 90度對應反對稱函數(shù),0度為中屯、對稱的 center-on函數(shù),90度對應反對稱函數(shù),180度對應center-off函數(shù); 長寬比(T):即空間縱橫比,該參數(shù)決定了 Gabor函數(shù)形狀的楠圓率,當T=1時,形狀 為圓形,當T<1時,形狀隨著平行條紋方向而拉長;帶寬(b):Gab〇r濾波器的半響應空間頻 率,帶寬b和ο/λ的比率有關,其中0表示Gabor函數(shù)的高斯因子的標準差:1.3)碎片化區(qū)域再合并: 1.3.1) 化合并 通過步驟1.1) W及1.2)得到初步合并的分割區(qū)域,并得到各區(qū)域的位置坐標(left, top,ri曲t,bottom),其中,文字行是不完整的文字行,一行文字被切割為分離的多個區(qū)域 塊,通過比較各區(qū)域間的位置坐標W及區(qū)域的高度,同時考慮圖像掃描的誤差分析,假設區(qū) 域x的坐標為(leftx,topx,;ri曲tx,bottomx),區(qū)域y的坐標為(lefty,topy,;ri曲ty,bottomy), 同時滿足W下Ξ個坐標條件的區(qū)域合并為同一文本行:通過對區(qū)域進行遍歷,實現(xiàn)同行文字的行合并; 1.3.2) 重合區(qū)域合并 分割區(qū)域有較多重合或者重復區(qū)域,根據(jù)重復區(qū)域的坐標特點進行合并。將同時滿足 W下兩個坐標條件的區(qū)域定義為重合區(qū)域,進行區(qū)域合并:3.根據(jù)權利要求1所述的一種數(shù)字圖書版面分析方法,其特征在于,所述的閱讀順序重 構具體包括W下子步驟: 2.1) 對已知區(qū)域進行行填充。假設在步驟1)中得到了N個區(qū)域,X={X1,X2,X3,....XN}, X康示任意一個區(qū)域,XI按照分割后區(qū)域的bottom值進行遞增,通過步驟1)得到XI的區(qū)域位 置,首先,令height = top-bottom,根據(jù)height的闊值初步判斷區(qū)域是否為圖像區(qū)域,通過 判斷區(qū)域的位置關系W及坐標特征,對區(qū)域進行擴充,得到XI擴充后的區(qū)域位置(left, top, right, bottom),下列兩種情況,需要進行文本行擴充,假設圖像區(qū)域X的坐標為 (leftx,topix,;rightx,bottomx),區(qū)域y的坐標為(lefty,topy,;ri曲ty,bottomy) 2.1.1) 文本區(qū)域出現(xiàn)在圖像區(qū)域的附近:2.1.2) 相鄰文本區(qū)域的擴充: bottomx<topx+i 2 . 2 )近鄰塊的選擇:根據(jù)X 1區(qū)域位置,計算得到中屯、點的坐標乂而計算得到兩個區(qū)域^和^之間的距離:其中,若兩區(qū)域之間的位置關系不滿足正常閱讀習慣,即滿足W下兩個條件中任意一 個,則令 distu = 1.7976931348623157E308;其中,誤差值根據(jù)掃描結果而定; 2.3) 設計優(yōu)化問題如下: 利用整數(shù)線性規(guī)劃來構造閱讀順序使得所有區(qū)域之間的距離之和為最小,公式表示如 下:得到每個覆蓋所有區(qū)域的單獨回路; 2.4) 約束條件設計,其中:設計約束如下: (1) 每個區(qū)域只能與其他另一個區(qū)域相連; (2) 兩個區(qū)域之間不允許有雙向的邊; (3) 考慮閱讀順序,要求兩區(qū)域之間的順序不能為左上;(4) 人為構造虛擬點及起始區(qū)域,結束區(qū)域,得到約束條件: Ui-Uj+nxij《n-l whenl《i!=j《n 每個可行解包含只有一條覆蓋了所有區(qū)域的封閉區(qū)域序列,其中定義虛擬點到起始區(qū) 域,結束區(qū)域的距離為0,虛擬點到其他區(qū)域的距離為1.7976931348623157E308;定義起始 區(qū)域為bottom值最小的區(qū)域,定義結束區(qū)域為bottom值最大的區(qū)域。4.根據(jù)權利要求1所述的一種數(shù)字圖書版面分析方法,其特征在于,所述步驟3)具體包 括W下子步驟: 3.1) 對二值圖像中的連通域進行標記,得到二值圖像的標記矩陣后,得到測量標注矩 陣L中每一個標注區(qū)域的一系列屬性; 3.2) 區(qū)域紋理特征利用流式細胞儀工具盒進行函數(shù)計算,運些功能的擴展基礎是灰度 共生矩陣化CM?;叶裙采仃嚹芊从吵鰣D像灰度關于方向、相鄰間隔、變化幅度的總和信 息。 3.3) 對特征進行挑選,選擇特征值對區(qū)域進行分類分析; 3.4)利用隨機森林算法給定區(qū)域類型,包括內容文本、圖像、表格、公式、頁眉頁腳、頁 碼、無用區(qū)、公式標號。5.根據(jù)權利要求4所述的一種數(shù)字圖書版面分析方法,其特征在于,所述步驟3.3)中, 選擇29個特征值對區(qū)域進行分類分析,具體為:area,maxal ,minal, eccent, equivDia, solidity,extent,peri ,autoc,contr,corrm,corrp,cprom,cshad,dissi,energ,entro, homom, homop ,m曰xpr, sosvh, s曰vgh, sv曰rh, senth, dv曰rh, inf Ih, inf 2h, indnc, idmnc ;具體 特征含義如下所示:
【文檔編號】G06T5/30GK106096592SQ201610584126
【公開日】2016年11月9日
【申請日】2016年7月22日 公開號201610584126.7, CN 106096592 A, CN 106096592A, CN 201610584126, CN-A-106096592, CN106096592 A, CN106096592A, CN201610584126, CN201610584126.7
【發(fā)明人】魯偉明, 劉佳卉, 莊越挺, 吳飛, 魏寶剛
【申請人】浙江大學