一種數(shù)字圖書的版面分析方法

文檔序號：10725689閱讀：336來源：國知局

一種數(shù)字圖書的版面分析方法
【專利摘要】本發(fā)明公開了一種數(shù)字圖書的版面分析方法?；趨^(qū)域分割的版面分析方法本質上是一種以JEPG或TIF格式存儲圖書的圖像分割與區(qū)域分類。本發(fā)明首先利用形態(tài)學運算并結合Gabor線性濾波器的方法提取圖片邊緣以及過分割區(qū)域的基礎合并，實現(xiàn)圖書區(qū)域的分割，然后對分割的圖像塊進行區(qū)域填充及排序，重新構建閱讀順序，最后對圖像區(qū)域進行特征提取，訓練分類器得到各區(qū)域屬性，實現(xiàn)圖書的區(qū)域分離，提高OCR引擎的識別正確性以及圖書查詢的準確率。
【專利說明】
一種數(shù)字圖書的版面分析方法
技術領域
[0001] 本發(fā)明涉及一種對數(shù)字圖書館中以圖像形式存在的圖片的版面分析技術，尤其涉及一種區(qū)域分割及分類的版面分析技術。
【背景技術】
[0002] 隨著計算機和網(wǎng)絡技術的研究和發(fā)展，數(shù)字圖書館正在從基于信息的處理和簡單的人機界面逐步向基于知識的處理和廣泛的機器之間的理解發(fā)展，從而使人們能夠利用計算機和網(wǎng)絡更大范圍地拓展智力活動的能力，在所有需要交流、傳播、存儲和利用知識的領域，包括電子商務、教育、遠程醫(yī)療等，發(fā)揮極其重要的作用。
[0003] 由于CADAL數(shù)字圖書館中的圖書以圖像的形式存在，需在經(jīng)過OCR處理，識別其中的文字，進行版面分析，才能夠進行深度服務。目前專業(yè)的OCR軟件有：漢王OCR，ABBYY FineReader，Simp 1 eOCR，TopOCR，F(xiàn)reeOCR 等等。
[0004] 數(shù)字圖書館項目使用的專業(yè)OCR軟件為漢王OCR，支持處理灰度、黑色、彩色三種色彩的JPG、PDF、T IF、BMP等格式的圖像文件，同時可識別簡體、繁體和英文三種語言，最后將其轉換成TXT、RTF、HTM和XLS等多種輸出形式。而在實際掃描過程中，我們可以發(fā)現(xiàn)，若圖片中嵌入圖像塊，則會很大程度地影響掃描效果。如圖1所示，其中（a)為需要進行OCR處理的原始圖片，圖（b)為不經(jīng)文本圖像分離，直接OCR之后得到的文本文件效果圖?？梢钥闯?，原圖中的圖像區(qū)域經(jīng)過OCR處理之后，無法得到正確的效果，出現(xiàn)了亂碼的情況，這是因為該圖片文件中存在圖像塊。
[0005] 因此為了提高OCR軟件處理效果，得到更為準確的文本文件，需要對圖像文件進行更進一步的版面分析，實現(xiàn)文本與圖像塊的分離，得到圖像塊的坐標信息，從而在OCR處理分析時實現(xiàn)過濾功能，這就是本次設計需要完成的內容。
[0006] 版面分析常與OCR技術相結合，在OCR識別前需要對圖像進行版面分析，版面分析結果的準確性，直接影響文檔識別和復原的效果。實驗中發(fā)現(xiàn)的OCR軟件存在的版面分析問題有：（如圖1(b)所示）：
[0007] (1)公式識別出現(xiàn)問題，無法提取完整公式或者將公式作為文字塊提取。
[0008] (2)無法識別流程圖這樣的插圖或者插圖識別不完整。
[0009] (3)因掃描模糊問題，將文字塊錯誤地分類為插圖區(qū)域。
[0010] (4)圖旁邊的描述性文字沒有正確分離。

【發(fā)明內容】

[0011] 本發(fā)明的目的在于提供一種基于區(qū)域切割與分類的數(shù)字圖書版面分析方法，從而提高OCR軟件處理效果，得到更為準確的文本文件
[0012] 本發(fā)明解決其技術問題采用的技術方案如下：一種數(shù)字圖書的版面分析方法，包括以下步驟：
[0013] 1)圖書版面的區(qū)域分割:對數(shù)字圖書頁面進行區(qū)域分割，首先，利用形態(tài)學運算對原始圖像做腐蝕、開閉、邊緣檢測、膨脹移除處理，得到過分割圖片，過分割圖片中具有較多的區(qū)域碎片，接著利用Gabor線性濾波器進行原始圖像邊緣的再提取，對碎片化區(qū)域進行初步合并，最后利用碎片化區(qū)域的位置信息對初步合并后的區(qū)域進行再合并；
[0014] 2)閱讀順序重構:對步驟1)分割后的區(qū)域進行填充，增加虛擬點以及區(qū)域之間的距離關系，設計優(yōu)化問題及約束條件，得到閱讀順序；
[0015] 3)區(qū)域類型分類:提取、篩選分割區(qū)域的特征，形成可靠的特征向量，得到區(qū)域類型屬性，對其中的有用區(qū)域進行存儲；
[0016] 4)將各區(qū)域的坐標反饋給OCR引擎，從而在OCR處理分析時實現(xiàn)過濾功能，提高軟件處理效果。
[0017] 進一步地，步驟1)中所述的圖書版面區(qū)域分割中的形態(tài)學運算、Gabor線性濾波、碎片化區(qū)域合并，具體為：
[0018] 1.1)基于圖像邊緣的形態(tài)學方法，即對原始圖像進行灰度變化后，利用腐蝕、膨脹、開閉運算提取圖片邊緣，并移除孤立圖像后，得到過分割圖片；
[0019] 1.2)Gabor線性濾波：用Gabor實部濾波進行平滑操作，虛部濾波進行邊緣檢測和初始合并：
[0020] Gabor復數(shù)表達：
[0026] 其中：
[0027] X7 =x cosB+y sinB
[0028] y7 =-χ sinB+y cosB
[0029] 公式中參數(shù)的含義及參數(shù)的配置問題：
[0030] X，y為空間域像素的位置；
[0031] 波長(λ):它的值以像素為單位，輸入圖像尺寸/5;
[0032]方向（Θ):該參數(shù)指定了Gabor函數(shù)并行條紋的方向，取值范圍為(0°~360°);
[0033]相位偏移(Φ):它的取值范圍（0°~180°)，-90度對應反對稱函數(shù)，0度為中心對稱的center-on函數(shù)，90度對應反對稱函數(shù)，180度對應center-off函數(shù)；
[0034] 長寬比（T):即空間縱橫比，該參數(shù)決定了Gabor函數(shù)形狀的橢圓率，當T=1時，形狀為圓形，當τ〈1時，形狀隨著平行條紋方向而拉長;帶寬(b):Gab〇r濾波器的半響應空間頻率，帶寬b和σ/λ的比率有關，其中〇表示Gabor函數(shù)的高斯因子的標準差：
[0037] 1.3)碎片化區(qū)域再合并：
[0038] 1.3.1)行合并
[0039] 通過步驟1.1)以及1.2)得到初步合并的分割區(qū)域，并得到各區(qū)域的位置坐標 (left，top，right，bottom)，其中，文字行是不完整的文字行，一行文字被切割為分離的多個區(qū)域塊，通過比較各區(qū)域間的位置坐標以及區(qū)域的高度，同時考慮圖像掃描的誤差分析，假設區(qū)域X的坐標為（leftx，top x，rightx，bottomx)，區(qū)域y的坐標為（lefty，topy，righty， bottomy)，同時滿足以下三個坐標條件的區(qū)域合并為同一文本行：
[0041] 通過對區(qū)域進行遍歷，實現(xiàn)同行文字的行合并；
[0042] 1.3.2)重合區(qū)域合并
[0043] 分割區(qū)域有較多重合或者重復區(qū)域，根據(jù)重復區(qū)域的坐標特點進行合并。同時滿足以下兩個坐標條件的區(qū)域定義為重合區(qū)域，并進行區(qū)域合并：
[0045] 進一步地，所述的閱讀順序重構具體包括以下子步驟：
[0046] 2.1)對已知區(qū)域進行行填充。假設在步驟1)中得到了~個區(qū)域4={^1，^3 3， ... .xn}，xi表示任意一個區(qū)域，Xi按照區(qū)域的bottom值進行遞增，通過步驟1)得到Xi的區(qū)域位置，首先，令height = top-bottom，根據(jù)height的閾值初步判斷區(qū)域是否為圖像區(qū)域，通過判斷區(qū)域的位置關系以及坐標特征，對區(qū)域進行擴充，得到 Xl擴充后的區(qū)域位置（left， top，right，bottom)，下列兩種情況，需要進行文本行擴充，假設圖像區(qū)域X的坐標為 (leftx，topx，rightx，bottom x)，區(qū)域y的坐標為（lefty，topy，righty，bottomy)
[0047] 2.1.1)文本區(qū)域出現(xiàn)在圖像區(qū)域的附近：
[0049] 2.1.2)相鄰文本區(qū)域的擴充：
[0050] bottomx<topx+i
[0051] 2 . 2 )近鄰塊的選擇：根據(jù)X i區(qū)域位置，計算得到中心點的坐標
從而計算得到兩個區(qū)域之間的距離：
[0053]其中，若兩區(qū)域之間的位置關系不滿足正常閱讀習慣，即滿足以下兩個條件中任意一個，則令 distij = 1.7976931348623157E308;
[0054] L0055J 其中，誤差值根據(jù)掃描結果而定；
[0056] 2.3)設計優(yōu)化問題如下：
[0057] 利用整數(shù)線性規(guī)劃來構造閱讀順序使得所有區(qū)域之間的距離之和為最小，公式表示如下：
[0059] 得到每個覆蓋所有區(qū)域的單獨回路；
[0060] 2.4)約束條件設計，其中：
[0062] 設計約束如下：
[0063] (4)每個區(qū)域只能與其他另一個區(qū)域相連；
[0064] (5)兩個區(qū)域之間不允許有雙向的邊；
[0065] (6)考慮閱讀順序，要求兩區(qū)域之間的順序不能為左上；
[0067] (4)人為構造虛擬點及起始區(qū)域，結束區(qū)域，得到約束條件：
[0068] ui-uj+nxij^in-l whenKi! = j^in
[0069] 每個可行解包含只有一條覆蓋了所有區(qū)域的封閉區(qū)域序列，其中定義虛擬點到起始區(qū)域，結束區(qū)域的距離為0,虛擬點到其他區(qū)域的距離為1.7976931348623157E308;定義起始區(qū)域為bottom值最小的區(qū)域，定義結束區(qū)域為bottom值最大的區(qū)域。
[0070] 進一步地，所述步驟3)具體包括以下子步驟：
[0071] 3.1)對二值圖像中的連通域進行標記，得到二值圖像的標記矩陣后，得到測量標注矩陣L中每一個標注區(qū)域的一系列屬性；
[0072] 3.2)區(qū)域紋理特征利用流式細胞儀工具盒進行函數(shù)計算，這些功能的擴展基礎是灰度共生矩陣GLCM?；叶裙采仃嚹芊从吵鰣D像灰度關于方向、相鄰間隔、變化幅度的總和信息。
[0073] 3.3)對特征進行挑選，選擇特征值對區(qū)域進行分類分析；
[0074] 3.4)利用隨機森林算法給定區(qū)域類型，包括內容文本、圖像、表格、公式、頁眉頁腳、頁碼、無用區(qū)、公式標號。
[0075] 5、根據(jù)權利要求4所述的一種數(shù)字圖書版面分析方法，其特征在于，所述步驟3.3) 中，選擇29個特征值對區(qū)域進行分類分析，具體為:area，maxal，minal，eccent，equivDia， solidity,extent, peri ,autoc,contr,corrm,corrp,cprom,cshad,dissi,energ,entro, homom，homop，maxpr，sosvh，savgh，svarh，senth，dvarh，inflh，inf2h，indnc，idmnc;具體特征含義如下所示：
[0076]

[0078]本發(fā)明方法與現(xiàn)有技術相比具有的有益效果：
[0079] 1.通過形態(tài)學運算以及Gabor邊緣濾波結合處理圖像，在利用形態(tài)學方法對圖片進行過分割的基礎上，利用Gabor邊緣濾波進行過分割的區(qū)域的邊緣再檢測，從而實現(xiàn)分割區(qū)域的基礎合并
[0080] 2.利用文本區(qū)域的行合并和重合區(qū)域合并，提高了區(qū)域分割的準確性和完整性；
[0081 ] 3.通過判斷區(qū)域的位置關系以及坐標特征，對文本行進行填充，構造虛擬點以及起始區(qū)域，終止區(qū)域，設計優(yōu)化問題以及約束條件，提高閱讀順序重構的正確性，提高了讀者的閱讀質量；
[0082] 4.在圖像分類中，基于灰度共生矩陣，在基于二值圖像連通區(qū)域的特征提取的基礎上，擴展了紋理特征，利用流式細胞儀工具盒進行計算的函數(shù)計算。最后使用了隨機樹算法處理分類問題。實驗證明，該方法對圖像區(qū)域提取的準確率較高，對復雜背景或者分布不規(guī)則的圖像也能較好地實現(xiàn)各屬性區(qū)域的區(qū)分。
【附圖說明】
[0083]圖1 OCR版面分析效果圖展示；
[0084]圖2已有的版面分析效果圖；
[0085]圖3是本發(fā)明方法模塊展示圖；
[0086] 圖4是本發(fā)明的流程圖；
[0087] 圖5 CADAL數(shù)字圖書館中的樣本；
[0088] 圖6是完成區(qū)域分割及閱讀順序重構的展示圖；
[0089]圖7是區(qū)域類型分類結果。
【具體實施方式】
[0090] 下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。
[0091] 本發(fā)明提供的一種數(shù)字圖書的版面分析方法，包括以下步驟：
[0092] 1)圖書版面的區(qū)域分割:對數(shù)字圖書頁面進行區(qū)域分割，首先，利用形態(tài)學運算對原始圖像做腐蝕、開閉、邊緣檢測、膨脹移除處理，得到過分割圖片，過分割圖片中具有較多的區(qū)域碎片，接著利用Gabor線性濾波器進行原始圖像邊緣的再提取，對碎片化區(qū)域進行初步合并，最后利用碎片化區(qū)域的位置信息對初步合并后的區(qū)域進行再合并；
[0093] 2)閱讀順序重構:對步驟1)分割后的區(qū)域進行填充，增加虛擬點以及區(qū)域之間的距離關系，設計優(yōu)化問題及約束條件，得到閱讀順序；
[0094] 3)區(qū)域類型分類:提取、篩選分割區(qū)域的特征，形成可靠的特征向量，得到區(qū)域類型屬性，對其中的有用區(qū)域進行存儲；
[0095] 4)將各區(qū)域的坐標反饋給OCR引擎，從而在OCR處理分析時實現(xiàn)過濾功能，提高軟件處理效果。
[0096]進一步地，步驟1)中所述的圖書版面區(qū)域分割中的形態(tài)學運算、Gabor線性濾波、碎片化區(qū)域合并，具體為：
[0097] 1.1)基于圖像邊緣的形態(tài)學方法，即對原始圖像進行灰度變化后，利用腐蝕、膨脹、開閉運算提取圖片邊緣，并移除孤立圖像后，得到過分割圖片;具體實施步驟如下： [0098] (1)對得到的灰度圖像進行閾值處理，得到二值圖像。
[0099] (2)對二值圖像進行腐蝕。創(chuàng)建一個半徑為8的平坦型圓盤結構對圖像進行多重腐蝕。
[0100] (3)對腐蝕后圖像進行膨脹操作。此時，為了達到預期效果，創(chuàng)建一個8*8的正方形結構元素對圖像進行膨脹處理。
[0101] (4)運用形態(tài)學開運算imopen及閉運算imclose估計圖像背景。開運算是為了平滑圖像輪廓，使狹窄的連接處斷開從而實現(xiàn)細小突出部分的刪除，開運算時構建一個半徑為5 的圓盤結構。閉運算相當于開運算的逆過程，連接狹窄的缺口使之成為一個整體的部分，閉運算是采用了 5*5的正方形結構元素。
[0102] (5)標記圖像中灰度值不同的點，利用邊緣檢測算子SobehSobel算子能夠平滑噪聲，對消除噪聲影響有較好的效果。
[0103] Sobel算子中包括橫向模板以及縱向模板，實際使用中，常用如下兩個模板來檢測圖像邊緣。
[0112] (6)移除孤立的圖像。利用移除函數(shù)bwmorph對圖像進行指定的形態(tài)學操作，不過應用此操作N次。
[0113] 1.2)Gabor線性濾波:Gabor濾波器具有空間最優(yōu)和頻率最優(yōu)的特性，具有與人類生物視覺相似的特性，對應于空間頻率、空間位置以及方向選擇性的局部結構信息，Gabor 濾波器均能夠很好地表示與描述。同時，Gabor濾波器具有自相似的特點，即一個母小波通過膨脹和旋轉操作可以產(chǎn)生實驗所需的不同參數(shù)的Gabor濾波器。實際應用中，在頻域的不同尺度，不同方向上，Gabor均可以提取相關特征。
[0114] Gabor有兩個部分，即實部和虛部，用Gabor實部濾波進行平滑操作，虛部濾波進行邊緣檢測和初始合并：
[0121] 其中：
[0122] X7 =x cosB+y sinB
[0123] y7 =-χ sinB+y cosB
[0124] 公式中參數(shù)的含義及參數(shù)的配置問題：
[0125] x，y為空間域像素的位置；
[0126] 波長(λ):它的值以像素為單位，輸入圖像尺寸/5;
[0127] 方向（Θ):該參數(shù)指定了Gabor函數(shù)并行條紋的方向，取值范圍為(0°~360°);
[0128] 相位偏移(Φ):它的取值范圍（0°~180°)，-90度對應反對稱函數(shù)，0度為中心對稱的center-on函數(shù)，90度對應反對稱函數(shù)，180度對應center-off函數(shù)；
[0129] 長寬比（T):即空間縱橫比，該參數(shù)決定了Gabor函數(shù)形狀的橢圓率，當T=1時，形狀為圓形，當T〈 1時，形狀隨著平行條紋方向而拉長；
[0130] 帶寬（b):Gabor濾波器的半響應空間頻率，帶寬b和σ/λ的比率有關，其中σ表示 Gabor函數(shù)的高斯因子的標準差：
[0133] 具體實施步驟如下：
[0134] (1)將im圖像轉化成double類型；
[0135] (2)構造余弦濾波器和正弦濾波器，調整濾波器參數(shù)，并進行測試；
[0?36] (3)利用imrotate函數(shù)實現(xiàn)濾波器的旋轉；
[0137] evenFilter = imrotate(evenFilter,angle, 'bilinear')；
[0138] oddFilter = imrotate(oddFilter,angle, 'bilinear'）；
[0139] (4)調用濾波器進行濾波操作；
[0140] Eim = filter2(evenFilter, im) ； %Even filter result
[0141] 0im = filter2(oddFilter, im) ； %0dd filter result
[0142] Aim = sqrt(Eim. '2+0im. '2) ； %Amplitud
[0143] 返回幅值圖像。
[0144] 1.3)碎片化區(qū)域再合并：
[0145] 1.3.1)行合并
[0146] 通過步驟1 . 1)以及1.2)得到初步合并的分割區(qū)域，并得到各區(qū)域的位置坐標 (left，top，right，bottom)，其中，文字行是不完整的文字行，一行文字被切割為分離的多個區(qū)域塊，通過比較各區(qū)域間的位置坐標以及區(qū)域的高度，同時考慮圖像掃描的誤差分析，假設區(qū)域X的坐標為（leftx，top x，rightx，bottomx)，區(qū)域y的坐標為（lefty，topy，righty， bottomy)，同時滿足以下三個坐標條件的區(qū)域合并為同一文本行：
[0148]通過對區(qū)域進行遍歷，實現(xiàn)同行文字的行合并；
[0149] 1.3.2)重合區(qū)域合并
[0150] 分割區(qū)域有較多重合或者重復區(qū)域，根據(jù)重復區(qū)域的坐標特點進行合并。同時滿足以下兩個坐標條件的區(qū)域定義為重合區(qū)域，并進行區(qū)域合并：
[0152] 具體步驟如下所示：
[0153] 已知：給定兩個矩形A和B，我們可以定義矩形A的左上角坐標(A.left，A. top)，右下角坐標為（A. right, A. bottom)，矩形B的左上角坐標（Β· left，Β· top)，右下角坐標為 (B·right，Β·bottom)
[0154] 輸出：若矩形A與矩形B重合或者有相交，則將矩形A與矩形B合并，得到合并后矩形 C的坐標。
[0155] 矩形A內的任意點(x，y)，包括四邊上的點，應滿足如下不等式組
[0156] A. left^ix^iA.right ①
[0157] A. top A. bottom ②
[0158] 同理，B內的點滿足
[0159] B. left^ix^iB. right ③
[0160] B. top bottom ④
[0161] 若A、B有重合，則必定存在點同時滿足①②③④，所以有
[0162] max(A. left,B. left)<=min(A.right,B.right)
[0163] max(A. top, B. top) <=min( A. bottom, B. bottom)
[0164] 經(jīng)過合并之后我可以得到較為完整的圖像塊和文本塊。
[0165] 進一步地，所述的閱讀順序重構具體包括以下子步驟：
[0166] 2.1)對已知區(qū)域進行行填充。假設在步驟1)中得到了~個區(qū)域4={^1，^3 3， ... .xn}，xi表示任意一個區(qū)域，Xi按照區(qū)域的bottom值進行遞增，通過步驟1)得到Xi的區(qū)域位置，首先，令height = top-bottom，根據(jù)height的閾值初步判斷區(qū)域是否為圖像區(qū)域，通過判斷區(qū)域的位置關系以及坐標特征，對區(qū)域進行擴充，得到 Xl擴充后的區(qū)域位置（left， top，right，bottom)，下列兩種情況，需要進行文本行擴充，假設圖像區(qū)域X的坐標為 (leftx，topx，rightx，bottomx)，區(qū)域y的坐
[0167] 標為（lefty，topy，righty，bottomy)
[0168] 2.1.1)文本區(qū)域出現(xiàn)在圖像區(qū)域的附近：
[0170] 2.1.2)相鄰文本區(qū)域的擴充：
[0171] bottomx<topx+i
[0172] 2 . 2 )近鄰塊的選擇：根據(jù)X i區(qū)域位置，計算得到中心點的坐標
，從而計算得到兩個區(qū)域以和幻之間的距離：
[0176]其中，誤差值根據(jù)掃描結果而定；
[0177] 2.3)設計優(yōu)化問題如下：
[0178] 利用整數(shù)線性規(guī)劃來構造閱讀順序使得所有區(qū)域之間的距離之和為最小，公式表示如下：
[0180] 得到每個覆蓋所有區(qū)域的單獨回路；
[0181] 2.4)約束條件設計，其中：
[0183] 設計約束如下：
[0184] (1)每個區(qū)域只能與其他另一個區(qū)域相連；
[0185] (2)兩個區(qū)域之間不允許有雙向的邊；
[0186] (3)考慮閱讀順序，要求兩區(qū)域之間的順序不能為左上；

[0174] 其中，若兩區(qū)域之間的位置關系不滿足正常閱讀習慣，即滿足以下兩個條件中任意一個，則令 distij = 1.7976931348623157E308;[0175]
[0188] (4)人為構造虛擬點及起始區(qū)域，結束區(qū)域，得到約束條件：
[0189] ui-uj+nxij<n-l whenKi! = j<n
[0190] 每個可行解包含只有一條覆蓋了所有區(qū)域的封閉區(qū)域序列，其中定義虛擬點到起始區(qū)域，結束區(qū)域的距離為0,虛擬點到其他區(qū)域的距離為1.7976931348623157E308;定義起始區(qū)域為bottom值最小的區(qū)域，定義結束區(qū)域為bottom值最大的區(qū)域。
[0191] 所述步驟3)具體包括以下子步驟：
[0192] 3.1)對二值圖像中的連通域進行標記，得到二值圖像的標記矩陣后，得到測量標注矩陣L中每一個標注區(qū)域的一系列屬性；
[0193] 3.2)區(qū)域紋理特征利用流式細胞儀工具盒進行函數(shù)計算，這些功能的擴展基礎是灰度共生矩陣GLCM?；叶裙采仃嚹芊从吵鰣D像灰度關于方向、相鄰間隔、變化幅度的總和 ig 息
[0194] 3.3)對特征進行挑選，選擇29個特征值對區(qū)域進行分類分析；具體為：area， maxal，minal，eccent，equivDia，solidity，extent，peri，autoc，contr，corrm，corrp， cprom，cshad，dissi，energ，entro，homom，homop，maxpr，sosvh，savgh，svarh，senth， dvarh，inflh，inf2h，indnc，idmnc;具體特征含義如下所示：
[0195]

[0197] 3.4)利用隨機森林算法給定區(qū)域類型，包括內容文本、圖像、表格、公式、頁眉頁腳、頁碼、無用區(qū)、公式標號。
[0198] 實施例
[0199] 下面結合本發(fā)明的方法詳細說明本實例實施的具體步驟，這里以CADAL圖書館數(shù) 字圖書館掃描的電子圖書中的某一頁作為例子，如圖5所示，說明圖3的所有過程。
[0200] 1)讀取原始圖片，對彩色圖片進行灰度處理，讀入灰度圖片
[0201] 2)提取圖片邊緣。創(chuàng)建一個8*8的正方形結構元素對圖像進行膨脹處理。運用形態(tài) 學開運算imopen及閉運算imclose估計圖像背景。開運算是為了平滑圖像輪廓，使狹窄的連接處斷開從而實現(xiàn)細小突出部分的刪除，開運算時構建一個半徑為5的圓盤結構。閉運算相當于開運算的逆過程，連接狹窄的缺口使之成為一個整體的部分，閉運算是采用了 5*5的正方形結構元素。標記圖像中灰度值不同的點，利用邊緣檢測算子Sobel。
[0202] 3)進行線性Gabor濾波器濾波，在過分割圖片基礎上進行更近一步的邊緣檢測
[0203] 4)對重合及包含關系的分割區(qū)域進行合并，利用每個分割區(qū)域的坐標特點。
[0204] 5)對步驟4)得到的文本行進行擴充，得到擴充后各區(qū)域的坐標(left，right，top， bottom)，計算得到（centerx，centery)，從而計算distij〇
[0205 ] 構造虛擬點，s tar t -區(qū)域，end -區(qū)域，并對上述的N+3區(qū)域構造約束條件
[0210] 6)提取分割的區(qū)域特征，基于灰度共生矩陣，提取合并后的分割區(qū)域的特征值。包括基于二值圖像連通域的特征值以及紋理特征。
[0211] 7)利用步驟6)得到的特征值進行區(qū)域屬性分類，保存區(qū)域位置。
【主權項】
1. 一種數(shù)字圖書的版面分析方法，其特征在于，包括W下步驟： 1) 圖書版面的區(qū)域分割:對數(shù)字圖書頁面進行區(qū)域分割，首先，利用形態(tài)學運算對原始圖像做腐蝕、開閉、邊緣檢測、膨脹移除處理，得到過分割圖片，過分割圖片中具有較多的區(qū) 域碎片，接著利用Gabor線性濾波器進行原始圖像邊緣的再提取，對碎片化區(qū)域進行初步合并，最后利用碎片化區(qū)域的位置信息對初步合并后的區(qū)域進行再合并； 2) 閱讀順序重構:對步驟1)分割后的區(qū)域進行填充，增加虛擬點W及區(qū)域之間的距離關系，設計優(yōu)化問題及約束條件，得到閱讀順序； 3) 區(qū)域類型分類:提取、篩選分割區(qū)域的特征，形成可靠的特征向量，得到區(qū)域類型屬性，對其中的有用區(qū)域進行存儲； 4) 將各區(qū)域的坐標反饋給OCR引擎，從而在OCR處理分析時實現(xiàn)過濾功能，提高軟件處理效果。2. 根據(jù)權利要求1所述的一種數(shù)字圖書的版面分析方法，其特征在于，步驟1)中所述的圖書版面區(qū)域分割中的形態(tài)學運算、Gabor線性濾波、碎片化區(qū)域合并，具體為： 1.1) 基于圖像邊緣的形態(tài)學方法，即對原始圖像進行灰度變化后，利用腐蝕、膨脹、開閉運算提取圖片邊緣，并移除孤立圖像后，得到過分割圖片； 1.2) Gabor線性濾波：用Gabor實部濾波進行平滑操作，虛部濾波進行邊緣檢測和初始合并： Gabor復數(shù)表達：其中： χ/ =x cos白+ysin白 y/ =-χ sin白+ycos白公式中參數(shù)的含義及參數(shù)的配置問題： x，y為空間域像素的位置；波長(λ):它的值W像素為單位，2《λ《輸入圖像尺寸/5; 方向（Θ):該參數(shù)指定了Gabor函數(shù)并行條紋的方向，取值范圍為(0°~360°); 相位偏移（Φ):它的取值范圍（0°~180° )，- 90度對應反對稱函數(shù)，0度為中屯、對稱的 center-on函數(shù)，90度對應反對稱函數(shù)，180度對應center-off函數(shù)；長寬比（T):即空間縱橫比，該參數(shù)決定了 Gabor函數(shù)形狀的楠圓率，當T=1時，形狀為圓形，當T<1時，形狀隨著平行條紋方向而拉長；帶寬（b):Gab〇r濾波器的半響應空間頻率，帶寬b和ο/λ的比率有關，其中0表示Gabor函數(shù)的高斯因子的標準差：1.3)碎片化區(qū)域再合并： 1.3.1) 化合并通過步驟1.1) W及1.2)得到初步合并的分割區(qū)域，并得到各區(qū)域的位置坐標（left, top,ri曲t，bottom)，其中，文字行是不完整的文字行，一行文字被切割為分離的多個區(qū)域塊，通過比較各區(qū)域間的位置坐標W及區(qū)域的高度，同時考慮圖像掃描的誤差分析，假設區(qū) 域x的坐標為（leftx，topx，;ri曲tx，bottomx)，區(qū)域y的坐標為（lefty，topy，;ri曲ty，bottomy)，同時滿足W下Ξ個坐標條件的區(qū)域合并為同一文本行：通過對區(qū)域進行遍歷，實現(xiàn)同行文字的行合并； 1.3.2) 重合區(qū)域合并分割區(qū)域有較多重合或者重復區(qū)域，根據(jù)重復區(qū)域的坐標特點進行合并。將同時滿足 W下兩個坐標條件的區(qū)域定義為重合區(qū)域，進行區(qū)域合并：3.根據(jù)權利要求1所述的一種數(shù)字圖書版面分析方法，其特征在于，所述的閱讀順序重構具體包括W下子步驟： 2.1) 對已知區(qū)域進行行填充。假設在步驟1)中得到了N個區(qū)域，X={X1，X2，X3，....XN}， X康示任意一個區(qū)域，XI按照分割后區(qū)域的bottom值進行遞增，通過步驟1)得到XI的區(qū)域位置，首先，令height = top-bottom,根據(jù)height的闊值初步判斷區(qū)域是否為圖像區(qū)域，通過判斷區(qū)域的位置關系W及坐標特征，對區(qū)域進行擴充，得到XI擴充后的區(qū)域位置（left, top, right, bottom),下列兩種情況，需要進行文本行擴充，假設圖像區(qū)域X的坐標為 (leftx，topix，;rightx，bottomx)，區(qū)域y的坐標為（lefty，topy，;ri曲ty，bottomy) 2.1.1) 文本區(qū)域出現(xiàn)在圖像區(qū)域的附近：2.1.2) 相鄰文本區(qū)域的擴充： bottomx<topx+i 2 . 2 )近鄰塊的選擇：根據(jù)X 1區(qū)域位置，計算得到中屯、點的坐標乂而計算得到兩個區(qū)域^和^之間的距離：其中，若兩區(qū)域之間的位置關系不滿足正常閱讀習慣，即滿足W下兩個條件中任意一個，則令 distu = 1.7976931348623157E308;其中，誤差值根據(jù)掃描結果而定； 2.3) 設計優(yōu)化問題如下：利用整數(shù)線性規(guī)劃來構造閱讀順序使得所有區(qū)域之間的距離之和為最小，公式表示如下：得到每個覆蓋所有區(qū)域的單獨回路； 2.4) 約束條件設計，其中：設計約束如下： (1) 每個區(qū)域只能與其他另一個區(qū)域相連； (2) 兩個區(qū)域之間不允許有雙向的邊； (3) 考慮閱讀順序，要求兩區(qū)域之間的順序不能為左上；(4) 人為構造虛擬點及起始區(qū)域，結束區(qū)域，得到約束條件： Ui-Uj+nxij《n-l whenl《i!=j《n 每個可行解包含只有一條覆蓋了所有區(qū)域的封閉區(qū)域序列，其中定義虛擬點到起始區(qū) 域，結束區(qū)域的距離為0,虛擬點到其他區(qū)域的距離為1.7976931348623157E308;定義起始區(qū)域為bottom值最小的區(qū)域，定義結束區(qū)域為bottom值最大的區(qū)域。4.根據(jù)權利要求1所述的一種數(shù)字圖書版面分析方法，其特征在于，所述步驟3)具體包括W下子步驟： 3.1) 對二值圖像中的連通域進行標記，得到二值圖像的標記矩陣后，得到測量標注矩陣L中每一個標注區(qū)域的一系列屬性； 3.2) 區(qū)域紋理特征利用流式細胞儀工具盒進行函數(shù)計算，運些功能的擴展基礎是灰度共生矩陣化CM?；叶裙采仃嚹芊从吵鰣D像灰度關于方向、相鄰間隔、變化幅度的總和信息。 3.3) 對特征進行挑選，選擇特征值對區(qū)域進行分類分析； 3.4)利用隨機森林算法給定區(qū)域類型，包括內容文本、圖像、表格、公式、頁眉頁腳、頁碼、無用區(qū)、公式標號。5.根據(jù)權利要求4所述的一種數(shù)字圖書版面分析方法，其特征在于，所述步驟3.3)中，選擇29個特征值對區(qū)域進行分類分析，具體為：area，maxal ,minal, eccent, equivDia, solidity,extent,peri ,autoc,contr,corrm,corrp,cprom,cshad,dissi,energ,entro, homom, homop ,m曰xpr, sosvh, s曰vgh, sv曰rh, senth, dv曰rh, inf Ih, inf 2h, indnc, idmnc ；具體特征含義如下所示：
【文檔編號】G06T5/30GK106096592SQ201610584126
【公開日】2016年11月9日
【申請日】2016年7月22日公開號201610584126.7, CN 106096592 A, CN 106096592A, CN 201610584126, CN-A-106096592, CN106096592 A, CN106096592A, CN201610584126, CN201610584126.7
【發(fā)明人】魯偉明, 劉佳卉, 莊越挺, 吳飛, 魏寶剛
【申請人】浙江大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：魯偉明;劉佳卉;莊越挺;吳飛;魏寶剛;
技術所有人：浙江大學;
我是此專利的發(fā)明人

上一篇：一種裝載機鏟裝過程的有效作業(yè)段的識別方法
上一篇：基于柔性電路的手部運動信號采集系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)字圖書的版面分析方法