一種表格圖像的自動切分方法

文檔序號：8318932閱讀：542來源：國知局

一種表格圖像的自動切分方法
【技術領域】
[0001] 本發(fā)明涉及表格圖像處理技術領域，特別是一種表格圖像的自動切分方法。
【背景技術】
[0002] 傳統(tǒng)對手寫文稿錄入都采用人工手段，而且手寫文稿的書寫多樣化、復雜化，使得員工的勞動強度高，錄入效率卻很低，這給工作帶來了很大的麻煩，為此研究者們開發(fā)了許多的應用軟件，希望能從根本上解決手寫文稿快速錄入問題。
[0003] 根據(jù)中國專利【CN103020619A】"一種自動切分電子化筆記本中手寫條目的方法"，如圖2所示，⑴拍攝需要電子化的筆記本的紙質頁面圖像；（2)通過圖像中的直線檢測方法確定所述紙質頁面圖像的四條邊緣線，并將四條邊緣線所限定的頁面區(qū)域校正為方形區(qū) 域；（3)根據(jù)所述紙質頁面圖像確定所述紙質頁面的類型，獲得預先保存的所述類型筆記本的紙質頁面空白切分模板，所述空白切分模板由若干文字塊組成；(4)確定所述方形區(qū) 域中用戶手寫筆跡所在的文字塊，以文字塊為單位自動切分提取處于任意一個文字塊中的用戶手寫筆跡。該發(fā)明對模板與手寫文本的重合度只是簡單的判別不能達到精確定位，同時對參雜有表格在內的手寫文本區(qū)域不能有效處理。

【發(fā)明內容】

[0004] 本發(fā)明的目的在于：針對現(xiàn)有技術中存在的上述技術問題，提供一種結合了知識驅動信息和數(shù)據(jù)驅動信息的圖像區(qū)域精確定位技術以及基于表格圖像準確自動切分的表格數(shù)據(jù)自動智能處理系統(tǒng)，能有效提高錄入效率的表格圖像的自動切分方法。
[0005] 本發(fā)明是通過以下技術方案實現(xiàn)的：
[0006] -種表格圖像的自動切分方法，包括如下步驟：（1)在表格文檔內獲取表格實體； (2)掃描或拍攝表格實體獲得表格圖像；（3)對表格圖像數(shù)據(jù)自動分析與學習，獲取應用于手寫體文本區(qū)域切分的數(shù)據(jù)驅動信息；(4)表格定制，將表格及其區(qū)域信息都存入表格模板庫；（5)從表格模版庫，得到應用于區(qū)域切分的知識驅動信息；(6)區(qū)域分析綜合數(shù)據(jù)驅動信息和知識驅動信息，對表格圖像進行區(qū)域分析與定位，得到切分區(qū)域的位置等區(qū)域信息；（7)區(qū)域切分利用區(qū)域信息，對表格圖像進行切分，得到最后輸出的區(qū)域圖像。
[0007] 進一步的是，對表格圖像數(shù)據(jù)自動分析與學習，獲取應用于手寫體文本區(qū)域切分的數(shù)據(jù)驅動信息，其中包括區(qū)域的位置和類型信息；對表格圖像數(shù)據(jù)自動分析與學習步驟如下：
[0008] (A)首先將表格圖像二值化；系統(tǒng)中，采用自適應的二值化方法，結合Otsu方法和 Niblack方法，得到的圖像為兩種二值化方法得到圖像的"與";設p(x，y)為最后輸出的二值化圖像點（X，y)的值，P Qtsu(X，y)為OtSU方法得到的值，Pmblaek(X，y)為Niblack方法得到的值，則有
[0009] p(x, y) = Potsu(x, y) &pNiblack (x, y)
[0010] 其中，p(x, y) = I表示黑點（前景字符），p(x, y) = 0表示白點（背景）；
[0011] (B)通過連通域分析得到表格圖像相應的各個區(qū)域，然后需要對區(qū)域進行判別；在混合層次上對手寫體進行判別，即處理的單元為一些連通域的合并塊，手寫體特性的不確定性，采用的一種基于增量學習的Fisher線性判別（Fisher Linear Discriminant,FLD) 分類器，經典FLD算法的投影矩陣（向量）為
[0012]
【主權項】
1. 一種表格圖像的自動切分方法，其特征在于，包括如下步驟： (1) 在表格文檔內獲取表格實體； (2) 掃描或拍攝表格實體獲得表格圖像； (3) 對表格圖像數(shù)據(jù)自動分析與學習，獲取應用于手寫體文本區(qū)域切分的數(shù)據(jù)驅動信息； (4) 表格定制，將表格及其區(qū)域信息都存入表格模板庫； (5) 從表格模版庫獲取應用于區(qū)域切分的知識驅動信息； (6) 區(qū)域分析綜合數(shù)據(jù)驅動信息和知識驅動信息，對表格圖像進行區(qū)域分析與定位，得到區(qū)域信息； (7) 區(qū)域切分利用區(qū)域信息，對表格圖像進行切分，得到最后輸出的區(qū)域圖像。
2. 根據(jù)權利要求1所述的一種表格圖像的自動切分方法，其特征在于：對表格圖像數(shù) 據(jù)自動分析與學習，獲取應用于手寫體文本區(qū)域切分的數(shù)據(jù)驅動信息，其中包括區(qū)域的位置和類型信息；對表格圖像數(shù)據(jù)自動分析與學習進行如下： (A) 首先將表格圖像二值化；系統(tǒng)中，采用自適應的二值化方法，結合Otsu方法和 Niblack方法，得到的圖像為兩種二值化方法得到圖像的"與";設p(x，y)為最后輸出的二值化圖像點（X，y)的值，P Qtsu(X，y)為OtSU方法得到的值，Pmblaek(X，y)為Niblack方法得到的值，則有 p(x, y) = Potsu(x, y)&pNi black (χ, y) 其中，p(x, y) = I表示黑點（前景字符），p(x, y) = 0表示白點（背景）； (B) 另外，通過連通域分析得到表格圖像相應的各個區(qū)域，然后需要對區(qū)域進行判別；在混合層次上對手寫體進行判別，即處理的單元為一些連通域的合并塊；手寫體特性的不確定性，采用的一種基于增量學習的Fisher線性判別（Fisher Linear Discr iminant， FLD)分類器，經典FLD算法的投影矩陣（向量）為 W = S~\mx -m2) 其中，Sw = CJC2為類內離散度矩陣，HIi為各類樣本均值向量；利用序列SKL變換算法（Sequential Karhunen-Loeve Algorithm，SKL)增量形式更新 Ci, SKL算法通過K個最大特征值組成的Di和相應的特征向量組成的Ui來估計Ci O - UiDiUf 其中，Di是一個KXK維的正交矩陣，Ui是具有K列的矩陣；在手寫體判別中，使用的特征向量維數(shù)比較少，所以隨著新樣本的不斷增加，直接使用奇異解分解（Singular Value Decomposition，SVD)來更新 Di 和 Ui ; 在該增量型分類器中，利用一種自適應過濾器方式來更新Hli mnew _ Q _ a)mj + OXi 其中，α是一個平均常數(shù)因子，一般可設為0. 05,而Xi為增量學習中第i類的新樣本。
3. 根據(jù)權利要求1所述的一種表格圖像的自動切分方法，其特征在于：區(qū)域分析綜合數(shù)據(jù)驅動信息和知識驅動信息，如果數(shù)據(jù)驅動信息手寫體文本區(qū)域位置和知識驅動信息手寫體文本區(qū)域位置重合度高于50%，則利用數(shù)據(jù)驅動信息得到的手寫體文本區(qū)域作為最終的切分區(qū)域，而對于其它類型的文本區(qū)域，則以來自于表格模版庫中的知識驅動信息為主，進行切分區(qū)域的定位。
【專利摘要】本發(fā)明公開一種表格圖像的自動切分方法，包括表格及其區(qū)域信息的錄入，在表格圖像中自動分析、檢測與定位手寫體文本區(qū)域以及切分區(qū)域的最終定位，其步驟如下：a、對已知表格中需要切分、識別或人工錄入的區(qū)域進行事先標定，通過模版定制，將表格及其區(qū)域信息都存入表格模板庫，獲取知識驅動信息；b、對掃描或拍攝的表格圖像進行自動分析、檢測與定位文本區(qū)域，獲取數(shù)據(jù)驅動信息；c、綜合知識驅動信息和數(shù)據(jù)驅動信息，比較兩者吻合程度，對最終切分區(qū)域的定位。本發(fā)明結合了知識驅動信息和數(shù)據(jù)驅動信息的圖像區(qū)域精確定位技術以及基于表格圖像準確自動切分的表格數(shù)據(jù)自動智能處理系統(tǒng)。
【IPC分類】G06F9-32, G06F9-54
【公開號】CN104636117
【申請?zhí)枴緾N201310557566
【發(fā)明人】殷緒成
【申請人】江蘇奧博洋信息技術有限公司
【公開日】2015年5月20日
【申請日】2013年11月12日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：殷緒成;
技術所有人：江蘇奧博洋信息技術有限公司;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種表格圖像的自動切分方法