欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于掩膜的圖像表格文檔識別方法

文檔序號:6502117閱讀:293來源:國知局
基于掩膜的圖像表格文檔識別方法
【專利摘要】本發(fā)明公開了一種基于掩膜的圖像表格文檔識別方法,包括以下步驟:第一步,表格文檔圖像預處理;第二步,表格文檔圖像掩膜制作;第三步,針對不同的表格文檔圖像,重復上述第一步和第二步,制作成表格文檔圖像掩膜庫;第四步,掩膜匹配;第五步,局部表格文檔圖片分割識別。本發(fā)明將切碎的微小圖像進行內(nèi)容識別,單個微小圖像在糾偏、去噪和去除圖片底色后便于目前成熟OCR產(chǎn)品高效識別,省去了OCR產(chǎn)品對整張原始圖像的版面分析過程。本發(fā)明提高了圖像表格文檔識別效率,去除了整版版面分析的時間浪費,整體的有效識別率提高,處理速度加快,提高了圖像表格文檔的識別準確率??傊?,本發(fā)明識別準確率高,識別效率高。
【專利說明】基于掩膜的圖像表格文檔識別方法

【技術領域】
[0001] 本發(fā)明涉及一種版式文檔圖像表格識別方法,尤其涉及一種基于掩膜的圖像表格 文檔識別方法。

【背景技術】
[0002] 現(xiàn)有的圖像表格文檔識別都是基于整個版面分析后做識別。這些方案都是以OCR/ ICR引擎為核心。對文檔整個版面按照"基于連通區(qū)域的版面分割算法"或者是"膨脹版面 分析算法"進行版面分析后逐條對識別字符進行識別。但對整體的識別效率和準確率,特 別是對有統(tǒng)一樣式圖像超高識別率要求的特別域一即有效識別率及效率,沒有做考慮和設 計。同時,由于OCR / ICR的效率問題,往往處理速度較慢,無法應對高時效的要求。


【發(fā)明內(nèi)容】

[0003] 本發(fā)明所要解決的技術問題是針對上述現(xiàn)有技術的不足,提供一種識別準確性 商、識別效率商的基于掩I旲的圖像表格文檔識別方法。
[0004] 為實現(xiàn)上述技術目的,本發(fā)明米取的技術方案為:一種基于掩膜的圖像表格文檔 識別方法,包括以下步驟: 第一步,表格文檔圖像預處理:采用權平均法對表格文檔圖像進行灰度化處理,然后采 用最大類間方差方法對表格文檔圖像進行二值化處理,以對表格線進行糾偏,形成預處理 表格文檔圖像; 第二步,表格文檔圖像掩膜制作:首先,掃描并且識別預處理表格文檔圖像,并對掃描 的預處理表格文檔圖像結果進行二值化,以完成糾偏和去噪;然后,用圖像工具去除預處理 表格文檔圖像的單元格內(nèi)的具體內(nèi)容,只保留版面分隔的表格線信息,制作成表格文檔圖 像掩膜;所述表格文檔圖像掩膜用于和表格文檔圖像進行試匹配,以驗證掩膜的準確性; 第三步,針對不同的表格文檔圖像,重復上述第一步和第二步,制作成表格文檔圖像掩 膜庫; 第四步,掩膜匹配:首先,針對現(xiàn)實中包含數(shù)據(jù)的表格文檔圖像,采用第一步的方法進 行處理,形成預處理表格文檔圖像;其次,對預處理表格文檔圖像進行掩膜匹配:1)根據(jù)預 處理表格文檔圖像不同的特征對預處理表格文檔圖像加以區(qū)分和分類;2)然后,將表格文 檔圖像掩膜庫中的各個表格文檔圖像掩膜依次與預處理表格文檔圖像通過Hausdorff算 法進行覆蓋匹配,形成添加了掩膜的預處理表格文檔圖像;3)再將添加了掩膜的預處理表 格文檔圖像進行保存并且傳遞給下一步進行處理; 第五步,局部表格文檔圖片分割識別:首先,對于已經(jīng)完成掩膜匹配的預處理表格文檔 圖像,根據(jù)匹配的表格文檔圖像掩膜的坐標信息對被掩膜成功覆蓋的預處理文檔進行局部 定位,所述坐標信息中包含每個單元格的4個坐標點信息;所述局部定位是指根據(jù)表格文 檔圖像掩膜中的各個單元格的坐標信息鎖定目標文檔的內(nèi)容;其次,在局部圖像信息鎖定 后進行切碎處理,形成微小圖像;所述微小圖像的大小取決于單元格內(nèi)的具體內(nèi)容的大小; 然后,進一步對切碎的微小圖像進行內(nèi)容識別。
[0005] 作為本發(fā)明進一步改進的技術方案,所述文檔圖像與處理包括以下步驟:1)文檔 圖像的二值化:用于將表格文檔圖像處理成黑和白兩種顏色;2)對文檔圖像的水平線識別 處理:用于定位表格文檔圖像中表格的所有水平線的坐標位置;3)對文檔圖像的垂直線識 別處理:定位表格文檔圖像中表格的所有垂直的坐標位置;4)對文檔圖像的垂直線糾偏處 理:用于還原表格文檔圖像真實的形狀;5)對文檔圖像水平線糾偏處理:用于還原表格文 檔圖像真實的形狀; 作為本發(fā)明進一步改進的技術方案,HausdorfT最小距離算法的表達式為:

【權利要求】
1. 一種基于掩膜的圖像表格文檔識別方法,包括以下步驟: 第一步,表格文檔圖像預處理:采用權平均法對表格文檔圖像進行灰度化處理,然后采 用最大類間方差方法對表格文檔圖像進行二值化處理,以對表格線進行糾偏,形成預處理 表格文檔圖像; 第二步,表格文檔圖像掩膜制作: 首先,掃描并且識別預處理表格文檔圖像,并對掃描的預處理表格文檔圖像結果進行 二值化,以完成糾偏和去噪; 然后,用圖像工具去除預處理表格文檔圖像的單元格內(nèi)的具體內(nèi)容,只保留版面分隔 的表格線信息,制作成表格文檔圖像掩膜;所述表格文檔圖像掩膜用于和表格文檔圖像進 行試匹配,以驗證掩膜的準確性; 第三步,針對不同的表格文檔圖像,重復上述第一步和第二步,制作成表格文檔圖像掩 膜庫; 第四步,掩膜匹配: 首先,針對現(xiàn)實中包含數(shù)據(jù)的表格文檔圖像,采用第一步的方法進行處理,形成預處理 表格文檔圖像; 其次,對預處理表格文檔圖像進行掩膜匹配: 1) 根據(jù)預處理表格文檔圖像不同的特征對預處理表格文檔圖像加以區(qū)分和分類; 2) 然后,將表格文檔圖像掩膜庫中的各個表格文檔圖像掩膜依次與預處理表格文檔圖 像通過Hausdorff算法進行覆蓋匹配,形成添加了掩膜的預處理表格文檔圖像; 3) 再將添加了掩膜的預處理表格文檔圖像進行保存并且傳遞給下一步進行處理; 第五步,局部表格文檔圖片分割識別: 首先,對于已經(jīng)完成掩膜匹配的預處理表格文檔圖像,根據(jù)匹配的表格文檔圖像掩膜 的坐標信息對被掩膜成功覆蓋的預處理文檔進行局部定位,所述坐標信息中包含每個單元 格的4個坐標點信息;所述局部定位是指根據(jù)表格文檔圖像掩膜中的各個單元格的坐標信 息鎖定目標文檔的內(nèi)容; 其次,在局部圖像信息鎖定后進行切碎處理,形成微小圖像;所述微小圖像的大小取決 于單元格內(nèi)的具體內(nèi)容的大小; 然后,進一步對切碎的微小圖像進行內(nèi)容識別。
2. 根據(jù)權利要求1所述的基于模板的圖像表格文檔識別方法,其特征在于所述文檔圖 像與處理包括以下步驟: 1) 文檔圖像的二值化:用于將表格文檔圖像處理成黑和白兩種顏色; 2) 對文檔圖像的水平線識別處理:用于定位表格文檔圖像中表格的所有水平線的坐標 位置; 3) 對文檔圖像的垂直線識別處理:定位表格文檔圖像中表格的所有垂直的坐標位置; 4) 對文檔圖像的垂直線糾偏處理:用于還原表格文檔圖像真實的形狀;由于掃描圖像 過程中圖像會出現(xiàn)不同程度的扭曲,該步驟為了); 5) 對文檔圖像水平線糾偏處理:用于還原表格文檔圖像真實的形狀。
3. 根據(jù)權利要求1所述的基于模板的圖像表格文檔識別方法,其特征在于Hausdorff 最小距離算法的表達式為: Η = (Α.Β) = imx(k(A.B)Ji(B.Aj) 這里, Μ A. Β) = max mill I a-b 其中A和B為兩組點集,及集合A={al,《",ap},集合B={bl,…,bq},H(A,B)兩組點集 之間距離的一種定義形式,用于描述兩組點集之間相似程度的一種量度。
【文檔編號】G06K9/00GK104123527SQ201310145105
【公開日】2014年10月29日 申請日期:2013年4月25日 優(yōu)先權日:2013年4月25日
【發(fā)明者】魏昊, 張磊 申請人:魏昊, 張磊
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
土默特右旗| 博兴县| 夏河县| 满洲里市| 江阴市| 伊川县| 海阳市| 望奎县| 玉山县| 剑阁县| 湘阴县| 阳原县| 榆中县| 青冈县| 邹平县| 张家川| 衡东县| 岑溪市| 新巴尔虎左旗| 舒城县| 洛南县| 汽车| 宁晋县| 新竹县| 时尚| 湖北省| 望都县| 镶黄旗| 武安市| 页游| 大姚县| 乌苏市| 桐庐县| 积石山| 抚远县| 河间市| 芦山县| 珠海市| 北川| 铜陵市| 阿拉善盟|