欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種表格圖像的自動切分方法

文檔序號:8318932閱讀:542來源:國知局
一種表格圖像的自動切分方法
【技術領域】
[0001] 本發(fā)明涉及表格圖像處理技術領域,特別是一種表格圖像的自動切分方法。
【背景技術】
[0002] 傳統(tǒng)對手寫文稿錄入都采用人工手段,而且手寫文稿的書寫多樣化、復雜化,使得 員工的勞動強度高,錄入效率卻很低,這給工作帶來了很大的麻煩,為此研究者們開發(fā)了許 多的應用軟件,希望能從根本上解決手寫文稿快速錄入問題。
[0003] 根據(jù)中國專利【CN103020619A】"一種自動切分電子化筆記本中手寫條目的方法", 如圖2所示,⑴拍攝需要電子化的筆記本的紙質頁面圖像;(2)通過圖像中的直線檢測方 法確定所述紙質頁面圖像的四條邊緣線,并將四條邊緣線所限定的頁面區(qū)域校正為方形區(qū) 域;(3)根據(jù)所述紙質頁面圖像確定所述紙質頁面的類型,獲得預先保存的所述類型筆記 本的紙質頁面空白切分模板,所述空白切分模板由若干文字塊組成;(4)確定所述方形區(qū) 域中用戶手寫筆跡所在的文字塊,以文字塊為單位自動切分提取處于任意一個文字塊中的 用戶手寫筆跡。該發(fā)明對模板與手寫文本的重合度只是簡單的判別不能達到精確定位,同 時對參雜有表格在內的手寫文本區(qū)域不能有效處理。

【發(fā)明內容】

[0004] 本發(fā)明的目的在于:針對現(xiàn)有技術中存在的上述技術問題,提供一種結合了知識 驅動信息和數(shù)據(jù)驅動信息的圖像區(qū)域精確定位技術以及基于表格圖像準確自動切分的表 格數(shù)據(jù)自動智能處理系統(tǒng),能有效提高錄入效率的表格圖像的自動切分方法。
[0005] 本發(fā)明是通過以下技術方案實現(xiàn)的:
[0006] -種表格圖像的自動切分方法,包括如下步驟:(1)在表格文檔內獲取表格實體; (2)掃描或拍攝表格實體獲得表格圖像;(3)對表格圖像數(shù)據(jù)自動分析與學習,獲取應用于 手寫體文本區(qū)域切分的數(shù)據(jù)驅動信息;(4)表格定制,將表格及其區(qū)域信息都存入表格模 板庫;(5)從表格模版庫,得到應用于區(qū)域切分的知識驅動信息;(6)區(qū)域分析綜合數(shù)據(jù)驅 動信息和知識驅動信息,對表格圖像進行區(qū)域分析與定位,得到切分區(qū)域的位置等區(qū)域信 息;(7)區(qū)域切分利用區(qū)域信息,對表格圖像進行切分,得到最后輸出的區(qū)域圖像。
[0007] 進一步的是,對表格圖像數(shù)據(jù)自動分析與學習,獲取應用于手寫體文本區(qū)域切分 的數(shù)據(jù)驅動信息,其中包括區(qū)域的位置和類型信息;對表格圖像數(shù)據(jù)自動分析與學習步驟 如下:
[0008] (A)首先將表格圖像二值化;系統(tǒng)中,采用自適應的二值化方法,結合Otsu方法和 Niblack方法,得到的圖像為兩種二值化方法得到圖像的"與";設p(x,y)為最后輸出的二 值化圖像點(X,y)的值,P Qtsu(X,y)為OtSU方法得到的值,Pmblaek(X,y)為Niblack方法得 到的值,則有
[0009] p(x, y) = Potsu(x, y) &pNiblack (x, y)
[0010] 其中,p(x, y) = I表示黑點(前景字符),p(x, y) = 0表示白點(背景);
[0011] (B)通過連通域分析得到表格圖像相應的各個區(qū)域,然后需要對區(qū)域進行判別; 在混合層次上對手寫體進行判別,即處理的單元為一些連通域的合并塊,手寫體特性的不 確定性,采用的一種基于增量學習的Fisher線性判別(Fisher Linear Discriminant,FLD) 分類器,經典FLD算法的投影矩陣(向量)為
[0012]
【主權項】
1. 一種表格圖像的自動切分方法,其特征在于,包括如下步驟: (1) 在表格文檔內獲取表格實體; (2) 掃描或拍攝表格實體獲得表格圖像; (3) 對表格圖像數(shù)據(jù)自動分析與學習,獲取應用于手寫體文本區(qū)域切分的數(shù)據(jù)驅動信息; (4) 表格定制,將表格及其區(qū)域信息都存入表格模板庫; (5) 從表格模版庫獲取應用于區(qū)域切分的知識驅動信息; (6) 區(qū)域分析綜合數(shù)據(jù)驅動信息和知識驅動信息,對表格圖像進行區(qū)域分析與定位,得 到區(qū)域信息; (7) 區(qū)域切分利用區(qū)域信息,對表格圖像進行切分,得到最后輸出的區(qū)域圖像。
2. 根據(jù)權利要求1所述的一種表格圖像的自動切分方法,其特征在于:對表格圖像數(shù) 據(jù)自動分析與學習,獲取應用于手寫體文本區(qū)域切分的數(shù)據(jù)驅動信息,其中包括區(qū)域的位 置和類型信息;對表格圖像數(shù)據(jù)自動分析與學習進行如下: (A) 首先將表格圖像二值化;系統(tǒng)中,采用自適應的二值化方法,結合Otsu方法和 Niblack方法,得到的圖像為兩種二值化方法得到圖像的"與";設p(x,y)為最后輸出的二 值化圖像點(X,y)的值,P Qtsu(X,y)為OtSU方法得到的值,Pmblaek(X,y)為Niblack方法得 到的值,則有 p(x, y) = Potsu(x, y)&pNi black (χ, y) 其中,p(x, y) = I表示黑點(前景字符),p(x, y) = 0表示白點(背景); (B) 另外,通過連通域分析得到表格圖像相應的各個區(qū)域,然后需要對區(qū)域進行判別; 在混合層次上對手寫體進行判別,即處理的單元為一些連通域的合并塊;手寫體特性的不 確定性,采用的一種基于增量學習的Fisher線性判別(Fisher Linear Discr iminant, FLD)分類器,經典FLD算法的投影矩陣(向量)為 W = S~\mx -m2) 其中,Sw = CJC2為類內離散度矩陣,HIi為各類樣本均值向量; 利用序列SKL變換算法(Sequential Karhunen-Loeve Algorithm,SKL)增量形式更新 Ci, SKL算法通過K個最大特征值組成的Di和相應的特征向量組成的Ui來估計Ci O - UiDiUf 其中,Di是一個KXK維的正交矩陣,Ui是具有K列的矩陣; 在手寫體判別中,使用的特征向量維數(shù)比較少,所以隨著新樣本的不斷增加,直接使用 奇異解分解(Singular Value Decomposition,SVD)來更新 Di 和 Ui ; 在該增量型分類器中,利用一種自適應過濾器方式來更新Hli mnew _ Q _ a)mj + OXi 其中,α是一個平均常數(shù)因子,一般可設為0. 05,而Xi為增量學習中第i類的新樣本。
3. 根據(jù)權利要求1所述的一種表格圖像的自動切分方法,其特征在于:區(qū)域分析綜合 數(shù)據(jù)驅動信息和知識驅動信息,如果數(shù)據(jù)驅動信息手寫體文本區(qū)域位置和知識驅動信息手 寫體文本區(qū)域位置重合度高于50%,則利用數(shù)據(jù)驅動信息得到的手寫體文本區(qū)域作為最終 的切分區(qū)域,而對于其它類型的文本區(qū)域,則以來自于表格模版庫中的知識驅動信息為主, 進行切分區(qū)域的定位。
【專利摘要】本發(fā)明公開一種表格圖像的自動切分方法,包括表格及其區(qū)域信息的錄入,在表格圖像中自動分析、檢測與定位手寫體文本區(qū)域以及切分區(qū)域的最終定位,其步驟如下:a、對已知表格中需要切分、識別或人工錄入的區(qū)域進行事先標定,通過模版定制,將表格及其區(qū)域信息都存入表格模板庫,獲取知識驅動信息;b、對掃描或拍攝的表格圖像進行自動分析、檢測與定位文本區(qū)域,獲取數(shù)據(jù)驅動信息;c、綜合知識驅動信息和數(shù)據(jù)驅動信息,比較兩者吻合程度,對最終切分區(qū)域的定位。本發(fā)明結合了知識驅動信息和數(shù)據(jù)驅動信息的圖像區(qū)域精確定位技術以及基于表格圖像準確自動切分的表格數(shù)據(jù)自動智能處理系統(tǒng)。
【IPC分類】G06F9-32, G06F9-54
【公開號】CN104636117
【申請?zhí)枴緾N201310557566
【發(fā)明人】殷緒成
【申請人】江蘇奧博洋信息技術有限公司
【公開日】2015年5月20日
【申請日】2013年11月12日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
临泉县| 鹿邑县| 睢宁县| 息烽县| 吉水县| 耒阳市| 龙岩市| 阿勒泰市| 洛阳市| 大城县| 神农架林区| 嘉祥县| 荣成市| 万全县| 馆陶县| 康定县| 辽源市| 百色市| 西乌珠穆沁旗| 江源县| 寿宁县| 延吉市| 宁城县| 廊坊市| 英吉沙县| 南和县| 盐城市| 吉水县| 浑源县| 丘北县| 新河县| 绥宁县| 全椒县| 米泉市| 林芝县| 马公市| 凭祥市| 巨鹿县| 平邑县| 南江县| 宿松县|