專利名稱:用于檢測文檔圖像的歪斜的方法、設(shè)備和存儲介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本申請涉及文檔圖像的歪斜檢測,具體地,涉及用于檢測文檔圖像的歪斜的方法、設(shè)備和存儲介質(zhì)。
背景技術(shù):
文檔歪斜是在掃描或者復(fù)制文檔時經(jīng)常發(fā)生的畸變,或者是文檔布局中的設(shè)計特征。文檔的歪斜主要涉及文檔行的取向取決于語言,當(dāng)零歪斜時,行是水平的或者豎直的。文檔歪斜是一種不可避免的現(xiàn)象,在許多情況下對OCR中的頁面分割/分類以及字符識別的精確度有負面影響,因為在應(yīng)用OCR之前,常常要求正確地對齊圖像。歪斜估計是這樣的一個過程,其目標在于檢測文檔取向相對于水平或者豎直方向的偏差。
根據(jù)R.Cattoni,T.Coianiz,S.Messelodi,C.M.Modena,Geometric Layout Analysis Techniques for Document ImageUnderstandinga Review,根據(jù)所采用的基本方法,大多數(shù)歪斜估計技術(shù)可以分為以下主要類別(1)分析投影分布圖;(2)Hough變換;(3)連通域聚類;以及(4)線之間的相關(guān)性。還基于梯度分析、傅立葉頻譜、形態(tài)變換或者子空間線檢測的使用提出了其它的技術(shù)。
多數(shù)現(xiàn)有方法,例如分布圖分析方法,處理的文檔具有明確占主導(dǎo)的歪斜角(總體歪斜),并且其中的文本是沿著平行的直線排列的。分布圖分析方法的基本方案是沿著每一個歪斜角計算一個投影分布圖,定義一個目標函數(shù)(通常稱為目標值(premium)),選擇優(yōu)化所述目標函數(shù)的歪斜角。由于計算成本高,提出了這種基本方法的若干變型。這些方法的目標在于減少計算分布圖所涉及的數(shù)據(jù)量,改進優(yōu)化值搜索策略。
盡管已經(jīng)進行了大量的努力來發(fā)展歪斜估計算法,每年在文獻中都提出了新的算法。這主要是由于存在以下需求(1)需要在計算方面有效率的算法;(2)需要精確估計歪斜角,尤其是在±10°范圍內(nèi)的小角度。在多數(shù)情況下,手動或者自動掃描的文檔是豎直的,偶然有小于±10°的小歪斜角。因此,開發(fā)能夠精確估計小歪斜角的方法非常重要。
(3)需要對能夠處理的文檔類別沒有過多要求的方法。多數(shù)現(xiàn)有方法假設(shè)文檔是水平排列的。但是,有許多文檔的文本行是隨意排列的。例如,日文文檔常常同時具有水平文本行和豎直文本行,豎直行與X軸構(gòu)成大于90°的角度。這些假設(shè)文本水平排列的方法在垂直行的情況下就不起作用了。
發(fā)明內(nèi)容
本發(fā)明的目的是至少部分地滿足上述需要。
為此,本發(fā)明提供了一種估計二值文檔圖像的歪斜角的方法,包括下列步驟在水平方向和豎直方向用不相等的壓縮比壓縮圖像,獲得兩個分辨率降低的圖像水平壓縮圖像和豎直壓縮圖像;在水平壓縮圖像上,沿著豎直方向,填充黑像素之間的短于第一預(yù)定游程長度的白游程,并且,在豎直壓縮圖像上,沿著水平方向,填充黑像素之間的短于第二預(yù)定游程長度的白游程;在水平壓縮圖像中,過濾掉沿著豎直方向長于第三預(yù)定游程長度的黑游程,并且在豎直壓縮圖像中,過濾掉沿著水平方向長于第四預(yù)定游程長度的黑游程;在每一個壓縮圖像中,抽取剩下的黑游程的端點,作為用于處理的數(shù)據(jù)點;找到所述壓縮圖像上的歪斜角;根據(jù)所述壓縮比計算輸入的二值圖像的歪斜角。
本發(fā)明還提供了一種估計二值文檔圖像的歪斜角的設(shè)備,包括壓縮器,用于在水平方向和豎直方向用不相等的壓縮比壓縮圖像,獲得兩個分辨率降低的圖像水平壓縮圖像和豎直壓縮圖像;平滑裝置,用于在水平壓縮圖像上,沿著豎直方向,填充黑像素之間的短于第一預(yù)定游程長度的白游程,并且,在豎直壓縮圖像上,沿著水平方向,填充黑像素之間的短于第二預(yù)定游程長度的白游程;過濾器,用于在水平壓縮圖像中,過濾掉沿著豎直方向長于第三預(yù)定游程長度的黑游程,并且在豎直壓縮圖像中,過濾掉沿著水平方向長于第四預(yù)定游程長度的黑游程;提取器,用于在每一個壓縮圖像中,抽取剩下的黑游程的端點,作為用于處理的數(shù)據(jù)點;歪斜檢測器,用于找到所述壓縮圖像上的歪斜角;以及計算器,用于根據(jù)所述壓縮比計算輸入的二值圖像的歪斜角。
還提供了一種存儲介質(zhì),其中存儲用于實現(xiàn)本發(fā)明的方法的程序代碼。
本發(fā)明具有以下優(yōu)點1)高速度。根據(jù)發(fā)明人的測試,本發(fā)明的方法的速度可以與最快的歪斜估計方法--Baird的算法相媲美(見H.S.Baird,“The SkewAngle of Printed Documents”Proceedings of Society of PhotographicScientists and Engineers,Vol.40,pp.21-24.1987;以及Adnan Amin,Stephen Fischer,F(xiàn)ast algorithm for skew detection,School ofComputer Science and Engineering,University of New South Wales,Sydney NSW,2052 Australia)。
2)高精度。本發(fā)明的方法的平均角度精確度為0.05°。本發(fā)明對于小歪斜角尤其靈敏。
3)魯棒性。本發(fā)明的方法對被處理的文檔的類別沒有過多的要求。它可以容易地處理具有任意排列的文本行的文檔。在頁面上不需要有大的文本區(qū)。本發(fā)明不限于檢測全局歪斜。通過在輸入的圖像數(shù)據(jù)的部分區(qū)域上執(zhí)行本方法,也可以估計所述部分區(qū)域中的文本行的局部歪斜。
本發(fā)明的其它目的、特征和優(yōu)點將在閱讀下文對優(yōu)選實施例的詳細說明后變得更為清楚。附圖作為說明書的一部分用于圖解本發(fā)明的實施例,并和說明書一起用于解釋本發(fā)明的原理。在附圖中圖1是表示本發(fā)明的歪斜估計方法的主要過程的主流程圖;圖2是歪斜的文檔頁面的一個舉例的視圖;圖3和圖4是從圖2得到的豎直壓縮圖像和水平壓縮圖像的視圖;圖5用于圖解根據(jù)圖1所示的本發(fā)明的步驟Step 1壓縮文檔圖像時對歪斜角的放大效應(yīng);圖6用于圖解根據(jù)本發(fā)明從圖3提取出來的操作數(shù)據(jù)點;圖7用于圖解根據(jù)本發(fā)明從圖4提取出來的操作數(shù)據(jù)點;圖8是用于說明圖1的步驟Step 5的詳細處理的流程圖;圖9是用于說明圖8中所使用的投影方法的詳細處理的流程圖;圖10圖解了文檔圖像處理系統(tǒng);圖11的框示了一個計算機系統(tǒng)的例子,其中可以應(yīng)用本發(fā)明的方法和設(shè)備。
具體實施例方式
下面結(jié)合附圖描述本發(fā)明的優(yōu)選實施例。
計算機系統(tǒng)舉例本發(fā)明的方法和設(shè)備可以在任何信息處理設(shè)備中實現(xiàn)。所述信息處理設(shè)備例如是個人計算機(PC)、筆記本電腦、嵌入掃描儀、復(fù)印機、傳真機等的單片機(SCM),等等。對于本領(lǐng)域普通技術(shù)人員,很容易通過軟件、硬件和/或固件實現(xiàn)本發(fā)明的方法和設(shè)備。尤其應(yīng)注意到,對于本領(lǐng)域普通技術(shù)人員顯而易見的是,為了執(zhí)行本方法的任何步驟或者步驟的組合,或者本發(fā)明的設(shè)備的任何部件或者部件的組合,可能需要使用輸入輸出設(shè)備、存儲設(shè)備以及微處理器比如CPU等。在下面對本發(fā)明的方法和設(shè)備的說明中不見得提到這些設(shè)備,但實際上使用了這些設(shè)備。
作為上述信息處理設(shè)備,圖11的框圖示出了一個計算機系統(tǒng)的舉例,在其中可以實現(xiàn)本發(fā)明的方法和設(shè)備。應(yīng)注意的是,示于圖11的計算機系統(tǒng)只是用于說明,并非要限制本發(fā)明的范圍。
從硬件的角度來講,計算機1包括一個CPU6、一個硬盤(HD)5、一個RAM7、一個ROM8和輸入輸出設(shè)備12。輸入輸出設(shè)備可以包括輸入裝置比如鍵盤、觸控板、跟蹤球和鼠標等,輸出裝置比如打印機和監(jiān)視器,以及輸入輸出裝置比如軟盤驅(qū)動器、光盤驅(qū)動器和通信端口。
從軟件的角度講,所述計算機主要包括操作系統(tǒng)(OS)9、輸入輸出驅(qū)動程序11和各種應(yīng)用程序10。作為操作系統(tǒng),可以使用市場上可購買的任何操作系統(tǒng),比如Window系列以及基于Linux的操作系統(tǒng)。輸入輸出驅(qū)動程序分別用于驅(qū)動所述輸入輸出設(shè)備。所述應(yīng)用程序可以是任何應(yīng)用程序,比如文本處理程序、圖像處理程序等,其中包括可以用在本發(fā)明中的以及專為本發(fā)明編制的、可調(diào)用所述已有程序的應(yīng)用程序。
這樣,在本發(fā)明中,可以由操作系統(tǒng)、應(yīng)用程序和輸入輸出驅(qū)動程序在所述計算機的硬件中實現(xiàn)本發(fā)明的方法和設(shè)備。
另外,計算機1可以連接到數(shù)字裝置3和應(yīng)用設(shè)備2。數(shù)字裝置用作圖像源,可以是照相機、攝像機、掃描儀或者用于將模擬圖像轉(zhuǎn)換為數(shù)字圖像的數(shù)字化儀。本發(fā)明的設(shè)備和方法獲得的結(jié)果被輸出到應(yīng)用設(shè)備2,或者根據(jù)所述結(jié)果,執(zhí)行適當(dāng)?shù)牟僮?。該?yīng)用設(shè)備可以實現(xiàn)為在計算機1中實現(xiàn)的另一個應(yīng)用程序(與硬件相結(jié)合),用于進一步處理所述圖像。
應(yīng)用本發(fā)明的例子圖10的視圖用于說明文檔圖像處理設(shè)備的主要部件,其中包括了本發(fā)明的歪斜估計系統(tǒng)。
如圖10所示,用輸入設(shè)備3,比如掃描儀或者數(shù)字照相機,輸入文檔頁面。輸入的圖像可以是彩色圖像或者灰度圖像。然后由二值化系統(tǒng)22將彩色或者灰度圖像二值化為二值圖像。在由歪斜估計和圖像去歪斜裝置24進行歪斜估計和圖像去歪斜之后,二值圖像就可以輸入到光學(xué)字符讀取系統(tǒng)26和頁面分析系統(tǒng)28中進行進一步處理。
這里,二值化裝置22、歪斜估計和圖像去歪斜裝置24、光學(xué)字符讀取系統(tǒng)26以及頁面分析系統(tǒng)都是在圖11所示的硬件和軟件架構(gòu)中實現(xiàn)的。
歪斜估計方法和設(shè)備簡要地說,本發(fā)明提供了一種計算機實現(xiàn)的方法和設(shè)備,用于估計文檔圖像的歪斜角。當(dāng)檢測到正確的角度時,可以使用該角度作為參數(shù)來對圖像去歪斜。
圖1是本發(fā)明的主流程圖,用于圖解由本發(fā)明的設(shè)備執(zhí)行的新的歪斜估計方法。
本發(fā)明的設(shè)備包括壓縮器、平滑裝置、過濾器、提取器、歪斜角檢測器和計算器。在步驟Step 1,壓縮器在水平和豎直方向用不相等的壓縮比壓縮比如圖2所示的圖像,得到兩個分辨率降低的圖像水平壓縮圖像和豎直壓縮圖像,比如圖3和圖4所示。
在步驟Step 2,平滑裝置對水平壓縮圖像(步驟Step 2.1)和豎直壓縮圖像(步驟Step 2.2)進行游程長度平滑算法(RLSA,run lengthsmoothing algorithm)。顯然,步驟Step 2.1和步驟Step 2.2既可以同時執(zhí)行又可以順序執(zhí)行。具體地,平滑裝置在水平壓縮圖像上沿著豎直方向搜索黑游程和白游程,如果有白游程的長度短于第一預(yù)定游程長度,則用黑像素填充這樣的白游程。類似地,平滑裝置在豎直壓縮圖像上沿著水平方向搜索黑游程和白游程,如果有白游程的長度短于第二預(yù)定游程長度,則用黑像素填充這樣的白游程??梢愿鶕?jù)語言和圖像的大小來選擇所述第一預(yù)定游程長度和所述第二預(yù)定游程長度。在本發(fā)明的一個優(yōu)選實施例中,二者可以都是12。
在步驟Step 3,過濾器在水平壓縮圖像中過濾掉在豎直方向長于第三預(yù)定游程長度的黑游程(步驟Step 3.1),并在豎直壓縮圖像中過濾掉在水平方向長于第四預(yù)定游程長度的黑游程(步驟Step 3.2)。之所以要除掉長游程(也就是用白像素填充),是因為它們很有可能是圖像或者圖形中的游程,而我們只需要文本行的游程。類似地,步驟Step 3.1和步驟Step 3.2既可以同時執(zhí)行又可以順序執(zhí)行,并可以根據(jù)語言和圖像的大小來選擇所述第三預(yù)定游程長度和第四游程長度。在本發(fā)明的一個優(yōu)選實施例中,二者可以都是40。
在步驟Step 4中,提取器在每一個壓縮圖像中提取剩下的黑游程的端點作為用于下面將要說明的歪斜檢測的操作數(shù)據(jù)集。這樣,數(shù)據(jù)集就進一步縮減了。同樣,步驟Step 4也包括分別對水平壓縮圖像和豎直壓縮圖像執(zhí)行的步驟Step 4.1和Step 4.2,這兩個步驟既可以同時執(zhí)行又可以順序執(zhí)行。圖6和圖7圖解了在該步驟提取的數(shù)據(jù)點。如圖中所示,數(shù)據(jù)集被大大縮減了,而文本行的基線和表格線被很好地保留下來。在此步驟中,盡管可以保留黑游程的兩個端點,但是只保留一個端點就足夠了,因為同一黑游程的兩個端點具有相關(guān)性。但是,對于所有黑游程,被保留的端點應(yīng)當(dāng)在同一側(cè)。
通過執(zhí)行RLSA并過濾掉長的黑游程,對性能有不良影響的圖像和圖形的游程大部分被去除了。通過提取黑游程的端點,用于處理的數(shù)據(jù)點的數(shù)量進一步減少。
在步驟Step 5,歪斜角檢測器計算壓縮圖像上的歪斜角。在步驟Step 6,計算器根據(jù)所述壓縮比計算輸入的二值圖像的歪斜角。如果在步驟Step 5中確定的壓縮圖像的歪斜角為SKEW_F,根據(jù)簡單的幾何計算,可以知道,輸入的圖形的歪斜角PAGE SKEW可以表示為PAGE SKEW=atan(1Ntan(SKEW_F))]]>當(dāng)在步驟Step 1中在水平方向和豎直方向用不相等的比例壓縮輸入的二值圖像時,可以采用OR規(guī)則。下面是一個具體的例子,但是本發(fā)明不局限于該例子。首先,將圖像分割為具有NH×NV像素的矩形,其中NH和NV是正整數(shù),NH是沿著水平方向的量度,NV是沿著豎直方向的量度。然后用OR規(guī)則將每一個矩形縮減為一個像素來獲得壓縮圖像。OR規(guī)則的意思是,只要在矩形中有任何數(shù)目的黑像素,該矩形就被縮減為一個黑像素。只有矩形中的所有像素都是白色時,該矩形才被縮減為一個白像素。這樣,在水平方向,圖像被壓縮NH倍,在豎直方向被壓縮NV倍。如果NH大于NV,則獲得所述水平壓縮圖像;如果NV大于NH,則獲得所述豎直壓縮圖像。可以根據(jù)語言和圖像的大小選擇NH和NV的值。在本發(fā)明的一個優(yōu)選實施例中,通過設(shè)置NH=N×N1和NV=N1來獲得所述水平壓縮圖像,并通過設(shè)置NH=N1和NV=N×N1來獲得所述豎直壓縮圖像,其中,N和N1是正整數(shù)。在更為優(yōu)選的實施例中,所述N可以是12。
圖3和圖4是從圖2的作為舉例的歪斜文檔圖像得到的壓縮圖像的視圖。進行不等比壓縮有一些優(yōu)點。首先,數(shù)據(jù)集被縮減,這使得該方法很有效率。其次,在壓縮圖像中,小歪斜角被放大了。如圖5所示,水平壓縮放大水平角度,豎直壓縮放大豎直角度。在壓縮圖像中,即使非常小的歪斜角也可以被檢測到。第三,平滑了指示歪斜角的文本行的基線。這使得角度檢測更為精確。
在上述步驟Step 5中,可以使用在步驟Step 4中獲得的操作數(shù)據(jù)集,用傳統(tǒng)的方法和設(shè)備實現(xiàn)壓縮圖像歪斜角的檢測。但是,為了改進精度、速度和魯棒性,本發(fā)明提出了新的方法和設(shè)備。
在現(xiàn)有技術(shù)中知道,就如在背景技術(shù)部分所述,歪斜角是通過嘗試不同的角度找出最有可能的角度來找到的。在本發(fā)明中,該過程被分為兩個子過程粗略估計和精細檢測。如圖8所示,在步驟Step 5.1,控制裝置設(shè)置歪斜角的估計的粗略范圍和粗略的角度分辨率。在步驟Step 5.2,歪斜角檢測器使用上述范圍和粗略的角度分辨率來檢測最有可能的歪斜角。然后在步驟Step 5.3,控制裝置基于所述粗略范圍和粗略的角度分辨率設(shè)置一個歪斜角精細范圍和精細角度分辨率。在類似于步驟Step 5.2的步驟Step 5.4(只是參數(shù)不同),找到精細的歪斜角。如果必要,可以將上述過程重復(fù)任意次數(shù)以細化角度分辨率。
下面參照圖9詳細描述用在上面的步驟Step 5.2和Step 5.4中的歪斜角檢測器和相應(yīng)的歪斜角檢測方法。
具體地,所述歪斜角檢測器包括旋轉(zhuǎn)裝置、投影裝置和上述控制裝置。該旋轉(zhuǎn)裝置被配置為將在步驟Step 4和圖6、圖7中獲得的數(shù)據(jù)點旋轉(zhuǎn)一個特定的估計歪斜角(步驟Step 5.2.2)。所述投影裝置被配置為,對于所述特定估計歪斜角,將在步驟Step 4和圖6、圖7中獲得的數(shù)據(jù)點投影到相應(yīng)的累積線(accumulator line)上。具體來說,對于豎直壓縮圖像,數(shù)據(jù)點被投影到x軸上(步驟Step 5.2.3);對于水平壓縮圖像,數(shù)據(jù)點被投影到y(tǒng)軸上(步驟Step 5.2.5)。這樣,沿著所述累積線,有一個累積值的分布(步驟Step 5.2.4和Step 5.2.6)。
所述控制裝置利用上述角度范圍和角度分辨率來改變估計的歪斜角,獲得另一個累積值的分布。對于整個角度范圍,所述控制裝置重復(fù)上述過程,找出沿著一對累積線(x軸和y軸)的累積值的平方和的最大值,相應(yīng)的角度就是具有該角度分辨率的最有可能的歪斜角(步驟Step 5.2.1和步驟Step 5.2.7到Step 5.2.10)。
本領(lǐng)域的普通技術(shù)人員知道,當(dāng)將數(shù)據(jù)點投影到累積線上并計算平方和時,可以將累積線分割為相等的間隔。所述累積值是投影到相應(yīng)間隔上的黑像素的數(shù)量。所述間隔的長度可以是任意像素數(shù)。另外,為了提高計算速度,可以首先用粗角度分辨率執(zhí)行上述過程,然后用細分辨率執(zhí)行上述過程,就如結(jié)合圖8所描述的那樣。
這樣,通過投影所述兩個壓縮圖像(水平壓縮圖像用于檢測豎直行,垂直壓縮圖像用于檢測水平行),本發(fā)明可以處理具有任意排列的文本行的文檔。另外,由于本發(fā)明的方法也能檢測表格線和其它的線對象,不需要頁面上有大的文本區(qū)。
存儲介質(zhì)本發(fā)明的所述目的還可以通過在如上所述的可以與所述圖像源和后續(xù)處理設(shè)備通信的任何信息處理設(shè)備上運行一個程序或者一組程序來實現(xiàn)。所述信息處理設(shè)備、圖像源和后續(xù)處理設(shè)備為公知的通用設(shè)備。因此,本發(fā)明的所述目的也可以僅僅通過提供實現(xiàn)所述方法或者設(shè)備的程序代碼來實現(xiàn)。也就是說,存儲有實現(xiàn)所述方法或者設(shè)備的程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明。
對于本領(lǐng)域技術(shù)人員來說,可以輕易地用任何程序語言編程實現(xiàn)所述方法。因此,在此省略了對所述程序代碼的詳細描述。
顯然,所述存儲介質(zhì)可以是本領(lǐng)域技術(shù)人員已知的,或者將來所開發(fā)出來的任何類型的存儲介質(zhì),因此也沒有必要在此對各種存儲介質(zhì)一一列舉。
盡管結(jié)合具體步驟和結(jié)構(gòu)描述了本發(fā)明,但是本發(fā)明不局限于這里所描述的細節(jié)。本申請應(yīng)當(dāng)覆蓋所有不偏離本發(fā)明的精神和范圍的變化、修改和變型。
權(quán)利要求
1.一種估計二值文檔圖像的歪斜角的方法,包括下列步驟在水平方向和豎直方向用不相等的壓縮比壓縮圖像,獲得兩個分辨率降低的圖像水平壓縮圖像和豎直壓縮圖像;在水平壓縮圖像上,沿著豎直方向,填充黑像素之間的短于第一預(yù)定游程長度的白游程,并且,在豎直壓縮圖像上,沿著水平方向,填充黑像素之間的短于第二預(yù)定游程長度的白游程;在水平壓縮圖像中,過濾掉沿著豎直方向長于第三預(yù)定游程長度的黑游程,并且在豎直壓縮圖像中,過濾掉沿著水平方向長于第四預(yù)定游程長度的黑游程;在每一個壓縮圖像中,抽取剩下的黑游程的端點,作為用于處理的數(shù)據(jù)點;找到所述壓縮圖像上的歪斜角;根據(jù)所述壓縮比計算輸入的二值圖像的歪斜角。
2.如權(quán)利要求1所述的方法,其特征在于,所述壓縮步驟包括用OR規(guī)則在水平和豎直方向以不相等的壓縮比壓縮所述二值文檔圖像。
3.如權(quán)利要求2所述的方法,其特征在于,用OR規(guī)則進行壓縮的步驟包括將所述圖像分割為NH×NV像素的矩形,用OR規(guī)則將每一個矩形縮減為一個像素,以獲得所述豎直壓縮圖像和水平壓縮圖像,其中,NH和NV是正整數(shù),NH是沿水平方向的量度,NV是沿豎直方向的量度,其中,通過設(shè)置NH =N×NV來獲得所述水平壓縮圖像,通過設(shè)置NV=N×NH來獲得所述豎直壓縮圖像,其中N為正整數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,N等于12。
5.如權(quán)利要求1所述的方法,其特征在于,對于每一個壓縮圖像,所述提取步驟包括對于所有黑游程,分別提取在黑游程同一側(cè)的一個端點。
6.如權(quán)利要求1所述的方法,其特征在于,所述尋找壓縮圖像上的歪斜角的步驟包括將在所述提取步驟獲得數(shù)據(jù)點旋轉(zhuǎn)一個角度;將所述水平壓縮圖像上的數(shù)據(jù)點投影到y(tǒng)軸上,將所述豎直壓縮圖像上的數(shù)據(jù)點投影到x軸上;改變所述角度,找出使累積值的平方和最大的角度,作為壓縮圖像的歪斜角。
7.如權(quán)利要求6所述的方法,其特征在于,改變所述角度的步驟包括用粗角度分辨率改變所述角度,獲得壓縮圖像的粗略歪斜角;然后將所述粗略歪斜角作為初始值,以精細角度分辨率改變所述角度,獲得一個精細歪斜角,作為所述壓縮圖像的歪斜角。
8.一種估計二值文檔圖像的歪斜角的設(shè)備,包括壓縮器,用于在水平方向和豎直方向用不相等的壓縮比壓縮圖像,獲得兩個分辨率降低的圖像水平壓縮圖像和豎直壓縮圖像;平滑裝置,用于在水平壓縮圖像上,沿著豎直方向,填充黑像素之間的短于第一預(yù)定游程長度的白游程,并且,在豎直壓縮圖像上,沿著水平方向,填充黑像素之間的短于第二預(yù)定游程長度的白游程;過濾器,用于在水平壓縮圖像中,過濾掉沿著豎直方向長于第三預(yù)定游程長度的黑游程,并且在豎直壓縮圖像中,過濾掉沿著水平方向長于第四預(yù)定游程長度的黑游程;提取器,用于在每一個壓縮圖像中,抽取剩下的黑游程的端點,作為用于處理的數(shù)據(jù)點;歪斜檢測器,用于找到所述壓縮圖像上的歪斜角;以及計算器,用于根據(jù)所述壓縮比計算輸入的二值圖像的歪斜角。
9.如權(quán)利要求8所述的設(shè)備,其特征在于,所述壓縮器被配置為用OR規(guī)則在水平和豎直方向以不相等的壓縮比壓縮所述二值文檔圖像。
10.如權(quán)利要求8所述的設(shè)備,其特征在于,所述提取器被配置為對于每一個壓縮圖像,對于所有黑游程,分別提取在黑游程同一側(cè)的一個端點。
11.如權(quán)利要求8所述的設(shè)備,其特征在于,所述歪斜角檢測器包括旋轉(zhuǎn)裝置,用于旋轉(zhuǎn)從所述提取器獲得數(shù)據(jù)點;投影裝置,用于將所述水平壓縮圖像上的數(shù)據(jù)點投影到y(tǒng)軸上,將所述豎直壓縮圖像上的數(shù)據(jù)點投影到x軸上;控制裝置,用于改變所述角度,找出使累積值的平方和最大的角度,作為壓縮圖像的歪斜角。
12.如權(quán)利要求11所述的設(shè)備,其特征在于,所述控制配置進一步被配置為用粗角度分辨率改變所述角度,獲得壓縮圖像的粗略歪斜角;然啟將所述粗略歪斜角作為初始值,以精細角度分辨率改變所述角度,獲得一個精細歪斜角,作為所述壓縮圖像的歪斜角。
13.一種存儲介質(zhì),其特征在于,在其中存儲了用于實現(xiàn)權(quán)利要求1到7之一所述的方法的程序代碼。
全文摘要
本申請涉及用于檢測文檔圖像的歪斜的方法、設(shè)備和存儲介質(zhì)。為了提高處理速度和魯棒性,降低能耗,本發(fā)明提供了一種估計二值文檔圖像的歪斜角的方法,包括在水平和豎直方向用不相等的壓縮比壓縮圖像,獲得水平和豎直壓縮圖像;在水平壓縮圖像上沿豎直方向填充黑像素之間的較短的白游程,在豎直壓縮圖像上沿著水平方向填充黑像素之間的較短的白游程;在水平壓縮圖像中過濾掉沿著豎直方向較長的黑游程,在豎直壓縮圖像中過濾掉沿著水平方向較長的黑游程;在每一個壓縮圖像中抽取剩下的黑游程的端點,作為用于處理的數(shù)據(jù)點;找到所述壓縮圖像上的歪斜角;根據(jù)壓縮比計算輸入的二值圖像的歪斜角。
文檔編號G06K9/00GK1746899SQ20041007681
公開日2006年3月15日 申請日期2004年9月7日 優(yōu)先權(quán)日2004年9月7日
發(fā)明者胥立豐 申請人:佳能株式會社