專利名稱:一種圖片中文本的識別方法及識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理技術(shù),尤其涉及圖片中文本的識別技術(shù)。
背景技術(shù):
垃圾郵件近年在互聯(lián)網(wǎng)上泛濫,過去基于純文本的垃圾郵件使用文字過濾或關(guān)鍵字評分的方式就能夠很好的進(jìn)行過濾。但是,最近的垃圾郵件發(fā)送者明白到文字的方式容易被反垃圾郵件系統(tǒng)攔截后,轉(zhuǎn)而采用將文字貼在圖片中的方式,令基于文字掃描過濾的反垃圾郵件系統(tǒng)毫無辦法。因此,必須要對郵件中的圖片進(jìn)行探測,查看是否帶有大量文字信息于圖片中。傳統(tǒng)的對圖片進(jìn)行文字識別的方法是0CR(0ptical Character Recognition,光學(xué)字符識別),0CR方式經(jīng)過長時間的發(fā)展,現(xiàn)在已經(jīng)做到很高的文字識別率。但是,傳統(tǒng)的 OCR方式大量消耗處理器資源,需要較長的時間才能進(jìn)行文字識別,這種處理器開銷與時間開銷是高并發(fā)連接的反垃圾郵件服務(wù)器所無法承受的。
發(fā)明內(nèi)容
本發(fā)明提供一種圖片中文本的識別方法及識別裝置,能較好的降低處理器的負(fù)擔(dān)。本發(fā)明提供的圖片中文本的識別方法,包括步驟將待處理的圖片進(jìn)行去干擾處理;將去干擾后的所述圖片在水平方向或垂直方向的像素進(jìn)行統(tǒng)計;判斷是否存在周期性的規(guī)律,如果存在,則圖片中帶有文字。使用現(xiàn)有的OCR技術(shù)能發(fā)現(xiàn)圖片中是否帶有文字,并且能將文字識別出來。但是, OCR技術(shù)識別速度非常低,而且在垃圾郵件過濾這種應(yīng)用中并不需要識別文本的具體內(nèi)容, 只需要知道圖片中是否帶有大量文字就可以了。本發(fā)明相對OCR技術(shù),能極大降低處理器的負(fù)擔(dān),使圖片文本探測應(yīng)用到郵件過濾系統(tǒng)。本發(fā)明可以應(yīng)用于多種識別圖片中是否存在大量文字的場合,例如應(yīng)用于郵件掃描、短信、彩信的快速掃描中,使上述掃描能探測到圖片中是否帶有文本。
圖1為實施例1的流程圖;圖2為一個灰度處理后的圖片示例;圖3為二值化處理后的圖片;圖4為統(tǒng)計分析后的分布圖;圖5為差分處理后的差分分布圖;圖6為另一個灰度處理后的圖片示圖;圖7為二值化處理后的圖片;
圖8為統(tǒng)計分析后的分布圖;圖9為差分處理后的差分分布圖;圖10為圖片中文本的識別裝置的邏輯框圖。
具體實施例方式本發(fā)明的目標(biāo)是消耗盡量小的資源快速判斷圖片中是否帶有大量的文字信息。以下部分通過例子闡述本發(fā)明的處理流程。實施例1 圖1是本實施例的流程圖,首先對待處理的圖片進(jìn)行去干擾處理(步驟 1);對去干擾后的圖片在水平方向或垂直方向的像素進(jìn)行統(tǒng)計(步驟2);判斷統(tǒng)計后的分布曲線是否存在周期性的規(guī)律,如果存在,則圖片中帶有文字 (步驟3)。實施例2 作為對實施例1的優(yōu)化,在本實施例中提供了對于去除圖片中變化色彩造成干擾的方法,在執(zhí)行步驟1之前,先對圖片進(jìn)行灰度處理,將圖片變成灰度圖片。作為一個實施例,可以先對整張圖片每個像素的RGB值相加后取平均值,變成灰度圖片。實施例3 對于實施例1和實施例2中步驟1中去干擾處理的方法,可以采用多種現(xiàn)有技術(shù)中已經(jīng)存在的方法,例如均值二值化處理、最大連通區(qū)域選擇判斷、最大色塊區(qū)域判斷等。作為一個優(yōu)選實施例,本發(fā)明提供了通過均值二值化進(jìn)行去干擾處理的方法將各像素的值求平均值,然后將各像素與平均值作比較,如果高于平均值的設(shè)定為1,低于平均值的設(shè)定為0。實施例4 上述各實施例中步驟3中雖然可以看出分布曲線存在周期性規(guī)律,但是為了能更容易識別周期規(guī)律,作為對上述各實施例的進(jìn)一步優(yōu)化,本實施例在步驟3之后進(jìn)一步對分布曲線進(jìn)行優(yōu)化處理,使得分布規(guī)律更加明顯,優(yōu)化處理的方法例如差分處理、 峰值二值化、對原數(shù)字取平方數(shù)等。實施例5 本實施例為本發(fā)明的一個最佳實施例,我們從垃圾郵件中取得一個彩色圖片,圖片帶有文字信息,并通過變換色彩造成干擾。由于是彩色圖片,所以要先對圖片進(jìn)行灰度處理去除干擾成分。處理的方法是先對整張圖片每個像素的RGB值相加后取平均值,變成灰度圖片。圖2是灰度處理后的圖片?;叶忍幚砗蟮膱D片只是丟失色彩,而文字的灰度是不同的,這樣不能進(jìn)行是否帶有文字的識別,因此需要進(jìn)行均值二值化處理。處理的方法是,將各像素的值求平均值,然后將各像素與平均值作比較,如果高于平均值的設(shè)定為1,低于平均值的設(shè)定為0,這樣就通過均值二值化去除了背景橫線的干擾,同時也令到文字更為突出。圖3是經(jīng)過處理后的圖片。然后,對經(jīng)過均值二值化后的圖片對每行的像素做水平方向上的相加(本實施例中僅以水平方向為例),其意義為每行為1的點的數(shù)量。將每行相加后的數(shù)值生成如圖4的水平像素點數(shù)量分布圖。從圖4的水平分布中可以看出,分布曲線存在固定的周期性規(guī)律。只要圖片經(jīng)過上述的處理后,如果存在這種固定的周期規(guī)律波動的分布曲線,則圖片中帶有文本的可能性極高。雖然圖四中已經(jīng)可以看出分布曲線存在周期性規(guī)律,但是為了讓計算機程序能更容易識別周期規(guī)律,需要對圖4每兩點間的數(shù)據(jù)做差分處理。差分后生成圖5的差分分布圖。圖5差分分布圖可以發(fā)現(xiàn)明顯的周期性尖峰,這些尖峰可以方便地通過程序去識別是否存在。通過上述處理,如果發(fā)現(xiàn)差分分布圖存在明顯的周期性尖峰,則圖片極有可能帶有大量文字信息。作為對比,再舉一個不帶有文本的圖片例字說明。處理流程與上述步驟一致,不再贅述。圖9為最后差分處理后的分布圖。可以看到分布接近白噪聲無任何規(guī)律。與上述方法相對應(yīng),本發(fā)明還提供了圖片中文本的識別裝置,如圖10所示,包括 去干擾模塊、統(tǒng)計模塊和判別模塊。去干擾模塊實現(xiàn)上述各實施例中去干擾的功能,統(tǒng)計模塊實現(xiàn)上述各實施例中對去干擾后的圖片進(jìn)行統(tǒng)計的功能,判別模塊實現(xiàn)上述各實施例中判別是否存在周期性規(guī)律,以判斷是否存在大量文字的功能。另外,作為優(yōu)選實施例,還可以包括灰度模塊,實現(xiàn)對去干擾前的圖片進(jìn)行灰度處理的功能,以及優(yōu)化模塊,實現(xiàn)對統(tǒng)計后的分布曲線的優(yōu)化處理功能,例如差分處理等。上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他任何未背離本發(fā)明的精神實質(zhì)和原理下所作的修改、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種圖片中文本的識別方法,其特征在于,包括步驟將待處理的圖片進(jìn)行去干擾處理;將去干擾后的所述圖片在水平方向或垂直方向的像素進(jìn)行統(tǒng)計;判斷是否存在周期性的規(guī)律,如果存在,則圖片中帶有文字。
2.根據(jù)權(quán)利要求1所述的圖片中文本的識別方法,其特征在于,通過以下步驟進(jìn)行去干擾處理對所述圖片進(jìn)行均值二值化處理。
3.根據(jù)權(quán)利要求2所述的圖片中文本的識別方法,其特征在于,所述二值化處理的過程如下將所述圖片上各像素的值求平均值,然后將各像素與平均值作比較,如果高于該平均值的設(shè)定為1,低于平均值的設(shè)定為0。
4.根據(jù)權(quán)利要求1所述的圖片中文本的識別方法,其特征在于,對圖片進(jìn)行常規(guī)的均值二值化處理之前還包括步驟對所述圖片進(jìn)行灰度處理。
5.根據(jù)權(quán)利要求1或2所述的圖片中文本的識別方法,其特征在于,根據(jù)統(tǒng)計后的分布圖判斷是否存在周期性的規(guī)律。
6.根據(jù)權(quán)利要求1或2所述的圖片中文本的識別方法,其特征在于,對所述像素進(jìn)行統(tǒng)計的步驟和判斷是否存在周期性的規(guī)律的步驟之間還包括步驟對所述統(tǒng)計后的分布圖做差分處理;探測差分分布圖是否帶有周期性的尖峰存在。
7.根據(jù)權(quán)利要求1所述的圖片中文本的識別方法,其特征在于,判斷是否存在周期性的規(guī)律的步驟之后還包括如果存在,則根據(jù)所述周期的分布規(guī)律判斷圖片中文字占圖片面積的大概比例。
8.一種圖片中文本的識別裝置,其特征在于,包括去干擾模塊,用于對圖片進(jìn)行去干擾處理,統(tǒng)計模塊,用于對去干擾后的圖片在水平方向或垂直方向的像素進(jìn)行統(tǒng)計;判別模塊,用于判斷是否存在周期性的規(guī)律,并根據(jù)判斷結(jié)果確定圖片中是否帶有文字。
9.根據(jù)權(quán)利要求8所述的圖片中文本的識別裝置,其特征在于,所述去干擾模塊通過對所述圖片進(jìn)行均值二值化處理進(jìn)行去干擾,所述均值二值化處理用于將所述圖片上各像素的值求平均值,然后將各像素與平均值作比較,如果高于該平均值的設(shè)定為1,低于平均值的設(shè)定為0。
10.根據(jù)權(quán)利要求8所述的圖片中文本的識別裝置,其特征在于,還包括灰度處理模塊,用于對去干擾模塊處理后的圖片進(jìn)行灰度處理,并將處理后的圖片發(fā)送給所述統(tǒng)計模塊。
11.根據(jù)權(quán)利要求8或9所述的圖片中文本的識別裝置,其特征在于,所述判別模塊用于根據(jù)統(tǒng)計模塊統(tǒng)計后的分布圖判斷是否存在周期性的規(guī)律。
12.根據(jù)權(quán)利要求8或9所述的圖片中文本的識別裝置,其特征在于,還包括優(yōu)化模塊, 用于對所述統(tǒng)計后的分布圖做差分處理,并將差分分布圖發(fā)送給判別模塊;所述判別模塊探測差分分布圖是否帶有周期性的尖峰存在,以判斷是否存在周期性的規(guī)律。
全文摘要
本發(fā)明提供一種圖片中文本的識別方法,首先將待處理的圖片進(jìn)行去干擾處理;將去干擾后的所述圖片在水平方向或垂直方向的像素進(jìn)行統(tǒng)計;判斷是否存在周期性的規(guī)律,如果存在,則圖片中帶有文字。本發(fā)明能極大降低處理器的負(fù)擔(dān),使圖片文本探測應(yīng)用到郵件過濾系統(tǒng)。本發(fā)明可以應(yīng)用于多種識別圖片中是否存在大量文字的場合,例如應(yīng)用于郵件掃描、短信、彩信的快速掃描中,使上述掃描能探測到圖片中是否帶有文本。
文檔編號G06K9/00GK102411707SQ20111033949
公開日2012年4月11日 申請日期2011年10月31日 優(yōu)先權(quán)日2011年10月31日
發(fā)明者張國威, 陳曉鵬 申請人:世紀(jì)龍信息網(wǎng)絡(luò)有限責(zé)任公司