專利名稱:基于圖像局部特征檢索的文字識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種圖像處理技術(shù)領(lǐng)域的方法,具體是一種基于圖像局部特征檢 索的文字識別方法。
背景技術(shù):
圖像文字識別在許多領(lǐng)域有著廣泛的需求,例如書本/CD封面識別、車牌識別、圖 像和視頻搜索引擎和網(wǎng)絡(luò)數(shù)據(jù)挖掘等。而針對復(fù)雜背景和自然拍攝的圖像文字的識別,由 于該類圖像背景復(fù)雜,包括多樣的語種、字體、字符大小、位置、排列、字形,加之自然拍攝圖 像中存在的光度不均、視角變換、幾何變形、噪聲干擾等,使得文本分析和識別面臨著極大 的困難。傳統(tǒng)的方法一般包括了文本定位、預(yù)處理(一般包括歸一化、增強、二值化)和OCR 文字識別這些步驟。其中的每一步都涉及了許多其它的復(fù)雜方法,每一步方法都將影響了 最終識別結(jié)果的準確性。Chen 的論文《Automatic detection and recognition of signs from naturalscenes(自然場景信號的自動檢測和識別)》提出了一種從自然場景的圖像 中檢測和識別信號的方法。其中利用L0G(LaplaCian of Gaussian,高斯拉普拉斯)邊緣 檢測、顏色建模、版面分析和仿射校來檢測文本,然后對文本進行歸一化處理,最后用基于 灰度的 OCR 進行文本識別。Koga 的論文《Camera-based Kanji OCR for mobile-phones practical issues (用于手機實際使用的基于相機的漢字OCR)》針對手機提出了一種基于 相機的漢字識別方法。該方法的第一部分包括了四個步驟預(yù)二值化、粗略的版面分析、行 方向檢測、行分割。而后一部分也包括了四個步驟精細二值化、預(yù)分割、漢字識別和后處 理。由于這類基于OCR方法,其識別的準確率與文本定位、以及增強后的圖像質(zhì)量有著密切 的關(guān)系。由于對噪聲、復(fù)雜背景和許多種幾何變形、光度變換的魯棒性,局部特征被成功運 用到了計算機視覺的諸多領(lǐng)域之中,諸如圖像匹配、物體識別、圖像檢索、建筑全景圖和視 頻數(shù)據(jù)挖掘等。因此局部特征也可以被運用到文字識別中來。經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),Campos的論文《Character recognition in natural images (自然圖像中的文字識別)》利用局部特征和BoW(bag ofvisual words,視 覺字)的模型來識別英語和印度單個字母。在陳凱的《基于SIFT特征與灰度差值直方圖特 征的文字識別方法》專利中,提出了新的局部特征來識別文字。該方法利用SIFT特征和灰 度差值直方圖特征來對圖片中分割的文字進行描述,然后和模板庫中的特征進行匹配,選 擇最接近的作為識別結(jié)果。這些方法都是針對分割之后的單字進行識別,需要文字定位和 分割,無法直接運用到復(fù)雜背景和自然拍攝的圖像中。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提供一種基于圖像局部特征檢索的文字識 別方法,利用文字關(guān)鍵區(qū)域的局部特征來描述文字,并利用檢索技術(shù)來實現(xiàn)復(fù)雜背景和自
3然拍攝的圖片文字的識別。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,本發(fā)明包括以下步驟第一步、建立漢字模板圖庫并提取其中每個漢字所對應(yīng)圖片的特征值作為特征匹 配庫;所述的提取是指采用尺度不變特征變換算法提取特征值。所述的特征值包括特征點的位置信息、臨域尺度信息、主方向信息,以及SIFT特 征點的128維向量。第二步、計算待識別漢字所對應(yīng)圖片的特征值,與特征匹配庫進行特征點匹配,得 到局部特征點坐標。所述的特征點匹配是指采用MPLSH(Multi-Probe Local Sensitive Hashing)多 指針區(qū)域敏感哈希算法來進行快速的特征匹配。第三步、對待識別漢字所對應(yīng)圖片進行單字子窗口提??;所述的單字子窗口是指圖片中的一個正方形的區(qū)域,區(qū)域中包括了匹配所用的 局部特征點;所述的單字子窗口提取是指統(tǒng)計待識別漢字所對應(yīng)圖片的局部特征點的位置的 范圍和臨域尺度的范圍,并根據(jù)臨域尺度的范圍計算出單字子窗口尺寸的范圍。第四步、構(gòu)建識別最大堆并進行單字子窗口識別和合并處理,實現(xiàn)文字識別。所述的構(gòu)建識別最大堆是指統(tǒng)計所有單字子窗口中匹配的特征點的個數(shù),將個 數(shù)小于閾值的單字子窗口刪除,將剩余的單字子窗口組成一個識別最大堆,每次從堆中選 擇點數(shù)最多的單字子窗口進行識別,當該單字子窗口中識別出了文字則刪除該文字上匹配 的特征點并重新統(tǒng)計相關(guān)單字子窗口中特征點的個數(shù),同時刪除點數(shù)小于閾值的單字子窗 口 ;否則直接刪除該單字子窗口并重新進行構(gòu)建,直至識別最大堆中不存在單字子窗口為 止。所述的單字子窗口識別是指統(tǒng)計單字子窗口中與每個模板字匹配上點的個數(shù), 然后通過幾何校驗篩選掉不符合幾何約束的特征點匹配對,最終得到一個特征點一一對應(yīng) 的匹配關(guān)系,當單字子窗口識別出了漢字,根據(jù)幾何校驗后匹配的點對,得到單字子窗口文 字和模板圖片的映射變換關(guān)系,從而得到單字子窗口文字的實際區(qū)域;所述的合并是指基于單字子窗口識別處理后得到的同一區(qū)域會提取出許多不同 的單字子窗口,對于兩個重疊面積大于較小文字面積一半的兩個文字進行合并。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于利用了局部特征來提取圖像信息的魯 棒性,從而解決了光度不均、視角變換、幾何變形、噪聲干擾等文字圖像識別上的問題。同 時,本發(fā)明也改進了圖像檢索技術(shù),利用全新的單字子窗口提取和篩選方法以及投票方法, 解決了復(fù)雜背景和多語種、字體、字符大小、位置、排列不同的場景下圖像文字識別的問題。 同時本方法也省去了傳統(tǒng)基于OCR方法的所需要的大量的文本定位和預(yù)處理的工作,也無 需做離線的文字特征的機器學習的工作,提高了識別的效率和精度。
圖1是本發(fā)明的流程圖。圖2是模板圖片的例圖。
圖3是投票和幾何校驗的例圖。圖4是復(fù)雜背景圖片的識別例圖。
具體實施例方式下面對本發(fā)明的實施例作詳細說明,本實施例在以本發(fā)明技術(shù)方案為前提下進行 實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施 例。如圖1所示,本實施例包括以下步驟1.建立漢字模板圖庫。模板圖庫有多種字體組成,每個字體的每種文字包括了黑 底白字和白底黑字兩個模板字。每個字都是一張單獨的圖片。模板圖片都是不包括任何光 度變換和幾何變換、噪聲的機器生成圖片。圖2(a)是模板圖片的樣例。黑底白字的模板是 用來識別文字顏色淺于背景顏色的文字圖片,白底黑字則用來識別文字顏色深于背景顏色 的文字圖片。沒有背景、光度變換和幾何變換可以保證在下一步的局部特征中,不會在非文 字區(qū)域產(chǎn)生誤匹配。2.提取模板圖片局部特征,建立模板特征數(shù)據(jù)庫。在計算機視覺中,局部特征以其 良好的幾何不變性和光度不變性被廣泛運用在圖像特征提取和匹配上。本實施例在實現(xiàn)中 采用了 SIFT(Scale Invariant Feature Transform,尺度不變特征變換)提取特征。3.提取待識別圖片的局部特征,局部特征的選擇與步驟2中相同。4.局部特征匹配。由于模板特征庫數(shù)據(jù)量巨大,本實施例在實現(xiàn)中采用 MPLSH(Multi-Probe Local Sensitive Hashing)來進行快速的特征匹配。圖 2 (b)是待匹 配圖片與模板圖片的匹配效果。每條連線代表了一對匹配的點對。因為文字的局部相似性, 該步仍然會產(chǎn)生許多誤匹配的發(fā)生,圖3(a)就是誤匹配的例圖。5.對待識別圖片進行單字子窗口的提取。單字子窗口是一個正方形的區(qū)域,區(qū)域 中包括了匹配所用的局部特征點。可以用哈希表的形式來保存圖片中的局部特征,這樣可 以方便地根據(jù)單字子窗口的位置來檢索其中的局部特征。圖4b是圖4(a)中提取的單字子 窗口,黃色的箭頭表示其中的特征點。提取單字識別窗口的步驟包括5. 1統(tǒng)計待匹配圖片上匹配上的特征點的位置的范圍和臨域尺度的范圍,包括最 大橫坐標Xmax、最小橫坐標Xmin、最大縱坐標Ymax、最小縱坐標Ymin、最大尺度Smax和最小尺度
Smin °5. 2根據(jù)臨域尺度的范圍計算出單字子窗口尺寸的范圍,單字子窗口是正方形,最 大單字子窗口邊長Wmax = Smaxk,最小單字子窗口邊長Wmin = Smink。單字子窗口的尺寸從Wmin 開始,以系數(shù)Δ 1為倍數(shù)增加。對于每個尺寸,在特征點位置范圍之內(nèi),沿著X和y方向上 每隔WΔ d取一個單字子窗口。對于邊長是W的單字子窗口,只保留其窗口內(nèi)臨域尺度在 (ff/k,WAs/k)范圍之內(nèi)的特征點。單字子窗口的大小最大不能超過Wmax。k是單字子窗口 系數(shù),Δ 1是增長系數(shù),Ad是移動系數(shù),Δ s是尺度范圍系數(shù)。6.統(tǒng)計所有單字子窗口中匹配的特征點的個數(shù)。個數(shù)小于閾值t的單字子窗口被 刪除。剩余的單字子窗口組成一個最大堆。每次從堆中選擇點數(shù)最多的單字子窗口,識別 該單字子窗口。如果該單字子窗口中識別出了文字,刪除該文字上匹配的特征點,重新統(tǒng)計 相關(guān)單字子窗口中特征點的個數(shù),刪除那些點數(shù)小于閾值t的單字子窗口。否則,直接刪除該單字子窗口。這樣反復(fù)識別,直到堆中不存在單字子窗口為止。以下是單字子窗口識別 方法的步驟6. 1投票統(tǒng)計單字子窗口中與每個模板字匹配上點的個數(shù)。假設(shè)字C匹配上的 點數(shù)是ca。統(tǒng)計每個模板字與單字子窗口匹配上點的個數(shù)。假設(shè)字C匹配上的點數(shù)是cb。 對于模板字,最終的投票結(jié)果是Ca和Cb的最小值Cn。對Cn進行從大到小的排序,取前N個 字為候選字。圖4(b)是投票之后的匹配結(jié)果,可以看到仍然有誤匹配的存在。6. 2幾何校驗通過幾何校驗可以篩選掉那些不符合幾何約束的特征點匹配對, 最終得到一個特征點一一對應(yīng)的匹配關(guān)系。假設(shè)此時字C匹配上的點數(shù)是cg。對。進行 從大到小的排序,排在最前面的字就是最終識別的字。如果識別出的字的(8小于閾值t(同 權(quán)利要求1),則認為該識別無效,該單字子窗口沒有識別出漢字。圖4(C)是幾何校驗之后 的匹配結(jié)果,可以看到對于字形不同的字,已經(jīng)不存在誤匹配了。6. 3如果單字子窗口識別出了漢字,根據(jù)幾何校驗后匹配的點對,得到單字子窗口 文字和模板圖片的映射變換關(guān)系,從而得到單字子窗口文字的實際區(qū)域,這個區(qū)域可以是 一個矩形。7.后處理,合并重疊的文字。由于在同一區(qū)域會提取出許多不同的單字子窗口,因 此也會存在在同一區(qū)域識別出許多文字的情況。對于兩個重疊面積大于較小文字面積一半 的兩個文字,進行合并。比較兩個文字匹配的特征點的個數(shù),保留特征點個數(shù)較多的文字, 刪除另一個文字。本實施實例利用了局部特征檢索的方法識別復(fù)雜背景和自然拍攝的圖片中的文 字,并加上了我們提出的投票和單字子窗口提取和篩選方法,實驗結(jié)果表明大大提高了識 別的效率和精度。
權(quán)利要求
一種基于圖像局部特征檢索的文字識別方法,其特征在于,包括以下步驟第一步、建立漢字模板圖庫并提取其中每個漢字所對應(yīng)圖片的特征值作為特征匹配庫;第二步、計算待識別漢字所對應(yīng)圖片的特征值,與特征匹配庫進行特征點匹配,得到局部特征點坐標;第三步、對待識別漢字所對應(yīng)圖片進行單字子窗口提??;第四步、構(gòu)建識別最大堆并進行單字子窗口識別和合并處理,實現(xiàn)文字識別。
2.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 提取是指采用尺度不變特征變換算法提取特征值。
3.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 特征值包括特征點的位置信息、臨域尺度信息、主方向信息,以及SIFT特征點的128維向 量。
4.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 特征點匹配是指采用多指針區(qū)域敏感哈希算法來進行快速的特征匹配。
5.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 單字子窗口是指圖片中的一個正方形的區(qū)域,區(qū)域中包括了匹配所用的局部特征點。
6.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 單字子窗口提取是指統(tǒng)計待識別漢字所對應(yīng)圖片的局部特征點的位置的范圍和臨域尺度 的范圍,并根據(jù)臨域尺度的范圍計算出單字子窗口尺寸的范圍。
7.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 構(gòu)建識別最大堆是指統(tǒng)計所有單字子窗口中匹配的特征點的個數(shù),將個數(shù)小于閾值的單 字子窗口刪除,將剩余的單字子窗口組成一個識別最大堆,每次從堆中選擇點數(shù)最多的單 字子窗口進行識別,當該單字子窗口中識別出了文字則刪除該文字上匹配的特征點并重新 統(tǒng)計相關(guān)單字子窗口中特征點的個數(shù),同時刪除點數(shù)小于閾值的單字子窗口 ;否則直接刪 除該單字子窗口并重新進行構(gòu)建,直至識別最大堆中不存在單字子窗口為止。
8.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 單字子窗口識別是指統(tǒng)計單字子窗口中與每個模板字匹配上點的個數(shù),然后通過幾何校 驗篩選掉不符合幾何約束的特征點匹配對,最終得到一個特征點一一對應(yīng)的匹配關(guān)系,當 單字子窗口識別出了漢字,根據(jù)幾何校驗后匹配的點對,得到單字子窗口文字和模板圖片 的映射變換關(guān)系,從而得到單字子窗口文字的實際區(qū)域。
9.根據(jù)權(quán)利要求1所述的基于圖像局部特征檢索的文字識別方法,其特征是,所述的 合并是指基于單字子窗口識別處理后得到的同一區(qū)域會提取出許多不同的單字子窗口, 對于兩個重疊面積大于較小文字面積一半的兩個文字進行合并。
全文摘要
一種圖像處理技術(shù)領(lǐng)域的基于圖像局部特征檢索的文字識別方法,首先建立漢字模板圖庫并提取其中每個漢字所對應(yīng)圖片的特征值作為特征匹配庫;然后計算待識別漢字所對應(yīng)圖片的特征值,與特征匹配庫進行特征點匹配,得到局部特征點坐標;再對待識別漢字所對應(yīng)圖片進行單字子窗口提?。蛔詈髽?gòu)建識別最大堆并進行單字子窗口識別和合并處理,實現(xiàn)文字識別。本發(fā)明利用文字關(guān)鍵區(qū)域的局部特征來描述文字,并利用檢索技術(shù)來實現(xiàn)復(fù)雜背景和自然拍攝的圖片文字的識別。
文檔編號G06K9/00GK101957919SQ20101028954
公開日2011年1月26日 申請日期2010年9月22日 優(yōu)先權(quán)日2010年9月22日
發(fā)明者周異, 鄭琪, 陳凱 申請人:上海交通大學