文字識別方法和裝置的制造方法
【專利摘要】本發(fā)明公開了一種文字識別方法和裝置。根據本發(fā)明的一個方面,文字識別方法包括:從包含文字的圖像中提取多個連通部件;對所述多個連通部件進行分類,以生成第一語言連通部件和/或非第一語言連通部件;將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行;以及從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第一語言文字。
【專利說明】
文字識別方法和裝置
技術領域
[0001] 本發(fā)明設及圖像處理領域,具體設及識別圖像中的地址口牌中的文字的方法和裝 置。
【背景技術】
[0002] 隨著具有拍攝功能的移動設備在我們的日常生活中使用得越來越普遍,比如手 機、數碼相機等,運使得我們獲取自然場景的照片變得十分方便。地址口牌是我們在日常生 活中十分重要的信息,人們可利用移動設備拍攝包含地址口牌的照片,W記錄或分享自己 的位置。在數字地圖的標注中,需要將大量照片中的地址口牌中的文字信息提取出來,進行 識別標注。由于照片的數量很大,因此需要W自動識別的方式來代替人工識別,W降低工作 量。
[0003] 圖1示出了一種識別地址口牌信息的方法的流程圖。如圖1所示,根據該方法100, 可在步驟S110輸入照片后,從照片中檢測和提取口牌圖像(步驟S120)。圖2a和圖化分 別示出了輸入的照片和從該照片中提取出的口牌圖像的一例。如圖2a和化所示,通過步 驟S120,可從照片中檢測到并提取出口牌圖像。然后,對提取出的口牌圖像進行文字識別, W識別出文字地址(步驟S130)。在圖2a和化所示的示例中,可識別出文字地址"冶金北 路99"。最后,將所識別出的文字地址輸出(步驟S140),W實現地址的自動識別標注。
[0004] 目前,從照片中檢測并提取口牌圖像的技術已較為成熟,其正確性和處理速度都 能夠滿足當前的應用需求。然而,對提取出的口牌圖像進行文字識別的技術往往達不到要 求。運一方面是由于許多口牌中的文字信息的版面結構比較復雜,不易于進行文字識別。另 一方面由于在口牌中通常包含多于一種語言的文字(如,阿拉伯數字、英文字符、漢字等), 而對于每個字符,均需要使用包含多種語言字符的識別引擎來進行識別,由于多語言字符 的數量非常大,運也影響了利用字符識別引擎進行文字識別的處理速度。
【發(fā)明內容】
陽〇化]有鑒于此,本發(fā)明提出了一種文字識別方法和裝置,W對圖像中的文字信息進行 識別。
[0006] 根據本發(fā)明的一個方面,提供了一種文字識別方法,包括:從包含文字的圖像中提 取多個連通部件;對所述多個連通部件進行分類,W生成第一語言連通部件和/或非第一 語言連通部件;將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連 通部件聚類為非第一語言文本行;W及從所述第一語言文本行和所述非第一語言文本行中 識別出第一語言文字和非第一語言文字。
[0007] 根據本發(fā)明的另一方面,提供了一種文字識別裝置,包括:提取單元,從包含文字 的圖像中提取多個連通部件;分類單元,對所述多個連通部件進行分類,W生成第一語言連 通部件和/或非第一語言連通部件;聚類單元,將所述第一語言連通部件聚類為第一語言 文本行,并將所述非第一語言連通部件聚類為非第一語言文本行;W及識別單元,從所述第 一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第一語言文字。
[0008] 根據本發(fā)明所提供的技術方案,可對包含文字的圖像中的文字信息進行有效識 另IJ,特別適于包含多種語言且具有一定版面結構特征的圖像。
【附圖說明】
[0009] 參照附圖來閱讀本發(fā)明的各實施方式,將更容易理解本發(fā)明的其它特征和優(yōu)點, 在此描述的附圖只是為了對本發(fā)明的實施方式進行示意性說明的目的,而非全部可能的實 施,并且不旨在限制本發(fā)明的范圍。在附圖中:
[0010] 圖1示出了現有技術中識別地址口牌信息的方法的流程圖; W11] 圖2a和圖化分別示出了輸入的照片和從該照片中提取出的口牌圖像的一例;
[0012] 圖3示出了根據本發(fā)明一個實施方式的文字識別方法的流程圖;
[0013] 圖4示出了根據本發(fā)明一個實施方式從包含文字的圖像中提取多個連通部件的 流程圖;
[0014] 圖5示出了根據本發(fā)明另一實施方式從包含文字的圖像中提取多個連通部件的 可替選流程圖;
[0015] 圖6示出了根據本發(fā)明一個實施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的流程圖;
[0016] 圖7示出了根據本發(fā)明另一實施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的可替選流程圖;
[0017] 圖8示出了根據本發(fā)明一個實施方式從第一語言文本行和非第一語言文本行中 識別出第一語言文字和非第一語言文字的流程圖;
[0018] 圖9示出了根據本發(fā)明一個實施方式根據圖像的版面結構特征確定圖像在多個 版面類別中所處的版面類別的流程圖;
[0019] 圖10a至圖lOd示出了四個版面類別的示例;
[0020] 圖11示出了根據本發(fā)明一個實施方式的文字識別裝置的框圖;
[0021] 圖12示出了根據本發(fā)明一個實施方式的識別單元的框圖;
[0022] 圖13示出了根據本發(fā)明一個實施方式的版面類別確定子單元的框圖;
[0023] 圖14示出了根據本發(fā)明一個實施方式的文本行處理子單元的框圖;
[0024] 圖15示出了根據本發(fā)明一個實施方式的提取單元的框圖;
[0025] 圖16示出了根據本發(fā)明一個實施方式的聚類單元的框圖;
[00%] 圖17示出了根據本發(fā)明另一實施方式的聚類單元的框圖;W及
[0027] 圖18示出了可用于實施根據本發(fā)明實施例的方法和裝置的計算機的示意性框 圖。
【具體實施方式】
[0028] 現參照附圖對本發(fā)明的實施方式進行詳細描述。應注意,W下描述僅僅是示例性 的,而并不旨在限制本發(fā)明。此外,在W下描述中,將采用相同的附圖標號表示不同附圖中 的相同或相似的部件。在W下描述的不同實施方式中的不同特征,可彼此結合,W形成本發(fā) 明范圍內的其他實施方式。
[0029] 在本發(fā)明的實施方式中,假設已利用本領域技術人員已知的技術從照片中檢測到 并提取出包含文字的圖像區(qū)域,如圖化所示的口牌圖像。而本發(fā)明的實施方式中的各種處 理和操作均是在已獲得該圖像的基礎上做出的。
[0030] 圖3示出了根據本發(fā)明一個實施方式的文字識別方法的流程圖。如圖3所示,文 字識別方法300包括步驟S310至S340。對于已獲得的包含文字的圖像,在步驟S310中, 從包含文字的圖像中提取多個連通部件。對連通部件的提取可采用本領域技術人員已知的 任何適用的方式。所提取出的每個連通部件可包含一個或多個文字字符或文字字符的一部 分。
[0031] 由于圖像中通常包含多種語言的文字,在步驟S320中,按不同語言對所提取出的 多個連通部件進行分類,從而將連通部件分為第一語言連通部件和非第一語言連通部件。 可W理解,對于僅包含第一語言文字而不包含其他語言文字的圖像,經過步驟S320的處理 后,所有提取出的連通部件均被分類為第一語言連通部件;而對于所包含的文字均不是第 一語言文字的圖像,經過步驟S320的處理后,所有提取出的連通部件均被分類為非第一語 言連通部件。
[0032] 在步驟S330中,將第一語言連通部件聚類為第一語言文本行,并將非第一語言連 通部件聚類為非第一語言文本行。對連通部件的聚類可采用本領域技術人員已知的任何適 用的方式。經聚類后所得到的每個文本行可包括一個或多個第一語言文字或非第一語言文 字。
[0033] 在步驟S340中,分別從所得到的第一語言文本行和非第一語言文本行中識別出 第一語言文字和非第一語言文字,W完成對圖像中文字信息的自動識別??衫玫谝徽Z言 字符串識別引擎和非第一語言字符串識別引擎分別從文本行中識別出第一語言文字和非 第一語言文字,運將在W下詳述。
[0034] 根據本發(fā)明的該實施方式,通過將圖像中的文字分類為第一語言和非第一語言, 從而能夠從圖像中識別出包括多種語言的文字信息,例如,阿拉伯數字、英文字母、漢字等。 而且,通過將不同的語言文字分別聚類成不同文本行W進行識別,能夠利用不同語言的識 別引擎分別獨立地處理不同語言的文本行,而無需采用多語言字符的識別引擎來處理每一 個文本行,從而提高了識別速度。
[0035] 圖4示出了根據本發(fā)明一個實施方式從包含文字的圖像中提取多個連通部件的 流程圖。如圖4所示,上述步驟S310可包括子步驟S311至S313。在子步驟S311中,從圖 像中提取連通單元。對圖像中連通單元的提取,可通過任何適當的現有技術的手段來完成, 在此不再詳述。隨后,在子步驟S312中,計算提取出的每個連通單元的識別置信度,并在子 步驟S313中,將識別置信度小于預定的置信度闊值的連通單元除去,并將所保留的連通單 元合并,W形成多個連通部件。對于每個包含文字的圖像,有時會由于圖像的拍攝問題或文 字區(qū)域(如口牌區(qū)域)本身具有一些污垢,而使得所提取的連通單元中有一些是噪聲。為 了去除噪聲,本發(fā)明的一個實施方式預設了置信度闊值。通過將提取出的每個連通單元的 識別置信度與預設的置信度闊值進行比較,從而過濾掉置信度較低的連通單元,除去噪聲, W獲得置信度較高連通單元。
[0036] 圖5示出了根據本發(fā)明另一實施方式從包含文字的圖像中提取多個連通部件的 可替選流程圖。如圖5所示,上述步驟S310可包括子步驟S315至S318。在子步驟S315 中,從圖像中提取連通單元。隨后,在子步驟S316中,計算提取出的每個連通單元的字符筆 劃寬度,并計算所有連通單元的平均字符筆劃寬度。在子步驟S317中,根據平均字符筆劃 寬度,確定字符筆劃寬度范圍。例如,假定計算得到的平均字符筆劃寬度為SW,可將字符筆 劃寬度范圍確定為0. 5*SW~1. 5*SW。隨后,在子步驟S318中,將字符筆劃寬度不處于該范 圍內的連通單元除去,并將未除去的連通單元合并,W形成多個連通部件。圖5所示的過程 是另一種可選的去噪聲方式,其利用字符筆劃寬度,來作為過濾條件,W除去噪聲。
[0037] 另外,對于既包括深底淺字區(qū)域又包括淺底深字區(qū)域的混合圖像,在從圖像中提 取連通單元時,可對圖像進行正面二值化和反面二值化,并將正面二值化和反面二值化的 結果分別進行分析,W分別提取連通單元。最后,將所提取的連通單元合并,W形成多個連 通部件。
[0038] 根據本發(fā)明的一個實施方式,在上述步驟S320中按不同語言對所提取出的多個 連通部件進行分類時,可利用包括所有第一語言字符的第一語言分類器進行分類。例如,設 定第一語言是阿拉伯數字0-9,則可利用包括0-9的分類器,將所提取出的連通部件分類為 第一語言連通部件(是阿拉伯數字)和非第一語言連通部件(不是阿拉伯數字)。根據本 發(fā)明的一個實施例,第一語言的字符數量小于非第一語言的字符數量,運樣,可減小分類時 的計算量,提高處理速度。本領域技術人員可W理解,還可將非第一語言分類為第二語言和 非第一非第二語言(W此類推),也可獲得較好的效果,其具體方式與上述相類似,在此不 再詳述。
[0039] 圖6示出了根據本發(fā)明一個實施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的流程圖。如圖6所示,上述步驟 S330可包括子步驟S331至S334。在子步驟S331中,比較第一語言連通部件之間的水平 間隔和豎直間隔,并根據比較結果為每個第一語言連通部件設置水平標記或豎直標記。具 體地,對于每個第一語言連通部件,比較其與水平相鄰的第一語言連通部件的水平間隔和 與豎直相鄰的第一語言連通部件的豎直間隔的大小。如果水平間隔較小,說明在水平方向 上更加緊湊,則為該連通部件設置水平標記,反之則設置豎直標記。類似地,在子步驟S332 中,根據非第一語言連通部件之間的水平間隔和豎直間隔的比較結果,為每個非第一語言 連通部件設置水平標記或豎直標記。 W40] 然后,在子步驟S333中,將具有水平標記的第一語言連通部件和具有豎直標記的 第一語言連通部件分別聚類為第一語言水平文本行和第一語言豎直文本行。在子步驟S334 中,將具有水平標記的非第一語言連通部件和具有豎直標記的非第一語言連通部件分別聚 類為非第一語言水平文本行和非第一語言豎直文本行。
[0041] 圖7示出了根據本發(fā)明另一實施方式將第一語言連通部件聚類為第一語言文本 行并將非第一語言連通部件聚類為非第一語言文本行的可替選流程圖。如圖7所示,上述 步驟S330可包括子步驟S335至S338。在子步驟S335中,比較第一語言連通部件之間的水 平間隔和豎直間隔與預設的闊值的大小,并根據比較結果為第一語言連通部件設置水平標 記和豎直標記。具體地,對于每個第一語言連通部件,將其與水平相鄰的第一語言連通部件 之間的水平間隔與預設的闊值進行比較,并將其與豎直相鄰的第一語言連通部件之間的豎 直間隔與該闊值進行比較。如果水平間隔小于該闊值,則設置水平標記,如果水平間隔大于 該闊值,則不設置水平標記。同樣,如果豎直間隔小于該闊值,則設置豎直標記,如果豎直間 隔大于該闊值,則不設置豎直標記。類似地,在子步驟S336中,比較非第一語言連通部件之 間的水平間隔和豎直間隔與預設的闊值的大小,并根據比較結果為非第一語言連通部件設 置水平標記和豎直標記。
[0042] 可W理解,對于某些連通部件,可能由于其水平間隔和豎直間隔均小于該預設的 闊值,而同時被設置了水平標記和豎直標記。在子步驟S337中,對于每個既具有水平標記 又具有豎直標記的第一語言連通部件和非第一語言連通部件,根據其與同類連通部件的水 平間隔和豎直間隔的比較結果,去除其水平標記和豎直標記之一。目P,如果第一語言連通部 件在水平方向上更接近另一第一語言連通部件,則保留其水平標記,反之,則保留其豎直標 記。隨后,在子步驟S338中,將具有水平標記的第一語言連通部件和具有豎直標記的第一 語言連通部件分別聚類為第一語言水平文本行和第一語言豎直文本行,并將具有水平標記 的非第一語言連通部件和具有豎直標記的非第一語言連通部件分別聚類為非第一語言水 平文本行和非第一語言豎直文本行。
[0043] 通過上述處理,可得到已經過語言分類并確定了文字識別方向的不同文本行,但 還需確定不同文本行之間的識別順序。為此,本申請?zhí)岢隽艘环N通過預設的版面模板來確 定待處理圖像的版面類別,從而確定不同文本行之間的識別順序。
[0044] 圖8示出了根據本發(fā)明一個實施方式從第一語言文本行和非第一語言文本行中 識別出第一語言文字和非第一語言文字的流程圖。如圖8所示,上述步驟S340可包括子步 驟S341至S343。在子步驟S341中,根據第一語言文本行和非第一語言文本行計算圖像的 版面結構特征。隨后,在子步驟S342中,根據所計算出的版面結構特征,確定該圖像在已知 的多個版面類別中屬于哪個版面類別。在確定了版面類別后,即確定了不同文本行之間的 處理順序。在子步驟S343中,根據該圖像的版面類別處理其中的第一語言文本行和非第一 語言文本行,W識別出第一語言文字和非第一語言文字。
[0045] 根據本發(fā)明的一個實施方式,在上述子步驟S341中計算的圖像的版面結構特征 可包括:第一語言文本行中最長的文本行的幾何特征和識別置信度W及非第一語言文本行 中最長的文本行的幾何特征。 陽046] 具體地,文本行的幾何特征可包括該文本行的上邊界、下邊界、左邊界、右邊界、該 文本行內的連通部件的平均寬高比和/或相鄰連通部件的平均間隔。
[0047] 根據本發(fā)明的一個實施例,圖像的版面結構特征可包括:第一語言最長文本行 的識別置信度(P),第一語言最長文本行的6維幾何特征(上邊界-yo、下邊界-yl、左邊 界-xO、右邊界-XI的相對位置、連通部件的平均寬高比、相鄰連通部件的平均間隔)W及第 二語言最長文本行的6維幾何特征(上邊界-yO、下邊界-yl、左邊界-xO、右邊界-XI的相 對位置、連通部件的平均寬高比、相鄰連通部件的平均間隔)。其中,第一語言最長文本行 的識別置信度(巧指的是該文本行中所有候選連通部件的平均識別置信度,其計算方式如 下: 1^0048] P - (P cci~*~P cc2~*~......+Ρ(χμ)/Μ
[0049] 其中Μ表示第一語言的最長文本行中候選連通部件的個數。除此之外,該平均識 別置信度還可W采用其他計算方式,比如:該文本行中所有候選連通部件的基于寬度加權 的平均識別置信度,即: 陽化0]
陽051] 其中WecM表示該文本行中第Μ個候選連通部件的寬度,W表示該文本行的寬度。
[0052] 圖9示出了根據本發(fā)明一個實施方式根據圖像的版面結構特征確定圖像在多個 版面類別中所處的版面類別的流程圖。如圖9所示,上述子步驟S342可包括子步驟S342a 至S342b。在子步驟S342a中,根據圖像的版面結構特征,計算該圖像與多個版面類別中的 每個的置信度概率。隨后,在子步驟S342b中,將與該圖像的置信度概率最大的版面類別確 定為其版面類別。根據一個實施例,圖像與每個版面類別的置信度概率由經訓練確定的判 別函數通過闊值受限的非線性變換計算得出,并且該判別函數可W是線性的或非線性的。
[0053] 根據本發(fā)明的一個實施方式,可利用多個訓練樣本,按照版面結構的不同,預先定 義N種版面類別。圖10a至圖lOd示出了四個版面類別的示例。利用多個已知的訓練樣 本,可計算出它們的版面結構特征,從而可W訓練一個N類的分類器,可W是線性分類器或 者非線性分類器,比如,判別模型中的經典線性SVM分類器。
[0054] 將屬于每一個版面類別的樣本看成該類別的正樣本,其他所有樣本看成該類別的 負樣本,能夠訓練得到一個線性判別函數,W達到區(qū)分開正、負樣本的目的,如下式所示。 陽化5] fi (X) = WiTy+bi, i 二 1, . . . , N
[0056] 其中,X表示版面結構特征向量,系數和b 1是線性分類器中與版面類別i相關 的經訓練而確定的參數,fi(x)表示版面類別i關于版面結構特征X的線性函數。
[0057] 然后將該線性判別函數通過如下Sigmoid變換轉換為置信度概率:
[0058]
[0059] 其中,參數α為正數,參數β為實數,均是預設的系數,可由實驗確定。例如,可 將α和β分別設置為1和0。各個類別可W共享相同的參數α和β。Pi (X)表示圖像與 版面類別i的置信度概率。 W60] 上述N類分類器的參數Wi、bi、α和β可W通過本領域已知的訓練方法獲得。可 采用開源的LibSVM工具包進行Ν類線性SVM的訓練。
[0061] 在實際操作中,可將計算出的圖像的版面結構特征輸入到上述訓練好的N類分類 器,W將具有最大的分類置信度輸出概率的類別確定為該圖像在已知的多個版面類別中所 處的版面類別。
[0062] 根據本發(fā)明的一個實施方式,上述子步驟S343可包括:分別利用第一語言字符串 識別引擎和非第一語言字符串識別引擎識別第一語言文字和非第一語言文字。并且,可預 設一個校正闊值。對于輸入的圖像,當所得到的最大置信度概率小于該預設的校正闊值時, 則可改變分別用于識別第一語言文本行和/或非第一語言文本行的字符串識別引擎。此 夕F,還可預設另一校正闊值。對于輸入的圖像,當其最長的第一語言文本行中所有連通部件 的平均識別置信度均小于該預設的另一校正闊值時,可調整第一語言文本行和/或非第一 語言文本行的文本行識別方向。由此,可通過預設的闊值調整對圖像的處理方式,W提高正 確率。
[0063] 圖11示出了根據本發(fā)明一個實施方式的文字識別裝置的框圖。如圖11所示,文字 識別裝置1100可包括:提取單元1110、分類單元1120、聚類單元1130和識別單元1140。提 取單元1110可從包含文字的圖像中提取多個連通部件。分類單元1120可對提取單元1110 提取的多個連通部件進行分類,W生成第一語言連通部件和/或非第一語言連通部件。聚 類單元1130可將分類單元1120所生成的第一語言連通部件聚類為第一語言文本行,并將 非第一語言連通部件聚類為非第一語言文本行。識別單元1140可從聚類單元1130所聚類 的第一語言文本行和非第一語言文本行中識別出第一語言文字和非第一語言文字。
[0064] 圖12示出了根據本發(fā)明一個實施方式的識別單元的框圖。如圖12所示,識別單 元1140可包括:版面結構特征計算子單元1141、版面類別確定子單元1142和文本行處理 子單元1143。版面結構特征計算子單元1141可根據聚類單元1130所聚類的第一語言文本 行和非第一語言文本行計算圖像的版面結構特征。版面類別確定子單元1142可根據版面 結構特征計算子單元1141所計算的圖像的版面結構特征,確定圖像在多個版面類別中所 處的版面類別。文本行處理子單元1143可根據版面類別確定子單元1142為該圖像確定的 版面類別處理第一語言文本行和非第一語言文本行,W識別出第一語言文字和非第一語言 文字。
[0065] 根據本發(fā)明的一個實施方式,圖像的版面結構特征可包括:第一語言文本行中最 長的文本行的幾何特征和識別置信度W及非第一語言文本行中最長的文本行的幾何特征。
[0066] 圖13示出了根據本發(fā)明一個實施方式的版面類別確定子單元的框圖。如圖13 所示,版面類別確定子單元1142可包括:置信度概率計算模塊1142a和版面類別確定模塊 1142b。置信度概率計算模塊1142a可根據圖像的版面結構特征,計算該圖像與預設的多個 版面類別中的每個版面類別的置信度概率。版面類別確定模塊114化可將與該圖像的置信 度概率最大的版面類別確定為該圖像的版面類別。
[0067] 圖14示出了根據本發(fā)明一個實施方式的文本行處理子單元的框圖。如圖14所示, 文本行處理子單元1143可包括:第一語言字符串識別引擎1143曰、非第一語言字符串識別 引擎1143b、識別引擎切換模塊1143c和識別方向切換模塊1143d。第一語言字符串識別引 擎1143a和非第一語言字符串識別引擎1143b可分別用于識別第一語言文字和非第一語言 文字。對于所輸入的圖像,當其最大置信度概率小于預定的第一校正闊值時,識別引擎切換 模塊1143c可改變分別用于識別第一語言文本行和/或非第一語言文本行的字符串識別引 擎。對于所輸入的圖像,當其最長的第一語言文本行中所有連通部件的平均識別置信度均 小于預定的第二校正闊值時,識別方向切換模塊1143d可調整第一語言文本行和/或非第 一語言文本行的文本行識別方向。 W側圖15示出了根據本發(fā)明一個實施方式的提取單元的框圖。如圖15所示,提取單 元1110可包括:提取子單元1111、識別置信度計算子單元1112、字符筆劃寬度計算子單元 1113、范圍確定子單元1114和合并子單元1115。提取子單元1111可從圖像中提取連通單 元。識別置信度計算子單元1112可計算提取子單元1111所提取出的每個連通單元的識別 置信度。字符筆劃寬度計算子單元1113可計算提取子單元1111所提取出的每個連通單元 的字符筆劃寬度和平均字符筆劃寬度。范圍確定子單元1114可根據所計算出的平均字符 筆劃寬度,確定字符筆劃寬度范圍。合并子單元1115可將識別置信度小于預定的置信度闊 值的連通單元和字符筆劃寬度不處于字符筆劃寬度范圍中的連通單元除去,并將所保留的 連通單元合并,W形成多個連通部件。
[0069] 圖16示出了根據本發(fā)明一個實施方式的聚類單元的框圖。如圖16所示,聚類單 元1130可包括:比較子單元1131、標記子單元1132和聚類子單元1133。比較子單元1131 可將第一語言連通部件之間的水平間隔與豎直間隔進行比較,并將非第一語言連通部件之 間的水平間隔與豎直間隔進行比較。標記子單元1132可根據比較子單元1131的比較結果 為每個第一語言連通部件和非第一語言連通部件設置水平標記或豎直標記。聚類子單元 1133可將具有水平標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言 水平文本行和非第一語言水平文本行,并將具有豎直標記的第一語言連通部件和非第一語 言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
[0070] 圖17示出了根據本發(fā)明另一實施方式的聚類單元的框圖。如圖17所示,聚類單 元1130可包括:比較子單元1135、標記子單元1136、標記去除子單元1137和聚類子單元 1138。比較子單元1135可將第一語言連通部件之間的水平間隔和豎直間隔W及非第一語 言連通部件之間的水平間隔和豎直間隔分別與預設的闊值進行比較。標記子單元1136可 根據比較子單元1135的比較結果為第一語言連通部件和非第一語言連通部件設置水平標 記和豎直標記。對于標記有水平標記和豎直標記二者的第一語言連通部件和非第一語言連 通部件中的每個,標記去除子單元1137可根據其與同類連通部件的水平間隔和豎直間隔 的大小,去除其水平標記和豎直標記之一。聚類子單元1138可將具有水平標記的第一語言 連通部件和非第一語言連通部件分別聚類為第一語言水平文本行和非第一語言水平文本 行,并將具有豎直標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言豎 直文本行和非第一語言豎直文本行。
[0071] 本領域技術人員可W理解,本發(fā)明所提供的文字識別方法和裝置既可用于識別所 拍攝照片中的口牌圖像區(qū)域中的口牌文字信息,也可用于識別任何包含文字的圖像中的文 字信息,尤其適于具有一定版面結構特征的、屬于某種版面類型的、包含多種語言文字的圖 像。
[0072] 另外,運里尚需指出的是,上述裝置中各個組成部件可W通過軟件、固件、硬件或 其組合的方式進行配置。配置可使用的具體手段或方式為本領域技術人員所熟知,在此不 再寶述。在通過軟件或固件實現的情況下,從存儲介質或網絡向具有專用硬件結構的計算 機(例如圖18所示的通用計算機1800)安裝構成該軟件的程序,該計算機在安裝有各種程 序時,能夠執(zhí)行各種功能等。
[0073] 圖18示出了可用于實施根據本發(fā)明實施例的方法和裝置的計算機的示意性框 圖。 陽074] 在圖18中,中央處理單元仰U) 1801根據只讀存儲器(ROM) 1802中存儲的程序或 從存儲部分1808加載到隨機存取存儲器(RAM) 1803的程序執(zhí)行各種處理。在RAM 1803中, 還根據需要存儲當CPU 1801執(zhí)行各種處理等等時所需的數據。CPU 180UR0M 1802和RAM 1803經由總線1804彼此連接。輸入/輸出接口 1805也連接到總線1804。 陽0巧]下述部件連接到輸入/輸出接口 1805 :輸入部分1806 (包括鍵盤、鼠標等等)、輸 出部分1807(包括顯示器,比如陰極射線管(CRT)、液晶顯示器化CD)等,和揚聲器等)、存 儲部分1808 (包括硬盤等)、通信部分1809 (包括網絡接口卡比如LAN卡、調制解調器等)。 通信部分1809經由網絡比如因特網執(zhí)行通信處理。根據需要,驅動器1810也可連接到輸入 /輸出接口 1805??刹鹦督橘|1811比如磁盤、光盤、磁光盤、半導體存儲器等等可W根據需 要被安裝在驅動器1810上,使得從中讀出的計算機程序根據需要被安裝到存儲部分1808 中。
[0076] 在通過軟件實現上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆 卸介質1811安裝構成軟件的程序。
[0077] 本領域的技術人員應當理解,運種存儲介質不局限于圖18所示的其中存儲有程 序、與設備相分離地分發(fā)W向用戶提供程序的可拆卸介質1811??刹鹦督橘|1811的例子 包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(CD-ROM)和數字通用盤 值VD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器?;蛘撸鎯橘|可W是 ROM 1802、存儲部分1808中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起 被分發(fā)給用戶。
[0078] 本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產品。所述指令代碼由機 器讀取并執(zhí)行時,可執(zhí)行上述根據本發(fā)明實施方式的方法。
[0079] 相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產品的存儲介質也包 括在本發(fā)明的范圍內。所述存儲介質包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等 等。
[0080] 應當注意,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可W按 照其他的次序順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對 本發(fā)明的技術范圍構成限制。
[0081] W上對本發(fā)明各實施方式的描述是為了更好地理解本發(fā)明,其僅僅是示例性的, 而非旨在對本發(fā)明進行限制。應注意,在W上描述中,針對一種實施方式描述和/或示出的 特征可W W相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的 特征相組合,或替代其它實施方式中的特征。本領域技術人員可W理解,在不脫離本發(fā)明的 發(fā)明構思的情況下,針對W上所描述的實施方式進行的各種變化和修改,均屬于本發(fā)明的 范圍內。
[0082] 綜上,在根據本發(fā)明的實施例中,本發(fā)明提供了如下技術方案。
[0083] 方案1、一種文字識別方法,包括:
[0084] 從包含文字的圖像中提取多個連通部件;
[00化]對所述多個連通部件進行分類,W生成第一語言連通部件和/或非第一語言連通 部件;
[0086] 將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連通部件 聚類為非第一語言文本行;W及
[0087] 從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第 一語言文字。
[0088] 方案2、如方案1所述的方法,其中從所述第一語言文本行和所述非第一語言文本 行中識別出第一語言文字和非第一語言文字包括:
[0089] 根據所述第一語言文本行和所述非第一語言文本行計算所述圖像的版面結構特 征;
[0090] 根據所述圖像的版面結構特征,確定所述圖像在多個版面類別中所處的版面類 另0;化及
[0091] 根據所述圖像的版面類別處理所述第一語言文本行和所述非第一語言文本行,W 識別出第一語言文字和非第一語言文字。
[0092] 方案3、如方案2所述的方法,其中所述圖像的版面結構特征包括:第一語言文本 行中最長的文本行的幾何特征和識別置信度W及非第一語言文本行中最長的文本行的幾 何特征。
[0093] 方案4、如方案3所述的方法,其中文本行的幾何特征包括該文本行的上邊界、下 邊界、左邊界、右邊界、該文本行內的連通部件的平均寬高比和/或相鄰連通部件的平均間 隔。
[0094] 方案5、如方案2-4中任一項所述的方法,其中根據所述圖像的版面結構特征,確 定所述圖像在多個版面類別中所處的版面類別包括:
[0095] 根據所述圖像的版面結構特征,計算所述圖像與所述多個版面類別中的每個的置 信度概率;W及
[0096] 將與所述圖像的置信度概率最大的版面類別確定為所述圖像的版面類別。
[0097] 方案6、如方案5所述的方法,其中所述圖像與每個類別的置信度概率由經訓練確 定的判別函數通過闊值受限的非線性變換計算得出,所述判別函數是線性的或非線性的。 [009引方案7、如方案5或6所述的方法,其中根據所述圖像的版面類別處理所述第一語 言文本行和所述非第一語言文本行,W識別出第一語言文字和非第一語言文字包括:
[0099] 分別利用第一語言字符串識別引擎和非第一語言字符串識別引擎識別第一語言 文字和非第一語言文字;并且
[0100] 其中,對于最大置信度概率小于預定的第一校正闊值的圖像,改變分別用于識別 第一語言文本行和/或非第一語言文本行的字符串識別引擎;W及 陽101] 其中,對于最長的第一語言文本行中所有連通部件的平均識別置信度均小于預定 的第二校正闊值的圖像,調整第一語言文本行和/或非第一語言文本行的文本行識別方 向。 陽102] 方案8、如方案1-7中任一項所述的方法,其中從包含文字的圖像中提取多個連通 部件包括:
[0103] 從所述圖像中提取連通單元; 陽104] 計算提取出的每個連通單元的識別置信度;W及
[0105] 將識別置信度小于預定的置信度闊值的連通單元除去,并將未除去的連通單元合 并,W形成所述多個連通部件。 陽106] 方案9、如方案1-8中任一項所述的方法,其中從包含文字的圖像中提取多個連通 部件包括:
[0107] 從所述圖像中提取連通單元; 陽10引計算提取出的每個連通單元的字符筆劃寬度和平均字符筆劃寬度;
[0109] 根據平均字符筆劃寬度,確定字符筆劃寬度范圍;W及
[0110] 將字符筆劃寬度不處于所述字符筆劃寬度范圍中的連通單元除去,并將未除去的 連通單元合并,W形成所述多個連通部件。 陽111] 方案10、如方案1-9中任一項所述的方法,其中將所述第一語言連通部件聚類為 第一語言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括:
[0112] 根據第一語言連通部件之間的水平間隔和豎直間隔的比較結果W及非第一語言 連通部件之間的水平間隔和豎直間隔的比較結果,為每個第一語言連通部件和非第一語言 連通部件設置水平標記或豎直標記;
[0113] 將具有水平標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語 言水平文本行和非第一語言水平文本行;W及
[0114] 將具有豎直標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語 言豎直文本行和非第一語言豎直文本行。
[0115] 方案11、如方案1-9中任一項所述的方法,其中將所述第一語言連通部件聚類為 第一語言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括:
[0116] 根據第一語言連通部件之間的水平間隔與預設的闊值的比較結果W及非第一語 言連通部件之間的水平間隔與所述預設的闊值的比較結果,為第一語言連通部件和非第一 語言連通部件設置水平標記;
[0117] 根據第一語言連通部件之間的豎直間隔與所述預設的闊值的比較結果W及非第 一語言連通部件之間的豎直間隔與所述預設的闊值的比較結果,為第一語言連通部件和非 第一語言連通部件設置豎直標記;
[0118] 對于標記有水平標記和豎直標記二者的第一語言連通部件和非第一語言連通部 件中的每個,根據其與同類連通部件的水平間隔和豎直間隔的比較結果,去除其水平標記 和豎直標記之一;W及
[0119] 將具有水平標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語 言水平文本行和非第一語言水平文本行,并將具有豎直標記的第一語言連通部件和非第一 語言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
[0120] 方案12、如方案1-11中任一項所述的方法,其中第一語言的字符數量小于非第一 語言的字符數量。 陽121] 方案13、一種文字識別裝置,包括:
[0122] 提取單元,從包含文字的圖像中提取多個連通部件;
[0123] 分類單元,對所述多個連通部件進行分類,W生成第一語言連通部件和/或非第 一語言連通部件;
[0124] 聚類單元,將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語 言連通部件聚類為非第一語言文本行;W及
[01巧]識別單元,從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文 字和非第一語言文字。 陽126] 方案14、如方案13所述的裝置,其中所述識別單元包括:
[0127] 版面結構特征計算子單元,根據所述第一語言文本行和所述非第一語言文本行計 算所述圖像的版面結構特征;
[0128] 版面類別確定子單元,根據所述圖像的版面結構特征,確定所述圖像在多個版面 類別中所處的版面類別;W及
[0129] 文本行處理子單元,根據所述圖像的版面類別處理所述第一語言文本行和所述非 第一語言文本行,W識別出第一語言文字和非第一語言文字。
[0130] 方案15、如方案14所述的裝置,其中所述圖像的版面結構特征包括:第一語言文 本行中最長的文本行的幾何特征和識別置信度W及非第一語言文本行中最長的文本行的 幾何特征。 陽131] 方案16、如方案14或15所述的裝置,其中所述版面類別確定子單元包括:
[0132] 置信度概率計算模塊,根據所述圖像的版面結構特征,計算所述圖像與所述多個 版面類別中的每個的置信度概率;W及
[0133] 版面類別確定模塊,將與所述圖像的置信度概率最大的版面類別確定為所述圖像 的版面類別。
[0134] 方案17、如方案16所述的裝置,其中所述文本行處理子單元包括:
[0135] 第一語言字符串識別引擎和非第一語言字符串識別引擎,分別用于識別第一語言 文字和非第一語言文字;
[0136] 識別引擎切換模塊,對于最大置信度概率小于預定的第一校正闊值的圖像,改變 分別用于識別第一語言文本行和/或非第一語言文本行的字符串識別引擎;W及
[0137] 識別方向切換模塊,對于最長的第一語言文本行中所有連通部件的平均識別置信 度均小于預定的第二校正闊值的圖像,調整第一語言文本行和/或非第一語言文本行的文 本行識別方向。
[0138] 方案18、如方案13-17中任一項所述的裝置,其中所述提取單元包括:
[0139] 提取子單元,從所述圖像中提取連通單元;
[0140] 識別置信度計算子單元,計算提取出的每個連通單元的識別置信度; 陽141] 字符筆劃寬度計算子單元,計算提取出的每個連通單元的字符筆劃寬度和平均字 符筆劃寬度; 陽142] 范圍確定子單元,根據平均字符筆劃寬度,確定字符筆劃寬度范圍;W及 陽143] 合并子單元,將識別置信度小于預定的置信度闊值的連通單元和字符筆劃寬度不 處于所述字符筆劃寬度范圍中的連通單元除去,并將未除去的連通單元合并,W形成所述 多個連通部件。
[0144] 方案19、如方案13-18中任一項所述的裝置,其中所述聚類單元包括:
[0145] 比較子單元,將第一語言連通部件之間的水平間隔與豎直間隔進行比較,并將非 第一語言連通部件之間的水平間隔與豎直間隔進行比較; 陽146] 標記子單元,根據所述比較子單元的比較結果為每個第一語言連通部件和非第一 語言連通部件設置水平標記或豎直標記;W及
[0147] 聚類子單元,將具有水平標記的第一語言連通部件和非第一語言連通部件分別聚 類為第一語言水平文本行和非第一語言水平文本行,將具有豎直標記的第一語言連通部件 和非第一語言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
[0148] 方案20、如方案13-18中任一項所述的裝置,其中所述聚類單元包括:
[0149] 比較子單元,將第一語言連通部件之間的水平間隔和豎直間隔W及非第一語言連 通部件之間的水平間隔和豎直間隔分別與預設的闊值進行比較;
[0150] 標記子單元,根據所述比較子單元的比較結果為第一語言連通部件和非第一語言 連通部件設置水平標記和豎直標記; 陽151] 標記去除子單元,對于標記有水平標記和豎直標記二者的第一語言連通部件和非 第一語言連通部件中的每個,根據其與同類連通部件的水平間隔和豎直間隔的大小,去除 其水平標記和豎直標記之一;W及
[0152] 聚類子單元,將具有水平標記的第一語言連通部件和非第一語言連通部件分別聚 類為第一語言水平文本行和非第一語言水平文本行,將具有豎直標記的第一語言連通部件 和非第一語言連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。
【主權項】
1. 一種文字識別方法,包括: 從包含文字的圖像中提取多個連通部件; 對所述多個連通部件進行分類,以生成第一語言連通部件和/或非第一語言連通部 件; 將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連通部件聚類 為非第一語言文本行;以及 從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和非第一語 言文字。2. 如權利要求1所述的方法,其中從所述第一語言文本行和所述非第一語言文本行中 識別出第一語言文字和非第一語言文字包括: 根據所述第一語言文本行和所述非第一語言文本行計算所述圖像的版面結構特征; 根據所述圖像的版面結構特征,確定所述圖像在多個版面類別中所處的版面類別;以 及 根據所述圖像的版面類別處理所述第一語言文本行和所述非第一語言文本行,以識別 出第一語言文字和非第一語言文字。3. 如權利要求2所述的方法,其中所述圖像的版面結構特征包括:第一語言文本行中 最長的文本行的幾何特征和識別置信度以及非第一語言文本行中最長的文本行的幾何特 征。4. 如權利要求2或3所述的方法,其中根據所述圖像的版面結構特征,確定所述圖像在 多個版面類別中所處的版面類別包括: 根據所述圖像的版面結構特征,計算所述圖像與所述多個版面類別中的每個的置信度 概率;以及 將與所述圖像的置信度概率最大的版面類別確定為所述圖像的版面類別。5. 如權利要求4所述的方法,其中根據所述圖像的版面類別處理所述第一語言文本行 和所述非第一語言文本行,以識別出第一語言文字和非第一語言文字包括: 分別利用第一語言字符串識別引擎和非第一語言字符串識別引擎識別第一語言文字 和非第一語言文字;并且 其中,對于最大置信度概率小于預定的第一校正閾值的圖像,改變分別用于識別第一 語言文本行和/或非第一語言文本行的字符串識別引擎;以及 其中,對于最長的第一語言文本行中所有連通部件的平均識別置信度均小于預定的第 二校正閾值的圖像,調整第一語言文本行和/或非第一語言文本行的文本行識別方向。6. 如權利要求1-3中任一項所述的方法,其中從包含文字的圖像中提取多個連通部件 包括: 從所述圖像中提取連通單元; 計算提取出的每個連通單元的識別置信度;以及 將識別置信度小于預定的置信度閾值的連通單元除去,并將未除去的連通單元合并, 以形成所述多個連通部件。7. 如權利要求1-3中任一項所述的方法,其中從包含文字的圖像中提取多個連通部件 包括: 從所述圖像中提取連通單元; 計算提取出的每個連通單元的字符筆劃寬度和平均字符筆劃寬度; 根據平均字符筆劃寬度,確定字符筆劃寬度范圍;以及 將字符筆劃寬度不處于所述字符筆劃寬度范圍中的連通單元除去,并將未除去的連通 單元合并,以形成所述多個連通部件。8. 如權利要求1-3中任一項所述的方法,其中將所述第一語言連通部件聚類為第一語 言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括: 根據第一語言連通部件之間的水平間隔和豎直間隔的比較結果以及非第一語言連通 部件之間的水平間隔和豎直間隔的比較結果,為每個第一語言連通部件和非第一語言連通 部件設置水平標記或豎直標記; 將具有水平標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言水 平文本行和非第一語言水平文本行;以及 將具有豎直標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言豎 直文本行和非第一語言豎直文本行。9. 如權利要求1-3中任一項所述的方法,其中將所述第一語言連通部件聚類為第一語 言文本行,并將所述非第一語言連通部件聚類為非第一語言文本行包括: 根據第一語言連通部件之間的水平間隔與預設的閾值的比較結果以及非第一語言連 通部件之間的水平間隔與所述預設的閾值的比較結果,為第一語言連通部件和非第一語言 連通部件設置水平標記; 根據第一語言連通部件之間的豎直間隔與所述預設的閾值的比較結果以及非第一語 言連通部件之間的豎直間隔與所述預設的閾值的比較結果,為第一語言連通部件和非第一 語言連通部件設置豎直標記; 對于標記有水平標記和豎直標記二者的第一語言連通部件和非第一語言連通部件中 的每個,根據其與同類連通部件的水平間隔和豎直間隔的比較結果,去除其水平標記和豎 直標記之一;以及 將具有水平標記的第一語言連通部件和非第一語言連通部件分別聚類為第一語言水 平文本行和非第一語言水平文本行,并將具有豎直標記的第一語言連通部件和非第一語言 連通部件分別聚類為第一語言豎直文本行和非第一語言豎直文本行。10. -種文字識別裝置,包括: 提取單元,從包含文字的圖像中提取多個連通部件; 分類單元,對所述多個連通部件進行分類,以生成第一語言連通部件和/或非第一語 言連通部件; 聚類單元,將所述第一語言連通部件聚類為第一語言文本行,并將所述非第一語言連 通部件聚類為非第一語言文本行;以及 識別單元,從所述第一語言文本行和所述非第一語言文本行中識別出第一語言文字和 非第一語言文字。
【文檔編號】G06K9/00GK105989341SQ201510086612
【公開日】2016年10月5日
【申請日】2015年2月17日
【發(fā)明人】許亮, 范偉, 孫俊, 直井聰
【申請人】富士通株式會社