本發(fā)明涉及圖像文本建議領域,尤其是涉及了一種基于全卷積網(wǎng)絡的場景圖像文本建議方法。
背景技術(shù):
自然場景圖像中文字的檢測和識別,對于基于文字內(nèi)容的圖像分析具有重要的作用,對人工智能的發(fā)展也有重要的理論意義。圖像文本的檢測和識別與人們的日常生活、工作息息相關,它可以應用到身份證件的信息讀取和查詢,多媒體信息服務,車輛車牌的跟蹤與定位,基于視覺的汽車導航、智能機器人等眾多場合,給人們的生活帶來了方便。對象提案技術(shù)已經(jīng)成為通過生成候選類獨立對象位置和范圍,減少圖像中對象位置的搜索空間的有效方法。這種通用對象提案方法通常用于檢測單體對象,并且不適用于旨在檢測不相交的部分對象(字符或文本筆畫)的文本檢測。先前的方法在分割圖像時不太理想,文本提案算法的性能低下,因此,如何提高性能和效率,是研究人員關注的重點。
本發(fā)明提出了一種基于全卷積網(wǎng)絡的場景圖像文本建議方法,先文本建議階段將圖像分解為區(qū)域,輸入圖像的初始分割,從中獲得一組連接分量,接著通過幾個自下而上的聚集過程創(chuàng)建文本假設,再利用全卷積網(wǎng)絡(fcn)預測和估計圖像,最后使用fcn結(jié)果對獲得的文本提案進行重新排序,得出最佳文本提案。本發(fā)明結(jié)合全卷積網(wǎng)絡,提高了文本提案算法的性能;整合全卷積網(wǎng)絡提供的像素點文本概率,重新分配文本區(qū)域提案,加速了文本檢測,該方法還可以擴展到端到端文本識別系統(tǒng)。
技術(shù)實現(xiàn)要素:
針對分割圖像不太理想的問題,本發(fā)明的目的在于提供一種基于全卷積網(wǎng)絡的場景圖像文本建議方法,先文本建議階段將圖像分解為區(qū)域,輸入圖像的初始分割,從中獲得一組連接分量,接著通過幾個自下而上的聚集過程創(chuàng)建文本假設,再利用全卷積網(wǎng)絡(fcn)預測和估計圖像,最后使用fcn結(jié)果對獲得的文本提案進行重新排序,得出最佳文本提案。
為解決上述問題,本發(fā)明提供一種基于全卷積網(wǎng)絡的場景圖像文本建議方法,其主要內(nèi)容包括:
(一)圖像區(qū)域分解;
(二)創(chuàng)建文本分組假設;
(三)全卷積網(wǎng)絡(fcn)預測和估計圖像;
(四)文本假設排名和優(yōu)化。
其中,所述的圖像區(qū)域分解,文本建議階段將圖像分解為區(qū)域,輸入圖像的初始分割,從中獲得一組連接分量;fcn對圖像進行像素級的分類,從而解決了語義級別的圖像分割。
進一步地,所述的區(qū)域分解,基于最穩(wěn)定極值區(qū)域算法,目的在于檢測組成部分,這將影響后續(xù)的文本分類;接著,根據(jù)相似的線索,如強度、顏色和筆畫寬度,分組過程建立最穩(wěn)定極值區(qū)域初始設定分組的層次。
其中,所述的創(chuàng)建文本分組假設,通過幾個自下而上的聚集過程創(chuàng)建文本假設;首先,基于沿著層次結(jié)構(gòu),以增量方式計算出特征,各組分類為文本或非文本。
進一步地,所述的文本提案,一旦非文本分組被過濾出來,剩下的分組基于來自感知組織原理的文本結(jié)構(gòu)質(zhì)量得分和特定分組的感知意義的概念得分,形成文本提案。
其中,所述的全卷積網(wǎng)絡(fcn)預測和估計圖像,fcn的目的在于提供像素級預測;fcn中的每個層計算相對空間坐標的本地操作;由于沒有完全連接的層,可以在可變尺寸圖像上使用fcn,并產(chǎn)生相應輸入尺寸的輸出,保留對于文本檢測任務至關重要的圖像的粗略空間信息;因此使用fcn執(zhí)行每個像素預測,并估計輸入圖像的文本熱點圖。
進一步地,所述的全卷積網(wǎng)絡(fcn),首先,將預訓練的視覺幾何組(vgg)網(wǎng)絡轉(zhuǎn)換為完全卷積形式;將網(wǎng)絡運用到執(zhí)行文本或者非文本分割;對fcn輸出應用softmax歸一化,以便將其用作后續(xù)假設排序步驟的文本概率。
其中,所述的文本假設和優(yōu)化排名,均文本概率策略使用平均文本概率對區(qū)域進行排序,該平均文本概率是從fcn熱點圖平均得到的;fcn熱點圖僅提供有關文本本地化的粗略信息,不能直接使用這種信息對邊界框進行排序;實際上,使用平均fcn評分超過文本假設作為排名機制會產(chǎn)生不利影響,即文本區(qū)域內(nèi)排名優(yōu)于對應于詞或行的全部區(qū)域;另一方面,分組質(zhì)量分數(shù)將具有高概率的區(qū)域優(yōu)先為詞或文本行。
進一步地,所述的優(yōu)化,引入抑制策略,最優(yōu)化地結(jié)合了這兩種互補行為,抑制具有低平均文本概率的文本提案;隨后,根據(jù)分組質(zhì)量分數(shù)確定其余區(qū)域的排名,優(yōu)先排序結(jié)構(gòu)化文本塊;對應于文本塊內(nèi)部較小的區(qū)域不會被fcn概率所抑制,然而,由于它們僅覆蓋一小部分,因此它們通常基于它們的分組質(zhì)量得分低排名;抑制策略允許丟棄大量的誤報信息,從而在保留較高的召回率的同時提供較少數(shù)量的提案的優(yōu)異檢測。
進一步地,所述的排名策略,能夠檢測不同類型的文本,包括不同的字體、手寫文本、各種方向或變形、不同的文本長度以及不同的語言。
附圖說明
圖1是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的全卷積網(wǎng)絡構(gòu)架。
圖3是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的fcn輸出的地面實況文本注釋和文本散點圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的系統(tǒng)流程圖。主要包括圖像區(qū)域分解,創(chuàng)建文本分組假設,全卷積網(wǎng)絡(fcn)預測和估計圖像,文本假設排名和優(yōu)化。
圖像區(qū)域分解,文本建議階段將圖像分解為區(qū)域,輸入圖像的初始分割,從中獲得一組連接分量;fcn對圖像進行像素級的分類,從而解決了語義級別的圖像分割。
其中的區(qū)域分解,基于最穩(wěn)定極值區(qū)域算法,目的在于檢測組成部分,這將影響后續(xù)的文本分類;接著,根據(jù)相似的線索,如強度、顏色和筆畫寬度,分組過程建立最穩(wěn)定極值區(qū)域初始設定分組的層次。
創(chuàng)建文本分組假設,通過幾個自下而上的聚集過程創(chuàng)建文本假設;首先,基于沿著層次結(jié)構(gòu),以增量方式計算出特征,各組分類為文本或非文本。
其中的文本提案,一旦非文本分組被過濾出來,剩下的分組基于來自感知組織原理的文本結(jié)構(gòu)質(zhì)量得分和特定分組的感知意義的概念得分,形成文本提案。
文本假設和優(yōu)化排名,均文本概率策略使用平均文本概率對區(qū)域進行排序,該平均文本概率是從fcn熱點圖平均得到的;fcn熱點圖僅提供有關文本本地化的粗略信息,不能直接使用這種信息對邊界框進行排序;實際上,使用平均fcn評分超過文本假設作為排名機制會產(chǎn)生不利影響,即文本區(qū)域內(nèi)排名優(yōu)于對應于詞或行的全部區(qū)域;另一方面,分組質(zhì)量分數(shù)將具有高概率的區(qū)域優(yōu)先為詞或文本行。
優(yōu)化,引入抑制策略,最優(yōu)化地結(jié)合了這兩種互補行為,抑制具有低平均文本概率的文本提案;隨后,根據(jù)分組質(zhì)量分數(shù)確定其余區(qū)域的排名,優(yōu)先排序結(jié)構(gòu)化文本塊;對應于文本塊內(nèi)部較小的區(qū)域不會被fcn概率所抑制,然而,由于它們僅覆蓋一小部分,因此它們通?;谒鼈兊姆纸M質(zhì)量得分低排名;抑制策略允許丟棄大量的誤報信息,從而在保留較高的召回率的同時提供較少數(shù)量的提案的優(yōu)異檢測。
排名策略,能夠檢測不同類型的文本,包括不同的字體、手寫文本、各種方向或變形、不同的文本長度以及不同的語言。
圖2是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的全卷積網(wǎng)絡構(gòu)架。利用全卷積網(wǎng)絡(fcn)預測和估計圖像,fcn的目的在于提供像素級預測;fcn中的每個層計算相對空間坐標的本地操作;由于沒有完全連接的層,可以在可變尺寸圖像上使用fcn,并產(chǎn)生相應輸入尺寸的輸出,保留對于文本檢測任務至關重要的圖像的粗略空間信息;因此使用fcn執(zhí)行每個像素預測,并估計輸入圖像的文本熱點圖。
圖3是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的fcn輸出的地面實況文本注釋和文本散點圖。全卷積網(wǎng)絡(fcn)首先將預訓練的視覺幾何組(vgg)網(wǎng)絡轉(zhuǎn)換為完全卷積形式;將網(wǎng)絡運用到執(zhí)行文本或者非文本分割;對fcn輸出應用softmax歸一化,以便將其用作后續(xù)假設排序步驟的文本概率。
對于本領域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。