一種基于全卷積網(wǎng)絡的場景圖像文本建議方法與流程

文檔序號：11231195閱讀：819來源：國知局

本發(fā)明涉及圖像文本建議領域，尤其是涉及了一種基于全卷積網(wǎng)絡的場景圖像文本建議方法。

背景技術(shù)：

自然場景圖像中文字的檢測和識別，對于基于文字內(nèi)容的圖像分析具有重要的作用，對人工智能的發(fā)展也有重要的理論意義。圖像文本的檢測和識別與人們的日常生活、工作息息相關，它可以應用到身份證件的信息讀取和查詢，多媒體信息服務，車輛車牌的跟蹤與定位，基于視覺的汽車導航、智能機器人等眾多場合，給人們的生活帶來了方便。對象提案技術(shù)已經(jīng)成為通過生成候選類獨立對象位置和范圍，減少圖像中對象位置的搜索空間的有效方法。這種通用對象提案方法通常用于檢測單體對象，并且不適用于旨在檢測不相交的部分對象(字符或文本筆畫)的文本檢測。先前的方法在分割圖像時不太理想，文本提案算法的性能低下，因此，如何提高性能和效率，是研究人員關注的重點。

本發(fā)明提出了一種基于全卷積網(wǎng)絡的場景圖像文本建議方法，先文本建議階段將圖像分解為區(qū)域，輸入圖像的初始分割，從中獲得一組連接分量，接著通過幾個自下而上的聚集過程創(chuàng)建文本假設，再利用全卷積網(wǎng)絡(fcn)預測和估計圖像，最后使用fcn結(jié)果對獲得的文本提案進行重新排序，得出最佳文本提案。本發(fā)明結(jié)合全卷積網(wǎng)絡，提高了文本提案算法的性能；整合全卷積網(wǎng)絡提供的像素點文本概率，重新分配文本區(qū)域提案，加速了文本檢測，該方法還可以擴展到端到端文本識別系統(tǒng)。

技術(shù)實現(xiàn)要素：

針對分割圖像不太理想的問題，本發(fā)明的目的在于提供一種基于全卷積網(wǎng)絡的場景圖像文本建議方法，先文本建議階段將圖像分解為區(qū)域，輸入圖像的初始分割，從中獲得一組連接分量，接著通過幾個自下而上的聚集過程創(chuàng)建文本假設，再利用全卷積網(wǎng)絡(fcn)預測和估計圖像，最后使用fcn結(jié)果對獲得的文本提案進行重新排序，得出最佳文本提案。

為解決上述問題，本發(fā)明提供一種基于全卷積網(wǎng)絡的場景圖像文本建議方法，其主要內(nèi)容包括：

(一)圖像區(qū)域分解；

(二)創(chuàng)建文本分組假設；

(三)全卷積網(wǎng)絡(fcn)預測和估計圖像；

(四)文本假設排名和優(yōu)化。

其中，所述的圖像區(qū)域分解，文本建議階段將圖像分解為區(qū)域，輸入圖像的初始分割，從中獲得一組連接分量；fcn對圖像進行像素級的分類，從而解決了語義級別的圖像分割。

進一步地，所述的區(qū)域分解，基于最穩(wěn)定極值區(qū)域算法，目的在于檢測組成部分，這將影響后續(xù)的文本分類；接著，根據(jù)相似的線索，如強度、顏色和筆畫寬度，分組過程建立最穩(wěn)定極值區(qū)域初始設定分組的層次。

其中，所述的創(chuàng)建文本分組假設，通過幾個自下而上的聚集過程創(chuàng)建文本假設；首先，基于沿著層次結(jié)構(gòu)，以增量方式計算出特征，各組分類為文本或非文本。

進一步地，所述的文本提案，一旦非文本分組被過濾出來，剩下的分組基于來自感知組織原理的文本結(jié)構(gòu)質(zhì)量得分和特定分組的感知意義的概念得分，形成文本提案。

其中，所述的全卷積網(wǎng)絡(fcn)預測和估計圖像，fcn的目的在于提供像素級預測；fcn中的每個層計算相對空間坐標的本地操作；由于沒有完全連接的層，可以在可變尺寸圖像上使用fcn，并產(chǎn)生相應輸入尺寸的輸出，保留對于文本檢測任務至關重要的圖像的粗略空間信息；因此使用fcn執(zhí)行每個像素預測，并估計輸入圖像的文本熱點圖。

進一步地，所述的全卷積網(wǎng)絡(fcn)，首先，將預訓練的視覺幾何組(vgg)網(wǎng)絡轉(zhuǎn)換為完全卷積形式；將網(wǎng)絡運用到執(zhí)行文本或者非文本分割；對fcn輸出應用softmax歸一化，以便將其用作后續(xù)假設排序步驟的文本概率。

其中，所述的文本假設和優(yōu)化排名，均文本概率策略使用平均文本概率對區(qū)域進行排序，該平均文本概率是從fcn熱點圖平均得到的；fcn熱點圖僅提供有關文本本地化的粗略信息，不能直接使用這種信息對邊界框進行排序；實際上，使用平均fcn評分超過文本假設作為排名機制會產(chǎn)生不利影響，即文本區(qū)域內(nèi)排名優(yōu)于對應于詞或行的全部區(qū)域；另一方面，分組質(zhì)量分數(shù)將具有高概率的區(qū)域優(yōu)先為詞或文本行。

進一步地，所述的優(yōu)化，引入抑制策略，最優(yōu)化地結(jié)合了這兩種互補行為，抑制具有低平均文本概率的文本提案；隨后，根據(jù)分組質(zhì)量分數(shù)確定其余區(qū)域的排名，優(yōu)先排序結(jié)構(gòu)化文本塊；對應于文本塊內(nèi)部較小的區(qū)域不會被fcn概率所抑制，然而，由于它們僅覆蓋一小部分，因此它們通常基于它們的分組質(zhì)量得分低排名；抑制策略允許丟棄大量的誤報信息，從而在保留較高的召回率的同時提供較少數(shù)量的提案的優(yōu)異檢測。

進一步地，所述的排名策略，能夠檢測不同類型的文本，包括不同的字體、手寫文本、各種方向或變形、不同的文本長度以及不同的語言。

附圖說明

圖1是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的全卷積網(wǎng)絡構(gòu)架。

圖3是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的fcn輸出的地面實況文本注釋和文本散點圖。

具體實施方式

需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互結(jié)合，下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的系統(tǒng)流程圖。主要包括圖像區(qū)域分解，創(chuàng)建文本分組假設，全卷積網(wǎng)絡(fcn)預測和估計圖像，文本假設排名和優(yōu)化。

圖像區(qū)域分解，文本建議階段將圖像分解為區(qū)域，輸入圖像的初始分割，從中獲得一組連接分量；fcn對圖像進行像素級的分類，從而解決了語義級別的圖像分割。

其中的區(qū)域分解，基于最穩(wěn)定極值區(qū)域算法，目的在于檢測組成部分，這將影響后續(xù)的文本分類；接著，根據(jù)相似的線索，如強度、顏色和筆畫寬度，分組過程建立最穩(wěn)定極值區(qū)域初始設定分組的層次。

創(chuàng)建文本分組假設，通過幾個自下而上的聚集過程創(chuàng)建文本假設；首先，基于沿著層次結(jié)構(gòu)，以增量方式計算出特征，各組分類為文本或非文本。

其中的文本提案，一旦非文本分組被過濾出來，剩下的分組基于來自感知組織原理的文本結(jié)構(gòu)質(zhì)量得分和特定分組的感知意義的概念得分，形成文本提案。

文本假設和優(yōu)化排名，均文本概率策略使用平均文本概率對區(qū)域進行排序，該平均文本概率是從fcn熱點圖平均得到的；fcn熱點圖僅提供有關文本本地化的粗略信息，不能直接使用這種信息對邊界框進行排序；實際上，使用平均fcn評分超過文本假設作為排名機制會產(chǎn)生不利影響，即文本區(qū)域內(nèi)排名優(yōu)于對應于詞或行的全部區(qū)域；另一方面，分組質(zhì)量分數(shù)將具有高概率的區(qū)域優(yōu)先為詞或文本行。

優(yōu)化，引入抑制策略，最優(yōu)化地結(jié)合了這兩種互補行為，抑制具有低平均文本概率的文本提案；隨后，根據(jù)分組質(zhì)量分數(shù)確定其余區(qū)域的排名，優(yōu)先排序結(jié)構(gòu)化文本塊；對應于文本塊內(nèi)部較小的區(qū)域不會被fcn概率所抑制，然而，由于它們僅覆蓋一小部分，因此它們通?；谒鼈兊姆纸M質(zhì)量得分低排名；抑制策略允許丟棄大量的誤報信息，從而在保留較高的召回率的同時提供較少數(shù)量的提案的優(yōu)異檢測。

排名策略，能夠檢測不同類型的文本，包括不同的字體、手寫文本、各種方向或變形、不同的文本長度以及不同的語言。

圖2是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的全卷積網(wǎng)絡構(gòu)架。利用全卷積網(wǎng)絡(fcn)預測和估計圖像，fcn的目的在于提供像素級預測；fcn中的每個層計算相對空間坐標的本地操作；由于沒有完全連接的層，可以在可變尺寸圖像上使用fcn，并產(chǎn)生相應輸入尺寸的輸出，保留對于文本檢測任務至關重要的圖像的粗略空間信息；因此使用fcn執(zhí)行每個像素預測，并估計輸入圖像的文本熱點圖。

圖3是本發(fā)明一種基于全卷積網(wǎng)絡的場景圖像文本建議方法的fcn輸出的地面實況文本注釋和文本散點圖。全卷積網(wǎng)絡(fcn)首先將預訓練的視覺幾何組(vgg)網(wǎng)絡轉(zhuǎn)換為完全卷積形式；將網(wǎng)絡運用到執(zhí)行文本或者非文本分割；對fcn輸出應用softmax歸一化，以便將其用作后續(xù)假設排序步驟的文本概率。

對于本領域技術(shù)人員，本發(fā)明不限制于上述實施例的細節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實現(xiàn)本發(fā)明。此外，本領域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍，這些改進和變型也應視為本發(fā)明的保護范圍。因此，所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏春秋
技術(shù)所有人：深圳市唯特視科技有限公司
我是此專利的發(fā)明人

上一篇：抽油桿端部的制造方法與工藝
上一篇：一種多向可調(diào)便攜式鉆機支架的制造方法與工藝

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

卷積神經(jīng)網(wǎng)絡圖像識別相關技術(shù)

卷積神經(jīng)網(wǎng)絡圖像處理相關技術(shù)

卷積神經(jīng)網(wǎng)絡圖像分類相關技術(shù)

卷積神經(jīng)網(wǎng)絡圖像分割相關技術(shù)

卷積神經(jīng)網(wǎng)絡圖像檢索相關技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于全卷積網(wǎng)絡的場景圖像文本建議方法與流程