本發(fā)明涉及計(jì)算機(jī)視覺,尤其涉及一種表達(dá)式識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、手寫數(shù)學(xué)表達(dá)式識(shí)別(handwritten?mathematical?expression?recognition,hmer)作為光學(xué)字符識(shí)別(optical?character?recognition,ocr)和模式識(shí)別領(lǐng)域的一項(xiàng)基礎(chǔ)任務(wù),在文檔理解、教學(xué)以及辦公自動(dòng)化等領(lǐng)域發(fā)揮著廣泛的作用。
2、目前的hmer,通常是以編碼器-解碼器的序列建模方案,實(shí)現(xiàn)從圖像到序列的生成任務(wù)。然而,由于此類方案缺乏靈活利用整體視覺或語言上下文特征的能力,且需要通過自回歸的方式識(shí)別圖像中的符號(hào),這使得生成的序列可靠性低、且生成速度緩慢。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種表達(dá)式識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),用以解決相關(guān)技術(shù)中手寫識(shí)別可靠性低、且速度緩慢的缺陷。
2、本發(fā)明提供一種表達(dá)式識(shí)別方法,包括:
3、獲取表達(dá)式圖像;
4、基于所述表達(dá)式圖像的圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)識(shí)別,得到所述表達(dá)式圖像的符號(hào)識(shí)別結(jié)果;
5、基于所述圖像特征和所述符號(hào)識(shí)別結(jié)果,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè),得到所述表達(dá)式圖像的符號(hào)校正結(jié)果和符號(hào)連通關(guān)系;
6、基于所述符號(hào)校正結(jié)果和所述符號(hào)連通關(guān)系,確定所述表達(dá)式圖像對(duì)應(yīng)的表達(dá)式。
7、根據(jù)本發(fā)明提供的一種表達(dá)式識(shí)別方法,所述基于所述表達(dá)式圖像的圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)識(shí)別,包括:
8、基于視覺感知標(biāo)記器,應(yīng)用所述表達(dá)式圖像的圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)識(shí)別;
9、所述視覺感知標(biāo)記器是結(jié)合表達(dá)式識(shí)別模型對(duì)樣本圖像識(shí)別所得的參考符號(hào)識(shí)別結(jié)果訓(xùn)練得到的。
10、根據(jù)本發(fā)明提供的一種表達(dá)式識(shí)別方法,所述視覺感知標(biāo)記器的訓(xùn)練步驟包括:
11、基于初始感知標(biāo)記器,應(yīng)用所述樣本圖像的圖像特征,對(duì)所述樣本圖像進(jìn)行符號(hào)識(shí)別,得到所述樣本圖像的測(cè)試符號(hào)識(shí)別結(jié)果;
12、基于所述表達(dá)式識(shí)別模型,對(duì)所述樣本圖像進(jìn)行逐步解碼,得到所述樣本圖像的參考符號(hào)以及所述參考符號(hào)的注意力分?jǐn)?shù);
13、基于所述注意力分?jǐn)?shù)對(duì)所述參考符號(hào)進(jìn)行位置估計(jì),得到所述參考符號(hào)識(shí)別結(jié)果;
14、基于所述測(cè)試符號(hào)識(shí)別結(jié)果和所述參考符號(hào)識(shí)別結(jié)果之間的差異,對(duì)所述初始感知標(biāo)記器進(jìn)行參數(shù)更新,得到所述視覺感知標(biāo)記器。
15、根據(jù)本發(fā)明提供的一種表達(dá)式識(shí)別方法,所述符號(hào)識(shí)別包括可見符號(hào)識(shí)別和局部關(guān)系符號(hào)識(shí)別。
16、根據(jù)本發(fā)明提供的一種表達(dá)式識(shí)別方法,所述基于所述圖像特征和所述符號(hào)識(shí)別結(jié)果,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè),包括:
17、基于所述符號(hào)識(shí)別結(jié)果中的局部關(guān)系符號(hào),為所述符號(hào)識(shí)別結(jié)果增加虛擬關(guān)系標(biāo)識(shí),得到完整符號(hào)識(shí)別結(jié)果;
18、基于所述完整符號(hào)識(shí)別結(jié)果和所述圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè)。
19、根據(jù)本發(fā)明提供的一種表達(dá)式識(shí)別方法,所述基于所述完整符號(hào)識(shí)別結(jié)果和所述圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè),包括:
20、基于所述圖像特征,確定所述完整符號(hào)識(shí)別結(jié)果中各符號(hào)的符號(hào)特征;
21、基于所述各符號(hào)的符號(hào)特征,以及所述圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)校正,以及,基于所述各符號(hào)的符號(hào)特征,以及所述圖像特征,對(duì)所述表達(dá)式圖像分別進(jìn)行符號(hào)左向連通性預(yù)測(cè)和符號(hào)右向連通性預(yù)測(cè)。
22、根據(jù)本發(fā)明提供的一種表達(dá)式識(shí)別方法,所述基于所述符號(hào)校正結(jié)果和所述符號(hào)連通關(guān)系,確定所述表達(dá)式圖像對(duì)應(yīng)的表達(dá)式,包括:
23、基于所述符號(hào)校正結(jié)果和所述符號(hào)連通關(guān)系,構(gòu)建有向無環(huán)圖;
24、對(duì)所述有向無環(huán)圖進(jìn)行路徑選擇,得到所述表達(dá)式圖像對(duì)應(yīng)的表達(dá)式。
25、本發(fā)明還提供一種表達(dá)式識(shí)別裝置,包括:
26、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述表達(dá)式識(shí)別方法。
27、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述表達(dá)式識(shí)別方法。
28、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述表達(dá)式識(shí)別方法。
29、本發(fā)明提供的表達(dá)式識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),基于圖像特征對(duì)表達(dá)式圖像進(jìn)行符號(hào)識(shí)別,得到符號(hào)識(shí)別結(jié)果,再結(jié)合圖像特征和符號(hào)識(shí)別結(jié)果,對(duì)表達(dá)式圖像進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè),可以充分應(yīng)用表達(dá)式圖像的整體視覺特性,從而保證表達(dá)式識(shí)別的準(zhǔn)確性和可靠性;并且,基于符號(hào)識(shí)別結(jié)果進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè),可以一次性輸出表達(dá)式圖像中所有符號(hào)的符號(hào)校正結(jié)果和符號(hào)連通關(guān)系,這種非自回歸的形式能夠大大提高表達(dá)式的識(shí)別效率。
1.一種表達(dá)式識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的表達(dá)式識(shí)別方法,其特征在于,所述基于所述表達(dá)式圖像的圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)識(shí)別,包括:
3.根據(jù)權(quán)利要求2所述的表達(dá)式識(shí)別方法,其特征在于,所述視覺感知標(biāo)記器的訓(xùn)練步驟包括:
4.根據(jù)權(quán)利要求1所述的表達(dá)式識(shí)別方法,其特征在于,所述符號(hào)識(shí)別包括可見符號(hào)識(shí)別和局部關(guān)系符號(hào)識(shí)別。
5.根據(jù)權(quán)利要求4所述的表達(dá)式識(shí)別方法,其特征在于,所述基于所述圖像特征和所述符號(hào)識(shí)別結(jié)果,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè),包括:
6.根據(jù)權(quán)利要求5所述的表達(dá)式識(shí)別方法,其特征在于,所述基于所述完整符號(hào)識(shí)別結(jié)果和所述圖像特征,對(duì)所述表達(dá)式圖像進(jìn)行符號(hào)校正和符號(hào)連通性預(yù)測(cè),包括:
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的表達(dá)式識(shí)別方法,其特征在于,所述基于所述符號(hào)校正結(jié)果和所述符號(hào)連通關(guān)系,確定所述表達(dá)式圖像對(duì)應(yīng)的表達(dá)式,包括:
8.一種表達(dá)式識(shí)別裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述表達(dá)式識(shí)別方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述表達(dá)式識(shí)別方法。
11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述表達(dá)式識(shí)別方法。