本發(fā)明利用概率統(tǒng)計(jì)以及數(shù)據(jù)挖掘,構(gòu)建激活力詞典,結(jié)合貝葉斯理論解決圖片中文本識(shí)別出現(xiàn)的識(shí)別錯(cuò)誤問(wèn)題。
背景技術(shù):
圖片識(shí)別在智能識(shí)別領(lǐng)域具有相當(dāng)重要的意義,隨著社會(huì)的不斷發(fā)展各種信息急劇膨脹,圖片因其便捷性且不易篡改性成為十分通用的信息保存手段,在此背景下,圖片中的文字識(shí)別顯得格外重要。
目前雖然已經(jīng)存在大量的圖片文字識(shí)別方法,例如傳統(tǒng)的OCR技術(shù)或者現(xiàn)在流行的各種深度學(xué)習(xí)衍生識(shí)別方法,這些方法都需要的高識(shí)別率都建立在高分辨的基礎(chǔ)上,但總是存在大量分辨率不高的圖片文本需要進(jìn)行識(shí)別,而對(duì)于這些分辨率不高的PDF圖片或者模糊的相機(jī)照片,已存在的方法都不能保證對(duì)整個(gè)文檔的完全識(shí)別正確,而對(duì)于大段的文檔如果使用人工校正無(wú)疑會(huì)耗費(fèi)大量的人力物力?,F(xiàn)存的方法都注重對(duì)漢字字形的識(shí)別,而忽略了漢字的聯(lián)系關(guān)系,即漢字只有通過(guò)一定的排列順序才能構(gòu)成可供人理解的語(yǔ)句,而對(duì)于需進(jìn)行文字識(shí)別的絕大部分文檔無(wú)疑都是具有連貫語(yǔ)義的;除此之外,由于漢字特有的文字結(jié)構(gòu),只要圖片的清晰程度達(dá)到一定的要求,總有一部分簡(jiǎn)單文字可以被準(zhǔn)確的識(shí)別出來(lái)。通過(guò)上述兩個(gè)特點(diǎn),我們就可以利用漢字間的相互關(guān)聯(lián)關(guān)系對(duì)識(shí)別相似度不高的部分文字進(jìn)行再選擇。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有圖片文字識(shí)別技術(shù)存在部分文字識(shí)別錯(cuò)誤的問(wèn)題,本發(fā)明的目的是提供一種文字識(shí)別糾錯(cuò)技術(shù)對(duì)識(shí)別相似度較低的文字進(jìn)行自動(dòng)再識(shí)別處理,最大限度的減少圖片文本的識(shí)別錯(cuò)誤問(wèn)題。
為達(dá)到上述目的,本發(fā)明提出的文字識(shí)別自動(dòng)糾錯(cuò)方法包括以下步驟:
字典構(gòu)建步驟:構(gòu)建激活力字典,旨在挖掘漢字間的潛在語(yǔ)義關(guān)系,進(jìn)而獲得漢字間的相互影響關(guān)系,從而獲得各個(gè)漢字前方以及后方可能出現(xiàn)的其他漢字;
不確定字糾正步驟:使用通用方法獲取識(shí)別出的字符以及對(duì)應(yīng)的識(shí)別相似度,若其中存在某一字符的相似度高于某一θ值的,認(rèn)為其對(duì)應(yīng)的字符為正確識(shí)別結(jié)果;若不存在,則將這些字符以及相似度作為參考先驗(yàn)概率,利用步驟一中構(gòu)建的字典并結(jié)合貝葉斯公式篩選出最佳字。
字典構(gòu)建步驟中,對(duì)選定字進(jìn)行建模,此步驟具體過(guò)程如下:
1)、利用漢語(yǔ)語(yǔ)料庫(kù)獲取包含選定字的語(yǔ)料數(shù)據(jù),并定義分隔符,將所有標(biāo)點(diǎn)符號(hào)都設(shè)定為分隔符;
2)、統(tǒng)計(jì)用于建立詞典的字i在語(yǔ)料庫(kù)中的出現(xiàn)頻率fi;
3)、統(tǒng)計(jì)任意兩個(gè)距離小于等于ε的字i和j(區(qū)分先后)共同出現(xiàn)的頻率fij并記錄所有的距離出現(xiàn)的次數(shù)dijk(1≤k≤ε),并計(jì)算出這兩個(gè)字i和j共同出現(xiàn)的平均距離dij,計(jì)算公式定義如下
值得說(shuō)明的是,如果在規(guī)定距離內(nèi)出現(xiàn)分割符,則此時(shí)不對(duì)分隔符兩端的字統(tǒng)計(jì)共現(xiàn)頻率。
4)、根據(jù)前面三個(gè)步驟獲取的數(shù)據(jù)計(jì)算出任意兩個(gè)字i和j之間的激活力afij
5)、設(shè)定閾值t,將第4)所得的激活力數(shù)據(jù)中低于t的數(shù)據(jù)全部濾除,將選定字i對(duì)應(yīng)的afxi和afix取出并按大小順序排序作為i前面(afxi)和后面(afix)最可能出現(xiàn)的字x。值得說(shuō)明的是,由于已經(jīng)濾除了一部分?jǐn)?shù)據(jù),當(dāng)i影響字不存在時(shí),以空值表示。
不確定字糾正步驟,此步驟的具體過(guò)程如下:
1)、假定已經(jīng)通過(guò)通用方法獲取了字符i的識(shí)別結(jié)果wi和對(duì)應(yīng)的相似度λi,其中wi=[wi1,wi2,…,win]T,wix為識(shí)別出的可能的字符,λi=[λi1,λi2,…,λin]T,λix為對(duì)應(yīng)的相似度。當(dāng)存在λix大于θ時(shí),認(rèn)為wix即為正確識(shí)別結(jié)果;當(dāng)不存在時(shí),首先濾除λix小于對(duì)應(yīng)的字符,將剩下的作為候選字符。
2)、對(duì)于一段待識(shí)別文字,必然存在某些字符可認(rèn)為識(shí)別正確,則可以以這些字符為中心進(jìn)行擴(kuò)散識(shí)別。對(duì)于不滿足相似度條件的字符i,將上一步處理后的w′i=[wi1,wi2,…,wim]T作為字符i候選識(shí)別結(jié)果,對(duì)于前后都存在已確定相鄰字的字符i的候選識(shí)別字wij的后驗(yàn)概率ηij可以定義如下
其中,A為字符i前面的相鄰字,B為字符i后面的相鄰字,α為平滑因子,同理,對(duì)于只存在一邊相鄰字的后驗(yàn)概率ηij可以定義為
ηij=lg(afAwij+1)或者ηij=lg(afwijB+1)
利用貝葉斯公式
則選擇最大的ψij作為字符i的識(shí)別結(jié)果,即
本發(fā)明的有益效果在于,相對(duì)于現(xiàn)有文字識(shí)別技術(shù)而言,本發(fā)明挖掘文字之間的語(yǔ)義關(guān)系,在一般圖片文字識(shí)別的基礎(chǔ)上,利用文字相關(guān)性并結(jié)合貝葉斯理論得出更為精準(zhǔn)可靠的識(shí)別結(jié)果,具有很大的實(shí)用價(jià)值。
附圖說(shuō)明
圖1為本發(fā)明一種基于圖片文本識(shí)別的糾錯(cuò)方法的步驟流程圖;
圖2為構(gòu)建字典的步驟流程圖;
圖3為不確定字糾正的步驟流程圖。
具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式進(jìn)行詳細(xì)說(shuō)明。
圖1是本發(fā)明的流程圖,包括以下步驟:
步驟S1:構(gòu)建字典步驟;
步驟S2:基于獲取的一般識(shí)別結(jié)果并結(jié)合字典獲取最佳識(shí)別結(jié)果步驟。
下面將對(duì)每個(gè)步驟進(jìn)行具體的說(shuō)明:
步驟S1挖掘漢字之間的關(guān)聯(lián)關(guān)系,根據(jù)此關(guān)系的強(qiáng)烈程度構(gòu)建字典。圖2給出了該方法的具體實(shí)施流程:
1)、步驟11中,對(duì)選定字(如選定《現(xiàn)代漢語(yǔ)常用字表》中的約3500常用字)進(jìn)行建模,利用漢語(yǔ)語(yǔ)料庫(kù)(如CCL)獲取海量的語(yǔ)料數(shù)據(jù),并將所有標(biāo)點(diǎn)符號(hào)都定義為分隔符;
2)、步驟12中,根據(jù)步驟11獲取的大量語(yǔ)料數(shù)據(jù),將《現(xiàn)代漢語(yǔ)常用字表》中的約3500常用字作為字典對(duì)象,統(tǒng)計(jì)字i出現(xiàn)的頻次fi;
3)、步驟13中,統(tǒng)計(jì)任意兩個(gè)距離小于等于ε(一般來(lái)說(shuō)ε取5)的字i和j(區(qū)分先后)共同出現(xiàn)的頻率fij并記錄所有的距離出現(xiàn)的次數(shù)dijk(1≤k≤ε),若i和j之間出現(xiàn)分隔符則不計(jì)入統(tǒng)計(jì),并計(jì)算出這兩個(gè)字i和j共同出現(xiàn)的平均距離dij,dij的計(jì)算公式定義如下:
4)、步驟14中,計(jì)算字典中所有字之間的激活力,對(duì)于任意兩字i和j的激活力afij定義如下:
5)、步驟15中,設(shè)定閾值t(一般來(lái)說(shuō)t取值10-5),將步驟14所得的激活力數(shù)據(jù)中低于t的數(shù)據(jù)全部濾除,將選定字i對(duì)應(yīng)的afxi和afix取出并按大小順序排序作為i前面(afxi)和后面(afix)最可能出現(xiàn)的字x。這樣便構(gòu)成一個(gè)完整的激活力字典。
步驟S2,以普通識(shí)別方法獲取的識(shí)別字和相似度為基礎(chǔ),結(jié)合步驟S1中構(gòu)建的字典獲得最佳識(shí)別結(jié)果。圖3給出了該方法的具體實(shí)施流程:
1)、輸入:
a)通用識(shí)別方法(如OCR等)獲取的某一字符i的識(shí)別候選字集合wi和對(duì)應(yīng)的相似度集合λi,wi=[wi1,wi2,…,win]T,λi=[λi1,λi2,…,λin]T;
2)、步驟21中,首先判斷λi是否存在大于θ(θ一般取0.8)的值,如果存在某一λij滿足條件,則其對(duì)應(yīng)的wij即可以被認(rèn)為是對(duì)字符i的正確識(shí)別結(jié)果;如果不存在滿足這一條件的值,則將wi作為候選字集合,同時(shí)將λi中低于(一般取0.1)的值對(duì)應(yīng)的候選字在集合中去除;
3)步驟22中,由于是對(duì)一段文本的識(shí)別,所以假定至少存在一部分字符識(shí)別相似度達(dá)到θ是完全合理的,所以對(duì)于待識(shí)別的字符i,若此字符的前后相鄰字都是已確定識(shí)別準(zhǔn)確的字符A和B(假定A在前,B在后),則對(duì)于某一候選字wij的后驗(yàn)概率定義ηij為
其中,α為平滑因子(一般取值10-6)。對(duì)于只存在一邊的相鄰字被確定情況的后驗(yàn)概率ηij可以定義為
ηij=lg(afAwij+1)或者ηij=lg(afwijB+1)
此時(shí),利用貝葉斯公式
最大的ψij可以認(rèn)定作為字符i的識(shí)別結(jié)果,即
以上結(jié)合附圖對(duì)所提出的一種基于圖片文本識(shí)別的糾錯(cuò)方法及各模塊的具體實(shí)施方式進(jìn)行了闡述。通過(guò)以上實(shí)施方式的描述,所屬領(lǐng)域的一般技術(shù)人員可以清楚的了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件實(shí)現(xiàn),但前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以計(jì)算機(jī)軟件產(chǎn)品的形式體現(xiàn),該軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)或多臺(tái)計(jì)算機(jī)設(shè)備執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
以上所述的本發(fā)明實(shí)施方式,并不構(gòu)成對(duì)發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。