1.一種基于激活力模型的圖片中文本識別糾錯(cuò)方法,其特征在于,包括以下步驟:
字典構(gòu)建步驟:構(gòu)建激活力字典,旨在挖掘漢字間的相互影響關(guān)系,從而獲得各個(gè)漢字前方以及后方可能出現(xiàn)的其他漢字;
不確定字糾正步驟:使用通用方法獲取識別出的字符以及對應(yīng)的識別相似度,若其中存在某一候選字符的相似度高于設(shè)定閾值,認(rèn)為其對應(yīng)的候選字符識別正確;若不存在,則將這些字符以及相似度作為參考先驗(yàn)概率,利用構(gòu)建的字典并結(jié)合貝葉斯公式篩選出最佳字。
2.如權(quán)利要求1所述的方法,其特征在于,字典構(gòu)建步驟中,對選定字進(jìn)行建模,此步驟具體過程如下:
1)利用漢語語料庫獲取包含選定字的語料數(shù)據(jù),并將所有標(biāo)點(diǎn)符號都設(shè)定為分隔符;
2)統(tǒng)計(jì)用于建立詞典的字i在語料庫中的出現(xiàn)頻率fi;
3)統(tǒng)計(jì)任意兩個(gè)距離小于等于ε的字i和j(區(qū)分先后)共同出現(xiàn)的頻率fij并記錄所有的距離出現(xiàn)的次數(shù)dijk(1≤k≤ε),并計(jì)算出這兩個(gè)字i和j共同出現(xiàn)的平均距離dij,計(jì)算公式定義如下
4)根據(jù)前面三個(gè)步驟獲取的數(shù)據(jù)計(jì)算出任意兩個(gè)字i和j之間的激活力afij
5)設(shè)定閾值t,將第4)所得的激活力數(shù)據(jù)中低于t的數(shù)據(jù)全部濾除,將選定字i對應(yīng)的afxi和afix取出并按大小順序排序作為i前面(afxi)和后面(afix)最可能出現(xiàn)的字x。
3.如權(quán)利要求1所述的方法,其特征在于,不確定字糾正步驟中,假定已經(jīng)通過通用方法獲取了字符i的識別結(jié)果wi和對應(yīng)的相似度λi,其中wi=[wi1,wi2,…,win]T,wix為識別出的可能的字符,λi=[λi1,λi2,…,λin]T,λix為對應(yīng)的相似度,此步驟具體過程如下:
1)當(dāng)存在λix大于θ時(shí),認(rèn)為對應(yīng)的wix即為正確的識別結(jié)果;當(dāng)不存在時(shí),首先濾除λix小于對應(yīng)的字符,將剩下的作為候選字符;
2)對于待識別字符i的候選字符集合為w′i=[wi1,wi2,…,wim]T,對于前后都存在已確定相鄰字的字符i的某一候選識別字wij的后驗(yàn)概率ηij可以定義如下
其中,A為字符i前面的相鄰字,B為字符i后面的相鄰字,α為平滑因子,同理,對于只存在一邊相鄰字的后驗(yàn)概率ηij可以定義為
或者
利用貝葉斯公式
則選擇最大的ψij作為字符i的識別結(jié)果,即
Ψi即為字符i的識別結(jié)果。