一種基于激活力模型的圖片中文本識別糾錯(cuò)方法與流程

文檔序號：11865420閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于激活力模型的圖片中文本識別糾錯(cuò)方法與流程

技術(shù)特征：

1.一種基于激活力模型的圖片中文本識別糾錯(cuò)方法，其特征在于，包括以下步驟：

字典構(gòu)建步驟：構(gòu)建激活力字典，旨在挖掘漢字間的相互影響關(guān)系，從而獲得各個(gè)漢字前方以及后方可能出現(xiàn)的其他漢字；

不確定字糾正步驟：使用通用方法獲取識別出的字符以及對應(yīng)的識別相似度，若其中存在某一候選字符的相似度高于設(shè)定閾值，認(rèn)為其對應(yīng)的候選字符識別正確；若不存在，則將這些字符以及相似度作為參考先驗(yàn)概率，利用構(gòu)建的字典并結(jié)合貝葉斯公式篩選出最佳字。

2.如權(quán)利要求1所述的方法，其特征在于，字典構(gòu)建步驟中，對選定字進(jìn)行建模，此步驟具體過程如下：

1)利用漢語語料庫獲取包含選定字的語料數(shù)據(jù)，并將所有標(biāo)點(diǎn)符號都設(shè)定為分隔符；

2)統(tǒng)計(jì)用于建立詞典的字i在語料庫中的出現(xiàn)頻率f_i；

3)統(tǒng)計(jì)任意兩個(gè)距離小于等于ε的字i和j(區(qū)分先后)共同出現(xiàn)的頻率f_ij并記錄所有的距離出現(xiàn)的次數(shù)d_ijk(1≤k≤ε)，并計(jì)算出這兩個(gè)字i和j共同出現(xiàn)的平均距離d_ij，計(jì)算公式定義如下

$<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>×</mo> <mi>k</mi> </mrow> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mfrac> </mrow>$

4)根據(jù)前面三個(gè)步驟獲取的數(shù)據(jù)計(jì)算出任意兩個(gè)字i和j之間的激活力af_ij

$<mrow> <msub> <mi>af</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> </mfrac> <mo>×</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>f</mi> <mi>j</mi> </msub> </mfrac> </mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mfrac> </mrow>$

5)設(shè)定閾值t，將第4)所得的激活力數(shù)據(jù)中低于t的數(shù)據(jù)全部濾除，將選定字i對應(yīng)的af_xi和af_ix取出并按大小順序排序作為i前面(af_xi)和后面(af_ix)最可能出現(xiàn)的字x。

3.如權(quán)利要求1所述的方法，其特征在于，不確定字糾正步驟中，假定已經(jīng)通過通用方法獲取了字符i的識別結(jié)果w_i和對應(yīng)的相似度λ_i，其中w_i＝[w_i1,w_i2,…,w_in]^T，w_ix為識別出的可能的字符，λ_i＝[λ_i1,λ_i2,…,λ_in]^T，λ_ix為對應(yīng)的相似度，此步驟具體過程如下：

1)當(dāng)存在λ_ix大于θ時(shí)，認(rèn)為對應(yīng)的w_ix即為正確的識別結(jié)果；當(dāng)不存在時(shí)，首先濾除λ_ix小于對應(yīng)的字符，將剩下的作為候選字符；

2)對于待識別字符i的候選字符集合為w′_i＝[w_i1,w_i2,…,w_im]^T，對于前后都存在已確定相鄰字的字符i的某一候選識別字w_ij的后驗(yàn)概率η_ij可以定義如下

$<mrow> <msub> <mi>η</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>lg</mi> <mrow> <mo>(</mo> <msqrt> <mrow> <mo>(</mo> <msub> <mi>af</mi> <mrow> <msub> <mi>Aw</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </msub> <mo>+</mo> <mi>α</mi> <mo>)</mo> <mo>(</mo> <msub> <mi>af</mi> <mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>B</mi> </mrow> </msub> <mo>+</mo> <mi>α</mi> <mo>)</mo> </mrow> </msqrt> <mo>-</mo> <mi>α</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

其中，A為字符i前面的相鄰字，B為字符i后面的相鄰字，α為平滑因子，同理，對于只存在一邊相鄰字的后驗(yàn)概率η_ij可以定義為

或者

利用貝葉斯公式

$<mrow> <msub> <mi>ψ</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>η</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>Σ</mi> <mi>k</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>η</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> </mrow>$

則選擇最大的ψ_ij作為字符i的識別結(jié)果，即

$<mrow> <msub> <mi>Ψ</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>ψ</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>$

Ψ_i即為字符i的識別結(jié)果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于激活力模型的圖片中文本識別糾錯(cuò)方法與流程