欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于激活力模型的圖片中文本識別糾錯(cuò)方法與流程

文檔序號:11865420閱讀:來源:國知局

技術(shù)特征:

1.一種基于激活力模型的圖片中文本識別糾錯(cuò)方法,其特征在于,包括以下步驟:

字典構(gòu)建步驟:構(gòu)建激活力字典,旨在挖掘漢字間的相互影響關(guān)系,從而獲得各個(gè)漢字前方以及后方可能出現(xiàn)的其他漢字;

不確定字糾正步驟:使用通用方法獲取識別出的字符以及對應(yīng)的識別相似度,若其中存在某一候選字符的相似度高于設(shè)定閾值,認(rèn)為其對應(yīng)的候選字符識別正確;若不存在,則將這些字符以及相似度作為參考先驗(yàn)概率,利用構(gòu)建的字典并結(jié)合貝葉斯公式篩選出最佳字。

2.如權(quán)利要求1所述的方法,其特征在于,字典構(gòu)建步驟中,對選定字進(jìn)行建模,此步驟具體過程如下:

1)利用漢語語料庫獲取包含選定字的語料數(shù)據(jù),并將所有標(biāo)點(diǎn)符號都設(shè)定為分隔符;

2)統(tǒng)計(jì)用于建立詞典的字i在語料庫中的出現(xiàn)頻率fi;

3)統(tǒng)計(jì)任意兩個(gè)距離小于等于ε的字i和j(區(qū)分先后)共同出現(xiàn)的頻率fij并記錄所有的距離出現(xiàn)的次數(shù)dijk(1≤k≤ε),并計(jì)算出這兩個(gè)字i和j共同出現(xiàn)的平均距離dij,計(jì)算公式定義如下

<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>&times;</mo> <mi>k</mi> </mrow> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mfrac> </mrow>

4)根據(jù)前面三個(gè)步驟獲取的數(shù)據(jù)計(jì)算出任意兩個(gè)字i和j之間的激活力afij

<mrow> <msub> <mi>af</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> </mfrac> <mo>&times;</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>f</mi> <mi>j</mi> </msub> </mfrac> </mrow> <msubsup> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mfrac> </mrow>

5)設(shè)定閾值t,將第4)所得的激活力數(shù)據(jù)中低于t的數(shù)據(jù)全部濾除,將選定字i對應(yīng)的afxi和afix取出并按大小順序排序作為i前面(afxi)和后面(afix)最可能出現(xiàn)的字x。

3.如權(quán)利要求1所述的方法,其特征在于,不確定字糾正步驟中,假定已經(jīng)通過通用方法獲取了字符i的識別結(jié)果wi和對應(yīng)的相似度λi,其中wi=[wi1,wi2,…,win]T,wix為識別出的可能的字符,λi=[λi1i2,…,λin]T,λix為對應(yīng)的相似度,此步驟具體過程如下:

1)當(dāng)存在λix大于θ時(shí),認(rèn)為對應(yīng)的wix即為正確的識別結(jié)果;當(dāng)不存在時(shí),首先濾除λix小于對應(yīng)的字符,將剩下的作為候選字符;

2)對于待識別字符i的候選字符集合為w′i=[wi1,wi2,…,wim]T,對于前后都存在已確定相鄰字的字符i的某一候選識別字wij的后驗(yàn)概率ηij可以定義如下

<mrow> <msub> <mi>&eta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>lg</mi> <mrow> <mo>(</mo> <msqrt> <mrow> <mo>(</mo> <msub> <mi>af</mi> <mrow> <msub> <mi>Aw</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </msub> <mo>+</mo> <mi>&alpha;</mi> <mo>)</mo> <mo>(</mo> <msub> <mi>af</mi> <mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>B</mi> </mrow> </msub> <mo>+</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </msqrt> <mo>-</mo> <mi>&alpha;</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中,A為字符i前面的相鄰字,B為字符i后面的相鄰字,α為平滑因子,同理,對于只存在一邊相鄰字的后驗(yàn)概率ηij可以定義為

或者

利用貝葉斯公式

<mrow> <msub> <mi>&psi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>&eta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>&eta;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

則選擇最大的ψij作為字符i的識別結(jié)果,即

<mrow> <msub> <mi>&Psi;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>&psi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

Ψi即為字符i的識別結(jié)果。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
瑞金市| 光山县| 东城区| 曲松县| 吉林省| 乌鲁木齐市| 郎溪县| 定南县| 岑溪市| 乐陵市| 江达县| 观塘区| 广水市| 灌阳县| 潼关县| 白朗县| 玛纳斯县| 六安市| 陵川县| 通渭县| 雷波县| 绥棱县| 曲松县| 阿克| 肥乡县| 万安县| 疏勒县| 长汀县| 大悟县| 酒泉市| 富蕴县| 阿拉善右旗| 深水埗区| 安达市| 乌什县| 昌都县| 左权县| 大同市| 宣化县| 西和县| 分宜县|