欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多分類器的手寫體字符識別拒識方法

文檔序號:6575181閱讀:363來源:國知局
專利名稱:基于多分類器的手寫體字符識別拒識方法
技術(shù)領(lǐng)域
本發(fā)明提出了幾種基于多分類器的手寫體字符識別拒識方法,能夠有效提高識別拒識字 符的可靠性和識別其余字符的準(zhǔn)確性。
技術(shù)背景在模式識別領(lǐng)域中,脫機(jī)手寫體字符識別依然是一個(gè)具有挑戰(zhàn)性的難題,在某些應(yīng)用領(lǐng) 域中要達(dá)到較低的錯(cuò)誤率往往會(huì)帶來很大的系統(tǒng)風(fēng)險(xiǎn)。因此在手寫體字符識別的實(shí)際應(yīng)用中, 為了提高系統(tǒng)的穩(wěn)定性和可靠性,將拒識算法應(yīng)用到系統(tǒng)中,從而提高系統(tǒng)的整體性能。此 外,還可以檢測出未正確識別的字符,將其提交給一個(gè)輔助的識別系統(tǒng)中,或提交給人工處 理。目前普遍采用的一種方法是計(jì)算每個(gè)字符的置信度。利用簡單的閾值操作便可以實(shí)現(xiàn)拒 識。置信度的計(jì)算方法主要有兩種, 一種方法是置信度由一個(gè)簡單的函數(shù)組成,在識別處理 中產(chǎn)生合適的參數(shù),或者被看成是一種學(xué)習(xí)任務(wù),通過訓(xùn)練數(shù)據(jù)得到新的分類器輸出。另一 種方法是在識別處理后計(jì)算置信度。這種方法計(jì)算的置信度可以用識別評分,似然比,后驗(yàn) 概率估計(jì),指數(shù)概率,和負(fù)熵來表示。為了克服單分類器的局限性,釆用多分類器的思想可以進(jìn)一步提高系統(tǒng)的性能。分類器 集成的方法可分為抽象級(類標(biāo)簽),排序級(排序),和測量級(類置信度)。本發(fā)明在抽 象級,提出了0R, AND和VOTING的拒識方法;在測量級,提出了均值和權(quán)值線性結(jié)合的拒識 方法。具有不同特征、結(jié)構(gòu)、學(xué)習(xí)算法和訓(xùn)練數(shù)據(jù)的分類器會(huì)表現(xiàn)出不同的分類特性,將這些特性進(jìn)行融合會(huì)優(yōu)于最好的單分類器。 發(fā)明內(nèi)容為了提高手寫體字符識別系統(tǒng)的可靠性,更好的解決識別率和拒識率的矛盾,本發(fā)明提 出了一種基于單分類器的拒識方法和一種基于多分類器的拒識方法。本發(fā)明以單分類器拒識方法為基礎(chǔ),研究了抽象級和測量級的多分類器拒識方法。在抽 象級,提出了0R, AND和VOTING三種投票組合拒識方法;在測量級,提出了求和(均值)和 加權(quán)兩種線性組合拒識方法。本發(fā)明提出的拒識方法能夠有效的提高識別拒識字符的可靠性 和識別其余字符的準(zhǔn)確性。本發(fā)明的技術(shù)方案是首先,給出單分類器拒識方法,然后,以單分類器拒識方法為基 礎(chǔ),給出多分類器拒識方法。1.單分類器拒識方法單分類器拒識方法分為三個(gè)步驟(l)初始?xì)w一化,(2)置信度計(jì)算和(3)拒識。分類器輸出 經(jīng)過初始?xì)w一化變換到一個(gè)適當(dāng)?shù)姆秶?,使得不同分類器的輸出值具有可比性。用激活函?shù)將經(jīng)過初始?xì)w一化的輸出值變換成置信度。相應(yīng)的激活函數(shù)有三種log-likelihood, likelihood, 和sigmoid。歸一化函數(shù)包括全局歸一化, 一維高斯密度模型,和多維高斯密度。1.1. 初始?xì)w一化選取歸一化函數(shù)的一個(gè)基本原則是,分類器的輸出經(jīng)歸一化函數(shù)的變換將分布在0附近。 經(jīng)過歸一化函數(shù)變換的置信度的理想值應(yīng)能表示輸入模式屬于一個(gè)具體類別的概率。確定分類器輸出范圍的一個(gè)簡單的方法是將輸出變換到均值為O ,標(biāo)準(zhǔn)差為l,艮卩 <formula>formula see original document page 7</formula>這里^表示分類器的輸出,A。和《《分別代表分類器輸出的均值和方差。這個(gè)歸一化函數(shù)為全 局歸一化函數(shù)。假設(shè)對于每個(gè)類別,分類器的輸出滿足多維高斯分布,方差為C72。分類器輸出經(jīng)過排序,目標(biāo)類別的輸出值排位高其他類別的輸出值排位低,假設(shè)輸出值有兩種目標(biāo)類為^ ,其他 即對于必,類, =^和 =<,JW。如果負(fù)樣本均值為//,則歸一化函數(shù)為<formula>formula see original document page 7</formula>假設(shè)每類的輸出滿足一維高斯分布,則歸一化函數(shù)為<formula>formula see original document page 7</formula>其中<formula>formula see original document page 7</formula> P(巧)和i^y,)分別表示負(fù)<T 2樣本和正樣本的先驗(yàn)概率。1.2. 置信度計(jì)算在神經(jīng)網(wǎng)絡(luò)中普遍使用的sigmoid函數(shù),能夠很好的將網(wǎng)絡(luò)輸出逼近概率分布。將其作為 置信度變換的激活函數(shù)-<formula>formula see original document page 7</formula>許多參數(shù)分類器(如LDF禾nQDF)的類別判定方法是貝葉斯估計(jì)的對數(shù)或反對數(shù),其輸出值為《0):你)=log[p(w,Xp(x I其中《(x)表示輸入樣本;c對應(yīng)的分類器輸出,這樣可以計(jì)算后驗(yàn)概率為exp[《0)]經(jīng)過指數(shù)運(yùn)算可以得到一種置信度洲=, (5) 第三種類型的置信度是似然對數(shù)。當(dāng)用指數(shù)逼近貝葉斯估計(jì),對數(shù)似然就是一種簡單的線性歸一化函數(shù)&(力=,(") (6)為了使類別后驗(yàn)概率滿足概率公理,上述指數(shù)和sigmoid值將進(jìn)行"概率"形式歸一化-1.3.拒識經(jīng)過初始?xì)w一化(公式(1), (3)和(4))和置信度計(jì)算(公式(4), (5)和(6)),最 后是拒識。最簡單的拒識方法是閾值操作。假設(shè)輸入樣本為x,類別數(shù)為M,經(jīng)過降序排列的識別系統(tǒng)的輸出為(g,、00,g,2O),…,g^O"。對這個(gè)輸出直接進(jìn)行閾值操作<formula>formula see original document page 8</formula> (7)得到0^W^。還可以通過計(jì)算輸出前兩位的相關(guān)比率<formula>formula see original document page 8</formula>此外,也可以用上面公式的變換形式<formula>formula see original document page 8</formula>(8)類似的,得到0^2(;c)^1如果置信度值很大,公式(7)更適合。相反,如果類別區(qū)分明顯,則公式(8)更合理。 一種 混合的方法是用兩個(gè)權(quán)值將上面兩種方法進(jìn)行線性結(jié)合,=吼,W + ——~ < m3(9)這里《 + / = 1, a和/ 的值可以通過實(shí)驗(yàn)或?qū)W習(xí)來獲得(例如,GA算法)。類似的,得到2.多分類器的拒識方法將單分類器中使用的拒識方法用于多分類器中。假設(shè)給定K個(gè)分類器諷,/^,...,/^,每個(gè)分類器采用公式(9)的拒識方法。 即,0) — &2 0)<7仏(10)1也就是說,如果AW氣)d,則拒絕,否則接受。2丄多分類器投票組合本發(fā)明提出了三種基于多分類器手寫體字符識別的拒識方法(l)OR, (2)AND,和 (3)VOTING。假設(shè)多分類器輸出的類標(biāo)簽是相同的。也就是在公式(10)中,對樣本x,有,如果對樣本x輸出的類標(biāo)簽不同,則拒絕。(l)OR 尸/0 I = IlL7^" I必,')如果巧WO-i,則拒絕,否則接受。(2) AND F〃(xl必,.)如果^^| ,) = 1,則拒絕,否則接受。(3) VOTING F肌OI") 如果F肌(xi必,)〈A^^,則拒絕,W^ra>W/2,這就是多數(shù)投票表決。否則接受。可以預(yù)定義。通常,2丄多分類器線性組合這種方式的拒識方法有兩種均值組合和加權(quán)組合。 (1)均值組合對于M個(gè)類別,K個(gè)分類器,分類器輸出經(jīng)歸一化變換得到置信度^w, it = i,...,K,附-l,...,M。則總的置信度為1 K這相當(dāng)于類別的平均置信度。拒識方法和單分類器相同(公式(10)),艮口 這里(^00,附=1"."M}經(jīng)降序排列成LOc),g (x),…,g (x)〉。p)加權(quán)組合這種方式中每個(gè)分類器的所有類別共享一個(gè)權(quán)值。因此,置信度為分類器權(quán)值W:"(v^,W2,…,Wj^,可以通過有效數(shù)據(jù)集經(jīng)CE,MSE或MCE優(yōu)化得到。本發(fā)明提出的手寫體字符識別拒識方法,能夠有效的提高識別系統(tǒng)的可靠性,并且針對 單個(gè)特征拒識方法存在的局限性,采用多分類器系統(tǒng)的思想為每一種特征設(shè)計(jì)單獨(dú)的分類器, 進(jìn)而對各分類器的拒識結(jié)果進(jìn)行集成,可以發(fā)揮各種特征的優(yōu)勢,進(jìn)一步提高拒識的可靠性, 從而提高識別系統(tǒng)的識別率。


圖l是拒識方法流程圖。圖2是單分類器拒識方法流程圖。圖3是抽象級的多分類器拒識方法流程圖。圖4是測量級的多分類器拒識方法流程圖。
具體實(shí)施方式
以手寫體數(shù)字識別為例,用三種分類器三層BP神經(jīng)網(wǎng)絡(luò),改進(jìn)二次判別函數(shù)(MQDF),和支持向量機(jī)(SVMs)。特征用加權(quán)方向直方圖。在單分類器試驗(yàn)中,用公式(l)/^0 = ^^"所述的初始?xì)w一化函數(shù),用公式(4)g,(力-T7I^^所述的置信度計(jì)算方法,用公式(9) 3 ' 所述的 丄十e =agi(X)+yff~^-^——<n/3拒識方法。其中"=/ = 0.5, TH3 = 0.6。試驗(yàn)結(jié)果表明,公式(9)所述的拒識方法表現(xiàn)出了最好的性能。 在多分類器試驗(yàn)中,對于每個(gè)單分類器,用公式(1) /(") = ^"^"所述的初始?xì)w一化函數(shù),公式(4) = t + j^w)所述的置信度計(jì)算方法和公式(10)&(刈w,,)1 &= + ' g <7^3所述的拒識方法。抽象級分類器組0 wfew/犯合分別用用AND, 0R和VOTING三種拒識方法進(jìn)行了試驗(yàn);測量級分類器組合分別用均值組合 和加權(quán)組合的拒識方法進(jìn)行了試驗(yàn)。試驗(yàn)結(jié)果表明,AND拒識方法表現(xiàn)出了最好的性能,OR 拒識方法強(qiáng)調(diào) 拒識,VOTING拒識方法的表現(xiàn)不如其它兩種方法。在多分類器線性組合中, 加權(quán)組合方法的表現(xiàn)略優(yōu)于求和方法。
權(quán)利要求
1、基于多分類器的手寫體字符識別拒識方法,其特征在于所述方法由兩個(gè)或兩個(gè)以上的單分類器拒識結(jié)果為基礎(chǔ)的多分類器拒識方法;其中單分類器拒識方法分為三個(gè)步驟初始?xì)w一化、置信度計(jì)算和拒識;將兩個(gè)或兩個(gè)以上的單分類器拒識方法所得到的結(jié)果,通過投票組合方式或線性組合方法,最終得到拒識結(jié)果;1)初始?xì)w一化選取歸一化函數(shù)的一個(gè)基本原則是分類器的輸出經(jīng)歸一化函數(shù)的變換將分布在0附近,經(jīng)過歸一化函數(shù)變換的置信度的理想值能表示輸入模式屬于一個(gè)具體類別的概率;確定分類器輸出范圍的一個(gè)簡單的方法是將輸出變換到均值為0,標(biāo)準(zhǔn)差為1,即<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><msub> <mi>f</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><mi>d</mi><mo>-</mo><msub> <mi>&mu;</mi> <mn>0</mn></msub> </mrow> <msub><mi>&sigma;</mi><mn>0</mn> </msub></mfrac> </mrow>]]></math></maths>其中d代表分類器的輸出,μ0和σ02分別代表分類器輸出的均值和方差,這個(gè)歸一化函數(shù)為全局歸一化函數(shù);2)置信度計(jì)算在神經(jīng)網(wǎng)絡(luò)中普遍使用的sigmoid函數(shù),能夠很好的將網(wǎng)絡(luò)輸出逼近概率分布;將其作為置信度變換的激活函數(shù)<maths id="math0002" num="0002" ><math><![CDATA[ <mrow><msub> <mi>g</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mn>1</mn> <mrow><mn>1</mn><mo>+</mo><msup> <mi>e</mi> <mrow><mo>-</mo><msub> <mi>f</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo></mrow> </mrow></msup> </mrow></mfrac><mo>;</mo> </mrow>]]></math></maths>3)拒識輸入樣本為x,類別數(shù)為M,經(jīng)過降序排列的識別系統(tǒng)的輸出為 id="icf0003" file="A2009100891470002C3.tif" wi="48" he="5" top= "179" left = "141" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>對這個(gè)輸出直接進(jìn)行閾值操作<maths id="math0003" num="0003" ><math><![CDATA[ <mrow><msub> <mi>r</mi> <mn>1</mn></msub><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>=</mo><msub> <mi>g</mi> <msub><mi>i</mi><mn>1</mn> </msub></msub><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>&lt;</mo><msub> <mi>TH</mi> <mn>1</mn></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo></mrow> </mrow>]]></math></maths>得到0≤r1(x)≤1。
2、如權(quán)利要求1所述的拒識方法,其特征在于所述的歸一化函數(shù),當(dāng)分類器的輸出滿足多維高斯分布,方差為y,分類器輸出d經(jīng)過排序,目標(biāo)類別的輸出值排位高其他類別的輸出值排位低,輸出值為目標(biāo)類為〃+ ,其他類為/T,對于叫類,附,7 = ^和 =<,當(dāng)負(fù)樣 本均值為//,則歸一化函數(shù)為<formula>formula see original document page 2</formula>當(dāng)每類的輸出滿足一維高斯分布,則歸一化函數(shù)為爛=豐-(〃 + 一)];其中"=^^, A = ^^l, 7 = 111(戶(^)/尸(^)), P(巧)和戶^)分別表示負(fù)樣本和正樣本的先驗(yàn)概率。
3、如權(quán)利要求1所述的拒識方法,其特征在于所述的置信度變換函數(shù),在當(dāng)參數(shù)分類器的類別判定方法是貝葉斯估計(jì)的對數(shù)或反對數(shù)《(x) = log[/ ( (x|^)]其中《0c)表示輸入樣本;c對應(yīng)的分類器輸出,計(jì)算后驗(yàn)概率為exp[《(x)]〃=i經(jīng)過指數(shù)運(yùn)算得到一種置信度或者當(dāng)置信度是似然對數(shù),當(dāng)用指數(shù)逼近貝葉斯估計(jì),對數(shù)似然就是一種簡單的線性歸一化函數(shù)-為了使類別后驗(yàn)概率滿足概率公理,指數(shù)和sigmoid值將進(jìn)行"概率"形式歸一化
4、如權(quán)利要求1所述的拒識方法,其特征在于所述的拒識步驟中,通過計(jì)算輸出前兩位的相關(guān)比率用比率公式的變換形式(8)當(dāng)置信度值很大,公式(7)更適合;相反,當(dāng)類別區(qū)分明顯,則公式(8)更合理;一種混合的方法是用兩個(gè)權(quán)值將上面兩種方法進(jìn)行線性結(jié)合,<formula>formula see original document page 4</formula>這里《 + ^ = 1,"和P的值通過實(shí)驗(yàn)或?qū)W習(xí)來獲得,通過此公式得到0^^)S1。
5、如權(quán)利要求1所述的拒識方法,其特征在于:所述多分類器投票組方式采用OR或AND或VOTING方式,當(dāng)K個(gè)單分類器通過公式<formula>formula see original document page 4</formula>得到的結(jié)果為{^32"",/^};釆用OR方式,則有尸<formula>formula see original document page 4</formula>,貝雌絕,否則接受;采用AND方式,則有<formula>formula see original document page 4</formula>,則拒絕,否則接受;采用VOTING方式,貝陏<formula>formula see original document page 4</formula>貝雌絕,否則接受,M^>W/2。
6、如權(quán)利要求1所述的拒識方法,其特征在于所述的多分類器線性組合方式采用均值組合或加權(quán)組合方式,采用均值組合方式對于M個(gè)類別,K個(gè)分類器,分類器輸出經(jīng)歸一化變換得到置信度^O), A = 1,...,AT, w = 1,...,M,則總的置信度為-<formula>formula see original document page 4</formula>這相當(dāng)于類別的平均置信度;拒識方法,艮口<formula>formula see original document page 4</formula>其中(g附0),附=i,""M}經(jīng)降序排列成00,gM2 0)"."g^ 00};采用加權(quán)組合方式每個(gè)分類器的所有類別共享一個(gè)權(quán)值,置信度為<formula>formula see original document page 5</formula>分類器權(quán)值^ = {^,^2,...," ^},通過有效數(shù)據(jù)集經(jīng)CE, MSE或MCE優(yōu)化得到分類器權(quán)值。
全文摘要
基于多分類器的手寫體字符識別拒識方法,屬于手寫字符識別領(lǐng)域。將拒識方法引入手寫體字符識別系統(tǒng),可以有效提高識別系統(tǒng)的可靠性,從而提高識別系統(tǒng)的識別率。該發(fā)明提出了一種基于單分類器的拒識方法和一種基于多分類器的拒識方法。針對單個(gè)特征拒識方法存在的局限性,采用多分類器系統(tǒng)的思想為每一種特征設(shè)計(jì)單獨(dú)的分類器,進(jìn)而對各分類器的拒識結(jié)果進(jìn)行集成,可以發(fā)揮各種特征的優(yōu)勢,進(jìn)一步提高拒識的可靠性。該發(fā)明以單分類器拒識方法為基礎(chǔ),給出多分類器拒識方法。該方法可以更好的解決手寫體識別系統(tǒng)的識別率和拒識率之間的矛盾,提高識別系統(tǒng)的可靠性。
文檔編號G06K9/62GK101630367SQ20091008914
公開日2010年1月20日 申請日期2009年7月31日 優(yōu)先權(quán)日2009年7月31日
發(fā)明者唐云峰, 殷緒成, 郝紅衛(wèi) 申請人:北京科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
黎平县| 阳西县| 大新县| 伽师县| 沙河市| 石城县| 涡阳县| 三台县| 阿勒泰市| 澄迈县| 新化县| 云浮市| 洛阳市| 东城区| 观塘区| 蓝山县| 肥乡县| 金昌市| 和顺县| 齐河县| 阿瓦提县| 黄平县| 马关县| 仲巴县| 泽州县| 临海市| 布拖县| 台南县| 隆德县| 德惠市| 永春县| 东阿县| 沿河| 丹棱县| 景洪市| 黔西| 琼中| 个旧市| 平武县| 新邵县| 开封县|