專利名稱:用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文字識(shí)別技術(shù)領(lǐng)域,特別涉及文字識(shí)別設(shè)備中在進(jìn)行模型訓(xùn)練前樣本預(yù)處理及訓(xùn)練樣本自動(dòng)挑選裝置及其方法。
訓(xùn)練樣本集的特性,可以用樣本集的大小(即樣本數(shù)量)和樣本分布來描述。樣本數(shù)量對(duì)于訓(xùn)練的影響,可以簡(jiǎn)單的描述為,當(dāng)樣本數(shù)量過少時(shí),容易出現(xiàn)訓(xùn)練不足(欠訓(xùn)練)的問題,樣本數(shù)量過多,則容易出現(xiàn)過訓(xùn)練的問題。而樣本分布的概念比較復(fù)雜,對(duì)于同一個(gè)文字的訓(xùn)練樣本集來說,它應(yīng)該盡可能的包括該文字的各種種類,而且每個(gè)種類的樣本數(shù)量以及全部數(shù)據(jù)中所占的比例應(yīng)該有利于模型的建立和評(píng)價(jià)。問題在于同一個(gè)文字體現(xiàn)在樣本數(shù)據(jù)上千差萬別,人工難以進(jìn)行正確的分類,而且對(duì)于每種類別的樣本數(shù)量的比例也難以確定。
在實(shí)際工作中,往往采用人工挑選的方法來選擇訓(xùn)練樣本數(shù)據(jù),這種方法的主要缺點(diǎn)在于對(duì)于人的依賴性大,受挑選人的影響較大,不同的人挑選的結(jié)果是不同的,而且人工挑選的樣本不一定滿足訓(xùn)練的要求,此外,在大樣本集的情況下,人工挑選是非常費(fèi)力費(fèi)時(shí)的。因此,訓(xùn)練樣本的自動(dòng)挑選顯得尤為重要。
一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選方法,在控制處理裝置的控制下,包括如下步驟將訓(xùn)練樣本和測(cè)試樣本輸入到樣本選擇裝置中;存儲(chǔ)由樣本輸入裝置輸入的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù),存儲(chǔ)在樣本數(shù)據(jù)存儲(chǔ)單元中;根據(jù)輸入的樣本訓(xùn)練出一套模型參數(shù),并存儲(chǔ)到模型數(shù)據(jù)庫(kù)中,以供識(shí)別裝置使用;保存訓(xùn)練裝置訓(xùn)練出的模型參數(shù),并為識(shí)別裝置提供模型數(shù)據(jù);根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)中的模型參數(shù),識(shí)別輸入的樣本;當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候,計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差,并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序,得到好樣本、差樣本或邊界樣本三類樣本;當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候,將直接輸出測(cè)試樣本的識(shí)別率;根據(jù)識(shí)別結(jié)果分析裝置的輸出,判斷當(dāng)前邊界樣本選擇是否最佳。如果最佳,則通知挑選結(jié)果輸出裝置輸出最佳邊界樣本,否則,適當(dāng)改變邊界樣本的數(shù)量,在控制處理裝置的控制下,將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練,然后將測(cè)試樣本送入識(shí)別裝置進(jìn)行測(cè)試,得到當(dāng)前邊界樣本訓(xùn)練的性能;將邊界樣本選擇裝置中的挑選結(jié)果輸出,輸出的內(nèi)容可以是最佳邊界樣本的編號(hào),也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身,輸出形式可以直接打印輸出到紙張上,也可以直接輸出到顯示裝置上。
所述的計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差進(jìn)一步包括所述的廣義距離差Dr的定義為1)在采用基于統(tǒng)計(jì)的識(shí)別裝置時(shí),在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的概率Pi按照概率值由大到小的順序排序,其中i=0~9,即P0>P1>……>P8>P9,并設(shè)正確候選字的位置為n,即Pn表示在期望模型下的識(shí)別概率,然后按照式(1)計(jì)算廣義概率差Dp,并令Dr=Dp。 當(dāng)n=0,表示正確候選字的概率最大,該樣本能夠被正確識(shí)別,Dr>0。當(dāng)n≠0,表示該樣本正確候選字的概率不是最大的,該樣本被錯(cuò)誤識(shí)別,Dr<0,此時(shí)在計(jì)算Dr時(shí)加上一個(gè)懲罰性系數(shù)n,n越大,就意味著這個(gè)樣本容易與更多的文字類別混淆。
2)對(duì)于采用基于模板匹配方法的識(shí)別裝置,在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的距離Di按照距離值由小到大的順序排序,i=0~9,即D0<D1<……<D8<D9,并設(shè)正確候選字的位置為n,即Dn表示在期望模型下的距離,然后按照式(2)計(jì)算廣義距離差Dr。 Dr的含義同上,在識(shí)別錯(cuò)誤時(shí),同樣增加了一個(gè)懲罰性參數(shù)n。
其中,每個(gè)樣本的廣義距離差Dr的含義如下Dr<0,表示該樣本識(shí)別錯(cuò),Dr越小說明樣本越差,Dr>0表明該樣本能夠被正確識(shí)別,而且Dr越大,樣本越好并按廣義距離差從小到大的順序?qū)λ袠颖具M(jìn)行排序。
本發(fā)明的裝置和方法思路簡(jiǎn)捷,能夠?qū)崿F(xiàn)訓(xùn)練樣本的自動(dòng)挑選,挑選結(jié)果更加準(zhǔn)確,從而使得訓(xùn)練出的模型更加精確,有效提高文字識(shí)別系統(tǒng)的識(shí)別率。
識(shí)別裝置5,用于根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)中的模型參數(shù),識(shí)別輸入的樣本;識(shí)別結(jié)果分析裝置6,用于當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候,本裝置計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差,并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序,得到三種樣本(好樣本、差樣本、邊界樣本)的大致分類;當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候,本裝置將直接輸出測(cè)試樣本的識(shí)別率;邊界樣本選擇裝置7,用于根據(jù)識(shí)別結(jié)果分析裝置的輸出,判斷當(dāng)前邊界樣本選擇是否最佳,如果最佳,則通知挑選結(jié)果輸出裝置輸出最佳邊界樣本,否則,適當(dāng)改變邊界樣本的數(shù)量,在控制處理裝置的控制下,將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練,然后將測(cè)試樣本送入識(shí)別裝置進(jìn)行測(cè)試,得到當(dāng)前邊界樣本訓(xùn)練的性能;挑選結(jié)果輸出裝置8,用于將邊界樣本選擇裝置中的挑選結(jié)果輸出,輸出的內(nèi)容可以是最佳邊界樣本的編號(hào),也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身,輸出形式可以直接打印輸出到紙張上,也可以直接輸出到顯示裝置上。
控制處理裝置9,用于整個(gè)訓(xùn)練樣本挑選裝置的控制處理單元,主要負(fù)責(zé)樣本數(shù)據(jù)的讀取操作,訓(xùn)練,識(shí)別,識(shí)別結(jié)果的分析,邊界樣本的選擇以及挑選結(jié)果的輸出。
文字識(shí)別,本質(zhì)上是一個(gè)分類問題,分類的任務(wù)在于尋找分類面,將分類空間劃分為不同的類區(qū)域,訓(xùn)練的作用在于分類超曲面的生成。
從訓(xùn)練樣本對(duì)于訓(xùn)練的作用來說,可將訓(xùn)練樣本分為三類好樣本、邊界樣本和差樣本。好樣本是位于分類區(qū)域的中心地帶,因而好樣本可以很好地與其它文字類樣本區(qū)分開;邊界樣本是指位于理想分類超曲面附近的樣本,它們位于不同文字類之中,但又相距很近;差樣本,是指位于本文字類區(qū)域以外的區(qū)域,樣本很差,極易與其它文字類混淆的樣本。訓(xùn)練樣本中,好樣本的存在,可以使得訓(xùn)練出的文字類區(qū)域更加緊湊,不同文字類區(qū)域間隔更大,但好樣本數(shù)目太多,容易使得訓(xùn)練出的類區(qū)域過于狹小,從而增加了邊界樣本和差樣本的誤識(shí)風(fēng)險(xiǎn);差樣本的存在可能使得每個(gè)文字類的區(qū)域盡可能的大,同時(shí)也使得不同文字類區(qū)域產(chǎn)生重疊,增大了分類誤差,好的邊界樣本應(yīng)該是使得訓(xùn)練出的類區(qū)域盡量大,而相鄰類區(qū)域盡量沒有重疊,此時(shí)分類性能最佳。
圖2是各種樣本及其對(duì)于訓(xùn)練所起作用的示意圖。如圖2所示,該圖給出了三種樣本的作用以及在分類空間中所處的位置。其中第一類文字和第二類文字是指要識(shí)別的文字種類,以小寫數(shù)字識(shí)別為例,第一類文字可以是0~9中的任何一個(gè)數(shù)字,第二類文字則是0~9中除第一類文字以外的任何一個(gè)數(shù)字,如第一類文字為9,第二類文字可以是0~8中的任何一個(gè)數(shù)字。圓A、B、C表示第一類文字在不同訓(xùn)練數(shù)據(jù)下的類區(qū)域(類區(qū)域不一定是規(guī)則的,采用圓區(qū)域只是為了描述方便),圓A表示采用好樣本得到的類區(qū)域,B表示采用理想邊界樣本得到的類區(qū)域,C表示采用差樣本訓(xùn)練得到的類區(qū)域,圓D表示第二類文字的分類區(qū)域。圖中o、@、x分別表示第一類文字的三種樣本好樣本、邊界樣本、差樣本。
通過以上分析可以看出,訓(xùn)練樣本的選擇,就是要盡可能的采用邊界樣本來進(jìn)行訓(xùn)練。我們以10個(gè)小寫數(shù)字的識(shí)別為例,根據(jù)實(shí)驗(yàn),給出一個(gè)簡(jiǎn)單的各種樣本的具體定義。
取全部訓(xùn)練樣本進(jìn)行訓(xùn)練,得到十個(gè)數(shù)字的模型,然后對(duì)全部訓(xùn)練樣本進(jìn)行識(shí)別,保存每個(gè)樣本的廣義距離差Dr(廣義距離差Dr的含義如下Dr<0,表示該樣本識(shí)別錯(cuò),Dr越小說明樣本越差,Dr>0表明該樣本能夠被正確識(shí)別,而且Dr越大,樣本越好),并按廣義距離差從小到大的順序?qū)λ袠颖具M(jìn)行排序,統(tǒng)計(jì)處于不同廣義距離差值下的樣本數(shù)目。
圖3是以數(shù)字”0 ”為例,給出三種樣本的具體定義的示意圖。即圖3給出了數(shù)字”0”的全部訓(xùn)練樣本在不同的廣義距離差值下的分布圖。圖中橫軸表示廣義距離差Dr,縱軸為每個(gè)廣義距離差所對(duì)應(yīng)的樣本數(shù)目。我們將Dr=0附近的樣本稱為邊界樣本,Dr為正值且較大的樣本稱為好樣本,Dr為負(fù)值且較小的樣本稱為差樣本。
由于識(shí)別裝置可以是基于統(tǒng)計(jì)方法的,也可以是基于模板匹配等非統(tǒng)計(jì)方法的,因而識(shí)別結(jié)果的度量方式也不同,統(tǒng)計(jì)方法采用的是概率,而模板匹配方法采用的是距離,如歐氏距離。下面分兩種情況,討論廣義距離差Dr的計(jì)算。
在采用基于統(tǒng)計(jì)的識(shí)別裝置時(shí),在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的概率Pi(i=0~9)(按照概率值由大到小的順序排序,即P0>P1>……>P8>P9),并設(shè)正確候選字的位置為n,即Pn表示在期望模型下的識(shí)別概率,然后按照式(1)計(jì)算廣義概率差Dp,并令Dr=Dp。 當(dāng)n=0,表示正確候選字的概率最大,該樣本能夠被正確識(shí)別,Dr>0。當(dāng)n≠0,表示該樣本正確候選字的概率不是最大的,該樣本被錯(cuò)誤識(shí)別,Dr<0,此時(shí)在計(jì)算Dr時(shí)加上一個(gè)懲罰性系數(shù)n,n越大,就意味著這個(gè)樣本容易與更多的文字類別混淆。
對(duì)于采用基于模板匹配方法的識(shí)別裝置,在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的距離Di(i=0~9)(按照距離值由小到大的順序排序,即D0<D1<……<D8<D9),并設(shè)正確候選字的位置為n,即Dn表示在期望模型下的距離,然后按照式(2)計(jì)算廣義距離差Dr。 Dr的含義同上,在識(shí)別錯(cuò)誤時(shí),同樣增加了一個(gè)懲罰性系數(shù)n。
下面來確定邊界樣本的數(shù)目,首先從訓(xùn)練樣本中選擇少量(一般<500)Dr最接近于0的樣本作為邊界樣本,從Dr<0和Dr>0兩個(gè)方向進(jìn)行選取,在選擇的邊界樣本中,Dr>0的樣本要多一些;將選擇的邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練,得到各個(gè)數(shù)字的模型,然后將測(cè)試樣本送入識(shí)別裝置進(jìn)行識(shí)別測(cè)試;判斷測(cè)試結(jié)果是否最佳,如果是,則將當(dāng)前選擇的邊界樣本作為最佳邊界樣本輸出,否則,沿著Dr<0和Dr>0兩個(gè)方向適量增加邊界樣本的數(shù)量(一般步長(zhǎng)為50,其中Dr>0的方向要多選擇一些),然后進(jìn)行訓(xùn)練、測(cè)試、判斷……,直至測(cè)試結(jié)果最佳。
圖4是用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選的工作流程圖。如圖4所示,具體步驟是步驟41從輸入裝置讀入數(shù)據(jù),可以由掃描儀或類似功能的圖像輸入設(shè)備組成,主要將訓(xùn)練樣本和測(cè)試樣本輸入到訓(xùn)練樣本挑選裝置中;步驟42將樣本數(shù)據(jù)存入樣本數(shù)據(jù)存儲(chǔ)單元,為后面的訓(xùn)練樣本挑選提供原始圖像像素信息;
步驟43從樣本數(shù)據(jù)存儲(chǔ)單元中讀出訓(xùn)練樣本,送入訓(xùn)練裝置進(jìn)行訓(xùn)練,得到各個(gè)文字的模型;步驟44將訓(xùn)練得到的模型參數(shù)數(shù)據(jù)保存到模型參數(shù)數(shù)據(jù)庫(kù);步驟45將訓(xùn)練樣本數(shù)據(jù)送入識(shí)別裝置,利用訓(xùn)練出的模型進(jìn)行識(shí)別,并將識(shí)別結(jié)果輸出到識(shí)別結(jié)果分析裝置;步驟46在識(shí)別結(jié)果分析裝置中,計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差,并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序,得到三種樣本(好樣本、差樣本、邊界樣本)三種樣本的大致分類;步驟47根據(jù)步驟46中的訓(xùn)練樣本排序信息,從訓(xùn)練樣本中選擇少量(一般<500)Dr最接近于0的樣本作為邊界樣本,從Dr<0和Dr>0兩個(gè)方向進(jìn)行選取,在選擇的邊界樣本中,Dr>0的樣本要多一些。
步驟48將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練,得到模型參數(shù);步驟49將測(cè)試樣本送入識(shí)別裝置,利用訓(xùn)練出的模型進(jìn)行識(shí)別,并將識(shí)別結(jié)果輸出到識(shí)別結(jié)果分析裝置;步驟410判斷測(cè)試樣本的識(shí)別結(jié)果是否最佳,如果是,則轉(zhuǎn)到步驟412,否則,轉(zhuǎn)到步驟411;步驟411在當(dāng)前邊界樣本的基礎(chǔ)上,沿著Dr<0和Dr>0兩個(gè)方向適量增加邊界樣本的數(shù)量(一般步長(zhǎng)為50,其中Dr>0的方向要多選擇一些),轉(zhuǎn)到步驟48;步驟412將得到的最佳邊界樣本由挑選結(jié)果輸出裝置輸出,完成訓(xùn)練樣本的自動(dòng)挑選以上描述僅僅借助于實(shí)施例提供本發(fā)明的實(shí)現(xiàn)方法。對(duì)于本領(lǐng)域的技術(shù)人員是顯而易見的,本發(fā)明不限于上面提供的實(shí)施細(xì)節(jié),可以在不脫離本發(fā)明特征的情況下以另外的實(shí)施例實(shí)現(xiàn),實(shí)施例中的一些部件進(jìn)行分解、合并或使用微處理器實(shí)現(xiàn)。因此,提供的實(shí)施例應(yīng)當(dāng)被認(rèn)為是說明性的,而不是限制性的。因此,實(shí)現(xiàn)和使用本發(fā)明的可能性是由所附的權(quán)利要求限定。因而,由權(quán)利要求確定的實(shí)現(xiàn)本發(fā)明的各種選擇包括等效實(shí)施例也屬于本發(fā)明的范圍。
權(quán)利要求
1.一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置,所述的裝置包括樣本輸入裝置(1),用于將訓(xùn)練樣本和測(cè)試樣本輸入到樣本數(shù)據(jù)存儲(chǔ)單元(2)中;樣本數(shù)據(jù)存儲(chǔ)單元(2),用于存儲(chǔ)由樣本輸入裝置(1)輸入的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù);訓(xùn)練裝置(3),用于根據(jù)輸入的樣本訓(xùn)練出一套模型參數(shù),并存儲(chǔ)到模型數(shù)據(jù)庫(kù)(4)中,以供識(shí)別裝置(5)使用;模型數(shù)據(jù)庫(kù)(4),用于保存訓(xùn)練裝置(3)訓(xùn)練出的模型參數(shù),并為識(shí)別裝置(5)提供模型數(shù)據(jù);識(shí)別裝置(5),用于根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)中的模型參數(shù),識(shí)別輸入的樣本;識(shí)別結(jié)果分析裝置(6),用于當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候,計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差,并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序,得到好樣本、差樣本或邊界樣本三類樣本;當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候,本裝置將直接輸出測(cè)試樣本的識(shí)別率;邊界樣本選擇裝置(7),用于根據(jù)識(shí)別結(jié)果分析裝置(6)的輸出,判斷當(dāng)前邊界樣本選擇是否最佳,如果最佳,則通知挑選結(jié)果輸出裝置輸出最佳邊界樣本,否則,適當(dāng)改變邊界樣本的數(shù)量,在控制處理裝置的控制下,將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練,然后將測(cè)試樣本送入識(shí)別裝置(5)進(jìn)行測(cè)試,得到當(dāng)前邊界樣本訓(xùn)練的性能;挑選結(jié)果輸出裝置(8),用于將邊界樣本選擇裝置(7)中的挑選結(jié)果輸出,輸出的內(nèi)容可以是最佳邊界樣本的編號(hào),也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身,輸出形式可以直接打印輸出到紙張上,也可以直接輸出到顯示裝置上;控制處理裝置(9),用于對(duì)整個(gè)訓(xùn)練樣本挑選裝置的控制處理,負(fù)責(zé)樣本數(shù)據(jù)的讀取操作,訓(xùn)練,識(shí)別,識(shí)別結(jié)果的分析,邊界樣本的選擇以及挑選結(jié)果的輸出。
2.一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選方法,其特征在于在控制處理裝置的控制下,該方法包括如下步驟將訓(xùn)練樣本和測(cè)試樣本輸入到樣本選擇裝置中;存儲(chǔ)由樣本輸入裝置輸入的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù),存儲(chǔ)在樣本數(shù)據(jù)存儲(chǔ)單元中;根據(jù)輸入的樣本訓(xùn)練出一套模型參數(shù),并存儲(chǔ)到模型數(shù)據(jù)庫(kù)中,以供識(shí)別裝置使用;保存訓(xùn)練裝置(3)訓(xùn)練出的模型參數(shù),并為識(shí)別裝置(5)提供模型數(shù)據(jù);根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)(4)中的模型參數(shù),識(shí)別輸入的樣本;當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候,計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差,并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序,得到好樣本、差樣本和邊界樣本三類樣本;當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候,將直接輸出測(cè)試樣本的識(shí)別率;根據(jù)識(shí)別結(jié)果分析裝置(6)的輸出,判斷當(dāng)前邊界樣本選擇是否最佳。如果最佳,則通知挑選結(jié)果輸出裝置(8)輸出最佳邊界樣本,否則,適當(dāng)改變邊界樣本的數(shù)量,在控制處理裝置(9)的控制下,將邊界樣本送入訓(xùn)練裝置(5)進(jìn)行訓(xùn)練,然后將測(cè)試樣本送入識(shí)別裝置(5)進(jìn)行測(cè)試,得到當(dāng)前邊界樣本訓(xùn)練的性能;將邊界樣本選擇裝置(7)中的挑選結(jié)果輸出,輸出的內(nèi)容可以是最佳邊界樣本的編號(hào),也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身,輸出形式可以直接打印輸出到紙張上,也可以直接輸出到顯示裝置上。
3.根據(jù)權(quán)利要求2的方法,其特征在于所述的計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差進(jìn)一步包括所述的廣義距離差Dr的定義為1)在采用基于統(tǒng)計(jì)的識(shí)別裝置時(shí),在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的概率Pi,按照概率值由大到小的順序排序,其中i=0~9,即P0>P1>……>P8>P9,并設(shè)正確候選字的位置為n,即Pn表示在期望模型下的識(shí)別概率,然后按照式(1)計(jì)算廣義概率差Dp,并令Dr=Dp。 當(dāng)n=0,表示正確候選字的概率最大,該樣本能夠被正確識(shí)別,Dr>0。當(dāng)n≠0,表示該樣本正確候選字的概率不是最大的,該樣本被錯(cuò)誤識(shí)別,Dr<0,此時(shí)在計(jì)算Dr時(shí)加上一個(gè)懲罰性系數(shù)n,n越大,就意味著這個(gè)樣本容易與更多的文字類別混淆;2)對(duì)于采用基于模板匹配方法的識(shí)別裝置,在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的距離Di,按照距離值由小到大的順序排序,i=0~9,即D0<D1<……<D8<D9,并設(shè)正確候選字的位置為n,即Dn表示在期望模型下的距離,然后按照式(2)計(jì)算廣義距離差Dr。 Dr的含義同上,在識(shí)別錯(cuò)誤時(shí),同樣增加了一個(gè)懲罰性系數(shù)n。其中,每個(gè)樣本的廣義距離差Dr的含義如下Dr<0,表示該樣本識(shí)別錯(cuò),Dr越小說明樣本越差,Dr>0表明該樣本能夠被正確識(shí)別,而且Dr越大,樣本越好,并按廣義距離差從小到大的順序?qū)λ袠颖具M(jìn)行排序。
全文摘要
本發(fā)明公開了一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置和方法,所述的裝置包括樣本輸入裝置、樣本數(shù)據(jù)存儲(chǔ)單元、訓(xùn)練裝置、模型數(shù)據(jù)庫(kù)、識(shí)別裝置、識(shí)別結(jié)果分析裝置、邊界樣本選擇裝置、挑選結(jié)果輸出裝置和控制處理裝置。所述的方法是根據(jù)訓(xùn)練樣本對(duì)于訓(xùn)練的作用,將訓(xùn)練樣本分為好樣本、邊界樣本、差樣本三種類型,并通過訓(xùn)練樣本進(jìn)行訓(xùn)練、識(shí)別的結(jié)果計(jì)算廣義距離差,根據(jù)廣義距離差給出三種樣本的定義,最后通過邊界樣本的選擇實(shí)現(xiàn)訓(xùn)練樣本的挑選。本發(fā)明的裝置和方法思路簡(jiǎn)捷,能夠?qū)崿F(xiàn)訓(xùn)練樣本的自動(dòng)挑選,挑選結(jié)果更加準(zhǔn)確,從而使得訓(xùn)練出的模型更加精確,有效提高文字識(shí)別系統(tǒng)的識(shí)別率。
文檔編號(hào)G06F3/00GK1419214SQ0215795
公開日2003年5月21日 申請(qǐng)日期2002年12月23日 優(yōu)先權(quán)日2002年12月23日
發(fā)明者劉剛, 徐蔚然, 郭軍, 鄭瑞虹, 張洪剛 申請(qǐng)人:北京郵電大學(xué)