用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置及其方法

文檔序號(hào)：6570451閱讀：330來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種文字識(shí)別技術(shù)領(lǐng)域，特別涉及文字識(shí)別設(shè)備中在進(jìn)行模型訓(xùn)練前樣本預(yù)處理及訓(xùn)練樣本自動(dòng)挑選裝置及其方法。
訓(xùn)練樣本集的特性，可以用樣本集的大小(即樣本數(shù)量)和樣本分布來描述。樣本數(shù)量對(duì)于訓(xùn)練的影響，可以簡(jiǎn)單的描述為，當(dāng)樣本數(shù)量過少時(shí)，容易出現(xiàn)訓(xùn)練不足(欠訓(xùn)練)的問題，樣本數(shù)量過多，則容易出現(xiàn)過訓(xùn)練的問題。而樣本分布的概念比較復(fù)雜，對(duì)于同一個(gè)文字的訓(xùn)練樣本集來說，它應(yīng)該盡可能的包括該文字的各種種類，而且每個(gè)種類的樣本數(shù)量以及全部數(shù)據(jù)中所占的比例應(yīng)該有利于模型的建立和評(píng)價(jià)。問題在于同一個(gè)文字體現(xiàn)在樣本數(shù)據(jù)上千差萬別，人工難以進(jìn)行正確的分類，而且對(duì)于每種類別的樣本數(shù)量的比例也難以確定。
在實(shí)際工作中，往往采用人工挑選的方法來選擇訓(xùn)練樣本數(shù)據(jù)，這種方法的主要缺點(diǎn)在于對(duì)于人的依賴性大，受挑選人的影響較大，不同的人挑選的結(jié)果是不同的，而且人工挑選的樣本不一定滿足訓(xùn)練的要求，此外，在大樣本集的情況下，人工挑選是非常費(fèi)力費(fèi)時(shí)的。因此，訓(xùn)練樣本的自動(dòng)挑選顯得尤為重要。
一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選方法，在控制處理裝置的控制下，包括如下步驟將訓(xùn)練樣本和測(cè)試樣本輸入到樣本選擇裝置中；存儲(chǔ)由樣本輸入裝置輸入的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù)，存儲(chǔ)在樣本數(shù)據(jù)存儲(chǔ)單元中；根據(jù)輸入的樣本訓(xùn)練出一套模型參數(shù)，并存儲(chǔ)到模型數(shù)據(jù)庫(kù)中，以供識(shí)別裝置使用；保存訓(xùn)練裝置訓(xùn)練出的模型參數(shù)，并為識(shí)別裝置提供模型數(shù)據(jù)；根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)中的模型參數(shù)，識(shí)別輸入的樣本；當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候，計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差，并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序，得到好樣本、差樣本或邊界樣本三類樣本；當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候，將直接輸出測(cè)試樣本的識(shí)別率；根據(jù)識(shí)別結(jié)果分析裝置的輸出，判斷當(dāng)前邊界樣本選擇是否最佳。如果最佳，則通知挑選結(jié)果輸出裝置輸出最佳邊界樣本，否則，適當(dāng)改變邊界樣本的數(shù)量，在控制處理裝置的控制下，將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練，然后將測(cè)試樣本送入識(shí)別裝置進(jìn)行測(cè)試，得到當(dāng)前邊界樣本訓(xùn)練的性能；將邊界樣本選擇裝置中的挑選結(jié)果輸出，輸出的內(nèi)容可以是最佳邊界樣本的編號(hào)，也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身，輸出形式可以直接打印輸出到紙張上，也可以直接輸出到顯示裝置上。
所述的計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差進(jìn)一步包括所述的廣義距離差Dr的定義為1)在采用基于統(tǒng)計(jì)的識(shí)別裝置時(shí)，在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的概率Pi按照概率值由大到小的順序排序，其中i＝0～9，即P0＞P1＞……＞P8＞P9，并設(shè)正確候選字的位置為n，即Pn表示在期望模型下的識(shí)別概率，然后按照式(1)計(jì)算廣義概率差Dp，并令Dr＝Dp。當(dāng)n＝0，表示正確候選字的概率最大，該樣本能夠被正確識(shí)別，Dr＞0。當(dāng)n≠0，表示該樣本正確候選字的概率不是最大的，該樣本被錯(cuò)誤識(shí)別，Dr＜0，此時(shí)在計(jì)算Dr時(shí)加上一個(gè)懲罰性系數(shù)n，n越大，就意味著這個(gè)樣本容易與更多的文字類別混淆。
2)對(duì)于采用基于模板匹配方法的識(shí)別裝置，在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的距離Di按照距離值由小到大的順序排序，i＝0～9，即D0＜D1＜……＜D8＜D9，并設(shè)正確候選字的位置為n，即Dn表示在期望模型下的距離，然后按照式(2)計(jì)算廣義距離差Dr。 Dr的含義同上，在識(shí)別錯(cuò)誤時(shí)，同樣增加了一個(gè)懲罰性參數(shù)n。
其中，每個(gè)樣本的廣義距離差Dr的含義如下Dr＜0，表示該樣本識(shí)別錯(cuò)，Dr越小說明樣本越差，Dr＞0表明該樣本能夠被正確識(shí)別，而且Dr越大，樣本越好并按廣義距離差從小到大的順序?qū)λ袠颖具M(jìn)行排序。
本發(fā)明的裝置和方法思路簡(jiǎn)捷，能夠?qū)崿F(xiàn)訓(xùn)練樣本的自動(dòng)挑選，挑選結(jié)果更加準(zhǔn)確，從而使得訓(xùn)練出的模型更加精確，有效提高文字識(shí)別系統(tǒng)的識(shí)別率。
識(shí)別裝置5，用于根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)中的模型參數(shù)，識(shí)別輸入的樣本；識(shí)別結(jié)果分析裝置6，用于當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候，本裝置計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差，并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序，得到三種樣本(好樣本、差樣本、邊界樣本)的大致分類；當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候，本裝置將直接輸出測(cè)試樣本的識(shí)別率；邊界樣本選擇裝置7，用于根據(jù)識(shí)別結(jié)果分析裝置的輸出，判斷當(dāng)前邊界樣本選擇是否最佳，如果最佳，則通知挑選結(jié)果輸出裝置輸出最佳邊界樣本，否則，適當(dāng)改變邊界樣本的數(shù)量，在控制處理裝置的控制下，將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練，然后將測(cè)試樣本送入識(shí)別裝置進(jìn)行測(cè)試，得到當(dāng)前邊界樣本訓(xùn)練的性能；挑選結(jié)果輸出裝置8，用于將邊界樣本選擇裝置中的挑選結(jié)果輸出，輸出的內(nèi)容可以是最佳邊界樣本的編號(hào)，也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身，輸出形式可以直接打印輸出到紙張上，也可以直接輸出到顯示裝置上。
控制處理裝置9，用于整個(gè)訓(xùn)練樣本挑選裝置的控制處理單元，主要負(fù)責(zé)樣本數(shù)據(jù)的讀取操作，訓(xùn)練，識(shí)別，識(shí)別結(jié)果的分析，邊界樣本的選擇以及挑選結(jié)果的輸出。
文字識(shí)別，本質(zhì)上是一個(gè)分類問題，分類的任務(wù)在于尋找分類面，將分類空間劃分為不同的類區(qū)域，訓(xùn)練的作用在于分類超曲面的生成。
從訓(xùn)練樣本對(duì)于訓(xùn)練的作用來說，可將訓(xùn)練樣本分為三類好樣本、邊界樣本和差樣本。好樣本是位于分類區(qū)域的中心地帶，因而好樣本可以很好地與其它文字類樣本區(qū)分開；邊界樣本是指位于理想分類超曲面附近的樣本，它們位于不同文字類之中，但又相距很近；差樣本，是指位于本文字類區(qū)域以外的區(qū)域，樣本很差，極易與其它文字類混淆的樣本。訓(xùn)練樣本中，好樣本的存在，可以使得訓(xùn)練出的文字類區(qū)域更加緊湊，不同文字類區(qū)域間隔更大，但好樣本數(shù)目太多，容易使得訓(xùn)練出的類區(qū)域過于狹小，從而增加了邊界樣本和差樣本的誤識(shí)風(fēng)險(xiǎn)；差樣本的存在可能使得每個(gè)文字類的區(qū)域盡可能的大，同時(shí)也使得不同文字類區(qū)域產(chǎn)生重疊，增大了分類誤差，好的邊界樣本應(yīng)該是使得訓(xùn)練出的類區(qū)域盡量大，而相鄰類區(qū)域盡量沒有重疊，此時(shí)分類性能最佳。
圖2是各種樣本及其對(duì)于訓(xùn)練所起作用的示意圖。如圖2所示，該圖給出了三種樣本的作用以及在分類空間中所處的位置。其中第一類文字和第二類文字是指要識(shí)別的文字種類，以小寫數(shù)字識(shí)別為例，第一類文字可以是0～9中的任何一個(gè)數(shù)字，第二類文字則是0～9中除第一類文字以外的任何一個(gè)數(shù)字，如第一類文字為9，第二類文字可以是0～8中的任何一個(gè)數(shù)字。圓A、B、C表示第一類文字在不同訓(xùn)練數(shù)據(jù)下的類區(qū)域(類區(qū)域不一定是規(guī)則的，采用圓區(qū)域只是為了描述方便)，圓A表示采用好樣本得到的類區(qū)域，B表示采用理想邊界樣本得到的類區(qū)域，C表示采用差樣本訓(xùn)練得到的類區(qū)域，圓D表示第二類文字的分類區(qū)域。圖中o、@、x分別表示第一類文字的三種樣本好樣本、邊界樣本、差樣本。
通過以上分析可以看出，訓(xùn)練樣本的選擇，就是要盡可能的采用邊界樣本來進(jìn)行訓(xùn)練。我們以10個(gè)小寫數(shù)字的識(shí)別為例，根據(jù)實(shí)驗(yàn)，給出一個(gè)簡(jiǎn)單的各種樣本的具體定義。
取全部訓(xùn)練樣本進(jìn)行訓(xùn)練，得到十個(gè)數(shù)字的模型，然后對(duì)全部訓(xùn)練樣本進(jìn)行識(shí)別，保存每個(gè)樣本的廣義距離差Dr(廣義距離差Dr的含義如下Dr＜0，表示該樣本識(shí)別錯(cuò)，Dr越小說明樣本越差，Dr＞0表明該樣本能夠被正確識(shí)別，而且Dr越大，樣本越好)，并按廣義距離差從小到大的順序?qū)λ袠颖具M(jìn)行排序，統(tǒng)計(jì)處于不同廣義距離差值下的樣本數(shù)目。
圖3是以數(shù)字”0 ”為例，給出三種樣本的具體定義的示意圖。即圖3給出了數(shù)字”0”的全部訓(xùn)練樣本在不同的廣義距離差值下的分布圖。圖中橫軸表示廣義距離差Dr，縱軸為每個(gè)廣義距離差所對(duì)應(yīng)的樣本數(shù)目。我們將Dr＝0附近的樣本稱為邊界樣本，Dr為正值且較大的樣本稱為好樣本，Dr為負(fù)值且較小的樣本稱為差樣本。
由于識(shí)別裝置可以是基于統(tǒng)計(jì)方法的，也可以是基于模板匹配等非統(tǒng)計(jì)方法的，因而識(shí)別結(jié)果的度量方式也不同，統(tǒng)計(jì)方法采用的是概率，而模板匹配方法采用的是距離，如歐氏距離。下面分兩種情況，討論廣義距離差Dr的計(jì)算。
在采用基于統(tǒng)計(jì)的識(shí)別裝置時(shí)，在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的概率Pi(i＝0～9)(按照概率值由大到小的順序排序，即P0＞P1＞……＞P8＞P9)，并設(shè)正確候選字的位置為n，即Pn表示在期望模型下的識(shí)別概率，然后按照式(1)計(jì)算廣義概率差Dp，并令Dr＝Dp。當(dāng)n＝0，表示正確候選字的概率最大，該樣本能夠被正確識(shí)別，Dr＞0。當(dāng)n≠0，表示該樣本正確候選字的概率不是最大的，該樣本被錯(cuò)誤識(shí)別，Dr＜0，此時(shí)在計(jì)算Dr時(shí)加上一個(gè)懲罰性系數(shù)n，n越大，就意味著這個(gè)樣本容易與更多的文字類別混淆。
對(duì)于采用基于模板匹配方法的識(shí)別裝置，在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的距離Di(i＝0～9)(按照距離值由小到大的順序排序，即D0＜D1＜……＜D8＜D9)，并設(shè)正確候選字的位置為n，即Dn表示在期望模型下的距離，然后按照式(2)計(jì)算廣義距離差Dr。 Dr的含義同上，在識(shí)別錯(cuò)誤時(shí)，同樣增加了一個(gè)懲罰性系數(shù)n。
下面來確定邊界樣本的數(shù)目，首先從訓(xùn)練樣本中選擇少量(一般＜500)Dr最接近于0的樣本作為邊界樣本，從Dr＜0和Dr＞0兩個(gè)方向進(jìn)行選取，在選擇的邊界樣本中，Dr＞0的樣本要多一些；將選擇的邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練，得到各個(gè)數(shù)字的模型，然后將測(cè)試樣本送入識(shí)別裝置進(jìn)行識(shí)別測(cè)試；判斷測(cè)試結(jié)果是否最佳，如果是，則將當(dāng)前選擇的邊界樣本作為最佳邊界樣本輸出，否則，沿著Dr＜0和Dr＞0兩個(gè)方向適量增加邊界樣本的數(shù)量(一般步長(zhǎng)為50，其中Dr＞0的方向要多選擇一些)，然后進(jìn)行訓(xùn)練、測(cè)試、判斷……，直至測(cè)試結(jié)果最佳。
圖4是用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選的工作流程圖。如圖4所示，具體步驟是步驟41從輸入裝置讀入數(shù)據(jù)，可以由掃描儀或類似功能的圖像輸入設(shè)備組成，主要將訓(xùn)練樣本和測(cè)試樣本輸入到訓(xùn)練樣本挑選裝置中；步驟42將樣本數(shù)據(jù)存入樣本數(shù)據(jù)存儲(chǔ)單元，為后面的訓(xùn)練樣本挑選提供原始圖像像素信息；
步驟43從樣本數(shù)據(jù)存儲(chǔ)單元中讀出訓(xùn)練樣本，送入訓(xùn)練裝置進(jìn)行訓(xùn)練，得到各個(gè)文字的模型；步驟44將訓(xùn)練得到的模型參數(shù)數(shù)據(jù)保存到模型參數(shù)數(shù)據(jù)庫(kù)；步驟45將訓(xùn)練樣本數(shù)據(jù)送入識(shí)別裝置，利用訓(xùn)練出的模型進(jìn)行識(shí)別，并將識(shí)別結(jié)果輸出到識(shí)別結(jié)果分析裝置；步驟46在識(shí)別結(jié)果分析裝置中，計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差，并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序，得到三種樣本(好樣本、差樣本、邊界樣本)三種樣本的大致分類；步驟47根據(jù)步驟46中的訓(xùn)練樣本排序信息，從訓(xùn)練樣本中選擇少量(一般＜500)Dr最接近于0的樣本作為邊界樣本，從Dr＜0和Dr＞0兩個(gè)方向進(jìn)行選取，在選擇的邊界樣本中，Dr＞0的樣本要多一些。
步驟48將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練，得到模型參數(shù)；步驟49將測(cè)試樣本送入識(shí)別裝置，利用訓(xùn)練出的模型進(jìn)行識(shí)別，并將識(shí)別結(jié)果輸出到識(shí)別結(jié)果分析裝置；步驟410判斷測(cè)試樣本的識(shí)別結(jié)果是否最佳，如果是，則轉(zhuǎn)到步驟412，否則，轉(zhuǎn)到步驟411；步驟411在當(dāng)前邊界樣本的基礎(chǔ)上，沿著Dr＜0和Dr＞0兩個(gè)方向適量增加邊界樣本的數(shù)量(一般步長(zhǎng)為50，其中Dr＞0的方向要多選擇一些)，轉(zhuǎn)到步驟48；步驟412將得到的最佳邊界樣本由挑選結(jié)果輸出裝置輸出，完成訓(xùn)練樣本的自動(dòng)挑選以上描述僅僅借助于實(shí)施例提供本發(fā)明的實(shí)現(xiàn)方法。對(duì)于本領(lǐng)域的技術(shù)人員是顯而易見的，本發(fā)明不限于上面提供的實(shí)施細(xì)節(jié)，可以在不脫離本發(fā)明特征的情況下以另外的實(shí)施例實(shí)現(xiàn)，實(shí)施例中的一些部件進(jìn)行分解、合并或使用微處理器實(shí)現(xiàn)。因此，提供的實(shí)施例應(yīng)當(dāng)被認(rèn)為是說明性的，而不是限制性的。因此，實(shí)現(xiàn)和使用本發(fā)明的可能性是由所附的權(quán)利要求限定。因而，由權(quán)利要求確定的實(shí)現(xiàn)本發(fā)明的各種選擇包括等效實(shí)施例也屬于本發(fā)明的范圍。
權(quán)利要求
1.一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置，所述的裝置包括樣本輸入裝置(1)，用于將訓(xùn)練樣本和測(cè)試樣本輸入到樣本數(shù)據(jù)存儲(chǔ)單元(2)中；樣本數(shù)據(jù)存儲(chǔ)單元(2)，用于存儲(chǔ)由樣本輸入裝置(1)輸入的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù)；訓(xùn)練裝置(3)，用于根據(jù)輸入的樣本訓(xùn)練出一套模型參數(shù)，并存儲(chǔ)到模型數(shù)據(jù)庫(kù)(4)中，以供識(shí)別裝置(5)使用；模型數(shù)據(jù)庫(kù)(4)，用于保存訓(xùn)練裝置(3)訓(xùn)練出的模型參數(shù)，并為識(shí)別裝置(5)提供模型數(shù)據(jù)；識(shí)別裝置(5)，用于根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)中的模型參數(shù)，識(shí)別輸入的樣本；識(shí)別結(jié)果分析裝置(6)，用于當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候，計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差，并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序，得到好樣本、差樣本或邊界樣本三類樣本；當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候，本裝置將直接輸出測(cè)試樣本的識(shí)別率；邊界樣本選擇裝置(7)，用于根據(jù)識(shí)別結(jié)果分析裝置(6)的輸出，判斷當(dāng)前邊界樣本選擇是否最佳，如果最佳，則通知挑選結(jié)果輸出裝置輸出最佳邊界樣本，否則，適當(dāng)改變邊界樣本的數(shù)量，在控制處理裝置的控制下，將邊界樣本送入訓(xùn)練裝置進(jìn)行訓(xùn)練，然后將測(cè)試樣本送入識(shí)別裝置(5)進(jìn)行測(cè)試，得到當(dāng)前邊界樣本訓(xùn)練的性能；挑選結(jié)果輸出裝置(8)，用于將邊界樣本選擇裝置(7)中的挑選結(jié)果輸出，輸出的內(nèi)容可以是最佳邊界樣本的編號(hào)，也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身，輸出形式可以直接打印輸出到紙張上，也可以直接輸出到顯示裝置上；控制處理裝置(9)，用于對(duì)整個(gè)訓(xùn)練樣本挑選裝置的控制處理，負(fù)責(zé)樣本數(shù)據(jù)的讀取操作，訓(xùn)練，識(shí)別，識(shí)別結(jié)果的分析，邊界樣本的選擇以及挑選結(jié)果的輸出。
2.一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選方法，其特征在于在控制處理裝置的控制下，該方法包括如下步驟將訓(xùn)練樣本和測(cè)試樣本輸入到樣本選擇裝置中；存儲(chǔ)由樣本輸入裝置輸入的訓(xùn)練樣本和測(cè)試樣本數(shù)據(jù)，存儲(chǔ)在樣本數(shù)據(jù)存儲(chǔ)單元中；根據(jù)輸入的樣本訓(xùn)練出一套模型參數(shù)，并存儲(chǔ)到模型數(shù)據(jù)庫(kù)中，以供識(shí)別裝置使用；保存訓(xùn)練裝置(3)訓(xùn)練出的模型參數(shù)，并為識(shí)別裝置(5)提供模型數(shù)據(jù)；根據(jù)存儲(chǔ)在模型數(shù)據(jù)庫(kù)(4)中的模型參數(shù)，識(shí)別輸入的樣本；當(dāng)系統(tǒng)識(shí)別的是訓(xùn)練樣本的時(shí)候，計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差，并按照廣義距離差從小到大對(duì)所有訓(xùn)練樣本進(jìn)行排序，得到好樣本、差樣本和邊界樣本三類樣本；當(dāng)系統(tǒng)識(shí)別的是測(cè)試樣本的時(shí)候，將直接輸出測(cè)試樣本的識(shí)別率；根據(jù)識(shí)別結(jié)果分析裝置(6)的輸出，判斷當(dāng)前邊界樣本選擇是否最佳。如果最佳，則通知挑選結(jié)果輸出裝置(8)輸出最佳邊界樣本，否則，適當(dāng)改變邊界樣本的數(shù)量，在控制處理裝置(9)的控制下，將邊界樣本送入訓(xùn)練裝置(5)進(jìn)行訓(xùn)練，然后將測(cè)試樣本送入識(shí)別裝置(5)進(jìn)行測(cè)試，得到當(dāng)前邊界樣本訓(xùn)練的性能；將邊界樣本選擇裝置(7)中的挑選結(jié)果輸出，輸出的內(nèi)容可以是最佳邊界樣本的編號(hào)，也可以是全部最佳訓(xùn)練樣本數(shù)據(jù)本身，輸出形式可以直接打印輸出到紙張上，也可以直接輸出到顯示裝置上。
3.根據(jù)權(quán)利要求2的方法，其特征在于所述的計(jì)算訓(xùn)練樣本中每個(gè)樣本的廣義距離差進(jìn)一步包括所述的廣義距離差Dr的定義為1)在采用基于統(tǒng)計(jì)的識(shí)別裝置時(shí)，在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的概率Pi，按照概率值由大到小的順序排序，其中i＝0～9，即P0＞P1＞……＞P8＞P9，并設(shè)正確候選字的位置為n，即Pn表示在期望模型下的識(shí)別概率，然后按照式(1)計(jì)算廣義概率差Dp，并令Dr＝Dp。當(dāng)n＝0，表示正確候選字的概率最大，該樣本能夠被正確識(shí)別，Dr＞0。當(dāng)n≠0，表示該樣本正確候選字的概率不是最大的，該樣本被錯(cuò)誤識(shí)別，Dr＜0，此時(shí)在計(jì)算Dr時(shí)加上一個(gè)懲罰性系數(shù)n，n越大，就意味著這個(gè)樣本容易與更多的文字類別混淆；2)對(duì)于采用基于模板匹配方法的識(shí)別裝置，在識(shí)別時(shí)保存每個(gè)樣本在各個(gè)模型下的距離Di，按照距離值由小到大的順序排序，i＝0～9，即D0＜D1＜……＜D8＜D9，并設(shè)正確候選字的位置為n，即Dn表示在期望模型下的距離，然后按照式(2)計(jì)算廣義距離差Dr。 Dr的含義同上，在識(shí)別錯(cuò)誤時(shí)，同樣增加了一個(gè)懲罰性系數(shù)n。其中，每個(gè)樣本的廣義距離差Dr的含義如下Dr＜0，表示該樣本識(shí)別錯(cuò)，Dr越小說明樣本越差，Dr＞0表明該樣本能夠被正確識(shí)別，而且Dr越大，樣本越好，并按廣義距離差從小到大的順序?qū)λ袠颖具M(jìn)行排序。
全文摘要
本發(fā)明公開了一種用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置和方法，所述的裝置包括樣本輸入裝置、樣本數(shù)據(jù)存儲(chǔ)單元、訓(xùn)練裝置、模型數(shù)據(jù)庫(kù)、識(shí)別裝置、識(shí)別結(jié)果分析裝置、邊界樣本選擇裝置、挑選結(jié)果輸出裝置和控制處理裝置。所述的方法是根據(jù)訓(xùn)練樣本對(duì)于訓(xùn)練的作用，將訓(xùn)練樣本分為好樣本、邊界樣本、差樣本三種類型，并通過訓(xùn)練樣本進(jìn)行訓(xùn)練、識(shí)別的結(jié)果計(jì)算廣義距離差，根據(jù)廣義距離差給出三種樣本的定義，最后通過邊界樣本的選擇實(shí)現(xiàn)訓(xùn)練樣本的挑選。本發(fā)明的裝置和方法思路簡(jiǎn)捷，能夠?qū)崿F(xiàn)訓(xùn)練樣本的自動(dòng)挑選，挑選結(jié)果更加準(zhǔn)確，從而使得訓(xùn)練出的模型更加精確，有效提高文字識(shí)別系統(tǒng)的識(shí)別率。
文檔編號(hào)G06F3/00GK1419214SQ0215795
公開日2003年5月21日申請(qǐng)日期2002年12月23日優(yōu)先權(quán)日2002年12月23日
發(fā)明者劉剛, 徐蔚然, 郭軍, 鄭瑞虹, 張洪剛申請(qǐng)人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉剛、徐蔚然、郭軍、鄭瑞虹、張洪剛
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：不編碼三筆漢字輸入法的制作方法
上一篇：中西文字拼音編碼智能交互輸入方法及其鍵盤的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

車牌識(shí)別訓(xùn)練樣本相關(guān)技術(shù)

人臉識(shí)別訓(xùn)練樣本相關(guān)技術(shù)

bp神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本相關(guān)技術(shù)

訓(xùn)練樣本和測(cè)試樣本相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于文字識(shí)別的訓(xùn)練樣本自動(dòng)挑選裝置及其方法