欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文字信息圖形編碼-機器文字及其自動識別方法

文檔序號:6412263閱讀:677來源:國知局
專利名稱:文字信息圖形編碼-機器文字及其自動識別方法
文字是人類的一種文化工具。文字的出現(xiàn),對人類社會進步起了極其重要的作用。自從有了人類,就有了語言。語言是人們利用來進行思維,交流各種信息,以達到互相了解的工具。但語言存在很大的缺點,聲音發(fā)出后“稍縱即逝”,遠處的人聽不到,也不能流傳久遠,于是人類創(chuàng)造了文字。文字記錄語言,傳達語言,擴大語言在時間上和空間上的交際作用。許多民族都創(chuàng)造了自己的文字,如中國的漢字、阿拉伯字符、羅馬字、日本的假名等??v觀人類的文字發(fā)展史,它由最初創(chuàng)造,形成適合社會需要的符號系統(tǒng),以后一直在不斷增加數(shù)量并發(fā)生新陳代謝。今天,人們?nèi)匀辉谘芯扛母镂淖?,發(fā)展它,以便使它能更好的為人類社會進步服務。
自從有了電子計算機,人類進入了一個信息化時代,隨著社會生產(chǎn)技術(shù)的突飛猛進,商業(yè)、物流、工業(yè)生產(chǎn)、辦公自動化……大量的文字信息需要及時處理,這就必須對文字信息進行自動采集和識別。然而,原有的文字存在結(jié)構(gòu)復雜、不規(guī)范、容易混淆等缺陷,這造成識別技術(shù)難度大,識別正確率低,識別速度慢,可靠性非常差。目前世界上最好的印刷體漢字識別系統(tǒng)的識別率僅是98%左右。顯然,原有的文字和社會需求發(fā)生了矛盾,已不能滿足人們的需要。
為了提高識別率,實現(xiàn)文字信息的高速輸入,人們想出了很多種方法,包括對文字進行規(guī)范化和標準化設(shè)計,然而實效甚微。條碼是為信息自動輸入和采集而發(fā)明的一種圖形編碼技術(shù),這種已經(jīng)公開的專利技術(shù),由于方法簡便,成本低,可靠性高,現(xiàn)在已在商品銷售、工業(yè)生產(chǎn)管理、社會服務等領(lǐng)域被大量使用,獲得了極大的經(jīng)濟效益。不過條碼的應用局限性很大,它只能使用在文字數(shù)量很少的場合,如數(shù)字或ASCII字符集。條碼是黑白相間、寬窄不一的線條圖形,由于它受印刷密度和高度的限制,其所載信息量有限,很難用在漢字這樣的大字符集。這使得它不能在更廣泛的場合使用,如人才交流、商品信息、辦公自動化等需要復雜文字信息的場合。
本發(fā)明是一種新的文字圖形編碼及其自動識別方法。這種文字信息圖形編碼,是為機器自動采集和識別世界上多文種文字信息而發(fā)明的。它的字符集幾乎可包含目前世界上所有的文字,不僅對各種條碼的字符集全部進行了編碼,而且對龐大的中0國、日本、韓國所用的漢字集都進行了編碼,字數(shù)為65536個。文字信息圖形編碼是利用圖形結(jié)構(gòu)來描述字符,由骨架0和骨架確定的特定區(qū)域上的筆畫組成,經(jīng)規(guī)范化和標準化設(shè)計而成,每字一碼。由于文字信息圖形編碼是為機器自動識別而設(shè)計,它不考慮原文字在演變過程中積淀的表形、表音和表意等特點,即可讀性和可知性,而是從模式識別技術(shù)及美學方面考慮,使編碼圖形可定位,成整體,識別時只要判別出各筆畫及其相對于骨架的位置即可得到其文字信息,方法簡單,識別率高,穩(wěn)定性好。因此,為了與現(xiàn)有的文字區(qū)別,把這種專供機器識別使用的文字信息圖形編碼稱為機器文字。這是一個新文種,是現(xiàn)有文字的另一種圖形表達形式。
文字信息圖形編碼的最大特點是有一個固定組成部分,稱之為骨架,形狀如“Z”,如圖1的a)和b)所示。每個文字信息圖形編碼都占有相同的矩形區(qū)域,設(shè)矩形區(qū)域的寬為w,高為h。在圖a)中,從矩形的左上角點向下,是一垂直線段a,長度等于h的三分之二,稱為左邊線,從矩形的左上角點向右,是一水平線段b,長度等于w的三分之二,稱為上邊線,從矩形的右下角點向上,是一垂直線段g,長度等于h的三分之一,稱為右邊線,從矩形的右下角點向左,是一水平線段f,長度等于w的三分之二,稱為下邊線,從上邊線的右端點向下是一垂直線段c,長度等于h的二分之一,稱為右分界線,從下邊線的左端點向上是一垂直線段e,長度等于h的二分之一,稱為左分界線,連接左分界線上端點和右分界線下端點的線段,是一水平線段d,長度等于w的三分之一,稱為水平分界線。左邊線a、上邊線b、右分界線c、水平分界線d、左分界線e、下邊線f、和右邊線g組成文字信息圖形編碼的骨架。圖b)是另一種Z型骨架,它的左邊線k的長度等于高度h,右邊線j的長度等于h的二分之一,上邊線m和下邊線n的長度等于w的二分之一,中間只有一條垂直分界線p,長度等于高度h。這種Z型骨架由左邊線k、上邊線m、垂直分界線p、下邊線n、和右邊線j組成。文字信息圖形編碼采用骨架的方法對機器識別有著非常重要的作用。骨架確定了文字矩形區(qū)域的大小,使每個文字圖形等寬、等高,自成一個整體,這保證了文字切分的正確性。漢字被稱為是方塊字,其實遠非如此,它寬窄高低不一,象“卜”、“丫”、“日”、“曰”和“懿”;形狀各異,象“小”、“丁”、“廠”、“飛”和“個”;結(jié)構(gòu)分散,象“北”、“八”、“川”和“非”等。識別時還有夾在文字中間的標點符號,常常使文字不能準確切分出來,導致識別發(fā)生錯誤。骨架還有定向作用,在360°的任何方向上都可根據(jù)邊線的長短確定編碼圖形的上下左右方位,如果識別時掃描圖形出現(xiàn)歪斜或倒置,則可通過旋轉(zhuǎn)使文字圖形變?yōu)檎_,識別便不會發(fā)生錯誤。漢字中的“甲”和“由”,“干”和“士”等,圖形倒置時肯定不能正確識別,“大”、“小”、“人”、“火”等,很難通過字形確定其方位,一旦圖形發(fā)生歪斜,便會發(fā)生識別錯誤。由此可見,骨架對圖形編碼非常重要。當然,有時為了滿足識別技術(shù)需要,也可以挪動上述骨架線段位置,改變骨架線段長度,成為一種變形骨架,只要它能用來確定文字編碼圖形區(qū)域及方位即可。
Z型骨架把文字矩形區(qū)域分為二部分,圖1a)中的右分界線c、水平分界線d和左分界線e將編碼圖形分為左區(qū)和右區(qū)。為了進行圖形編碼,需將左區(qū)和右區(qū)各分為8個子區(qū)域。根據(jù)骨架的高,把右分界線c和左分界線e分別三等分,再過這些等分點作水平線,然后以這些水平線為中線均分矩形區(qū)域。在左區(qū)中,把上面二個區(qū)域左右等分,就得到了8個子區(qū)域。這些子區(qū)域的長度相等,都等于寬度w的三分之一。這8個子區(qū)域是依據(jù)骨架確定的特定區(qū)域,從上到下依次命名為X0-X7。同樣可以得到右區(qū)的8個子區(qū)域,考慮到對稱,從下到上依次命名為Y0-Y7。文字信息圖形編碼的特定區(qū)域如圖2所示。
文字信息圖形編碼的另一個顯著特點是其獨特的編碼規(guī)則。它按如下方法進行編碼設(shè)一個字節(jié)的BIT位從低到高依次為Z0-Z7,使它的8個BIT位Z0-Z7與左區(qū)的8個子區(qū)域X0-X7或右區(qū)的8個子區(qū)域Y0-Y7一一對應,如果某一BIT位為1,其所對應的子區(qū)域有筆畫,為0則無筆畫,對于一個二字節(jié)代碼表示的文字,用左區(qū)的筆畫來表示文字的第一個字節(jié)信息,用右區(qū)的筆畫來表示文字的第二個字節(jié)信息,就組成了該文字的圖形編碼。例如,若“蕃”字的代碼為16進制數(shù)deac,它的機器文字如圖3所示。編碼圖形中的筆畫是直線段,除了骨架的筆畫之外,其它的筆畫都是水平筆畫,且長度都等于子區(qū)域的長度。這種編碼方法的好處是編碼容量大,達到65536個,可以包容ISO/IEC于1992年6月正式通過的ISO/IEC 10646-1.2標準中的全部文字,這樣,凡中日韓(CJK)統(tǒng)一編碼的漢字都有了一個供機器識別使用的圖形符號。這種編碼的另一個好處是文字圖形標準且規(guī)范,每個文字都等高和等寬,都有相同的骨架和相同的筆畫區(qū),凡是筆畫都是水平筆畫且等長。在漢字中,存在著大量的不規(guī)范的容易混淆的筆畫和相似的字形,如“人”、“入”;“壬”、“王”;“未”、“末”;“日”、“曰”等,這是使識別正確率難以提高的最主要原因。機器文字很好的解決了這一問題,因此從根本上保證了能獲得極高的識別率。另外,對于現(xiàn)有文字,若要設(shè)計一個能識別ISO/IEC 10646-1.2標準中所有文字的OCR系統(tǒng)幾乎是不可能的。它的費用實在太昂貴,即使建立了,其識別率和速度也很難令人滿意。但是,規(guī)范的機器文字很輕易地就能實現(xiàn)這一點,而且不會降低識別率和速度。
文字信息圖形編碼的另一個顯著特點是它容易自動識別,抗干擾能力強,有很高的可靠性,機器自動識別可以達到100%的正確率。這是因為機器文字有相同的結(jié)構(gòu)。識別時,首先確定Z型骨架的左區(qū)和右區(qū)及其子區(qū)域,然后逐個子區(qū)域判定有無筆畫,如果某一子區(qū)域有筆畫,其所對應的BIT位為1,無筆畫則為0,筆畫的位置都確定后,即可得到文字的2字節(jié)代碼信息。它不需要進行分類,也不用知識庫,所以非常容易實現(xiàn)。機器文字只所以抗干擾能力強,是因為它的筆畫的長度和寬度都一樣,筆畫的寬度足夠掃描時獲取它,筆畫間的空隙又足夠分開相臨筆畫,同條碼不一樣,筆畫與其寬度無關(guān),所以位于筆畫邊界的干擾點不會影響其正確判別。即使相臨筆畫之間發(fā)生粘連,也不會判別錯誤。對于無筆畫區(qū)域的特大污染,只要其面積大小不超過正常筆畫面積的一半,長度不超過正常筆畫長度的一半,識別也不會發(fā)生錯誤。機器文字的識別框圖如圖4所示。
文字信息圖形編碼不僅是現(xiàn)有文字的另一種圖形表達形式,而且在特殊需要的情況下,它也可以作為其他非文字信息的圖形表達形式,如圖象數(shù)據(jù),文本排版信息等。這時,每個機器文字表示2字節(jié)數(shù)據(jù),我們稱其為非文字信息文字化。非文字信息文字化,使人們能夠把一些非文字信息以文字的形式印刷、傳遞、保存和交流。機器文字的創(chuàng)造、生成極為簡便,這樣,對于任何信息,都可以用規(guī)范和標準的方法為其設(shè)計字符,這些字符通過上述的識別算法即可還原其信息。
總之,本發(fā)明為社會提供了一種新的文字記載方法及自動識別方法。由于機器文字的編碼密度和編碼空間遠遠大于條碼,適用于世界上各國的文字信息,可以應用于文字信息的印刷保存、處理及交換,因此有著比條碼更加廣泛的應用領(lǐng)域。機器文字的出現(xiàn),是人類文字發(fā)展的一個新紀元,它的字形規(guī)范和標準,識別速度快、可靠性好和成本低,將會引起信息社會發(fā)生一場革命。機器文字將改變出版、物資流動、人才流動、工業(yè)生產(chǎn)、辦公自動化等領(lǐng)域的面貌。機器文字也將促進機器人快速發(fā)展,機器人用機器文字交流信息,更快捷、更準確、更可靠。機器語言、機器文字和機器人,這才組成了一個真正的機器人的世界。


如下圖1是本發(fā)明文字信息圖形編碼的骨架。
圖2是本發(fā)明文字信息圖形編碼的特定區(qū)域。
圖3是本發(fā)明漢字“蕃”的機器文字。
圖4是本發(fā)明機器文字的識別框圖。
下面是本發(fā)明的一個實施例。這是一個“身份證自動識別系統(tǒng)”。通常,身份證中包含有漢字、數(shù)字和標點符號,由于我國人名和地名的復雜多樣性,識別系統(tǒng)至少應能識別數(shù)字、國標GB2312中的二級漢字和標點符號。目前,世界上這樣的印刷體漢字識別系統(tǒng)識別正確率只能達到98%,平均每個身份證要錯1.8個字,很難滿足準確和快速的實際需要。采用本發(fā)明的機器文字的身份證自動識別系統(tǒng),是在身份證上同時印刷有用機器文字表示的身份證內(nèi)容。圖5是印有機器文字的身份證,圖中下面的4行文字是上面文字的機器文字,其內(nèi)容和上面人們可識別的內(nèi)容完全一樣。識別系統(tǒng)只對下面的4行機器文字進行識別,便能獲得身份證的全部信息,正確率為100%。
身份證自動識別系統(tǒng)所用機器文字的結(jié)構(gòu),骨架如圖1中的a),特定區(qū)域如圖2中的a)。
身份證自動識別系統(tǒng)所用機器文字的字符集包括1)ASCII碼的前128個字符。2)GB2312《信息交換用漢字編碼字符集——基本集》中的全部漢字6763個,非漢字圖形字符682個。3)擴充漢字1391個。4)功能字符3個。
身份證自動識別系統(tǒng)通過掃描獲取圖象,圖象經(jīng)過處理、切分后得到機器文字圖象,然后利用上述的識別方法識別每一個機器文字,即得到身份證的全部內(nèi)容。所有這一切都是自動進行的。該系統(tǒng)速度快,可靠性高,可排除人工輸入時精神不集中造成的差錯,特別是輸入身份證編號的長串數(shù)字時出現(xiàn)的錯誤,大大降低了工作人員的腦力勞動強度,也節(jié)省了大量的時間。
權(quán)利要求
1.一種文字信息圖形編碼——機器文字及其自動識別方法,其特征在于文字信息圖形編碼是由骨架和骨架確定的特定區(qū)域上的筆畫組成,自動識別時只要判別出各筆畫及其相對于骨架的位置,即可得到其文字信息。
2.根據(jù)權(quán)利要求1所述的文字信息,其特征在于文字一般指多種語言的書面形式的圖形字符,即多文種文字,如中文字符即漢字、英文字符、日文字符和朝文字符等,在特殊情況下,也可擴展為其他的非文字信息。
3.根據(jù)權(quán)利要求1所述的圖形編碼——機器文字,其特征在于是利用圖形結(jié)構(gòu)來描述權(quán)利要求2中所述的各種字符,所以稱為文字信息圖形編碼,它為機器自動識別而設(shè)計,是現(xiàn)有文字的另一種新的圖形符號,為了區(qū)別于現(xiàn)在人們識別使用的文字,也稱其為機器文字。
4.根據(jù)權(quán)利要求1所述的骨架,其特征在于該圖形編碼有一個形如Z的固定組成部分,每個文字信息圖形編碼都占有相同的矩形區(qū)域,設(shè)矩形區(qū)域的寬為w,高為h,從矩形的左上角點向下,是一垂直線段,長度等于h的三分之二,稱為左邊線,從矩形的左上角點向右,是一水平線段,長度等于w的三分之二,稱為上邊線,從矩形的右下角點向上,是一垂直線段,長度等于h的三分之一,稱為右邊線,從矩形的右下角點向左,是一水平線段,長度等于w的三分之二,稱為下邊線,從上邊線的右端點向下是一垂直線段,長度等于h的二分之一,稱為右分界線,從下邊線的左端點向上是一垂直線段,長度等于h的二分之一,稱為左分界線,連接左分界線上端點和右分界線下端點的線段,是一水平線段,長度等于w的三分之一,稱為水平分界線,左邊線、上邊線、右分界線、水平分界線、左分界線、下邊線和右邊線組成文字信息圖形編碼的骨架,骨架不僅確定了文字編碼圖形的矩形區(qū)域,而且由骨架邊線的長短也確定了文字編碼圖形的上下左右方位。
5.根據(jù)權(quán)利要求1所述的骨架確定的特定區(qū)域,其特征是指Z型骨架的右分界線、水平分界線和左分界線將編碼圖形分為左區(qū)和右區(qū)兩部分,同時根據(jù)骨架的高和寬把左區(qū)和右區(qū)分別分為8個子區(qū)域,這些子區(qū)域由骨架而確定,相對于骨架是固定的,是骨架的特定區(qū)域,長度都等于w的三分之一。
6.根據(jù)權(quán)利要求1所述的筆畫,其特征是指編碼圖形中的直線段,它是水平或垂直線段,除了骨架的筆畫外,其他筆畫只能出現(xiàn)在相對于骨架的固定位置,即權(quán)利要求5中所述的特定區(qū)域,其長度都等于子區(qū)域的長度,而粗細不加限制。
7.根據(jù)權(quán)利要求1所述的文字信息圖形編碼是由骨架和骨架確定的特定區(qū)域上的筆畫組成,其特征在于圖形編碼遵循以下編碼規(guī)則將左區(qū)的8個子區(qū)域分別和一個字節(jié)的8個BIT位一一對應,如果某一BIT位為1,它所對應的子區(qū)域有筆畫,為0它所對應的子區(qū)域無筆畫,同樣右區(qū)的8個子區(qū)域也分別和一個字節(jié)的8個BIT位一一對應,這樣,對于一個二字節(jié)代碼表示的文字,用左區(qū)的筆畫來表示文字的第一個字節(jié)信息,用右區(qū)的筆畫來表示文字的第二個字節(jié)信息,就組成了該文字的圖形編碼。
8.根據(jù)權(quán)利要求1所述的判別出各筆畫及其相對于骨架的位置,即可得到其文字信息,其特征在于自動識別時,先按權(quán)利要求5中所述的方法確定Z型骨架的左區(qū)和右區(qū)及其子區(qū)域,然后逐個子區(qū)域判定有無筆畫,如果某一子區(qū)域有筆畫,其所對應的BIT位為1,無筆畫則為0,筆畫的位置都確定后,即可得到其文字信息。
9.根據(jù)權(quán)利要求1所述的骨架,其特征在于將權(quán)利要求4中所述的Z型骨架的右分界線和左分界線合為一條垂線分界線,取消水平分界線,使左邊線和垂線分界線的長度都等于高h,右邊線等于h的二分之一,上邊線和下邊線的長度都等于寬w的二分之一,仍然是屬于本發(fā)明的骨架,凡挪動本發(fā)明各骨架線段位置,改變骨架線段長度,用來確定文字編碼圖形區(qū)域及方位的,也是屬于本發(fā)明的骨架。
10.根據(jù)權(quán)利要求1所述的文字信息圖形編碼是由骨架和在骨架特定位置上的筆畫組成,其特征在于將權(quán)利要求4、5、7、9所述方法得到的文字信息圖形編碼旋轉(zhuǎn)任意一個角度,或者是其鏡象,它仍然是屬于本發(fā)明的文字信息圖形編碼。
全文摘要
本發(fā)明是一種文字信息圖形編碼及其自動識別方法。這種文字信息圖形編碼又稱為機器文字,是為機器自動識別世界上各種文字信息而發(fā)明的?,F(xiàn)在人們使用的文字,機器自動識別時正確率低,速度慢,可靠性差,可識別的文字數(shù)量也有限。使用機器文字,則不僅識別的速度非???識別的文字數(shù)量幾乎可包容世界上所有的文字,而且能達到100%的正確識別率。機器文字適用于多文種文字信息的印刷保存、處理及交換,由于它的編碼密度和編碼空間遠遠大于條碼,因此有著比條碼更加廣泛的應用領(lǐng)域和經(jīng)濟效益。機器文字的出現(xiàn),是人類文字發(fā)展的一個新紀元。機器文字為社會提供了一種新的文字記載方法及自動識別方法,它的字形規(guī)范和標準,識別速度快、可靠性好和成本低,將會引起信息社會發(fā)生一場革命。機器文字將改變出版、物資流動、人才流動、工業(yè)生產(chǎn)、辦公自動化等領(lǐng)域的面貌,也將促進機器人快速發(fā)展。
文檔編號G06K9/18GK1186288SQ9711635
公開日1998年7月1日 申請日期1997年8月18日 優(yōu)先權(quán)日1997年8月18日
發(fā)明者郭熙凡 申請人:郭熙凡
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平谷区| 阳春市| 中牟县| 双桥区| 水城县| 阳西县| 罗定市| 大方县| 大姚县| 张掖市| 盐山县| 湘阴县| 许昌县| 花莲县| 天祝| 正定县| 金平| 方城县| 久治县| 扎赉特旗| 新巴尔虎左旗| 瓮安县| 芮城县| 郸城县| 农安县| 杭锦后旗| 姚安县| 海阳市| 南安市| 鄂托克旗| 阿拉善左旗| 津市市| 海原县| 宝应县| 巴马| 陇川县| 宝山区| 华阴市| 汝城县| 伊春市| 乐安县|