專利名稱:一種中文自動校對方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算語言學(xué)領(lǐng)域,特別涉及利用計算機進(jìn)行中文自動校對的方法及其系統(tǒng)。
隨著計算機在出版印刷和辦公自動化領(lǐng)域的廣泛應(yīng)用,中文字處理系統(tǒng)已成為國內(nèi)計算機系統(tǒng)不可缺少的組成部份。由于文字錄入不可避免地存在錯誤,利用計算機對機內(nèi)中文文本進(jìn)行校對已成為出版印刷和辦公自動化的必然要求。
目前與計算機中文自動校對有關(guān)的已有技術(shù)主要有以下幾種1計算機語音校對該技術(shù)利用語音合成模擬“唱校”,由計算機“朗讀”機內(nèi)文本,由人監(jiān)聽、判斷是否有錯。其缺點是閱讀速度慢,合成語音自然度差,一字多音易出現(xiàn)虛警,一音多字易造成漏報。監(jiān)聽人員實際勞動強度大于人工“唱校”,并需在計算機上安裝發(fā)聲設(shè)備。
2計算機多文本對照比較該技術(shù)要點是利用小概率事件(錄入錯誤)不大可能多次重復(fù)發(fā)生這一原理,利用計算機在多次錄入的同一文本之間進(jìn)行了對比,從而找出相異處進(jìn)行人工干預(yù)修正。該方法精度高,不足之處需多遍錄入同一文本(通常是二次或三次)。
3西文拼寫校對和語法語義校對該技術(shù)要點是對西文機內(nèi)文本進(jìn)行詞典匹配和語法語義分析檢查。西文拼寫校對因簡單易行而在世界范圍得到了普及。語法語義校對除用于錯誤檢查外還用于篇章評價。該方法的缺點是詞典或語法、語義規(guī)則覆蓋程度不夠易造成精度低和虛報高。該缺點已得到廣大使用者的理解和容忍。
由于機內(nèi)漢語文本中詞與詞之間沒有自然間隔(如英文的空格等),單字本身無對錯可言,故拼寫校對的原理并不適用中文自動校對。漢語由于缺乏時態(tài)、語態(tài)和形態(tài)特征從而使其語法體系帶有較大的不確定性,分析難度大。單純的語法語義校對是人工智能和計算語言學(xué)短期內(nèi)難于解決的難題。
本發(fā)明的目的在于克服或回避已有技術(shù)的不足之處,提出一種新的中文自動校對方法,主要采用語法相關(guān)性檢查與統(tǒng)計相關(guān)性檢查相結(jié)合的方法,在不增加(語音)設(shè)備的前提下,單純利用計算機的存儲、運算、判斷功能來查找漢語文本中可能存在的錯誤,再通過漢語信道模型對可能的錯誤進(jìn)行確認(rèn),并以此方法制成校對軟件與通用微機相結(jié)合構(gòu)成中文自動校對系統(tǒng)。
本發(fā)明所述的一種計算機中文自動校對方法,其特征包括以下步驟1).將有關(guān)語言學(xué)知識編制成各類數(shù)據(jù)庫予先存儲在計算機中,其中包括語法、語義數(shù)據(jù)庫;由漢語語法單位之間慣用搭配關(guān)系構(gòu)成的信源模型,通常的差錯模式構(gòu)成的信道模型;2).將輸入的中文文本按標(biāo)點切分成句,再按句切分音節(jié)、字詞、短語或意群等語法單位;3).采用動態(tài)規(guī)劃或維特比算法,排除歧義切分,找出最佳匹配;4).將切分后的文本與語法、語義庫進(jìn)行比較找出病句,錯句的語法相關(guān)性檢查;5).將文本語法單位之間的搭配與所說的信源模型進(jìn)行比較,找出不相關(guān)點的統(tǒng)計相關(guān)性檢查;6).將所說4、5步驟得到的不相關(guān)點與差錯模式庫進(jìn)行比較,排除虛報錯誤;得到真實錯誤供修改。
本發(fā)明所說的語法單位的切分采用正向最大匹配法和逆向匹配法,再用最大組合概率法處理上述兩種方法的歧義切分點,得到最佳匹配。
本發(fā)明所說的統(tǒng)計相關(guān)性檢查的信源模型為馬爾可夫模型,其狀態(tài)可取為漢語的音節(jié)、字、詞、短語,階數(shù)可取為0、1、2。
本發(fā)明所說的差錯模式對應(yīng)的信道模型包括漢字的所有編碼輸入法及OCR和語音識別輸入法。
本發(fā)明提出一種中文自動校對系統(tǒng),包括輸入單元,CPU處理單元和輸出單元,其特征在于所說的處理單元內(nèi)運行按上述方法編制的中文校對軟件。
本發(fā)明的特征在于將語言學(xué)知識、信源模型和信道模型引入中文自動校對。
首先,該方法將各類語法、語義知識存儲在計算機內(nèi),將其用于漢語文本的語法相關(guān)性檢查,即通常所說的找“錯句”、“病句”。
其次,該方法用統(tǒng)計方法總結(jié)出漢語語法單位(如字、詞)之間的搭配關(guān)系。將其作為標(biāo)準(zhǔn)模板用于檢查漢語文本中的錯字和用詞不當(dāng)。從理論上講就是將漢語語法單位作為組成馬爾可夫信源模型的狀態(tài),利用狀態(tài)之間的轉(zhuǎn)移概率來判斷漢語語法單位之間的統(tǒng)計相關(guān)性。
最后,該方法總結(jié)出常見的易錯字、詞和出錯方式,用于進(jìn)一步確定真實錯誤。把不屬于上述范圍的不相關(guān)點作為虛報排除掉。
該方法通過程序編制體現(xiàn)為軟件形式,與計算機相結(jié)合即構(gòu)成中文自動校對系統(tǒng)。通過計算機進(jìn)行知識存儲、文本分析、判決運算、錯誤顯示及存儲從而實現(xiàn)計算機漢語文本自動校對。
附圖簡要說明
圖1本發(fā)明所述的中文自動校對方法的流程框圖。
圖2本發(fā)明所述的中文自動校對系統(tǒng)的構(gòu)成框圖。
本發(fā)明所述中文自動校對方法的一種實施例如圖1所示,包括以下步驟1語法單位的切分。
為了判斷漢語文本中可能存在的錯誤,首先要將文章按標(biāo)點切分為句,在句內(nèi)依據(jù)語法單位之間的語法相關(guān)性或統(tǒng)計相關(guān)性進(jìn)行錯誤偵測。如果基本語法單位為音節(jié)或字,則可直接按固定長度直接切分。如果基本語法單位是詞、短語或意群,則按常用的正向最大匹配法(FMM)和逆向最大匹配法(BMM)分詞,產(chǎn)生歧義切分時引入動態(tài)規(guī)劃或維特比算法來排除歧義切分,尋找最佳路徑(即最佳匹配)。
2相關(guān)性檢查①語法相關(guān)性檢查其目的在于找出漢語句子中不符合語法、語義規(guī)則的不相關(guān)點。例如“我/們/再/北京”,即可通過語法相關(guān)性檢查判斷出其語法結(jié)構(gòu)不完整。
語法相關(guān)性檢查所用的語法、語義庫是靠將漢語法、語義知識轉(zhuǎn)化為計算機程序或數(shù)據(jù)庫的方式獲取的。知識來源包括語法書、辭典及形式語言的基本理論。
例如漢語中有如下句法句子=主語+謂語+賓語 (規(guī)則一)語法庫中即有相應(yīng)規(guī)則,用形式語言表達(dá)如下Sentence→subj+pred+obj (規(guī)則二)如果語法書中規(guī)定只有名詞、代詞能夠做主語、賓語,只有動詞能夠做謂語,則可用數(shù)組表示如下subj{noun,pronoun} (規(guī)則三)pred{verb}obj{noun,pronoun}通過演繹,可得到如下規(guī)則Sentence→{noun|pronoun}+{verd}+{noun|pronoun} (規(guī)則四)如果語法系統(tǒng)借助詞典對每個詞都進(jìn)行了詞性標(biāo)注,則各單詞有如下屬性我們(pronoun),在(adv),北京(noun)“我們/再/北京”顯然不符合規(guī)則四,也不符合規(guī)則一。就與漢語基本語法規(guī)則相矛盾,由此可檢查出語法不相關(guān)點——“在”字。
②統(tǒng)計相關(guān)性檢查其目的在于查找那些符合實際語言習(xí)慣的錯誤。如“美國/總理/訪華”,該句符合Sentennce→subj+pred+obj結(jié)構(gòu),并無句法錯誤,但實際上此句“通而不順”。因為盡管“美國”、“總理”都是名詞,兩個名詞可構(gòu)成偏正詞組,但實際語言中并無“美國總理”這一搭配。
統(tǒng)計相關(guān)性檢查實質(zhì)上是檢查漢語語法單位之間的搭配關(guān)系。大量的漢語語法單位之間的搭配關(guān)系構(gòu)成了漢語的信源模型,被作為標(biāo)準(zhǔn)模板用于檢查被測文本是否與其相符合。
信源模型的建立是靠對大量實際文本進(jìn)行統(tǒng)計實現(xiàn)的,例如文本中有句子“美國/總統(tǒng)/會見/泰國/總理?!薄胺▏?總理/訪/華?!薄疤﹪?總理/訪/華?!睆倪@三句中可統(tǒng)計出如下搭配關(guān)系美國/總統(tǒng)總統(tǒng)/會見 會見/泰國泰國/總理法國/總理總理/訪訪/華泰國/總理總理/訪訪/華這些搭配構(gòu)成了以詞為狀態(tài)的一階漢語馬爾可夫信源模型??捎镁仃嚤硎救缦旅绹?總統(tǒng) 會見 泰國 總理 法國 訪 華美國 0100000 0總統(tǒng) 0010000 0會見 0001000 0泰國 0000200 0總理 0000002 0法國 0000100 0訪0000000 2華0000000 0
矩陣中的零元素即表示無搭配關(guān)系。非零元素不僅可用于表示存在搭配關(guān)系,還可以進(jìn)一步表示這種搭配關(guān)系的強弱,如P(訪,華)=2,即表示這種搭配用法經(jīng)常出現(xiàn),可能是強搭配關(guān)系。
對于實際文本,只需在信源模型中檢查其搭配關(guān)系是否存在即可判斷是否統(tǒng)計相關(guān)。
例如美國/總理/訪/華。
P(美國,總理)=0,P(總理/訪)=2,P(訪,華)=2,“美國總理”即為統(tǒng)計不相關(guān)點。3 錯誤的確認(rèn)由于語法、語義規(guī)則并不能完全覆蓋所有的語法現(xiàn)象,并且語料庫作為一個有限集合不能完全反映漢語自然語言的統(tǒng)計規(guī)律,相關(guān)性檢查得出的錯誤中必然含有一部分由于知識不足所造成的虛報。
本發(fā)明總結(jié)出常見的易錯字、詞和錄入中常見的出錯方式,構(gòu)成信道畸變模型,用于進(jìn)一步確定真實錯誤。把不屬于上述范圍的不相關(guān)點作為虛報排除掉?,F(xiàn)以O(shè)CR(光學(xué)字符掃描設(shè)備)為例設(shè)有句子“敵人的來日來到了”,經(jīng)分詞后得到序列“敵人/的/未/日/來到/了”。不相關(guān)的奇點為”的/未/日”,在OCR掃描輸入中,差錯模式為字形相近的字之間誤識,如“未”與“末”,此時將“末”替換“未”,“敵人的末日來到了”,經(jīng)分詞后得序列“敵人/的/末日/來到/了”。無不相關(guān)奇點,故確定“未”字為真實錯誤。其原型為“末”。
又如“氟胍酸膠囊”這類技術(shù)性新詞短語,已往的語料庫中很少涉及,也無法用常規(guī)語法解釋,在這種情況下,若在奇異點字、詞的差錯模式中找不出其原型,則認(rèn)為該奇異點為特例(新詞或詞的新用法),作為虛報處理。
對于拼音而言,其誤碼往往是同音字或近音字。對五筆字型,其差錯模式往往是拆字錯或少打識別碼。如對于OCR(光學(xué)字符識別系統(tǒng))或人眼看錯字,差錯模式往往是字型相似。如“未”各“末”,“已”和“已”等。
對于擊鍵錯誤,國外已總結(jié)出四類差錯模式,即“插入”(多一字符)、“刪除”(少一字符)、“交叉換位”、“錯字符”。
對于各種各樣的輸入方法會有各種不同的差錯模式,本發(fā)明所述方法的特點在于將這些差錯模式引入自動校對。
信道模型的引入能極大地降低虛報率,克服英文拼寫校對系統(tǒng)中由于詞匯量、縮寫、專有名詞等造成的虛報。這是本發(fā)明的技術(shù)特點之一本發(fā)明所述的中文自動校對系統(tǒng)的一種實施例如圖2所示。由輸入單元,處理單元和輸出單元三部分組成。其中,輸入單元可以是通用鍵盤,也可以是語音卡,OCR光筆板等。即可通過各種方式輸入中文文本,處理單元包括CPU處理器及其存儲器,本發(fā)明所述自動校對方法用C語言編制成中文自動校對程序存儲在處理單元的存儲器中,輸出單元包括顯示器及打印機,可將校對好的中文文本顯示并輸出。
權(quán)利要求
1一種計算機中文自動校對方法,其特征包括以下步驟1).將有關(guān)語言學(xué)知識編制成程序及各類數(shù)據(jù)庫預(yù)先存儲在計算機中,其中包括語法、語義數(shù)據(jù)庫;由漢語語法單位之間慣用搭配關(guān)系構(gòu)成的信源模型,通常的差錯模式構(gòu)成的信道模型;2).將輸入的中文文本按標(biāo)點切分成句,再按句切分為音節(jié)、字詞、短語或意群等語法單位;3).采用動態(tài)規(guī)劃或維特比算法,排除歧義切分,找出最佳匹配;4).將切分后的文本與語法、語義庫進(jìn)行比較找出病句,錯句的語法相關(guān)性檢查;5).將文本語法單位之間的搭配與所說的信源模型進(jìn)行比較,找出不相關(guān)點的統(tǒng)計相關(guān)性檢查;6).將所說4、5步驟得到的不相關(guān)點與差錯模式庫進(jìn)行比較,排除虛報錯誤;得到真實錯誤供修改。
2如權(quán)利要求所說的校對方法,其特征在于所說的語法切分采用正向最大匹配法和逆向匹配法,再用最大組合概率法處理上述兩種方法的歧義切分點,得到最佳匹配。
3如權(quán)利要求所述的校對方法,其特征在于所說的統(tǒng)計相關(guān)性檢查的信源模型為馬爾可夫模型,其狀態(tài)可取為漢語的音節(jié)、字、詞、短語,階數(shù)可取為0、1、2。
4如權(quán)利要求1所述的中文自動校對方法,所對應(yīng)的差錯模式的特征在于信道模型包括漢字的所有編碼輸入法及OCR和語音識別輸入法。
5一種中文自動校對系統(tǒng),包括輸入單元,CPU處理單元和輸出單元,其特征在于所說的處理單元內(nèi)存儲有按權(quán)利要求1所述方法編制的中文校對軟件。
全文摘要
本發(fā)明屬于計算語言學(xué)領(lǐng)域,本發(fā)明是將漢語語言學(xué)知識、信源模型和信道模型引入漢語文本的自動校對。其特征在于將漢語語法、語義規(guī)則和從大型語料庫中統(tǒng)計出漢語語法單位之間的搭配關(guān)系做為正確的模板與實際被測文本進(jìn)行比較,從而找出與漢語語法及習(xí)慣用法不合的奇異點。針對上述奇異點,引入各種漢字輸入的差錯模式,排除易虛報部分,最終確定出錯可能較大的那部分奇異點并找到錯字或錯詞(短語)。本發(fā)明可查找漢語文本的錄入錯誤及語法、語義錯誤。
文檔編號G06F17/27GK1116342SQ94107348
公開日1996年2月7日 申請日期1994年7月8日 優(yōu)先權(quán)日1994年7月8日
發(fā)明者唐武 申請人:唐武