專利名稱:基于領(lǐng)域本體的名片信息中譯英自動翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于本體的翻譯方法,尤其涉及一種基于領(lǐng)域本體的名片 信息中譯英自動翻譯方法。
背景技術(shù):
機(jī)器翻譯涉及到語言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知心理學(xué)等多種學(xué)科,是計(jì)算語 言學(xué)中非常重要的分支。但它在語言學(xué)和計(jì)算機(jī)實(shí)現(xiàn)方面都存在著一些尚待解 決的難題,比如自然語言的多義問題、譯文的詞序問題、介詞處理問題、上下 文的關(guān)聯(lián)問題、機(jī)器翻譯所需知識的獲取和表達(dá)及中譯外機(jī)器翻譯的漢語分詞 歧義等問題。這些問題依然限制著譯文的質(zhì)量,也不是用規(guī)則能夠完全解決的, 因而使機(jī)器翻譯的結(jié)果難以令人滿意。特別是漢語的機(jī)器翻譯,存在的問題相當(dāng)多。漢語和許多印歐語系語言不 同,漢語在詞形上屬于孤立語,釆用連續(xù)書寫形式,詞與詞之間無自然界限, 無詞尾形式標(biāo)志,無形態(tài)變化,這種"三無"現(xiàn)象使得人們在閱讀時(shí)要借助大 腦思維切分詞語,而用計(jì)算機(jī)理解和處理書面漢語時(shí),就必須先進(jìn)行自動切分 詞語的工作,而漢語語義及結(jié)構(gòu)上的復(fù)雜性與多變性和"三無"現(xiàn)象的存在, 給漢語自動分詞帶來了極大困難。我國中文信息處理發(fā)展己經(jīng)經(jīng)過了很多年, 但是關(guān)于"詞"如何進(jìn)行抽象定義和判定的問題到現(xiàn)在也沒有很好的解決。雖 然我國已制定了《信息處理用現(xiàn)代漢語分詞規(guī)范》,但仍然有一些情況很難判斷。自80年代初提出漢語自動分詞以來,已經(jīng)研究出了許多分詞方法。如最大 匹配MM方法、RMM方法、逐詞遍歷法、設(shè)立切分標(biāo)記法、OM方法、有窮多 層次列舉法、二次掃描法、基于詞頻統(tǒng)計(jì)的分詞方法、基于期望的分詞方法、 雙向掃描法、鄰接約束法、最少分詞詞頻選擇方法、神經(jīng)元網(wǎng)絡(luò)方法等。這些方法對常規(guī)句子的處理, 一般具有很高的精度,但在處理歧義切分方面,都存 在明顯的缺陷。歧義切分是漢語分詞中不可避免的現(xiàn)象,也是自然語言處理中 的一個(gè)難點(diǎn)。另外,中文的使用習(xí)慣會產(chǎn)生大量的信息省略,這是一種信息損 失。會導(dǎo)致誤解以及錯誤的傳播,而當(dāng)中文翻譯為英文的時(shí)候,由于二者之間 有很多語法上得差異,所以為了保證翻譯的正確率和完整性,必須要找回這些 信息損失,而要想找回這些損失的信息,必須具備大量的知識儲備,而計(jì)算機(jī) 并不具備,因而它們無法準(zhǔn)確的理解文本所要表達(dá)的信息,所以建立在這種錯 誤理解基礎(chǔ)上的翻譯必然會大打折扣。在翻譯系統(tǒng)中最重要的就是檢索匹配, 只要保持高的檢索匹配正確率,才能提高翻譯的準(zhǔn)確率,而通常的檢索方法釆 用的是詞形匹配,而不是語義匹配。這樣自然會降低檢索的準(zhǔn)確率。產(chǎn)生這些 問題的根源在于這種詞形查詢對于計(jì)算機(jī)而言沒有任何含義,或者說沒有語義, 因而檢索的結(jié)果不能完全滿足用戶檢索的意圖。另外,自然語言是一種不斷發(fā)展、不斷變化、約定俗成的交流工具,因而 具有很大的隨意性。將這些千變?nèi)f化的現(xiàn)象條理化,以有限的規(guī)則來應(yīng)付無邊 無際的自然語言,也很難實(shí)現(xiàn)信息的準(zhǔn)確翻譯。特別是,很多語句需要借助上、 下文的關(guān)聯(lián)信息才能進(jìn)行,這些都是造成機(jī)器翻譯不準(zhǔn)確的因素,因此,目前, 雖然機(jī)器翻譯技術(shù)可以部分幫助人們完成一些翻譯工作,但這些幫助都相當(dāng)有 限。發(fā)明內(nèi)容有鑒于此,本發(fā)明的主要目的在于提供一種基于領(lǐng)域本體的名片信息中譯 英自動翻譯方法,能提供準(zhǔn)確的名片信息翻譯,非常實(shí)用。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的一種基于領(lǐng)域本體的名片信息中譯英自動翻譯方法,以詞料庫、語料庫為 基礎(chǔ),為名片中所包括信息建立領(lǐng)域本體庫,所述領(lǐng)域本體庫中至少包括地址 領(lǐng)域類、戶名領(lǐng)域類、單位名稱類,其中,所述聯(lián)系地址類至少包括地址分 割符、前綴詞匯、地址小節(jié)和地址,為地址分割符、前綴詞匯、地址小節(jié)和地址設(shè)置屬性及屬性值,同時(shí)為所述地址分割符、前綴詞匯、地址小節(jié)和地址建立實(shí)例;所述戶名領(lǐng)域類至少包括地址標(biāo)識、地址自定義稱謂、戶名標(biāo)識和子戶名、戶名,為所述地址標(biāo)識、地址自定義稱謂、戶名標(biāo)識和子戶名設(shè)置屬 性及屬性值,同時(shí)為所述地址標(biāo)識、地址自定義稱謂、戶名標(biāo)識和子戶名建立實(shí)例;所述屬性及屬性值是依據(jù)所述詞料庫、語料庫訓(xùn)練而得到的語義而設(shè)置 的;單位名稱類是收集單位名稱,并建立之間的語義聯(lián)系;即領(lǐng)域本體庫是基 于語義關(guān)聯(lián)的關(guān)系數(shù)據(jù)庫;以英漢詞典、漢英詞典和漢英語法規(guī)則建立單詞、 詞句的語法翻譯實(shí)例,同時(shí)建立翻譯實(shí)例與領(lǐng)域本體庫中的各元素所建立實(shí)例 之間的對應(yīng)關(guān)系;該方法還包括以下步驟A、 向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵編、聯(lián) 系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入;B、 獲取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳 真的參數(shù)值,對于郵編、聯(lián)系電話、傳真的信息,進(jìn)行直譯,用戶輸入的數(shù)字 參數(shù)不譯;對于聯(lián)系人名稱,判斷是否為漢語,若是按名和姓進(jìn)行切分,查找 所述翻譯本體庫是否有匹配的名,若有則譯為相應(yīng)英文,否則譯為拼音,如果不是漢語則不譯;對于職位,則直接輸入到翻譯本體庫進(jìn)行匹配,若匹配則將 對應(yīng)的英文翻譯作為輸出,不匹配時(shí)則翻譯為漢語拼音;對于聯(lián)系地址,則以 用戶輸入的參數(shù)值為查詢條件,在領(lǐng)域本體庫的地址領(lǐng)域類、戶名領(lǐng)域類進(jìn)行 匹配,若存在匹配項(xiàng),則按領(lǐng)域本體庫中的切詞方式對聯(lián)系地址及單位名稱進(jìn) 行切詞,再查找這些切詞對應(yīng)的翻譯實(shí)例,再根據(jù)實(shí)例中訓(xùn)練的英文語法翻譯 規(guī)則進(jìn)行翻譯;若不存在匹配項(xiàng),則直接進(jìn)行切詞,將每個(gè)切詞輸入到領(lǐng)域本 體庫進(jìn)行匹配,若匹配則獲得每個(gè)切詞的翻譯結(jié)果,若不匹配則翻譯為漢語拼 音,根據(jù)實(shí)例中訓(xùn)練的英文語法翻譯規(guī)則進(jìn)行翻譯;對于單位名稱則輸入到單 位名稱類中進(jìn)行匹配,匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯,否則以漢語拼音作 為翻譯結(jié)果;C、 將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電 話、傳真的信息輸出,并接收用戶的修正,修正結(jié)果作為翻譯結(jié)果輸出;則將用戶修正的詞句結(jié)果保存到翻譯本體庫中的對應(yīng)實(shí)例中,并更新實(shí)例中該修正 詞句的翻譯結(jié)果。其中,步驟B還包括對待檢索信息進(jìn)行匹配時(shí),獲取所述待檢索信息的屬性值,即獲得其固有 的屬性,根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理,以自動辨認(rèn)出本體中 的對象具體屬于哪個(gè)類,可以在所確定的較明確的分類中完成準(zhǔn)確搜索。其中,所述建立本體庫,包括a、 本體建模,發(fā)現(xiàn)領(lǐng)域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理;b、 為本體模型中各元素添加實(shí)例,即進(jìn)行語義標(biāo)注;c、 將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系,進(jìn)行語義標(biāo)注;d、 通過智能推理優(yōu)化本體庫。 其中,步驟B還包括對于輸入到領(lǐng)域本體庫中不匹配的詞句,向用戶返回不匹配結(jié)果并提供用 戶的切詞輸入,在用戶輸入切詞輸入后將切詞結(jié)果在領(lǐng)域本體庫中進(jìn)行再次匹 配;所述不匹配包括切詞不匹配及翻譯實(shí)例中無匹配結(jié)果。其中,所述詞料庫、語料庫由自然語言數(shù)據(jù)庫訓(xùn)練而來,所述自然語言數(shù) 據(jù)庫至少包括字典、詞典、習(xí)慣用語、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁面信息。其中,步驟A還可以為直接調(diào)用數(shù)據(jù)庫中的用戶電子名片,提取聯(lián)系地址、郵編、聯(lián)系人名稱、 職位、單位名稱、聯(lián)系電話、傳真的信息。本發(fā)明通過采用信息量較少的名片作為自動翻譯對象,翻譯難度相對較低, 處理好名片信息中的地址、單位名稱等翻譯問題,即可實(shí)現(xiàn)名片信息的準(zhǔn)確翻 譯。本發(fā)明利用領(lǐng)域本體庫作為翻譯關(guān)系數(shù)據(jù)庫,本體庫中的收錄的詞句均包 含有語義信息,可實(shí)現(xiàn)查詢詞句的準(zhǔn)確匹配,由于本體庫中的實(shí)例信息等均是 可動態(tài)維護(hù)的,因此,所提供的英文翻譯準(zhǔn)確率相當(dāng)高。本發(fā)明有較高的實(shí)用 性。
圖l為本體庫的建立流程圖;圖2為本體庫的結(jié)構(gòu)示意圖;圖3為本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動翻譯方法的流程圖; 圖4為本發(fā)明地址的語法分析結(jié)構(gòu)示意圖; 圖5為本發(fā)明戶名的語法分析結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下對本發(fā)明作進(jìn)一步詳細(xì)描述。本體論起源于古代西方哲學(xué),自上個(gè)世紀(jì)八十年代起,本體論的思想被引 入人工智能領(lǐng)域,人們開始逐步對現(xiàn)實(shí)世界進(jìn)行建模,從某個(gè)領(lǐng)域中抽象出概 念以及概念間關(guān)系的集合,即形成該領(lǐng)域的本體。本體有助于改變不同團(tuán)體或 系統(tǒng)對領(lǐng)域內(nèi)同 一概念釆用不同術(shù)語描述的狀況,因而被廣泛應(yīng)用在數(shù)字圖書 館,信息集成等諸多領(lǐng)域。在不同的應(yīng)用中,本體的定義是不同的,本發(fā)明中, 本體是基于知識共享的背景,是概念化的明確規(guī)約。本體通過對概念的嚴(yán)格定 義和概念之間的關(guān)系來確定概念的精確含義,以表示共同認(rèn)可的、可共享的知 識。因此把現(xiàn)實(shí)世界中某個(gè)應(yīng)用領(lǐng)域抽象或概括成一組概念及概念之間的關(guān)系, 構(gòu)造出這個(gè)領(lǐng)域的本體,會使計(jì)算機(jī)對該領(lǐng)域的信息處理大為方便。從而也解 決了詞句歧義的問題。本體為特定領(lǐng)域的人和應(yīng)用系統(tǒng)的交流提供了 一種通用 的知識共享模式,使用本體技術(shù)可以更好的表達(dá)出事物之間特有的屬性,而事 物本身在本體中的就是以類的表現(xiàn)形式,而通過嚴(yán)格屬性的定義和提取,在系 統(tǒng)特定的領(lǐng)域之內(nèi),便提供了一個(gè)通用的,認(rèn)可的標(biāo)準(zhǔn),從而使系統(tǒng)在檢索查 詢對應(yīng)的詞匯時(shí),提高了準(zhǔn)確率和效率。作為領(lǐng)域本體,它是用于描述指定領(lǐng)域的一種專門本體。它給出了領(lǐng)域?qū)?體概念及相互關(guān)系,領(lǐng)域活動以及該領(lǐng)域所具有的特征和規(guī)律的一種形式化描 述。從開發(fā)者的角度看,領(lǐng)域本體定義了開發(fā)者之間需要共享的領(lǐng)域信息的公 共詞匯;從系統(tǒng)的角度看,領(lǐng)域本體定義了能被機(jī)器理解的領(lǐng)域概念及其關(guān)系。如果把每一個(gè)知識領(lǐng)域抽象成一套概念體系,在具體化為一個(gè)詞表來表示,包 括每 一個(gè)詞的明確含義、詞與詞之間的關(guān)系以及該領(lǐng)域的 一 些公理知識的陳述 等,并且能夠與這個(gè)知識領(lǐng)域的專家達(dá)成某種共識,即能共享這套詞表,所有這 些就構(gòu)成了該領(lǐng)域的 一 個(gè)本體。圖l為本體庫的建立流程圖,如圖l所示,本體庫的建立包括以下步驟 步驟101:本體建模。建模主要集中在領(lǐng)域知識的抽象表示上,即發(fā)現(xiàn)領(lǐng) 域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理等。對于領(lǐng)域中的實(shí)例,在 建模時(shí)一般不需要考慮它們,除非建模時(shí)就能確定該本體所涉及的所有實(shí)例。 實(shí)際上,通常的本體都具有一定的通用性,表示特定領(lǐng)域內(nèi)的知識,但由于領(lǐng) 域內(nèi)可能的實(shí)例數(shù)目無窮無盡且動態(tài)變化,因此,只有本體和一個(gè)具體的應(yīng)用 結(jié)合時(shí)考慮實(shí)例才有意義。即建立初步的以類、類屬性以及屬性值,建立一個(gè) 初步的本體模型。步驟102:為本體模型中各元素添加實(shí)例,即進(jìn)行語義標(biāo)注,該步驟可視 為豐富本體的過程。如果從語義Web的角度看,語義標(biāo)注便是語義信息的發(fā)布 過程用戶依據(jù)一定的本體,為頁面添加語義信息。然而,語義Web中的標(biāo)注 問題由于受到多方面因素的影響,變得很復(fù)雜。語義Web上的語義信息能像頁 面本身的創(chuàng)建一樣,由用戶或權(quán)威機(jī)構(gòu)共同完成。對于涉及專業(yè)領(lǐng)域的本體可 由領(lǐng)域中的權(quán)威機(jī)構(gòu)統(tǒng)一制定。步驟103:將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系,這正是語 義標(biāo)注(SemanticA皿otation)所要做的工作。和數(shù)據(jù)庫類比,語義標(biāo)注就如同 為建立好的數(shù)據(jù)庫表添加具體的紀(jì)錄。從語義Web的角度來看,在傳統(tǒng)Web 上添加語義信息,將Web的狀態(tài)從機(jī)器可讀提高到機(jī)器可理解,這是整個(gè)語義 Web實(shí)現(xiàn)的基礎(chǔ)。步驟104:通過智能推理優(yōu)化本體庫。語義標(biāo)注推動了語義Web走向?qū)嶋H 應(yīng)用,智能Agent能夠根據(jù)Web上的語義信息實(shí)現(xiàn)智能推理任務(wù),并能提高信 息檢索的精確性。語義推理時(shí),要考慮命題的真假意義。這與人們通常推理的 習(xí)慣是一致的,因?yàn)樵谕评頃r(shí),人們自然或不自然地要考慮到所討論命題的真與假。比如,數(shù)學(xué)推理都是在假設(shè)前提為真的情況下,證明結(jié)論也為真。在證 明過程中,總是認(rèn)為命題非真即假,也就是說推理是涉及命題語義的。命題的 真與假蘊(yùn)含著人們的思維。而計(jì)算機(jī)不具有思維能力。所以,涉及命題真值的 語義推理本身不適于作為計(jì)算機(jī)推理的算法。如果推理時(shí)不考慮命題的語義,僅注重符號化后命題(或公式)的形式,只要滿足某種形式,就可以得到某一 結(jié)論。由于計(jì)算機(jī)不具有判別命題真假的思維能力,而識別公式的形式卻是其 容易完成的工作。所以,語法推理作為計(jì)算機(jī)推理的理論基礎(chǔ)是非常自然的。 在所建立的推理規(guī)則系統(tǒng)之上,通過識別、判定公式的形式而展開的語法推理 是最適合計(jì)算機(jī)推理的方法。在研究推理方面,還沒有其他方法比語法推理的 思想更能被計(jì)算機(jī)所接受。因此,語法推理是智能推理研究的一種有效方法。 本發(fā)明的本體庫優(yōu)化方式即采用語法推理的方式來實(shí)現(xiàn),實(shí)現(xiàn)的手段有很多種, 這里不再一一舉例說明。需要指出的是,步驟104是一種本體庫維護(hù)手段,在所建立本體庫的基礎(chǔ)上實(shí)現(xiàn)的一種優(yōu)化,這種優(yōu)化是非常謹(jǐn)慎的一種維護(hù)。以下以地點(diǎn)這一主體,說明基于圖1所示流程建立本體庫是如何實(shí)現(xiàn)的。 當(dāng)然,這里的示例僅為說明性的,不是對本發(fā)明本體庫建立的限制。圖2為本體庫的結(jié)構(gòu)示意圖,如圖2所示,本體庫是一種基于關(guān)聯(lián)關(guān)系建 立起來的一種關(guān)系數(shù)據(jù)庫,這種關(guān)聯(lián)關(guān)系是基于語義的任何關(guān)聯(lián)關(guān)系,例如, 對于一個(gè)地點(diǎn),與其關(guān)聯(lián)的信息可能包括該地點(diǎn)所屬的地理區(qū)域,其電話是什 么,郵編是什么,該地點(diǎn)屬于囯家單位、企業(yè)還是學(xué)校等,該地點(diǎn)周邊設(shè)施是 什么、有哪些等,該地點(diǎn)的標(biāo)識是什么?確切的地址是什么?與所述地點(diǎn)相關(guān) 的信息還會有其他的關(guān)聯(lián)關(guān)系,例如說對于上述地點(diǎn)的郵編,共用這些郵編的 地址還有哪些,各是什么等,與上述地點(diǎn)電話號碼相關(guān)的任何其他信息,也與 上述的電話號碼有關(guān)聯(lián)關(guān)系。圖2所示的本體的描述僅是說明性的一般描述, 并不意味著對本體的限定。所以使用本體技術(shù)后,當(dāng)計(jì)算機(jī)進(jìn)行信息查詢的時(shí),會通過其附帶的大量 的語義信息,增加了匹配成功的機(jī)會,也就由此提高了準(zhǔn)確率。本發(fā)明的名片信息翻譯方法,正是基于領(lǐng)域本體庫進(jìn)行的,特別是名片中 地址及戶名信息的翻譯,以下詳細(xì)介紹之。圖3為本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動翻譯方法的流程圖,如 圖3所示,本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動翻譯方法包括以下步驟:步驟201:為名片中所包括信息建立領(lǐng)域本體庫及翻譯本體庫。如前述的 那樣,領(lǐng)域本體庫是一種關(guān)系數(shù)據(jù)庫,其中,所述領(lǐng)域本體庫中至少包括地址 領(lǐng)域類、戶名領(lǐng)域類、單位名稱類。以下詳細(xì)介紹本發(fā)明的領(lǐng)域本體模型的構(gòu) 成。由領(lǐng)域中的術(shù)語組成的詞典是一個(gè)領(lǐng)域上的分類空間,其目的為了概念的 導(dǎo)航、搜索、信息獲取。而分類空間的語義很弱,刻畫了概念化的術(shù)語的簡單 的語義關(guān)系,沒有捕獲和表現(xiàn)復(fù)雜的語義概念,本發(fā)明試圖表達(dá)精確的、復(fù)雜 的、 一致的、豐富的概念語義。構(gòu)建領(lǐng)域本體,要使用本體建模元語,把領(lǐng)域 詞典映射到本體概念體系中。本體中,類是一種經(jīng)過組織的結(jié)構(gòu)化的知識表示 方法,每個(gè)類形成一個(gè)獨(dú)立的知識單元,類表示對知識的描述很直觀,能反映對地址和戶名進(jìn)行語法分析,需要了解二者的組成和結(jié)構(gòu)。確定構(gòu)成地址 及戶名各個(gè)組成部分在地址戶名中的關(guān)系,以及各自在地址及戶名中的作用。 并將這種關(guān)系和作用利用適合在本體模型中的層次結(jié)構(gòu)加以表示。這里,地址 和戶名的信息來自于字典、詞典、習(xí)慣用語、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁面信 息,信息來源愈廣,本體庫中提取的語義愈豐富,因此, 一切具有語義訓(xùn)練的 素材均作為本體庫的元素。圖4為本發(fā)明地址的語法分析結(jié)構(gòu)示意圖,如圖4所示,地址是由一個(gè)或 者一個(gè)以上的獨(dú)立的地址小節(jié)即子地址(sa, sub address )組成。地址小節(jié)由一 個(gè)地址前綴(av, address vocabulary )詞匯和 一 個(gè)地址分割符(as, address segmentation)組成。本發(fā)明中,地址、地址小節(jié)、地址前綴和地址分割符的組 成關(guān)系可概括為地址前綴>地址分割符>地址小節(jié)>地址。為了直觀的描述問 題,在此給出典型的分析例句。針對地址"山東省日照巿海曲路88號"的語法分析為"[山東/av省/as]/sa[日照/av市/as]/sa[海曲/av路/as]/sa[88/av號/as]/sa"。 本發(fā)明中,地址、地址小節(jié)、地址前綴和地址分割符即是地址領(lǐng)域的類。圖5為本發(fā)明戶名的語法分析結(jié)構(gòu)示意圖,如圖5所示,戶名是由一個(gè)主 戶名(name)加上O個(gè)或者多個(gè)子戶名(sub name)組成。子戶名由三部分組 成地址標(biāo)識(al, address label )、戶名自定義稱謂(si , self label)和戶名標(biāo) 識(name label )。所以戶名的組成關(guān)系可概括為地址標(biāo)示>地址自定義稱謂> 戶名標(biāo)識>子戶名>戶名。為了直觀的描述問題,在此給出戶名典型的分析例句。 針對戶名"北京郵電大學(xué)"的語法分析為"北京al郵電sl大學(xué)nl"。地址標(biāo)識、 戶名自定義稱謂和戶名標(biāo)識是戶名領(lǐng)域的類。其中, 一個(gè)完整的地址是由一個(gè)或一個(gè)以上的地址字節(jié)組成,而每個(gè)地址 字節(jié)又是有一個(gè)或者一個(gè)以上的地址分隔符和地址前綴組成。 一個(gè)地址分隔符 必須具備一個(gè)地址前綴,所以二者之間具有約東的關(guān)系。即為must—have關(guān)系。為地址前綴、地址分割符、地址小節(jié)、地址標(biāo)示、地址自定義稱謂、戶名 標(biāo)識以及子戶名設(shè)置屬性,并設(shè)置屬性值。這些屬性值是通過現(xiàn)有語料庫進(jìn)行 訓(xùn)練所得的語義關(guān)聯(lián)關(guān)系。關(guān)于屬性值,需要利用對本體的自動推理來獲得, 主要就是依靠為每一個(gè)類建立的固有的屬性,成為與其他類區(qū)分的特性,通過 推理機(jī),利用特有的屬性可以自動的辨認(rèn)出本體中的對象具體屬于哪個(gè)類,從 而自動起到分析推理的作用。本發(fā)明的領(lǐng)域本體庫中存儲了上述的具有語義關(guān) 聯(lián)的地址項(xiàng),所述地址項(xiàng)由領(lǐng)域本體庫的開發(fā)人員輸入,并建立它們之間的語 義關(guān)聯(lián)關(guān)系,這些地址項(xiàng)足夠多,對于符合前述語義分析的,按前述方式存儲 即可,而對于特殊的地址項(xiàng),作為新的地址項(xiàng),存儲到領(lǐng)域本體庫中,同時(shí)建 立該存儲地址項(xiàng)的語義關(guān)聯(lián)項(xiàng)。對于地址前綴、地址分割符、地址小節(jié)、地址 標(biāo)示、地址自定義稱謂、戶名標(biāo)識以及子戶名,本發(fā)明還為其設(shè)置相應(yīng)的實(shí)例, 即記載其語義相關(guān)的信息,例如,對于"北京郵電大學(xué)"這一戶名,還有"北 京海淀西土城路10號"電話號碼"010- 62283100"等多項(xiàng)信息與其語義關(guān)聯(lián)。 這些地址項(xiàng)下的實(shí)例有助于實(shí)現(xiàn)語義的檢索,以及驗(yàn)證領(lǐng)域本體中所收錄信息 的準(zhǔn)確性。對于單位名稱類同樣以所收集到的所有單位名稱作為其元素,同時(shí)建立單 位名稱的語義關(guān)聯(lián)關(guān)系,即為每個(gè)單位名稱建立實(shí)例,例如單位簡介、單位的地址、聯(lián)系方式等信息。領(lǐng)域本體庫中不僅包括完整的地址、戶名及單位名稱等,還包括核心詞句項(xiàng),如北京、主要省巿、各大學(xué)名稱、各囯家機(jī)關(guān)名稱等,也就是說,建立的 領(lǐng)域本體庫所搜集的信息量愈大,其功用就愈強(qiáng),本發(fā)明所獲得的翻譯結(jié)果也更準(zhǔn)確。本發(fā)明的本體庫可通過prot6g6 2000來建立。prot6g6 2000是斯坦福 大學(xué)的Stanford Medical Informatics開發(fā)的一個(gè)開放源碼的本體編輯器,其由 Java編寫。本發(fā)明在prot6g6 2000的基礎(chǔ)上,結(jié)合前述的本體建立方法,建 立本發(fā)明的領(lǐng)域本體庫。建立領(lǐng)域本體庫后,還需要建立翻譯本體庫,以實(shí)現(xiàn)對領(lǐng)域本體庫的支持。 翻譯本體庫以英漢互譯詞典、各種英漢互譯的語法規(guī)則為輸入語料庫,建立漢語翻譯的翻譯本體庫,以實(shí)現(xiàn)對前述領(lǐng)域本體庫的支持,也即在前述領(lǐng)域本體 庫中增加了各類元素的英文語義項(xiàng),建立了英漢互相關(guān)聯(lián)的關(guān)系。本發(fā)明的翻 譯本體庫包括基礎(chǔ)詞匯庫和臨時(shí)詞匯庫,基礎(chǔ)詞匯庫用于翻譯時(shí)查詢,臨時(shí)詞 匯庫用于只有查詢權(quán)限使用人員添加詞匯,經(jīng)管理員確認(rèn)才能導(dǎo)入基礎(chǔ)詞匯庫, 以實(shí)現(xiàn)對翻譯本體庫的動態(tài)維護(hù)。步驟202:向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵 編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入。為了提高本 發(fā)明翻譯結(jié)果的準(zhǔn)確程度,需向用戶提供帶有一定輸入要求的界面,即向用戶 說明哪里是地址輸入接口,哪里是郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系 電話、傳真的輸入接口。用戶名片信息的輸入也可以直接輸入電子名片信息, 直接調(diào)用數(shù)據(jù)庫中的用戶電子名片,然后直接提取聯(lián)系地址、郵編、聯(lián)系人名 稱、職位、單位名稱、聯(lián)系電話、傳真的信息;步驟203:獲取用戶輸入的參數(shù)值,進(jìn)行切分和語法分析,進(jìn)行匹配翻譯。 對于郵編、聯(lián)系電話、傳真的信息,進(jìn)行直譯,用戶輸入的數(shù)字參數(shù)不譯。對于用戶輸入的阿拉伯?dāng)?shù)字,無需翻譯,僅將郵編、聯(lián)系電話、傳真等詞匯進(jìn)行 翻譯即可,因此,上述詞匯的翻譯準(zhǔn)確率是完全可以保證的,也不是名片信息 翻譯的重點(diǎn)。對于聯(lián)系人名稱,判斷是否為漢語輸入,若是漢語輸入,則對輸 入的姓名按姓和名進(jìn)行切詞,并將用戶的名輸入到翻譯本體庫中進(jìn)行匹配,若 有匹配項(xiàng),則按匹配項(xiàng)翻譯為英文,若沒有匹配項(xiàng),則譯為拼音,若不是漢語 輸入則不譯。對于聯(lián)系人的姓名,由于漢語名片針對的基本全是漢語名稱,可 直接將其譯為拼音,對于一些外文直譯的名稱如約翰、湯姆、瑪麗等名稱,翻 譯為相應(yīng)的英文。對于非漢語輸入的信息,直接輸出。對于職位,則直接輸入 到翻譯本體庫進(jìn)行匹配,若匹配則將對應(yīng)的英文翻譯作為輸出,不匹配時(shí)則翻 譯為漢語拼音。對于職位,仍然只是詞匯的翻譯,因此準(zhǔn)確率也比較高,并且 也沒有技術(shù)難度,匹配出直譯即可,本發(fā)明借助翻譯本體庫,可以實(shí)現(xiàn)語義的 檢索匹配,翻譯結(jié)果出錯率大大降低,準(zhǔn)確率相當(dāng)高。對于單位名稱則輸入到 單位名稱類中進(jìn)行匹配,匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯,否則以漢語拼音 作為翻譯結(jié)果。單位名稱也具有特殊性, 一般包括公司、機(jī)關(guān)、大學(xué)等,通過 對其建立本體庫,基本可實(shí)現(xiàn)準(zhǔn)確匹配,只要對單位名稱本體庫維護(hù)及時(shí),翻 譯準(zhǔn)確率也是可以保證的。沒有匹配項(xiàng)或其中的詞匯沒有匹配項(xiàng)的,以漢語拼 音作為其翻譯結(jié)果。對于名片信息翻譯而言,聯(lián)系地址無疑是其中語義最多, 需要切詞并進(jìn)行語法分析的,因此是整個(gè)名片信息翻譯的重點(diǎn)。對于聯(lián)系地址, 則以用戶輸入的參數(shù)值為查詢條件,在領(lǐng)域本體庫的地址領(lǐng)域類、戶名領(lǐng)域類 進(jìn)行匹配,若存在匹配項(xiàng),則按領(lǐng)域本體庫中的切詞方式對聯(lián)系地址及單位名 稱進(jìn)行切詞,再查找這些切詞對應(yīng)的翻譯實(shí)例,再根據(jù)實(shí)例中訓(xùn)練的英文語法翻譯規(guī)則進(jìn)行翻譯;若不存在匹配項(xiàng),則直接進(jìn)行切詞,將每個(gè)切詞輸入到領(lǐng) 域本體庫進(jìn)行匹配,若匹配則獲得每個(gè)切詞的翻譯結(jié)果,若不匹配則翻譯為漢 語拼音,根據(jù)實(shí)例中訓(xùn)練的英文語法翻譯規(guī)則進(jìn)行翻譯。本發(fā)明中,對待檢索信息進(jìn)行匹配時(shí),獲取所述待檢索信息的屬性值,即 獲得其固有的屬性,根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理,以自動辨 認(rèn)出本體中的對象具體屬于哪個(gè)類,可以在所確定的較明確的分類中完成準(zhǔn)確搜索。本發(fā)明匹配過程可采用Racer Pro推理機(jī)實(shí)現(xiàn)。以下通過一個(gè)示例說明本 發(fā)明的原理,定義A—個(gè)個(gè)體a, A有屬性(比如說eat) allvaluefromB,則可 以推理出類B的實(shí)例b, a (eat) b。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的推 理過程是為了更好地實(shí)現(xiàn)本發(fā)明的匹配過程,以確定待匹配信息的準(zhǔn)確分類, 以迅速準(zhǔn)確地實(shí)現(xiàn)對其的匹配。地址信息中, 一般都包括有地址標(biāo)志性詞匯、帶有這些標(biāo)志性詞匯的常用 詞匯。地址標(biāo)志性詞匯如省、巿、路、區(qū)、縣等。包含這些標(biāo)志性詞匯的常用 詞匯如省政府、巿政府等。還有一些直接以信箱作為聯(lián)系地址的,如北京巿128 信箱等。切詞即是按語法規(guī)則實(shí)現(xiàn)準(zhǔn)確斷句,把一個(gè)大名稱分成不可再分的子 名稱,如中國銀行北京分行皂君廟支行,其中,用公司即可分割這個(gè)大名稱為 中國銀行、北京分行、皂君廟支行。名詞的切割,離不開領(lǐng)域本體庫,例如前 述的中國銀行,之所以沒有將其切分為中國+銀行,是因?yàn)轭I(lǐng)域本體庫中的地 址項(xiàng)中,根據(jù)語義關(guān)聯(lián)的特征,可明確地識別出"中國銀行"的字眼。對于切 割后的地址名稱,進(jìn)行逐個(gè)匹配,匹配成功則查找出其對應(yīng)的英語實(shí)例,得到 該切割詞的英文翻譯結(jié)果,對于未匹配的切割詞,可返回用戶處確認(rèn)切割詞的 結(jié)果,在錯誤時(shí)由用戶進(jìn)行修正,以修正后的結(jié)果重新進(jìn)行匹配。最后將所接 受的修正結(jié)果更新到領(lǐng)域本體庫。對于小名稱, 一般格式為地址標(biāo)識+公司名稱+公司性質(zhì)。如北京郵電大 學(xué),即可用地址名前向匹配北京,用公司性質(zhì)匹配大學(xué),留下名稱,若在字庫 中找到,則翻譯為英文,否則用拼音代替,若該名稱長度大于4,則認(rèn)為翻譯 正確度不為100%。維護(hù)的關(guān)鍵點(diǎn)在于公司性質(zhì)的添加。為保證翻譯的準(zhǔn)確度,在進(jìn)行地址切詞后,可返回切詞結(jié)果,由用戶確認(rèn), 在用戶確認(rèn)或修正后再進(jìn)行匹配檢索。當(dāng)所有的切割分詞翻譯結(jié)果返回后,根據(jù)切詞獲知待翻譯地址的語法結(jié)構(gòu), 根據(jù)設(shè)定的語法翻譯規(guī)則翻譯所述地址。本發(fā)明僅建立地址的語法規(guī)則本體庫 即可。以下以"北京巿西土城路十號"為例說明本發(fā)明的翻譯過程。采用從前到后最大匹配的方法進(jìn)行匹配。如"北京巿西土城路十號",如果沒有匹配到詞典 中的詞匯,則進(jìn)行分詞處理。將兩個(gè)字放一塊作為一個(gè)詞,然后"巿"進(jìn)行匹 配,但是"巿西"沒有匹配到則將"市"作為一個(gè)詞匯,同理上述地址可分詞 為"北京市西土城路十號"。根據(jù)領(lǐng)域本體庫的語義關(guān)聯(lián)關(guān)系,對這 些切詞結(jié)果進(jìn)行處理,查找到"巿"為地址分割符后,則將"北京巿"作為切 割詞,對于"路",也是地址分割符,則將"西土城路"作為切割詞,同理,"十 號"也會作為切割詞,當(dāng)然,如果多字含義的整體詞出現(xiàn)時(shí)如"北京郵電大學(xué)", 不會切割為"北京郵電大學(xué)",根據(jù)領(lǐng)域本體庫的特點(diǎn),將很容易識別為一個(gè) 整體詞并直接將其對應(yīng)的英文作為譯文輸出,對于地址項(xiàng)中的數(shù)字,則會連續(xù) 去查找數(shù)字,直到把連續(xù)的幾個(gè)數(shù)字找出來,作為一個(gè)詞匯。如"北京巿西土 城路十號二十九樓",當(dāng)看到"二"時(shí),會連接把"十九"找出來,將"二十九" 作為一個(gè)詞。根據(jù)上文定義的類和屬性,以及類之間的關(guān)系,對已經(jīng)分好的詞匯進(jìn)行分 析,對于違反語法規(guī)則的進(jìn)行調(diào)整使其符合語法規(guī)則。對于每個(gè)分詞用以下結(jié)構(gòu)來標(biāo)注 Type DivWordword As String 〃分出的詞匯wType As Byte 〃詞匯類別property as Byte 〃屬性 End Type其中根據(jù)上文定義的本體類的屬性,wType由以下值 Public Const ADDR_DIV—WORD As Byte = 1 〃地址分割符 Public Const ADDR—WORD As Byte = 2 〃地址前綴 針對上邊兩種詞匯類別又有不同的屬性對應(yīng)之。對于地址分割符,有地址 前綴后置(property二 1),比如"五號"翻譯為"No.5"即把5放到地址分割符"No." 的后面。對于地址前綴,有英文詞匯對照的中文地址詞匯則property=l;未找 到需翻譯為拼音的詞匯則property=2;如果發(fā)現(xiàn)是數(shù)字則property=5。然后采用按照規(guī)則進(jìn)行調(diào)整,如果發(fā)現(xiàn)兩個(gè)地址分割符是相鄰的則說明是 不符合語法規(guī)則的需要進(jìn)行調(diào)整。則查看后面的那個(gè)地址分割符的信息,對于 pr0perty=2的地址分割符,則直接忽略上一個(gè)地址,否則把上一個(gè)地址分割符 修改為拼音詞匯即令wtype = ADDR—WORD。例如"二十九號樓",對于這個(gè)來 說分成"二十九號樓",發(fā)現(xiàn)"號""樓"都是地址分割符,則需要看樓的 屬性,如果為2,則忽略"號"按照"二十九樓"翻譯,否則把"號"作為拼 音來翻譯。步驟204:輸出翻譯結(jié)果并接收用戶的修訂,將修訂結(jié)果存儲到指定數(shù)據(jù) 庫中。將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、 傳真的信息輸出,并接收用戶的修正,修正結(jié)果作為翻譯結(jié)果輸出;則將用戶 修正的詞句結(jié)果保存數(shù)據(jù)庫中。即將步驟203中的翻譯結(jié)果輸出給用戶,用戶 根據(jù)輸出結(jié)果進(jìn)行相應(yīng)修訂,對用戶所作的修訂進(jìn)行存儲,以作為新的語料, 有待用戶根據(jù)這些新語料對本體庫作進(jìn)一步的維護(hù)。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種基于領(lǐng)域本體的名片信息中譯英自動翻譯方法,其特征在于,以詞料庫、語料庫為基礎(chǔ),為名片中所包括信息建立領(lǐng)域本體庫,所述領(lǐng)域本體庫中至少包括地址領(lǐng)域類、戶名領(lǐng)域類、單位名稱類,其中,所述聯(lián)系地址類至少包括地址分割符、前綴詞匯、地址小節(jié)和地址,為地址分割符、前綴詞匯、地址小節(jié)和地址設(shè)置屬性及屬性值,同時(shí)為所述地址分割符、前綴詞匯、地址小節(jié)和地址建立實(shí)例;所述戶名領(lǐng)域類至少包括地址標(biāo)識、地址自定義稱謂、戶名標(biāo)識和子戶名、戶名,為所述地址標(biāo)識、地址自定義稱謂、戶名標(biāo)識和子戶名設(shè)置屬性及屬性值,同時(shí)為所述地址標(biāo)識、地址自定義稱謂、戶名標(biāo)識和子戶名建立實(shí)例;所述屬性及屬性值是依據(jù)所述詞料庫、語料庫訓(xùn)練而得到的語義而設(shè)置的;單位名稱類是收集單位名稱,并建立之間的語義聯(lián)系;即領(lǐng)域本體庫是基于語義關(guān)聯(lián)的關(guān)系數(shù)據(jù)庫;以英漢詞典、漢英詞典和漢英語法規(guī)則建立單詞、詞句的語法翻譯實(shí)例,同時(shí)建立翻譯實(shí)例與領(lǐng)域本體庫中的各元素所建立實(shí)例之間的對應(yīng)關(guān)系;該方法還包括以下步驟A、向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入;B、獲取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的參數(shù)值,對于郵編、聯(lián)系電話、傳真的信息,進(jìn)行直譯,用戶輸入的數(shù)字參數(shù)不譯;對于聯(lián)系人名稱,判斷是否為漢語,若是按名和姓進(jìn)行切分,查找所述翻譯本體庫是否有匹配的名,若有則譯為相應(yīng)英文,否則譯為拼音,如果不是漢語則不譯;對于職位,則直接輸入到翻譯本體庫進(jìn)行匹配,若匹配則將對應(yīng)的英文翻譯作為輸出,不匹配時(shí)則翻譯為漢語拼音;對于聯(lián)系地址,則以用戶輸入的參數(shù)值為查詢條件,在領(lǐng)域本體庫的地址領(lǐng)域類、戶名領(lǐng)域類進(jìn)行匹配,若存在匹配項(xiàng),則按領(lǐng)域本體庫中的切詞方式對聯(lián)系地址及單位名稱進(jìn)行切詞,再查找這些切詞對應(yīng)的翻譯實(shí)例,再根據(jù)實(shí)例中訓(xùn)練的英文語法翻譯規(guī)則進(jìn)行翻譯;若不存在匹配項(xiàng),則直接進(jìn)行切詞,將每個(gè)切詞輸入到領(lǐng)域本體庫進(jìn)行匹配,若匹配則獲得每個(gè)切詞的翻譯結(jié)果,若不匹配則翻譯為漢語拼音,根據(jù)實(shí)例中訓(xùn)練的英文語法翻譯規(guī)則進(jìn)行翻譯;對于單位名稱則輸入到單位名稱類中進(jìn)行匹配,匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯,否則以漢語拼音作為翻譯結(jié)果;C、將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸出,并接收用戶的修正,修正結(jié)果作為翻譯結(jié)果輸出;則將用戶修正的詞句結(jié)果保存到翻譯本體庫中的對應(yīng)實(shí)例中,并更新實(shí)例中該修正詞句的翻譯結(jié)果。
2、 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動翻譯方法, 其特征在于,步驟B還包括對待檢索信息進(jìn)行匹配時(shí),獲取所述待檢索信息的屬性值,即獲得其固有 的屬性,根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理,以自動辨認(rèn)出本體中 的對象具體屬于哪個(gè)類,可以在所確定的較明確的分類中完成準(zhǔn)確搜索。
3、 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動翻譯方法, 其特征在于,所述建立本體庫,包括a、 本體建模,發(fā)現(xiàn)領(lǐng)域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理;b、 為本體模型中各元素添加實(shí)例,即進(jìn)行語義標(biāo)注;c、 將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系,進(jìn)行語義標(biāo)注;d、 通過智能推理優(yōu)化本體庫。
4、 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動翻譯方法, 其特征在于,步驟B還包括對于輸入到領(lǐng)域本體庫中不匹配的詞句,向用戶返回不匹配結(jié)果并提供用 戶的切詞輸入,在用戶輸入切詞輸入后將切詞結(jié)果在領(lǐng)域本體庫中進(jìn)行再次匹 配;所述不匹配包括切詞不匹配及翻譯實(shí)例中無匹配結(jié)果。
5、 根據(jù)權(quán)利要求1所述的基于領(lǐng)域本體的名片信息中譯英自動翻譯方法, 其特征在于,所述詞料庫、語料庫由自然語言數(shù)據(jù)庫訓(xùn)練而來,所述自然語言 數(shù)據(jù)庫至少包括字典、詞典、習(xí)慣用語、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁面信息。6、根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動翻譯方法, 其特征在于,步驟A還可以為直接調(diào)用數(shù)據(jù)庫中的用戶電子名片,提取聯(lián)系地址、郵編、聯(lián)系人名稱、 職位、單位名稱、聯(lián)系電話、傳真的信息。
全文摘要
本發(fā)明公開了一種基于領(lǐng)域本體的名片信息中譯英自動翻譯方法,包括為名片中所包括信息建立領(lǐng)域本體庫及翻譯本體庫;向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入,或直接調(diào)用數(shù)據(jù)庫中的用戶電子名片,提取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息;獲取用戶輸入的參數(shù)值,進(jìn)行切分和語法分析,進(jìn)行匹配翻譯;以及輸出翻譯結(jié)果并接收用戶的修訂,將修訂結(jié)果存儲到數(shù)據(jù)庫中。本發(fā)明所提供的英文翻譯準(zhǔn)確率相當(dāng)高,實(shí)用性強(qiáng)。
文檔編號G06F17/28GK101216819SQ20071030451
公開日2008年7月9日 申請日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
發(fā)明者孟祥武, 張玉潔 申請人:北京郵電大學(xué)