專利名稱:文本轉(zhuǎn)換方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語言翻譯,更具體地說,涉及一種文本轉(zhuǎn)換方法及裝置。
背景技術(shù):
造紙術(shù)的改進(jìn)極大的方便了信息的保存,促進(jìn)了人類社會的發(fā)展。計算機(jī)的出現(xiàn)使得信 息的存儲更為便捷,加快了信息存儲方式的更新?lián)Q代,越來越多的行業(yè)已實現(xiàn)無紙化辦公。 目前通用的文本處理技術(shù)方法是把各種語言文字的字符進(jìn)行編碼,繼而生成磁盤文件,其典 型代表就是微軟公司的WORD。盡管方便了文檔的編輯,但這種方式生成的磁盤文件依然只 能供各自語種的人們讀、寫,無法實現(xiàn)跨語種閱讀,例如不懂漢語的外國人無法讀懂用漢語 寫成的文檔。這使得智能化高度發(fā)達(dá)的今天,翻譯工作依然只能依靠人力來完成。
為了實現(xiàn)文檔的自動翻譯,人們曾經(jīng)做過很多嘗試。例如,因為幾乎每種語言都無一例 外的建立在單詞組合的基礎(chǔ)之上,所以人們自然想到了以構(gòu)建詞庫的方式來實現(xiàn)自動翻譯, 例如中國發(fā)明專利申請CN200510018157;但人們很快發(fā)現(xiàn),這種方式得到的文本往往詞不達(dá) 意,根本無法理解,原因就在于詞意的多樣和語法的復(fù)雜,這兩個障礙即便憑借當(dāng)前最先進(jìn) 的技術(shù)也似乎無法克服。在這種情況下,.人們將目光轉(zhuǎn)向了以句子為單位構(gòu)建句庫,例如中 國發(fā)明專利申請CN03128953、 CN200410021989,以句建庫的方式解決了以詞建庫方式中存 在的詞不達(dá)意方面的問題,翻譯得到的文句通順。但是自然語言千變?nèi)f化,各種語法千差萬 別,句庫之大遠(yuǎn)遠(yuǎn)超出了想象,幾乎爆炸,在現(xiàn)有的技術(shù)水平下,這種笨重的方式無法實現(xiàn)。 由此可見,缺乏高效合理的語言庫構(gòu)建手段是當(dāng)前自動翻譯效果不佳的一個重要原因。
此外,現(xiàn)有的翻譯系統(tǒng)往往只在兩種固定的語言之間進(jìn)行翻譯,例如,英語和漢語之間、 曰語和漢語之間,市場上還沒有一套可以實現(xiàn)多語互譯的系統(tǒng)。
綜上所述,需要一種技術(shù),能夠以合理的方式構(gòu)建語言庫,并且將使用某種自然語言完 成的文檔隨意轉(zhuǎn)換成其他語言文檔。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對現(xiàn)有技術(shù)以詞建庫詞不達(dá)意、以句建庫語言庫龐大 等建庫方式不合理的缺陷,以及無法實現(xiàn)多語互譯的缺陷,提供一種文本轉(zhuǎn)換方法及裝置。 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是 一種文本轉(zhuǎn)換方法,包括如下步驟
51、 接收第一自然語言文本文件,調(diào)用第一自然語言庫生成對應(yīng)所述第一自然語言文本 文件的語意的意通文本文件;
52、 接收第二自然語言輸出命令,調(diào)用第二'自然語言庫,依據(jù)所述意通文本文件生成并 輸出第二自然語言文本文件。
在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述第一語言庫包括第一句型庫和第一句艙庫,所述 步驟Sl進(jìn)一歩包括如下步驟
Sll 、讀入所述第一 自然語言文本文件中的一個句子;
512、 調(diào)用所述第一句型庫對讀入的句子進(jìn)行句型匹配,輸出句型語意代碼,并劃分出 所述讀入的句子的句艙;
513、 調(diào)用所述第一句艙庫對歩驟S12中劃分出的句艙進(jìn)行句艙匹配,輸出句艙語意代碼;
514、 依據(jù)所述句型語意代碼和所述句艙語意代碼生成對應(yīng)所述讀入的句子的意通代碼;
515、 判斷是否到達(dá)所述第一自然語言文本文件末尾,若是,執(zhí)行步驟S16,若否,則讀 入下一個句子,然后回到步驟S12;
516、 將生成的所有讀入的句子的意通代碼存儲為所述意通文本文件。 在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述第一自然語言庫包括第一習(xí)語庫,在所述步驟S12
中,在調(diào)用所述第一句型庫對讀入的句子進(jìn)行句型匹配之前,調(diào)用所述第一習(xí)語庫判斷所述 讀入的句子是否是習(xí)語,若是,則輸出習(xí)語語意代碼,作為所述讀入的句子的意通代碼,然 后轉(zhuǎn)到步驟S15;若否,則調(diào)用所述第一句型庫對讀入的句子進(jìn)行句型匹配。
在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述第一句艙庫包括第一艙模庫和第一艙眼庫,所述 步驟S13進(jìn)一步包括
5131、 讀入所述讀入的句子的一個句艙;
5132、 調(diào)用所述第一艙模庫對讀入的句艙進(jìn)行艙模匹配,若匹配成功,則輸出艙模語意 代碼,并劃分出所述讀入的句艙的艙眼,然后轉(zhuǎn)到步驟S133;若匹配失敗,則轉(zhuǎn)到步驟S134;
5133、 調(diào)用所述第一艙眼庫對劃分出的艙眼進(jìn)行艙眼匹配,輸出艙眼語意代碼,并依據(jù) 所述艙模語意代碼和所述艙眼語意代碼生成對應(yīng)所述讀入的句艙的句艙語意代碼,轉(zhuǎn)到步驟 S135;
5134、 調(diào)用所述第一艙眼庫對讀入的句艙進(jìn)行艙眼匹配,輸出艙眼語意代碼,作為所述 讀入的句艙的句艙語意代碼,轉(zhuǎn)到步驟S135;
5135、 判斷是否存在未處理的句艙,若是,則讀入下一個句艙,然后回到步驟S131,否 則,轉(zhuǎn)到步驟S14。
在本發(fā)明所述的文本轉(zhuǎn)換方法中,在所述步驟S133或S134中,若所述艙眼匹配不成功, 則在所述第一艙眼庫中為匹配不成功的艙眼生成艙眼語意代碼,然后輸出該艙眼語意代碼。 在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述步驟S14進(jìn)一步包括
5141、 接收第一句型選擇信號,從輸出的句型語意代碼中選擇對應(yīng)所述第一句型選擇信 號的句型語意代碼;
5142、 接收第一句艙選擇信號,從輸出的句艙語意代碼中選擇對應(yīng)所述第一句艙選擇信 號的句艙語意代碼;
5143、 依據(jù)選擇的句型語意代碼和句艙語意代碼生成對應(yīng)所述讀入的句子的意通代碼。 在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述第二語言庫包括第二句型庫和第二句艙庫,所述
步驟S2進(jìn)一步包括如下步驟
521、 讀入所述意通文本文件中對應(yīng)一個句子的意通代碼;
522、 調(diào)用所述第二句型庫,將所述意通代碼中的句型語意代碼轉(zhuǎn)換成對應(yīng)的句型;
523、 調(diào)用所述第二句艙庫,將所述意通代碼中的句艙語意代碼轉(zhuǎn)換成對應(yīng)的句艙;
524、 依據(jù)生成的句型和句艙生成并輸出對應(yīng)所述讀入的意通代碼的的句子;
525、 判斷是否到達(dá)所述意通文本文件的末尾,若否,則讀入對應(yīng)下一個句子的意通代 碼,然后回到步驟S22。
在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述第二自然語言庫包括第二習(xí)語庫,在所述步驟S22 中,在調(diào)用所述第二句型庫之前,所述方法還包括調(diào)用所述第二習(xí)語庫,判斷所述意通代碼 是否是習(xí)語語意代碼,若是,則輸出對應(yīng)所述習(xí)語語意代碼的習(xí)語,然后轉(zhuǎn)到步驟S25;若 否,則調(diào)用所述第二句型庫,依據(jù)所述意通代碼中的句型語意代碼,生成對應(yīng)的句型。
在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述第二句艙庫包括第二艙模庫和第二艙眼庫,所述步驟S23進(jìn)一步包括調(diào)用所述第二句艙庫和所述第二艙眼庫將所述句艙語意代碼中的艙模語 意代碼和艙眼語意代碼轉(zhuǎn)換成艙模和艙眼,并依據(jù)所述艙模和艙眼生成所述句艙。 在本發(fā)明所述的文本轉(zhuǎn)換方法中,所述步驟S24進(jìn)一歩包括
5241、 接收第二句型選擇信號,從生成的句型中選擇對應(yīng)所述第二句型選擇信號的句型;
5242、 接收第二句艙選擇信號,從生成的句艙中選擇對應(yīng)所述第二句艙選擇信號的句艙;
5243、 依據(jù)選擇的句型和句艙生成并輸出對應(yīng)所述第二語言的句子。 本發(fā)明還提供了一種文本轉(zhuǎn)換裝置,包括 意通文本文件存儲模塊;
第一自然語言存儲模塊,用于存儲第一自然語言庫; 第二自然語言存儲模塊,用于存儲第二自然語言庫
轉(zhuǎn)換處理模塊,與所述意通文本文件存儲模塊、第一自然語言存儲模塊和第二自然語言 存儲模塊相連,包括
第一自然語言處理模塊,用于接收第一自然語言文本文件,調(diào)用所述第一自然語 言庫生成對應(yīng)所述第一自然語言文本文件的語意的意通文本文件,并將所述意通文本 文件存儲在所述意通文本文件存儲模塊中;
第二自然語言處理模塊,用于接收第二自然語言輸出命令,調(diào)用所述第二自然語 言庫和所述意通文本文件,生成并輸出第二自然語言文本文件。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第一自然語言庫包括第一句型庫和第一句艙庫, 所述第一自然語言處理模塊包括
第一句型匹配模塊,用于讀入所述第一自然語言文本文件中的句子,調(diào)用所述第一句型 庫進(jìn)行句型匹配,輸出句型語意代碼和句艙;
第一句艙匹配模塊,用于接收所述第一句型匹配模塊輸出的句艙,調(diào)用所述第一句艙庫 進(jìn)行句艙匹配,輸出句艙語意代碼;
意通文本文件生成模塊,用于接收所述句型語意代碼和句艙語意代碼,生成對應(yīng)讀入的 句子的意通代碼,以及依據(jù)生成的所有讀入的句子的意通代碼生成所述意通文本文件。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第一自然語言庫包括第一習(xí)語庫,所述第一句型 匹配模塊包括
第一習(xí)語匹配模塊,用于判斷所述讀入的句子是否是習(xí)語,若是,則輸出習(xí)語語意代碼, 作為所述讀入的句子的意通代碼,若否,則調(diào)用所述第一句型庫進(jìn)行句型匹配。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第一句艙庫包括第一艙模庫和第一艙眼庫,所述 第一句艙匹配模塊包括-
第一艙模匹配模塊,用于調(diào)用所述第一艙模庫對讀入的句艙進(jìn)行艙模匹配,若匹配成功, 則輸出艙模語意代碼和艙眼;若匹配失敗,則直接輸出所述讀入的句艙;
第一艙眼匹配模塊,用于接收所述第一艙模匹配模塊輸出的艙眼或句艙,調(diào)用所述第一 艙眼庫進(jìn)行艙眼匹配,輸出艙眼語意代碼; .
句艙代碼生成模塊,用于接收所述艙模語意代碼和艙眼語意代碼,生成對應(yīng)讀入的句艙 的句艙語意代碼。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第一艙眼匹配模塊包括
新艙眼處理模塊,用于在艙眼匹配失敗時,為匹配失敗的艙眼分配艙眼語意代碼,保存 并輸出該艙眼語意代碼。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,第一自然語言處理模塊包括
第一選擇信號接收模塊,用于接收并轉(zhuǎn)發(fā)第一句型選擇信號和第一句艙選擇信號;所述意通文本文件生成模塊接收所述第一句型選擇信號和第一句艙選擇信號,在收到的 句型語意代碼和句艙語意代碼中選擇對應(yīng)的句型語意代碼和句艙語意代碼,生成對應(yīng)讀入的 句子的意通代碼。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第二自然語言庫包括第二句型庫和第二句艙庫, 所述第二自然語言處理模塊包括
第二句型匹配模塊,用于讀入所述意通文本文件中對應(yīng)一個句子的意通代碼,調(diào)用所述 第二句型庫將所述意通代碼中的句型語意代碼轉(zhuǎn)換成句型,輸出生成的句型和所述意通代碼 經(jīng)句型轉(zhuǎn)換后剩下的部分;
第二句艙匹配模塊,用于接收所述意通代碼中經(jīng)句型轉(zhuǎn)換后剩下的部分,調(diào)用所述第二 句艙庫將其中的句艙語意代碼轉(zhuǎn)換成句艙,輸出生成的句艙;
自然語言文本文件生成模塊,用于接收所述句型和句艙,生成并輸出對應(yīng)所述讀入的意 通代碼的句子。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第二自然語言庫包括第二習(xí)語庫,所述第二句型 匹配模塊包括
第二習(xí)語匹配模塊,用于判斷所述意通代碼是否是習(xí)語語意代碼,若是,則輸出對應(yīng)所 述意通代碼的習(xí)語;若否,則調(diào)用所述第二句型庫將所述意通代碼中的句型語意代碼轉(zhuǎn)換成 句型。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第二句艙庫包括第二艙模庫和第二艙眼庫,所述 第二句艙匹配模塊包括
第二艙模匹配模塊,用于讀入一個句艙語意代碼,調(diào)用所述第二艙模庫將其中的艙模語 意代碼轉(zhuǎn)換成艙模,輸出所述艙模和所述句艙語意代碼經(jīng)艙模轉(zhuǎn)換后剩下的部分;
第二艙眼匹配模塊,用于接收所述句艙語意代碼經(jīng)艙模轉(zhuǎn)換后剩下的部分,調(diào)用所述第 二艙眼庫,將其中的艙眼語意代碼轉(zhuǎn)換成艙眼,并輸出所述艙眼;
句艙生成模塊,用于接收所述艙模和艙眼,生成所述句艙。
在本發(fā)明所述的文本轉(zhuǎn)換裝置中,所述第二自然語言處理模塊包括-,第二選擇信號接收模塊,用于接收并轉(zhuǎn)發(fā)第二句型選擇信號和第二句艙選擇信號;
所述自然語言文本文件生成模塊接收所述第二句型選擇信號和第二句艙選擇信號,在收 到的句型和句艙中選擇對應(yīng)的句型和句艙,生成對應(yīng)讀入的意通代碼的句子。
本發(fā)明的有益效果在于,使用以句型和句艙為單位構(gòu)建的語言庫,生成的句子語意通順, 且語言庫大小合理,能夠解決現(xiàn)有技術(shù)以詞建庫詞不達(dá)意、以句建庫語言庫龐大的問題;通 過將自然語言文檔轉(zhuǎn)換為意通文檔,能夠?qū)崿F(xiàn)語言到語意的直接轉(zhuǎn)換,從而借助語意到語言 的轉(zhuǎn)換實現(xiàn)任意語言之間的互譯。
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的上述缺點,提供一種只要求用戶懂母語、不必再學(xué)習(xí), 可通用于多語種人們讀寫交流的文本處理,從而實現(xiàn)跨語種、無障礙交流的方法和裝置。
背景技術(shù):
之所以存在上述若干缺點,與人們對"人腦"、"語言文字"、"電腦"三者本身 及三者之間的認(rèn)識、分工有一定關(guān)系。對"人腦"、"語言文字"、"電腦"三者本身、三者之 間應(yīng)該明白電腦不能象人腦一樣理解語義;電腦之長在于存貯和搜索。人腦正好與電腦相 反,能理解語義,但存貯和搜索能力都遠(yuǎn)遠(yuǎn)不及電腦。因而人腦與電腦有著很好的互補性。 至于語言文字,它是整個人類社會發(fā)展的產(chǎn)物。人類產(chǎn)生語言文字的時候,由于時空的隔離, 人們被分散在許多獨立的社會里生活;語言文字也在這許多獨立社會里,在各自獨立體系內(nèi) 緩慢演變和發(fā)展。文字是記錄語言的符號;語言是人類思想交流的工具。流傳至今的自然語 言都很完善,各自有著完整的語音、語法和詞匯體系。正因為各種語言文字都在各自的獨立體系內(nèi)緩慢地演變發(fā)展而來。不同語言文字之間,語音不同,語法不一樣,詞匯字符更是形 形色色。
背景技術(shù):
正是為此所難而舉步維艱。這里有一個被忽視了的重要規(guī)律各種語言文 字都由字符組成詞匯,詞匯組成句子,句子組成文章;各種語言文字的表意是多層次的,有 字、詞、句、段、章節(jié)等,相當(dāng)復(fù)雜。其本質(zhì)屬性是句子是表達(dá)完整語意的基本單元;不同 語言文字的句子可以表達(dá)相同的語意;詞匯常常多義而在句子內(nèi)是單義的。所以,不同語種 人們之間不能無障礙地交流,關(guān)鍵在于不同語言文字之間字、詞、句表意不對等也不統(tǒng)一。 我們就抓住不同語言文字之間字、詞、句表意的對等和統(tǒng)一這個關(guān)鍵①利用本人的句型意 群原理之發(fā)現(xiàn)(詳見下文)簡化自然語言的復(fù)雜性、又適應(yīng)它的靈活性;并化解它們之間語 法不一致難題,復(fù)雜的、個性化的語法現(xiàn)象攬在句型上,讓句艙即使包含語法也極其簡單。 句型好比填空題的題干,句艙是題空。②語法分析、語義理解是人腦的事,由人腦完成;組 織專家根據(jù)句型、句艙原理,對句子進(jìn)行句型、意群串兩個層面的語意比對整理,使不同語 言文字之間字、詞、句表意得以對等和統(tǒng)一,整理出的句型、意群串等數(shù)據(jù)分別建庫保存。 這些庫的內(nèi)容就是不同語言文字之間字、詞、句表意的對等和統(tǒng)一。這些需要理解的艱難的 也是一勞永逸的事由人腦完成。然而③把經(jīng)常性的、單調(diào)、繁瑣的記憶、搜索工作交給電腦。 句型意群模型巧妙地與計算機(jī)技術(shù)相結(jié)合之后; 一個具體的句子,只要將它套入匹配的句型, 其"句意=句型+句船"。,讓電腦無需理解、分析做"句意=句型+句艙"的簡單操作。如 此讓人腦、電腦能夠互補,并充分發(fā)揮它們的長處。④使不同語言文字之間字、詞、句表意 得以對等和統(tǒng)一;又針對如此得出的句型、意群串等進(jìn)行編碼;實際上,就進(jìn)行了多語種統(tǒng) 一的語意編碼。然而通過對原語編碼和譯碼的操作就可以實現(xiàn)跨語種地?zé)o障礙交流。這樣的 方法沒有改變語言文字本身;用戶也就無需再學(xué)習(xí)。
然而,更確切具體地說,本發(fā)明的目的在于提供一種面向多文種句型、意群串兩個層面 的語意比對整理;然后,面向這些被比對整理出來的、不同語言文字之間字、詞、句表意得 以對等和統(tǒng)一的句型、意群串進(jìn)行編碼(意通代碼);利用意通代碼生成多文種語意互通的磁 盤文件——意通文本;讓后者通用于多文種的人們利用各自的母語讀寫的書面跨語種交流方 法。
下面將結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步說明,附圖中-圖1是本發(fā)明技術(shù)方案的原理圖2是本發(fā)明由自然語言文本文件生成意通文本文件過程的流程圖; 圖3是本發(fā)明由意通文本文件生成自然語言文本文件過程的流程圖; 圖4是本發(fā)明文本轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖; 圖5是圖4中第一自然語言處理模塊的結(jié)構(gòu)示意圖6是圖4中第二自然語言處理模塊的結(jié)構(gòu)示意圖。
具體實施例方式
下面,結(jié)合具體流程圖來描述本發(fā)明的具體實現(xiàn)過程。
圖1是本發(fā)明技術(shù)方案的原理圖。先將本發(fā)明所涉及具有特定意義的概念定義和解釋如
下
句子——在自然語言里,表達(dá)完整語意的基本單元為句子;不同語g文字的句子可以表 達(dá)相同的語意。句子可分句型、句艙兩部分, 一個句型包含若干個句艙。
句型——句型出自一類句子的抽象,在句子中相對穩(wěn)定,體現(xiàn)句子基本語意及類屬;和構(gòu)成該類句子結(jié)構(gòu)框架部分稱句型。句型體現(xiàn)句子基本語意、類屬是跨語種、面向全人類的; 而其結(jié)構(gòu)框架是面向具體自然語言的。
句艙——句艙是鑲嵌在句型這個結(jié)構(gòu)框架上,接受句型的選擇和制約;句艙中的內(nèi)容可 使用意群文字串進(jìn)行替換,形成豐富多彩的、具體的句子。這些靈活的可替換部分為句艙。 句艙個數(shù)、句艙語意是面向全人類的、跨語種的;但在句型結(jié)構(gòu)框架中的位次和可替換的意 群文字串是面向具體自然語言的。
句型句艙舉例解釋(#示行號) 1#只要會句型(02828) 2個艙 2#只要你[l],你就會[2]。 3#[1] and you will . 4#E固 [1] , to [2]. 5# 其它語種 6#象一句型(00892) 4個艙 7# [1]象[4]一樣[3][2]嗎? 8# Does[l][2]as[3]as[4] 9#[1] [2] TaK [3] kok [4J 10# 其它語種 11#的高句型(00456) 3個艙 12# [2]的[1]高于[3]。 13# The[l]o柳sabove[3]. 14#[1][2] B刷e [3]. 15# 其它語種
l[堅持不懈]2[成功] 1 [Persevere] 2[succeed] 1 [BtiHacTaHBaeTe] 2[6yn;eTe c ycnexoM]
1[約翰]4[亨利]3[努力]2[工作] 1 [John]2[work]3[hard]4[Henry] 1[Pa6oTaeT] 2貝acoH] 3[ycepHO] 4fTeH皿]
2[智慧]l[價值]3[紅寶石] 1 [price] 2 [wisdom] 3 [rubies] 1[Oro服ocTfc] 2[MyapocTH] 3[py6皿a]
上例 1#6#11#三行各表示三個句型的表示基本語意和類屬,面向世界、跨語種部分;
其中如"只要會句型"表示類屬和基本語意,(02828)表示句型號,是意通代碼低位字十進(jìn)制 數(shù)。
2 5#、 7 10#、 12 15#表示三個句型的結(jié)構(gòu)框架,是面向具體自然語言的。每行的 左前部分是句型的框架結(jié)構(gòu),方括號內(nèi)是句艙;右后部分是相應(yīng)句艙及內(nèi)容例。其中2#7#12# 面向中文;3湖#13弁面向英文;4#9#14#面向俄語;5#10#15#面向其它語種等。
③上述舉例方括號內(nèi)或其前面的數(shù)字為句艙號。句艙的個數(shù)(如1#有2個艙、6#有4 個艙),和各句艙表示的語意是面向世界、跨語種的;而其在句型框架結(jié)構(gòu)中的位次、用以填 充的意群串是面向語種的(如7 9#中的[2]在中英俄文句型內(nèi)的位次不同;填充的意群串分 另l)是工作、 work 、 flacoH )。
對于語法而言,復(fù)雜的語法現(xiàn)象都攬在句型上;句艙含有語法也極其簡單。上述就是句 型、句艙的定義和解釋的簡潔舉例。 . .
句艙由意群統(tǒng)領(lǐng)的意群文字串填充或組成(也可近似地理解為由詞串填充或組成)。但 句艙的大小有較大差別。最小的句艙只包含一個意群串;最大的句艙可以包含一個從句或分 句。我們把句艙分為簡單句艙和復(fù)雜句艙兩種
意群——意群是多種自然語言的字符、詞、詞組及短語之"意"的對等和統(tǒng)一;是人類思 維活動的基本單元。意群無語種之限,屬于全人類,跨語種;也隨人類社會發(fā)展而代謝著。
意群文字串——意群在多種語言文字里相應(yīng)的表示稱意群文字串。簡稱意群串;是填充 句艙的成份。意群串分單串、復(fù)串兩種;只含有一個原有詞串的為單串;由兩個或兩個以上原有詞串組成,并用"_"相連為復(fù)串。
簡單句艙——除禾表意虛詞外不超過三個意群文字串的句艙稱簡單句艙。英文如"a an the in on to and"等不表意時忽略不計;中文的量詞同樣不計。其它語種如此類推。 不同語種之間,這三個串只要求有相應(yīng)的、語意相同的串就可以,不要求它們前后次序一致。 復(fù)雜句艙——大于簡單句艙,含有艙模的句艙稱復(fù)雜句艙。 上文所舉例句的句艙都屬于簡單句艙。下面這個例句含有復(fù)雜句艙
1 {the fisherman} consents to return 2{the_feather—suit} , on condition that 3 {fairy dance and play heavenly music for him}.
在3{仙女為他跳舞并演奏天上的樂曲}的條件下,1{漁夫}答應(yīng)歸還2{羽衣}。
本例句艙1、句艙2也是簡單句艙,只含一個意群串(英文的前者是單串,后者是復(fù)串)。 句艙3大于簡單句艙,含有艙模,屬于復(fù)雜句艙
艙模和艙眼一利用上述句型理論剖析句艙內(nèi)容;得出如同句型的框架結(jié)構(gòu)部分稱艙模; 鑲嵌在艙??蚣芙Y(jié)構(gòu)上的可替換部分稱艙眼。句艙和艙眼是上、下位概念;但簡單句艙和艙 眼的大小相等,同樣是除不表意虛詞外不大于三個意群文字串。
如上例句艙3 {fairy dance and play heavenly music for him} 3 {仙女為他跳舞并演奏天 上的樂曲}利用句型理論剖析,可得出艙模
(00205) [l]+[2]+and+[3]+forhim [1]+為他+[2]+并+[3]
該例中(00205)是艙模號;這個艙模包含3個艙眼,三個艙眼的內(nèi)容都不大于三個意群串 3 {1 [fairy] 2 [dance] and 3 [play heavenly music] for him} 3(1[仙女]為他2[跳舞]并3[演奏天上的樂曲]}
小習(xí)語一過于簡短不足以分出句型、句艙的句子為小習(xí)語。如"How do you do 您 好! Getaway!滾開!"等等。
語意代碼、意通代碼——面向句型、句艙、艙模、小習(xí)語、意群串等的語意編碼分別稱 某某語意代碼;面向它們并影射到其它語種相應(yīng)成份后的語意編碼稱意通代碼。
意通文本——由意通代碼生成可以體現(xiàn)多文種語意互通的,并可以進(jìn)行多語種文本轉(zhuǎn)換 的磁盤文件稱意通文本。
句艙由意群文字串進(jìn)行填充,在句型的組織下形成豐富多彩的句子。意群文字串構(gòu)成句 子的最小單位,任何句艙都是由意群文字串組成的。由意群文字串來填充句艙,形成簡單句 艙;意群文字串與艙模的組合來填充句艙,形成復(fù)雜句艙。意群文字串的意思即為意群,意 群是句子含義中的最小單位。
本發(fā)明的設(shè)計思想是,在形式方面,以意群文字串來構(gòu)建句艙,必要時在句艙使用意群 文字串和艙模構(gòu)建復(fù)雜句艙;通過句型來組織句艙,生成完整的句子。在表意方面,以意群 來構(gòu)成句艙語意的基本單位,必要時結(jié)合使用意群和艙模語意來構(gòu)成句艙語意;通過句型語 意來組織句艙語意,生成完整的句意。在由自然語言生成意通代碼時,首先確定句型和句型 語意,隨即劃分出句艙,然后對句艙中的意群文字串和可能存在的艙模進(jìn)行匹配,生成對應(yīng) 的意群和艙模語意,從而構(gòu)成句艙語意。最后由句型語意和句艙語意進(jìn)行組合,生成句意。
圖1本發(fā)明技術(shù)方案原理圖,虛線框內(nèi)的內(nèi)容都有相應(yīng)的庫(或庫中的數(shù)據(jù)),并且?guī)?內(nèi)容有面向各自然語旨的部分;也有面向世界、跨語種的部分;并在多語種間是可以相互影 射的。同時還含有它們的相關(guān)操作。虛線框下面是自然語言,指含有相應(yīng)文字的自然語言, 也是上文所述的語言文字。其中第一自然語言、第二自然語言可以是這些自然語言中的任選。 虛線框上方的是跨語種,面向世界的意通文本。虛線框內(nèi)的所涉及、面向各種自然語言的庫,如中文語言庫、英文語言庫、俄文語言庫 等。每個自然語言庫至少包括句型庫、句艙庫和習(xí)語庫。其中,句型庫存儲有句型及其對應(yīng) 的句型語意,句艙庫又進(jìn)一步包括艙模庫和艙眼庫,其中艙模庫存儲艙模及其對應(yīng)的艙模語 意,艙眼庫存儲意群文字串及其對應(yīng)的意群。習(xí)語庫存儲習(xí)語與習(xí)語語意的對應(yīng)表等等。
從原理圖不難看出,①如果從某自然語言開始流程向上,就可以生成相應(yīng)的意通文本。 ②從意通文本流程向下,就可以將意通文本生成任意指定的自然語言進(jìn)行輸出。③如果流程 從下向上、接著又從上而下,生成意通文本的同時,又通過意通代碼、第一自然語言庫到第 二自然語言庫等的影射直接生成并輸出第二自然語言文本。假定第二自然自然語言是某用戶 群的母語、第一自然語言是該用戶群需要的某外文。這樣,人們可以利用母語讀外文;并且 只要一人讀過就成為意通文本而世人共享。
圖2是本發(fā)明由自然語言文本文件生成意通文本文件過程的流程圖。如圖2所示,首先, 在步驟200,讀入自然語言文本文件中的一個句子。可根據(jù)自然語言中的特定標(biāo)點符號如逗 號、句號、分號等來劃分句子。接下來,在步驟202,調(diào)用該自然語言對應(yīng)的習(xí)語庫判斷讀 入的句子是否是習(xí)語,若是,則直接轉(zhuǎn)到步驟226,生成該習(xí)語的習(xí)語語意代碼,并將其作 為該句子的意通代碼;若否,則轉(zhuǎn)到步驟204,調(diào)用該自然語言對應(yīng)的句型庫對讀入的句子 進(jìn)行句型匹配,輸出句型語意代碼,并劃分出讀入句子的句艙。隨后,在步驟206,讀入劃 分好的一個句艙,然后在步驟208,調(diào)用該自然語言對應(yīng)的艙模庫對讀入的句艙進(jìn)行艙模匹 配,若匹配成功,則說明該句艙是一復(fù)雜句艙,需要進(jìn)一步劃分,這時,進(jìn)行步驟210,輸 出艙模語意代碼,并進(jìn)一步劃分出該復(fù)雜句艙的艙眼。若艙模匹配失敗,則所述讀入的句艙 是一個簡單句艙,即讀入的句艙是一個艙眼,這時將直接進(jìn)行步驟212,進(jìn)行艙眼匹配。隨 后,在步驟214,調(diào)用該自然語言對應(yīng)的艙眼庫對劃分出來的艙眼進(jìn)行艙眼匹配,若匹配成 功,則在步驟218,輸出意群;若匹配失敗,則說明艙眼庫中尚無該艙眼,即對應(yīng)的詞語可 能是一個新詞或者用戶自創(chuàng)的詞語。這時,在步驟216,為匹配失敗的艙眼生成意群,然后 轉(zhuǎn)到步驟218,輸出生成的艙眼語意代碼。接下來,在步驟'220,使用輸出的艙模語意代碼和 意群生成句艙語意代碼,然后在步驟222判斷是否還存在未處理的句艙,若是,則回到步驟 206,若否,則進(jìn)行步驟224。由于自然語言的句型和句艙語意多樣,其組合千變?nèi)f化,因此 有時需要用戶在輸出的句型語意代碼和句艙語意代碼之間進(jìn)行選擇,即在步驟224,接收第 一句型選擇信號和第一句艙選擇信號,選擇用戶想要的句型語意代碼和句艙語意代碼,然后 在步驟226,使用選出的句型語意代碼和句艙語意代碼生成對應(yīng)讀入句子的意通代碼。在步 驟228,判斷是否到達(dá)自然語言文件的末尾,若是,則轉(zhuǎn)到步驟230,使用生成的所有意通代 碼生成意通文本文件,若否,則回到步驟200,讀入下一個句子。
以下以具體的句子來說明上述過程。
例如,假如在步驟200,讀入的句子為"只要堅持不懈,你就會成功"。經(jīng)過步驟202 的判斷,該句非習(xí)語,因此轉(zhuǎn)向步驟204,使用中文句型庫進(jìn)行句型匹配,得到句型"只要 [1]你就會[2]。",以及句艙"l[堅持不懈]"和"2[成功]"。在步驟206,首先讀入句艙"堅持 不懈",由于該句艙是簡單句艙,即該句艙是一個意群文字串,因此經(jīng)步驟208判斷后執(zhí)行步 驟212,進(jìn)行艙眼匹配。由于"堅持不懈"是一慣用詞,因此步驟214的艙眼匹配將獲成功。 轉(zhuǎn)到步驟218輸出意群;進(jìn)而在步驟220將該意群作為句艙語意代碼。然后經(jīng)步驟222的判 斷,返回步驟206處理句艙"成功",接下來的處理過程與對句艙"堅持不懈"相似。在處理 完所有的句艙即"堅持不懈"和"成功"后,轉(zhuǎn)到步驟224。由于該句非常簡單,對應(yīng)的句 型和句艙含義唯一,因此將直接通過步驟224,在步驟226生成句意"只要堅持不懈,你就 會成功"的意通代碼。否則,在步驟224處將列出句型對應(yīng)的多個句型語意以及句艙對應(yīng)的多個句艙語意供用戶選擇。經(jīng)過上述步驟,對句子"只要堅持不懈,你就會成功"完成。當(dāng) 讀入的是一篇文章時,還需判斷是否還有其他句子要處理(步驟228),若無,則使用所有句 子的意通代碼生成意通文本文件。
圖3是本發(fā)明由意通文本文件生成自然語言文本文件過程的流程圖。如圖3所示,在步 驟300,讀入意通文本文件中對應(yīng)一個句子的一個意通代碼。接下來,在步驟302,調(diào)用對應(yīng) 指定自然語言的習(xí)語庫,判斷該意通代碼在該自然語言中對應(yīng)的句子是否是習(xí)語,若是,則 直接轉(zhuǎn)到步驟314,生成對應(yīng)該意通代碼的句子。若否,則進(jìn)行步驟304,將該意通代碼中的 句型語意代碼轉(zhuǎn)換成對應(yīng)的句型,然后在步驟306,將意通代碼中的艙模語意代碼轉(zhuǎn)換為對 應(yīng)的艙模,若無艙模語意代碼,則直接執(zhí)行步驟308,將意通代碼中的意群(即該艙眼對應(yīng) 的意群)轉(zhuǎn)換為對應(yīng)的艙眼。然后在步驟310,使用生成的艙模和艙眼生成填入句艙之中的 意群文字串。由于同一語意在一種語言中可能對應(yīng)多個同義詞,因此需要在輸出的句型和句 艙之間進(jìn)行選擇,即在步驟312接收第二句型選擇信號和第二句艙選擇信號,然后在步驟314, 使用選擇的句型和句艙生成句子。接下來,進(jìn)行步驟316,判斷是否到達(dá)意通文本文件的末 尾,若否,則回到步驟300,讀入下一個意通代碼,若是,則轉(zhuǎn)到步驟318,本流程結(jié)束。
以下以具體的句子來說明上述過程。
例如,假如在步驟300讀入的意通代碼為"只要堅持不懈,你就會成功"(為便于描述, 此處直接使用該意通代碼對應(yīng)的中文含義進(jìn)行說明,下同)。假如指定的輸出語言為英語,則 在步驟302,調(diào)用英語的習(xí)語庫,判斷該意通代碼在英語中對應(yīng)的句子是否是習(xí)語,經(jīng)判斷, 該意通代碼對應(yīng)的句子為非習(xí)語,則進(jìn)行步驟304,將句型語意代碼"只要[1]你就會[2]。" 轉(zhuǎn)換成對應(yīng)的句型"[l] and you will [2]."。由于"堅持不懈"和"成功"均為簡單句艙,因 此將跳過然后在步驟306,直接執(zhí)行步驟308,將意群"l[堅持不懈]"和"2[成功]"轉(zhuǎn)換為 對應(yīng)的艙眼即意群文字串"1 [Persevere]"和"2[succeed]"。然后在步驟310,使用生成的艙模 和艙眼生成句艙。若存在同義詞,則需要在輸出的句型和句艙之間進(jìn)行選擇,即在步驟312 接收第二句型選擇信號和第二句艙選擇信號,然后在步驟314,使用選擇的句型和句艙生成 句子。經(jīng)過上述過程,意通代碼"只要堅持不懈,你就會成功"到英文句子"Persevere and you will succeed."的轉(zhuǎn)換完成。接下來,進(jìn)行步驟316,判斷是否到達(dá)意通文本文件的末尾,若 否,則回到步驟300,讀入下一個意通代碼,若是,則轉(zhuǎn)到步驟318,本流程結(jié)束。
圖4是本發(fā)明文本轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖。如圖4所示,本發(fā)明文本轉(zhuǎn)換裝置包括用于 存儲第一自然語言庫的第一自然語言存儲模塊、用于存儲第二自然語言庫的第二自然語言存 儲模塊、用于存儲生成的意通文本文件的意通文本文件存儲模塊,和用于在第一自然語言、 意通文本文件、第二自然語言之間進(jìn)行轉(zhuǎn)換的轉(zhuǎn)換處理模塊,其中進(jìn)一步包括將第一自然語 言文本文件轉(zhuǎn)換為意通文本文件的第一自然語言處理模塊,和將意通文本文件轉(zhuǎn)換為第二自 然語言文本文件的第二自然語言處理模塊。
圖5是圖4中第一自然語言處理模塊的結(jié)構(gòu)示意圖。如圖5所示,其中包括第一習(xí)語匹 配模塊、第一句型匹配模塊、第一句艙匹配模塊、意通文本文件生成模塊、第一選擇信號接 收模塊,其中第一句艙匹配模塊又進(jìn)一步包括第一艙模匹配模塊、第一艙眼匹配模塊、句船 代碼生成模塊和新艙眼處理模塊。
圖6是圖4中第二自然語言處理模塊的結(jié)構(gòu)示意圖。如圖6所示,其中包括第二習(xí)語匹 配模塊、第二句型匹配模塊、第二句艙匹配模塊、自然語言文件生成模塊、第二選擇信號接 收模塊,其中第二句艙匹配模塊進(jìn)一步包括第二艙模匹配模塊、第二艙眼匹配模塊和句艙生 成模塊。
本發(fā)明的有益效果在于,使用以句型和句艙為單位構(gòu)建的語言庫,生成的句子語意通順,且語言庫大小合理,能夠解決現(xiàn)有技術(shù)以詞或句為單位建庫方式的不合理;通過將自然語言 文檔轉(zhuǎn)換為意通文檔,能夠?qū)崿F(xiàn)語言到語意的直接轉(zhuǎn)換,從而借助語意到語言的轉(zhuǎn)換實現(xiàn)任 意語言之間的互譯。
數(shù)據(jù)準(zhǔn)備部分,在意群句型模型的基礎(chǔ)上,根據(jù)意群句型的原理。把語法分析、語意理解, 這些電腦無法解決的也是一勞永逸的事由人腦完成。組織專家根據(jù)句型、句艙原理,對句子 進(jìn)行句型、意群串兩個層面的語意比對整理,比對整理出的句型、意群串等數(shù)據(jù)分別建庫保 存。這部分的工作為數(shù)據(jù)準(zhǔn)備,由下文的1 6步驟完成。為本發(fā)明方法數(shù)據(jù)準(zhǔn)備的步驟。數(shù) 據(jù)準(zhǔn)備是為了解決不同語言文字之間字、詞、句表意不對等統(tǒng)一的技術(shù)問題;組織專家(使用 計算機(jī))利用面向多文種多對雙語樣本文本進(jìn)行句型、意群串兩個層面語意比對整理的技術(shù)手
段;借以產(chǎn)生不同語言文字之間字、詞、句表意得以對等和統(tǒng)一的句型、意群串等信息資料 的技術(shù)效果。數(shù)據(jù)準(zhǔn)備先后涉及"句型采集系統(tǒng)"、"句艙整詞系統(tǒng)"、"艙容檢測系統(tǒng)"和"整 庫編碼系統(tǒng)"。下面以步驟結(jié)合系統(tǒng)進(jìn)行說明
1. 樣本語料
用于輸入多文種多對雙語樣本文本的輸入步驟-
輸入或收集一定數(shù)量的、足夠大的多語樣本文本或者多對雙語樣本文本。這些多文種的 樣本文本應(yīng)當(dāng)考慮不同的領(lǐng)域、學(xué)科、文體,其數(shù)量還應(yīng)當(dāng)合理分配。然后,把它們以篇章
為單位編制文號;文號后標(biāo)出文種;這兩部分共同組成文件名。如"oooi英、ooor漢、oooi
俄;0002漢;0002英;0002俄等等。同一文章不同文種版本其文件名以文號相關(guān)連;如"OOOl
英、0001漢","0002英、0002漢"分別為同一文章的兩個文種版本,作為一個雙語樣本對 (英語為A語,漢語為B語)。等等以此類推。
2. 句型層面語意比對整理
組織專家對多文種多對雙語樣本文本進(jìn)行句型層面語意比對整理的步驟 組織專家利用"句型采集系統(tǒng)"進(jìn)行句型層面的比對整理工作。句型采集系統(tǒng),以下簡 稱系統(tǒng),以多文種樣本分庫為讀入。首先①讀樣句,每次讀入相同語意的A、 B雙語樣本例 句。系統(tǒng)由專家操作,每完成一個操作項目都等待專家點擊后才繼續(xù)運行,以便專家認(rèn)可或 干預(yù)。如果專家對系統(tǒng)讀入的句子切分有異議,可以干預(yù)通過上下記錄伸縮修正。然后②判 小習(xí)語,如果專家認(rèn)定該句對為小習(xí)語則存入小習(xí)語庫(含習(xí)語碼、中習(xí)、英習(xí)、俄習(xí)等字 段);否則系統(tǒng)自動③配句型,如果查到相匹配的句型跳到下文的型例配操作;沒有匹配的句 型。由專家干預(yù)新作句型的④挖句艙,挖句艙之前專家必須充分理解句子、對整個句型、句 艙心中有數(shù)(詳下文挖句艙的要點)等充分考慮后再動手。先選定這個新句型的類屬。然后在 樣本例對上挖去A語第一個句艙,接著挖去B語相應(yīng)語意的第一個句艙。系統(tǒng)檢測正確,再 由專家干預(yù)挖去第二個;第三個……直至挖完該句所有句艙。A、 B語樣例被挖去句艙以后就 成為A、 B語的句型。然后進(jìn)行(D型例配,即系統(tǒng)把剛才這對句例又套回這個新句型。經(jīng)專 家認(rèn)定正確后把相關(guān)數(shù)據(jù)⑥保存,即把該句型、句型號以及類屬存入句型庫(含有句型類屬、 句型碼、中型、英型、俄型等字段);該樣本例再以型、例結(jié)合的形式存入語料庫A (含有句 型號、A語例、B語例)。這個樣本例的句型采集結(jié)束。接著再跳轉(zhuǎn)到①,進(jìn)行下一對樣本例 句的句型采集操作。
句型層面比對整理的要點是如何挖去句艙,確定句型。操作專家應(yīng)先作如下考慮①語 義考慮,從語義上考慮哪些是相對固定的、可以作為框架的劃為句型;哪些是可替換的劃為 句艙,挖去。②語法考慮,從語法方面考慮,復(fù)雜的、個性化的語法現(xiàn)象都攬到句型上;句 艙即使有語法現(xiàn)象也應(yīng)該是很簡單的平列、修飾關(guān)系。另外,如果碰到從語義上考慮要作為 句艙但包含內(nèi)容較多、較長,有較多語法現(xiàn)象時,則考慮提取艙模作成復(fù)雜句艙。③詞性考慮,句艙的詞性盡可能局限于名詞、數(shù)詞、形容詞、復(fù)串,少數(shù)情況才考慮其它詞類(如動 詞、副詞等)。④代表性考慮,句型是一類句子的框架結(jié)構(gòu)部分,應(yīng)當(dāng)盡可能大地增大代表性, 其前題是留作句型部分不能太少,太少了有礙句型的檢出。同時應(yīng)注意代詞,把它納入句型 或者句艙直接影響代表性和實用性。操作專家經(jīng)過上述四方面的考慮后才挖去句艙,做到恰 到好處。
3.意群串層面語意比對整理
組織專家對繼句型層面語意比對整理步驟后的數(shù)據(jù)再進(jìn)行意群串層面語意比對整理的
步驟
意群串層面的比對接續(xù)句型層面比對整理之后,針對句艙利用"句艙整詞系統(tǒng)"進(jìn)行; 語料庫A是其輸入,該系統(tǒng)也由專家操作。首先①讀句對,讀入語料庫A的一個記錄,即經(jīng) 過句型采集,以型例結(jié)合型式存在的一個句對。然后系統(tǒng)從左到右②取句艙,即取出句型最 左邊的句艙內(nèi)容(句艙序號保留不變也不理睬)。再利用意群串庫進(jìn)行③切配標(biāo),即對當(dāng)前句 艙內(nèi)容,利用A語詞匯切分B語,將A、 B語已經(jīng)配對詞義相等的詞串標(biāo)出。然后④判句艙, 即判定當(dāng)前內(nèi)容屬于簡單句艙還是復(fù)雜句艙。如果是簡單句艙跳至意群對齊下續(xù);如果不是 擬作復(fù)雜句艙,進(jìn)行試⑤配艙模,如果庫中沒有查到,專家認(rèn)定要提取新艙模,專家干預(yù)作 出新艙模。然后型例配,以艙模、艙眼混合的形式考測艙眼。簡單句艙或艙眼有的A、 B語 詞串之詞意完全相等;如果不等,接續(xù)⑥意群對齊,意群對齊操作即通過增補詞義;加減意 群串長度;組復(fù)串等方法使多文種詞匯在意群上對齊。然后將它們納入當(dāng)前句艙或當(dāng)前艙眼, 如果是艙眼,接著把該艙模上的艙眼全部意群對齊完畢,也就是當(dāng)前句艙完成。然后⑦納入 標(biāo)記,將它們作出標(biāo)記,納入句型當(dāng)前句艙之空位上。然后判斷當(dāng)前例句的句艙是否全部處 理完畢,不是跳②進(jìn)行下一個句艙的操作;如果當(dāng)前句已經(jīng)完成,系統(tǒng)進(jìn)行一些格式檢査, 然后⑧保存,將上述經(jīng)過意群對齊處理、已經(jīng)詞義對等的意群文字串存入意群串庫(含有意 群碼、中串、英串、俄串等字段);把新作艙模存于艙模庫(含艙模碼、中模、英模、俄模等 字段)。把整個例句以型例結(jié)合的形式存入語料庫B;然后跳①再讀入下一個樣本句對,進(jìn)行 新一輪的操作。語料B與語料A的庫結(jié)構(gòu)完全相同;不同的是語料B所保存的是經(jīng)過意群串
層面比對的,句艙里面的內(nèi)容A、 B語是在"意"上相等、統(tǒng)一的意群文字串;再一個不同
是復(fù)雜句艙還含有艙模號。
意群串層面比對整理的要點是意群對齊,意群對齊是面向句艙的,包括①.依照實例延伸、
增補詞義;②不改變原有字、單詞的前提下加減意群串長度,便于拼接;(D粘帶附隨詞串; 詞形變化增補詞義;⑤組復(fù)串;參照上文簡單句艙的定義和解釋,對于一些內(nèi)容較多的句 艙,應(yīng)通過意群對齊將它們變?yōu)?除去一些虛詞只《三個詞串的"簡單句艙。另一種情況是 將它們作為復(fù)雜句艙提取艙模,然后艙眼也一樣是"除去一些虛詞只《三個詞串的"了。 提取艙模還是織復(fù)詞的選擇是有近似句型的框架結(jié)構(gòu),其中有如同句艙可以用其它詞串代 替的情況進(jìn)行提取艙模,以艙模、艙眼處理。無法提取艙模的利用組復(fù)詞處理。總之目的是 使多文種詞匯在意群上對齊。. .
4. 艙容檢測
對句型、意群串兩個層面語意比對整理所得數(shù)據(jù)分別建庫保存并進(jìn)行相應(yīng)檢測的步驟 上文對句型、意群串兩個層面語意比對整理所得數(shù)據(jù),已經(jīng)述及把雙語的小習(xí)語對、句
型對、意群串對和艙模對分別存入習(xí)語庫、句型庫、艙眼庫(意群串庫)和艙模庫;以及其它
一些中間數(shù)據(jù)也同時存入了相應(yīng)庫中。
5. 型例比指標(biāo)
利用型例比指標(biāo)控制自第三文種開始每加入新文種進(jìn)行新一輪句型、意群串層面語意比對整理的步驟
上文提及,要收集足夠大的語料樣本,具體尺度如何;組織專家進(jìn)行句型、意群串兩個 層面比對整理工作要做多少;什么時候才可以加入新文種。解決這些問題,主要看型例比如 何而定。可以說組織專家比對整理工作開始階段,幾乎是每增加一對樣本例,同時也增加了 一個句型。句型數(shù)除以例句數(shù)=1, =100%;隨著工作量的增加,句型的增加越來越慢,例 句數(shù)增加越來越快。當(dāng)?shù)扔?%時就可以考慮語料樣本足夠大,可以將專家比對工作告一段 落,可以考慮加入新文種。以型例比作為指標(biāo)控制這個過程。
6. 整庫編碼
對于建庫保存并經(jīng)過檢測的數(shù)據(jù)統(tǒng)一進(jìn)行編制意通代碼的步驟
上文述及建庫保存并經(jīng)過檢測,需要編碼的信息集中在句型庫、艙眼庫、艙模庫和習(xí)語 庫等四個庫內(nèi)。該步驟利用"整庫編碼系統(tǒng)"針對這四個庫進(jìn)行。這四個庫是數(shù)據(jù)準(zhǔn)備步驟 的結(jié)果,存放著不同語言文字之間字、詞、句表意得以對等和統(tǒng)一的句型和意群文字串等數(shù) 據(jù)和信息。其中,①句型庫存放句型,含有句型類屬、句型碼、中型、英型、俄型等文種型 字段;至少包含句型類屬、句型碼、某一文種句型字段。它的每一個記錄存貯相同語意的句 型,其中句型類屬、句型碼兩個字段的內(nèi)容是面向世界,跨語種的;其它如中型、英型、俄 型等字段分別存放各文種相應(yīng)的句型結(jié)構(gòu)框架,它們是面向各種自然語言的。句型庫可以根 據(jù)需要分成若干分庫,分庫可以僅含句型碼、某一文種句型兩個字段。②艙眼庫(又稱意群庫) 存放意群文字串,意群文字串來自句艙、也是用以填充句艙的內(nèi)容。艙眼庫含有意群碼、簡 釋、中串、英串、俄串等文種串字段;至少包含意群碼、某個文種串字段。其中意群碼字段 存放意群的編碼,其內(nèi)容是面向世界、跨語種的;其它某串字段是存放某文種意群串,是面 向某文種的。艙眼庫一個記錄存放一個意群,該意群的簡潔解釋,以及這個意群在各語種里 的意群文字串。艙眼庫也可以根據(jù)需要分成若干分庫,分庫可以只含意群碼、某語串兩個字 段。另外還可以根據(jù)單串、復(fù)串或者意群領(lǐng)域分類來組成分庫,供不同場合應(yīng)用。③艙模庫 存放艙模,包含艙模碼、中模、英模、俄模等語種模字段。艙模庫一個記錄存放相同語意的 各語種相應(yīng)艙模。它也可以近似句型庫一樣根據(jù)需要分成若干分庫。④習(xí)語庫存放小習(xí)語, 包含小習(xí)語碼、中習(xí)、英習(xí)、俄習(xí)等語小習(xí)語字段。小習(xí)語庫一個記錄存放語意相同的小習(xí) 語以及在各語種里的表現(xiàn)形式。小習(xí)語庫的內(nèi)容來自句型采集操作過程中,有些過于簡短不 便利用句型、句艙方法比對整理、以句子型式存在的列為小習(xí)語,存入小習(xí)語庫。利用"整 庫編碼系統(tǒng)"對上述四庫經(jīng)整理后進(jìn)行統(tǒng)一⑤編制意通代碼。意通代碼為四字節(jié)定長16進(jìn)制 代碼。其中左起第1 2字節(jié)為高位,代表組或類的編碼;左起第3 4字節(jié)為低位,用以對 組或類中的各成員進(jìn)行編碼。高位、低位當(dāng)中的0000H、 FFFFH兩個碼為空,不等于0000H 和FFFFH的編碼為有效編碼。詳見下文實施例。
上文數(shù)據(jù)準(zhǔn)備的步驟說明完畢。
下文7 9步驟為本發(fā)明方法實施應(yīng)用的步驟。實施應(yīng)用是為了解決現(xiàn)有技術(shù)以字符編 碼產(chǎn)生的文本文件只能供各自文種的人們讀寫、交流的技術(shù)問題;利用面向句型、意群串等
編制的意通代碼生成多文種語意互通的意通文本的技術(shù)手段;用以產(chǎn)生不同文種的人們可以
利用各自母語進(jìn)行讀、寫意通文本來進(jìn)行跨語種交流的技術(shù)效果。實施應(yīng)用先后涉及"某語 生成意通文本系統(tǒng)"、"意通文本某語讀出系統(tǒng)"和"跨語種交流網(wǎng)絡(luò)系統(tǒng)"。下面以步驟結(jié)合
系統(tǒng)進(jìn)行說明
7. 利用意通代碼生成意通文本
用于接受用戶每輸入一個母語句子或者向傳統(tǒng)文本文件每讀入一個母語句子后利用意 通代碼將其轉(zhuǎn)換生成意通文本的句子型式并生成意通文本,即"某語生成意通文本系統(tǒng)"的步驟
本發(fā)明目的述及利用意通代碼生成特有同一的磁盤文件,之所以"特有"是可供多文種 用戶利用各自的母語進(jìn)行讀寫的,之所以"同一"是傳遞相同語意的不同文種句子生成跨語 種文句是同一的。不同文種的人們利用各自的母語進(jìn)行書寫,生成意通文本是借助"某語生 成意通文本系統(tǒng)"而實現(xiàn)的。某語生成意通文本系統(tǒng)是提供給某語用戶,也就是背景技術(shù)中 涉及到的用戶和不同文種的人們。該系統(tǒng)面向不同文種的人們相應(yīng)地分為若干種語言版本, 例如面向中國人的是漢語版,即"漢語生成意通文本系統(tǒng)";面向英美人們的是英語版,"英 語生成意通文本系統(tǒng)"等等。意通文本生成的過程其實是一個編碼的過程,即把原文文本編 制成意通代碼的過程。
意通文本生成系統(tǒng)可以提供給用戶直接輸入母語句子來生成意通文本;也可以把已經(jīng)使 用傳統(tǒng)文字編輯軟件生成的文本文件轉(zhuǎn)換成意通文本。不管是輸入母語句子還是對文本文件 進(jìn)行轉(zhuǎn)換都是以句子為單元進(jìn)行的。本發(fā)明構(gòu)思意通文本生成系統(tǒng)①讀入句,讀入一個句子 或者接受輸入一個句子。②查習(xí)語,查找這個句子是否小習(xí)語,如果是,從習(xí)語庫取出該文 種的小習(xí)語句顯示輸出,同時把該記錄的小習(xí)語碼寫入意通文本緩存區(qū)(如下簡稱寫入文件)。 如果不是;③配句型,利用句型庫,查找出與當(dāng)前句最匹配的句型,給出版本文種的句型。 然后④套句型,把當(dāng)前句子套入該句型,變成型例結(jié)合形式。這當(dāng)中如果遇到連續(xù)句艙,系 統(tǒng)給出由用戶干預(yù)把相連的句艙分開。至此人、機(jī)雙方都確認(rèn)了當(dāng)前句型后,把該句型碼寫 入文件。接著⑤取句艙,在型、例結(jié)合形式上取出左邊的句艙內(nèi)容,根據(jù)當(dāng)前句艙標(biāo)志形成 句艙序號,把句艙號寫入文件。然后判斷當(dāng)前句艙是否簡單句艙。是簡單句艙跳下⑦;否則 利用艙模庫⑥配艙模,選出最好匹配的艙模,把艙模碼寫入文件。然后⑦詞義確定,即對當(dāng) 前句艙的詞串從左到右逐條確定其詞義,多義對由用戶干預(yù)確定。詞義確定應(yīng)有意群串庫的 支持。當(dāng)前詞義確定后,從庫中取出該意群碼,把該意群碼寫入文件。如果意群串庫査無該 詞時即為⑧特別串,表示它是用戶的自造詞,系統(tǒng)接受用戶的解釋和注解,把該詞串和解釋
寫于文件頭,并首加新串標(biāo)寫入文件。這⑦ ⑧的^:程可能需要重復(fù)多次;其內(nèi)容屬于句艙
還是艙眼,系統(tǒng)有控制,如果是艙眼,系統(tǒng)還要實時地給出艙眼序號。當(dāng)當(dāng)前句艙內(nèi)容全部 寫出后,又跳上⑤進(jìn)行下一個句艙的操作。全句的句艙全部操作完畢,再跳上①進(jìn)行下一個 句子的操作或轉(zhuǎn)換。當(dāng)整篇文章轉(zhuǎn)換或書寫結(jié)束,系統(tǒng)將上述意通文本緩存區(qū)的內(nèi)容存盤生 成意通文本。意通文本生成系統(tǒng)運行結(jié)束。
意通文本由意通代碼組成。更具體地說意通文本由句型碼、意群碼、習(xí)語碼、艙模碼、 句艙序號、艙眼序號、新串標(biāo)和換段符等組成。這些碼可以代表多種語言文字;不同文種的 意通文本生成系統(tǒng)生成的意通文本一樣是這些碼,所以只要是語意相同的文章所生成的意通 文本是一樣的。這是"同文"之一。
8.意通文本的讀出
當(dāng)用戶讀出意通文本時,根據(jù)意通文本的意通代碼給出用戶母語即"意通文本某語讀出" 的歩驟. .
意通文本的讀出是借助于"意通文本某語讀出系統(tǒng)"實現(xiàn)的,意通文本讀出系統(tǒng)也是提 供給用戶,也是背景技術(shù)中涉及到的用戶和不同文種的人們。該系統(tǒng)面向不同文種的人們也 相應(yīng)地分為若干種語言版本。例如面向中國人的是漢語版,即"意通文本漢語讀出系統(tǒng)";面 向英美人們的是英語版,"意通文本英語讀出系統(tǒng)"等等。
意通文本的讀出比意通文本生成要快捷得多。它就是生成的逆過程,屬于一個解碼的過 程。①讀句操作,向意通文本逐個意通代碼地讀入,當(dāng)下一個是句型碼或者是習(xí)語碼時表示 當(dāng)前句已經(jīng)讀完。讀入的句放在讀入緩存區(qū),然后②取習(xí)語,如果讀入的僅是一個習(xí)語碼,到習(xí)語庫,取出該習(xí)語碼相應(yīng)版本文種字段的小習(xí)語,顯示輸出,重復(fù)①。如果是句型碼, ③取句型,到句型庫取出該碼相應(yīng)版本文種的句型顯示輸出,同時置入句緩存。④取句艙, 在句緩存內(nèi),從左到右取句艙,即取出當(dāng)前句艙的標(biāo)號,然后根據(jù)這個標(biāo)號到讀入緩存區(qū)把 當(dāng)前句艙的代碼內(nèi)容全部取出,如果這里含有艙模碼,就 取艙模,把它置入艙緩存。后面 只有意群碼和新串標(biāo),分別取出相應(yīng)版本文種的意群串,把它填入當(dāng)前句艙或艙眼。至此, 專業(yè)人員已經(jīng)清楚,不必過細(xì)。意通文本讀出比生成快捷得多,因為讀出是解碼過程不必戶 干預(yù)。但是有⑥詞序干預(yù)和丟失補償是需要用戶干預(yù)的。上文述及簡單句艙和艙眼應(yīng)是《3 個意群文字串,這三個串的次序在上文是忽略的,因而可能不符合讀出語的習(xí)慣,需要用戶 干預(yù)調(diào)整。⑦丟失補償,應(yīng)是《3個意群文字串,是以一些虛詞忽略不計為前提的,例如中 文的量詞,英文的冠詞等等。這些丟失了的在意通文本讀出時給以補償。⑥ ⑦需要用戶干 預(yù);也可以不需要用戶干預(yù),采取系統(tǒng)自動方式。如讓系統(tǒng)根據(jù)上下文詞串的關(guān)聯(lián)查表進(jìn)行 自動補償或詞序干預(yù)。還可以是二者的結(jié)合方式,能自動的全自動,萬一不能自動的再讓用 戶干預(yù)。這⑥ ⑦還有一個不必干預(yù)的情況是當(dāng)用戶讀者要求讀出速度、不介意時也可不必 干預(yù)。因而這些功能是讓用戶可選的。
9. 跨語種交流網(wǎng)絡(luò)
將上述某語生成意通文本和意通文本某語讀出合并成一個某語版本,由多個某語種版本 組成"跨語種交流網(wǎng)絡(luò)系統(tǒng)"的步驟
①某語版本,如面向中國人的是漢語版,稱漢語意通文本;面向英美人們的是英語版, 稱英語意通文本;如此類推如俄語意通文本、日語意通文本等等。每個語種版本由某語生成 意通文本系統(tǒng)和意通文本某語讀出系統(tǒng)組成。每個語種版本提供給相應(yīng)語種的人們使用。相 應(yīng)語種的人們是相應(yīng)語種版本的用戶。若干個①某語版本、②網(wǎng)絡(luò)服務(wù)器、③跨語種交流服 務(wù)中心共同組成"跨語種交流網(wǎng)絡(luò)系統(tǒng)"。
10. 專用裝置
實施本發(fā)明方法的專用裝置,包括與現(xiàn)有技術(shù)相似的信號接收、信號發(fā)射、語音輸入、 語音合成輸出部件;還包括實施本方法的意通文本母語讀出、母語文句、母語生成意通文本 的特有部件。
以下1 6節(jié)為本實施例的數(shù)據(jù)準(zhǔn)備的步驟
l.樣本語料
在眾多文種當(dāng)中如何先后選取哪些文種作為雙語樣本對,應(yīng)當(dāng)考慮三個方面的問題。一 是文種的特點差別;二是文種人口數(shù);三是科技發(fā)展和在世界上的影響力。我們首先選取英 語和漢語兩個文種,各自代表拼音文字和表意文字;這兩個文種屬于占世界人口一半的六大 文種之首;也是世界范圍具有較大影響力的自然語言。以英、漢語作為第一對雙語樣本對。 雙語樣本對含A語、B語。當(dāng)?shù)谌N語言文字開始加入后,在A、 B兩語當(dāng)中, 一個應(yīng)是已 經(jīng)經(jīng)過比對整理的,另一個是新加入的文種。
樣本語料準(zhǔn)備好之后。接下來的工作是組織專家利用"句型采集系統(tǒng)"和"句艙整詞系 統(tǒng)",(均采取人機(jī)交互的方式)對這些多文種樣本語料進(jìn)行句型、意群串兩個層面的語意比 對整理。
下面以漢語、英語為例展開說明。取上文所述同一文章不同文種版本其文件名以文號相 關(guān)連的雙語樣本對,"0001英、0001漢"、"0002英、0002漢"……作為"句型采集系統(tǒng)"的 輸入;英語為A語,漢語為B語。
2.句型層面的語意比對整理
組織專家進(jìn)行句型層面的比對整理是利用"句型采集系統(tǒng)"進(jìn)行的。我們把英語作為A語;漢語作為B語。準(zhǔn)備好雙語樣本對。然后專家操作句型采集系統(tǒng)。如圖2所示,模塊201 開始,讀雙語樣本對202,讀入A、 B語樣本對文件放置緩存區(qū),自動斷句203根據(jù)句末符號
(如英文".:!?"、中文"。! ?")分別切分語句置于操作窗口。專家干預(yù)204讓專家讀句 并干預(yù)走向,如果專家認(rèn)為自動斷句有誤,可以通過205點擊203的顯示按扭將讀入的某語 句子逐字(詞)延長或退回緩存區(qū)以縮短之;如果專家認(rèn)為讀入的句對正確。例如讀入的是
"How do you do 您好!"這對句子,由于過于簡短,不能用句型、意群串兩個層面比對整
理處理的句對,符合小習(xí)語定義,專家干預(yù)使判習(xí)語206作為小習(xí)語存入習(xí)語庫207。例如
讀入的是"the fisherman consents to return the feather suit, on condition that fairy dance and play
heavenly music for him .在仙女為他跳舞并演奏天上的樂曲的條件下,漁夫答應(yīng)歸還羽衣。"
句例對208把它們作為句例對標(biāo)注處理。然而自動切配標(biāo)209借助于意群串庫211的支持,
進(jìn)行自動切配標(biāo)操作,該操作的特征是把A語從左致右逐個單詞取下,查意群串庫211,并
從中取出B語一個對應(yīng)詞串,如果該對應(yīng)詞串在例句對B語當(dāng)中找到將其作出標(biāo)記,否則再
從意群串庫211中取出B語下一個對應(yīng)詞串進(jìn)行比對,直至全句結(jié)束。然7g專家理解干預(yù)210
向?qū)<姨峁┮粋€交互的窗口,專家可以點擊補查句例對任何一個詞串,直至完全理解這個句
例對。這段操作是為專家讀句而備用。然后,模塊自動配句型212經(jīng)213利用句型庫224的
支持,替這個句例對査找匹配句型。配句型的特征是先將A語例句從左至右逐字或單詞取出,
掃描并列出含有該字或單詞的句型;再把這些句型以句艙為界分為若千段,各段可以依次在
例句中找到的句型為中選找到,否則為沒找到。如果找到由214判斷后跳轉(zhuǎn)到220運行;如
果沒有找到匹配句型則進(jìn)入215 219由專家千預(yù)新編句型的模塊群操作。在這里句型選取
215由專家選定將要新編句型的類屬,作好新編句型的準(zhǔn)備,然后挖句艙專家通過216挖
去A語第一個句艙,挖去部分替換為[l],然后通過217在B語挖去相同語意的第一個句艙;
挖去的同樣替換為[l]。該例變?yōu)?the [1] consents to return the feather suit, on condition that fairy
dance and play heavenly music for him .在仙女為他跳舞并演奏天上的樂曲的條件下,[l]答應(yīng)
歸還羽衣。"如果編輯結(jié)束否218沒有得到專家作完全句對的信息,由219啟動下一輪句船挖
出的操作,重復(fù)216 217;這一輪挖去部分替換為[2],再下一輪替換成[3],該例變?yōu)?the[l]
consents to return [2], on condition that [3].在[3]的條件下,[1]答應(yīng)歸還[2]。"以此類推直至專
家點擊完成句型編輯;經(jīng)這些操作挖去句艙后剩下含有[N]的部分即是句型。編輯結(jié)束否218
判定挖句型已經(jīng)結(jié)束,轉(zhuǎn)型例配220, 220將這個新編的句型,或是由214跳轉(zhuǎn)來時庫中找到
的句型和正在操作的例句進(jìn)行型例配,即把這一句例對的各個部份對號入座到它們的句型上
去,然后由221顯示輸出,該例變?yōu)?the 1 [fisherman] consents to return 2[the feather suit], on
condition that 3[fairy dance and play heavenly music for him].在3[《山女為4也瑕fe舞并演奏天上的
樂曲]的條件下,1[漁夫]答應(yīng)歸還2[羽衣]。"修改或確定222給專家一個修改的機(jī)會,待專家
確定后,保存數(shù)據(jù),這型例配后的句型、句例結(jié)合型式被分別存入語料庫A223的A語例、
B語例字段上;新編句型"the [1] consents to return [2], on condition that [3].在[3]的條件下,。"被分別存入句型庫224的中型、英型字段。下班否225如果沒有接到專家
要下班的信息,跳回到自動斷句203進(jìn)行下一輪句對的操作;如果接到下班信息跳轉(zhuǎn)226作
一些掃尾操作(例如將緩存區(qū)的雙語樣本對未讀完部分以原文件名回寫存盤),結(jié)束運行。
句型層面比對整理的要點是如何挖去句艙,確定句型。挖句艙要求專家掌握的原則就是
保證可操作性的前提下追求代表性??刹僮餍约醋岆娔X無需理解、分析做"句義=句型+句
艙"的操作。代表性即句型涵蓋的句例多少,可涵蓋句例越多代表性越好。要求專家掌握的 原則再舉例說明如下
多語對語義考慮原則從多語對、至少是雙語對的語義上考慮。如果條件許可,自然是取盡可能多的語對同時 進(jìn)行句型提??;正是因為不可能才要求至少是雙語對進(jìn)行(更多種語對有待以后的句型提升進(jìn) 行)。如
We used to go to the movies about once a week.
通常我們每周大約去看一次電影。
這個句對,英文可以把"go to the movies",作為一個句艙,但是中文相應(yīng)的"看電影" 中間插有"一次"。"once a week"作為一個句艙,中文的"每周一次"又被其它詞隔開。這 兩種情況都不行,必須在雙語對語義上考慮均可才行。這個句對可
1 [We] used to 2 [go to the movies about once] a week.
通常l[我們]每周2[大約去看一次電影]。
代表性考慮原則
句艙的多少、大小直接影響句型的代表性。我們的原則是保證可操作性的前提下追求代 表性。關(guān)于句艙大小以何為宜,下文解說。這里先解釋一下代表性的問題 How many are there in your family 你家有幾口人?
這個句對如果只把"your family"作為句艙;可用"his family; John's family; your class" 等等填充。但是由于"Howmany"與"family"語義有關(guān)聯(lián)。中文對于"家"問"幾口人"; 但對于"班級"應(yīng)問"多少學(xué)生",或"多少人"。這樣只把"your family"作為句艙代表性 就差。如果把"Howmany"與"family"作成兩個句艙,不但語意上可以相互照應(yīng);而且代 表性也增加了。
樸質(zhì)準(zhǔn)確的考慮原則
鑒于意通文本的定位是"樸質(zhì)準(zhǔn)確地傳遞語義",當(dāng)挖句艙顧此失彼而無耐時,可以修 改華麗的譯句為樸質(zhì)直譯,再挖句型。如
There can never be too much deception in war .
兵不厭詐。
該例譯句"兵不厭詐"既華麗又簡練,但句型采集難以操作。把中文改為樸質(zhì)直譯"戰(zhàn) 爭中再多的詭計也不為過。"再作挖句艙處理-
There can never be too much 1 [deception] in 2[war]. 2[戰(zhàn)爭]中再多的l[詭計]也不為過。
For all their great size , the elephants moved absolutely noiselessly .
盡管象的身軀龐大,它走動起來卻一點聲音也沒有。
這"一點聲音也沒有";很難落實到句型或某個句艙;將它改為樸質(zhì)直譯"走動起來卻 靜靜地"問題便迎刃而解了
For all their 1 [great size], 2[the elephants] 3[moved] absolutely 4[noiselessly].
盡管2[象]的l[身軀龐大],2[它]3[走動]起來卻4[靜靜地]。
語法簡繁的原則. .
從語法方面考慮,復(fù)雜的、個性化的語法現(xiàn)象都攬到句型上;使句艙內(nèi)語法極為簡單。 上面所舉的例子不難明白這一點。在具體操作上可以適當(dāng)增加句艙個數(shù)來降低句艙復(fù)雜程度, 盡量少作大句艙(詳下文)。
l[She] never 2 [comes] but l[she] 3 [brings something for the children].
l[她]沒有一次2[耒]不是就3[為孩子們帶來一些東西]。
如增加句艙,把句艙[3]改成[3][4]復(fù)雜性就降低了。如
l[She] never 2[comes] but l[she] brings 3[something] for the 4[children].l[她]沒有一次2[耒]不是就為4[孩子們]帶來3[—些東西]。 又如下例
1 [He] did not see that 2 [the longer he spoke the less his people believed him]. 1{他}沒有看出來,2[他說得越久,他的同族人越不相信他}。 增加句艙數(shù),改[2]為[2][3]加[4][5]:
1 [He] did not see that 2 [the longer] 3 [he spoke] the less 4 [his people] 5 [believed him]. l[他]沒有看出來,3[他說]得越2[久],4[他的同族人]越不5[相信他]。 1 [She] saw playing in 2[the garden] a group of children 3(aged from six to ten]. l[她]看到一群大約3[六歲到十歲之間]的孩子在2[花園]里玩耍。 把句艙[3]增加為句艙[4][5]:
1 [She] saw playing in 2[the garden] a group of 3[children] aged from 4[six] to 5[ten]. l[她]看封一群大約4[六]歲到5[十]歲之間的3[孩子]在2[花園]里玩耍。 詞性和可替換性的原則
句艙是可以被其它詞匯替換的部分,可替換的詞匯越多,可替代性越強;間接地使句型 的代表性加強。句艙內(nèi)詞匯的詞性盡可能局限于數(shù)詞、名詞、形容詞、復(fù)串,少數(shù)情況才考 慮其它詞類(如動詞、副詞等)。如果說要給做句艙的詞類排優(yōu)先次序,那首先就是數(shù)串、專 用串,次則名串、形容詞串……,最后考慮動詞串。最不考慮的是介詞和連詞。也就是介詞、 連詞幾乎都納歸句型部分。
句型詞不宜太少的原則
要求句型釆集達(dá)到句艙內(nèi)語法極為簡單,復(fù)雜語法現(xiàn)象盡攬于句型;挖去句艙后留下的 句型,所含句型詞不宜太少,因為太少了不便句型的檢出。
最理想的情況是每個句艙之前后都有句型詞,也就是沒有連續(xù)句艙的情況。原則是任何 一個句型,在任何文種里的框架結(jié)構(gòu)必須有一個或一個以上的文字串作為句型詞。不允許在 多語對當(dāng)中,某文種甚至沒有句型詞,中文因為最簡潔,這種情況時有發(fā)生, 一但發(fā)生就得 返工,必須避免。
有時連續(xù)出現(xiàn)幾個句艙,即連續(xù)句艙問題。還有是句艙的大小,盡量少作大句艙問題, 這些都與句型詞不宜太少相關(guān),這些情況在相關(guān)標(biāo)題下闡述。 多連續(xù)句艙盡量避免的原則 1 [I] 2 [get to work] at 3 [nine o'clock] every morning . 每天早上3[九點鐘]1[我]2[開始工作]。
上例英連續(xù)出現(xiàn)[1][2]兩個句艙;相應(yīng)的中文則變?yōu)閇3][1][2]三個連續(xù)句艙。二個或二個 以上句艙相連稱連續(xù)句艙;三個或三個以上句艙相連稱多連續(xù)句艙。連續(xù)句艙不但具有句型
詞太小之弊,套句型還必須人工千預(yù)。特別是連續(xù)三個或更多的情況應(yīng)盡量避免。如上例減
少到兩個句艙就無此之慮了
I 1 [get to work] at 2[nine o'clock] every morning . 每天早上2[九點鐘]我l[開始工作]。 盡量少作大句艙的原則
上文述及句艙有大有小,最小的句艙只含一個意群文字串;最大的句艙可以包含一個分 句或從句。我們在作句型采集時,宜盡量少作大句艙。那么,如何掌握這個盡量少,以何為 尺度呢?以"只能這樣"為準(zhǔn)。例如下面句對
Can, you guess 1 [what I was doing] 2[this morning] 你能猜到2[今天上午]l[我在做什么]嗎?I have forgotten 1 [what time] he said he 2 [had dinner] 3 [last night].
我忘記他說他3[昨天晚上]是1[什么時候]2[吃的晚飯]。
What were you doing when 1 [I called you on the telephone]
l[我打電話給你]的時候,你在做什么?
I have forgotten 1 [what he said his address was].
我忘記l[他說他的住址在哪里了]。
上面四個句對,分別由what、 when引出一個分句。第一對可以把主謂、時間狀語分開 作成兩個句艙。第二對可以作成三個句艙。第三對不能將狀語分開,只能作成一個句艙;第 四對What針對表語提問,也不能分開,只能作成一個句艙。第三、四兩對都"只能這樣", 這就是少作大句艙要把握的尺度。
挖句艙后的審定原則
挖句艙之后還得認(rèn)真審定將句型、以至每個句艙分別審定。先看句型義, 一定要都來 自句型詞,與句艙內(nèi)容無粘連。然后審定每個句艙,它們必須是可替換的,與句型分開的,
不與句型義有任何粘連。如果某句艙與某句型詞有所粘連,必須修改之。例如
When do you think 1 [the meeting will be held] * 你認(rèn)為l[會議在什么時候召開]
這樣劃句型、句艙不對,句艙內(nèi)容"什么時候"與句型詞"When"有粘連。應(yīng)修改為-When do you think 1 [the meeting] will be 2 [held] 你認(rèn)為l[會議]會在什么時候2[召開] 3.意群串層面的語意比對整理
意群串層面的比對接續(xù)句型層面比對整理之后,針對句艙利用"句艙整詞系統(tǒng)"進(jìn)行; 上述語料庫A是其輸入。如圖3所示由模塊始、續(xù)301開始,該工作可以接續(xù)上次下班之 結(jié)束;也可以剛剛開始。然后讀句對302從語料庫A303中讀取句例對,這些句例對的句型、 句艙己纟圣l皮才示出。續(xù)上伊J如"the 1 [fisherman] consents to return 2[the feather suit] , on condition that 3[fairy dance and play heavenly music for him].在3[仙女為他超fe舞并演奏天上的樂曲]的條 件下,l[漁夫]答應(yīng)歸還2[羽衣]。"然而取句艙304,取下其中一個句艙(以所標(biāo)流水號順序 [l]、 [2]、 [3],兩語例句同時進(jìn)行,它們在句型中的具體位置無序)。如取下l"l[fisherman] l[漁 夫]";取2 "2[the feather suit] 2[羽衣]"依此類推。切配標(biāo)305利用意群串庫314的支持進(jìn)行 切配標(biāo)操作。該操作的^fr寺征是把A語例從左致右逐個單詞切下,査意群串庫314,并從314 中取出B語一個對應(yīng)詞串;如果該對應(yīng)詞串在例句對B語當(dāng)中找到為語義配對的詞串,將其 作出標(biāo)記,否則不配對,不作標(biāo)記;如此循環(huán),直至全句結(jié)束。然而判句艙,判斷這個正在 操作的句艙是簡單艙否?假如當(dāng)前取的是"l[fisherman] l[漁夫]",判是簡單艙306;由307 跳轉(zhuǎn)意群對齊313。假如當(dāng)前取的是"3[fairy dance and play heavenly music for him] 3[仙女為 他跳舞并演奏天上的樂曲]"。是復(fù)雜艙則下行,查艙模308利用艙模庫309進(jìn)行配艙模操作, 其特征是先將句艙內(nèi)容從左至右逐字或單詞取出,掃描并列出含有該字或單詞的艙模,再把 這些艙模以艙眼為界分為若干段,各段可以依次在句艙內(nèi)容中找到的艙模為中選找到,否則 為沒找到。查到否310,如果沒有,經(jīng)作新模311接受專家作新艙模的操作(類似句型采集215 219的操作),作成新艙模如[2] and [3] for him [1]為他[2]并[3]"。并將新作艙模分別 納入艙模庫309的中模、英模字段。如果查到否310找到匹配的艙模;續(xù)艙眼處理312將其 中艙眼的內(nèi)容提出,控制意群對齊313對整個句艙或逐個艙眼的操作,它們構(gòu)成一個小循環(huán); 313面向當(dāng)前句艙或艙眼,針對意群串庫314接受專家干預(yù)進(jìn)行意群對齊的操作。經(jīng)過意群 對齊或新作艙模后的句艙或艙眼是除去一些虛詞只《三個詞串的單元。當(dāng)意群對齊313對當(dāng)前句艙(包括復(fù)雜句艙)操作完畢后,納入標(biāo)l己315將整理后的句 艙內(nèi)容納入句型并作相應(yīng)的標(biāo)記;句對結(jié)束否316判斷全句對的句艙是否作完,如果沒有作 完,經(jīng)317跳轉(zhuǎn)取句艙304進(jìn)行下一個句艙的操作;如果作完,保存。由格式檢查318對全 句進(jìn)行格式檢査,然后存入語料庫B319。注意語料庫A當(dāng)中的句艙是方括號[];這里將它們 改為大括號{},因可能有復(fù)雜句艙,其中艙眼用方括號[]。該例為"the 1 {fisherman} consents to return 2{the—feather—suit} , on condition that 3{l[fairy] 2[dance] and 3[play heavenly music] for him}.在3{1[ 山女]為1也2[跳舞]并3[演奏天上的樂曲]}的條件下,1{漁夫}答應(yīng)歸還2{羽衣}。" 最后判斷專家下班否320,如果沒有,經(jīng)321跳轉(zhuǎn)讀入句對.302讀入下一個句例對,進(jìn)行如 上所述的新一輪操作;如果有下班決定,由結(jié)束322進(jìn)行掃尾工作,流程結(jié)束。
上述"意群對齊"的操作就是使多文種詞匯在語意上對齊。要求專家掌握的原則性措施 再舉例說明如下
依照實例、延伸或增補詞義
Nothing can be 1 [wholly beautiftil] that is not 2[usefol]. 凡是未經(jīng)2[應(yīng)用的]就不可能 l[完美]。
其中"usefiir詞義有"有用的、有幫手的、有益的",選它們都不適合;增補"應(yīng)用的" 詞義項。
l{She} was 2{strong} , for all l{she} was so 3{small} . 1{她}雖然3{瘦小},但很 2{結(jié)實}。如其中small小的,增補"瘦小"詞義項。
I am very ill.我患重病。把動詞"am"增補"患"的詞義。 Learn the truth 明白真相,Learn 增補"明白"詞義項。 不改變原有字、單詞的前提下加減串長度,便于拼接
I ask you to teach me every other day.我i青你每隔一天來教我。其中"teach"v有"i井授、 教授"詞義;減詞串長為"教"便于拼接,增加"教"詞義項。
Sttend school入學(xué);sttend加"入"詞義項,簡釋"加入";school力Q "學(xué)"詞義項, 簡釋"學(xué)校"。
粘帶附隨詞串
如"good好"粘帶成"好處、好事、好心、好用"等(中文別附隨量詞,后者另行處理)。 如"word詞"粘帶成"詞兒"等。
詞形變化增補詞義(分詞,比較級等表達(dá)的語意,增加相應(yīng)詞義)
been增補"還是、怎么樣"詞義; punished增補"受處分"詞義;
best增補"最好的"詞義; had增補"以前"詞義;
done增補"做好了、完成了"詞義; villages增補"多個農(nóng)村"詞義;
組復(fù)詞
將原有詞串以"-"相連成復(fù)詞(復(fù)串)。它們的主要目的是便于更好地體現(xiàn)詞義;以便 不同文種之間詞匯表意的對齊。主要有如下幾種情況 .
① 直接詞譯不能表達(dá)時,按意群組成復(fù)串
you were gone直譯應(yīng)是"你(是)走";"了"來源于過去式,故組成復(fù)串 "you—were—gone你走了 "
call—on—me 來訪我 knew—nothing—about_it —無所知 compelled—to—go非去不可
show—himself_in_his—true—colours現(xiàn)出原形、現(xiàn)出本色
② 以簡潔看齊,i雜表示者組成復(fù)串英"per-mu grain yield,每畝谷物產(chǎn)量";中為"畝產(chǎn)"。將英組成復(fù)串"per-mu—grain—yield", 向中看齊。又如
Late—at—night 深夜
down—to—the—countryside下鄉(xiāng)
fight_it_out—to—the_end 斗爭到底
③ 有^ti表—示事—物,或經(jīng)常性搭配的組成復(fù)串
fell—asleep入睡 knows—nothing —無所知
come—back—from—the—front 下火線(front前線,come來,back回) the—sweat—wasjouring—down 汗如雨下; pictures—it_have」ust—taken近照 put—my—finger—on 指出
④ i^義W重合i重復(fù)的組成復(fù)串
very—well 不錯; doubts—of—questions疑問;
bear_fruit結(jié)果; the—far—distance遠(yuǎn)處;
經(jīng)過上述組復(fù)詞的操作,往往^一個句艙里,部分詞串組成了復(fù)串,使部分復(fù)雜句艙變 為簡單句艙。但還有部分句艙仍然復(fù)雜,并且含有類似句型的成分。這就要提取艙模操作了。
上述"提取艙模"的操作就是把復(fù)雜句艙化簡為簡單句艙。它面對整個復(fù)雜句艙(下例 花括號內(nèi)),把類似句型部分提取出來作為艙模,類似句艙部分為艙眼(下例花括號內(nèi)的方括 號中)。 一個艙眼的內(nèi)容如同簡單句艙,也是除去一些可忽略不計的詞串外不大于三個意群文 字串。再舉例解釋如下
Where have you been since 1 {1 [I] last saw 2[you] )■
自1{上次l閨]和2[你]見面}以后,你到哪里去了?
Were l{we} 2{eloquent as angels} , yet l{we} should please some people 3 {more by
1 [listening] than 2[talking]}.
即使1{我們}有2{象天使般的辯才},也還是3{多l(xiāng)[聽]少2[講]}更使人喜歡。 When 1 {Marco Polo} brought 2{them} this information , 3{they} found it 4{too 1 [strange]
for 2[belief]}.
當(dāng)1{馬可勃羅}把這些事情告訴2{他們}時,3{他們}感到4{1[奇怪]得難以2[置 信]}。
4.艙容檢測
艙容檢測由更專的專家利用"艙容檢測系統(tǒng)"進(jìn)行。本模塊是針對句艙及艙眼的內(nèi)容 進(jìn)行檢測的有關(guān)操作。如圖4所示,由401開始,續(xù)上次402判斷是否接續(xù)上一次下班中斷 的操作,是跳轉(zhuǎn)標(biāo)志搜索411;不是轉(zhuǎn)艙容提取403, 403到語料庫B 404逐記錄讀取(一個 句對),并將其中所含句艙、艙眼的內(nèi)容取出存入艙容表405,甲、乙語分別放在A語艙容、 B語艙容字段上;相對應(yīng)的每個句艙,或每個艙眼的內(nèi)容作為艙容表405的一條記錄。如此 操作直至語料庫B 404的全部內(nèi)容、或者其中被指定的一段內(nèi)容被全部取出為止,其中也包 括它們來自語料庫B 404具體記錄的相關(guān)的信息都記錄到艙容表405上。然后由406 409進(jìn) 行一系列的檢測操作,如果出現(xiàn)不符合的情況,作標(biāo)志410在艙容表405標(biāo)志字段上作出相 關(guān)的出錯標(biāo)志。這一系列檢測操作結(jié)束后,標(biāo)志搜索411逐記錄搜索艙容表405上的標(biāo)志字 段,每當(dāng)搜索到一個有標(biāo)志的記錄,提交給糾錯操作412讓專家進(jìn)行針對性的糾錯操作例 如當(dāng)出錯來自語料庫B,可以通過庫例修改414糾正語料庫B ;當(dāng)出錯來自句型和句例,可 以通過句型句例415對句型庫420和語料庫B 404同時進(jìn)行糾正;當(dāng)出錯來自艙眼庫(意群串庫),可以通過校詞串418校對意群串庫422當(dāng)中的詞串,或倒査庫417找意群串庫422當(dāng)中 的出錯點進(jìn)行糾正;當(dāng)專家認(rèn)為把某復(fù)串改成艙模的型式更適合時,可以通過復(fù)改模416進(jìn) 行修改,并將艙模存入艙模庫421,還可以對艙模進(jìn)行糾錯。當(dāng)專家完成了標(biāo)志搜索411提 交給針對性糾錯操作412的當(dāng)前操作后,下一標(biāo)413找到并判定下一條有出錯標(biāo)志的記錄時, 411將新的需要糾錯的記錄提交給412,進(jìn)行下一輪的上述操作。當(dāng)下班否419測判到專家要 下班時,跳轉(zhuǎn)結(jié)束423作掃尾工作,本程序運行結(jié)束。
5. 型例比指標(biāo)
上文述及,當(dāng)型例比達(dá)到1%時就可以考慮將專家比對工作告一段落;加入新文種。本 實施例已如上述,在完成英語、漢語之后??梢钥紤]加入第三個文種。同樣當(dāng)加入新文種后 又達(dá)到1%時;又可以考慮加入第四個文種。等等類推。
6. 整庫編碼
由專家當(dāng)中的技術(shù)總監(jiān)操作"整庫編碼系統(tǒng)"進(jìn)行編制意通代碼的操作(上文述及句型 號,它是句型碼的預(yù)備,被存于句型碼字段,整庫后刪去,再統(tǒng)一編制的為句型碼)。意通代 碼為四字節(jié)定長16進(jìn)制代碼。其中左起第1 2字節(jié)為高位,代表組或類的編碼;左起第3 4字節(jié)為低位,用以對組或類中的各成員進(jìn)行編碼。高位、低位當(dāng)中的0000H、 FFFFH兩個 碼為空,不等于0000H和FFFFH的編碼為有效編碼。已如上文所述,存放著不同語言文字 之間字、詞、句表意得以對等和統(tǒng)一的句型和意群文字串等數(shù)據(jù)和信息;需要編制意通代碼 的是句型庫、意群串庫、艙模庫以及小習(xí)語庫等四個庫。其中面向句型庫的是句型碼。每句 型編一碼,即句型庫每記錄編一碼。代表該句型以及該句型在各文種里相應(yīng)的句型框架結(jié)構(gòu)。 其中面向意群串庫的是意群碼,每個意群編一碼,即意群串庫一個記錄編一碼。代表一個意 群以及該意群在各文種里的意群文字串。面向艙模庫的是艙模碼,每個艙模編一碼,即艙模 庫一個記錄編一碼。代表一個艙模以及這個艙模在各語種里的相應(yīng)表示。面向習(xí)語庫的是習(xí) 語碼,每小習(xí)語編一碼,即小習(xí)語庫一個記錄編一碼。表示該小習(xí)語在各語種里的相應(yīng)表示。
意通代碼為四字節(jié)定長16制編碼。其中習(xí)語碼被分配碼段高位字為FF00H FFCFH; 句型碼被分配碼段高位字為F000H FEFFH;艙模碼被分配碼段高位字為EF00H EFFFH;意群碼被分配碼段高位字為0001H EEFFH。此外,還有新串標(biāo)高位字為FFF0H, 它表示用戶新造詞匯,惑暫定的發(fā)現(xiàn)、發(fā)明新概念;專用名詞等等;它的低位第一個字節(jié)表 示該串的詞義類屬;第二字節(jié)為該串于文章內(nèi)序號;即該新串是文章內(nèi)的第幾個新串(最大 編號是256);新串及其注釋存放于文件頭內(nèi)。換段符(FFF1H 0000H),表示是文章新的自 然段開始。句艙序號(FFE0H FFEFH)表示后隋內(nèi)容是句艙內(nèi)容,該句艙在句型上左起 的序號,序號0 FH,也表示句型上的句艙數(shù)應(yīng)當(dāng)《16。艙眼序號(FFD0H FFDFH)表 示后隋內(nèi)容是艙眼內(nèi)容,該艙眼在艙模上左起的序號,序號0 FH,亦表示艙模上的艙眼數(shù) 應(yīng)當(dāng)《16。
所以意通代碼包括句型碼、意群碼、小習(xí)語碼、艙模碼、句艙序號、艙眼序號、新串 標(biāo)和換段符等。 .
"整庫編碼系統(tǒng)"如附圖5其流程由501開始。502首先對習(xí)語庫503進(jìn)行刪重、排序 等等整理性操作,并核實無誤后進(jìn)行編碼,它們的高位碼為FFE0 FFEFH。 504首先對句型 庫505進(jìn)行刪重、排序等等整理性操作,并核實無誤后進(jìn)行編碼,它們的高位碼為F000H FEFFH。 506首先對艙模庫507進(jìn)行刪重、排序等等整理性操作,并核實無誤后進(jìn)行編碼, 它們的高位碼為EF0FH EFFFH。 508首先對意群串庫509進(jìn)行刪重、排序等等整理性操 作,并核實無誤后進(jìn)行編碼,它們的高位碼為0001H EEFFH。上述操作編碼完成之后, 由510掃尾結(jié)束。以下7 10節(jié)為本實施例的實施應(yīng)用的步驟 7.利用意通代碼生成意通文本
利用意通代碼生成意通文本借助于"某語生成意通文本系統(tǒng)"實現(xiàn)。本系統(tǒng)屬于本發(fā)明 的應(yīng)用部分;根據(jù)用以生成意通文本的文種分版本;提供給各文種的人們將母語生成意通文 本之用。用戶就是操作者、原文作者。本流程如圖6 7所示,由圖6的601開始。讀入句, 源語語句讀入602以句為單位,每次讀入源語一個句子,這個讀入可以對傳統(tǒng)文本文件進(jìn)行 讀入,也可以接受用戶實時的句輸入。然后査習(xí)語,査習(xí)語過程有習(xí)語庫605的支持,査找 判斷當(dāng)前讀入句是否為小習(xí)語,如果習(xí)語否603判斷是小習(xí)語,即在習(xí)語庫中査找到當(dāng)前小 習(xí)語,然后將同記錄的小習(xí)語碼字段內(nèi)容取出,給出習(xí)語碼604 (用斜體提示給出的是上文 述及的16進(jìn)制4字節(jié)意通代碼形式,下同),即經(jīng)606,接點C給出到圖7的生成意通文本 文本722。如果不是小習(xí)語,這里以提供給英、美人們把英語生成意通文本的版本為例,如 當(dāng)前讀入的不是小習(xí)語,是"the fisherman consents to return the feather suit, on condition that fairy dance and play heavenly music for him ."。則下轉(zhuǎn)配句型607對源語句子進(jìn)行配句型的操 作,配句型有句型庫608的支持。到句型庫找出與當(dāng)前句子匹配的句型,所配句型判斷,唯一 否609,如果不唯一,干預(yù)選出610接受用戶干預(yù),選出最匹配的句型;如果句型是唯一中 選,如與當(dāng)前句匹配的"the [1] consents to return [2], on condition that [3]."下轉(zhuǎn)套句型,源 語語句套入句型611,即將源語句子套入中選句型,當(dāng)前句成為"the 1 [fisherman] consents to return.2[the feather suit], on condition that 3 [fairy dance and play heavenly music for him]:"。套入 過程中,如果有異義612 (例如連續(xù)出現(xiàn)兩個句艙時機(jī)器將無法判斷切分點而產(chǎn)生異義),如 果存在異義由干預(yù)確定613接受用戶干預(yù)、確定。如果沒有異義,下轉(zhuǎn)接點B到圖7的給出 句型碼701,經(jīng)704給出句型碼于生成意通文本文本722。然后下轉(zhuǎn)取句艙702,從上述套入 源語句子的型例結(jié)合形式中由左到右,依次取出一個句艙,如第一個句艙"1 [fisherman]"; 給出該句艙序號703 ,即以雙字節(jié)代碼形式經(jīng)704給出到生成意通文本文本722。然后下轉(zhuǎn) 判斷是否簡單艙705,如果當(dāng)前句艙屬于簡單句艙,下轉(zhuǎn)712;如果不是則為復(fù)雜句艙,如 "3[fairy dance and play heavenly music for him]";進(jìn)行配艙模706操作,借助艙模庫707的支 持。査到艙模后,判斷所配艙模是否唯一 708,如果不唯一,接受用戶干預(yù)709,選出唯一的 準(zhǔn)確艙模;如果艙模唯一,如"[l] [2] and [3] for him",將該句艙內(nèi)容套入艙模"l[fairy] 2[dance] and 3[play heavenly music] for him"套入艙模并給出該艙模碼710,把艙模碼給到生成意通文 本文本722。然后由左到右依次取出一個艙眼,并給出艙眼序號711。再下轉(zhuǎn)對當(dāng)前句艙或當(dāng) 前艙眼的內(nèi)容逐條詞匯(意群文字串)進(jìn)行詞義確定712,詞義確定有意群串庫713支持, 詞義確定需要時用戶可以干預(yù);如"fairy"的詞義有"仙女、小仙子、虛構(gòu)的",這里干預(yù)選 "仙女"(這是以漢釋英型式下的詞義確定)。詞義確定后給出該意群碼714。如果詞義確定 的操作得不到意群串庫的支持,即該庫查出無。則將其判斷為特別串715,它們可能是意群 串庫還沒有收錄到的專有名詞、意群文字串,.或者是用戶作者所發(fā)明、創(chuàng)造出來的新詞匯。 這些特別串沒有意群碼,由源語字符串組成,由新串標(biāo)標(biāo)帶,新串標(biāo)高位雙字節(jié)是FFF1H, 低位雙字節(jié)是該串長度,其長度是四字節(jié)意通代碼的最小整倍數(shù);這些處理在特別串處理和 給出716模塊中完成。在這特別串的處理中,還接受輸入用戶注釋717;如果715判斷不是 特別串,下接判斷當(dāng)前句艙或當(dāng)甜艙眼(是否)結(jié)束718,如果當(dāng)甜艙眼或句艙還沒有結(jié)束,跳 轉(zhuǎn)712進(jìn)行下一詞匯的詞義確定操作;如果當(dāng)前艙眼已經(jīng)結(jié)束則眺轉(zhuǎn)711開始對下一個艙眼 進(jìn)行操作。如果當(dāng)前句艙已經(jīng)結(jié)束,則下行,判斷句結(jié)束719,沒有結(jié)束跳轉(zhuǎn)702進(jìn)行下一 個取句艙操作。如果本句操作已經(jīng)結(jié)束,作下一句720通過接點A跳轉(zhuǎn)到圖6的602進(jìn)行下一個源語句子的讀入和操作。如果意通文本生成的結(jié)束或者中途暫仃,由結(jié)束721結(jié)束運行。 這里補充說明生成意通文本文本722為接收上述習(xí)語碼、句型碼、句艙序號、艙模碼、 艙眼序號、意群碼、特別串等多種輸出,將它們記錄下來,是按先后發(fā)生的次序記錄的(這 附合各語種習(xí)慣)。但在當(dāng)前句結(jié)束時,作下一句720運作前,將當(dāng)前句的記錄整理為按句艙 號、艙眼號從小到大排列;這樣生成的意通文本,句艙、艙眼是統(tǒng)一升序排列的。上述例(便 閱讀給編碼名稱及低字位十進(jìn)制數(shù))="句型碼001059;句艙序l號;意群碼016844;句 艙序2號;意群碼023378;句艙序3號;艙模碼00205:艙眼序1號;意群碼016845,艙 眼序2號;意群碼001802,艙眼序3號;意群碼017657;意群碼016853;意群碼005772"。 假如又以相同語義的中文句子"在仙女為他跳舞并演奏天上的樂曲的條件下,漁夫答應(yīng)歸還
羽衣。"生成意通文本句="句型碼001059;句艙序l號;意群碼016844;句艙序2號;意
群碼023378;句艙序3號;艙模碼00205;艙眼序1號;意群碼016845,艙眼序2號;意 群碼001802,艙眼序3號;意群碼017657;意群碼016853;意群碼005772";可以看出,它 和英語生成意通文本的代碼完全一樣。這就是意通文本,同一的特有磁盤文件的特征。 S.意通文本的讀出
意通文本的讀出是借助于"意通文本某語讀出系統(tǒng)"實現(xiàn)的。該系統(tǒng)也屬于本發(fā)明的應(yīng) 用部分,以讀出的文種分版本,提供給各文種的人們閱讀意通文本之用,用戶就是操作者。 意通文本讀出比意通文本生成簡單,因而早期版本就可以提供給普通用戶使用。本系統(tǒng)流程 如附圖8。由801開始,讀句操作802,它向意通文本803讀取一個意通文本句子。這一個句 子可以是一個小習(xí)語(僅僅是一個小習(xí)語碼);也可以是一個由句型碼攜帶各種意通代碼的一 個長句(在下一個句型碼或小習(xí)語碼前表示當(dāng)前句子結(jié)束)。如果802讀入的是一個習(xí)語碼, 隨即取小習(xí)語,通過小習(xí)語處理804,從小習(xí)語庫805中取出該小習(xí)語,并將該小習(xí)語送顯 示輸出806,同時送存檔備用807。如果802讀入的不是小習(xí)語而是一個由句型碼攜帶的句子, 則將整個句子置入世緩存808,例如置入了 "句型碼001059;句艙序1號;意群碼016844; 句艙序2號;意群碼023378;句艙序3號;艙模碼00205;艙眼序1號;意群碼016845, 艙眼序2號;意群碼001802,艙眼序3號;意群碼017657;意群碼016853;意群碼005772"。 然后取句型,由下述部分分步處理句型操作809從世緩存808當(dāng)中讀出句型碼001059;通 過句型庫810讀出該語句型(以漢語讀出版為例是"漢型"字段的內(nèi)容),通過句型給出811, 給出到句緩存812,該句型是"在[3]的條件下,[1]答應(yīng)歸還[2]"。行內(nèi)專業(yè)人員不難明白, 然而以下的操作就是逐個譯碼,到相應(yīng)庫的漢語相應(yīng)字段取出相應(yīng)內(nèi)容,插入到該句型的相 應(yīng)句艙即可。其流程是確定當(dāng)前句艙813依次從左到右查找句艙,確定當(dāng)前句艙;然后取句 艙、到世緩存808中讀取該號句艙的所有代碼;從左到右逐碼處理。接著,如果814判斷到 其后隨的是艙模碼;取艙模815利用這個艙模碼到艙模庫816中讀取該艙模,并將該艙模置 于句艙緩存817,接著當(dāng)前艙眼818確定存在句艙緩存當(dāng)中的當(dāng)前艙眼(同樣是從左到右搜 索);如果814判到的不是艙模碼,跳到判斷意群串819,如判斷到是意群串代碼,則取出填 入820到意群串庫821取出該意群文字串,經(jīng)822指示當(dāng)前句艙或艙眼,即當(dāng)前應(yīng)插入的部 位,將該意群文字串插入到句緩存812或句艙緩存817之中適當(dāng)位置。如果判斷意群串819 叛得不是意通代碼,交給判斷特殊串S23,是由特殊串處理824進(jìn)行適當(dāng)處理后,經(jīng)822指 示插入到應(yīng)該插入的部位。然后由判斷當(dāng)前艙眼結(jié)束825,沒有結(jié)束跳819繼續(xù);已經(jīng)結(jié)束 再由判斷是否當(dāng)前句艙結(jié)束826,沒有結(jié)束跳當(dāng)前艙眼818修改當(dāng)前艙眼繼續(xù)進(jìn)行;如果結(jié) 束,再到句結(jié)束827,句沒有結(jié)束跳813進(jìn)行下一個句艙操作;如果是句結(jié)束再判斷是否需要 暫停828,不需要暫停跳802讀入下一個句子,進(jìn)行下一個句子的操作。上述對句艙或者艙 眼的插入當(dāng)中,還有緩存管理模塊829,當(dāng)句艙緩存817滿時它會將它們并入句緩存812當(dāng)前句艙之中,清空817;當(dāng)812滿了并是句結(jié)束時,它又會將812的內(nèi)容送往806和807并 清空812以備下一個句子的到來。同時829還有詞序干預(yù)830的支持,當(dāng)簡單句艙或者艙眼 給出完成時,它們有可能詞序需要調(diào)正,這時詞序干預(yù)830自動或接受用戶干預(yù)進(jìn)行當(dāng)前句 艙或艙眼的詞序調(diào)正。此外829還有丟失補償831的支持,可以對某文種生成意通文本時可 能丟失部分進(jìn)行不需要人工干預(yù)或需要干預(yù)的補償,例如英文的冠詞、中文的量詞,以及指代、 省略的填補等等。上述判斷是否暫停828時,如果需要暫停則作收尾工作832,本系統(tǒng)運行結(jié)束。
9.跨語種交流網(wǎng)絡(luò)
跨語種交流網(wǎng)絡(luò)系統(tǒng)如附圖1所示。圖中101表示面向漢語用戶的一個語種版本軟件, 可以運行在單機(jī)或連網(wǎng)的個人計算機(jī)上。其中含有本語種讀系統(tǒng)和寫系統(tǒng)(例如漢語生成意 通文本系統(tǒng)和意通文本漢語讀出系統(tǒng)),其它語種以此類推。圖中102 108也象101 —樣, 分別表示面向英語、俄語、西班牙語等等語種的語種版本。圖中109 112分別表示面向其它 語種用戶相應(yīng)的語種讀、寫系統(tǒng)。圖中113表示將101 112連接成網(wǎng);其中還連接有意通文 本服務(wù)器U4 115;以及跨語種交流服務(wù)中心116;它們共同組成跨語種交流網(wǎng)絡(luò)系統(tǒng)。每 個語種版本面向一個相應(yīng)語種的用戶群,該群用戶利用母語進(jìn)行讀寫意通文本。寫成的意通 文本文件可以存貯在用戶個人計算機(jī)的存貯器上,也可以存忙在網(wǎng)絡(luò)服務(wù)器上,也可以在整
個網(wǎng)絡(luò)之間傳遞、通訊。不管來自何語種的意通文本,當(dāng)其它用戶檢索到它需要時,通過他 的個人計算機(jī)讀出時就變成他的母語了。然而不同語種的人們可以利用各自的母語進(jìn)行讀寫、交流。
在跨語種交流網(wǎng)絡(luò)上,設(shè)有跨語種交流服務(wù)中心,該中心至少一個??缯Z種交流服務(wù)中
心主要工作A、收集特別串,將它們收集、分門別類、完善其概念定義、并記錄頻度。納 入新串庫,接受用戶咨詢和査詢。經(jīng)過一定時間和被使用的量的考驗后,或許被淘汰;或許 被納入意群串庫。B、升級跨語種交流網(wǎng)絡(luò)系統(tǒng),綜上所述,意通文本出自專家對樣本語料 的比對整理。但是,意通文本系統(tǒng)的升級不需要樣本語料,直接利用意通文本統(tǒng)計、分析; 因為意通文本本身是很好的樣本語料。C、用戶支持,根據(jù)用戶所需給以多方面的支持。D、 引導(dǎo)多語種共同發(fā)展,跨語種交流服務(wù)中心的出現(xiàn),就結(jié)束了自然語言在各自獨立體系內(nèi)緩 慢地演變和發(fā)展的歷史;開始了多語種共同快速發(fā)展的歷程。例如要修正、淘汰或新增意群 文字串;推廣新術(shù)語等等可以通過跨語種交流網(wǎng)絡(luò)直接向?qū)懽髡呓ㄗh、推薦;向閱讀者宣傳 解釋。
IO.另一個實施例
除上述實施例外,根據(jù)本發(fā)明的構(gòu)思,還可以有更多的實施例。例如 母語讀外文系統(tǒng)
面向不懂外語而需要閱讀傳統(tǒng)的外文文章的廣大人們,提供"母語讀外文系統(tǒng)"。本系 統(tǒng)屬于本發(fā)明的應(yīng)用部分,提供給一個外文單詞也不認(rèn)識的外語盲用戶利用母語閱讀外文之 用。在母語讀外文的過程中,"母語讀外文系統(tǒng)"不但給出讀者的母語;還同時生成意通文本。 然而, 一篇傳統(tǒng)的文章只要有一人讀過,后面的千千萬萬人就可以變成閱讀意通文本了。本 系統(tǒng)的目語是用戶的母語,源語是該母語以外的某外文。這里不妨以漢語為母語,英語為源 語為例說明如下,流程如圖9 10所示。由圖9的卯1開始,外文句,即源語句讀入902讀 入源語(外文) 一個句子。然后判習(xí)語否903判其是否小習(xí)語(即査習(xí)語庫中含有否),給出 目習(xí)語904查詢小習(xí)語庫905,查到,取出目標(biāo)語的相應(yīng)小習(xí)語(本例是"中習(xí)"字段內(nèi)容), 把母小習(xí)語直接給出到顯示輸出906,也給出到存檔備用907;在這904 907過程中,也給 出該習(xí)語碼憊同時生成意通文本用。如果903判斷不是小習(xí)語,例如是"the tragedy is not in notknowing , but in not knowing that you do not know .";進(jìn)《亍配句型908,酉己句型即以源i吾句子到 句型庫909(該例是英型字段)內(nèi)查找最佳匹配的句型,同時取出相應(yīng)目語(中型字段)的句型。 它們是"[l]isnot[2],but[3] ."; " [1]不是[2],而是[3]。";接著判斷該句型是否唯一 910, 如果不唯一,干預(yù)選出911接受用戶的干預(yù),選出最佳的匹配;如果910判斷該句型唯一, 母型給出,把母語(該例是中型)句型直接給出續(xù)下將源語句子套入源語句型912,如"l[the tragedy] is not 2[in not knowing] , but 3 [in not knowing that you do not know].";如果判斷至lj套入 句型有異義913 (例如連續(xù)出現(xiàn)句艙,計算機(jī)無能確定切分點),可干預(yù)確定914接受用戶干 預(yù)來確定切分點。如果913判斷沒有異義,給出目語句型915 (同時也給出該句型碼備生成 意通文本用)于目語緩存916,如"[1]不是[2],而是[3]。";然后取句艙917,從左到 右搜索目語句型當(dāng)中的句艙,并以這個句艙的標(biāo)號到源語句中取出相應(yīng)句艙內(nèi)容。再判斷該 句艙內(nèi)容是否為簡單艙918,如果是,跳轉(zhuǎn)接點C下行;這里1 2兩個句艙都是簡單句艙; 1 [the tragedy] 2[in—not—knowing];如果不是,正如第3個句艙是復(fù)雜句艙,3[in_not_knowing that you do not know]。然后配艙模919,根據(jù)艙模庫920的支持進(jìn)行選艙模操袖。如果判斷 到所選艙模不唯一921,接受用戶的干預(yù)922;如果所判唯一,"[l]+thatyoudonotknow "; "你不知道+[1]"。套艙模923 ,把源語該句艙內(nèi)容套入艙模如"1 [in_not_knowing] that you do not know";同時把目語艙模存入句艙緩存924之中。至此圖9標(biāo)有A、 B、 C、 D、 E五個接 點,分別由圖10相應(yīng)的A、 B、 C、 D、 E五個接點相續(xù)。當(dāng)923完成套艙模之后,由接點C 下行到圖IO進(jìn)行目語詞義確定1001,它有意群串庫1002的支持,必要時也可以接受用戶的 干預(yù);如果遇到多義串可由用戶選取,給出目語文字串1003,它是通過當(dāng)前句艙或當(dāng)前艙眼 的指示1004,再通過接點D,將該意群文字串(目語詞串)插入到圖9的句艙緩存924或句 緩存916之中。該例l[thetragedy]詞義是"世間悲劇";"in—not_knowing"是復(fù)串,詞義是"無 知";填句艙,將它們分別插入相應(yīng)句艙或艙眼,該例變^"1{世間悲劇}不是2{無知}, 而是3{你不知道1[無知]}。";另一方面,924、 916還接受緩存管理1009的控制,如當(dāng)前句 艙結(jié)束,將句艙緩存內(nèi)容納入句緩存,清空句艙緩存;當(dāng)全句結(jié)束,它會將句緩存的內(nèi)容給 出到顯示輸出卯6以及存檔備用907,并清空句緩存906迎接新句的到來。在上述操作的同 時,給出目語文字串1003也給出了該意通代碼;并且在用戶選擇詞義的同時也將它們一并存 貯,以備后悔時重選如多義串備悔1004。如果1001不能確定目語詞義,也就是出現(xiàn)未登錄 詞條等,判斷其為特別串1006,給出特別串1007。再判斷當(dāng)前句艙或艙眼是否完成1008, 如果1008判斷到當(dāng)前句艙或艙眼沒有結(jié)束,跳1001繼續(xù)下一詞串確定詞義的操作;如果已 經(jīng)結(jié)束,在判斷是否句結(jié)束1010。如果沒有結(jié)束經(jīng)接點B跳圖9的917取出下一個句艙,進(jìn) 行下一個句艙的操作。如果已經(jīng)句結(jié)束,再判斷是否需要暫停1011,如果不暫停,經(jīng)接點A 跳圖9的902讀取源語下一個句子,重新一輪操作。另外,上述緩存管理1009,它還有詞序 干預(yù)1013的支持,當(dāng)簡單句艙或艙眼的目語詞條全部給出時,可能需要詞序干預(yù),這時1013 可以接受用戶干預(yù)。緩存管理1009還有悔操作、某語丟失補償1014的支持,可以對某文種 可能的丟失信息進(jìn)行補嘗;當(dāng)后悔操作時連同多義串備悔1004、目語句緩存916、句艙緩存 924以及緩存管理1009事先預(yù)備的有關(guān)信息,用戶后悔目語詞義確定選錯時可以進(jìn)行悔改的 操作。上述判斷是否暫停1011,如果需要暫停,則由終止1012作收尾工作,本系統(tǒng)運行終 止。
上述例子是整個流程經(jīng)過;編程實施時源語的一歩歩變化可以給出,也可以隱去,讓用 戶可選;其次是全句給出還是分句型、 一個句艙一個句艙地給出也讓用戶可選。這樣可以適 應(yīng)慢'虔、快讀、或正在學(xué)外語需要參考等等不同用戶的需求。
U.專用裝置實施本發(fā)明方法的專用裝置,如附圖11所示。它可以制作成如同對講機(jī)、手機(jī)、數(shù)字 電話、個人數(shù)字助理,以及耳機(jī)等等形式的裝置。用于需要不同文種之間進(jìn)行交流的學(xué)術(shù)研 討會、交流會、旅游等等直接利用口語交流的場合。該裝置以面向不同文種的人們分型號, 以型號定文種,每個用戶以自己的母語選定機(jī)型。
該裝置的功能結(jié)構(gòu)分兩個流程
① 用戶說流程
當(dāng)用戶說時,用戶的語音通過麥克風(fēng)進(jìn)入部件語音輸入1102,事前沒有語音進(jìn)入,這個 剛進(jìn)入的語音啟動一個信號開關(guān),打開語音輸入的同時也關(guān)閉信號接收1101。在用戶說話的 期間(也即有語音連續(xù)發(fā)出期間),語音輸入1102工作,把語音轉(zhuǎn)換成母語字符碼。母語字 符碼逐個進(jìn)入母語文句部件1105,它把全句的字符串組成句子,并根據(jù)母語的句型(如果有 錯誤)改錯處理,然后將正確的母語文句傳給母語生成意通文本部件1106。該部件把母語文 句轉(zhuǎn)換成意通文本句形式的意通代碼串,并向信號發(fā)射部件輸出代碼串。信號發(fā)射部件1103 接收到代碼串的同時,把意通代碼串轉(zhuǎn)換成相應(yīng)的數(shù)字信號,并發(fā)射出去。這就完成了用戶 說的流程。
② 用戶聽流程
當(dāng)用說完一句話后停下,處于一個較長時的沒有語音信號的平臺,這個平臺又啟動一個 信號開關(guān),打開了信號接收1101同時關(guān)閉語音輸入1102。信號接收1101開始接收數(shù)字信號, 并把數(shù)字信號轉(zhuǎn)換成意通代碼,將意通代碼傳給意通文本母語讀出1104部件。該部件將意通 代碼逐個轉(zhuǎn)換成母語句型、句艙等母語字符串,并把后者傳給母語文句部件1105。該部件將 這些母語字符串整合成母語文句,然后把母語文句傳給語音合成輸出部件1108。該部件進(jìn)行 這個母語文句的語音合成,然后語音輸出,用戶便可聽到對方的話語(聽者母語)了。這個用 戶聽的流程結(jié)束。
意通文本母語讀出、母語文句、母語生成意通文本三部件1104 1106主要由單片機(jī)、 存貯器組成并連有USB接口,以備從計算機(jī)或網(wǎng)絡(luò)上更換數(shù)據(jù)。
意通文本母語讀出部件1104,是能運行本發(fā)明方法中"意通文本某語讀出系統(tǒng)"步驟的部件。
母語生成意通文本部件1106,是能運行本發(fā)明方法中"某語生成意通文本系統(tǒng)"步驟的部件。
這里運行的"意通文本某語讀出系統(tǒng)"或"某語生成意通文本系統(tǒng)"所包含的含有意通 代碼的庫都取簡潔的分庫形式。并可以根據(jù)日常生活、旅游、專業(yè)等進(jìn)一步分適用范圍,連 同上文的以文種分型號,共同形成不同功能價格比的機(jī)型檔次。
1101、 1103部件之間發(fā)射、接收的信號是本發(fā)明方法中意通代碼的數(shù)字信號。也可以把 信號接收1101、信號發(fā)射1103兩個部件之間改為有線,用于數(shù)字的有線通訊場合及其裝置
產(chǎn)品o
本發(fā)明的軟件系統(tǒng)可以在本發(fā)明提供的裝置上運行實施;也可以在現(xiàn)有的中型、小型、 微、巨型計算機(jī),筆記本電腦、掌上電腦等單獨的或者相連成網(wǎng)的計算機(jī)上運行實施;可以 在各種計算機(jī)網(wǎng)絡(luò),特別是在因特網(wǎng)上運行實施;還可以在諸如"個人數(shù)字助理",PDA (Personal Digital Assistant)的裝置上運行實施。本發(fā)明實施后的軟、硬件產(chǎn)品,可以應(yīng)用于需 要和其它語種的人們進(jìn)行交流的工作、學(xué)習(xí)、休閑、旅游等等場合;可以用于家庭、機(jī)關(guān)、 學(xué)校以及各行各業(yè)涉及外文的場合。
權(quán)利要求
1、一種文本轉(zhuǎn)換方法,其特征在于,包括如下步驟S1、接收第一自然語言文本文件,調(diào)用第一自然語言庫生成對應(yīng)所述第一自然語言文本文件的語意的意通文本文件;S2、接收第二自然語言輸出命令,調(diào)用第二自然語言庫,依據(jù)所述意通文本文件生成并輸出第二自然語言文本文件。
2、 根據(jù)權(quán)利要求1所述的文本轉(zhuǎn)換方法,其特征在于,所述第一語言庫包 括第一句型庫和第一句艙庫,所述步驟Sl進(jìn)一步包括如下步驟511、 讀入所述第一自然語言文本文件中的一個句子;512、 調(diào)用所述第一句型庫對讀入的句子進(jìn)行句型匹配,輸出句型語意代碼, 并劃分出所述讀入的句子的句艙;513、 調(diào)用所述第一句艙庫對步驟S12中劃分出的句艙進(jìn)行句艙匹配,輸出句艙語意代碼;514、 依據(jù)所述句型語意代碼和所述句艙語意代碼生成對應(yīng)所述讀入的句子 的意通代碼;515、 判斷是否到達(dá)所述第一自然語言文本文件末尾,若是,執(zhí)行步驟S16, 若否,則讀入下一個句子,然后回到步驟S12;516、 將生成的所有讀入的句子的意通代碼存儲為所述意通文本文件。
3、 根據(jù)權(quán)利要求2所述的文本轉(zhuǎn)換方法,其特征在于,所述第一自然語言 庫包括第一習(xí)語庫,在所述步驟S12中,在調(diào)用所述第一句型庫對讀入的句子 進(jìn)行句型匹配之前,調(diào)用所述第一習(xí)語庫判斷所述讀入的句子是否是習(xí)語,若 是,則輸出習(xí)語語意代碼,作為所述讀入的句子的意通代碼,然后轉(zhuǎn)到步驟S15; 若否,則調(diào)用所述第一句型庫對讀入的句子進(jìn)行句型匹配。
4、 根據(jù)權(quán)利要求2或3所述的文本轉(zhuǎn)換方法,其特征在于,所述第一句艙 庫包括第一艙模庫和第一艙眼庫,所述步驟S13進(jìn)一步包括5131、 讀入所述讀入的句子的一個句艙;5132、 調(diào)用所述第一艙模庫對讀入的句艙進(jìn)行艙模匹配,若匹配成功,則 輸出艙模語意代碼,并劃分出所述讀入的句艙的艙眼,然后轉(zhuǎn)到步驟S133;若 匹配失敗,則轉(zhuǎn)到步驟S134;5133、 調(diào)用所述第一艙眼庫對劃分出的艙眼進(jìn)行艙眼匹配,輸出艙眼語意 代碼,并依據(jù)所述艙模語意代碼和所述艙眼語意代碼生成對應(yīng)所述讀入的句艙 的句艙語意代碼,轉(zhuǎn)到步驟S135; '5134、 調(diào)用所述第一艙眼庫對讀入的句艙進(jìn)行艙眼匹配,輸出艙眼語意代 碼,作為所述讀入的句艙的句艙語意代碼,轉(zhuǎn)到步驟S135;5135、 判斷是否存在未處理的句艙,若是,則讀入下一個句艙,然后回到 步驟S131,否則,轉(zhuǎn)到步驟S14。
5、 根據(jù)權(quán)利要求4所述的文本轉(zhuǎn)換方法,其特征在于,在所述步驟S133 或S134中,若所述艙眼匹配不成功,則在所述第一艙眼庫中為匹配不成功的艙的艙眼生成艙眼語意代碼,然后輸出該艙眼語意代碼。
6、 根據(jù)權(quán)利要求5所述的文本轉(zhuǎn)換方法,其特征在于,所述步驟S14進(jìn)一 步包括s141、 接收第一句型選擇信號,從輸出的句型語意代碼中選擇對應(yīng)所述第 一句型選擇信號的句型語意代碼;s142、 接收第一句艙選擇信號,從輸出的句艙語意代碼中選擇對應(yīng)所述第 一句艙選擇信號的句艙語意代碼;s143、 依據(jù)選擇的句型語意代碼和句艙語意代碼生成對應(yīng)所述讀入的句子 的意通代碼。
7、 根據(jù)權(quán)利要求1所述的文本轉(zhuǎn)換方法,其特征在于,所述第二語言庫包 括第二句型庫和第二句艙庫,所述步驟S2進(jìn)一步包括如下步驟s21、 讀入所述意通文本文件中對應(yīng)一個句子的意通代碼;s22、 調(diào)用所述第二句型庫,將所述意通代碼中的句型語意代碼轉(zhuǎn)換成對應(yīng) 的句型; ,s23、 調(diào)用所述第二句艙庫,將所述意通代碼中的句艙語意代碼轉(zhuǎn)換成對應(yīng) 的句艙; 's24、 依據(jù)生成的句型和句艙生成并輸出對應(yīng)所述讀入的意通代碼的的句子;s525、 判斷是否到達(dá)所述意通文本文件的末尾,若否,則讀入對應(yīng)下一個句 子的意通代碼,然后回到步驟S22。
8、 根據(jù)權(quán)利要求7所述的文本轉(zhuǎn)換方法,其特征在于,所述第二自然語言 庫包括第二習(xí)語庫,在所述步驟S22中,在調(diào)用所述第二句型庫之前,所述方 法還包括調(diào)用所述第二習(xí)語庫,判斷所述意通代碼是否是習(xí)語語意代碼,若是, 則輸出對應(yīng)所述習(xí)語語意代碼的習(xí)語,然后轉(zhuǎn)到步驟S25;若否,則調(diào)用所述第 二句型庫,依據(jù)所述意通代碼中的句型語意代碼,生成對應(yīng)的句型。
9、 根據(jù)權(quán)利要求7或8所述的文本轉(zhuǎn)換方法,其特征在于,所述第二句艙 庫包括第二艙模庫和第二艙眼庫,所述步驟S23進(jìn)一步包括調(diào)用所述第二句艙 庫和所述第二艙眼庫將所述句艙語意代碼中的艙模語意代碼和艙眼語意代碼轉(zhuǎn) 換成艙模和艙眼,并依據(jù)所述艙模和艙眼生成所述句艙。
10、 根據(jù)權(quán)利要求9所述的文本轉(zhuǎn)換方法,其特征在于,所述步驟S24進(jìn)一步包括s241、 接收第二句型選擇信號,從生成的句型中選擇對應(yīng)所述第二句型選 擇信號的句型;s242、 接收第二句艙選擇信號,從生成的句艙中選擇對應(yīng)所述第二句艙選 擇信號的句艙;s243、 依據(jù)選擇的句型和句艙生成并輸出對應(yīng)所述第二語言的句子。
全文摘要
本發(fā)明涉及語言翻譯,針對現(xiàn)有技術(shù)以詞或句為單位建庫方式不合理和譯句不通順并難以實現(xiàn)多語互譯的缺陷,提供一種文本轉(zhuǎn)換方法,包括接收第一自然語言文本文件,調(diào)用第一自然語言庫生成對應(yīng)所述第一自然語言文本文件的語意的意通文本文件;接收第二自然語言輸出命令,調(diào)用第二自然語言庫,依據(jù)所述意通文本文件生成并輸出第二自然語言文本文件。本發(fā)明還提供了一種文本轉(zhuǎn)換裝置。本發(fā)明使用以句型和句艙為單位構(gòu)建的語言庫,生成的句子語意通順,且語言庫大小合理,能夠解決以詞建庫詞不達(dá)意、以句建庫語言庫龐大的問題;通過將自然語言文檔轉(zhuǎn)換為意通文檔,能夠?qū)崿F(xiàn)語言到語意的直接轉(zhuǎn)換,借助語意到語言的轉(zhuǎn)換實現(xiàn)任意語言之間的互譯。
文檔編號G06F17/28GK101436179SQ20071012446
公開日2009年5月20日 申請日期2007年11月13日 優(yōu)先權(quán)日2007年11月13日
發(fā)明者劉樹根 申請人:劉樹根