專利名稱:上下文準(zhǔn)確匹配的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及內(nèi)容處理,更具體地說,涉及確保與包含上下文的源內(nèi)容的準(zhǔn) 確翻譯匹配,以簡化并方便翻譯和其它與所述內(nèi)容相關(guān)的處理功能。
背景技術(shù):
隨著信息在全球范圍內(nèi)變得更加容易獲得,尤其是互聯(lián)網(wǎng)和萬維網(wǎng)的到來和迅速 利用,翻譯的角色已改變而不再是將源文本簡單地轉(zhuǎn)換為目標(biāo)語言。今天,翻譯者必須確保 將翻譯的內(nèi)容及時準(zhǔn)確地分發(fā)到指定位置和消費者。這樣,對內(nèi)容翻譯的增加的需求促使 許多公司開發(fā)自動和在一定程度上有助于翻譯過程的工具。假定翻譯者需要盡快地翻譯內(nèi) 容,軟件功能的更加靈活和存儲先前的翻譯以備將來使用的能力將使得翻譯更加有效地進 行。因此,創(chuàng)建工具來將翻譯,包括翻譯塊和/或片段,保存到計算機存儲器(“翻譯存儲 器”或“TM”)中。翻譯存儲器(也被稱作翻譯數(shù)據(jù)庫)是詞條的集合,在各詞條中,源文本與其對應(yīng) 的一種或多種目標(biāo)語言翻譯相關(guān)聯(lián)。翻譯存儲器包括存儲成對的源語言的文本片段和目標(biāo) 語言文本片段的數(shù)據(jù)庫,可以在未來使用當(dāng)前文本來檢索目標(biāo)翻譯文本。TM通常在翻譯工 具中使用當(dāng)翻譯者“打開”文本片段時,應(yīng)用程序在數(shù)據(jù)庫中查找等同的源文本。其結(jié)果 是匹配列表,該匹配列表通常以表示文檔中的源文本和TM中的源文本之間的相似度的值 的分數(shù)進行排序。翻譯者或不同的TM系統(tǒng)提供與查詢的片段成對的目標(biāo)文本片段,從而最 終產(chǎn)品是高質(zhì)量的翻譯。有許多可用于幫助翻譯者的計算機輔助翻譯(“CAT”)工具,例如雙語和多語詞 典、語法書和拼寫檢查工具以及術(shù)語軟件,但是TM更進一步,其通過使用這些其它的CAT工 具同時通過準(zhǔn)確匹配和模糊匹配將存儲在數(shù)據(jù)庫中的原始源文檔與更新的或修改后的文 檔進行匹配。準(zhǔn)確匹配(100%匹配)是指文檔中的源文本和TM中的源文本之間的無差別 (或沒有不能被工具自動處理的差別)匹配。模糊匹配(小于100%的匹配)是指文檔中 的源文本與TM中的源文本非常相似但不完全一樣的匹配。重復(fù)的準(zhǔn)確匹配通常被當(dāng)做是 模糊匹配。TM系統(tǒng)被用作翻譯者的輔助工具,在數(shù)據(jù)庫中存儲人工翻譯者的文本以備將來 使用。例如,當(dāng)翻譯者翻譯原始文本時可使用TM,利用翻譯存儲器存儲成對的源片段和目標(biāo) 片段。翻譯者隨后可再次使用存儲的文本來翻譯修改后的或更新后的版本的文本。僅那些 與舊文本片段不匹配的新文本片段需要被翻譯。另一種方案是使用手動翻譯系統(tǒng)或不同的 CAT系統(tǒng)來翻譯原始文本。TM系統(tǒng)可隨后被翻譯者使用來翻譯修改文本或更新文本,其方 式是通過校準(zhǔn)翻譯者或其他CAT系統(tǒng)生成的文本然后將它們存儲在TM數(shù)據(jù)庫中以備當(dāng)前 和未來工作使用。如上所述,通過利用TM,翻譯者隨后可以僅進行新文本的段的翻譯。使用TM有許多優(yōu)點翻譯可更加快速,避免已有翻譯的不必要的重新鍵入和/或 使翻譯者能夠僅改變文本的特定部分。TM還允許對翻譯質(zhì)量進行更好控制。在現(xiàn)有技術(shù) 中,采用TM來在大批量項目中加速翻譯步伐。例如,軟件公司可發(fā)布其軟件的版本1并需要 翻譯伴隨的文檔。所述文檔被分成句子并被翻譯,所有的句子對被TM俘獲。兩年以后所述公司發(fā)布其軟件的版本2。所述文檔被嚴重改變,但是還存在與原始文檔相似的重要部分。 此時,當(dāng)翻譯者翻譯所述文檔時,通過從TM中進行準(zhǔn)確匹配和模糊匹配而減輕了它們的工 作。像該實例顯示的那樣,TM通常在流水線工藝中被用作輔助工具。在現(xiàn)有技術(shù)中,在TM 的使用中還有一些限制。利用準(zhǔn)確匹配的自動衍生翻譯(不用驗證)可產(chǎn)生不正確的翻譯,這是由于沒有 將新片段所用于的上下文與原始片段所用于上下文進行比較驗證即真實再使用和再循環(huán) 之間存在差別。在相關(guān)技術(shù)中,TM系統(tǒng)是再循環(huán)系統(tǒng)。通常的情況是,對文檔(網(wǎng)頁內(nèi)容,現(xiàn) 在有許多中內(nèi)容)進行翻譯,然后需要對該文檔進行小的改變,然后需要再次翻譯。例如, 列出產(chǎn)品的優(yōu)點的網(wǎng)頁文檔將被翻譯,但是可增加新的優(yōu)點并且所述文檔因此需要被重新 翻譯。在相關(guān)技術(shù)中,TM將減輕第二次翻譯所述文檔的工作量。在源文本與TM中的一個 或更多個詞條相同的情況下可存在多數(shù)句子的準(zhǔn)確匹配。隨后翻譯者通過評價與上下文信 息的匹配的適度性來確保選擇了正確的準(zhǔn)確匹配。但是,相關(guān)技術(shù)不提供對內(nèi)容的上下文 的確定。此外,在現(xiàn)有技術(shù)中,并沒有精確地選擇針對給定片段的最佳準(zhǔn)確匹配的自動過程 或確認給定的準(zhǔn)確匹配是否是給定片段將被應(yīng)用的上下文的合適匹配的自動過程。這樣, 翻譯者需要確認匹配。實際上,當(dāng)僅幾個單詞發(fā)生改變時,翻譯者需要針對每個句子確認并 可能采取行動,假定在相關(guān)技術(shù)中,在不同的環(huán)境或上下文下一個片段需要被不同地翻譯, 則效率非常低。鑒于以上所述,本領(lǐng)域需要精確確認給定的準(zhǔn)確匹配是否是針對其將被應(yīng)用到的 上下文的合適匹配的自動過程。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供了一種確定存儲在翻譯存儲器中的多個源文本與將 被翻譯的查找片段的匹配級別的方法,所述方法包括以下步驟在多個源文本中確定對查找片段的任何準(zhǔn)確匹配;在確定出至少一個準(zhǔn)確匹配的情況下,當(dāng)查找片段的上下文與對應(yīng)的準(zhǔn)確匹配的 上下文匹配時,將該對應(yīng)的準(zhǔn)確匹配確定為是所述查找片段的上下文準(zhǔn)確(ICE)匹配,其中上下文包括至少兩個級別,并且其中所述至少兩個級別包括源慣用法上下文級別和目標(biāo)慣用法上下文級別。因 此,當(dāng)翻譯存儲器被搜索以確定是否存在特定查找片段時,如果找到多個準(zhǔn)確匹配,則本發(fā) 明允許消除所述多個準(zhǔn)確匹配之間的不定性。不定性消除是根據(jù)查找片段的上下文與各準(zhǔn) 確匹配的上下文進行比較來執(zhí)行的。如果一個片段的至少一個上下文級別與查找片段的至 少一個上下文級別相匹配,則所述片段是ICE匹配。ICE匹配往往比非ICE匹配更加相關(guān)。 ICE匹配可根據(jù)不同級別的上下文(例如在源語言中的源慣用法上下文級別和/或目標(biāo)慣 用法上下文級別中的目標(biāo)慣用法上下文級別)識別。在本發(fā)明的實施方式中,在確定多于一個ICE匹配的情況下,ICE匹配確定步驟包 括根據(jù)上下文匹配度確定各ICE匹配的優(yōu)先順序,從而更合適的ICE匹配可優(yōu)于一個或更 多個其他ICE匹配。因此,本發(fā)明允許消除多個準(zhǔn)確匹配的不定性,其中與低優(yōu)先級的ICE 匹配相比,高優(yōu)先級ICE匹配往往是更加相關(guān)的翻譯。在本發(fā)明的其他實施方式中,與僅源慣用法上下文級別與查找片段的源慣用法上下文級別相匹配的ICE匹配相比,源和目標(biāo)慣用法上下文級別分別與查找片段的源和目標(biāo) 慣用法上下文級別匹配的ICE匹配被分配更高的上下文匹配度。源和目標(biāo)慣用法上下文的 組合匹配將指示比僅源目標(biāo)慣用法上下文匹配相比更加相關(guān);因此前者優(yōu)于后者。在本發(fā)明的進一步設(shè)計中,與僅源慣用法上下文級別與查找片段的源慣用法上下 文級別匹配的ICE匹配相比,目標(biāo)慣用法上下文級別與查找片段的目標(biāo)慣用法上下文級別 匹配的ICE匹配被分配更高的上下文匹配度。目標(biāo)慣用法上下文指示比僅源目標(biāo)慣用法上 下文匹配的匹配更加相關(guān)的匹配;因此前者優(yōu)于后者。在本發(fā)明的一種設(shè)計中,源慣用法上下文級別包括前文源慣用法上下文級別,和/ 或目標(biāo)上下文慣用法級別包括前文目標(biāo)慣用法上下文級別。在源語言中,在正被翻譯的片 段(當(dāng)前片段)之前的片段以及在目標(biāo)語言中翻譯當(dāng)前片段之前的片段將對正被翻譯的片 段的翻譯影響更大(與在當(dāng)前片段之后的源和目標(biāo)片段相比);因此,在當(dāng)前片段之前的片 段的上下文被認為對于不定性消除比較重要。在本發(fā)明的其他設(shè)計中,源慣用法上下文級別包括后文源慣用法上下文級別,和/ 或目標(biāo)上下文慣用法級別包括后文目標(biāo)慣用法上下文級別。在源語言中,在正被翻譯的片 段(當(dāng)前片段)之后的片段以及在目標(biāo)語言中當(dāng)前片段之后的片段的翻譯將對正被翻譯的 片段的翻譯有影響;因此,當(dāng)前片段之后的片段的上下文被認為是考慮當(dāng)前片段之前的片 段的上下文的另選考慮或額外考慮。在本發(fā)明的一些實施方式中,所述至少兩個級別包括結(jié)構(gòu)性上下文級別(見以下具體實施方式
中的‘定義’部分,解釋了結(jié)構(gòu)性上下文的含義)。因此,結(jié)構(gòu)性上下文級別可 在慣用法上下文級別之外應(yīng)用以消除ICE匹配的不定性。在本發(fā)明的設(shè)計中,在確定了多于一個ICE匹配的情況下,所述ICE匹配確定步驟 包括根據(jù)上下文匹配度確定各ICE匹配的優(yōu)先順序,從而更合適的ICE匹配可優(yōu)于一個或 更多個其他ICE匹配,其中源慣用法上下文級別包括前文源慣用法上下文級別,且目標(biāo)上下文慣用法級 別包括前文目標(biāo)慣用法上下文級別,并且其中與僅結(jié)構(gòu)性上下文級別與查找片段的結(jié)構(gòu)性上下文級別相匹配的ICE匹配 相比,前文源和/或前文目標(biāo)慣用法上下文級別與查找片段的前文源和/或前文目標(biāo)慣用 法上下文級別匹配的ICE匹配有更高的上下文匹配度。前文源上下文級別匹配并且目標(biāo)源 上下文級別匹配的翻譯往往是比僅結(jié)構(gòu)性上下文匹配的翻譯更相關(guān);因此前者優(yōu)于后者。在本發(fā)明的一種實施方式中,僅在查找片段的兩個或更多上下文級別與對應(yīng)的準(zhǔn) 確匹配項的上下文級別匹配的情況下,ICE匹配確定步驟才指示對應(yīng)的確切匹配是針對查 找片段的ICE匹配。與僅一個上下文級別方面與查找片段相匹配的ICE匹配相比,與查找 片段在多個上下文級別方面匹配的ICE匹配更加可能是更合適的匹配;因此,在本發(fā)明的 一些實施方式中,僅多個上下文級別匹配的ICE匹配被考慮用于消除不定性,即在本發(fā)明 的這種實施方式中,如果僅一個上下文級別(例如,僅結(jié)構(gòu)性上下文或僅源慣用法上下文) 與查找片段的上下文級別相匹配,則多個準(zhǔn)確匹配不被消除不定性。在本發(fā)明的設(shè)計中,僅在至少一個查找片段的慣用法上下文級別和結(jié)構(gòu)性上下文 級別都與對應(yīng)的準(zhǔn)確匹配的相匹配的情況下,ICE匹配確定步驟才指示對應(yīng)的準(zhǔn)確匹配是 對查找片段的ICE匹配。慣用法上下文級別和結(jié)構(gòu)性上下文級別二者均匹配的ICE匹配往往是查找片段的更合適的翻譯,因此,這種ICE匹配在消除不定性過程中被認為是重要的。在本發(fā)明的另一設(shè)計中,所述至少一個慣用法上下文級別包括前文目標(biāo)慣用法上 下文級別。在目標(biāo)語言中的所述正被翻譯的片段之前的片段通常是合適翻譯的非常好的指 示;因此,優(yōu)選地,前文目標(biāo)慣用法上下文級別匹配被優(yōu)先考慮。在本發(fā)明的優(yōu)選實施方式 中,基于目標(biāo)慣用法上下文級別結(jié)合源慣用法上下文級別消除不定性。在本發(fā)明的又一設(shè)計中,所述至少一個慣用法上下文級別包括前文源慣用法上下 文級別。在源語言中當(dāng)前正被翻譯的片段之前的片段通常是合適翻譯的良好指示,因此另 選地,前文源慣用法上下文級別匹配被優(yōu)先考慮。在本發(fā)明的實施方式中,在確定了多于一個ICE匹配的情況下,所述ICE匹配確定 步驟包括根據(jù)上下文匹配度確定每個ICE匹配的優(yōu)先順序,從而更合適的ICE匹配可優(yōu)于 一個或更多個其他ICE匹配。確定優(yōu)先順序的步驟可包括多個不同的優(yōu)選步驟,它們可被 認為按次序的,以找出針對查找片段的最合適匹配。第一步驟可包括優(yōu)選源和目標(biāo)慣用法 上下文級別以及結(jié)構(gòu)化上下文級別都與查找片段的相匹配的ICE匹配。第二步驟可包括優(yōu) 選源和目標(biāo)慣用法上下文級別都與查找片段的相匹配的ICE匹配。優(yōu)選地,源上下文級別 是前文源慣用法上下文級別,目標(biāo)慣用法上下文級別是前文目標(biāo)慣用法上下文級別。第三 步驟可包括與僅后文源慣用法上下文級別或后文目標(biāo)慣用法上下文級別與查找片段的相 匹配的ICE匹配相比,優(yōu)選前文源慣用法上下文級別或前文目標(biāo)慣用法上下文級別與查找 片段的前文源慣用法上下文級別或前文目標(biāo)慣用法上下文級別相匹配的ICE匹配。第四步 驟可包括與僅結(jié)構(gòu)性上下文級別與查找片段的相匹配的ICE匹配相比,優(yōu)選任一慣用法上 下文級別與查找片段的任一慣用法上下文級別相匹配的ICE匹配。第五步驟可包括與結(jié)構(gòu) 性上下文級別與查找片段的不同的ICE匹配相比,優(yōu)選結(jié)構(gòu)性上下文級別與查找片段的結(jié) 構(gòu)性上下文級別相匹配的ICE匹配。第六步驟可包括優(yōu)選在素材中的位置最接近查找片段 的位置的ICE匹配。可基于片段編號確定在素材中的位置,其中片段在素材中可連續(xù)地編號,并且所 述編號用作各個片段標(biāo)識。另選地,可基于素材中的行號或單詞編號確定位置。此外,結(jié)構(gòu) 性慣用法上下文可被解釋為在素材中的位置的形式,即,基于匹配是否出現(xiàn)在“標(biāo)題”、“表 單元”、“段落”、“腳標(biāo)”等中來指示這種位置。如果一個優(yōu)選步驟提供了決定性結(jié)果,則消除不定性程序結(jié)束,否則該程序前進 到后續(xù)步驟等,直到得到了優(yōu)選匹配形式的決定性結(jié)果。本發(fā)明的其它實施方式可包括不 同次序的一些或全部以上優(yōu)選步驟,并且上述優(yōu)選步驟可另選地或附加與其它優(yōu)選步驟相纟口口。本發(fā)明的實施方式涉及允許用戶基于優(yōu)先順序選擇ICE匹配。因此,作為自動選 擇并插入到翻譯文檔中的ICE匹配的替代,ICE匹配可被顯示給用戶,并且用戶可基于顯示 的ICE匹配的排名選擇ICE匹配。此外,ICE匹配可被排序并且根據(jù)匹配上下文級別和/或 匹配上下文級別的類型(源、目標(biāo)、后文、前文、結(jié)構(gòu)性等)的編號進行顯示。在本發(fā)明的實施方式中,查找片段包括內(nèi)容基本相同的多個查找片段,并且其中 ICE匹配確定步驟包括針對各查找片段確定ICE匹配。因此,多個片段可批量處理或基本 同時處理,以減少所需的全部處理。當(dāng)處理一批將要被翻譯的片段時,基于探索的方法可被 應(yīng)用以幫助選擇片段的“最佳”翻譯,從而能夠確定下一片段的ICE級別(當(dāng)考慮目標(biāo)慣用9法上下文時)。一個這種方法可為利用最佳ICE匹配,或單個準(zhǔn)確匹配,選擇性地與后退機 制(例如片段位置、最后一次翻譯的日期、素材元數(shù)據(jù)等)結(jié)合?;谔剿鞯姆椒ㄔ谂c翻譯 者的交互很少或沒有交互的情況下是很有用的,這種情況下翻譯系統(tǒng)不能肯定不定性匹配 (ICE匹配或其它)是否是對片段的足夠合適的匹配。在本發(fā)明的一些設(shè)計中,至少一個查找片段具有不同于至少一個其他查找片段的 ICE匹配。通常,一個查找片段將具有不同的ICE匹配,其可在識別各查找片段的ICE匹配 的過程中起到幫助。根據(jù)本發(fā)明的第二方面,提供了一種用于確定存儲在翻譯存儲器中的多個源文本 與將要翻譯的查找片段的匹配級別的系統(tǒng),所述系統(tǒng)包括在多個源文本中確定對查找片段的任何準(zhǔn)確匹配的裝置;和在確定出至少一個準(zhǔn)確匹配的情況下,在查找片段的上下文與對應(yīng)的準(zhǔn)確匹配相 匹配時將該對應(yīng)的準(zhǔn)確匹配確定為是針對查找片段的上下文準(zhǔn)確(ICE)匹配的裝置,其中所述上下文包括至少兩種級別,并且其中所述至少兩種級別包括源慣用法上下文級別和目標(biāo)慣用法上下文級別。根據(jù)本發(fā)明的第三方面,提供了一種在翻譯存儲器中存儲翻譯單位的方法,翻譯 單位包括源文本和目標(biāo)文本,所述方法包括以下步驟向翻譯單位分配上下文,其中上下文包括至少兩種級別,所述至少兩種級別包括 源慣用法上下文級別和目標(biāo)慣用法上下文級別;和將上下文與翻譯單位一起存儲。根據(jù)本發(fā)明的第四方面,提供了一種用于在翻譯存儲器中存儲翻譯單位的系統(tǒng), 所述翻譯單位包括源文本和目標(biāo)文本,所述系統(tǒng)包括用于將上下文分配給翻譯單位的裝置,其中上下文包括至少兩個級別,所述至少 兩個級別包括源慣用法上下文級別和目標(biāo)慣用法上下文級別;以及用于將上下文與翻譯單位一起存儲的裝置。根據(jù)本發(fā)明的第五方面,提供了一種翻譯存儲器,其包括用于與查找片段相比較的多個源文本;和各源文本的上下文標(biāo)識,其中所述上下文標(biāo)識包括源慣用法上下文部分和目標(biāo)慣用法上下文部分。在本發(fā)明的一些實施方式中,源慣用法和/或目標(biāo)慣用法上下文部分包括前文和 /或后文慣用法上下文部分。在本發(fā)明的其它實施方式中,上下文標(biāo)識包括結(jié)構(gòu)性上下文部 分。因此,上下文標(biāo)識數(shù)據(jù)可與翻譯單位關(guān)聯(lián)地被存儲于翻譯存儲器中,從而它們相關(guān)的上 下文可例如在針對查找片段搜索翻譯存儲器的過程中容易地被識別。翻譯單位可具有多個 慣用法上下文和/或多個結(jié)構(gòu)性相關(guān)上下文標(biāo)識。根據(jù)本發(fā)明的第六方面,提供了一種與包括翻譯存儲器的翻譯系統(tǒng)交互的客戶機 側(cè)系統(tǒng),所述系統(tǒng)包括用于將片段標(biāo)識分配給將被翻譯系統(tǒng)翻譯的片段的裝置,所述片段標(biāo)識指示片段 的源慣用法上下文和目標(biāo)慣用法上下文;以及用于傳輸片段標(biāo)識的分配結(jié)果,使其存儲為翻譯存儲器的一部分的裝置。在本發(fā)明的設(shè)計中,片段標(biāo)識包括結(jié)構(gòu)性上下文。因此,片段可根據(jù)它們的結(jié)構(gòu)性上下文識別。根據(jù)本發(fā)明的第七方面,提供了一種確定存儲在翻譯存儲器中的多個源文本與將 被翻譯的查找片段的匹配級別的方法,所述方法包括以下步驟在多個源文本中確定對查找片段的任何模糊匹配;和在確定出至少一個模糊匹配的情況下,在查找片段的上下文與對應(yīng)的模糊匹配的 上下文相匹配時將該對應(yīng)的模糊匹配確定為查找片段的上下文模糊匹配。因此,本發(fā)明還允許消除多個模糊匹配之間的不定性。不定性消除根據(jù)各模糊匹 配的上下文與查找片段的上下文的比較執(zhí)行。如果片段的至少一個上下文級別與查找片段 的至少一個上下文級別相匹配,則該片段為上下文模糊匹配。與非上下文模糊匹配相比,上 下文模糊匹配將更合適。優(yōu)選地,上下文包括結(jié)構(gòu)性上下文。上下文模糊匹配可根據(jù)上下文的不同級別(例如結(jié)構(gòu)性上下文級別和/或元數(shù) 據(jù))進行識別。類似地,對于ICE匹配,當(dāng)消除上下文模糊匹配之間的不定性時,可以確定 不同上下文級別的優(yōu)先順序。本發(fā)明還可被應(yīng)用到具有相同匹配度(也被稱為模糊匹配得分)的模糊匹配,例 如相同百分數(shù)的模糊匹配。一個實例應(yīng)用可為消除多個各自具有97%的匹配度的模糊匹配 之間的不定性。另一實例應(yīng)用可用于區(qū)分多個具有99%的匹配度的多個模糊匹配。這里的 術(shù)語“相同”可為確切相同或近似相同,例如這樣的模糊匹配,它們的模糊匹配度當(dāng)四舍五 入為最接近的百分數(shù)值時相同,等等。代替確定具有相同模糊匹配度的模糊匹配的優(yōu)先順序,或在確定具有相同模糊匹 配度的模糊匹配的優(yōu)先順序之外,確定模糊匹配的優(yōu)先順序可在模糊匹配度的特定范圍 (或得分區(qū)間)進行,例如在99-95%或85-94%之間執(zhí)行,其中確定優(yōu)先順序可利用結(jié)構(gòu)性 上下文(例如,標(biāo)題、段落、表單元等)執(zhí)行。本發(fā)明還可應(yīng)用于模糊匹配度不同的模糊匹配中,其中第一模糊匹配具有與第二 模糊匹配(例如,99%模糊匹配)相比更低程度的模糊匹配(例如,98%模糊匹配),第一模 糊匹配將仍然被認為是查找片段的更合適的匹配,這是因為第一模糊匹配具有與查找片段 匹配的上下文級別,而第二模糊匹配沒有與查找片段匹配的上下文級別。這種情況可發(fā)生, 盡管第一模糊匹配的模糊匹配度低于第二匹配。本發(fā)明還可被應(yīng)用到混合情景中,其中考慮準(zhǔn)確匹配和模糊匹配二者的上下文。 這里例如99%的模糊匹配將仍然被認為是與準(zhǔn)確匹配相比更合適的匹配,這是因為模糊 匹配具有與查找片段相匹配的上下文級別,而準(zhǔn)確匹配沒有與查找片段相匹配的上下文級 別。再次地,不同級別的上下文匹配和確定不同上下文級別的優(yōu)先順序可被應(yīng)用到這種混 合情況。根據(jù)本發(fā)明的第八方面,提供了一種確定存儲在翻譯存儲器中的多個源文本與將 被翻譯的查找片段的匹配級別的系統(tǒng),所述系統(tǒng)包括用于在多個源文本中確定查找片段的任何模糊匹配的裝置;和用于在確定出至少一個模糊匹配的情況下,當(dāng)查找片段的上下文與對應(yīng)的模糊匹 配的上下文相匹配時,將該對應(yīng)的模糊匹配確定為是查找片段的上下文模糊匹配。根據(jù)本發(fā)明的第九方面,提供了一種計算機程序產(chǎn)品,其包括計算機可讀介質(zhì),該 計算機可讀介質(zhì)具有記錄在其上的計算機可讀指令,當(dāng)通過計算裝置執(zhí)行時,所述計算機可讀指令可操作以使得計算裝置執(zhí)行本發(fā)明的第一、第三或第七方面的方法。本發(fā)明的上述和其他特征將從以下本發(fā)明實施方式的更具體的描述中變得清楚。
將參照附圖詳細描述本發(fā)明的實施方式,圖中相同的標(biāo)號指代相同的元件,其 中圖1示出了根據(jù)本發(fā)明的利用ICE匹配翻譯系統(tǒng)的計算機系統(tǒng)的框圖;圖2A-2B示出了圖1的系統(tǒng)的操作方法的一種實施方式的流程圖;圖3示出了在示例性翻譯存儲器中的幾個條目;圖4示出了包括圖3的條目的示例性源素材;圖5示出了根據(jù)本發(fā)明的針對翻譯存儲器的產(chǎn)生的一種實施方式的流程圖;圖6示出了根據(jù)本發(fā)明的針對翻譯存儲器的產(chǎn)生的另一實施方式的流程圖。
具體實施例方式僅為了方便的目的,具體實施方式
包括以下小標(biāo)題1、定義;II、總體概述;III、 系統(tǒng)概述;IV、操作方法和V、結(jié)論。I、定義“素材(asset) ”指例如通過上下文、慣用法、大小等限定的文檔片段的分組或相 關(guān)內(nèi)容的綁定集合的內(nèi)容源。通常素材與文檔(例如超文本置標(biāo)語言(HTML)文件、微軟 Word. 文檔或簡單文本文件)聯(lián)系在一起。但是一些素材不與文件系統(tǒng)的文件相對應(yīng)。所 述素材實際上可由數(shù)據(jù)庫表的列或者可擴展標(biāo)記性語言(XML)庫的結(jié)構(gòu)限定。不管它們物 理上如何表達,它們目的相同——定義可被訪問、操縱和最終翻譯的相關(guān)內(nèi)容的綁定集合。 素材可含有內(nèi)容、格式信息和取決于素材的性質(zhì)的內(nèi)部結(jié)構(gòu)數(shù)據(jù)?!霸此夭摹敝笍闹谐槌霾檎移蔚募稀!捌巍卑煞g的內(nèi)容塊,例如,短語、句子、段落等。其表示翻譯工作的最小單 位。實踐中,片段可代表段落、句子或甚至句子片段。片段通常不是單個單詞,但是也可使 用單個單詞?!霸次谋尽敝阜g存儲器中的與原始(源)語言對應(yīng)的文本,其為被翻譯的語言。 在匹配查找處理中,源文本與來自素材的查找片段進行對比,以找出匹配?!澳繕?biāo)文本”包括針對特定場景(locale)對源文本的翻譯,即,其為翻譯存儲器 (TM)單元的一半?!胺g存儲器”(縮寫為TM)包括包含有TM條目的庫。TM可包括針對任意數(shù)量的 場景的TM條目。例如,其可含有英語-法語條目、希臘語-俄語條目、阿拉伯語-土耳其語 條目等。"TM單元”包括存儲在翻譯存儲器中的翻譯對,將源文本映射到目標(biāo)文本(還被稱 作翻譯單位、TM條目或記錄)。尤其是對于給定的翻譯對,其包括源文本和目標(biāo)文本場景 對,并且通常與其翻譯產(chǎn)生該翻譯對的素材相關(guān)。效果上,TM單元代表先前的翻譯,其可被 后來再使用。此外,根據(jù)本發(fā)明的各TM單元包括上下文部分,其指示相關(guān)源文本和目標(biāo)文 本對的上下文。翻譯單位通常是雙語的,但是也可以是多語的,并包括諸如上下文信息、使12用計數(shù)、創(chuàng)建日期等的元數(shù)據(jù)?!皽?zhǔn)確匹配”指在源文本從翻譯存儲器中調(diào)出的時刻,源文本含有與來自素材的 查找文本完全一致的源文本。在本文使用時,準(zhǔn)確匹配還包括100%匹配,其與準(zhǔn)確匹配 類似,但不一定是準(zhǔn)確匹配,這是因為在翻譯存儲器單元中存在差別。例如,在由于以下原 因之一匹配得分可能為100%而但不是準(zhǔn)確匹配1)不計評分的空格區(qū)域差別一使用 與TM單元的空格符號不同類型的空格符號將阻止其被選為準(zhǔn)確匹配;2)設(shè)定的不利后果 (configured penalties),通過設(shè)定的不利后果,本發(fā)明很可能忽略源文件和查找文件之 間的一些差別;或幻片段修復(fù),通過片段修復(fù),修復(fù)探索(impair heuristics)可施加以修 復(fù)TM匹配和原始查找文本之間的差別。片段修復(fù)可通過使用可安置元素和自動替換以及 自動定位技術(shù)來執(zhí)行,例如在美國專利第US 7,020,601中描述的那樣,通過引用將該文件 的全部內(nèi)容包含在本文中?!吧舷挛摹敝竾@文本片段并幫助確定其解釋的論述。在本文使用時,上下文可包 括不同級別。例如,上下文可包括慣用法上下文級別、素材上下文級別、結(jié)構(gòu)性上下文級別 和/或片段指示器。取決于內(nèi)容的預(yù)期讀者,各不同的上下文可能需要不同的措辭?!皯T用法上下文”指圍繞片段并影響本發(fā)明怎樣得到針對內(nèi)容的翻譯的論述。慣用 法上下文可為源慣用法上下文,其考慮源語言中的圍繞將被翻譯的文本的文本。慣用法上 下文可為目標(biāo)慣用法上下文,其考慮目標(biāo)語言中的圍繞被翻譯的文本的翻譯的文本。通常, 與環(huán)境內(nèi)容相關(guān)地限定慣用法上下文,其為將要翻譯的片段的含義提供理解。慣用法上下 文可具有特定片段之前的文本方面的級別和特定片段之后的文本方面的級別,和還具有就 上下文是在源語言中還是在目標(biāo)語言中圍繞將被翻譯的文本而言的級別。前文慣用法上下 文級別和后文慣用法上下文級別可與源慣用法上下文級別和目標(biāo)慣用法上下文級別結(jié)合, 以產(chǎn)生進一步的上下文級別,形式為前文源慣用法上下文級別、前文目標(biāo)慣用法上下文級 別、后文源慣用法上下文級別和后文目標(biāo)慣用法上下文級別?!八夭纳舷挛摹敝赣嘘P(guān)于片段所在的素材環(huán)境的論述,即出現(xiàn)文本片段的整篇內(nèi)容 的背景和前景框架?!敖Y(jié)構(gòu)性上下文”指出現(xiàn)片段的文檔結(jié)構(gòu)單元,例如段落、標(biāo)題、索引詞條、列表或表單元等。針對查找片段的“上下文準(zhǔn)確(ICE)匹配”指源文本必須是準(zhǔn)確匹配,并與提供該 匹配的TM單元共享至少一種上下文級別。“查找文本”指來自源素材的文檔片段,針對其搜尋TM匹配?!捌螛?biāo)識”(SID)包括限定其中給定的片段將被翻譯的慣用法上下文的標(biāo)簽,并 且與創(chuàng)建TM單元或內(nèi)容時的內(nèi)容相關(guān)。SID提供針對給定片段的上下文指示。SID可包括 限定片段邊界的標(biāo)記標(biāo)簽。如下所述,SID是基于慣用法上下文針對周圍片段的另一種方 案或延伸。II、總體概述本發(fā)明提供了方法、系統(tǒng)和程序產(chǎn)品來確定存儲在翻譯存儲器中的多個源文本與 將被翻譯的查找片段的匹配級別等。本發(fā)明為先前存儲在翻譯存儲器(TM)中的翻譯的源 內(nèi)容產(chǎn)生高質(zhì)量的匹配。在現(xiàn)有技術(shù)中,可獲得的最佳匹配是準(zhǔn)確匹配,即源文本與TM中 的一個或更多個詞條一致的匹配。但是,沒有精確地選擇針對給定片段的最佳準(zhǔn)確匹配或確認給定的準(zhǔn)確匹配是否是針對其將被應(yīng)用的上下文的合適匹配的自動過程。具體地說, 在不同的環(huán)境或上下文下一個片段可被不同地翻譯。準(zhǔn)確匹配的合適性需要評價上下文信 息,其可基于內(nèi)容慣用法(由圍繞該片段的句子或片段限定)、結(jié)構(gòu)性上下文、素材上下文 (取決于預(yù)期讀者,可需要不同的措辭)和/或其它元數(shù)據(jù),其它元數(shù)據(jù)例如領(lǐng)域標(biāo)識、消費 者姓名或通過系統(tǒng)的用戶提供的或從先前翻譯項目中自動地產(chǎn)生或提取的其他信息。領(lǐng)域標(biāo)識可涉及廣闊的主題,其與準(zhǔn)確匹配相關(guān),例如‘電子工程’、‘農(nóng)業(yè)’或‘計 算機科學(xué)’。以單詞‘bank’為例,如果領(lǐng)域標(biāo)識指示金融領(lǐng)域而不是地理領(lǐng)域,則可消除不 定性。本發(fā)明不替換準(zhǔn)確匹配過程。相反,其在準(zhǔn)確匹配之上提供用于匹配的新級別,因 此,使用減小手動確認的需要和幫助人們創(chuàng)建盡可能有價值的TM的可靠的再使用TM系統(tǒng)。 具體地說,本發(fā)明的一種實施方式通過在多個源文本中確定查找片段的任何準(zhǔn)確匹配;并 在確定出至少一個準(zhǔn)確匹配的情況下,在查找片段的上下文與對應(yīng)的準(zhǔn)確匹配的上下文匹 配時,將對應(yīng)的準(zhǔn)確匹配確定為是該查找片段的上下文準(zhǔn)確(ICE)匹配,來確定存儲在翻 譯存儲器中的所述多個源文本與將被翻譯的查找片段的匹配級別。因此,ICE匹配確定基 于查找片段的上下文確定準(zhǔn)確匹配的合適度。那些是準(zhǔn)確匹配并且具有匹配上下文的源文 本被稱作“上下文準(zhǔn)確(ICE)匹配”。ICE匹配被認為優(yōu)于準(zhǔn)確匹配,原因是其確保了施用 的翻譯對于其所被應(yīng)用到的上下文是合適的。利用了與當(dāng)前被翻譯的片段相同的上下文中 先前翻譯的匹配,ICE匹配是保證了高級別合適度的翻譯匹配。本發(fā)明充分利用上下文信息以1)為對新內(nèi)容確定作為高質(zhì)量(不需要再檢查) 匹配的合適的準(zhǔn)確匹配;幻針對給定的查找片段選擇最佳上下文匹配;和幻確保為先前翻 譯內(nèi)容分配的先前翻譯總是可恢復(fù)的。對于新的內(nèi)容,本發(fā)明充分利用上下文信息以基于 片段慣用法上下文從TM中找出高質(zhì)量匹配?;谒夭暮?或結(jié)構(gòu)性和/或內(nèi)容級別,本發(fā) 明還確保相同的內(nèi)容在給定上下文的情況下總是按照相同的方式翻譯。就給定查找片段的翻譯而言,假定源文檔被翻譯并且所有的片段都被存儲在TM 中。如果同一源文檔隨后經(jīng)歷第二次翻譯,則所述文檔(包括其所有內(nèi)容)將完全匹配并 且所得的翻譯文檔將與第一次翻譯的文檔完全相同。該行為是容易理解并且是所期望的。 但是,這只能通過使用上下文信息來進行保證。為了進一步理解該保證的重要性,考慮在兩 個不同的地方具有兩次重復(fù)的確切相同的句子的源文檔。因為第二次使用的意圖可能與第 一次使用的意圖不同,其翻譯困難?,F(xiàn)在再次考慮與TM充分比較的相同文檔。重復(fù)的句子 應(yīng)該具有相同的翻譯嗎?或者,重復(fù)的句子應(yīng)該與它們在原始文檔中的情況相區(qū)別嗎?如 果不考慮它們使用的上下文,這些句子很可能通過TM按照相同的方式翻譯。但是,根據(jù)本 發(fā)明,考慮了上下文,其確保了兩個句子繼續(xù)具有不同的翻譯,前提是它們的使用上下文這 樣要求。在存儲先前翻譯的文本片段方面,本發(fā)明還確保了新文檔的翻譯不損害對之前翻 譯文檔的翻譯的恢復(fù)能力,通過將先前翻譯的文檔與TM充分比較,從而其總是得到與翻譯 者存儲的翻譯相同的翻譯來提供確保翻譯可完美重復(fù)的方法。再次考慮兩個相同文獻。第 一文檔被翻譯,結(jié)果被存儲在TM中。當(dāng)?shù)诙臋n與相同的TM進行充分比較時,文檔被呈現(xiàn) 為用ICE匹配完全翻譯。慣用法上下文與第一文檔的相同?,F(xiàn)在考慮第二文檔針對不同讀 者。源語言文本在該實例中不變,這是由于其被認為是對于兩種讀者都是合適的。但是,翻成目標(biāo)語言的翻譯需要一些改變。翻譯者更新針對該文檔的翻譯,并將結(jié)果存儲為TM。隨 著時間消逝,再次需要這兩個翻譯的文檔的拷貝。由于空間原因,原始翻譯的文檔被刪除。 源文檔中的任一個沒有被改變,并因此它們將含有相同的源文本。本發(fā)明方便了原始翻譯 的文檔的再生,每個與原始翻譯的文檔相同(它們本身不相同)。即使源文檔的內(nèi)容是相同 的,本發(fā)明也能夠比較素材上下文信息,以確保文檔的特定翻譯是可恢復(fù)的。本發(fā)明可被采用作為諸如Idiom' s WorldServer 的內(nèi)容管理系統(tǒng)的一部分或 者zuowie分立的系統(tǒng)被開發(fā)。例如,WorldServer 是基于網(wǎng)絡(luò)的應(yīng)用程序,其使得企業(yè)在 全球化過程中管理它們的內(nèi)容,同時比較建立的網(wǎng)絡(luò)構(gòu)造、內(nèi)容管理和工作流系統(tǒng)。內(nèi)容管 理系統(tǒng)簡化了由于部署例如全球網(wǎng)絡(luò)策略導(dǎo)致的多復(fù)雜性,使得公司的網(wǎng)址有效地支持多 個國家和不同的語言、位置和文化。它們提供網(wǎng)點管理者、網(wǎng)絡(luò)開發(fā)者、內(nèi)容擁有者、翻譯者 和編輯之間的合作結(jié)構(gòu)和過程,獲得流水線化的處理、同步全球網(wǎng)絡(luò)戰(zhàn)略和協(xié)調(diào)的全球網(wǎng) 絡(luò)組。翻譯者使用內(nèi)容管理系統(tǒng)來查看他或她必須翻譯的內(nèi)容。在WorldServer 中,翻譯 者可將需要翻譯的內(nèi)容導(dǎo)出到第三方編輯工具上,或利用翻譯工作臺執(zhí)行實際翻譯。翻譯 者可為個人撰稿者,包括承接但不翻譯內(nèi)容的用戶和/或校對內(nèi)容的校對人。內(nèi)容管理系 統(tǒng)將翻譯的短語存儲到TM中以備以后使用。III、系統(tǒng)概述參照附圖,圖1是根據(jù)本發(fā)明的上下文準(zhǔn)確匹配翻譯系統(tǒng)100的框圖。應(yīng)該認識 到,雖然系統(tǒng)100被示出為分立的系統(tǒng),但是其可作為更大的內(nèi)容管理或翻譯系統(tǒng)(例如 Idiom' s WorldServer )的一部分。這樣,系統(tǒng)100的描述可包括翻譯系統(tǒng)的特定功能, 但是為了清楚起見,省略了其他功能。此外,應(yīng)當(dāng)認識到雖然系統(tǒng)100被示出為客戶機-服 務(wù)器(例如,基于網(wǎng)絡(luò)的)環(huán)境,但是其他的布置也是可能的。系統(tǒng)100被示出為在計算機102上作為計算機程序代碼實現(xiàn)。在這種情況下,計 算機102被示出為包括存儲器112、處理單元(PU)114、輸入/輸出(I/O)接口 116和總線 118。此外,計算機102被示出為與外部I/O裝置/資源120和存儲系統(tǒng)122通信??傮w來 說,處理單元114執(zhí)行存儲在存儲器112和/或存儲系統(tǒng)122中的計算機程序代碼,例如系 統(tǒng)100。在執(zhí)行計算機程序代碼的同時,處理單元114可從存儲器112、存儲系統(tǒng)122和/ 或I/O裝置120讀取數(shù)據(jù)和/或?qū)?shù)據(jù)寫到存儲器112、存儲系統(tǒng)122和/或I/O裝置120 中??偩€118提供計算機102的各組件之間的通信鏈路,I/O裝置120可包含使用戶能夠 與計算機102交互的任何裝置(例如,鍵盤、指點裝置、顯示器等)。另選地,用戶可和與計算機102通信的其他計算裝置(未示出)交互。在這種情 況下,I/O接口 116可包含使得計算機102能夠通過網(wǎng)絡(luò)與一個或更多個其他計算裝置通 信的任何裝置(例如,網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)適配器、I/O端口、調(diào)制解調(diào)器等)。網(wǎng)絡(luò)可包括各種 類型的通信鏈接的組合。例如,網(wǎng)絡(luò)可包括利用有線和/或無線傳輸方法的任意組合的可 尋址連接。在這種情況下,計算裝置(例如,計算機10 可利用傳統(tǒng)網(wǎng)絡(luò)連接,例如Token Ring、以太網(wǎng)、WiFi或其他傳統(tǒng)通信標(biāo)準(zhǔn)。此外,網(wǎng)絡(luò)可包括一種或更多種任何類型的網(wǎng)絡(luò), 包括互聯(lián)網(wǎng)、廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)、虛擬專用網(wǎng)(VPN)等。在通過互聯(lián)網(wǎng)進行通信的 情況下,通過傳統(tǒng)的基于TCP/IP套接字的協(xié)議提供連接,并且計算裝置可利用互聯(lián)網(wǎng)服務(wù) 提供商來建立與互聯(lián)網(wǎng)的連接。計算機102僅是硬件和軟件的各種可能結(jié)合的代表。例如,處理單元114可包含單個處理單元,或分布為在一個或更多個位置(例如,位于客戶機和服務(wù)器上)的一個或更 多個處理單元。類似地,存儲器112和/或存儲系統(tǒng)122可位于一個或更多個物理位置。 存儲器112和/或存儲系統(tǒng)122可包含各種類型的包含磁媒體、光媒體、隨機存取存儲器 (RAM)、只讀存儲器(ROM)、數(shù)據(jù)對象等的計算機可讀媒體和/或傳輸媒體的任意組合。I/O 接口 116可包括用于與一個或更多個I/O裝置交換信息的任何系統(tǒng)。此外,應(yīng)當(dāng)理解,圖1 中未顯示的一個或更多個額外組件(例如,系統(tǒng)軟件、數(shù)學(xué)協(xié)同處理單元等)可被包含在計 算機102中。在這種情況下,計算機102可包含任意類型的計算裝置,例如網(wǎng)絡(luò)服務(wù)器、臺 式計算機、筆記本計算機、手持裝置、移動電話、尋呼機、個人數(shù)字助理等。但是,如果計算機 102包括手持裝置等,則應(yīng)該理解一個或更多個I/O裝置(例如,顯示器)和/或存儲系統(tǒng) 122可被包含在計算機102中而不是如圖所示的在計算機102之外。如以下進一步討論的,系統(tǒng)100被示出為包括準(zhǔn)確匹配確定器130、上下文準(zhǔn)確 (ICE)匹配確定器132、哈希算法133、模糊匹配確定器134、翻譯存儲器(TM)產(chǎn)生器136、片 段檢索器138和其他系統(tǒng)組件140。ICE匹配確定器132包括上下文指示器142、匹配評價 器144和ICE匹配優(yōu)先順序確定器146。其他系統(tǒng)組件140可包括發(fā)明操作必需的其他功 能,但并沒有在本文描述。例如,其他系統(tǒng)組件140可包括例如由Idiom' s WorldServer 提供的自動翻譯系統(tǒng)和/或內(nèi)容管理系統(tǒng)功能。雖然為了清楚在圖1中沒有顯示,但是應(yīng)當(dāng)理解,客戶機側(cè)系統(tǒng)150可包括與計算 機102相似的結(jié)構(gòu),并包括用于提供以下描述的功能的程序代碼。圖1還顯示了系統(tǒng)100使用的翻譯存儲器128(以下稱為“TM 1 ”)。如圖3所 示,TM 1 包括多個TM條目148,所示TM條目148包括存儲的針對特定源文本152A、152B 分別被先前翻譯為特定語言的目標(biāo)文本162、164(為了簡單僅顯示了兩個)。例如,存儲的 源文本“global enterprises (全球企業(yè)),,152A已經(jīng)被轉(zhuǎn)譯為多種德語翻譯152,即目標(biāo) 文本,并且存儲的源文本“team of visionaries (志愿者組)”152B被翻譯為多種法語翻譯 164,即目標(biāo)文本。每個源文本152A、152B用于與查找片段比較。各TM單元148還包括上 下文標(biāo)識166(為了清楚僅標(biāo)志了兩種)。在一種實施方式中,上下文標(biāo)識166包括不同上 下文級別(例如,源慣用法上下文部分168和素材上下文部分(AC) 170)的標(biāo)識。素材上下 文部分170包括素材代碼(例如“33333”),其為系統(tǒng)100指定特定素材。還可提供其他上 下文級別,例如結(jié)構(gòu)性上下文標(biāo)識。在一些情況下,素材上下文部分170可被省略。在本發(fā) 明的該實施方式中,慣用法上下文級別是前文源慣用法上下文級別和后文源慣用法上下文 級別。在本發(fā)明的其他實施方式中,慣用法上下文級別可另選地或附加地包括前文目標(biāo)慣 用法上下文級別和/或后文目標(biāo)慣用法上下文級別。在一種優(yōu)選實施方式中,各慣用法上下文部分168包括前文源慣用法上下文(UC) 哈希代碼172和后文源慣用法上下文(UC)哈希代碼174。在翻譯過程中出現(xiàn)各源文本后, 利用哈希算法133基于前文片段產(chǎn)生的文本流產(chǎn)生前文UC哈希代碼172。類似地,在翻譯 過程中出現(xiàn)各源文本后利用哈希算法133基于后文片段產(chǎn)生的文本流產(chǎn)生后文UC哈希代 碼172。哈希算法133包括可將文本流轉(zhuǎn)換為唯一的數(shù)字識別的任何現(xiàn)在已知或隨后發(fā)展 的哈希算法(應(yīng)該認識到,為了清楚起見,顯示的哈希代碼被簡化了)。因此,每個UC哈希 代碼指示針對對應(yīng)的源文本的唯一慣用法上下文級別。在另選的實施方式中,僅針對特定 源文本152以及前文和后文片段使用一個慣用法上下文哈希代碼。
當(dāng)查找片段巧4在創(chuàng)建時被指配了上下文時,可如上所述利用用戶指定的SID,而 非哈希算法133或二者的結(jié)合,產(chǎn)生上下文標(biāo)識166,所述二者的一個可優(yōu)先于另一個。應(yīng)該認識到本文所用的特定代碼僅用于闡述的目的。IV.操作方法轉(zhuǎn)到圖2A-圖2B,現(xiàn)在將描述本發(fā)明的操作方法的一種實施方式的流程圖。圖 2A-圖2B的討論將結(jié)合圖1、3和4進行。A、初步步驟從圖2A開始,作為初始步驟PS,在一種實施方式中,直接連接或通過一些類型的 網(wǎng)絡(luò)(例如,LAN、WAN或互聯(lián)網(wǎng))連接的客戶機計算機系統(tǒng)150將查找片段巧4載入到ICE 匹配系統(tǒng)100。例如,查找片段巧4可通過諸如Idiom' s WorldServer 的翻譯流程應(yīng)用 程序服務(wù)器(未示出)裝載,其中ICE系統(tǒng)是該翻譯流程應(yīng)用程序服務(wù)器的一部分。查找 片段巧4可作為更大的素材的一部分裝載。在這種情況下,系統(tǒng)100可以以任何現(xiàn)在已知 的或后來發(fā)展的方式對所述更大的素材進行分割以創(chuàng)建查找片段154,例如,像Idiom' s WorldServer 提供的那樣。分割是這樣一種處理,通過這種處理,素材的內(nèi)容作為可翻譯 的片段被分析和揭露。片段的大小取決于分割規(guī)則,其可由用戶定義。B、一般的方法步驟S1-S12代表對各查找片段154的分析。在第一步驟Sl中,由準(zhǔn)確匹配確定器130在TM 1 中的多個源文本152中確定 查找片段154的任何準(zhǔn)確匹配。準(zhǔn)確匹配確定器130可以象最常規(guī)的TM系統(tǒng)那樣工作, 其使用串比較算法來判斷存儲在TM 128中的翻譯的合適度,其中基于兩個串的匹配的接 近程度來獲得得分。100%得分通常表示已經(jīng)找到了準(zhǔn)確匹配,或者表示差異是可自動解 決的(例如,利用可安置的元素、自動定位或自動替換技術(shù)‘修改后的’)。例如,如圖3所 示,當(dāng)翻譯成德語時,查找片段“global enterprises”將得到三種準(zhǔn)確匹配=Dglobale ffesen,2) globale Unternehmen 和 3) globale Geschafte。當(dāng)翻譯成法語時,查找片段 "team of visionaries,,>!奪得至Ij四禾中準(zhǔn)石角匹配1) equipe de visionnaires>2) groupe de visionnaires>3) bande des visiormaires 禾口 4) groupe de futurologues。針對各查找片 段154,在TM 128中可存在多于一種的準(zhǔn)確匹配,這是因為針對任何給定片段有多種翻譯, 在給定語言中的陳述的意義不僅從單詞中衍生,還從單詞所應(yīng)用的上下文中衍生。因此,針 對特定源文本152,各先前翻譯可導(dǎo)致許多目標(biāo)文本翻譯162、164,因此導(dǎo)致相同的查找片 段。在步驟S2中,確定是否確定出了至少一個準(zhǔn)確匹配,S卩,在TM 1 中是否找到至 少一個準(zhǔn)確匹配。如果在步驟S2中結(jié)果是“否”,則處理前進至步驟S3,在步驟S3中,模糊 匹配確定器134按照任何已知的方式或今后發(fā)展的方式來確定是否存在針對查找片段巧4 的任何模糊匹配。在步驟S4,報告針對查找片斷154的任何模糊匹配。本文所用的“報告” 可指將結(jié)果顯示給用戶、傳遞和/或存儲結(jié)果。雖然沒有顯示,但是,如果沒有找到模糊匹 配,則開始傳統(tǒng)自動翻譯。如果步驟S2的結(jié)果是“是”,則在步驟S5中,ICE匹配確定器132確定對應(yīng)的準(zhǔn)確 匹配是否是查找片段154的上下文準(zhǔn)確(ICE)匹配。如上所述,“ICE匹配”意味著源文本 152必須是準(zhǔn)確匹配,并且還與查找片段巧4共享共同的上下文。換句話說,具有與查找片17段154的上下文標(biāo)識匹配的上下文識別166的準(zhǔn)確匹配是ICE匹配。在一種實施方式中, 針對該確定的上下文僅包括慣用法上下文。但是,可采用其它上下文匹配級別,如將在以下 描述的。步驟S5包括兩個子步驟。首先,在子步驟S5A,上下文識別器142識別查找片段 154的上下文。在一種實施方式中,上下文識別器142基于查找片段154的源素材中的查 找片段154的周圍片段來識別上下文。在這種情況下,執(zhí)行哈希算法以通過計算查找片段 (LS)前UC哈希碼和查找片段(LQ后UC哈希碼來確定針對查找片段巧4的慣用法上下文。 再次地,哈希算法133包括可將文本流轉(zhuǎn)化為唯一數(shù)字識別的任何已知的或以后開發(fā)的哈 希算法。參照圖4,顯示了示意性的包括“team of visionaries”形式的查找片段154A的 源素材180。LS前UC哈希碼基于其剛好前一個片段190形成。例如,如圖4所示,將針對 “Idiom was founded in January 1998 by a team of visionaries.,,計算 LS 前 UC 哈 希碼。類似地,LS后UC哈希碼將針對緊隨其后的片段192即“team of visionaries who recognized the need for an enterprise-class software product that would meet the globalization. ”進行計算。針對源素材180的素材上下文可基于素材哈希由上下文 識別器142識別,所述素材哈?;谙到y(tǒng)對特定素材的標(biāo)識,例如,素材名稱、系統(tǒng)內(nèi)的位 置等。在另選的實施方式中,上下文識別器142根據(jù)與查找片段巧4相關(guān)的片段標(biāo)識 (SID)識別查找片段154的上下文,如上所述,片段標(biāo)識(SID)包括限定其中片段將被翻譯 的慣用法上下文的標(biāo)簽。SID可包括限定片段邊界的標(biāo)記標(biāo)簽。優(yōu)選地,創(chuàng)建片段的期間 (即由內(nèi)容產(chǎn)生器)使SID與源文本152和/或查找片段巧4相關(guān)。但是,SID可與源文本 152和/或查找片段IM相關(guān),或隨后由(例如)先前的內(nèi)容翻譯者覆寫。在子步驟S5B中,ICE匹配評價器144利用與各候選一起存儲的上下文標(biāo)識166 對查找片段154的各準(zhǔn)確匹配進行評價以確定其是否與查找片段巧4用在相同的上下文 中(即,各匹配是否是ICE匹配)??梢灶A(yù)先定義將準(zhǔn)確匹配認為是ICE匹配所需的上下 文匹配度。在一種實施方式中,ICE匹配評價器144僅在查找片段154的各上下文級別都 與對應(yīng)的準(zhǔn)確匹配匹配的情況下,才指示對應(yīng)的準(zhǔn)確匹配是針對查找片段IM的ICE匹配。 例如,在上下文包括慣用法上下文級別和素材上下文級別的情況下,可僅在查找片段的慣 用法上下文級別和素材上下文級別都與對應(yīng)的準(zhǔn)確匹配的慣用法上下文級別和素材上下 文級別相匹配的情況下,確定步驟才指示對應(yīng)的準(zhǔn)確匹配是針對查找片段的ICE匹配。作 為另一實例,在上下文包括慣用法上下文級別和結(jié)構(gòu)性上下文級別的情況下,僅在查找片 段的慣用法上下文級別和結(jié)構(gòu)性上下文級別都與對應(yīng)的準(zhǔn)確匹配的慣用法上下文級別和 結(jié)構(gòu)性上下文級別相匹配的情況下,確定步驟才指示對應(yīng)的準(zhǔn)確匹配是查找片段的ICE匹 配。慣用法上下文級別可包括一個或更多個前文源慣用法上下文級別,后文源慣用法上下 文級別、前文目標(biāo)慣用法上下文級別和后文目標(biāo)慣用法上下文級別。實例參照圖3,假設(shè)示例性查找片段巧4包括文本“team of visionaries”并且其將被 翻譯為法語。另外,假設(shè)查找片段“team of visionaries"具有LS前US哈希碼333和LS 后US哈希碼4444,以及素材上下文666666。(應(yīng)該理解為了清楚起見,圖3中的所有哈希 碼都被簡化)。如圖3中所示,當(dāng)查找片段“team ofvisionaries”被翻成法語時,準(zhǔn)確匹配確定器130將確定出針對查找片段“team of visionaries”的4個準(zhǔn)確匹配l)6quipe de visionnaires>2)groupe de visionnaires>3)bande des visionnaires禾口 4) groupe de futurologues。ICE匹配評價器144檢查所述準(zhǔn)確匹配,如圖3所示,其將確定當(dāng)查找片段 "team of visionaries" !¢!!#) ^, iHi^ "groupe de visionnaires" ^WffiM^ 上下文,這是因為其具有同一素材上下文170和慣用法上下文(哈希碼)172、174。因此, "groupe de visionnaires”將為ICE匹配。其它源文本將不被認為是ICE匹配,這是因為 它們不具有查找片段“team of visionaries”的至少一個上下文代碼。在另選的實施方式中,即使僅查找片段的一些上下文級別與對應(yīng)的準(zhǔn)確匹配匹 配,ICE匹配評價器144也可指示對應(yīng)的準(zhǔn)確匹配是針對查找片段154的ICE匹配。實例參照圖3,假設(shè)示例性查找片段巧4包括文本“global enterprises",并且其將被 翻譯成德語。另外,假設(shè)查找片段“global enterprises"具有LS前US哈希碼1234和LS 后US哈希碼4321以及素材上下文7890。如圖3所示,當(dāng)查找片段“global enterprises” 被翻譯成德語時,準(zhǔn)確匹配確定器130將確定出針對查找片段“global enterprises”的三 個準(zhǔn)確匹配DglcAale ffesen,2) globale Unternehmen 和 3) globale Geschafte0 假設(shè) 對于將準(zhǔn)確匹配確定為ICE匹配僅需要一個慣用法上下文級別,則ICE匹配評價器144檢 查準(zhǔn)確匹配,并如圖3所示,將確定出當(dāng)查找片段“global enterprises”被翻譯成德語時, 源文本“globale Wesen”和“globale Unternehmen”具有相同的上下文,這是因為它們每 個都具有與LS UC哈希碼之一匹配的UC哈希碼。即“globale ffesen”與查找片段具有同 一前文源UC哈希碼,“globale Unternehmen”與查找片段具有同一后文源UC哈希碼。其 他源文本將不被認為是ICE匹配,這是因為它們與查找片段“global enterprises”不具有 至少一個上下文級別。將在以下描述系統(tǒng)100怎樣確定多個ICE匹配的優(yōu)先順序的細節(jié)。如果確定沒有ICE匹配,即,步驟S6結(jié)果為“否”,則在步驟S7中,報告任何準(zhǔn)確匹 配。接著,在步驟S8中,用戶可按照任何已知的或今后開發(fā)的方式來確認這些準(zhǔn)確匹配和 模糊匹配(即在步驟S3-S4中)。在這種情況下,準(zhǔn)確匹配和模糊匹配被放入到它們各自的 快速緩沖儲存區(qū),并且通過客戶計算機系統(tǒng)150提供給翻譯者,其中翻譯者必須確認每個 準(zhǔn)確匹配以確保對于給定源素材180內(nèi)容該匹配是最佳匹配,并且更新各模糊匹配以匹配 源素材180內(nèi)容。如果確定出ICE匹配,S卩,在步驟S6中為“是”,則如圖2B所示,在步驟S9中,ICE 匹配優(yōu)先順序確定器146確定是否找到多于一個的ICE匹配。如果僅確定出了一個ICE匹 配,則在步驟SlO中,報告該單個ICE匹配。一旦ICE匹配被自動報告,則系統(tǒng)100就允許 通過片段檢索器138檢索目標(biāo)文本162、164。本發(fā)明的實施方式涉及利用結(jié)構(gòu)性上下文級別改進ICE匹配的不定性現(xiàn)象??紤] 以下涉及結(jié)構(gòu)性上下文級別的第一實例源l(sl)-結(jié)構(gòu)性上下文=標(biāo)題文本‘Print the document,。目標(biāo) 1 (tl)_ 結(jié)構(gòu)性上下文=標(biāo)題文本iDas Dokument ausdrucken,。在這種情況下,在標(biāo)題結(jié)構(gòu)性上下文(在翻譯單位中源片段和目標(biāo)片段二者的標(biāo) 題結(jié)構(gòu)性上下文相同)中,在該翻譯中,德語翻譯使用不定式(非定式)。現(xiàn)在,考慮同一文檔中后面的涉及結(jié)構(gòu)性上下文級別的以下第二實例,使用了相同的英語句子,但是這次是在指令列表中,從而在德語中需要定式源2 (s2)_結(jié)構(gòu)性上下文=指令列表‘Print the document,。目標(biāo) 2(t2)結(jié)構(gòu)性上下文=指令列表‘Drucken Sie das Dokument aus,。如果根據(jù)本發(fā)明的實施方式,上述示例性句子被存儲在翻譯存儲器或其他這類數(shù) 據(jù)存儲器中,則不僅不同的翻譯將被存儲在翻譯存儲器中,而且它們的結(jié)構(gòu)性上下文(即, 標(biāo)題或者指令列表)也被存儲。接著,當(dāng)相同的句子出現(xiàn)在同一結(jié)構(gòu)性上下文中時,針對當(dāng) 前結(jié)構(gòu)性上下文的合適翻譯可優(yōu)先提出。結(jié)構(gòu)性上下文級別可在慣用法上下文級別(前文、后文、源和/或目標(biāo))和/或素 材上下文級別之外或另外使用。C、確定多個ICE匹配的優(yōu)先順序返回圖2B,步驟S11-S12代表考慮在步驟S5中確定了多個ICE匹配(即,步驟S9 的結(jié)果為“是”)的狀態(tài)的選擇步驟。在一種實施方式(未示出)中,ICE匹配確定器130可 簡單地允許用戶從ICE匹配的列表中選擇ICE匹配。但是,這不是優(yōu)選的,這是因為其損害 了 ICE匹配的一個目的,S卩,不是必需對準(zhǔn)確匹配進行確認。在圖2B所示的優(yōu)選實施方式 中,如果確定了多于一個的ICE匹配,則在步驟Sll,ICE匹配優(yōu)先順序確定器146根據(jù)上下 文匹配度來確定各ICE匹配的優(yōu)先順序(排序)。如上所述,可預(yù)先確定“上下文匹配度”。 這個步驟確定各上下文匹配的ICE匹配度的優(yōu)先順序并且在步驟S12中向用戶呈現(xiàn)ICE匹 配以備選擇,或者自動選擇最高等級的ICE匹配。應(yīng)當(dāng)理解,可以基于上下文級別的數(shù)量采 用確定多個ICE匹配的優(yōu)先順序的各種規(guī)則。作為一個或更多個固定規(guī)則的另選或補充, 通過學(xué)習(xí)過程可獲得最優(yōu)的(或可接受的)優(yōu)先等級,其中來自訓(xùn)練全集或從先前的翻譯 項目或在預(yù)定時間內(nèi)實時翻譯項目的一部分中得到的觀察結(jié)果用于調(diào)諧不同上下文級別 的優(yōu)先等級。以下實例示出了用于確定多個ICE匹配的優(yōu)先順序的一種實施方式。實例假設(shè)上下文包括慣用法上下文級別和素材上下文級別,并且查找片段“team of visionaries”被利用圖3的基于如圖4所示的源文檔1 80的TMU8翻譯成法語。在這種 情況下,基于先前存儲的翻譯,“team of visionaries”具有四個準(zhǔn)確匹配1) 6quipe de visionnaires,2)groupe de visionnaires,3)bande des visionnaires 禾口 4)groupe de futurologues。還假設(shè)查找片段“team of visionaries”具有LS前源UC哈希碼333,LS 后源UC哈希碼4444和素材碼666666。還假設(shè)就ICE匹配確定器132將準(zhǔn)確匹配指示為 ICE匹配而言,僅一個上下文級別需要與查找片段的上下文級別匹配。在這種情況下,各準(zhǔn) 確匹配都為ICE匹配。具體地說,1) "equipe de visionnaires”具有匹配前文源UC哈 希碼和素材碼;2) "groupe de visionnaires”具有所有匹配上下文級別;3) "bande des visionnaires”具有匹配素材碼和4) "groupe de futurologues”具有匹配后文源UC哈希 碼。應(yīng)當(dāng)理解,通過定義,ICE匹配優(yōu)先于非匹配查找片段(即,那些需要手動或機械 翻譯的)、模糊匹配、以及不是ICE匹配的準(zhǔn)確匹配。下面顯示了 ICE匹配的優(yōu)先級別說明。 在該說明中,等級按照與級別相反的順序列出(即,數(shù)字越大,優(yōu)先級越高)其中慣用法上 下文(UC)級別包括前文UC級別和后文UC級別,并且一些示例性優(yōu)先順序確定步驟包括20
1、源慣用法上下文(UC)、目標(biāo)UC和結(jié)構(gòu)性上下文都匹配優(yōu)于源和目標(biāo)慣用法上 下文(UC)匹配與僅源和目標(biāo)UC哈希碼與查找片段相同的ICE匹配相比,源和目標(biāo)UC哈希碼都 與查找片段相同并且結(jié)構(gòu)性上下文匹配也與查找片段相同的ICE匹配更優(yōu)先。2、源UC和目標(biāo)UC都匹配優(yōu)于僅源UC匹配與僅源UC哈希碼與查找片段相同的ICE匹配相比,源和目標(biāo)UC哈希碼都與查找 片段相同的ICE匹配更優(yōu)先。3、前文UC匹配優(yōu)于后文UC匹配與僅后文源慣用法上下文級別或后文目標(biāo)慣用法上下文級別與查找片段的相同 的ICE匹配相比,前文源慣用法上下文級別或前文目標(biāo)慣用法上下文級別與查找片段的相 同的ICE匹配更優(yōu)先。4、源慣用法上下文(UC)全匹配優(yōu)于源慣用法上下文(UC)部分匹配假設(shè)僅具有與查找片段的哈希碼匹配的源UC哈希碼的準(zhǔn)確匹配被認為是ICE匹 配(被稱為“部分匹配”),則與所述部分匹配相比,同時與查找片段具有相同的前文和后文 源UC哈希碼的那些ICE匹配(被稱為“UC全匹配”)更優(yōu)先。換句話說,同時具有與查找片 段的前文和后文源UC級別匹配的前文和后文源UC級別的ICE匹配優(yōu)于僅前文和后文源UC 級別之一與查找片段的相匹配的ICE匹配。例如,ICE匹配2) “groupe de visionnaires” 將優(yōu)先于所有其它的,這是因為其與查找片段的前文哈希碼(33 和后文哈希碼0444)都 匹配。類似地,目標(biāo)UC全匹配優(yōu)于目標(biāo)UC部分匹配。5、與查找片段來自相同素材的ICE匹配優(yōu)于來自其它素材的ICE匹配在通過以上描述的全匹配優(yōu)于部分匹配優(yōu)先模式不能區(qū)分兩個或更多個ICE匹 配的情況下,即,第一優(yōu)選不能作出決定時,基于素材碼,與查找片段來自同一素材的ICE 匹配更優(yōu)先。換句話說,在第一優(yōu)選不能作出決定時,與查找片段來自同一素材的ICE匹 配優(yōu)于來自不同素材的ICE匹配。在實例中,ICE匹配1) "equipe de visionnaires” 和 4) "groupe de futurologues” 均為部分 ICE 匹配,但是 ICE 匹配 1) "6quipe de visionnaires”與查找片段來自相同素材“666666”,所以更優(yōu)選。6、當(dāng)針對一個查找片段確定了來自相同素材的兩個或更多個ICE匹配時,在該素 材中的位置與查找片段的位置更近的ICE匹配更優(yōu)選該優(yōu)選考慮了其中在單個源素材180中多個位置存在查找片段154的情況,并且 結(jié)果導(dǎo)致針對特定素材具有兩個或更多個ICE匹配。例如,圖4顯示了源素材180包括兩 次出現(xiàn)的查找片段“team of visionaries” 154A、1MB。在這種情況下,ICE匹配優(yōu)先順序 確定器146評價特定查找片段在素材中的位置,并且與來自同一素材的其他ICE匹配相比, 將優(yōu)選在素材中位置與查找片段最接近的ICE匹配。換句話說,在第二優(yōu)選不能作出決定 的情況下,在素材中位置最接近查找片段的位置的ICE匹配優(yōu)于其他ICE匹配??梢葬槍?查找片段在特定素材中的任意重復(fù)次數(shù),來重復(fù)這種評價。優(yōu)先順序確定因此可涉及首先查看結(jié)合結(jié)構(gòu)性上下文級別的源和目標(biāo)慣用法上 下文級別的匹配,以消除多個ICE匹配的不定性。如果該第一步驟不足以消除ICE匹配之 間的不定性,則使用源和目標(biāo)慣用法上下文級別兩者匹配,然后才是僅匹配源上下文級別。與后文慣用法上下文級別相對的前文慣用法上下文級別可在下一步被使用,接著使用與部 分源或目標(biāo)慣用法上下文相對的全文源或目標(biāo)慣用法上下文。如果以上步驟不能消除多個 ICE匹配之間的不定性,則可使用素材上下文級別。如果這對于消除不定性仍然不足,則可 利用查找片段的位置。針對不定性消除目的,素材元數(shù)據(jù)可按照上述或相似步驟的任意組合和/或優(yōu)選 次序用于多個ICE匹配的優(yōu)先順序確定過程中。類似地,當(dāng)消除模糊匹配的不定性時,可采 用與以上或相似步驟不同的優(yōu)先順序確定方法和優(yōu)選次序。以上優(yōu)先順序確定步驟和步驟的排序只是示例性目的并且可采用不同的組合和 不同次序的優(yōu)先順序確定步驟。一旦完成了優(yōu)先順序確定步驟,則在步驟S12中,ICE匹配優(yōu)先順序確定器146以 任何現(xiàn)在已知或今后開發(fā)的方式允許用戶基于等級(例如,通過客戶機計算機系統(tǒng)150的 圖形用戶界面)選擇ICE匹配,或自動選擇最高優(yōu)先級的ICE匹配。一旦選擇了 ICE匹配, 則系統(tǒng)100允許通過片段檢索器138檢索至少一個目標(biāo)文本162、164。因為ICE匹配提供了高水平匹配質(zhì)量,所以被確定為ICE匹配的源文本不需要被 翻譯者校對或確認。它們可被自動接收,因此減少了翻譯循環(huán)時間并且導(dǎo)致更便宜的翻譯 成本。此外,系統(tǒng)100考慮了就內(nèi)容而言多個基本相同的查找片段154出現(xiàn)在單個源素材 180中的情況。在這種情況下,系統(tǒng)100能夠基于匹配級別確定針對各查找片段154的ICE 匹配。通常,與至少一個其它查找片段相比,至少一個查找片段具有不同的ICE匹配,以幫 助該確定。如果否,則多個ICE匹配可被報告給用戶進行選擇,如上所述。系統(tǒng)100還便于 內(nèi)容片段的翻譯,其在最小工作量的情況下在不同素材之間重復(fù),包括不會限制對匹配的 檢索,即使內(nèi)容的片段被分裂或合并和/或允許內(nèi)容塊在單個素材中被不同地翻譯,也是 一樣。上述操作可繼續(xù)以對應(yīng)于TM 1 處理源素材180的其他查找片段,或一旦整個素 材完成時向用戶提供輸出。D、目標(biāo)慣用法上下文級別上述本發(fā)明的實施方式主要包括作為源慣用法上下文級別的慣用法上下文級別, 即與源語言中圍繞將被翻譯的文本的文本相關(guān)的慣用法上下文。但是,本發(fā)明的其他實施 方式包括作為目標(biāo)慣用法上下文級別的慣用法上下文級別即,與在目標(biāo)語言中將被翻譯的 文本的翻譯周圍的文本相關(guān)的慣用法上下文??紤]當(dāng)前片段g,源s(g)和翻譯t(g),其中t(g)為查找片段的期望翻譯。如果翻 譯存儲器含有針對源s(g)的多個確切匹配t*(g),則查找片段的慣用法上下文可被考慮,以 消除多個確切匹配之間的不定性,即,慣用法上下文被使用,以在t* (g)中選擇翻譯t (g),其 在當(dāng)前慣用法上下文中最適合。假如在所述片段之前的(雙語)片段是片段f,其中s(f) 為前文片段的源,并且t (f)為前文片段的目標(biāo),并且在當(dāng)前片段之后的片段為片段h,具有 源S (h)和翻譯t (h)。這樣,根據(jù)上述本發(fā)明的實施方式,前文和后文源慣用法上下文級別(s(f)和 s(h))分別用于消除翻譯t*(g)之間的不定性。但是,本發(fā)明的其他實施方式另選地或附 加地使用目標(biāo)慣用法上下文級別,即前文和/或后文目標(biāo)上下文級別(t(f))和(假如有的 話)t(h)分別可被用于消除翻譯t*(g)之間的不定性。
現(xiàn)在,通過實例的方式來描述使用源慣用法上下文級別和目標(biāo)慣用法上下文級別 消除不定性之間的區(qū)別。如果文檔含有以下三個句子形式的三個片段貓睡了。它很可愛。它打呼嚕。接著,假設(shè)期望將第二片段翻成德語,即“它很可愛”翻成德語,并且還假設(shè)第一片段的翻譯已知("Die Katze schlaft"),則根據(jù)源慣用法上下文,僅可基于圍繞在源語言中被翻譯的片段的兩個片段,即前一片段s(f)="貓睡了。“和后一片段s(h) ="它打呼嚕?!皝硐凉撛诜g t*(g) (t*(g) = {" Sie ist niedlich. “,“ Er ist niedlich. “,“ Es ist niedlich. “ })之間的不定性。相反,根據(jù)源和目標(biāo)慣用法上下文級別的組合可基于在源語言中正被翻譯的片 段之前的片段s(f)="貓睡了?!耙约霸谀繕?biāo)語言中將被翻譯的片段之前的片段t(f) ="Die Katze schlaft.“來消除潛在翻譯 t*(g) (t*(g) = {" Sie ist niedlich. “,〃 Er ist niedlich. “,“ Es ist niedlich. “ })之間的不定性。在許多情況下,與僅基于源慣用法上下文消除不定性相比,利用源和目標(biāo)慣用法 上下文的組合消除不定性可提供更好的結(jié)果。在本發(fā)明的其他實施方式中,使用目標(biāo)慣用 法上下文而非源慣用法上下文。應(yīng)注意到,在以上,為了完整性,t(h)被首先包括。實際上,后一片段的翻譯通常不 是已知的,因此不能在翻譯者通常順序地通過文檔進行工作時用于消除不定性,所以t(h) 將通常不可獲得,除非該后一片段被翻譯。E、產(chǎn)生翻譯存儲器TM條目的上下文信息的存在對于系統(tǒng)100的操作是必須的。這樣,本發(fā)明的實施 需要存儲上下文信息,各新翻譯添加到TM。這允許查找片段的上下文信息有效地與先前翻 譯的片段的上下文信息對比,而不需要訪問先前翻譯的文檔。為此,在另一實施方式中,本發(fā)明提供了一種方法,當(dāng)翻譯被存儲至TM 1 時上 下文信息與每個翻譯一起存儲,因此不需要翻譯者為了本發(fā)明能夠工作而在周圍保持任何 文件,例如先前翻譯的文檔。轉(zhuǎn)到圖5,本發(fā)明還包括在TM 1 中存儲源文本和目標(biāo)文本 的翻譯對。在第一步驟SlOO中,利用TM產(chǎn)生器136將上下文分配給翻譯對。例如,可通過 在產(chǎn)生內(nèi)容期間實現(xiàn)上述SID或在翻譯過程中經(jīng)過哈希算法133的操作來分配上下文。接 著,在步驟SlOl中,上下文與翻譯對由TM產(chǎn)生器136存儲在TM 1 中。如上所述,上下文 可包括慣用法上下文級別(前文、后文、源、目標(biāo)的任意組合)、結(jié)構(gòu)性上下文級別和素材上 下文級別中的一個或更多個。應(yīng)當(dāng)認識到,上述TM產(chǎn)生器也可在素材(片段)創(chuàng)建時在客戶機側(cè)系統(tǒng)150上 實現(xiàn)。在該實施方式中,本發(fā)明包括客戶機側(cè)系統(tǒng)150,以與包括TM 1 的翻譯系統(tǒng)交互 (即,系統(tǒng)100以及其他內(nèi)容管理系統(tǒng)組件140)。轉(zhuǎn)到圖1和圖6,在這種情況下,客戶機側(cè) 系統(tǒng)150可通過提供SID分配器200來操作,以將片段標(biāo)識(SID)分配到將通過TM 128被 翻譯的片段152(步驟200),SID指示片段的慣用法上下文。SID分配器200可允許用戶關(guān) 聯(lián)預(yù)定SID或可通過利用(例如)哈希算法133產(chǎn)生SID。此外,系統(tǒng)150可包括用于(例 如)通過系統(tǒng)100的TM產(chǎn)生器136與作為TM 128的一部分的存儲器的SID分配通信(步23驟S201)的通信器202。V、結(jié)論上述發(fā)明通過賦予翻譯器將源內(nèi)容與TM的內(nèi)容完美匹配的能力,減輕了利用TM 確認源內(nèi)容的需要并創(chuàng)建了可靠的可再用的TM系統(tǒng),其允許更有效的翻譯過程,對于翻譯 器時有價值的。應(yīng)當(dāng)理解,上述步驟的順序僅是示例性的。因此,一個或更多個步驟可并行執(zhí)行、 按照不同次序執(zhí)行、在相隔較長的時間執(zhí)行。此外,在本發(fā)明的不同實施方式中,一個或更 多個所述步驟可不執(zhí)行。應(yīng)當(dāng)理解,本發(fā)明可以硬件、軟件、傳播信號或它們的任意組合實現(xiàn),并且可與所 示出的不同地劃分。任何類型的計算機/服務(wù)器系統(tǒng)-或其他適于執(zhí)行本文所述的方法的 設(shè)備-都是合適的。典型的硬件和軟件的結(jié)合應(yīng)當(dāng)是一般用途的計算機系統(tǒng),其中計算機 程序當(dāng)裝載和執(zhí)行時執(zhí)行本文所述的各方法。另選地,含有專用硬件以執(zhí)行一個或更多個 本發(fā)明的功能性任務(wù)(例如,系統(tǒng)100)的專用計算機可被使用。本發(fā)明還可嵌入到計算 機程序產(chǎn)品或傳播信號中,其包括使得本文所述的方法能夠執(zhí)行的所有的各個特征,并且 當(dāng)被裝載到計算機系統(tǒng)中時能夠執(zhí)行這些方法。在本上下文中,計算機程序、傳播信號、軟 件程序、程序或軟件意味著意圖使得具有信息處理能力的系統(tǒng)直接或在以下步驟的一者或 二者之后執(zhí)行特定功能的一套指令的按照任何語言、代碼或注釋的任意表達,所述步驟為 (a)轉(zhuǎn)化為另一語言、代碼或注釋;和/或(b)以不同的材料形式再現(xiàn)。此外,應(yīng)當(dāng)理解本 發(fā)明的教導(dǎo)可基于訂閱或付費基礎(chǔ)作為商業(yè)方法被提供。例如,所述系統(tǒng)和/或計算機可 由向消費者提供本文描述的功能的服務(wù)提供商創(chuàng)建、保持、維護和/或部署。即,服務(wù)提供 商可提供以上描述的功能。本發(fā)明還可按照其它特定形式實現(xiàn),而不脫離其精神和必要特征。應(yīng)當(dāng)理解上述 實施方式僅僅是示例性的并且不限制本發(fā)明的原理。各種和其它修改和變型可由采用本發(fā) 明的原理的本領(lǐng)域技術(shù)人員做出,并且落入本發(fā)明的精神和范圍中,并且所有變化將落入 權(quán)利要求的等同物的含義和范圍內(nèi),并意圖將其包括在本文的范圍內(nèi)。本申請要求于2004年5月5日提交的美國臨時申請No. 60/550,795的權(quán)益。該 申請是美國專利申請11/071,706的部分繼續(xù)申請。以引用的方式將這兩個申請的全部內(nèi) 容并入本文中。
權(quán)利要求
1.一種確定存儲在翻譯存儲器中的多個源文本與將被翻譯的查找片段的匹配級別的 方法,所述方法包括以下步驟準(zhǔn)確匹配確定步驟,在所述多個源文本中確定所述查找片段的任何準(zhǔn)確匹配;上下文準(zhǔn)確匹配確定步驟,在確定出至少一個準(zhǔn)確匹配的情況下,當(dāng)所述查找片段的 上下文與對應(yīng)的準(zhǔn)確匹配的上下文相匹配時,將所述對應(yīng)的準(zhǔn)確匹配確定為是所述查找片 段的上下文準(zhǔn)確匹配,其中上下文包括至少兩個級別,并且其中所述至少兩個級別包括源慣用法上下文級別和目標(biāo)慣用法上下文級別。
2.根據(jù)權(quán)利要求1所述的方法,其中在確定出多于一個的上下文準(zhǔn)確匹配的情況下, 所述上下文準(zhǔn)確匹配確定步驟包括根據(jù)上下文匹配度確定各上下文準(zhǔn)確匹配的優(yōu)先順序, 從而相對于一個或更多個其他上下文準(zhǔn)確匹配優(yōu)選更合適的上下文準(zhǔn)確匹配。
3.根據(jù)權(quán)利要求2所述的方法,其中與僅源慣用法上下文級別與所述查找片段的源慣 用法上下文級別相匹配的上下文準(zhǔn)確匹配相比,源慣用法上下文級別和目標(biāo)慣用法上下文 級別分別與所述查找片段的源慣用法上下文級別和目標(biāo)慣用法上下文級別相匹配的上下 文準(zhǔn)確匹配被分配更高的上下文匹配度。
4.根據(jù)權(quán)利要求2所述的方法,其中與僅源慣用法上下文級別與所述查找片段的源慣 用法上下文級別相匹配的上下文準(zhǔn)確匹配相比,目標(biāo)慣用法上下文級別與所述查找片段的 目標(biāo)慣用法上下文級別相匹配的上下文準(zhǔn)確匹配被分配更高的上下文匹配度。
5.根據(jù)權(quán)利要求1所述的方法,其中所述源慣用法上下文級別包括前文源慣用法上下 文級別,和/或所述目標(biāo)上下文慣用法級別包括前文目標(biāo)慣用法上下文級別。
6.根據(jù)權(quán)利要求1所述的方法,其中所述源慣用法上下文級別包括后文源慣用法上下 文級別,和/或所述目標(biāo)上下文慣用法級別包括后文目標(biāo)慣用法上下文級別。
7.根據(jù)權(quán)利要求1所述的方法,其中所述至少兩個級別包括結(jié)構(gòu)性上下文級別。
8.根據(jù)權(quán)利要求7所述的方法,其中在確定出多于一個的上下文準(zhǔn)確匹配的情況下, 所述上下文準(zhǔn)確匹配確定步驟包括根據(jù)上下文匹配度確定各上下文準(zhǔn)確匹配的優(yōu)先順序, 從而與一個或更多個其他上下文準(zhǔn)確匹配,能夠優(yōu)選更合適的上下文準(zhǔn)確匹配,其中所述源慣用法上下文級別包括前文源慣用法上下文級別,且所述目標(biāo)上下文慣用 法級別包括前文目標(biāo)慣用法上下文級別,且其中與僅結(jié)構(gòu)性上下文級別與所述查找片段的結(jié)構(gòu)性上下文級別相匹配的上下文準(zhǔn) 確匹配相比,前文源慣用法上下文級別和/或前文目標(biāo)慣用法上下文級別分別與所述查找 片段的前文源慣用法上下文級別和/或前文目標(biāo)慣用法上下文級別相匹配的上下文準(zhǔn)確 匹配被分配更高的上下文匹配度。
9.根據(jù)權(quán)利要求1所述的方法,其中僅在所述查找片段的兩個或更多個上下文級別與 對應(yīng)的準(zhǔn)確匹配的兩個或更多個上下文級別相匹配的情況下,所述上下文準(zhǔn)確匹配確定步 驟才指示所述對應(yīng)的確切匹配是所述查找片段的上下文準(zhǔn)確匹配。
10.根據(jù)權(quán)利要求9所述的方法,其中僅在所述查找片段的至少一個慣用法上下文級 別和結(jié)構(gòu)性上下文級別與對應(yīng)的準(zhǔn)確匹配的至少一個慣用法上下文級別和結(jié)構(gòu)性上下文 級別分別相匹配的情況下,所述上下文準(zhǔn)確匹配確定步驟才指示所述對應(yīng)的準(zhǔn)確匹配是所 述查找片段的上下文準(zhǔn)確匹配。
11.根據(jù)權(quán)利要求10所述的方法,其中所述至少一個慣用法上下文級別包括前文目標(biāo) 慣用法上下文級別。
12.根據(jù)權(quán)利要求10所述的方法,其中所述至少一個慣用法上下文級別包括前文源慣 用法上下文級別。
13.根據(jù)權(quán)利要求1所述的方法,其中在確定出多于一個的上下文準(zhǔn)確匹配的情況下, 所述上下文準(zhǔn)確匹配確定步驟包括優(yōu)先順序確定步驟,所述優(yōu)先順序確定步驟根據(jù)上下文 匹配度確定各上下文準(zhǔn)確匹配的優(yōu)先順序,從而使得更合適的上下文準(zhǔn)確匹配優(yōu)于一個或 更多個其他上下文準(zhǔn)確匹配,并且其中所述優(yōu)先順序確定步驟包括第一優(yōu)選步驟,所述第一優(yōu)選步驟優(yōu)選源慣用法上下文級別和目標(biāo)慣用法上下文級別 以及結(jié)構(gòu)化上下文級別分別與所述查找片段的源慣用法上下文級別和目標(biāo)慣用法上下文 級別以及結(jié)構(gòu)化上下文級別相匹配的上下文準(zhǔn)確匹配。
14.根據(jù)權(quán)利要求13所述的方法,在所述第一優(yōu)選步驟不能作出決定的情況下,所述 方法包括第二優(yōu)選步驟,所述第二優(yōu)選步驟優(yōu)選源慣用法上下文級別和目標(biāo)慣用法上下文 級別分別與所述查找片段的源慣用法上下文級別和目標(biāo)慣用法上下文級別相匹配的上下 文準(zhǔn)確匹配。
15.根據(jù)權(quán)利要求13所述的方法,其中所述源上下文級別是前文源慣用法上下文級 別,所述目標(biāo)慣用法上下文級別是前文目標(biāo)慣用法上下文級別。
16.根據(jù)權(quán)利要求14所述的方法,在所述第二優(yōu)選步驟不能作出決定的情況下,所述 方法包括第三優(yōu)選步驟,與僅后文源慣用法上下文級別或后文目標(biāo)慣用法上下文級別與所 述查找片段的后文源慣用法上下文級別或后文目標(biāo)慣用法上下文級別相匹配的上下文準(zhǔn) 確匹配相比,所述第三優(yōu)選步驟優(yōu)選前文源慣用法上下文級別或前文目標(biāo)慣用法上下文級 別分別與所述查找片段的前文源慣用法上下文級別或前文目標(biāo)慣用法上下文級別相匹配 的上下文準(zhǔn)確匹配。
17.根據(jù)權(quán)利要求16所述的方法,在所述第三優(yōu)選步驟不能作出決定的情況下,所述 方法包括第四優(yōu)選步驟,與僅結(jié)構(gòu)性上下文級別與所述查找片段的結(jié)構(gòu)性上下文級別相匹 配的上下文準(zhǔn)確匹配相比,所述第四優(yōu)選步驟優(yōu)選任一慣用法上下文級別與所述查找片段 的所述任一慣用法上下文級別相匹配的上下文準(zhǔn)確匹配。
18.根據(jù)權(quán)利要求17所述的方法,在所述第四優(yōu)選步驟不能作出決定的情況下,所述 方法包括第五優(yōu)選步驟,與結(jié)構(gòu)性上下文級別不同于所述查找片段的結(jié)構(gòu)性上下文級別的 上下文準(zhǔn)確匹配相比,所述第五優(yōu)選步驟優(yōu)選結(jié)構(gòu)性上下文級別與所述查找片段的結(jié)構(gòu)性 上下文級別相匹配的上下文準(zhǔn)確匹配。
19.根據(jù)權(quán)利要求18所述的方法,在所述第五優(yōu)選步驟不能作出決定的情況下,所述 方法包括第六優(yōu)選步驟,所述第六優(yōu)選步驟優(yōu)選在所述素材中的位置最接近所述查找片段 的位置的上下文準(zhǔn)確匹配。
20.根據(jù)權(quán)利要求2所述的方法,所述方法還包括允許用戶基于優(yōu)先順序選擇上下文 準(zhǔn)確匹配。
21.根據(jù)權(quán)利要求1所述的方法,其中所述查找片段包括內(nèi)容基本相同的多個查找片 段,并且其中所述上下文準(zhǔn)確匹配確定步驟包括針對各查找片段確定上下文準(zhǔn)確匹配。
22.根據(jù)權(quán)利要求21所述的方法,其中至少一個查找片段具有不同于至少一個其他查 找片段的上下文準(zhǔn)確匹配。
23.一種用于確定存儲在翻譯存儲器中的多個源文本與將要翻譯的查找片段的匹配級 別的系統(tǒng),所述系統(tǒng)包括準(zhǔn)確匹配確定裝置,在所述多個源文本中確定所述查找片段的任何準(zhǔn)確匹配; 上下文準(zhǔn)確匹配確定裝置,在確定出至少一個準(zhǔn)確匹配的情況下,在所述查找片段的 上下文與對應(yīng)的準(zhǔn)確匹配的上下文相匹配時,將所述對應(yīng)的準(zhǔn)確匹配確定為是對所述查找 片段的上下文準(zhǔn)確匹配,其中上下文包括至少兩個級別,并且其中所述至少兩個級別包括源慣用法上下文級別和目標(biāo)慣用法上下文級別。
24.一種在翻譯存儲器中存儲翻譯單位的方法,所述翻譯單位包括源文本和目標(biāo)文本, 所述方法包括以下步驟向翻譯單位分配上下文,其中所述上下文包括至少兩種級別,所述至少兩種級別包括 源慣用法上下文級別和目標(biāo)慣用法上下文級別;以及 將所述上下文與所述翻譯單位一起存儲。
25.一種用于在翻譯存儲器中存儲翻譯單位的系統(tǒng),所述翻譯單位包括源文本和目標(biāo) 文本,所述系統(tǒng)包括用于向所述翻譯單位分配上下文的裝置,其中所述上下文包括至少兩個級別,所述至 少兩個級別包括源慣用法上下文級別和目標(biāo)慣用法上下文級別;以及 用于將所述上下文與所述翻譯單位一起存儲的裝置。
26.一種翻譯存儲器,所述翻譯存儲器包括 用于與查找片段相比較的多個源文本;和 各源文本的上下文標(biāo)識,其中所述上下文標(biāo)識包括源慣用法上下文部分和目標(biāo)慣用法上下文部分。
27.根據(jù)權(quán)利要求沈所述的翻譯存儲器,其中所述源慣用法上下文部分和/或所述目 標(biāo)慣用法上下文部分包括前文慣用法上下文部分和/或后文慣用法上下文部分。
28.根據(jù)權(quán)利要求沈所述的翻譯存儲器,其中所述上下文標(biāo)識包括結(jié)構(gòu)性上下文部分。
29.—種與包括翻譯存儲器的翻譯系統(tǒng)交互的客戶機側(cè)系統(tǒng),所述系統(tǒng)包括用于將片段標(biāo)識分配給將被所述翻譯系統(tǒng)翻譯的片段的裝置,所述片段標(biāo)識指示所述 片段的源慣用法上下文和目標(biāo)慣用法上下文;以及裝置,用于傳輸所述片段標(biāo)識的分配結(jié)果,使所述片段標(biāo)識的分配結(jié)果存儲作為翻譯 存儲器的一部分。
30.根據(jù)權(quán)利要求四所述的系統(tǒng),其中所述片段標(biāo)識包括結(jié)構(gòu)性上下文。
31.一種確定存儲在翻譯存儲器中的多個源文本與將被翻譯的查找片段的匹配級別的 方法,所述方法包括以下步驟在所述多個源文本中確定針對所述查找片段的任何模糊匹配;和 在確定出至少一個模糊匹配的情況下,當(dāng)所述查找片段的上下文與對應(yīng)的模糊匹配相 匹配時,將所述對應(yīng)的模糊匹配確定為所述查找片段的上下文模糊匹配。
32.根據(jù)權(quán)利要求31所述的方法,其中所確定出的模糊匹配包括具有相同的模糊匹配 度的多個模糊匹配。
33.根據(jù)權(quán)利要求31所述的方法,其中所述上下文包括結(jié)構(gòu)性上下文。
34.一種確定存儲在翻譯存儲器中的多個源文本與將被翻譯的查找片段的匹配級別的 系統(tǒng),所述系統(tǒng)包括用于在所述多個源文本中確定所述查找片段的任何模糊匹配的裝置;和用于在確定出至少一個模糊匹配的情況下,當(dāng)所述查找片段的上下文與對應(yīng)的模糊 匹配的上下文相匹配時,確定所述對應(yīng)的模糊匹配是所述查找片段的上下文模糊匹配的裝 置。
35.一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機可讀介質(zhì),所述計算機可讀 介質(zhì)具有記錄在其上的計算機可讀指令,當(dāng)被計算裝置執(zhí)行時,所述計算機可讀指令能夠 操作以使得所述計算裝置執(zhí)行權(quán)利要求1、M或31的方法。
全文摘要
本發(fā)明涉及上下文準(zhǔn)確匹配。公開了用于確定文本查找片段與翻譯存儲器中的多個源文本在上下文方面的匹配級別的方法、系統(tǒng)和程序產(chǎn)品。具體地說,本發(fā)明在多個源文本中確定查找片段的任何準(zhǔn)確匹配,并在確定出至少一個準(zhǔn)確匹配的情況下,在查找片段的上下文與對應(yīng)的準(zhǔn)確匹配相匹配時,將該準(zhǔn)確匹配確定為是查找片段的上下文準(zhǔn)確(ICE)匹配??深A(yù)先確定上下文匹配度并確定結(jié)果的優(yōu)先順序。本發(fā)明還包括用于在包括上下文的翻譯存儲器中存儲源文本和目標(biāo)文本的翻譯對的方法、系統(tǒng)和程序產(chǎn)品,以及這樣形成的翻譯存儲器。本發(fā)明確保了內(nèi)容被翻譯得和之前翻譯出的內(nèi)容一樣,并減少了翻譯者的干涉。
文檔編號G06F17/28GK102053958SQ20101052184
公開日2011年5月11日 申請日期2010年10月25日 優(yōu)先權(quán)日2009年10月27日
發(fā)明者丹尼爾·布羅克曼, 奧利弗·克里斯特 申請人:Sdl有限公司