本發(fā)明涉及一種翻譯技術(shù)領(lǐng)域,特別是涉及一種語料管理方法。
背景技術(shù):
翻譯行業(yè)經(jīng)過多年發(fā)展,生產(chǎn)過程中積累的語料庫規(guī)模龐大,傳統(tǒng)桌面CAT由于桌面PC的處理器限制,無法管理海量規(guī)模的語料庫。而且,若是一個團(tuán)隊共同負(fù)責(zé)某一文件的翻譯時,很可能出現(xiàn)重復(fù)翻譯,浪費時間的問題。
如何管理海量規(guī)模的語料庫,避免多人重復(fù)翻譯減少翻譯量成為本領(lǐng)域技術(shù)人員亟待解決的問題。
應(yīng)該注意,上面對技術(shù)背景的介紹只是為了方便對本申請的技術(shù)方案進(jìn)行清楚、完整的說明,并方便本領(lǐng)域技術(shù)人員的理解而闡述的。不能僅僅因為這些方案在本申請的背景技術(shù)部分進(jìn)行了闡述而認(rèn)為上述技術(shù)方案為本領(lǐng)域技術(shù)人員所公知。
技術(shù)實現(xiàn)要素:
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種有助于管理海量規(guī)模的語料庫,且有助于避免多人重復(fù)翻譯的問題的語料管理方法。
為實現(xiàn)上述目的,本發(fā)明提供了一種語料管理方法,包括步驟:
新建云端語料庫,對準(zhǔn)備導(dǎo)入的語料建立分詞倒排數(shù)據(jù)后,存儲到云端語料庫中;
云端語料庫開放至少兩個賬號接口;
云端數(shù)據(jù)庫根據(jù)所有賬號接口進(jìn)行讀取和寫入,并將根據(jù)讀取和寫入數(shù)據(jù)實時學(xué)習(xí)和增加的新語料,經(jīng)過分詞倒排數(shù)據(jù)后存儲添加到云端語料庫中。
優(yōu)選的,所述讀取和寫入數(shù)據(jù)是通過訓(xùn)練引擎進(jìn)行機器翻譯訓(xùn)練,來達(dá)到實時學(xué)習(xí)和增加的新語料的目的的。雖然直接將讀取和寫入的數(shù)據(jù),以句對和分詞倒排的形式存入云端語料庫也可以,但經(jīng)過訓(xùn)練引擎進(jìn)行機器翻譯訓(xùn)練,在某些專業(yè)領(lǐng)域可以達(dá)到較好的訓(xùn)練效果,進(jìn)而使得增添的新語料更具實用性和準(zhǔn)確性。
優(yōu)選的,所述賬號接口可以根據(jù)本賬號接口增加的新語料和訓(xùn)練引擎訓(xùn)練專屬于本賬號接口的機器翻譯模型。重復(fù)進(jìn)行機器翻譯模型的訓(xùn)練,可以使得用戶將新的語料在存儲后,作用于下一次機器翻譯模型的訓(xùn)練,產(chǎn)生正向的循環(huán)機制,使得機器翻譯引擎的質(zhì)量越來越高,也越來越符合用戶的使用習(xí)慣。
優(yōu)選的,所述新語料在上傳云端語料庫后,先通過文件解析功能解析得到每一條句對,針對每一條句對分別對原文和譯文進(jìn)行分詞,然后建立對應(yīng)的分詞倒排數(shù)據(jù),并存儲到云端語料庫中。將語料的存儲形式進(jìn)行統(tǒng),方便后續(xù)檢索使用。
優(yōu)選的,所述句對對應(yīng)其分詞倒排數(shù)據(jù)進(jìn)行存儲。將句對及其對應(yīng)分詞倒排數(shù)據(jù)一同進(jìn)行存儲,使得用戶在搜索時,能夠進(jìn)行更全面的檢索。
優(yōu)選的,當(dāng)新讀取和寫入的數(shù)據(jù),或其對應(yīng)的句對和分詞倒排數(shù)據(jù)包含在云端語料庫中時,云端語料庫自動將相關(guān)資料進(jìn)行反饋展示。由于其自動檢索和反饋,使得用戶無需自己動手查詢,這使得翻譯效率更為高效,其譯文也更為統(tǒng)一和高質(zhì)量。
優(yōu)選的,當(dāng)所述云端語料庫接收到檢索請求時,根據(jù)檢索請求內(nèi)容,進(jìn)行分詞,并以分詞結(jié)果進(jìn)行倒排查詢,并返回相似度最高的已存儲的分詞倒排數(shù)據(jù)作為檢索結(jié)果。將相似度最高的檢索結(jié)果返回,可以方便用戶使用;當(dāng)然,這里的檢索結(jié)果可以反饋多個相似度較高的結(jié)果,,以便用戶選擇。
優(yōu)選的,所述相似度是根據(jù)分詞倒排的頻率計算的,頻率越高則相似度越高。舉例說明,比如用戶輸入[人民大學(xué)],平臺將用戶輸入的關(guān)鍵詞分詞為[中國]、[人民],根據(jù)分詞的結(jié)果去查詢倒排,命中<人民,1>、<大學(xué),1-2>兩個分詞倒排,根據(jù)倒排計算出頻率,句子1出現(xiàn)兩次,句子2出現(xiàn)一次,那么此處相似度最高的句子為句子1:中國人民大學(xué)。
優(yōu)選的,所述賬號接口包括Trados,Visual,Transmate,memoQ中的至少一個軟件或者平臺的賬號。多翻譯軟件和翻譯平臺的賬號適用,使得及時不同平臺的用戶也能夠進(jìn)行協(xié)作翻譯。
本發(fā)明的有益效果是:本發(fā)明中,語料庫以云端語料庫的形式存在,由于其存儲量大增,使得本發(fā)明能夠進(jìn)行海量語料的管理;另外,本發(fā)明由于允許至少兩個不同的賬號接口接入統(tǒng)一云端語料庫,且云端語料庫具備根據(jù)用戶的讀取和寫入進(jìn)行學(xué)習(xí)和增添新語料的功能,這使得團(tuán)隊協(xié)作成員在翻譯過程中,將翻譯好的句對實時地寫入到云端語料庫中,實現(xiàn)實時共享翻譯記憶庫,從而通過避免多人重復(fù)翻譯減少翻譯量、加快翻譯速度,通過翻譯記憶庫完全匹配技術(shù)保持統(tǒng)一譯文提升翻譯質(zhì)量。
參照后文的說明和附圖,詳細(xì)公開了本申請的特定實施方式,指明了本申請的原理可以被采用的方式。應(yīng)該理解,本申請的實施方式在范圍上并不因而受到限制。在所附權(quán)利要求的精神和條款的范圍內(nèi),本申請的實施方式包括許多改變、修改和等同。
針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。
應(yīng)該強調(diào),術(shù)語“包括/包含”在本文使用時指特征、整件、步驟或組件的存在,但并不排除一個或更多個其它特征、整件、步驟或組件的存在或附加。
附圖說明
所包括的附圖用來提供對本申請實施例的進(jìn)一步的理解,其構(gòu)成了說明書的一部分,用于例示本申請的實施方式,并與文字描述一起來闡釋本申請的原理。顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:
圖1是本發(fā)明實施例的流程圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都應(yīng)當(dāng)屬于本申請保護(hù)的范圍。
圖1是本發(fā)明實施例的流程圖,參見圖1,一種語料管理方法,包括步驟:
S1:新建云端語料庫,對準(zhǔn)備導(dǎo)入的語料建立分詞倒排數(shù)據(jù)后,存儲到云端語料庫中;
S2:云端語料庫開放至少兩個賬號接口;
S3:云端數(shù)據(jù)庫根據(jù)所有賬號接口進(jìn)行讀取和寫入,并將根據(jù)讀取和寫入數(shù)據(jù)實時學(xué)習(xí)和增加的新語料,經(jīng)過分詞倒排數(shù)據(jù)后存儲添加到云端語料庫中。
本發(fā)明的有益效果是:本發(fā)明中,語料庫以云端語料庫的形式存在,由于其存儲量大增,使得本發(fā)明能夠進(jìn)行海量語料的管理;另外,本發(fā)明由于允許至少兩個不同的賬號接口接入統(tǒng)一云端語料庫,且云端語料庫具備根據(jù)用戶的讀取和寫入進(jìn)行學(xué)習(xí)和增添新語料的功能,這使得團(tuán)隊協(xié)作成員在翻譯過程中,將翻譯好的句對實時地寫入到云端語料庫中,實現(xiàn)實時共享翻譯記憶庫,從而通過避免多人重復(fù)翻譯減少翻譯量、加快翻譯速度,通過翻譯記憶庫完全匹配技術(shù)保持統(tǒng)一譯文提升翻譯質(zhì)量。
本發(fā)明中的語料,一般以TMX文件的形式存在。
本實施例優(yōu)選的,讀取和寫入數(shù)據(jù)是通過訓(xùn)練引擎進(jìn)行機器翻譯訓(xùn)練,來達(dá)到實時學(xué)習(xí)和增加的新語料的目的的。雖然直接將讀取和寫入的數(shù)據(jù),以句對和分詞倒排的形式存入云端語料庫也可以,但經(jīng)過訓(xùn)練引擎進(jìn)行機器翻譯訓(xùn)練,在某些專業(yè)領(lǐng)域可以達(dá)到較好的訓(xùn)練效果,進(jìn)而使得增添的新語料更具實用性和準(zhǔn)確性。
本實施例優(yōu)選的,賬號接口可以根據(jù)本賬號接口增加的新語料和訓(xùn)練引擎訓(xùn)練專屬于本賬號接口的機器翻譯模型。重復(fù)進(jìn)行機器翻譯模型的訓(xùn)練,可以使得用戶將新的語料在存儲后,作用于下一次機器翻譯模型的訓(xùn)練,產(chǎn)生正向的循環(huán)機制,使得機器翻譯引擎的質(zhì)量越來越高,也越來越符合用戶的使用習(xí)慣。
本實施例優(yōu)選的,新語料在上傳云端語料庫后,先通過文件解析功能解析得到每一條句對,針對每一條句對分別對原文和譯文進(jìn)行分詞,然后建立對應(yīng)的分詞倒排數(shù)據(jù),并存儲到云端語料庫中。將語料的存儲形式進(jìn)行統(tǒng),方便后續(xù)檢索使用。
本實施例優(yōu)選的,句對對應(yīng)其分詞倒排數(shù)據(jù)進(jìn)行存儲。將句對及其對應(yīng)分詞倒排數(shù)據(jù)一同進(jìn)行存儲,使得用戶在搜索時,能夠進(jìn)行更全面的檢索。
本實施例優(yōu)選的,當(dāng)新讀取和寫入的數(shù)據(jù),或其對應(yīng)的句對和分詞倒排數(shù)據(jù)包含在云端語料庫中時,云端語料庫自動將相關(guān)資料進(jìn)行反饋展示。由于其自動檢索和反饋,使得用戶無需自己動手查詢,這使得翻譯效率更為高效,其譯文也更為統(tǒng)一和高質(zhì)量。
本實施例優(yōu)選的,當(dāng)云端語料庫接收到檢索請求時,根據(jù)檢索請求內(nèi)容,進(jìn)行分詞,并以分詞結(jié)果進(jìn)行倒排查詢,并返回相似度最高的已存儲的分詞倒排數(shù)據(jù)作為檢索結(jié)果。將相似度最高的檢索結(jié)果返回,可以方便用戶使用;當(dāng)然,這里的檢索結(jié)果可以反饋多個相似度較高的結(jié)果,,以便用戶選擇。
本實施例優(yōu)選的,相似度是根據(jù)分詞倒排的頻率計算的,頻率越高則相似度越高。舉例說明,比如用戶輸入[人民大學(xué)],平臺將用戶輸入的關(guān)鍵詞分詞為[中國]、[人民],根據(jù)分詞的結(jié)果去查詢倒排,命中<人民,1>、<大學(xué),1-2>兩個分詞倒排,根據(jù)倒排計算出頻率,句子1出現(xiàn)兩次,句子2出現(xiàn)一次,那么此處相似度最高的句子為句子1:中國人民大學(xué)。
本實施例優(yōu)選的,賬號接口包括Trados,Visual,Transmate,memoQ中的至少一個軟件或者平臺的賬號。多翻譯軟件和翻譯平臺的賬號適用,使得及時不同平臺的用戶也能夠進(jìn)行協(xié)作翻譯。
本發(fā)明所涉及的Trados是一種翻譯記憶軟件,Visual是一種編程工具或者說平臺,Transmate是一種翻譯軟件,memoQ是一種翻譯工具。
以上詳細(xì)描述了本發(fā)明的較佳具體實施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)人員無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思作出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實驗可以得到的技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。