1.一種語料管理方法,其特征是:包括步驟:
新建云端語料庫,對準備導入的語料建立分詞倒排數據后,存儲到云端語料庫中;
云端語料庫開放至少兩個賬號接口;
云端數據庫根據所有賬號接口進行讀取和寫入,并將根據讀取和寫入數據實時學習和增加的新語料,經過分詞倒排數據后存儲添加到云端語料庫中。
2.如權利要求1所述語料管理方法,其特征是:所述讀取和寫入數據是通過訓練引擎進行機器翻譯訓練,來達到實時學習和增加的新語料的目的的。
3.如權利要求2所述語料管理方法,其特征是:所述賬號接口可以根據本賬號接口增加的新語料和訓練引擎訓練專屬于本賬號接口的機器翻譯模型。
4.如權利要求1所述語料管理方法,其特征是:所述新語料在上傳云端語料庫后,先通過文件解析功能解析得到每一條句對,針對每一條句對分別對原文和譯文進行分詞,然后建立對應的分詞倒排數據,并存儲到云端語料庫中。
5.如權利要求3所述語料管理方法,其特征是:所述句對對應其分詞倒排數據進行存儲。
6.如權利要求1所述語料管理方法,其特征是:當新讀取和寫入的數據,或其對應的句對和分詞倒排數據包含在云端語料庫中時,云端語料庫自動將相關資料進行反饋展示。
7.如權利要求1所述語料管理方法,其特征是:當所述云端語料庫接收到檢索請求時,根據檢索請求內容,進行分詞,并以分詞結果進行倒排查詢,并返回相似度最高的已存儲的分詞倒排數據作為檢索結果。
8.如權利要求6所述語料管理方法,其特征是:所述相似度是根據分詞倒排的頻率計算的,頻率越高則相似度越高。
9.如權利要求1所述語料管理方法,其特征是:所述賬號接口包括Trados,Visual,Transmate,memoQ中的至少一個軟件或者平臺的賬號。