專利名稱:多策略譯員稿件自動匹配的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機領(lǐng)域,具體而言,涉及一種多策略譯員稿件自動匹配的方法。
背景技術(shù):
信息時代和網(wǎng)絡(luò)化使翻譯工作方式發(fā)生了很大的變化。利用翻譯流程管理平臺,根據(jù)不同對象儲存人才資料。有翻譯任務(wù)時,可以根據(jù)翻譯項目的語種、文章類型、專業(yè)領(lǐng)域以及客戶對翻譯質(zhì)量和時限的要求,調(diào)用最合適的翻譯和審校人員,組成項目組進行翻譯,從而提高翻譯效率、節(jié)省翻譯費用、確保譯文質(zhì)量、優(yōu)化項目管理。目前的輔助翻譯及管理平臺對譯員和譯稿的匹配,一般還是通過人工或半人工的方式來完成,往往需通過更高級別的譯員(比如審校)來判別譯員的翻譯能力和對譯稿的合適度。這樣不但主觀性強,且采用人工選擇譯員,效率低下。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種多策略譯員稿件自動匹配的方法,以解決的問題。在本發(fā)明的實施例中,提供了一種多策略譯員稿件自動匹配的方法,包括:讀取待譯稿件的各個屬性,篩選出滿足全部屬性要求的譯員;讀取所述篩選出的譯員ID,對每個譯員的譯后稿件與標準譯稿進行相似性分析,確定每個譯員的翻譯能力的量化值;確定為每個譯員設(shè)定的合適度值;將每個譯員的量化值、合適度值的和進行排序,選擇出分值最高的譯員。本發(fā)明的實施例,能客觀的選擇譯員,效率較高,且經(jīng)過各種屬性判斷,找出最適合的多個譯員供用戶選擇。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1示出了實施例的流程圖;圖2示出了實施例中進行相似度分析的模塊架構(gòu);圖3示出了實施例中關(guān)鍵詞的樹形結(jié)構(gòu)圖。
具體實施例方式下面將參考附圖并結(jié)合實施例,來詳細說明本發(fā)明。參見圖1所示的實施例的流程圖,包括:Sll:讀取待譯稿件的各個屬性,篩選出滿足全部屬性要求的譯員;S12:讀取所述篩選出的譯員ID,對每個譯員的譯后稿件與標準譯稿進行相似性分析,確定每個譯員的翻譯能力的量化值;
S13:確定每個譯員設(shè)定的合適度值;S14:將每個譯員的量化值、合適度值的和進行排序,選擇出分值最高的譯員。本發(fā)明的實施例,能客觀的選擇譯員,效率較高,且經(jīng)過各種屬性判斷,找出最適合的多個譯員供用戶選擇。優(yōu)選地,實施例中,每個譯員對應(yīng)該譯員基因?qū)傩?,包含了語種、行業(yè)、學(xué)科、領(lǐng)域等的翻譯能力,以及信用度、完成任務(wù)及時度、質(zhì)量波動情況、對某種稿件類型的熟悉度、對某類(個)客戶的熟悉度等其他因素;而待譯稿件的稿件碎片的基因?qū)傩詣t包括語種、行業(yè)、學(xué)科、難度、翻譯要求等。通過將這些基因?qū)傩粤炕氲揭粋€合適的匹配模型中進行匹配,從而得出某個稿件碎片適合哪些譯員翻譯并且給出適合度的排序??砂凑杖龑悠ヅ淠P驼业阶g員,第一層為過濾項,該層首先確定一些基本的開關(guān)項,不符合這些項的譯員被濾掉,符合的譯員進入下一層匹配;第二層為翻譯能力項,該層通過譯稿的基因?qū)傩詠碛嬎阕g員相應(yīng)語種、行業(yè)、學(xué)科、領(lǐng)域的翻譯能力,其值為一個O 100的數(shù)值;第三層合適度計算項,系統(tǒng)根據(jù)譯員的基因?qū)傩约皩傩缘臋?quán)重計算出譯員翻譯該譯稿的合適度。第一層的匹配過程包括:讀取待譯稿件的各個屬性,篩選出滿足全部屬性要求的譯員;確定該譯員的狀態(tài)為接案狀態(tài)后,讀取該譯員的與所述待譯稿件相同的屬性;屬性至少包括之一:包括翻譯價格、是否接任務(wù)、退稿率、是否翻譯需求方、專項稿件能力。至少執(zhí)行以下之一的屬性篩選:如果所述譯員的翻譯價格屬性的值在所述待譯稿件的翻譯價格屬性的上下限閥值之間,則認為符合屬性要求;如果所述譯員的退稿率屬性的值小于所述待譯稿件的退稿率屬性的值,則認為符合屬性要求;如果所述譯員的翻譯需求屬性的內(nèi)容包含所述待譯稿件的翻譯需求屬性的內(nèi)容,則認為符合屬性要求;如果所述譯員的專項稿件能力屬性符合所述待譯稿件的專項稿件屬性的內(nèi)容,則認為符合屬性要求。例如:判別該譯員翻譯價格是否超過給定譯稿的翻譯價格閥值,不超過為1,否則為O該譯員被過濾掉。是否接任務(wù):判斷若該譯員是否處于暫不接任務(wù)狀態(tài),接任務(wù)為1,不接任務(wù)為O該譯員被過濾掉。退稿率:若譯員退稿率不大于50%,按其值的大小歸入到合適度項目計算,否則其值為O直接過濾掉。是否翻譯需求方:若翻譯甲方有指定的翻譯要求,按其要求判斷譯員是否符合要求,符合為1,否則為O該譯員被過濾掉。專項稿件能力:若待譯稿件為某類專門稿件,如簡歷、公證書、法律文書或其他有專門格式和體裁文書,則要求譯員具備相關(guān)的文書翻譯能力,具備為1,否則為O該譯員被過濾掉。
在第一層匹配之后,通過第二層的譯稿的基因?qū)傩詠碛嬎阕g員相應(yīng)語種、行業(yè)、學(xué)科、領(lǐng)域的翻譯能力,其值為一個O 100的數(shù)值。按照圖2所示的模塊結(jié)構(gòu)量化,該方法的流程過程如下:提取測試稿件一篇中到英的有關(guān)汽車發(fā)動機制造的測試稿件,其語種信息、行業(yè)信息和學(xué)科領(lǐng)域信息為:語種信息:中一英行業(yè)信息:37交通運輸設(shè)備制造業(yè)372汽車制造3721汽車整車制造學(xué)科領(lǐng)域信息:470動力與電氣工程470.30動力機械工程470.3020內(nèi)燃機工程(包括汽油機、柴油機、氣體燃料發(fā)動機等)對譯員能力進行判斷,如果已經(jīng)經(jīng)過判定,則進入譯員能力選擇/比較模塊,如果沒有經(jīng)過判定,則進行翻譯能力測試系統(tǒng)登陸模塊。譯員登錄平臺申請領(lǐng)取測試稿件。系統(tǒng)讀取測試稿件的語種、行業(yè)、學(xué)科、領(lǐng)域等屬性信息,若譯員具備該屬性能力,則進入譯員能力比較/選擇模塊;否則分配測試許可號給該譯員進行該專業(yè)屬性能力的翻譯測試;申領(lǐng)譯員憑測試許可號登錄翻譯能力測試系統(tǒng),進行該語種、行業(yè)、學(xué)科、領(lǐng)域的翻譯能力測試;系統(tǒng)根據(jù)測試許可號,從標準測試文檔庫中提取7篇相關(guān)測試文檔給待測譯員,包括語種類文檔I篇,行業(yè)類文檔3篇(37、372、3721),學(xué)科領(lǐng)域類文檔3篇(470、470.30、470.3020),其難度系數(shù)分別為:9、6、8、8、7、8、7,排列順序為語種、行業(yè)-交通運輸設(shè)備制造業(yè)(37)、行業(yè)-交通運輸設(shè)備制造業(yè)-汽車制造(372)、行業(yè)-交通運輸設(shè)備制造業(yè)-汽車制造-汽車整車制造(3721)、學(xué)科領(lǐng)域信息-動力與電氣工程(470)、學(xué)科領(lǐng)域信息-動力與電氣工程-動力機械工程(470.30)、學(xué)科領(lǐng)域信息-動力與電氣工程-動力機械工程-內(nèi)燃機工程(470.3020),后面的數(shù)字順序與此相同;譯員翻譯完成后,根據(jù)翻譯時間得到7篇譯文的翻譯速度檔位值分別為:6、8、7、
6、6、7、7,然后調(diào)用相似性比較模塊計算譯員的譯文和標準譯文的相似度,得到7篇譯文和標準譯文的相似度值,分別為:0.6,0.65,0.79,0.83,0.77,0.82,0.85 ;優(yōu)選地,稿件相似性比較模塊進行分析的過程包括:S21:提取每篇譯后稿件和與其對應(yīng)的標準譯稿所歸屬的屬于一個專業(yè)的多篇標準譯稿的全部關(guān)鍵詞,得到關(guān)鍵詞集合C= {k1;k2,-,kj ;S22:計算C中每個關(guān)鍵詞k在稿件集合中出現(xiàn)的概率,即出現(xiàn)關(guān)鍵詞k的稿件數(shù)和稿件總數(shù)之比,記為P (k)。將關(guān)鍵詞按P (k)進行降序排序,并將每一個關(guān)鍵詞作為一個集合,這樣得到初始的m個待合并集合,記為Ik1),{k2),..., {km);在這m個關(guān)鍵詞中 ,計算在關(guān)鍵詞Ici出現(xiàn)的稿件中,關(guān)鍵詞kj也出現(xiàn)的概率,記為P(IijIki),共計P 2m個條件概率,(l〈i, j彡m ;i關(guān)j);
p (kj │ ki)的計算方法:p (kj │ki) =p (kjki) /P(kjki)為 kj、ki 同時出現(xiàn)在同一篇稿件中的概率。S23:合并集合,當(dāng)集合I和J同時滿足以下兩個條件時合并:彐(ki∈I,kj∈J, ki≠ kj)滿足 P (ki)>Pl,P(kj│ki) >P2 ;V (ki∈IUJ)滿足 │{ki ∈I U J│p(kj│ki)>P2}i>(|i| + |j|)/2. (|x| 表示集合X中元素的個數(shù))當(dāng)任兩個集合都不符合這兩個條件的時合并結(jié)束,同時得到第一層聚類關(guān)鍵詞集合 C - {Cl, C2, ...,Cq) .對C - {C1,C2,…,Cq},取閾值P3〈P2,用上述方法再次進行聚類,生成上一層概念集合。重復(fù)此過程,直到聚類集合無法再聚類為止,這些無法再聚類的概念集合為根節(jié)點C的子節(jié)點,這樣就生成如圖3所示的關(guān)鍵詞的概念樹。S24:根據(jù)概率形成的樹形結(jié)構(gòu),計算兩篇文檔的相似度。相ㄔ以度
權(quán)利要求
1.一種多策略譯員稿件自動匹配的方法,其特征在于,包括: 讀取待譯稿件的各個屬性,篩選出滿足全部屬性要求的譯員; 讀取所述篩選出的譯員ID,對每個譯員的譯后稿件與標準譯稿進行相似性分析,確定每個譯員的翻譯能力的量化值; 確定為每個譯員設(shè)定的合適度值; 將每個譯員的量化值、合適度值的和進行排序,選擇出分值最高的譯員。
2.根據(jù)權(quán)利要求1所述的 方法,其特征在于,所述待譯稿件的各個屬性至少包括之一: 翻譯價格、退稿率、翻譯需求、專項稿件。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述篩選的過程包括: 確定該譯員的狀態(tài)為接案狀態(tài)后,讀取該譯員的與所述待譯稿件相同的屬性; 至少執(zhí)行以下之一的屬性篩選: 如果所述譯員的翻譯價格屬性的值在所述待譯稿件的翻譯價格屬性的的上下限閥值之間,則認為符合屬性要求; 如果所述譯員的退稿率屬性的值小于所述待譯稿件的退稿率屬性的值,則認為符合屬性要求; 如果所述譯員的翻譯需求屬性的內(nèi)容包含所述待譯稿件的翻譯需求屬性的內(nèi)容,則認為符合屬性要求; 如果所述譯員的專項稿件的能力屬性符合所述待譯稿件的專項稿件屬性的內(nèi)容,則認為符合屬性要求。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述合適度的計算項至少包括以下之一: 退稿率、及時交稿率、稿件可用率、翻譯性價比、合作次數(shù)、低級失誤;其中,每一項對應(yīng)一個介于(TlOO之間的數(shù)值。
所述確定合適度值的過程包括: 設(shè)定多個合適度計算項的權(quán)重; 將每個合適度計算項與其對應(yīng)的權(quán)重相乘,將所述多個合適度計算項的乘積的和作為所述和適度值。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述相似性分析的過程包括: 提取每篇譯后稿件和與其對應(yīng)的測試文檔庫中的標準譯稿集合的關(guān)鍵詞;該關(guān)鍵詞的集合為 C={k1; k2,..., kj ; 計算C中每個關(guān)鍵詞k在稿件中出現(xiàn)的概率,即出現(xiàn)關(guān)鍵詞k的稿件數(shù)和稿件總數(shù)之比,記為P (k); 將C中關(guān)鍵詞按P (k)進行降序排序,并將每一個關(guān)鍵詞作為一個集合,這樣得到初始的m個待合并集合,記為{kj , {k2},..., {kj ; 在這m個關(guān)鍵詞中,計算在關(guān)鍵詞匕出現(xiàn)的稿件中關(guān)鍵詞kj出現(xiàn)的概率,記為P(kj Iki),共計 P I 個條件概率,(I 彡 i,j 彡 m ;i 關(guān) j) ;p (IiJki)=P (Iijki)/p Cki), p Ckjkj為h和h同時出現(xiàn)在同一篇稿件中的概率; 合并待合并集合,生成以關(guān)鍵詞集合C為根節(jié)點的關(guān)鍵詞概念樹。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述合并過程包括: 對于待合并的兩個關(guān)鍵詞集合Cl和C2,合并條件為:存在Ici屬于Cl, kj屬于C2,且p(10>閥值?14 (IijIki) >閥值P2,當(dāng)p (Iii)和p (k」| Iii)大于所述設(shè)定閥值時,關(guān)鍵詞Iii和h表達相同概念,滿足其所在的集合的合并條件之一; 在合并后的集合中任給一個關(guān)鍵詞ki;其與集合中一半以上關(guān)鍵詞都滿足條件PCkjIki))閥值 P2。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,定義H為生成的概念樹的高度,定義depth (k)為節(jié)點k在樹中的深度,即為從根節(jié)點到該節(jié)點所經(jīng)歷的邊數(shù); 定義ComGii, kj)為離節(jié)點Ici和kj最近的共同父節(jié)點; 任兩個關(guān)鍵詞的積的計算公式AiXkj=Clepth (com Cki, k」))/H ; 設(shè)向量 A={a1;a2,..., an}, B={b1; b2, bn},定義向量計算:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,確定所述量化值的過程包括: 根據(jù)每篇測試稿件的專業(yè)術(shù)語的數(shù)量,確定該每篇測試稿件的權(quán)重基值;其中,所述測試稿件經(jīng)過翻譯后得到所述譯后稿件; 通過所述權(quán)重基值、所述測試稿件的翻譯難度系數(shù)、和譯員的翻譯速度系數(shù)確定出每件測試稿件所占的權(quán)重; 將上述所得的權(quán)重值結(jié)合譯后稿件與標準譯稿的相似度值得到一個O 100之間的數(shù)值,將該數(shù)值作為所述量化值。
全文摘要
本發(fā)明提供了一種多策略譯員稿件自動匹配的方法,包括讀取待譯稿件的各個屬性,篩選出滿足全部屬性要求的譯員;讀取所述篩選出的譯員ID,對每個譯員的譯后稿件與標準譯稿進行相似性分析,確定每個譯員的翻譯能力的量化值;確定為每個譯員設(shè)定的合適度值;將每個譯員的量化值、合適度值的和進行排序,選擇出分值最高的譯員。本發(fā)明能客觀的選擇譯員,效率較高,且經(jīng)過各種屬性判斷,找出最適合的多個譯員供用戶選擇。
文檔編號G06F17/27GK103092827SQ20121059487
公開日2013年5月8日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者江潮 申請人:武漢傳神信息技術(shù)有限公司