欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于決策樹的譯員分類方法

文檔序號(hào):8258726閱讀:243來源:國(guó)知局
一種基于決策樹的譯員分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)分類技術(shù)領(lǐng)域,尤其是一種基于決策樹的譯員分類方法。
【背景技術(shù)】
[0002] 目前,翻譯服務(wù)業(yè)正向著大規(guī)模產(chǎn)業(yè)化的方向發(fā)展。翻譯服務(wù)業(yè)實(shí)現(xiàn)產(chǎn)業(yè)化的一 個(gè)重要前提是實(shí)現(xiàn)翻譯服務(wù)信息化,即利用計(jì)算機(jī)、輔助翻譯軟件、互聯(lián)網(wǎng)、數(shù)字技術(shù)等信 息時(shí)代的高科技手段實(shí)現(xiàn)翻譯工作的信息化。在云翻譯平臺(tái)上,確定譯員的專業(yè)類別屬性, 可以將稿件和譯員進(jìn)行更好的匹配。
[0003] 以往對(duì)于譯員的專業(yè)類別屬性的確定,只是分析譯員所翻譯的過往文檔的類別屬 性,得到分類結(jié)果粗糙不準(zhǔn)確,而通過人工測(cè)試的方法來確定,則需要花費(fèi)大量的人力物力 成本,從而導(dǎo)致翻譯效率低的問題。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的之一是提供一種基于決策樹的譯員分類方法,以解決現(xiàn)有技術(shù)中對(duì) 于翻譯平臺(tái)上的分類的翻譯效率低的問題。
[0005] 在一些說明性實(shí)施例中,所述基于決策樹的譯員分類方法,包括:獲取待分類對(duì)象 的基本信息和/或歷史信息,提取所述基本信息和/或歷史信息中的至少一個(gè)特征,并將每 個(gè)所述特征分別作為一個(gè)決策影響因素;以所述決策影響因素在不同類別的決策樹中,按 照相應(yīng)的所述決策樹的生成順序進(jìn)行判定;根據(jù)判定結(jié)果,確定所述待分類對(duì)象歸屬的類 別。
[0006] 與現(xiàn)有技術(shù)相比,本發(fā)明的說明性實(shí)施例包括以下優(yōu)點(diǎn):
[0007] 通過從基本信息和歷史信息中提取客觀的數(shù)據(jù)及信息,,利用決策樹的對(duì)上述數(shù) 據(jù)及信息進(jìn)行判定,可靠性得到了大大的提升,并且避免了對(duì)譯員進(jìn)行人工測(cè)試,節(jié)省了人 力物力成本,使翻譯效率可以得到顯著的提升。
【附圖說明】
[0008] 此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0009] 圖1是按照本發(fā)明的說明性實(shí)施例的流程圖;
[0010] 圖2是按照本發(fā)明的說明性實(shí)施例的流程圖;
[0011] 圖3是按照本發(fā)明的正態(tài)分布的曲線示意圖。
【具體實(shí)施方式】
[0012] 在以下詳細(xì)描述中,提出大量特定細(xì)節(jié),以便于提供對(duì)本發(fā)明的透徹理解。但是, 本領(lǐng)域的技術(shù)人員會(huì)理解,即使沒有這些特定細(xì)節(jié)也可實(shí)施本發(fā)明。在其它情況下,沒有詳 細(xì)描述眾所周知的方法、過程、組件和電路,以免影響對(duì)本發(fā)明的理解。
[0013] 為了便于更快的理解本方案,對(duì)本下述采用的術(shù)語進(jìn)行簡(jiǎn)單說明:
[0014] 信息熵,設(shè)X是一個(gè)取有限個(gè)值的離散隨機(jī)變量,其概率分布為P (X = Xi) = Pi,i =1,2,. . .,n,則隨機(jī)變量X的信息熵定義為:
[0015]
【主權(quán)項(xiàng)】
1. 一種基于決策樹的譯員分類方法,其特征在于,包括: 獲取待分類對(duì)象的基本信息和/或歷史信息,提取所述基本信息和/或歷史信息中的 至少一個(gè)特征,并將每個(gè)所述特征分別作為一個(gè)決策影響因素; W所述決策影響因素在不同類別的決策樹中,按照相應(yīng)的所述決策樹的生成順序進(jìn)行 判定; 根據(jù)判定結(jié)果,確定所述待分類對(duì)象歸屬的類別。
2. 根據(jù)權(quán)利要求1所述的分類方法,其特征在于,在所述獲取待分類對(duì)象的基本信息 和/或歷史信息之前,還包括: 從記錄有若干對(duì)象屬性的數(shù)據(jù)庫中確定具有影響分類類別的所述至少一個(gè)特征。
3. 根據(jù)權(quán)利要求2所述的分類方法,其特征在于,所述至少一個(gè)特征包括;譯員的專業(yè) 和目標(biāo)行業(yè)是否相關(guān)的判定、譯員的工作經(jīng)歷和目標(biāo)行業(yè)是否相關(guān)的判定、譯員是否翻譯 過目標(biāo)行業(yè)文章的判定、譯員翻譯目標(biāo)行業(yè)文章的數(shù)量級(jí)、譯員翻譯目標(biāo)行業(yè)文章的優(yōu)良 率、翻譯目標(biāo)行業(yè)術(shù)語數(shù)量、術(shù)語翻譯準(zhǔn)確率、譯員存儲(chǔ)的術(shù)語與目標(biāo)行業(yè)術(shù)語庫的符合程 度、譯員存儲(chǔ)的語料與目標(biāo)行業(yè)語料庫的符合程度中的一個(gè)或任意組合。
4. 根據(jù)權(quán)利要求2所述的分類方法,其特征在于,在所述獲取待分類對(duì)象的基本信息 和/或歷史信息之前,還包括: 從數(shù)據(jù)庫中隨機(jī)抽取一定數(shù)量的對(duì)象,構(gòu)建訓(xùn)練數(shù)據(jù)集;其中,所述訓(xùn)練數(shù)據(jù)集中的每 個(gè)對(duì)象具有確定的所述至少一個(gè)特征; 根據(jù)所述訓(xùn)練數(shù)據(jù)集中的每個(gè)對(duì)象的各個(gè)特征的信息增益或信息增益比,確定每個(gè)類 別對(duì)應(yīng)的決策樹的生成順序,并根據(jù)該順序構(gòu)建該類別對(duì)應(yīng)的決策樹。
5. 根據(jù)權(quán)利要求4所述的分類方法,其特征在于,根據(jù)每個(gè)分類決策樹的特征的信息 增益或信息增益比,利用ID3算法或C4. 5算法構(gòu)建所述決策樹。
6. 根據(jù)權(quán)利要求4所述的分類方法,其特征在于,每個(gè)所述特征分別對(duì)應(yīng)有至少兩個(gè) 取值范圍/兩種判定結(jié)果;每個(gè)對(duì)象的每個(gè)所述特征對(duì)應(yīng)有一個(gè)實(shí)際值或?qū)嶋H結(jié)果; 所述確定每個(gè)類別對(duì)應(yīng)的決策樹的生成順序,具體包括: 確定所述訓(xùn)練數(shù)據(jù)集中的對(duì)象的數(shù)量,W及劃分的類別的數(shù)量; 按照每個(gè)所述特征的選取范圍的個(gè)數(shù)n,構(gòu)建對(duì)應(yīng)該特征的n個(gè)子集,并根據(jù)每個(gè)所述 訓(xùn)練數(shù)據(jù)集中的對(duì)象對(duì)應(yīng)該特征的實(shí)際值或?qū)嶋H結(jié)果,將所述對(duì)象劃分到相應(yīng)的所述子集 中; 計(jì)算出不同類別下的訓(xùn)練數(shù)據(jù)集的信息滴,W及該類別下的每個(gè)特征的條件滴,并根 據(jù)所述信息滴和條件滴確定在該類別該特征的信息增益和信息增益比; 根據(jù)不同類別下的每個(gè)特征的信息增益和信息增益比的大小關(guān)系,確定該類別對(duì)應(yīng)的 決策樹的從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的所述生成順序。
7. 根據(jù)權(quán)利要求4所述的分類方法,其特征在于,通過正態(tài)分布曲線確定每個(gè)所述特 征的至少兩個(gè)取值范圍。
8. 根據(jù)權(quán)利要求4所述的分類方法,其特征在于,所述根據(jù)判定結(jié)果,確定所述待分類 對(duì)象歸屬的類別,具體包括: 根據(jù)待分類對(duì)象的每個(gè)特征的實(shí)際值或?qū)嶋H結(jié)果,在不同類別的決策樹上進(jìn)行判定; 根據(jù)決策樹的生成順序逐層判定,直到所述待分類對(duì)象的滿足該決策樹的葉子結(jié)點(diǎn), 即得到該待分類對(duì)象的一個(gè)分類屬性。
【專利摘要】一種基于決策樹的譯員分類方法,包括:獲取待分類對(duì)象的基本信息和/或歷史信息,提取所述基本信息和/或歷史信息中的至少一個(gè)特征,并將每個(gè)所述特征分別作為一個(gè)決策影響因素;以所述決策影響因素在不同類別的決策樹中,按照相應(yīng)的所述決策樹的生成順序進(jìn)行判定;根據(jù)判定結(jié)果,確定所述待分類對(duì)象歸屬的類別。通過從基本信息和歷史信息中提取客觀的數(shù)據(jù)及信息,利用決策樹的對(duì)上述數(shù)據(jù)及信息進(jìn)行判定,可靠性得到了大大的提升,并且避免了對(duì)譯員進(jìn)行人工測(cè)試,節(jié)省了人力物力成本,使翻譯效率可以得到顯著的提升。
【IPC分類】G06F17-30, G06F17-28
【公開號(hào)】CN104572854
【申請(qǐng)?zhí)枴緾N201410784892
【發(fā)明人】江潮, 張芃
【申請(qǐng)人】語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
【公開日】2015年4月29日
【申請(qǐng)日】2014年12月17日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
福鼎市| 安龙县| 临桂县| 宜黄县| 新郑市| 鲁甸县| 赞皇县| 禹城市| 维西| 林芝县| 江川县| 兴文县| 惠来县| 大余县| 和硕县| 中阳县| 潞西市| 绥德县| 津市市| 丽水市| 新津县| 金沙县| 慈溪市| 山东省| 崇礼县| 高清| 德清县| 龙门县| 东山县| 抚松县| 泸定县| 伊通| 韶关市| 晋城| 南乐县| 罗定市| 忻州市| 宁陕县| 十堰市| 彰武县| 堆龙德庆县|