1.一種基于編碼和機(jī)器學(xué)習(xí)的多語(yǔ)種識(shí)別方法,其特征在于,包括如下實(shí)現(xiàn)步驟:
第一步,通過(guò)機(jī)器學(xué)習(xí)單元對(duì)文本進(jìn)行語(yǔ)種識(shí)別;
第二步,通過(guò)編碼識(shí)別單元對(duì)文本進(jìn)行處理,具體是:采用Unicode編碼識(shí)別文本中含有的字符語(yǔ)種類別,對(duì)各語(yǔ)種的單詞量進(jìn)行統(tǒng)計(jì);
第三步,進(jìn)行混合語(yǔ)種判斷,輸出最終語(yǔ)種識(shí)別結(jié)果;
設(shè)機(jī)器學(xué)習(xí)單元識(shí)別的語(yǔ)種為第一語(yǔ)言;當(dāng)編碼識(shí)別單元識(shí)別的語(yǔ)言與第一語(yǔ)言一致時(shí),輸出最終語(yǔ)種識(shí)別結(jié)果為第一語(yǔ)言;當(dāng)編碼識(shí)別單元識(shí)別到多種語(yǔ)言時(shí),進(jìn)行混合語(yǔ)言規(guī)則判斷,輸出混合語(yǔ)言或單一語(yǔ)種;
所述的混合語(yǔ)言規(guī)則判斷,包括如下情況:
(1)機(jī)器學(xué)習(xí)單元識(shí)別為中文,編碼識(shí)別單元識(shí)別包含中文和藏文和/或維文,判斷藏文或維文在文本中的單詞量比例是否大于10%,若是則判定為混合語(yǔ)種,輸出中文和藏文和/或維文在文本中的單詞量比例,否則,判定為中文;
(2)機(jī)器學(xué)習(xí)單元識(shí)別為日文,編碼識(shí)別單元識(shí)別結(jié)果包含中文和日文,判斷日文在文本中的單詞量比例是否少于30%,若是判定為混合語(yǔ)言,輸出中文和日文分別在文本中的單詞量比例;否則,判定為日文;
(3)機(jī)器學(xué)習(xí)單元識(shí)別為中文,編碼識(shí)別單元識(shí)別結(jié)果包含中文和英文,判斷英文在文本中的單詞量比例是否大于60%,若是,修正輸出結(jié)果為主語(yǔ)言為英文,并輸出中文和英文分別在文本中的單詞量比例,否則,判定為中文;
(4)編碼識(shí)別單元識(shí)別結(jié)果包含俄文和/或蒙文和/或韓文,判斷俄文、蒙文或韓文在文本中的單詞量比例是否小于40%,若是,判定為混合語(yǔ)言,輸出俄文和/或蒙文和/或韓文分別在文本中的單詞量比例,否則,直接輸出機(jī)器學(xué)習(xí)單元的識(shí)別結(jié)果;
(5)機(jī)器學(xué)習(xí)單元識(shí)別為法文,判斷文本中是否含有法文專有字母/單詞,若沒(méi)有,修正識(shí)別語(yǔ)言為英文,否則輸出法文;
(6)機(jī)器學(xué)習(xí)單元識(shí)別為中文,但文本為亂碼,編碼識(shí)別單元未識(shí)別到任何漢字時(shí),輸出“unknown language”。
2.根據(jù)權(quán)利要求1所述的一種基于編碼和機(jī)器學(xué)習(xí)的多語(yǔ)種識(shí)別方法,其特征在于,所述的多語(yǔ)種識(shí)別方法,對(duì)于長(zhǎng)文本,先進(jìn)行采樣,然后對(duì)采樣得到的子文本進(jìn)行所述的第一步到第三步的語(yǔ)種識(shí)別,對(duì)子文本的語(yǔ)種識(shí)別結(jié)果就是長(zhǎng)文本的語(yǔ)種識(shí)別結(jié)果。