技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明實(shí)施例提供一種語言文本的分詞方法和系統(tǒng),該方法包括:獲取待處理的第一語言文本和可信度閾值;采用第一分詞方式,對(duì)第一語言文本進(jìn)行分詞,得到第一詞邊界集合;根據(jù)可信度閾值,將第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合;根據(jù)第三詞邊界集合,從第一語言文本中選取第二語言文本,第二語言文本包括第三詞邊界集合中的每個(gè)詞邊界對(duì)應(yīng)的詞;采用第二分詞方式,對(duì)第二語言文本進(jìn)行分詞,得到第四詞邊界集合;將第二詞邊界集合和第四詞邊界集合確定為第一語言文本的分詞結(jié)果。通過調(diào)整可信度閾值的大小,能夠靈活調(diào)整第一語言文本所需的分詞精度,從而能夠適應(yīng)對(duì)分詞精度有不同要求的多種應(yīng)用場(chǎng)景。
技術(shù)研發(fā)人員:陳曉;李航
受保護(hù)的技術(shù)使用者:華為技術(shù)有限公司
技術(shù)研發(fā)日:2016.04.12
技術(shù)公布日:2017.10.24