技術(shù)總結(jié)
本發(fā)明涉及一種中文分詞糾錯方法、離線訓(xùn)練裝置及在線處理裝置,方法包括:從語料庫上自動訓(xùn)練得到分詞糾錯器,比較當(dāng)前分詞結(jié)果集與正確的分詞結(jié)果集,對錯誤的分詞結(jié)果進行統(tǒng)計,自動總結(jié)出糾錯規(guī)則,并對每條糾錯規(guī)則計算統(tǒng)計指標(biāo),過濾不可靠的糾錯規(guī)則,這樣不停迭代計算,不斷發(fā)現(xiàn)新的糾錯規(guī)則從而構(gòu)建糾錯規(guī)則庫,再根據(jù)糾錯規(guī)則庫對在線句子進行分詞糾錯處理,本發(fā)明提供一種中文分詞糾錯方法、離線訓(xùn)練裝置及在線處理裝置能夠通過構(gòu)建糾錯規(guī)則庫有效的提高中文分詞的精準(zhǔn)性,同時能夠不斷適應(yīng)新詞出現(xiàn)的需求。
技術(shù)研發(fā)人員:吳尉林;許歡慶;郭永福;陳沛
受保護的技術(shù)使用者:北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司
文檔號碼:201510526686
技術(shù)研發(fā)日:2015.08.25
技術(shù)公布日:2017.03.08