技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明提供一種主題詞分類模型創(chuàng)建方法,其包括:獲取多個模型訓(xùn)練文檔,并提取所述模型訓(xùn)練文檔的標簽詞;基于相似度算法,獲取標簽詞對應(yīng)的核心主題詞組;基于映射內(nèi)容庫,獲取核心主題詞組對應(yīng)的第一模型訓(xùn)練文檔集合;基于機器學習算法,對多個模型訓(xùn)練文檔進行分類操作;基于映射內(nèi)容庫,獲取標簽詞對應(yīng)的所有模型訓(xùn)練文檔的主體類別標識,并根據(jù)標簽詞對應(yīng)的主體類別標識,確定標簽詞對應(yīng)的第二模型訓(xùn)練文檔集合;將標簽詞對應(yīng)的第一模型訓(xùn)練文檔集合和第二模型訓(xùn)練文檔集合中重復(fù)的模型訓(xùn)練文檔作為正樣本,映射內(nèi)容庫中的其他模型訓(xùn)練文檔作為負樣本,創(chuàng)建標簽詞的主題詞分類模型。本發(fā)明還提供一種主題詞分類模型創(chuàng)建裝置及存儲介質(zhì)。
技術(shù)研發(fā)人員:孫子荀
受保護的技術(shù)使用者:騰訊科技(深圳)有限公司
技術(shù)研發(fā)日:2017.06.14
技術(shù)公布日:2017.11.07