技術(shù)特征:
技術(shù)總結(jié)
一種獲取熱點(diǎn)話題的方法及裝置,所述方法包括:獲取待處理的語(yǔ)料集合,所述語(yǔ)料集合包括多個(gè)語(yǔ)料,每個(gè)語(yǔ)料包括多個(gè)詞語(yǔ),獲取所述語(yǔ)料集合中各詞語(yǔ)的熱度信息;根據(jù)所述語(yǔ)料集合中各詞語(yǔ)的熱度信息,從所述語(yǔ)料集合中提取熱詞集合;基于信息熵從所述熱詞集合中提取包含多個(gè)候選熱詞組的候選熱詞組集合;基于候選熱詞組的熱度信息和候選熱詞組的權(quán)重值,從所述候選熱詞組集合中提取目標(biāo)熱詞組集合,將所述目標(biāo)熱詞組集合作為熱點(diǎn)話題集合。通過(guò)采用本方案,能夠自動(dòng)從海量短文本中獲取熱點(diǎn)話題,以及提高從海量文本中獲取熱點(diǎn)話題的效率與質(zhì)量。
技術(shù)研發(fā)人員:王勵(lì);鐘黎;許維;劉黎春
受保護(hù)的技術(shù)使用者:騰訊科技(深圳)有限公司
技術(shù)研發(fā)日:2017.06.21
技術(shù)公布日:2017.11.07