技術(shù)總結(jié)
本發(fā)明公開了一種主題詞抽取方法及裝置。其中,該方法包括:獲取所有需要抽取主題詞的文檔以及出現(xiàn)在該文檔中的詞語;基于每個詞語在該文檔中出現(xiàn)的頻率構(gòu)建詞語文檔矩陣,其中,詞語文檔矩陣的每一行表示各個詞語在一篇文檔中的詞頻信息,每一列表示一個詞語在各篇文檔中的詞頻信息;利用潛在語義分析模型對詞語文檔矩陣進行語義分析,生成潛在語義空間;根據(jù)潛在語義空間抽取所有需要抽取主題詞的文檔的主題詞。本發(fā)明解決了由于一詞多義或多詞同義造成的影響主題詞抽取質(zhì)量的技術(shù)問題。
技術(shù)研發(fā)人員:祁國晟;徐文斌
受保護的技術(shù)使用者:北京國雙科技有限公司
文檔號碼:201510819148
技術(shù)研發(fā)日:2015.11.23
技術(shù)公布日:2017.05.31