技術編號:6426308
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明總體上涉及信息處理,特別地,涉及一種用于文檔聚類的方法及系統(tǒng)。背景技術隨著互聯(lián)網(wǎng)應用的日益普及,海量的文本信息為文本分析提供了豐富的數(shù)據(jù)源。通過對文本數(shù)據(jù)的分析,可以分析出輿論熱點等信息。對于文本分析技術而言,文本聚類是眾多應用的關鍵步驟,有效的文本聚類方法,能夠提高輿論熱點識別的精度。 傳統(tǒng)的文本聚類技術,通常是提取文檔的文本特征信息,例如關鍵詞詞頻,而后基于文本特征信息,計算兩篇文檔之間的相似度,然后基于相似度進行聚類。然而,這種聚類算法存在一定...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。