技術(shù)編號:12063774
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細信息。本發(fā)明屬于大數(shù)據(jù)文本分析技術(shù)領(lǐng)域,具體涉及一種通過CHI算法提取每類文本的特征詞、TFIDF算法實現(xiàn)文本的向量化表示以及樸素貝葉斯方法訓(xùn)練分類的海量長文本數(shù)據(jù)分類的分析模型的實現(xiàn)方法。背景技術(shù)當(dāng)今時代,是一個信息技術(shù)飛速發(fā)展的時代。隨著信息技術(shù)的發(fā)展,科學(xué)知識也在短時間內(nèi)發(fā)生了急劇的、爆炸性的增長,每天都有大量的信息在產(chǎn)生,全世界每年出版圖書50萬種,每一分鐘就有一種新書出版。平均每天發(fā)表的包含新知識的論文為1.3到1.4萬篇;登記的發(fā)明創(chuàng)造專利每年超過30萬件,平均每天有800-900件專利問...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。
請注意,此類技術(shù)沒有源代碼,用于學(xué)習(xí)研究技術(shù)思路。