一種基于貝葉斯算法的垃圾評論識別方法、系統(tǒng)及終端的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù),特別涉及一種基于貝葉斯算法的垃圾評論識別方法、系統(tǒng)及終端。
【背景技術(shù)】
[0002]近年來,隨著因特網(wǎng)的快速發(fā)展,人們發(fā)表觀點以及相互交流的方式也發(fā)生了改變,網(wǎng)絡(luò)已經(jīng)成為人們獲取知識、交流溝通、發(fā)布信息的主要工具,對于當(dāng)今視頻網(wǎng)站、博客、微博、電子商務(wù)等互動式平臺的發(fā)展,評論中信息的挖掘越來越受到關(guān)注,人們在觀看視頻,閱讀博客、微博或者在電子商務(wù)平臺上購買商品后,通常會做出相應(yīng)的評論,表達自己的觀點,例如視頻的評論可以反映觀看者對于視頻的觀看后的感覺,博文或者微博評論可以反映閱讀者對博文的觀點以及對發(fā)布者的情感表達,商品評論可以分析出購買者對商品的滿意度,供后來者參考。
[0003]但是針對相關(guān)互動式平臺,特別是較為出名的網(wǎng)站或者人氣較高的發(fā)布者發(fā)布的信息,有些用戶為謀取私利或者破壞社會穩(wěn)定,經(jīng)常發(fā)布一些垃圾評論,例如,無關(guān)的廣告評論、推銷評論、含有政治、暴力、色情等評論內(nèi)容。傳統(tǒng)的垃圾評論識別方法主要是通過各種用戶特征如關(guān)鍵詞來搜索評論本身所攜帶的內(nèi)容以檢測垃圾評論,在識別后進行事先屏蔽或者事后刪除。但是在網(wǎng)站中垃圾評論和正常評論在形式上有時并無區(qū)別,而且垃圾評論者可以通過將關(guān)鍵詞替換為諧音字詞來刻意規(guī)避該關(guān)鍵詞搜索,很容易被惡意評論這繞過?,F(xiàn)有的各種網(wǎng)絡(luò)系統(tǒng)中,一般是根據(jù)貝葉斯算法判別評論內(nèi)容是否為垃圾評論,貝葉斯算法是統(tǒng)計學(xué)的一種分類方法,它是一類利用概率統(tǒng)計知識進行分類的算法,通過這種算法對評論內(nèi)容進行判別時,可以將惡意評論者想得到的關(guān)鍵詞替換內(nèi)容也作為訓(xùn)練樣本輸入到貝葉斯算法的訓(xùn)練集,惡意評論者很難通過關(guān)鍵詞的替換來繞過識別,具有判別精度更高的優(yōu)點。但是貝葉斯算法需要根據(jù)已有的垃圾評論內(nèi)容做基礎(chǔ),從而判斷新的評論內(nèi)容是否正常,那就會面臨一個問題,如果惡意評論者發(fā)的是一條和已有的垃圾內(nèi)容差別很大的內(nèi)容,則貝葉斯算法將無法直接識別出來。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于貝葉斯算法的垃圾評論識別方法,該識別方法結(jié)合搜索引擎和貝葉斯算法,能夠在沒有之前的垃圾評論內(nèi)容做參照的情況下,在大量的評論中,智能的將垃圾評論挖掘識別出來。
[0005]本發(fā)明的第二目的在于,提供一種用于實現(xiàn)上述方法的基于貝葉斯算法的垃圾評論識別系統(tǒng)。
[0006]本發(fā)明的第三目的在于,提供一種終端。
[0007]本發(fā)明的第一目的通過下述技術(shù)方案實現(xiàn):一種基于貝葉斯算法的垃圾評論識別方法,步驟如下:
[0008]選擇一定數(shù)量并且確定為正常評論的內(nèi)容加入到貝葉斯算法的訓(xùn)練集中進行訓(xùn)練;以新評論的內(nèi)容作為關(guān)鍵詞,通過搜索引擎在原有評論庫中進行搜索;
[0009]檢測在原有評論庫中搜索到的評論與新評論的相似度以及數(shù)量,當(dāng)在原有評論庫中搜索到和新評論內(nèi)容的相似度達到預(yù)設(shè)的第一閾值且數(shù)量達到預(yù)設(shè)的第二閾值的評論時,則將該新評論以及與該新評論相似度達到預(yù)設(shè)的第一閾值的評論判定為嫌疑垃圾評論;
[0010]將被判定為嫌疑垃圾評論的新評論的內(nèi)容輸入到貝葉斯算法中進行判定,若判定結(jié)果為該新評論為正常評論的概率達到預(yù)設(shè)的第三閾值時,則將該新評論判定為正常評論,否則判定為垃圾評論。
[0011]優(yōu)選的,所述選取輸入到貝葉斯算法的訓(xùn)練集中進行訓(xùn)練的正常評論的數(shù)量為10萬條以上。
[0012]優(yōu)選的,原有評論庫中的評論與新評論的相似度指的是:新評論和原有評論庫中的評論的內(nèi)容中相同文字的數(shù)量與新評論內(nèi)容中文字總量之間的比值。
[0013]優(yōu)選的,所述預(yù)設(shè)的第一閾值為80 %。
[0014]優(yōu)選的,所述預(yù)設(shè)的第二閾值200條。
[0015]優(yōu)選的,所述預(yù)設(shè)的第三閾值為80%。
[0016]優(yōu)選的,還包括以下步驟:當(dāng)新評論被判定為垃圾評論時,攔截該新評論的內(nèi)容。
[0017]本發(fā)明的第二目的通過下述技術(shù)方案實現(xiàn):一種基于貝葉斯算法的垃圾評論識別系統(tǒng),包括
[0018]獲取模塊,用于獲取一定數(shù)量并且確定為正常評論的內(nèi)容,然后輸入到貝葉斯算法的訓(xùn)練集中進行訓(xùn)練;
[0019]原有評論庫,用于存放所有的評論內(nèi)容的數(shù)據(jù)庫,為原有的數(shù)據(jù)庫;
[0020]搜索引擎模塊,用于以新評論的內(nèi)容作為關(guān)鍵詞,在原有評論庫進行搜索;
[0021]相似度檢測模塊,用于檢測搜索引擎模塊搜索到原有評論庫中的評論和新評論之間的相似度;
[0022]數(shù)量檢測模塊,用于檢測原有評論庫中與新評論內(nèi)容的相似度達到預(yù)設(shè)的第一閾值的評論的數(shù)量;
[0023]嫌疑垃圾評論判定模塊,用于在原有評論庫中搜索到和新評論的內(nèi)容的相似度達到預(yù)設(shè)的第一閾值且數(shù)量達到預(yù)設(shè)的第二閾值的評論時,將新評論以及與該新評論相似度達到預(yù)設(shè)的第一閾值的評論判定為嫌疑垃圾評論;
[0024]以及垃圾評論判定模塊,用于將被判定為嫌疑垃圾評論的新評論的內(nèi)容輸入到貝葉斯算法中進行判定,若判定結(jié)果為該新評論為正常評論的概率達到預(yù)設(shè)的第三閾值時,則將該新評論判定為正常評論,否則判定為垃圾評論。
[0025]優(yōu)選的,還包括攔截模塊,用于在所述垃圾評論判定模塊判定新評論為垃圾評論時,攔截該新評論的內(nèi)容。
[0026]本發(fā)明的第三目的通過下述技術(shù)方案實現(xiàn):一種終端,包括上述所述的基于貝葉斯算法的垃圾評論識別系統(tǒng)。
[0027]本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果:
[0028]本發(fā)明首先選擇一定數(shù)量并且確定為正常評論的內(nèi)容加入到貝葉斯算法的訓(xùn)練集中進行訓(xùn)練;以新評論的內(nèi)容作為關(guān)鍵詞,通過搜索引擎在原有評論庫中進行搜索;檢測原有評論庫中的評論與新評論的相似度以及數(shù)量,當(dāng)在原有評論庫中搜索到和新評論內(nèi)容的相似度達到預(yù)設(shè)的第一閾值且數(shù)量達到預(yù)設(shè)的第二閾值的評論時,則將該新評論以及與該新評論相似度達到預(yù)設(shè)的第一閾值的評論判定為嫌疑垃圾評論;將被判定為嫌疑垃圾評論的新評論的內(nèi)容輸入到貝葉斯算法中進行判定,若判定結(jié)果為該新評論為正常評論的概率達到預(yù)設(shè)的第三閾值時,則將該新評論判定為正常評論,否則判定為垃圾評論。本發(fā)明首先通過搜索引擎搜索原有評論庫,根據(jù)相似度判斷新評論是否為嫌疑垃圾評論,針對嫌疑垃圾評論再進一步通過貝葉斯算法進行判斷,最終確定新評論是否為垃圾評論。本發(fā)明結(jié)合搜索引擎和貝葉斯算法,并且建立正常評論的訓(xùn)練集,因此能夠在沒有之前的垃圾評論內(nèi)容做參照的情況下,在大量的評論中,智能的將垃圾評論挖掘識別出來。避免了純貝葉斯算法需要依賴于以前的垃圾評論內(nèi)容,不能智能識別出新的變種垃圾評論內(nèi)容的現(xiàn)象。能夠有效識別出垃圾評論,降低各種垃圾廣告對用戶的干擾,提升用戶體驗。
【附圖說明】
[0029]圖1是本發(fā)明實施例1方法的流程圖。
[0030]圖2是本發(fā)明實施例2系統(tǒng)的組成框圖。
【具體實施方式】
[0031]下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。
[0032]實施例1
[0033]如圖1所示,本實施例公開了一種基于貝葉斯算法的垃圾評論識別方法,步驟如下:
[0034]選擇一定數(shù)量并且確定為正常評論的內(nèi)容加入到貝葉斯算法的訓(xùn)練集中進行訓(xùn)練;本步驟中選取輸入到貝葉斯算法訓(xùn)練集中進行訓(xùn)練的正常評論的數(shù)量為10萬條以上,一般是10至50萬條。
[0035]以新評論的內(nèi)容作為關(guān)鍵詞,通過搜索引擎在原有評論庫中進行搜索;
[0036]檢測在原有評論庫中搜索到的評論與新評論的相似度以及數(shù)量,當(dāng)在原有評論庫中搜索到和新評論的內(nèi)容的相似度達到預(yù)設(shè)的