第一閾值且數(shù)量達(dá)到預(yù)設(shè)的第二閾值的評(píng)論時(shí),則將該新評(píng)論和與該新評(píng)論相似度達(dá)到預(yù)設(shè)的第一閾值的評(píng)論判定為嫌疑垃圾評(píng)論,否則將新評(píng)論判定為正常評(píng)論;其中本實(shí)施例中預(yù)設(shè)的第一閾值為80%,預(yù)設(shè)的第二閾值為200條。
[0037]將被判定為嫌疑垃圾評(píng)論的新評(píng)論的內(nèi)容輸入到貝葉斯算法中進(jìn)行判定,若判定結(jié)果為該新評(píng)論為正常評(píng)論的概率達(dá)到預(yù)設(shè)的第三閾值時(shí),則將該新評(píng)論判定為正常評(píng)論,否則判定為垃圾評(píng)論。在本實(shí)施例中預(yù)設(shè)的第三閾值為80%。
[0038]當(dāng)新評(píng)論被判定為垃圾評(píng)論時(shí),攔截該新評(píng)論的內(nèi)容。
[0039]本實(shí)施例上述步驟中,原有評(píng)論庫(kù)中的評(píng)論與新評(píng)論的相似度指的是:新評(píng)論和原有評(píng)論庫(kù)中的評(píng)論內(nèi)容中相同文字的數(shù)量與新評(píng)論內(nèi)容中文字總量之間的比值。例如新評(píng)論的內(nèi)容有10個(gè)字,如果原有評(píng)論庫(kù)里至少有200條評(píng)論的內(nèi)容有至少8個(gè)字與這條新評(píng)論重合,那么我們認(rèn)為原有評(píng)論庫(kù)中這200條評(píng)論和這條新評(píng)論都是有嫌疑的。這樣做的理由是,垃圾評(píng)論一般都會(huì)批量的發(fā),所以如果發(fā)現(xiàn)系統(tǒng)中涌進(jìn)來(lái)大量類(lèi)似的評(píng)論,那很可能是垃圾評(píng)論。
[0040]本實(shí)施例上述識(shí)別方法首先通過(guò)搜索引擎搜索原有評(píng)論庫(kù),根據(jù)相似度判斷新評(píng)論是否為嫌疑垃圾評(píng)論,針對(duì)嫌疑垃圾評(píng)論再進(jìn)一步通過(guò)貝葉斯算法進(jìn)行判斷,最終確定新評(píng)論是否為垃圾評(píng)論。本實(shí)施例上述識(shí)別方法結(jié)合搜索引擎和貝葉斯算法,能夠在沒(méi)有之前的垃圾評(píng)論內(nèi)容做參照的情況下,在大量的評(píng)論中,智能的將垃圾評(píng)論挖掘識(shí)別出來(lái)。避免了純貝葉斯算法需要依賴(lài)于以前的垃圾評(píng)論內(nèi)容,不能智能識(shí)別出新的變種的垃圾評(píng)論內(nèi)容的現(xiàn)象。能夠有效識(shí)別出垃圾評(píng)論,降低各種垃圾廣告對(duì)用戶的干擾,提升用戶體驗(yàn)。
[0041]實(shí)施例2
[0042]如圖2所示,本實(shí)施例還公開(kāi)了一種用于實(shí)現(xiàn)上述識(shí)別方法的基于貝葉斯算法的垃圾評(píng)論識(shí)別系統(tǒng),其包括
[0043]獲取模塊,用于獲取一定數(shù)量并且確定為正常評(píng)論的內(nèi)容,然后輸入到貝葉斯算法的訓(xùn)練集中進(jìn)行訓(xùn)練;
[0044]原有評(píng)論庫(kù),用于所有評(píng)論內(nèi)容的數(shù)據(jù)庫(kù),是系統(tǒng)原有的數(shù)據(jù)庫(kù);
[0045]搜索引擎模塊,用于以新評(píng)論的內(nèi)容作為關(guān)鍵詞,在原有評(píng)論庫(kù)中搜索評(píng)論的內(nèi)容;
[0046]相似度檢測(cè)模塊,用于檢測(cè)搜索引擎模塊搜索到原有評(píng)論庫(kù)中的評(píng)論和新評(píng)論之間的相似度;
[0047]數(shù)量檢測(cè)模塊,用于檢測(cè)原有評(píng)論庫(kù)中與新評(píng)論內(nèi)容的相似度達(dá)到預(yù)設(shè)的第一閾值的評(píng)論的數(shù)量;
[0048]嫌疑垃圾評(píng)論判定模塊,用于在原有評(píng)論庫(kù)中搜索到和新評(píng)論的內(nèi)容的相似度達(dá)到預(yù)設(shè)的第一閾值且數(shù)量達(dá)到預(yù)設(shè)的第二閾值的評(píng)論時(shí),將新評(píng)論和與該新評(píng)論相似度達(dá)到預(yù)設(shè)的第一閾值的評(píng)論判定為嫌疑垃圾評(píng)論;本實(shí)施例中預(yù)設(shè)的第一閾值為80%,預(yù)設(shè)的第二閾值為200條。
[0049]垃圾評(píng)論判定模塊,用于將被判定為嫌疑垃圾評(píng)論的新評(píng)論的內(nèi)容輸入到貝葉斯算法中進(jìn)行判定,若判定結(jié)果為該新評(píng)論為正常評(píng)論的概率達(dá)到預(yù)設(shè)的第三閾值時(shí),則將該新評(píng)論判定為正常評(píng)論,否則判定為垃圾評(píng)論。在本實(shí)施例中預(yù)設(shè)的第三閾值為80%。
[0050]攔截模塊,用于在垃圾評(píng)論判定模塊判定新評(píng)論為垃圾評(píng)論時(shí),攔截該新評(píng)論的內(nèi)容。以阻值垃圾評(píng)論的發(fā)布。
[0051]實(shí)施例3
[0052]本實(shí)施例還公開(kāi)了一種包括上述基于貝葉斯算法的垃圾評(píng)論識(shí)別系統(tǒng)的終端。該終端可以為手機(jī)、平板電腦和計(jì)算機(jī)。
[0053]上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于貝葉斯算法的垃圾評(píng)論識(shí)別方法,其特征在于,步驟如下: 選擇一定數(shù)量并且確定為正常評(píng)論的內(nèi)容加入到貝葉斯算法的訓(xùn)練集中進(jìn)行訓(xùn)練; 以新評(píng)論的內(nèi)容作為關(guān)鍵詞,通過(guò)搜索引擎在原有評(píng)論庫(kù)中進(jìn)行搜索; 檢測(cè)在原有評(píng)論庫(kù)中搜索到的評(píng)論與新評(píng)論的相似度以及數(shù)量,當(dāng)在原有評(píng)論庫(kù)中搜索到和新評(píng)論內(nèi)容的相似度達(dá)到預(yù)設(shè)的第一閾值且數(shù)量達(dá)到預(yù)設(shè)的第二閾值的評(píng)論時(shí),則將該新評(píng)論以及與該新評(píng)論相似度達(dá)到預(yù)設(shè)的第一閾值的評(píng)論判定為嫌疑垃圾評(píng)論; 將被判定為嫌疑垃圾評(píng)論的新評(píng)論的內(nèi)容輸入到貝葉斯算法中進(jìn)行判定,若判定結(jié)果為該新評(píng)論為正常評(píng)論的概率達(dá)到預(yù)設(shè)的第三閾值時(shí),則將該新評(píng)論判定為正常評(píng)論,否則判定為垃圾評(píng)論。2.根據(jù)權(quán)利要求1所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別方法,其特征在于,所述選取輸入到貝葉斯算法的訓(xùn)練集中進(jìn)行訓(xùn)練的正常評(píng)論的數(shù)量為10萬(wàn)條以上。3.根據(jù)權(quán)利要求1所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別方法,其特征在于,原有評(píng)論庫(kù)中的評(píng)論與新評(píng)論的相似度指的是:新評(píng)論和原有評(píng)論庫(kù)中的評(píng)論的內(nèi)容中相同文字的數(shù)量與新評(píng)論內(nèi)容中文字總量之間的比值。4.根據(jù)權(quán)利要求1所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別方法,其特征在于,所述預(yù)設(shè)的第一閾值為80%。5.根據(jù)權(quán)利要求1所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別方法,其特征在于,所述預(yù)設(shè)的第二閾值200條。6.根據(jù)權(quán)利要求1所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別方法,其特征在于,所述預(yù)設(shè)的第三閾值為80%。7.根據(jù)權(quán)利要求1所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別方法,其特征在于,還包括以下步驟:當(dāng)新評(píng)論被判定為垃圾評(píng)論時(shí),攔截該新評(píng)論的內(nèi)容。8.一種基于貝葉斯算法的垃圾評(píng)論識(shí)別系統(tǒng),其特征在于,包括 獲取模塊,用于獲取一定數(shù)量并且確定為正常評(píng)論的內(nèi)容,然后輸入到貝葉斯算法的訓(xùn)練集中進(jìn)行訓(xùn)練; 原有評(píng)論庫(kù),用于存放所有的評(píng)論內(nèi)容的數(shù)據(jù)庫(kù),為原有的數(shù)據(jù)庫(kù); 搜索引擎模塊,用于以新評(píng)論的內(nèi)容作為關(guān)鍵詞,在原有評(píng)論庫(kù)進(jìn)行搜索; 相似度檢測(cè)模塊,用于檢測(cè)搜索引擎模塊搜索到原有評(píng)論庫(kù)中的評(píng)論和新評(píng)論之間的相似度; 數(shù)量檢測(cè)模塊,用于檢測(cè)原有評(píng)論庫(kù)中與新評(píng)論內(nèi)容的相似度達(dá)到預(yù)設(shè)的第一閾值的評(píng)論的數(shù)量; 嫌疑垃圾評(píng)論判定模塊,用于在原有評(píng)論庫(kù)中搜索到和新評(píng)論的內(nèi)容的相似度達(dá)到預(yù)設(shè)的第一閾值且數(shù)量達(dá)到預(yù)設(shè)的第二閾值的評(píng)論時(shí),將新評(píng)論以及與該新評(píng)論相似度達(dá)到預(yù)設(shè)的第一閾值的評(píng)論判定為嫌疑垃圾評(píng)論; 以及垃圾評(píng)論判定模塊,用于將被判定為嫌疑垃圾評(píng)論的新評(píng)論的內(nèi)容輸入到貝葉斯算法中進(jìn)行判定,若判定結(jié)果為該新評(píng)論為正常評(píng)論的概率達(dá)到預(yù)設(shè)的第三閾值時(shí),則將該新評(píng)論判定為正常評(píng)論,否則判定為垃圾評(píng)論。9.根據(jù)權(quán)利要求7所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別系統(tǒng),其特征在于,還包括攔截模塊,用于在所述垃圾評(píng)論判定模塊判定新評(píng)論為垃圾評(píng)論時(shí),攔截該新評(píng)論的內(nèi)容。10.一種終端,其特征在于,包括權(quán)利要求8或9所述的基于貝葉斯算法的垃圾評(píng)論識(shí)別系統(tǒng)。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于貝葉斯算法的垃圾評(píng)論識(shí)別方法、系統(tǒng)及終端,步驟如下:將一定數(shù)量且確定為正常評(píng)論的內(nèi)容輸入到貝葉斯算法的訓(xùn)練集中進(jìn)行訓(xùn)練,以新評(píng)論的內(nèi)容為關(guān)鍵詞,在原有評(píng)論庫(kù)中通過(guò)搜索引擎進(jìn)行搜索;再者檢測(cè)原有評(píng)論庫(kù)中的評(píng)論與新評(píng)論的相似度以及數(shù)量,根據(jù)相似度即數(shù)量確定新評(píng)論是否為嫌疑垃圾評(píng)論;將被判定為嫌疑垃圾評(píng)論的新評(píng)論的內(nèi)容輸入到貝葉斯算法中進(jìn)行判定,確定是否為正常評(píng)論。本發(fā)明結(jié)合搜索引擎和貝葉斯算法,能夠在沒(méi)有之前的垃圾評(píng)論內(nèi)容做參照的情況下,在大量的評(píng)論中,智能的將垃圾評(píng)論挖掘識(shí)別出來(lái)。避免了純貝葉斯算法需要依賴(lài)于以前的垃圾評(píng)論內(nèi)容,不能智能識(shí)別出新的變種的垃圾評(píng)論內(nèi)容的現(xiàn)象。
【IPC分類(lèi)】G06F17/27, G06F17/30
【公開(kāi)號(hào)】CN104933191
【申請(qǐng)?zhí)枴緾N201510402429
【發(fā)明人】周德海
【申請(qǐng)人】廣東歐珀移動(dòng)通信有限公司
【公開(kāi)日】2015年9月23日
【申請(qǐng)日】2015年7月9日