專利名稱:一種確定垃圾信息的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息過(guò)濾領(lǐng)域,特別是涉及一種確定垃圾信息的方法及系統(tǒng)。
背景技術(shù):
如今,越來(lái)越多的用戶通過(guò)網(wǎng)絡(luò)收發(fā)大量信息,充分利用互聯(lián)網(wǎng)進(jìn)行信息 交流和資源共享。但是,在這些信息中常常包含大量的垃圾信息,所述垃圾信 息對(duì)用戶無(wú)任何的價(jià)值,甚至是一些惡意的批量發(fā)布、具有非法目的的信息。 最常見的即為垃圾電子郵件,用戶可能在電子郵箱中收到廣告、非法活動(dòng)宣傳, 甚至是病毒郵件。這些垃圾郵件占用大量網(wǎng)絡(luò)資源,造成服務(wù)器和網(wǎng)絡(luò)流量的 巨大壓力,而且一些非法信息極大地造成了網(wǎng)絡(luò)安全隱患。
針對(duì)上述情況,目前的網(wǎng)站通常都設(shè)有垃圾郵件過(guò)濾功能,采用各種反垃 圾的方法阻止垃圾信息的發(fā)布,如針對(duì)用戶發(fā)布的信息內(nèi)容,采用無(wú)規(guī)則時(shí)間 延緩、人工審核或者關(guān)鍵字過(guò)濾等方法。其中,關(guān)鍵字過(guò)濾的方法是最為智能、 有效的方法。所述關(guān)鍵字是垃圾信息關(guān)鍵字,指經(jīng)常出現(xiàn)在垃圾信息中,能夠 明顯代表垃圾信息部分特征的字、詞以及詞組。對(duì)于關(guān)鍵字過(guò)濾, 一般的方法
是預(yù)先定義一些垃圾信息關(guān)^:字,然后在互聯(lián)網(wǎng)用戶發(fā)布信息時(shí),系統(tǒng)掃描所 述信息,根據(jù)所述關(guān)鍵字及各種規(guī)則,確定是否有所述預(yù)定義的垃圾信息存在, 如果有則不允許發(fā)布,或者將信息作為垃圾信息處理,甚至將信息發(fā)布者放入 黑名單。所述方法更多地應(yīng)用于垃圾郵件的過(guò)濾,能夠自動(dòng)識(shí)別出垃圾郵件。 目前,上述信息過(guò)濾的關(guān)鍵在于如何合理地預(yù)定義垃圾信息,若定義合理, 就能夠從大量信息中正確識(shí)別出垃圾信息,若定義不合理則過(guò)濾效果差。 一般 方法是根據(jù)經(jīng)驗(yàn)或從已經(jīng)標(biāo)記為垃圾信息的信息中選取,人為地預(yù)定義一些關(guān) 鍵字作為垃圾信息內(nèi)容。所述方式雖然能夠過(guò)濾出垃圾信息,但是由于根據(jù)人
為因素決定的關(guān)鍵字具有一定的隨意性,因此過(guò)濾結(jié)果存在很大的誤差率對(duì)
于一些不在關(guān)鍵字范圍內(nèi)或關(guān)鍵字出現(xiàn)頻率較低的垃圾信息,就不能識(shí)別出
來(lái);而對(duì)于一些雖符合垃圾信息的部分特征,但不屬于垃圾信息的信息,也可
能誤判為垃圾信息。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種確定垃圾信息的方法及系統(tǒng),以解
決預(yù)定義垃圾信息不合理的問(wèn)題,通過(guò)合理確定垃圾信息內(nèi)容,提高信息過(guò)濾 的效果。為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種確定垃圾信息的方法,包括 預(yù)定義樣本數(shù)據(jù)中的垃圾信息關(guān)鍵字; 對(duì)應(yīng)每個(gè)關(guān)鍵字,計(jì)算關(guān)鍵字分值;采用所述關(guān)鍵字分值,模擬過(guò)濾樣本數(shù)據(jù),得到過(guò)濾指標(biāo)值;判斷所述過(guò)濾指標(biāo)值是否符合評(píng)測(cè)指標(biāo),若不符合,則調(diào)整關(guān)鍵字或關(guān)鍵 字分值,重新模擬計(jì)算過(guò)濾指標(biāo)值;若符合,則結(jié)束調(diào)整。其中,執(zhí)行以下調(diào)整步驟增加關(guān)鍵字,重新計(jì)算關(guān)鍵字分值;或者,人 工調(diào)整原有關(guān)鍵字對(duì)應(yīng)的分值。其中,按照以下步驟模擬過(guò)濾樣本數(shù)據(jù)采用所述關(guān)鍵字分值,逐條計(jì)算 樣本數(shù)據(jù)是垃圾信息的概率;將每條樣本數(shù)據(jù)的概率與預(yù)定義的垃圾閾值比 較,若大于或等于閾值,則判定為垃圾信息;對(duì)應(yīng)所述判定結(jié)果,統(tǒng)計(jì)樣本數(shù) 據(jù)的過(guò)濾指標(biāo)值。其中優(yōu)選的,采用全概率公式計(jì)算樣本數(shù)據(jù)是垃圾信息的概率,采用貝葉 斯算法計(jì)算關(guān)鍵字分值。優(yōu)選的,對(duì)應(yīng)不同的應(yīng)用需求,預(yù)定義不同的垃圾信息關(guān)鍵字。本發(fā)明還提供了一種確定垃圾信息的系統(tǒng),包括存儲(chǔ)單元,用于保存樣本數(shù)據(jù)中的垃圾信息關(guān)鍵字及關(guān)鍵字分值;模擬統(tǒng)計(jì)單元,用于對(duì)應(yīng)每個(gè)關(guān)鍵字,計(jì)算關(guān)鍵字分值;采用所述關(guān)鍵字 分值,模擬過(guò)濾樣本數(shù)據(jù),得到過(guò)濾指標(biāo)值;調(diào)整單元,用于判斷所述過(guò)濾指標(biāo)值是否符合評(píng)測(cè)指標(biāo),若不符合,則調(diào) 整關(guān)鍵字或關(guān)鍵字分值,觸發(fā)所述模擬統(tǒng)計(jì)單元,重新模擬計(jì)算過(guò)濾指標(biāo)值; 若符合,則結(jié)束調(diào)整。其中,所述調(diào)整單元執(zhí)行以下調(diào)整步驟增加關(guān)鍵字,并觸發(fā)所述模擬統(tǒng) 計(jì)單元重新計(jì)算關(guān)鍵字分值;或者,人工調(diào)整原有關(guān)鍵字對(duì)應(yīng)的分值。優(yōu)選的,對(duì)應(yīng)不同的應(yīng)用需求,所述存儲(chǔ)單元存有不同的垃圾信息關(guān)鍵字 及關(guān)鍵字分值。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn) 首先,通過(guò)模擬計(jì)算樣本數(shù)據(jù)的過(guò)濾指標(biāo)值,并與評(píng)測(cè)指標(biāo)比較來(lái)循環(huán)調(diào) 整關(guān)鍵字和關(guān)鍵字分值,從而確定預(yù)定義的關(guān)鍵字及對(duì)應(yīng)的關(guān)鍵字分值是否合理。本發(fā)明所述方法能夠幫助用戶科學(xué)定義垃圾信息關(guān)鍵字及關(guān)鍵字分值,并 根據(jù)所述關(guān)鍵字及對(duì)應(yīng)分值判定信息是否為垃圾信息,從而提高信息過(guò)濾的效 果。使用本發(fā)明所述方法定義的垃圾信息,在垃圾信息處理系統(tǒng)中,能夠達(dá)到 非常高效的指標(biāo)。其次,用戶還可以根據(jù)不同需求自由設(shè)定垃圾信息關(guān)鍵字和分值,因此本 發(fā)明可以廣泛地應(yīng)用在各種不同應(yīng)用和系統(tǒng)中,如反饋系統(tǒng)、留言系統(tǒng)、論壇、 垃圾郵件處理等不同方面,并且達(dá)到的信息過(guò)濾效果能適用于用戶自身的業(yè)務(wù) 領(lǐng)域。尤其是目前反垃圾方法雖廣泛應(yīng)用于垃圾郵件的處理,但對(duì)于反饋留言 的處理卻應(yīng)用很少,而本發(fā)明所述方法能夠高效地處理垃圾留言過(guò)濾的問(wèn)題。再次,根據(jù)預(yù)定義關(guān)鍵字及對(duì)應(yīng)分值,本發(fā)明采用全概率公式計(jì)算樣本數(shù) 據(jù)是否為垃圾信息的概率,提高了識(shí)別垃圾信息的準(zhǔn)確性,從而提高了信息過(guò) 濾的效果。
圖l是本發(fā)明所述合理確定垃圾信息的原理圖; 圖2是本發(fā)明實(shí)施例所述合理確定垃圾信息的步驟流程圖; 圖3是本發(fā)明所述合理確定垃圾信息的系統(tǒng)結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明的核心思想是用戶選擇具有代表性的信息作為垃圾信息樣本,并 定義垃圾信息的關(guān)鍵字,在系統(tǒng)中對(duì)樣本進(jìn)行計(jì)算得到關(guān)鍵字分值,然后系統(tǒng) 采用所述關(guān)鍵字分值進(jìn)行模擬得到過(guò)濾指標(biāo)值,通過(guò)與評(píng)測(cè)指標(biāo)比較,可以不 斷調(diào)整優(yōu)化關(guān)鍵字或關(guān)鍵字分值,最終得到合理的垃圾信息關(guān)鍵字及關(guān)鍵字分 值。所述垃圾信息是一些具有類似特征的信息,如惡意的群發(fā)廣告,從事一些 不法活動(dòng)或出售非法產(chǎn)品,以及用戶根據(jù)應(yīng)用需求自定義的一些特征等。本發(fā) 明中的垃圾信息具有更廣泛的意義,所有不符合用戶瀏覽需求的信息都可以稱 為垃圾信息,例如在介紹音樂(lè)的網(wǎng)頁(yè)中若出現(xiàn)汽車的宣傳信息,則所述汽車宣 傳信息即為垃圾信息。而垃圾信息關(guān)鍵字分值是本發(fā)明實(shí)現(xiàn)方案在定義垃圾信 息關(guān)鍵字時(shí),為每一個(gè)關(guān)鍵字賦予了一定的分值,所述分值標(biāo)志了對(duì)應(yīng)關(guān)鍵字 在垃圾信息中出現(xiàn),超出正常信息中出現(xiàn)概率的 一個(gè)量化的分?jǐn)?shù)值。在信息過(guò)濾的處理過(guò)程中,本發(fā)明所述方法用于確定預(yù)定義的關(guān)^:字及對(duì) 應(yīng)分值是否合理,通過(guò)關(guān)鍵字過(guò)濾方法準(zhǔn)確判定網(wǎng)上發(fā)布的信息是否為垃圾信 息。參照?qǐng)Di,是本發(fā)明所述合理確定垃圾信息的原理圖。所述方法通過(guò)模擬 垃圾信息的過(guò)濾過(guò)程,循環(huán)優(yōu)化預(yù)定義的關(guān)鍵字及關(guān)鍵字分值,達(dá)到科學(xué)定義 垃圾信息關(guān)鍵字及對(duì)應(yīng)分值的作用。步驟ioi,用戶選取樣本數(shù)據(jù),并自定義樣本數(shù)據(jù)中的垃圾信息關(guān)鍵字。 通常,用戶選取業(yè)務(wù)領(lǐng)域內(nèi)具有一定代表性的數(shù)據(jù)作為樣本,然后從樣本數(shù)據(jù) 中選取可能標(biāo)志垃圾信息的字、詞或詞組作為垃圾信息關(guān)鍵字。步驟102,系統(tǒng)對(duì)樣本中的每個(gè)關(guān)鍵字進(jìn)行分值計(jì)算,得到垃圾信息關(guān)鍵 字分值。對(duì)于關(guān)鍵字分值的確定,目前采用較多的方法是貝葉斯算法,所述算 法在垃圾郵件處理中取得良好的過(guò)濾效果,而其他一些關(guān)鍵字分值的設(shè)計(jì)則隨 意性很強(qiáng),因此本發(fā)明優(yōu)選的也采用貝葉斯算法計(jì)算垃圾信息關(guān)鍵字分值。步驟103,模擬計(jì)算樣本中垃圾信息的概率,并統(tǒng)計(jì)過(guò)濾指標(biāo)值。系統(tǒng)得 到關(guān)鍵字分值后,根據(jù)所述分值對(duì)每條樣本數(shù)據(jù)計(jì)算成為垃圾信息的概率。然 后與用戶確定的垃圾閾值比較,大于或等于所述閾值的判定為垃圾信息。其中, 所述垃圾閾值是用戶定義的一個(gè)判斷信息是否為垃圾的標(biāo)準(zhǔn)分值。對(duì)所有的樣本數(shù)據(jù)進(jìn)行上述處理后,樣本就按照模擬過(guò)濾的方式,分為垃 圾信息和非垃圾信息。為檢測(cè)信息過(guò)濾的效果,用戶定義了業(yè)務(wù)領(lǐng)域內(nèi)的一個(gè) 或多個(gè)評(píng)測(cè)指標(biāo),將上述樣本過(guò)濾結(jié)果按照所述評(píng)測(cè)指標(biāo)計(jì)算出每個(gè)指標(biāo)對(duì)應(yīng) 的過(guò)濾指標(biāo)值。步驟104,將計(jì)算得到的過(guò)濾指標(biāo)值與用戶定義的評(píng)測(cè)指標(biāo)比較,若符合, 則用戶選取的垃圾信息關(guān)鍵字和關(guān)鍵字分值合理,能夠準(zhǔn)確地過(guò)濾出垃圾信 息;若不符合評(píng)測(cè)指標(biāo),則信息過(guò)濾效果差,還需要調(diào)整關(guān)鍵字或關(guān)鍵字分值, 重新模擬過(guò)濾樣本數(shù)據(jù),所述優(yōu)化過(guò)程將循環(huán)進(jìn)行,最終達(dá)到模擬計(jì)算出的過(guò) 濾指標(biāo)值符合評(píng)測(cè)指標(biāo)的目的。
根據(jù)具體的模擬結(jié)果,用戶可以通過(guò)增加關(guān)鍵字或者刪除原有關(guān)鍵字來(lái)調(diào) 整關(guān)鍵字,也可以不改變?cè)x的關(guān)鍵字而調(diào)整關(guān)鍵字分值。對(duì)于新增的關(guān)鍵 字,系統(tǒng)將按照上述方法重新計(jì)算關(guān)鍵字分值,然后重新過(guò)濾樣本數(shù)據(jù)統(tǒng)計(jì)過(guò) 濾指標(biāo)值。對(duì)于關(guān)鍵字分值的調(diào)整,通常由人工方式修正分值,然后再重新過(guò) 濾樣本數(shù)據(jù)統(tǒng)計(jì)過(guò)濾指標(biāo)值。步驟105,通過(guò)上述循環(huán)調(diào)整的過(guò)程,可得到優(yōu)化后的關(guān)鍵字和關(guān)鍵字分 值,將其確定為過(guò)濾垃圾信息的關(guān)鍵字及相應(yīng)分值,在對(duì)樣本所屬的業(yè)務(wù)領(lǐng)域 數(shù)據(jù)進(jìn)行信息過(guò)濾時(shí),即可直接利用所述確定的關(guān)鍵字及關(guān)鍵字分值進(jìn)行過(guò)濾 處理。基于上述原理,本發(fā)明所述方法能夠幫助用戶科學(xué)定義垃圾信息關(guān)鍵字及 關(guān)鍵字分值,并根據(jù)所述關(guān)鍵字及對(duì)應(yīng)分值判定信息是否為垃圾信息,從而提 高信息過(guò)濾的效果。使用本發(fā)明所述方法定義的垃圾信息,在垃圾信息處理系 統(tǒng)中,能夠達(dá)到非常高效的指標(biāo)。本發(fā)明中由于垃圾信息的定義范圍廣泛,用戶可以才艮據(jù)不同需求自由設(shè)定 垃圾信息關(guān)鍵字和分值,因此本發(fā)明可以廣泛地應(yīng)用在各種不同應(yīng)用和系統(tǒng) 中,如反饋系統(tǒng)、留言系統(tǒng)、論壇、垃圾郵件處理等不同方面,并且達(dá)到的信 息過(guò)濾效果能適用于用戶自身的業(yè)務(wù)領(lǐng)域。尤其是目前反垃圾方法廣泛應(yīng)用于 垃圾郵件的處理,但對(duì)于反饋留言的處理卻應(yīng)用很少,而本發(fā)明所述方法能夠 高效地處理垃圾留言過(guò)濾的問(wèn)題。以下內(nèi)容將以垃圾留言的處理為例,說(shuō)明如 何合理確定垃圾信息的關(guān)鍵字及關(guān)鍵字分值。參照?qǐng)D2,是本發(fā)明實(shí)施例所述 合理確定垃圾信息的步驟流程圖。步驟201,樣本控制。系統(tǒng)選取一段時(shí)間的留言信息作為樣本數(shù)據(jù),如選 用一個(gè)季度的留言數(shù)據(jù)作為樣本數(shù)據(jù)。在取值的時(shí)候,通過(guò)人工識(shí)別的方式將 可能的干擾數(shù)據(jù)計(jì)算的信息去掉,使樣本更加精準(zhǔn)。步驟202,人工判別。對(duì)選用的樣本數(shù)據(jù)進(jìn)行人工標(biāo)識(shí)類型,標(biāo)識(shí)為是正 常信息或者是垃圾信息。 一般對(duì)于留言或者郵件會(huì)按照每條信息進(jìn)行判別,而 對(duì)于大篇幅的信息可以拆分成若千個(gè)單元再進(jìn)行判別。步驟203,定義關(guān)鍵字。針對(duì)上述留言數(shù)據(jù),用戶定義一系列垃圾信息關(guān) 鍵字,如發(fā)票、槍支、人體器官等。所述關(guān)鍵字由人為的根據(jù)自身業(yè)務(wù)領(lǐng)域需
要定義完成,也可以從已經(jīng)標(biāo)記為垃圾信息的信息中選取。步驟204,計(jì)算關(guān)鍵字分值。采用貝葉斯算法,在樣本中計(jì)算出定義的所 述垃圾信息關(guān)鍵字的分值,如得到"發(fā)票"的分值計(jì)算結(jié)果為0.75,"槍支" 的分值計(jì)算結(jié)果為0.9。其中,貝葉斯算法是基于概率的一種算法,是Thomas Bayes (—位偉大的數(shù)學(xué)大師)所創(chuàng)建的,目前所述算法用于過(guò)濾垃圾郵件得 到了廣泛的好評(píng)。貝葉斯過(guò)濾器是基于"自我學(xué)習(xí)"的智能技術(shù),能夠使自己適 應(yīng)垃圾郵件制造者的新把戲,同時(shí)為合法電子郵件提供保護(hù)。在智能郵件過(guò)濾 技術(shù)中,貝葉斯過(guò)濾技術(shù)取得了較大的成功,被越來(lái)越多地應(yīng)用在反垃圾郵件 的產(chǎn)品中。貝葉斯算法的計(jì)算過(guò)程如下首先,分別計(jì)算垃圾關(guān)鍵字在正常信息和垃圾信息中出現(xiàn)的次數(shù)。例如對(duì) 于留言樣本中定義的關(guān)鍵字A,用Na表示A在正常留言中的出現(xiàn)頻率(即次 數(shù)),Sa表示A在垃圾留言中的出現(xiàn)頻率。計(jì)次方法為關(guān)鍵字A在同一留言 中出現(xiàn)一次,則記錄1次,出現(xiàn)兩次,記錄2次,依次類推,統(tǒng)計(jì)出A在同一 留言中出現(xiàn)的次數(shù);然后搜索所有的留言,將每條留言的出現(xiàn)次數(shù)累加,即為 關(guān)鍵字A在正常留言或垃圾留言中的出現(xiàn)頻率。其次,計(jì)算關(guān)鍵字的分值。即根據(jù)在所述兩類數(shù)據(jù)中出現(xiàn)的頻率,計(jì)算出 現(xiàn)當(dāng)前垃圾關(guān)鍵字的信息為垃圾信息的概率。對(duì)于上述關(guān)鍵字A,設(shè)中間變量 Pla, P2a,其中Pla = Na/所有正常留言中出現(xiàn)的關(guān)鍵字記錄數(shù)P2a = Sa/所有垃圾留言中出現(xiàn)的關(guān)鍵字記錄數(shù)則出現(xiàn)所述關(guān)鍵字A的留言為垃圾信息的可能值Pa=( P2a )/( Pla + P2a ), 所述Pa即為計(jì)算得到的關(guān)鍵字分值。上述公式中,所述關(guān)鍵字記錄數(shù)是指所 有關(guān)鍵字出現(xiàn)頻率的累加值。步驟205,確定垃圾閾值,模擬過(guò)濾垃圾信息。首先,用戶根據(jù)自身業(yè)務(wù) 領(lǐng)域需要確定一個(gè)垃圾閾值F,用于判斷垃圾信息。然后,系統(tǒng)對(duì)樣本數(shù)據(jù)按 照關(guān)鍵字過(guò)濾規(guī)則進(jìn)行垃圾信息檢測(cè)和標(biāo)記,對(duì)每條留言的處理過(guò)程如下第一步,對(duì)定義的垃圾信息關(guān)鍵字,逐個(gè)判斷是否在留言內(nèi)容中出現(xiàn)。判 斷方法是假設(shè)關(guān)鍵字循環(huán)變量Ki,關(guān)鍵字對(duì)應(yīng)的分值為Vi,如果Ki出現(xiàn), 則記錄Ki和分值Vi,標(biāo)識(shí)為KA ( i ) , VA ( i );如果沒(méi)有出現(xiàn),繼續(xù)下一個(gè)
關(guān)鍵字查找。循環(huán)結(jié)束之后得到兩個(gè)列表,即關(guān)鍵字列表KA和分值列表VA, 并且長(zhǎng)度相等。在所述關(guān)鍵字匹配過(guò)程中,需要對(duì)留言內(nèi)容進(jìn)行分詞匹配,而 匹配順序是優(yōu)先匹配組合關(guān)鍵字,然后匹配普通關(guān)鍵字。所述組合關(guān)鍵字如"人 體"+ "器官",所述普通關(guān)鍵字如"槍支"。第二步,判斷KA的長(zhǎng)度,如果KA的長(zhǎng)度小于1,說(shuō)明當(dāng)前留言中不存在 已定義的垃圾關(guān)鍵字,返回為正常信息類別;如果KA的長(zhǎng)度大于0,說(shuō)明當(dāng) 前留言中出現(xiàn)至少 一個(gè)已定義的垃圾關(guān)鍵字,則計(jì)算當(dāng)前留言為垃圾信息的垃 圾概率P 。垃圾概率P的計(jì)算可以采用本領(lǐng)域技術(shù)人員熟知的方法,如取平均 值法等。本發(fā)明優(yōu)選的采用全概率公式計(jì)算垃圾概率P,能夠提高垃圾信息的 識(shí)別準(zhǔn)確性,從而提高信息過(guò)濾的效果。為了求復(fù)雜事件的概率,往往可以將 其分解成若干個(gè)互不相容的簡(jiǎn)單事件之并,然后利用條件概率和乘法公式,求 出所述簡(jiǎn)單事件的概率,最后利用概率可加性得到最終結(jié)果,這一方法的一般 化稱為全概率公式。在全概率公式下的貝葉斯計(jì)算方法為P = ( VAlxVA2xVA3x____xVAi ) / ( VAlxVA2xVA3x____xVAi + ( 1 _ VA1 ) x(1 - VA2 ) x ( 1 - VA3 ) x….x ( 1 - VAi ))所述計(jì)算出的P值稱為一條留言信息在樣本中的垃圾分值。第三步,將垃圾分值與垃圾閾值比較,如果P〉-F成立,則當(dāng)前信息為垃圾留言,并且設(shè)置模擬判定為垃圾信息;如果不成立,設(shè)置模擬判定為正常信息。步驟206,統(tǒng)計(jì)過(guò)濾指標(biāo)值。在信息過(guò)濾處理中,通常定義殺出率和誤殺 率兩個(gè)評(píng)測(cè)指標(biāo)來(lái)檢測(cè)信息過(guò)濾的有效性。其中,所述殺出率表示系統(tǒng)正確過(guò) 濾垃圾信息所占所有垃圾信息的比率,所述誤殺率表示系統(tǒng)將正常留言判定為 垃圾留言所占所有留言的比率。將上述樣本數(shù)據(jù)的過(guò)濾結(jié)果按照評(píng)測(cè)指標(biāo)計(jì)算 殺出率和誤殺率,計(jì)算公式如下殺出率=正確殺出的垃圾留言/所有的垃圾信息=(系統(tǒng)認(rèn)為是垃圾信息-系統(tǒng)認(rèn)為是垃圾信息人工認(rèn)為不是 垃圾信息)/(人工認(rèn)為是垃圾信息) 誤殺率=誤殺的留言記錄數(shù)/所有留言或者所有的樣本數(shù)據(jù) =(系統(tǒng)認(rèn)為是垃圾信息-系統(tǒng)認(rèn)為是垃圾信息人工認(rèn)為也是 垃圾信息)/所有信息或者所有樣本的記錄數(shù)上述公式中,"人工認(rèn)為"是指步驟202中根據(jù)人為因素標(biāo)志出的正常信 息和垃圾信息,步驟202的作用即用于參與系統(tǒng)模擬計(jì)算過(guò)濾指標(biāo)值。計(jì)算得 到樣本的過(guò)濾指標(biāo)值后,與用戶定義的評(píng)測(cè)指標(biāo)比較,當(dāng)符合特定環(huán)境下的要 求時(shí),如誤殺率低于O. 1%,殺出率達(dá)90%等指標(biāo),則可以采用本發(fā)明所產(chǎn)生 的關(guān)鍵字、關(guān)鍵字分值以及垃圾閥值;否則執(zhí)行步驟207進(jìn)行調(diào)整。步驟207,根據(jù)模擬結(jié)果,按照上述方法調(diào)整關(guān)鍵字,系統(tǒng)對(duì)新增的關(guān)鍵 字重新計(jì)算關(guān)鍵字分值;或者根據(jù)人工判定,直接調(diào)整原有關(guān)鍵字的分值。重 新確定關(guān)鍵字及關(guān)鍵字分值后,返回步驟205,再次模擬計(jì)算過(guò)濾指標(biāo)值。通 常只需通過(guò)修正關(guān)鍵字或人工修正關(guān)鍵字分值,即可確定合理的垃圾信息關(guān)鍵 字及分值,但在少數(shù)情況下,也需要調(diào)整預(yù)定義的垃圾閾值。步驟208,通過(guò)上述步驟的循環(huán)調(diào)整,得到優(yōu)化的關(guān)鍵字及關(guān)鍵字分值。 將所述確定的關(guān)鍵字及關(guān)鍵字分值用于大量數(shù)據(jù)的垃圾信息過(guò)濾處理,能達(dá)到 高效的過(guò)濾指標(biāo),解決了實(shí)際業(yè)務(wù)中垃圾信息過(guò)濾的問(wèn)題。為實(shí)現(xiàn)上述方法,本發(fā)明還提供了 一種確定垃圾信息的系統(tǒng)。如圖3所示, 是所述系統(tǒng)的結(jié)構(gòu)圖。所述系統(tǒng)包括存儲(chǔ)單元301、模擬統(tǒng)計(jì)單元302和調(diào)整 單元303。存儲(chǔ)單元301,用于存儲(chǔ)用戶預(yù)定義的垃圾信息關(guān)鍵字,并且對(duì)應(yīng)每個(gè)關(guān) 鍵字,保存經(jīng)計(jì)算或調(diào)整后最終確定的關(guān)鍵字分值。所述存儲(chǔ)單元301中的關(guān) 鍵字及關(guān)鍵字分值經(jīng)調(diào)整后,可用于基于關(guān)鍵字的信息過(guò)濾方法。模擬統(tǒng)計(jì)單元302,用于從存儲(chǔ)單元301中讀取樣本數(shù)據(jù)的垃圾信息關(guān)鍵 字,采用上述貝葉斯算法計(jì)算關(guān)鍵字分值;然后將所述關(guān)鍵字及對(duì)應(yīng)分值應(yīng)用 于樣本數(shù)據(jù)的模擬過(guò)濾對(duì)于每條數(shù)據(jù)逐個(gè)判斷關(guān)鍵字是否出現(xiàn),通過(guò)全概率 公式下的貝葉斯算法得出每條樣本數(shù)據(jù)是垃圾信息的概率,若所述概率大于或 等于預(yù)定義的垃圾闞值,則對(duì)應(yīng)數(shù)據(jù)即為垃圾信息;將樣本模擬過(guò)濾為正常信 息和垃圾信息后,按照預(yù)定義的評(píng)測(cè)指標(biāo)計(jì)算模擬的過(guò)濾指標(biāo)值,用于檢測(cè)信 息過(guò)濾的有效性。調(diào)整單元303,用于將樣本數(shù)據(jù)經(jīng)模擬統(tǒng)計(jì)單元302統(tǒng)計(jì)得到的過(guò)濾指標(biāo)
值與評(píng)測(cè)指標(biāo)比較,若該值與評(píng)測(cè)指標(biāo)符合,說(shuō)明預(yù)先確定的關(guān)鍵字及關(guān)鍵字分值合理,能夠應(yīng)用于垃圾信息的過(guò)濾;若不符合,則需要通過(guò)調(diào)整來(lái)重新確 定合理的關(guān)鍵字或關(guān)鍵字分值。根據(jù)不同的模擬情況,調(diào)整單元303可以修正 關(guān)鍵字,通過(guò)模擬統(tǒng)計(jì)單元302,對(duì)增加的關(guān)鍵字重新計(jì)算關(guān)鍵字分值,再重 新模擬統(tǒng)計(jì)過(guò)濾指標(biāo)值;也可以在不調(diào)整關(guān)鍵字的情況下,只修改原有關(guān)鍵字 的分值,此時(shí)由人工來(lái)微調(diào)關(guān)鍵字分值,然后由模擬統(tǒng)計(jì)單元302重新模擬統(tǒng) 計(jì)過(guò)濾指標(biāo)值。通過(guò)調(diào)整單元303不斷的調(diào)整優(yōu)化,能夠幫助用戶科學(xué)定義垃 圾信息關(guān)鍵字及關(guān)鍵字分值,從而提高信息過(guò)濾的效果,在垃圾信息處理系統(tǒng) 中,能夠達(dá)到非常高效的指標(biāo)。上述系統(tǒng)中,針對(duì)不同的應(yīng)用需求,用戶還可以自由設(shè)定垃圾信息關(guān)鍵字 和分值,因此本發(fā)明可以廣泛地應(yīng)用在各種不同的業(yè)務(wù)系統(tǒng)中,并且達(dá)到的信 息過(guò)濾效果能適用于用戶自身的業(yè)務(wù)領(lǐng)域。尤其對(duì)于反垃圾應(yīng)用較多的郵件、 留言、論壇等方面,能夠高效地處理垃圾留言、垃圾郵件等信息的過(guò)濾問(wèn)題。以上對(duì)本發(fā)明所提供的 一種確定垃圾信息的方法及系統(tǒng),進(jìn)行了詳細(xì)介例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的 一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變 之處。綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種確定垃圾信息的方法,其特征在于,包括預(yù)定義樣本數(shù)據(jù)中的垃圾信息關(guān)鍵字;對(duì)應(yīng)每個(gè)關(guān)鍵字,計(jì)算關(guān)鍵字分值;采用所述關(guān)鍵字分值,模擬過(guò)濾樣本數(shù)據(jù),得到過(guò)濾指標(biāo)值;判斷所述過(guò)濾指標(biāo)值是否符合評(píng)測(cè)指標(biāo),若不符合,則調(diào)整關(guān)鍵字或關(guān)鍵字分值,重新模擬計(jì)算過(guò)濾指標(biāo)值;若符合,則結(jié)束調(diào)整。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,執(zhí)行以下調(diào)整步驟增加 關(guān)鍵字,重新計(jì)算關(guān)鍵字分值。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于,執(zhí)行以下調(diào)整步驟人工調(diào)整原有關(guān)鍵字對(duì)應(yīng)的分值。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于,按照以下步驟模擬過(guò)濾樣 本數(shù)據(jù)采用所述關(guān)鍵字分值,逐條計(jì)算樣本數(shù)據(jù)是垃圾信息的概率; 將每條樣本數(shù)據(jù)的概率與預(yù)定義的垃圾閾值比較,若大于或等于閾值,則 判定為垃圾信息;對(duì)應(yīng)所述判定結(jié)果,統(tǒng)計(jì)樣本數(shù)據(jù)的過(guò)濾指標(biāo)值。
5、 根據(jù)權(quán)利要求4所述的方法,其特征在于采用全概率公式計(jì)算樣本 數(shù)據(jù)是垃圾信息的概率。
6、 根據(jù)權(quán)利要求1所述的方法,其特征在于采用貝葉斯算法計(jì)算關(guān)鍵 字分值。
7、 根據(jù)權(quán)利要求1所述的方法,其特征在于對(duì)應(yīng)不同的應(yīng)用需求,預(yù) 定義不同的垃圾信息關(guān)鍵字。
8、 一種確定垃圾信息的系統(tǒng),其特征在于,包括存儲(chǔ)單元,用于保存樣本數(shù)據(jù)中的垃圾信息關(guān)鍵字及關(guān)鍵字分值; 模擬統(tǒng)計(jì)單元,用于對(duì)應(yīng)每個(gè)關(guān)鍵字,計(jì)算關(guān)^:字分值;釆用所述關(guān)鍵字分值,模擬過(guò)濾樣本數(shù)據(jù),得到過(guò)濾指標(biāo)值;調(diào)整單元,用于判斷所述過(guò)濾指標(biāo)值是否符合評(píng)測(cè)指標(biāo),若不符合,則調(diào)整關(guān)鍵字或關(guān)鍵字分值,觸發(fā)所述模擬統(tǒng)計(jì)單元,重新模擬計(jì)算過(guò)濾指標(biāo)值;若符合,則結(jié)束調(diào)整。
9、 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述調(diào)整單元執(zhí)行以下調(diào)整步驟增加關(guān)鍵字,并觸發(fā)所述模擬統(tǒng)計(jì)單元重新計(jì)算關(guān)鍵字分值。
10、 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述調(diào)整單元執(zhí)行以下調(diào) 整步驟人工調(diào)整原有關(guān)鍵字對(duì)應(yīng)的分值。
11、 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于對(duì)應(yīng)不同的應(yīng)用需求,所 述存儲(chǔ)單元存有不同的垃圾信息關(guān)鍵字及關(guān)鍵字分值。
全文摘要
本發(fā)明公開了一種確定垃圾信息的方法及系統(tǒng),涉及信息過(guò)濾領(lǐng)域,能夠解決預(yù)定義垃圾信息不合理的問(wèn)題。所述方法包括預(yù)定義樣本數(shù)據(jù)中的垃圾信息關(guān)鍵字;對(duì)應(yīng)每個(gè)關(guān)鍵字,計(jì)算關(guān)鍵字分值;采用所述關(guān)鍵字分值,模擬過(guò)濾樣本數(shù)據(jù),得到過(guò)濾指標(biāo)值;判斷所述過(guò)濾指標(biāo)值是否符合評(píng)測(cè)指標(biāo),若不符合,則調(diào)整關(guān)鍵字或關(guān)鍵字分值,重新模擬計(jì)算過(guò)濾指標(biāo)值;若符合,則結(jié)束調(diào)整。本發(fā)明所述方法能夠幫助用戶合理確定垃圾信息關(guān)鍵字及關(guān)鍵字分值,并根據(jù)所述關(guān)鍵字及對(duì)應(yīng)分值判定信息是否為垃圾信息,從而提高信息過(guò)濾的效果。本發(fā)明可以廣泛地應(yīng)用在各種不同應(yīng)用和系統(tǒng)中,如反饋系統(tǒng)、留言系統(tǒng)、論壇、垃圾郵件處理等不同方面。
文檔編號(hào)H04L12/58GK101166159SQ20061015280
公開日2008年4月23日 申請(qǐng)日期2006年10月18日 優(yōu)先權(quán)日2006年10月18日
發(fā)明者葉靜俊, 皓 王, 王聰智, 馬小龍 申請(qǐng)人:阿里巴巴公司