專利名稱:一種反垃圾郵件的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)通信領(lǐng)域,尤其涉及一種反垃圾郵件的方法及系統(tǒng)。
背景技術(shù):
目前在電子郵件方面,垃圾郵件的泛濫已經(jīng)是一個(gè)不容忽視、亟待解決的問題。大量的垃圾郵件不僅耗費(fèi)用戶的處理時(shí)間,而且浪費(fèi)郵件系統(tǒng)的寶貴資源,阻礙了用戶獲取有用信息的過程。垃圾郵件發(fā)送技術(shù)與反垃圾郵件技術(shù)是在不斷對抗中發(fā)展起來的,反垃圾郵件技術(shù)主要采用“學(xué)習(xí)=>分類=>反饋”相結(jié)合的框架結(jié)構(gòu),其中學(xué)習(xí)過程可以由人完成也可以由算法完成,采取的方法包括郵件內(nèi)容過濾與發(fā)送行為過濾,并廣泛采用機(jī)器學(xué)習(xí)的手段,從而具有不斷自學(xué)和更正的能力。同時(shí)垃圾郵件發(fā)送者也在不斷更新他們的發(fā)送手段,針對反垃圾郵件的系統(tǒng)的技術(shù)特點(diǎn)采取干擾措施,例如更改垃圾郵件的內(nèi)容、刻意模糊垃圾郵件與正常郵件的界限等,使得傳統(tǒng)的反垃圾郵件手段效果不明顯或者失效。
用于反垃圾郵件的現(xiàn)有算法有多種,基于這些算法而有不同的反垃圾郵件手段,例如基于規(guī)則的關(guān)鍵字串過濾手段、基于統(tǒng)計(jì)的算法如Bayesian(貝葉斯)等分類識別手段、發(fā)送者黑白名單等攔截手段、流量限制等發(fā)送行為控制手段,這些方法可以單獨(dú)使用也可以結(jié)合使用,結(jié)合使用時(shí)因?yàn)楦魈幚憝h(huán)節(jié)中原始輸入的郵件樣本沒有變化,通??梢詫⑵渚C合看做一個(gè)垃圾郵件的處理器來對待。
上述常見的垃圾郵件識別過程具有以下共同特征1)單一數(shù)據(jù),即都是單一的數(shù)據(jù)集作為公共輸入2)單級處理
3)對于新郵件,通過處理后得到相應(yīng)的識別結(jié)果采用上述方案,無論將垃圾郵件的內(nèi)容作為輸入還是將垃圾發(fā)送的行為作為輸入都可以有效運(yùn)作,比如日前廣泛應(yīng)用的基于Bayesian的反垃圾郵件技術(shù)。
通過上述現(xiàn)有技術(shù)對垃圾郵件進(jìn)行處理時(shí),垃圾郵件與正常郵件的比例遠(yuǎn)離平衡值,垃圾郵件往往遠(yuǎn)遠(yuǎn)多于好郵件,達(dá)到10∶1的比例,大型郵件系統(tǒng)上甚至更高。同時(shí),相同或相似的郵件樣本同時(shí)出現(xiàn)在好壞集合時(shí),直接影響郵件的判別結(jié)果,導(dǎo)致垃圾郵件的攔截率下降與誤判率上升。解決上述問題需要人工維持去平衡樣本集,但不能真實(shí)代表自然的郵件樣本分布情況,此時(shí)對重復(fù)、類似郵件的加權(quán)或減權(quán)的數(shù)值較難設(shè)定。
出現(xiàn)上述問題的根源來自于目前所采用的垃圾郵件識別方法對樣本的平衡性有嚴(yán)格的要求。對于中小型郵件系統(tǒng),由此帶來的誤判率上升問題尚可接受,但對于大型郵件系統(tǒng),在用戶數(shù)量達(dá)到一定級別后,垃圾郵件與正常郵件比例失調(diào)情況與相同、相似郵件同時(shí)屬于垃圾郵件與正常郵件的情況更加嚴(yán)重,再加上不同人的判斷標(biāo)準(zhǔn)不盡相同,此時(shí)僅僅考慮來自用戶的反饋信息就足以將垃圾郵件的識別過程攪亂。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種垃圾郵件識別系統(tǒng),旨在解決現(xiàn)有技術(shù)在對垃圾郵件進(jìn)行識別處理時(shí)對樣本的平衡性要求嚴(yán)格,造成垃圾郵件誤判率上升的問題。
本發(fā)明的另一目的在于提供一種垃圾郵件識別方法。
本發(fā)明是這樣實(shí)現(xiàn)的一種反垃圾郵件的方法,所述方法包括以下步驟A.通過第一處理級按照第一識別原則對原始郵件樣本集進(jìn)行識別處理,輸出最終識別結(jié)果和第一郵件樣本集;B.通過第二處理級按照第二識別原則對所述第一郵件樣本集以及根據(jù)所述第一郵件樣本集追加的追加郵件樣本集進(jìn)一步進(jìn)行識別處理,輸出最終識別結(jié)果和第二樣本集;C.將所述第二樣本集作為最終郵件識別結(jié)果輸出,或者繼續(xù)輸出給下一處理級進(jìn)行識別處理;所述第一識別原則用于對輸入的郵件樣本進(jìn)行偏向性識別,所述第二識別原則用于對所述第一處理級的識別錯(cuò)誤進(jìn)行糾正;所述識別處理采用的算法為對輸入數(shù)據(jù)的平衡性反應(yīng)敏感的識別算法。
所述方法進(jìn)一步包括D.將每一處理級的錯(cuò)誤識別結(jié)構(gòu)反饋回本處理級以及上一處理級,調(diào)整相應(yīng)處理級的識別原則。
所述追加郵件樣本集來源于所述原始郵件樣本集或者上一處理級輸出的郵件樣本集。
所述第一郵件樣本集或者第二郵件樣本集中的郵件為垃圾郵件。
不同的處理級采用相同或者不同的識別算法。
各處理級均位于服務(wù)器端。
所述第一處理級位于服務(wù)器端,所述第二處理級位于客戶端;所述第二處理級包括多個(gè)子處理級,每個(gè)子處理級對應(yīng)至少一個(gè)郵件賬戶。。
一種反垃圾郵件的系統(tǒng),所述系統(tǒng)包括第一級處理器,用于按照第一識別原則對原始郵件樣本集進(jìn)行識別處理,輸出最終識別結(jié)果和第一郵件樣本集;第二級處理器,用于按照第二識別原則對所述第一郵件樣本集以及根據(jù)所述第一郵件樣本集追加的追加郵件樣本集進(jìn)一步進(jìn)行識別處理,輸出最終識別結(jié)果和第二樣本集,并將所述第二樣本集作為最終郵件識別結(jié)果輸出,或者繼續(xù)輸出給下一處理級進(jìn)行識別處理;所述第一識別原則用于對輸入的郵件樣本進(jìn)行偏向性識別,所述第二識別原則用于對所述第一處理級的識別錯(cuò)誤進(jìn)行糾正;所述識別處理采用的算法為對輸入數(shù)據(jù)的平衡性反應(yīng)敏感的識別算法。
所述第一級處理器進(jìn)一步包括郵件樣本庫,用于接收原始郵件樣本集;郵件識別處理模塊,用于按照第一識別原則對所述郵件樣本庫中的原始郵件樣本集進(jìn)行識別處理,輸出最終識別結(jié)果和第一郵件樣本集。
所述第二級處理器進(jìn)一步包括郵件樣本庫,用于接收所述第一郵件樣本集;郵件樣本追加模塊,用于根據(jù)所述第一郵件樣本集的郵件數(shù)量追加相應(yīng)的郵件樣本;追加樣本庫,用于接收所述郵件樣本追加模塊追加的郵件樣本集;郵件識別處理模塊,用于按照第二識別原則對所述第一郵件樣本集以及所述追加郵件樣本集進(jìn)一步進(jìn)行識別處理,輸出最終識別結(jié)果和第二樣本集,并將所述第二樣本集作為最終郵件識別結(jié)果輸出,或者繼續(xù)輸出給下一級進(jìn)行識別處理。
所述追加郵件樣本集來源于所述原始郵件樣本集或者所述第一郵件樣本集。
所述第一郵件樣本集或者第二郵件樣本集中的郵件為垃圾郵件。
所述第一級處理器和第二級處理器采用同一識別算法或者不同的識別算法。
所述第一級處理器和第二級處理器均位于服務(wù)器端。
所述第一級處理器位于服務(wù)器端,所述第二級處理器位于客戶端;所述第二級處理器包括多個(gè)子處理器,每個(gè)子處理器對應(yīng)至少一個(gè)郵件賬戶。。
本發(fā)明采取對郵件樣本進(jìn)行多級識別處理,將偏向性識別和針對性糾正相結(jié)合,并進(jìn)一步通過反饋機(jī)制,提高了垃圾郵件的攔截率,降低了垃圾郵件的誤判率。
圖1是本發(fā)明提供的垃圾郵件識別訓(xùn)練的實(shí)現(xiàn)方法原理圖;圖2是本發(fā)明提供的反垃圾郵件的系統(tǒng)的結(jié)構(gòu)圖;圖3是本發(fā)明中將反垃圾郵件處理擴(kuò)展到用戶層面時(shí)的實(shí)現(xiàn)原理圖。
具體實(shí)施例方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明對垃圾郵件的識別采取多級處理的方法,上一級處理進(jìn)行偏向性的識別,下一級處理器則針對上一級處理的識別結(jié)果進(jìn)行針對性的更正,同時(shí),進(jìn)一步將本級產(chǎn)生的錯(cuò)誤反饋到本級及上一級處理,參與下一次的分類識別訓(xùn)練過程。本發(fā)明不局限于郵件樣本的平衡性,能夠靈活處理,提高了垃圾郵件的攔截率,降低了誤判率。
需要說明的是,本發(fā)明中各級處理所采用的處理方法必須為由于核心計(jì)算公式的特點(diǎn)或技術(shù)限制所引起的對輸入數(shù)據(jù)平衡性非常敏感的方法,如Bayesian類、決策樹類、規(guī)則等分類方法,或K-means(K-均值)、KNN(k-nearestneighbors method,最鄰近算法)等聚類方法,或原本對輸入數(shù)據(jù)平衡性不敏感但經(jīng)過簡單修改就可以帶來平衡性敏感的方法。當(dāng)采用相同算法時(shí),各級的輸入數(shù)據(jù)集與垃圾郵件與正常郵件的比例需不同;采用不同算法時(shí),極限情況下允許各級的輸入數(shù)據(jù)集相同。在此基礎(chǔ)上再增加錯(cuò)誤反饋處理后,一個(gè)具有定向偏向錯(cuò)誤與定向偏向更正的反垃圾郵件的系統(tǒng)便得以建立。
圖1示出了本發(fā)明提供的垃圾郵件識別訓(xùn)練的實(shí)現(xiàn)原理,以兩級為例,當(dāng)然,本發(fā)明并不僅限于兩級級,可以根據(jù)需要設(shè)置多個(gè)處理級別。
在本發(fā)明中,各級處理一般都采用同一種算法,通過有意改變每一級處理的輸入郵件與訓(xùn)練方法的參數(shù)來改變其識別結(jié)果。每一級處理只處理其他某一級處理或某幾級處理容易出錯(cuò)的情況,因此,任何一級的識別結(jié)果原則上都可以建立一個(gè)更正級。
在應(yīng)用部署方面,本發(fā)明對各級處理的部署位置沒有嚴(yán)格要求,根據(jù)不同應(yīng)用需求可以都設(shè)置郵件服務(wù)器端,也可以部分設(shè)置在服務(wù)器端,部分設(shè)置在客戶端,如Foxmail,Outlook等。
作為本發(fā)明的一個(gè)實(shí)施例,上一級處理的目標(biāo)為獲得良好的非垃圾郵件識別結(jié)果,具體可以通過放寬垃圾郵件的識別標(biāo)準(zhǔn),提高垃圾郵件的攔截率來實(shí)現(xiàn)。當(dāng)然,目標(biāo)也可以是為獲得良好的垃圾郵件識別結(jié)果,可以靈活選擇。
上一級處理在訓(xùn)練時(shí)對輸入郵件集合的處理方式是a.將全部可以獲得的郵件,即原始郵件樣本集合作為輸入;b.將其中所有被認(rèn)為具有垃圾郵件傾向的郵件都作為垃圾郵件對待;c.將其中同時(shí)出現(xiàn)在非垃圾郵件與垃圾郵件集合的郵件作為垃圾郵件對待。
經(jīng)過上一級處理處理而輸出的郵件分成了兩部分一部分是可信賴的非垃圾郵件,進(jìn)入最終結(jié)果;另外一部分是垃圾郵件,而其中可能包含了被當(dāng)作垃圾郵件對待的部分非垃圾郵件,這一部分郵件被發(fā)送到下一級處理進(jìn)行進(jìn)一步的識別和判定。
下一級處理對由上一級處理發(fā)送過來的高錯(cuò)誤率的垃圾郵件識別結(jié)果進(jìn)行針對性的更正,重新識別出其中的非垃圾郵件。
下一級處理在訓(xùn)練時(shí)輸入的郵件集合由兩部分組成一部分是上一級處理發(fā)送過來的垃圾郵件;另一部分是下一級處理采用某種策略從原始郵件樣本集或者上一級輸入進(jìn)行識別處理的郵件樣本集中抽取部分郵件,作為追加樣本庫,例如如果現(xiàn)在需要進(jìn)一步處理的樣本集合理論上大部分都是被誤判的垃圾郵件,則需要添加一定比例的真正垃圾郵件作對應(yīng),這個(gè)比例可以根據(jù)需要靈活調(diào)整(經(jīng)驗(yàn)設(shè)定/遞歸測試設(shè)定),調(diào)整的目標(biāo)是最終的判定結(jié)果可以接受。兩部分郵件合并在一起作為下一級處理的訓(xùn)練數(shù)據(jù)集合。
下一級處理的算法也可以靈活選擇,但本發(fā)明在具體應(yīng)用中一般采用跟上一級處理相同的算法。
在系統(tǒng)訓(xùn)練時(shí),上述過程可能需要反復(fù)多次,在調(diào)整各級算法的參數(shù)與追加樣本庫的內(nèi)容后,當(dāng)綜合攔截率、誤判率降到一個(gè)指定區(qū)間后可以停止學(xué)習(xí)過程,將模型保存下來參與實(shí)際應(yīng)用。
在具體應(yīng)用時(shí),還需要針對每一級處理的錯(cuò)誤識別結(jié)果設(shè)置幾個(gè)反饋流程,將錯(cuò)誤結(jié)果分別返回到不同地方(本級及上一級)參與未來的訓(xùn)練。對于多級的垃圾郵件識別系統(tǒng)而言,兩級以后的處理模塊只需要處理上一級或上幾級出現(xiàn)錯(cuò)誤的情況,其輸入樣本的集合一般會逐級減少。
綜上所述,本發(fā)明方案具有以下幾個(gè)顯著特點(diǎn)第一、各級的輸入數(shù)據(jù)集合不同,這通過在各級識別過程中有意甚至刻意制造輸入郵件樣本的不平衡性來達(dá)到。
第二、對各級的相應(yīng)輸入數(shù)據(jù),采用偏向某個(gè)最終識別目標(biāo)的策略,或偏向于非垃圾郵件的識別準(zhǔn)確率或偏向于垃圾郵件的識別準(zhǔn)確率。
第三、各級處理中可以采用相同或不同的方法,對郵件進(jìn)行識別。
這樣,對所有處理的輸出結(jié)果進(jìn)行處理(串行或并行)后,則可以將輸入樣本的不平衡劣勢變?yōu)閮?yōu)勢。
圖2示出了本發(fā)明提供的反垃圾郵件的系統(tǒng)的結(jié)構(gòu),為了便于理解,以兩級處理為例。
第一級處理器100包括郵件樣本庫101和郵件識別處理模塊102,第二級處理器200包括郵件樣本庫201、郵件樣本追加模塊202、追加樣本庫203以及郵件識別處理模塊204。
輸入郵件樣本庫101的郵件為原始郵件樣本集合,郵件識別處理模塊102通過上述的垃圾郵件識別算法對垃圾郵件進(jìn)行識別,作為本發(fā)明的一個(gè)實(shí)施例,郵件識別處理模塊102放松垃圾郵件識別標(biāo)準(zhǔn),提高垃圾郵件的攔截率,從獲得良好的非垃圾郵件識別結(jié)果。
經(jīng)郵件識別處理模塊102識別處理后輸出的非垃圾郵件識別結(jié)果作為最終的郵件識別結(jié)果,輸出的垃圾郵件識別結(jié)果繼續(xù)輸入到第二級處理器200進(jìn)行糾正性識別處理。
郵件識別處理模塊102識別處理后輸出的垃圾郵件識別結(jié)果輸入到郵件樣本庫201。郵件樣本追加模塊202用于根據(jù)第一級處理器100輸出的垃圾郵件識別結(jié)果中的郵件數(shù)量從原始郵件樣本或者其他郵件樣本中追加相應(yīng)比例的郵件樣本輸入到追加樣本庫203。郵件識別處理模塊204按照對第一級處理器100輸出的垃圾郵件識別結(jié)果進(jìn)行糾正性識別的原則對郵件樣本庫201和追加樣本庫203的郵件進(jìn)一步進(jìn)行識別處理,進(jìn)一步提高垃圾郵件的攔截率,分別輸出非垃圾郵件識別結(jié)果和垃圾郵件識別結(jié)果作為最終的識別結(jié)果。當(dāng)然,也可以采用更多級別的處理器,例如第三級處理器、第四級處理器......時(shí),將第二級處理器200輸出的垃圾郵件識別結(jié)果進(jìn)行糾正性處理,以進(jìn)一步提高垃圾郵件的識別效果。此時(shí),第三級處理器、第四級處理器......的結(jié)構(gòu)與第二級處理器200的結(jié)構(gòu)相同。
圖3示出了本發(fā)明將垃圾郵件識別處理擴(kuò)展到用戶層面時(shí)的實(shí)現(xiàn)原理,可以針對每個(gè)用戶設(shè)置最符合其特性的末級反垃圾模塊,以實(shí)現(xiàn)客戶個(gè)性化服務(wù)的要求,能夠有效針對不同用戶對不同郵件的偏好實(shí)現(xiàn)更準(zhǔn)確的反垃圾郵件效果。
在本發(fā)明中,任何一個(gè)級別的處理器都可以是一個(gè)邏輯上的處理器,允許封裝多個(gè)高相關(guān)性的子處理器,每個(gè)子處理器對應(yīng)至少一個(gè)郵件帳戶。在本實(shí)施例中,就是將所有單個(gè)用戶層面的整體看作第二級處理器。
如果繼續(xù)使用傳統(tǒng)的Bayesian算法作為反垃圾郵件技術(shù),本實(shí)施例則基于一個(gè)兩級Bayesian反垃圾郵件的系統(tǒng)。圖中實(shí)細(xì)線表示每一個(gè)步驟中輸出需要下一級繼續(xù)處理的結(jié)果;虛線代表輸出的結(jié)果可以充分信任,作為最終結(jié)果;實(shí)粗線表示對錯(cuò)誤識別結(jié)果進(jìn)行反饋。此實(shí)施例中對垃圾郵件的識別過程與上述過程一致,不再贅述。
需要補(bǔ)充說明的是,第二級處理器識別到的錯(cuò)誤可以通過用戶、郵件系統(tǒng)操作人員,或者垃圾郵件收集器/探針進(jìn)行反饋。本實(shí)施例中第二級處理器中發(fā)現(xiàn)的錯(cuò)誤被分別反饋到本級與上一級,參與下一次的分類識別模型訓(xùn)練過程。一般而言,錯(cuò)誤樣本按照對不同上級的重要程度決定返回的地方,而且錯(cuò)誤只向上反饋。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種反垃圾郵件的方法,其特征在于,所述方法包括以下步驟A.通過第一處理級按照第一識別原則對原始郵件樣本集進(jìn)行識別處理,輸出最終識別結(jié)果和第一郵件樣本集;B.通過第二處理級按照第二識別原則對所述第一郵件樣本集以及根據(jù)所述第一郵件樣本集追加的追加郵件樣本集進(jìn)一步進(jìn)行識別處理,輸出最終識別結(jié)果和第二郵件樣本集;C.將所述第二樣本集作為最終郵件識別結(jié)果輸出,或者繼續(xù)輸出給下一處理級進(jìn)行識別處理;所述第一識別原則用于對輸入的郵件樣本進(jìn)行偏向性識別,所述第二識別原則用于對所述第一處理級的識別錯(cuò)誤進(jìn)行糾正;所述識別處理采用的算法為對輸入數(shù)據(jù)的平衡性反應(yīng)敏感的識別算法。
2.如權(quán)利要求1所述的反垃圾郵件的方法,其特征在于,所述方法進(jìn)一步包括D.將每一處理級的錯(cuò)誤識別結(jié)構(gòu)反饋回本處理級以及上一處理級,調(diào)整相應(yīng)處理級的識別原則。
3.如權(quán)利要求1所述的反垃圾郵件的方法,其特征在于,所述追加郵件樣本集來源于所述原始郵件樣本集或者上一處理級輸出的郵件樣本集。
4.如權(quán)利要求1所述的反垃圾郵件的方法,其特征在于,所述第一郵件樣本集或者第二郵件樣本集中的郵件為垃圾郵件。
5.如權(quán)利要求1所述的反垃圾郵件的方法,其特征在于,不同的處理級采用相同或者不同的識別算法。
6.如權(quán)利要求1所述的反垃圾郵件的方法,其特征在于,各處理級均位于服務(wù)器端。
7.如權(quán)利要求1所述的反垃圾郵件的方法,其特征在于,所述第一處理級位于服務(wù)器端,所述第二處理級位于客戶端;所述第二處理級包括多個(gè)子處理級,每個(gè)子處理級對應(yīng)至少一個(gè)郵件賬戶。
8.一種反垃圾郵件的系統(tǒng),其特征在于,所述系統(tǒng)包括第一級處理器,用于按照第一識別原則對原始郵件樣本集進(jìn)行識別處理,輸出最終識別結(jié)果和第一郵件樣本集;第二級處理器,用于按照第二識別原則對所述第一郵件樣本集以及根據(jù)所述第一郵件樣本集追加的追加郵件樣本集進(jìn)一步進(jìn)行識別處理,輸出最終識別結(jié)果和第二樣本集,并將所述第二樣本集作為最終郵件識別結(jié)果輸出,或者繼續(xù)輸出給下一處理級進(jìn)行識別處理;所述第一識別原則用于對輸入的郵件樣本進(jìn)行偏向性識別,所述第二識別原則用于對所述第一處理級的識別錯(cuò)誤進(jìn)行糾正;所述識別處理采用的算法為對輸入數(shù)據(jù)的平衡性反應(yīng)敏感的識別算法。
9.如權(quán)利要求8所述的反垃圾郵件的系統(tǒng),其特征在于,所述第一級處理器進(jìn)一步包括郵件樣本庫,用于接收原始郵件樣本集;郵件識別處理模塊,用于按照第一識別原則對所述郵件樣本庫中的原始郵件樣本集進(jìn)行識別處理,輸出最終識別結(jié)果和第一郵件樣本集。
10.如權(quán)利要求8所述的反垃圾郵件的系統(tǒng),其特征在于,所述第二級處理器進(jìn)一步包括郵件樣本庫,用于接收所述第一郵件樣本集;郵件樣本追加模塊,用于根據(jù)所述第一郵件樣本集的郵件數(shù)量追加相應(yīng)的郵件樣本;追加樣本庫,用于接收所述郵件樣本追加模塊追加的郵件樣本集;郵件識別處理模塊,用于按照第二識別原則對所述第一郵件樣本集以及所述追加郵件樣本集進(jìn)一步進(jìn)行識別處理,輸出最終識別結(jié)果和第二樣本集,并將所述第二樣本集作為最終郵件識別結(jié)果輸出,或者繼續(xù)輸出給下一級進(jìn)行識別處理。
11.如權(quán)利要求8所述的反垃圾郵件的系統(tǒng),其特征在于,所述追加郵件樣本集來源于所述原始郵件樣本集或者所述第一郵件樣本集。
12.如權(quán)利要求8所述的反垃圾郵件的系統(tǒng),其特征在于,所述第一郵件樣本集或者第二郵件樣本集中的郵件為垃圾郵件。
13.如權(quán)利要求8所述的反垃圾郵件的系統(tǒng),其特征在于,所述第一級處理器和第二級處理器采用同一識別算法或者不同的識別算法。
14.如權(quán)利要求8所述的反垃圾郵件的系統(tǒng),其特征在于,所述第一級處理器和第二級處理器均位于服務(wù)器端。
15.如權(quán)利要求8所述的反垃圾郵件的系統(tǒng),其特征在于,所述第一級處理器位于服務(wù)器端,所述第二級處理器位于客戶端;所述第二級處理器包括多個(gè)子處理器,每個(gè)子處理器對應(yīng)至少一個(gè)郵件賬戶。
全文摘要
本發(fā)明適用于計(jì)算機(jī)通信領(lǐng)域,提供了一種反垃圾郵件的方法及系統(tǒng),所述方法包括以下步驟A.通過第一處理級按照第一識別原則對原始郵件樣本集進(jìn)行識別處理,輸出最終識別結(jié)果和第一郵件樣本集;B.通過第二處理級按照第二識別原則對所述第一郵件樣本集以及根據(jù)所述第一郵件樣本集追加的追加郵件樣本集進(jìn)一步進(jìn)行識別處理,輸出最終識別結(jié)果和第二樣本集;C.將所述第二樣本集作為最終郵件識別結(jié)果輸出,或者繼續(xù)輸出給下一處理級進(jìn)行識別處理。本發(fā)明采取對郵件樣本進(jìn)行多級識別處理,將偏向性識別和針對性糾正相結(jié)合,并進(jìn)一步通過反饋機(jī)制,提高了垃圾郵件的攔截率,降低了垃圾郵件的誤判率。
文檔編號H04L12/58GK101026593SQ200610033980
公開日2007年8月29日 申請日期2006年2月23日 優(yōu)先權(quán)日2006年2月23日
發(fā)明者王暉 申請人:騰訊科技(深圳)有限公司