欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于用戶行為分類的垃圾郵件過濾系統(tǒng)及方法

文檔序號:10660843閱讀:339來源:國知局
一種基于用戶行為分類的垃圾郵件過濾系統(tǒng)及方法
【專利摘要】本發(fā)明提供的是一種基于用戶行為分類的垃圾郵件過濾系統(tǒng)及方法。包括用戶行為分類模塊、拓?fù)湎嗨菩赃^濾模塊和郵件處理模塊,用戶行為分類模塊包括一個(gè)用戶行為分類器和一個(gè)用戶類型判定器,拓?fù)湎嗨菩赃^濾模塊包括一個(gè)拓?fù)湎嗨菩赃^濾器和一個(gè)輔助過濾器。本發(fā)明提出的模型能夠有效的根據(jù)用戶發(fā)送行為特征,提取出正常用戶和垃圾用戶,減少需要深度過濾的郵件,提高郵件網(wǎng)關(guān)系統(tǒng)性能,同時(shí)能夠提高整體的查準(zhǔn)率和召回率。
【專利說明】
一種基于用戶行為分類的垃圾郵件過濾系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及的是一種郵件網(wǎng)關(guān),主要是一種垃圾郵件過濾系統(tǒng)及方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)流量的不斷增長,傳統(tǒng)的垃圾郵件識別技術(shù)很難應(yīng)對如今的高速網(wǎng)絡(luò) 環(huán)境。傳統(tǒng)技術(shù)大都需要通過對每封郵件的內(nèi)容進(jìn)行深度分析,不僅在解析郵件時(shí)耗費(fèi)時(shí) 間,同時(shí)在進(jìn)行過濾時(shí)也需要大量的計(jì)算。
[0003] 基于簡單郵件傳輸協(xié)議(SMTP)會話的垃圾郵件拒收方案采用了 3層電子郵件預(yù)分 類技術(shù)一個(gè)SMTP會話結(jié)束之前估計(jì)的電子郵件類。通過研究使用離散時(shí)間馬爾可夫鏈分析 垃圾郵件拒收計(jì)劃和分析不同的電子郵件流量負(fù)載和服務(wù)能力,根據(jù)建議方案的性能。該 方案降低了電子郵件量進(jìn)行排隊(duì),并通過電子郵件服務(wù)器處理,從而降低了非垃圾郵件排 隊(duì)時(shí)延和損失,保護(hù)郵件服務(wù)器免受過載被垃圾郵件流量。
[0004] 除了研究郵件的傳遞行為,也有很多研究方案是基于用戶之間的收發(fā)關(guān)系的。其 主要理論是基于,對于正常的郵件用戶來說,用戶之間的關(guān)系是有交互性的,有來有往。而 對于垃圾郵件發(fā)送用戶,其發(fā)送的郵件稱輻射狀,且很少有針對這些輻射的回信?;趯Υ?類拓?fù)潢P(guān)系的挖掘,有一種基于用戶關(guān)系拓?fù)湎嗨贫扔?jì)算的垃圾郵件識別模型。該模型借 用余弦相似性計(jì)算,通過將用戶之間的關(guān)系網(wǎng)絡(luò)向量化,然后計(jì)算用戶之間的相似性。再根 據(jù)相似性將用戶群體聚類。最后根據(jù)發(fā)送郵件的用戶屬于的用戶群體,來計(jì)算其為垃圾用 戶的概率,設(shè)定閾值并進(jìn)行最終垃圾郵件的判斷。但是該方法對于每封到達(dá)的郵件,都要進(jìn) 行拓?fù)湎嗨菩杂?jì)算,因此在效率上并不優(yōu)秀。同時(shí)因?yàn)橐恍┧惴ǖ木窒扌裕P蛯?shí)際的查出 率和召回率并不理想。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種提高整個(gè)郵件網(wǎng)關(guān)的效率的基于用戶行為分類的垃 圾郵件過濾系統(tǒng),本發(fā)明的目的還在于提供一種基于用戶行為分類的垃圾郵件過濾方法。
[0006] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0007] 本發(fā)明的基于用戶行為分類的垃圾郵件過濾系統(tǒng)包括用戶行為分類模塊、拓?fù)湎?似性過濾模塊和郵件處理模塊,用戶行為分類模塊包括一個(gè)用戶行為分類器和一個(gè)用戶類 型判定器,拓?fù)湎嗨菩赃^濾模塊包括一個(gè)拓?fù)湎嗨菩赃^濾器和一個(gè)輔助過濾器。
[0008] 所述輔助過濾器用于對給定的郵件進(jìn)行直接過濾,是基于郵件頭部特征提取的指 紋過濾器。
[0009] 本發(fā)明的基于用戶行為分類的垃圾郵件過濾方法包括:
[0010] (1)郵件到達(dá)后,提取郵件的發(fā)件人,作為用戶信息;
[0011] (2)用戶信息進(jìn)入用戶類型判定器,判定用戶為新用戶、正常用戶、灰色用戶或垃 圾用戶;
[0012] (3)新用戶進(jìn)入到輔助過濾器中進(jìn)行過濾,過濾后進(jìn)入郵件處理模塊,進(jìn)行正常轉(zhuǎn) 發(fā)或標(biāo)記為垃圾郵件;
[0013] (4)灰色用戶進(jìn)入到拓?fù)湎嗨菩赃^濾器中進(jìn)行過濾,過濾后進(jìn)入郵件處理模塊,進(jìn) 行正常轉(zhuǎn)發(fā)或標(biāo)記為垃圾郵件;
[0014] (5)正常用戶及垃圾用戶直接進(jìn)入郵件處理模塊,正常用戶進(jìn)行正常轉(zhuǎn)發(fā);垃圾用 戶標(biāo)記垃圾郵件;
[0015] (6)用戶屬性達(dá)到于閾值后,通過用戶行為分類器計(jì)算,為用戶重新分配類別。
[0016] 單純的基于行為的垃圾郵件識別技術(shù)難以獲得良好的查出率和召回率,無法用戶 較好的實(shí)用駕駛。本發(fā)明不單純進(jìn)行垃圾郵件識別,而是通過減少需要進(jìn)行深度過濾的郵 件的方法,來提高郵件網(wǎng)關(guān)在深度處理垃圾郵件時(shí)所需要的時(shí)間。從而提高了整個(gè)郵件網(wǎng) 關(guān)的效率。
[0017] 本發(fā)明從垃圾用戶發(fā)送行為的特點(diǎn)出發(fā),通過對用戶發(fā)送行為的分類,提出了一 種基于用戶行為分類的垃圾郵件識別技術(shù)。該技術(shù)致力于減少郵件網(wǎng)關(guān)進(jìn)行垃圾郵件識別 時(shí)的無用工作量,從而能夠大幅度提高郵件網(wǎng)關(guān)進(jìn)行垃圾郵件識別工作的效率。同時(shí)也能 提高一定的查出率和召回率。
[0018] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
[0019] 本發(fā)明提出的模型能夠有效的根據(jù)用戶發(fā)送行為特征,提取出正常用戶和垃圾用 戶,減少需要深度過濾的郵件,提高郵件網(wǎng)關(guān)系統(tǒng)性能,同時(shí)能夠提高整體的查準(zhǔn)率和召回 率。
【附圖說明】
[0020] 圖1基于用戶行為分類模型圖。
[0021] 圖2查出率對比圖。
[0022] 圖3召回率對比圖。
【具體實(shí)施方式】
[0023] 下面舉例對本發(fā)明進(jìn)行詳細(xì)說明。
[0024] 結(jié)合圖1,本發(fā)明的基于用戶行為分類的垃圾郵件過濾系統(tǒng)具體包括以下組成部 分。
[0025]①用戶行為分類模型,
[0026]②拓?fù)湎嗨菩赃^濾模型。
[0027] 其中,用戶行為分類模型包括一個(gè)用戶行為分類器和一個(gè)用戶類型判定器;拓?fù)?相似性過濾模型包括一個(gè)拓?fù)湎嗨菩赃^濾器和一個(gè)輔助過濾器。輔助過濾器過濾器用于對 給定的郵件進(jìn)行直接過濾,這里基于郵件頭部特征提取的指紋過濾器。
[0028] 本發(fā)明的基于用戶行為分類的垃圾郵件過濾方法為:
[0029] 1)郵件到達(dá)后,提取郵件的發(fā)件人,作為用戶信息。
[0030] 2)進(jìn)入用戶類型判定器,判定用戶為新用戶、正常用戶、灰色用戶或垃圾用戶。 [0031] 3)新用戶進(jìn)入到輔助過濾器中進(jìn)行過濾,過濾后進(jìn)入郵件處理模塊,進(jìn)行正常轉(zhuǎn) 發(fā)或標(biāo)記為垃圾郵件。
[0032] 4)灰色用戶進(jìn)入到拓?fù)湎嗨菩赃^濾器中進(jìn)行過濾,過濾后進(jìn)入郵件處理模塊,進(jìn) 行正常轉(zhuǎn)發(fā)或標(biāo)記為垃圾郵件。
[0033] 5)正常用戶(垃圾用戶)直接進(jìn)入郵件處理模塊。進(jìn)行正常轉(zhuǎn)發(fā)(標(biāo)記垃圾郵件)
[0034] 6)用戶屬性達(dá)到于閾值后,會通過用戶行為分類器計(jì)算,為用戶重新分配類別。
[0035] 1)該方法應(yīng)用于郵件網(wǎng)關(guān)領(lǐng)域中,主要針對的是基于郵件行為的垃圾郵件識別。
[0036] 2)該方法主要處理的數(shù)據(jù)是郵件流量中的smtp會話。
[0037] 基于用戶行為分類的垃圾郵件過濾技術(shù),其特征是:
[0038] 1)該技術(shù)主要包括用戶行為分類器和用戶類型判定器兩個(gè)模塊。
[0039] 2)用戶行為分類器首先通過解析smtp會話,來提取用戶,并獲得用戶的行為屬性。 然后根據(jù)這些屬性,提取并進(jìn)行用戶類型計(jì)算,通過計(jì)算將用戶分為新用戶、正常用戶、灰 色用戶和垃圾用戶四個(gè)類型。其中新用戶為發(fā)送郵件數(shù)較少的用戶;灰色用戶為無法判定 類型的用戶。用戶類型的計(jì)算方法使用的是KNN算法的變形。
[0040] 3)用戶類型判定器根據(jù)各個(gè)用戶的行為分類結(jié)果,將用戶區(qū)分為四個(gè)類型。同時(shí), 在用戶類型判定器中為每個(gè)用戶設(shè)定各自的閾值,達(dá)到閾值后需要重新進(jìn)入用戶行為分類 器來進(jìn)行用戶行為分類。分類出的正常用戶的郵件,進(jìn)入到正常郵件處理流程;垃圾用戶的 郵件進(jìn)入到垃圾用戶的處理流程;新用戶和灰色用戶的郵件進(jìn)入到輔助分類器中進(jìn)行二次 處理。
[0041] 下面通過具體實(shí)施例對本發(fā)明作的效果做更詳細(xì)的描述。
[0042] 用戶類型計(jì)算是模型的核心模塊。而用戶類型計(jì)算的基礎(chǔ)是各個(gè)用戶的行為屬 性。用戶行為屬性的選取首先需要考慮作為郵件網(wǎng)關(guān)系統(tǒng)能過獲得的可行性;其次,作為郵 件網(wǎng)關(guān),不適合大量的計(jì)算與存儲;最后,還需要盡量選取特征鮮明的屬性從而易于分辨垃 圾用戶與正常用戶。綜合這些要求,按照表1選取需要記錄的用戶屬性。根據(jù)這些屬性,再進(jìn) 行篩選,選用表2中的項(xiàng)目作為用戶類型計(jì)算選取的特征。
[0043]表1用戶屬性及說明
[0044]
[0045] 表2用戶類型計(jì)算特征選取表
[0046]
[0047] user_train、測試數(shù)據(jù)集user_test,則該算法的流程如下:
[0048] 1)已知樣本集userjrain中的用戶被分為垃圾郵件用戶和正常用戶兩類;
[0049] 2)從user_test中取一個(gè)用戶U,計(jì)算其在user_train中的k臨近個(gè)點(diǎn),假設(shè)其中, 有m個(gè)點(diǎn)屬于垃圾用戶;
[0050] 3)取m/k作為用戶U為垃圾郵件的概率,記為Pu,當(dāng)P=1時(shí),判斷U為垃圾用戶,當(dāng)P =0時(shí),判斷U為正常用戶,其他情況U為灰色用戶。
[0051]另一方面,在模型中每個(gè)類型的用戶都有自己的閾值,只有達(dá)到閾值才會進(jìn)行用 戶類型計(jì)算,這樣做的原因是根據(jù)用戶行為進(jìn)行分類需要有一定數(shù)量的用戶發(fā)送行為才可 以進(jìn)行,而其變化也很難因?yàn)橐环忄]件的增加而改變,因此沒有必要每封郵件到達(dá)都計(jì)算 用戶類型。針對四種類型的用戶,根據(jù)各自的特點(diǎn)定義了各自的閾值S new、Sn_al、SgradP Sspam。詳細(xì)設(shè)定如下:
[0052] 1)新用戶 s end_num> Snew,Snew = 100
[0053] 2)正常用戶8611(1_1111111>311。:《31,311。:《31=]/[;[11[8611(1_11111110€8瓜7_118618]每次計(jì)算后 若還是正常用戶,則Sn〇rmai+ = 100
[0054] 3)灰色用戶send_num>Sgray,Sgray=Min[send_num of gray_users]
[0055] 每次計(jì)算后若還是灰色用戶,則Sgray+=1000
[0056] 4)垃圾用戶 send_num>Sspam,Sspam=Sgray+1000
[0057] 每次計(jì)算后若還是垃圾用戶,則Ss_+= 1000。
【主權(quán)項(xiàng)】
1. 一種基于用戶行為分類的垃圾郵件過濾系統(tǒng),其特征是:包括用戶行為分類模塊、拓 撲相似性過濾模塊和郵件處理模塊,用戶行為分類模塊包括一個(gè)用戶行為分類器和一個(gè)用 戶類型判定器,拓?fù)湎嗨菩赃^濾模塊包括一個(gè)拓?fù)湎嗨菩赃^濾器和一個(gè)輔助過濾器。2. 根據(jù)權(quán)利要求1所述的基于用戶行為分類的垃圾郵件過濾系統(tǒng)及方法,其特征是:所 述輔助過濾器用于對給定的郵件進(jìn)行直接過濾,是基于郵件頭部特征提取的指紋過濾器。3. -種基于用戶行為分類的垃圾郵件過濾方法,其特征是: (1) 郵件到達(dá)后,提取郵件的發(fā)件人,作為用戶信息; (2) 用戶信息進(jìn)入用戶類型判定器,判定用戶為新用戶、正常用戶、灰色用戶或垃圾用 戶; (3) 新用戶進(jìn)入到輔助過濾器中進(jìn)行過濾,過濾后進(jìn)入郵件處理模塊,進(jìn)行正常轉(zhuǎn)發(fā)或 標(biāo)記為垃圾郵件; (4) 灰色用戶進(jìn)入到拓?fù)湎嗨菩赃^濾器中進(jìn)行過濾,過濾后進(jìn)入郵件處理模塊,進(jìn)行正 常轉(zhuǎn)發(fā)或標(biāo)記為垃圾郵件; (5) 正常用戶及垃圾用戶直接進(jìn)入郵件處理模塊,正常用戶進(jìn)行正常轉(zhuǎn)發(fā);垃圾用戶標(biāo) 記垃圾郵件; (6) 用戶屬性達(dá)到于閾值后,通過用戶行為分類器計(jì)算,為用戶重新分配類別。
【文檔編號】H04L29/06GK106027504SQ201610300853
【公開日】2016年10月12日
【申請日】2016年5月9日
【發(fā)明人】玄世昌, 楊武, 王巍, 苘大鵬, 朱宇
【申請人】哈爾濱工程大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
五台县| 三穗县| 临漳县| 庄浪县| 铅山县| 郎溪县| 象州县| 蒙城县| 绥江县| 北川| 孟村| 黔南| 宁化县| 乌恰县| 来安县| 包头市| 芦溪县| 公主岭市| 天水市| 电白县| 长武县| 增城市| 甘南县| 固原市| 汕尾市| 西乌珠穆沁旗| 石棉县| 上饶县| 吉林市| 杭锦旗| 临江市| 老河口市| 同江市| 沐川县| 平舆县| 岳池县| 牙克石市| 瑞昌市| 金平| 义乌市| 巴里|