欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于電子郵件地址和其他帳戶信息的用戶帳戶的基于機器學(xué)習(xí)的分類的制作方法

文檔序號:6532685閱讀:658來源:國知局
基于電子郵件地址和其他帳戶信息的用戶帳戶的基于機器學(xué)習(xí)的分類的制作方法
【專利摘要】至少部分地基于與一帳戶相關(guān)聯(lián)的電子郵件地址的可記性程度來確定該帳戶的信任級別。也可使用諸如基于電子郵件地址的域以及來自諸如與帳戶相關(guān)聯(lián)的姓名、電話號碼和地址之類的附加信息的附加特征來確定帳戶的信任級別??墒褂脵C器學(xué)習(xí)過程基于來自訓(xùn)練數(shù)據(jù)的將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征來學(xué)習(xí)分類模型。該分類模型被用來確定帳戶的信任級別和/或帳戶是惡意的還是良性的,并且可通過用新帳戶增量式地使該模型自適應(yīng)或改進該模型來持續(xù)改進。
【專利說明】基于電子郵件地址和其他帳戶信息的用戶帳戶的基于機器學(xué)習(xí)的分類
[0001]背景
[0002]在線交易通常需要在線帳戶。每一個在線帳戶都包含與帳戶的用戶有關(guān)的信息,諸如電子郵件地址、姓名、家庭地址、電話號碼等。為了避免被抓住并提高成功率,惡意用戶通常在短時間內(nèi)將一帳戶用于非法用途并且然后切換至另一帳戶,由此需要大量帳戶。用于非法交易的帳戶可能是其它合法用戶的受損害的帳戶或者可由惡意用戶創(chuàng)建。可使用自動化程序(即,機器人程序)來生成大量電子郵件地址以注冊這樣的欺詐性帳戶。例如,這些欺詐性帳戶可以與某些被盜的或非法信用卡相關(guān)聯(lián)以便在線進行欺詐性交易。諸如相關(guān)聯(lián)的電子郵件地址等與帳戶相關(guān)聯(lián)的信息被手動查閱以標(biāo)識惡意帳戶,這是昂貴、勞動密集且耗時的。
[0003]概述
[0004]提供本概述以便以簡化的形式介紹將在以下詳細(xì)描述中進一步描述的一些概念。本概述并非旨在標(biāo)識所要求保護的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。例如,術(shù)語“技術(shù)”可以指上述上下文和本公開通篇所準(zhǔn)許的設(shè)備、系統(tǒng)、方法、和/或計算機可讀指令。
[0005]本發(fā)明提供了至少部分地基于包括電子郵件地址在內(nèi)的信息和/或與傳入帳戶相關(guān)聯(lián)的其他附加信息來標(biāo)識該帳戶是否是惡意的技術(shù)。這些技術(shù)從與帳戶相關(guān)聯(lián)的信息中提取特征,并應(yīng)用分類模型以基于所提取的特征來生成指示傳入帳戶有多少可能是惡意的分?jǐn)?shù)。這一分?jǐn)?shù)可以至少部分地由電子郵件地址的可記性程度來確定??捎浶灾傅氖且粋€人記住電子郵件地址的容易度??捎浶猿潭瓤赏ㄟ^使用將人類生成的電子郵件地址與機器生成的電子郵件地址區(qū)分開的一個或多個特征來確定以生成電子郵件地址的可記性程度。另外,分?jǐn)?shù)還可部分地由電子郵件地址的域來確定,并且可基于與帳戶相關(guān)的其他附加信息,諸如電子郵件地址與諸如姓名、電話和地址等其他帳戶信息的相關(guān)性,以幫助確定該帳戶是否是惡意的。例如,該分?jǐn)?shù)還可部分地由除了與帳戶相關(guān)聯(lián)的電子郵件地址之外的信息來確定,諸如帳戶名稱、地址等是否匹配信用卡的對應(yīng)信息、地址的有效性、帳戶已經(jīng)創(chuàng)建多久,等等。
[0006]本發(fā)明的技術(shù)應(yīng)用機器學(xué)習(xí)來學(xué)習(xí)從訓(xùn)練數(shù)據(jù)中提取的將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征,基于這些特征獲取分類模型,并且使用該分類模型自動確定指示傳入帳戶有多少可能是惡意的分?jǐn)?shù)。分類模型可以用新數(shù)據(jù)來持續(xù)改進并進行增量式訓(xùn)練。例如,可以從一個或多個在線交易的結(jié)果獲取的指示傳入帳戶是惡意的還是良性的該傳入帳戶的地面真值(ground truth)可用于訓(xùn)練分類模型以相應(yīng)地調(diào)整分類模型。例如,傳入帳戶的地面真值可以與由分類模型確定的結(jié)果進行比較并且這一比較結(jié)果用于改進分類模型。
[0007]附圖簡述
[0008]參考附圖來描述【具體實施方式】。在附圖中,附圖標(biāo)記中最左邊的數(shù)字標(biāo)識該附圖標(biāo)記首次出現(xiàn)的附圖。在各附圖中,使用相同的標(biāo)號來指示相同的特征和組件。
[0009]圖1示出了基于帳戶的電子郵件地址和其他附加信息來確定該帳戶的分?jǐn)?shù)的示例場景。
[0010]圖2示出了用于確定帳戶的分?jǐn)?shù)的示例方法的流程圖。
[0011]圖3示出了用于機器學(xué)習(xí)以標(biāo)識特征和生成分類模型的示例方法的流程圖。
[0012]圖4示出了用于持續(xù)訓(xùn)練分類模型的示例方法的流程圖。
[0013]詳細(xì)描述
[0014]本發(fā)明技術(shù)至少部分地基于電子郵件地址的可記性程度來確定與電子郵件地址和其他附加信息相關(guān)聯(lián)的帳戶的分?jǐn)?shù)。該分?jǐn)?shù)確定該帳戶有多少可能是惡意的或良性的。另外,這些技術(shù)還可使用與帳戶和/或電子郵件地址相關(guān)聯(lián)的其他特征,諸如電子郵件地址的域、與帳戶和/或電子郵件地址相關(guān)聯(lián)的電話號碼和用戶名的相關(guān)性、或與帳戶相關(guān)聯(lián)的其他特征,來確定該帳戶的分?jǐn)?shù)。
[0015]與良性帳戶相關(guān)聯(lián)的電子郵件地址通常是人類生成的,而與惡意帳戶相關(guān)聯(lián)的電子郵件地址通??赡苁菣C器生成的。人類生成的電子郵件地址通常是為了在一段時間內(nèi)容易記住而選擇的。通常存在特定特征來幫助記憶,諸如有意義的串和數(shù)字、可發(fā)音的串、人類生成的電子郵件地址中的對稱性。它們的長度通常也是短的。當(dāng)前機器生成的電子郵件地址通常缺少這些特征。在一些實施例中,一些電子郵件地址可通過可記性測試并且被認(rèn)為是人類生成的,但在這些電子郵件地址的域或與電子郵件地址和/或帳戶相關(guān)聯(lián)的其他附加信息被確定為與惡意帳戶相關(guān)聯(lián)的情況下仍舊可被認(rèn)為是與惡意帳戶相關(guān)聯(lián)的。在其他實施例中,除電子郵件地址之外的帳戶數(shù)據(jù),諸如與帳戶相關(guān)聯(lián)的姓名及其與在線交易中所使用的信用卡的姓名的相關(guān)性、與帳戶相關(guān)聯(lián)的地址的有效性等,也可用于確定帳戶是惡意的可能性。
[0016]可使用機器學(xué)習(xí)技術(shù)來從訓(xùn)練數(shù)據(jù)中提取將惡意帳戶與良性帳戶區(qū)分開的特征,并且生成分類模型以確定關(guān)于帳戶是惡意的可能性的分?jǐn)?shù)。在一個實施例中,可以存在獲取分類模型的兩個階段。第一階段是監(jiān)督學(xué)習(xí),其中使用訓(xùn)練數(shù)據(jù)來基于對從訓(xùn)練數(shù)據(jù)中提取的將惡意帳戶與良性帳戶區(qū)分開的特征集的標(biāo)識學(xué)習(xí)分類模型,該區(qū)分至少基于訓(xùn)練數(shù)據(jù)中所包括的電子郵件地址的可記性。第二階段是使用分類模型來確定傳入帳戶是否是惡意的。這兩個階段可以按順序操作或者以其中收集附加數(shù)據(jù)以便增量式地訓(xùn)練分類模型的交錯方式操作。例如,帳戶的地面真值與分類模型自動確定的結(jié)果進行比較,并且隨后用于訓(xùn)練分類模型。帳戶的這一地面真值可根據(jù)發(fā)現(xiàn)帳戶是惡意還是良性的一個或多個在線交易的結(jié)果來確定。例如,與帳戶相關(guān)聯(lián)的信用卡被銀行拒絕。帳戶的這一地面真值還可由諸如一個人等評審者來確定。
[0017]圖1示出了確定帳戶102是惡意的可能性的示例場景100。帳戶102與電子郵件地址104和附加信息106相關(guān)聯(lián)。用戶108使用客戶機設(shè)備110來經(jīng)由網(wǎng)絡(luò)114向計算系統(tǒng)116發(fā)送對諸如在線支付或帳戶注冊(未示出)等服務(wù)的請求112。請求112與帳戶102相關(guān)聯(lián)并且可包括帳戶102的信息,諸如電子郵件地址104和附加信息106。帳戶102及其相關(guān)聯(lián)的電子郵件地址104可用作對請求112或用戶108的標(biāo)識。在服務(wù)對用戶108可用之前,計算系統(tǒng)116至少部分地基于電子郵件地址104的可記性程度來確定帳戶102是惡意的可能性??捎浶灾傅氖且粋€人記住電子郵件地址104的容易度。計算系統(tǒng)116還可向客戶機設(shè)備110發(fā)送消息118以通知確定結(jié)果。如果帳戶102被認(rèn)為是良性的,則服務(wù)將被提供給用戶108。否則,將拒給服務(wù)并拒絕請求112。
[0018]計算系統(tǒng)116還可使用與電子郵件地址104相關(guān)聯(lián)的附加特征來確定帳戶102是惡意的可能性,諸如電子郵件地址104的域以及與帳戶102的附加信息106(諸如電話號碼、用戶名、地址等)相關(guān)聯(lián)的特征。這一附加信息106可以與帳戶102相關(guān)聯(lián)并且被包括在請求112中,如圖1所示?;蛘?,附加信息106可由計算系統(tǒng)116通過一個或多個本地和遠(yuǎn)程數(shù)據(jù)庫或在因特網(wǎng)上進行搜索、獲取和檢查。例如,計算系統(tǒng)116可將電子郵件地址104用作搜索附加信息106的關(guān)鍵字。
[0019]計算系統(tǒng)116包括一個或多個處理器120以及存儲器122??蓪⑷魏螖?shù)量的程序模塊、應(yīng)用程序或組件存儲在存儲器中,包括作為示例的操作系統(tǒng)、一個或多個應(yīng)用程序、其他程序模塊、程序數(shù)據(jù)、計算機可執(zhí)行指令。在圖1的示例中,存在存儲在存儲器122上的多個模塊。這些模塊可包括接收模塊124、訓(xùn)練模塊126、分類模型128、確定模塊130和響應(yīng)模塊132。
[0020]接收模塊124接收與帳戶102相關(guān)聯(lián)的請求112,該請求包含與帳戶102相關(guān)聯(lián)的電子郵件地址104和/或附加信息106 (如果有的話)。
[0021]訓(xùn)練模塊126使用一個或多個標(biāo)簽數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來基于將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征學(xué)習(xí)分類模型128。例如,標(biāo)簽數(shù)據(jù)可包括來自諸如數(shù)據(jù)庫等一個或多個數(shù)據(jù)源的已經(jīng)被標(biāo)記為惡意或良性帳戶的多個帳戶。訓(xùn)練模塊126分析與來自標(biāo)簽數(shù)據(jù)的帳戶相關(guān)聯(lián)的電子郵件地址和附加信息,從該電子郵件地址和/或附加信息中提取將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征。這些特征可包括確定電子郵件地址的可記性的一個或多個特征。
[0022]在一些實施例中,該一個或多個特征可基于電子郵件地址的域。在其他實施例中,該一個或多個特征可基于電子郵件地址與附加信息中的姓名、地址、電話號碼等的相關(guān)性。在還有一些其他實施例中,該一個或多個特征可以部分地基于附加信息,例如姓名、地址或電話號碼的有效性、帳戶名和在線交易中所使用的信用卡的名稱之間的相關(guān)性。訓(xùn)練模塊126通過使用一種或多種機器學(xué)習(xí)方法基于所獲取的特征來學(xué)習(xí)分類模型128。例如,該一種或多種學(xué)習(xí)方法包括支持向量機(SVM)。訓(xùn)練模塊126可以基于新數(shù)據(jù)來持續(xù)訓(xùn)練分類模型128。
[0023]分類模型128包括將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征。分類模型128還可包括特征的格式、確定與特定電子郵件地址和/或附加信息相關(guān)聯(lián)的帳戶是良性的還是惡意的每一個特征的對應(yīng)閾值、以及在確定相應(yīng)帳戶是惡意時的每一個特征或特征的函數(shù)的權(quán)重。
[0024]確定模塊130使用分類模型128來確定指示帳戶102有多少可能是惡意的分?jǐn)?shù)。例如,確定模塊128可根據(jù)分類模型128所需的預(yù)設(shè)格式來從電子郵件地址104和附加信息106中解析并提取特征,將分類模型128應(yīng)用于帳戶102的特征,并且確定指示帳戶102有多少可能是惡意的分?jǐn)?shù)。存在各種確定方法。例如,計算系統(tǒng)116可基于從電子郵件地址104和/或附加信息106中提取的各種特征值來計算指示帳戶102是惡意的可能性的分?jǐn)?shù)。如果分?jǐn)?shù)高于預(yù)設(shè)閾值,則帳戶102被認(rèn)為是惡意帳戶并且計算系統(tǒng)116拒絕用戶108所請求的服務(wù)。如果分?jǐn)?shù)低于相同或不同的預(yù)設(shè)閾值,則帳戶102被認(rèn)為是良性帳戶并且計算系統(tǒng)116提供所請求的服務(wù)。或者,一個或多個特征可被設(shè)為決定性測試。如果帳戶102的這些特征的特征值在一個或多個預(yù)設(shè)范圍內(nèi)或者無法滿足決定性測試的一個或多個閾值,則帳戶102被確定為是惡意的,而不管其他特征的特征值如何。例如,如果電子郵件地址104的域或者與帳戶102相關(guān)聯(lián)的附加信息116在一個或多個黑名單(未示出)中列出,則帳戶102被認(rèn)為是惡意的。
[0025]響應(yīng)模塊132將包括確定模塊130的結(jié)果的消息118返回給客戶機設(shè)備110。
[0026]在各個實施例中,計算系統(tǒng)116可具有不同的配置和模塊。在另一實施例(圖1未示出)中,計算系統(tǒng)116可以不需要分析標(biāo)簽數(shù)據(jù)并且可以不具有訓(xùn)練模塊126。分類模型128可以預(yù)先配置有已經(jīng)預(yù)先存儲在計算系統(tǒng)116處的特征。
[0027]存儲器122可包括易失性存儲器、非易失性存儲器、可移動存儲器、不可移動存儲器、和/或上述存儲器的任何組合。一般而言,存儲器122包含可由一個或多個處理器120訪問并執(zhí)行的計算機可執(zhí)行指令。存儲器122是計算機可讀存儲介質(zhì)的示例。計算機可讀介質(zhì)包括至少兩種類型的計算機可讀介質(zhì),即計算機存儲介質(zhì)和通信介質(zhì)。
[0028]計算機存儲介質(zhì)包括以用于存儲如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術(shù)實現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括但不限于,相變存儲器(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、閃存或其他存儲器技術(shù)、光盤只讀存儲器(⑶-ROM)、數(shù)字多功能盤(DVD)或其它光存儲、磁帶盒、磁帶、磁盤存儲或其它磁存儲設(shè)備、或可用于存儲由計算設(shè)備訪問的信息的任何其他非傳輸介質(zhì)。
[0029]相反,通信介質(zhì)可在諸如載波之類的已調(diào)制數(shù)據(jù)信號或其他傳輸機制中體現(xiàn)計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)。如本文所定義的,計算機存儲介質(zhì)不包括通信介質(zhì)。
[0030]計算系統(tǒng)116可以是與提供在線服務(wù)相同的計算系統(tǒng)或獨立于該計算系統(tǒng)。在一些實施例中,計算系統(tǒng)116還可將請求112中繼到另一計算系統(tǒng)(未示出)以確定帳戶102是惡意的可能性。
[0031]計算系統(tǒng)116僅是一個示例,而非旨在對計算機和網(wǎng)絡(luò)體系結(jié)構(gòu)的使用范圍或功能提出任何限制。出于方便描述起見,以上系統(tǒng)在功能上被劃分成分開地描述的各個模塊。當(dāng)實現(xiàn)所公開的系統(tǒng)時,各個模塊的功能可在軟件和/或硬件的一個或多個示例中實現(xiàn)。
[0032]客戶機設(shè)備110或計算系統(tǒng)116可在通用或?qū)S糜嬎銠C系統(tǒng)的環(huán)境或配置中使用。客戶機設(shè)備I1或計算系統(tǒng)116的示例包括個人計算機、服務(wù)器計算機、手持式設(shè)備或便攜式設(shè)備、平板設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費電子設(shè)備、網(wǎng)絡(luò)PC、以及包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境。
[0033]在分布式計算環(huán)境中,任務(wù)由通過通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備來執(zhí)行。在分布式計算環(huán)境中,各模塊可位于本地和遠(yuǎn)程計算機的計算機存儲介質(zhì)(其包括數(shù)據(jù)存儲設(shè)備)中。例如,諸如接收模塊124、訓(xùn)練模塊126、分類模塊128、確定模塊130和響應(yīng)模塊132等上述模塊中的部分或全部可以位于存儲器122的不同位置。一些模塊可以是分開的系統(tǒng),且其處理結(jié)果可由計算系統(tǒng)116來使用。
[0034]用于執(zhí)行本文中所描述的技術(shù)的示例性方法在以下進行詳細(xì)描述??梢栽谟嬎銠C可執(zhí)行的指令的一般上下文中描述這些示例性方法。一般而言,計算機可執(zhí)行指令可以包括執(zhí)行特定功能或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)、過程、模塊、功能等等。這些方法還能在其中功能由通過通信網(wǎng)絡(luò)或通信云鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的分布式計算環(huán)境中實現(xiàn)。在分布式計算環(huán)境中,計算機可執(zhí)行指令可位于本地和遠(yuǎn)程存儲器兩者中。
[0035]為方便起見,以下在圖1的計算系統(tǒng)116和環(huán)境的上下文中描述各方法。然而,方法不限于此環(huán)境中的實現(xiàn)。
[0036]這些示例性方法被示出為邏輯流程圖中框的集合,這表示可用硬件、軟件、固件、或其組合來實現(xiàn)的一系列操作。除非另外明確指明,否則描述方法的次序并不旨在被解釋為限制,并且任意數(shù)量的所描述的方法框可以按任何次序組合以實現(xiàn)這些方法或替換方法。另外,可從方法中省去各個操作,而不背離此處所述的主題的精神和范圍。在軟件上下文中,各個框表示當(dāng)由一個或多個處理器執(zhí)行時完成既定操作的計算機指令。
[0037]圖2示出了基于與帳戶102相關(guān)聯(lián)的電子郵件地址104和/或附加信息106的一個或多個特征來確定帳戶102是否是惡意的示例方法的流程圖。
[0038]在202,計算系統(tǒng)116接收帳戶102以及與帳戶102相關(guān)聯(lián)的信息,包括其電子郵件地址104和/或附加信息106。在204,計算系統(tǒng)116從諸如與帳戶102相關(guān)聯(lián)的電子郵件地址104和附加信息106等信息中提取特征。在206,計算系統(tǒng)116基于所提取的特征的值來確定帳戶102的信任級別。
[0039]例如,計算系統(tǒng)116可根據(jù)確定電子郵件地址104的可記性程度的一個或多個特征來解析電子郵件地址104,并且獲取電子郵件地址104的對應(yīng)特征值。該一個或多個特征可包括關(guān)于有意義的串的特征、關(guān)于可發(fā)音的串的特征、關(guān)于數(shù)字的長度及其在電子郵件地址中的位置的特征、關(guān)于包括電子郵件地址中的相鄰串或均勻間隔的字符的對稱性或非對稱性的模式的特征。計算系統(tǒng)116可基于對應(yīng)的特征值來計算電子郵件地址104的可記性程度。計算系統(tǒng)116還可轉(zhuǎn)換一個或多個字符或數(shù)字以根據(jù)預(yù)設(shè)規(guī)則來查找有意義的串。例如,電子郵件地址104中的數(shù)字“2”可被視作字符“to”。一些示例特征和轉(zhuǎn)換規(guī)則在下文中詳細(xì)列出。
[0040]作為另一示例,計算系統(tǒng)116還可根據(jù)關(guān)于電子郵件地址104的域、電子郵件地址104與諸如姓名、地址、電話號碼等附加信息106中的數(shù)據(jù)的相關(guān)性的一個或多個特征來解析電子郵件地址104。計算系統(tǒng)116可根據(jù)關(guān)于姓名、地址、電話號碼的有效性的一個或多個特征來解析附加信息106,并且檢查帳戶102的附加信息106與在線交易中所使用的信用卡的對應(yīng)信息之間的相關(guān)性。例如,在諸如信用卡被銀行拒絕等信用卡被確定為無效或惡意信用卡、并且附加信息106中的一個或多個匹配信用卡的對應(yīng)信息的情況下,帳戶102可被確定為是惡意的。
[0041]特征可被預(yù)先存儲在計算系統(tǒng)116處或者可由計算系統(tǒng)116通過標(biāo)簽數(shù)據(jù)從一個或多個源中以批量方式或漸進方式習(xí)得。例如,計算系統(tǒng)116可分析來自一個或多個源的多個標(biāo)簽帳戶及其相關(guān)聯(lián)的電子郵件地址和/或附加信息。每一個標(biāo)簽帳戶都指示相應(yīng)的標(biāo)簽帳戶是惡意帳戶還是良性帳戶。計算系統(tǒng)116可通過使用諸如SVM等一種或多種機器學(xué)習(xí)方法來學(xué)習(xí)將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征。將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征可至少部分地基于電子郵件地址的可記性來從與帳戶相關(guān)聯(lián)的電子郵件地址中提取。該一個或多個特征還可基于諸如電子郵件地址的域、電子郵件地址與附加信息106中的數(shù)據(jù)的相關(guān)性等電子郵件地址的其他信息來從電子郵件地址中提取。另外,該一個或多個特征可以從附加信息106中提取。計算系統(tǒng)116基于所獲取的特征來獲取分類模型128 ;并且使用分類模型128來計算指示帳戶是惡意的可能性的分?jǐn)?shù)。
[0042]在206,計算系統(tǒng)116可以至少部分地基于所確定的與帳戶102相關(guān)聯(lián)的電子郵件地址104的可記性程度來確定帳戶102的信任級別。在一個實施例中,計算系統(tǒng)116可基于計算出的電子郵件地址104的可記性程度來確定分?jǐn)?shù)。如果計算出的分?jǐn)?shù)高于預(yù)設(shè)閾值,則計算系統(tǒng)116確定帳戶102是惡意的。如果計算出的分?jǐn)?shù)低于預(yù)設(shè)閾值,則計算系統(tǒng)116確定帳戶102是良性的。
[0043]在另一實施例中,除了與帳戶102相關(guān)聯(lián)的電子郵件地址的可記性程度之外,計算系統(tǒng)116還可通過考慮電子郵件地址104的其他特征來確定帳戶102是惡意的可能性。例如,計算系統(tǒng)116可獲取電子郵件地址104的域、電子郵件地址104與諸如用戶名、電話號碼和地址等帳戶102的附加信息106的相關(guān)性。在又一實施例中,計算系統(tǒng)116還可通過考慮來自帳戶102的附加信息106的一個或多個特征來確定帳戶102是惡意的可能性。例如,計算系統(tǒng)116可確定關(guān)聯(lián)于帳戶102的姓名與真實姓名的距離、地址與有效地址的距離、電話和地址的相關(guān)性、與帳戶相關(guān)聯(lián)的姓名、地址和電話與在關(guān)聯(lián)于帳戶102的一個或多個在線交易中使用的信用卡的相關(guān)性。這些附加信息106可在先前,諸如在注冊帳戶時或在請求112中,由用戶108提供并與電子郵件地址104 —起發(fā)送到計算系統(tǒng)116?;蛘撸嬎阆到y(tǒng)116可使用一些搜索技術(shù)來將帳戶102和/或電子郵件地址104用作在線或從一個或多個數(shù)據(jù)庫搜索的關(guān)鍵字以查找與帳戶102相關(guān)聯(lián)的附加信息106。計算系統(tǒng)116可接收并使用一些搜索技術(shù)以查找用于從電子郵件地址104和/或附加信息106中提取特征的信息。
[0044]計算系統(tǒng)106可以分別計算電子郵件地址104的域和附加信息106的信任級別。
[0045]例如,計算系統(tǒng)106可存儲四個列表以確定并記錄域的信任級別,包括域的白名單、域的黑名單、域的良性列表以及域的惡意列表。這些列表可以是預(yù)設(shè)的或者基于對包括標(biāo)簽數(shù)據(jù)和持續(xù)傳入的新標(biāo)簽數(shù)據(jù)的統(tǒng)計或計算。在一些實施例中,計算系統(tǒng)106可以只存儲四個列表中的一個或多個。
[0046]計算系統(tǒng)106可以對相應(yīng)域與在訓(xùn)練數(shù)據(jù)中被標(biāo)記為良性的帳戶和/或被標(biāo)記為惡意的帳戶相關(guān)聯(lián)的次數(shù)進行計數(shù),并基于這些計數(shù)來計算相應(yīng)域的信任級別。或者,計算系統(tǒng)106可分別計算相應(yīng)域與良性帳戶相關(guān)聯(lián)的信任級別以及相應(yīng)域與惡意帳戶相關(guān)聯(lián)的任級別。
[0047]域的白名單列出被假定為與良性帳戶相關(guān)聯(lián)的域。例如,域的白名單可包括預(yù)設(shè)在該白名單中的受信任的公司、學(xué)?;驒C構(gòu)的域。作為另一示例,域的白名單還可包括其信任級別被計算成高于閾值(諸如100%或99%)的域。換言之,至少有99%或100%的概率這些域是可信任的并且與良性帳戶相關(guān)聯(lián)。
[0048]域的黑名單列出被假定為與惡意帳戶相關(guān)聯(lián)的域。例如,域的黑名單可包括預(yù)設(shè)在黑名單中的攻擊者的域。作為另一示例,域的黑名單還可包括其信任級別被計算成低于閾值(諸如0%或1% )的域。換言之,只有0%或I %的概率這些域是可信任的并因此有100%或99%的概率與惡意帳戶相關(guān)聯(lián)。
[0049]如果基于當(dāng)前訓(xùn)練數(shù)據(jù)的相應(yīng)域的信任級別不足以在黑名單或白名單中列出相應(yīng)域,則相應(yīng)域可以在域的良性列表或域的惡意列表中列出。域的良性列表可包括相應(yīng)域以及與通過分析訓(xùn)練數(shù)據(jù)而被標(biāo)記為良性的帳戶相關(guān)聯(lián)的這一域的不同電子郵件地址的計數(shù)。良性列表還可包括相應(yīng)域與通過基于這些計數(shù)計算而被標(biāo)記為良性的帳戶相關(guān)聯(lián)的信任級別。域的惡意列表可包括相應(yīng)域以及與通過分析訓(xùn)練數(shù)據(jù)而被標(biāo)記為惡意的帳戶相關(guān)聯(lián)的這一域的不同電子郵件地址的計數(shù)。惡意列表還可包括通過基于這些計數(shù)的計算相應(yīng)域與惡意帳戶相關(guān)聯(lián)的信任級別。
[0050]在一個實施例中,域的良性列表和域的惡意列表并非互斥的。域可以在域的良性列表和域的惡意列表中列出。相應(yīng)域與良性帳戶相關(guān)聯(lián)的信任級別或概率以及該域與惡意帳戶相關(guān)聯(lián)的信任級別或概率可以累加至等于I或100%。例如,在為相應(yīng)域收集足夠的標(biāo)簽數(shù)據(jù)后,計算相應(yīng)域與良性帳戶相關(guān)聯(lián)的信任級別的公式可以是該相應(yīng)域與被標(biāo)記為良性的帳戶相關(guān)聯(lián)的次數(shù)除以該相應(yīng)域與訓(xùn)練數(shù)據(jù)中的所有帳戶(包括被標(biāo)記為良性的帳戶和被標(biāo)記為惡意的帳戶)相關(guān)聯(lián)的總次數(shù)。在為相應(yīng)域收集足夠的標(biāo)簽數(shù)據(jù)后,計算相應(yīng)域與惡意帳戶相關(guān)聯(lián)的信任級別的公式可以是該相應(yīng)域與被標(biāo)記為惡意的帳戶相關(guān)聯(lián)的次數(shù)除以該相應(yīng)域與訓(xùn)練數(shù)據(jù)中的所有帳戶(包括被標(biāo)記為良性的帳戶和被標(biāo)記為惡意的帳戶)相關(guān)聯(lián)的總次數(shù)。例如,這一足量可基于已經(jīng)為相應(yīng)域收集并分析了的標(biāo)簽數(shù)據(jù)的閾值數(shù)量。
[0051]隨著相應(yīng)域的信任級別的改變,這一域可以在一段時間內(nèi)在不同的列表中列出。
[0052]計算系統(tǒng)116可以將電子郵件地址104的域與白名單和/或黑名單中的那些域進行比較以進一步確定與電子郵件地址104相關(guān)聯(lián)的帳戶102是否是惡意的。例如,即使計算出的電子郵件地址104的可記性程度高于閾值,即電子郵件地址被確定為是人類容易記住的,計算系統(tǒng)116仍舊可以在電子郵件地址104的任一域在黑名單中找到的情況下確定與電子郵件地址104相關(guān)聯(lián)的帳戶102是惡意的。計算系統(tǒng)116還可檢查域的良性列表和/或域的惡意列表以獲取該域的信任級別。
[0053]計算系統(tǒng)116可存儲附加信息的附加列表以估算電子郵件地址的域的信任級別。例如,類似于域的四個列表,計算系統(tǒng)116還可存儲四個列表以確定并記錄附加信息的信任級別,包括附加信息的白名單、附加信息的黑名單、附加信息的良性列表以及附加信息的惡意列表。由于附加信息可包括與帳戶相關(guān)聯(lián)的多個項目,諸如姓名、電話號碼、物理地址、請求源的IP地址等,因此計算系統(tǒng)116可以為每一附加信息存儲這四個列表,諸如電話號碼的白名單、電話號碼的黑名單、電話號碼的良性列表以及電話號碼的惡意列表。在一些實施例中,計算系統(tǒng)116可以只存儲這四個列表中的一個或多個。計算系統(tǒng)116還可以只為諸如姓名和電話號碼等附加信息中的某些項目存儲列表。
[0054]類似于以上針對域描述的四個列表,附加信息的白名單列出被假定為與良性帳戶相關(guān)聯(lián)的附加信息。域的黑名單列出被假定為與惡意帳戶相關(guān)聯(lián)的附加信息。如果基于當(dāng)前訓(xùn)練數(shù)據(jù)的相應(yīng)附加信息的信任級別不足以在黑名單或白名單中列出相應(yīng)域,則相應(yīng)域可以在附加信息的良性列表或附加信息的惡意列表中列出。附加信息的良性列表可包括相應(yīng)附加信息以及與通過分析訓(xùn)練數(shù)據(jù)而被標(biāo)記為良性的帳戶相關(guān)聯(lián)的這一附加信息的計數(shù)。良性列表還可包括通過基于這些計數(shù)的計算相應(yīng)附加信息與良性帳戶相關(guān)聯(lián)的信任級另IJ。附加信息的惡意列表可包括相應(yīng)附加信息以及與通過分析訓(xùn)練數(shù)據(jù)而被標(biāo)記為惡意的帳戶相關(guān)聯(lián)的這一附加信息的計數(shù)。惡意列表還可包括通過基于這些計數(shù)的計算相應(yīng)附加信息與惡意帳戶相關(guān)聯(lián)的信任級別。
[0055]域和/或相應(yīng)附加信息的這樣的白名單、黑名單、良性列表和/或惡意列表可以從一個或多個源獲取或手動輸入。這些惡意列表或良性列表可以通過解析和分析訓(xùn)練數(shù)據(jù)來導(dǎo)出。另選地或另外地,這樣的惡意列表或良性列表可以從單獨的源獲取,諸如一數(shù)據(jù)庫獨立收集和維護與帳戶相關(guān)聯(lián)的惡意或良性域和/或附加信息。
[0056]圖3示出了標(biāo)識特征并生成分類模型128以確定帳戶102的信任級別的機器學(xué)習(xí)技術(shù)的示例方法300的流程圖。在一個實施例中,可以存在獲取分類模型的兩個階段。
[0057]在302,計算系統(tǒng)116使用一個或多個標(biāo)簽數(shù)據(jù)基于將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征來學(xué)習(xí)或構(gòu)建分類模型128。該一個或多個標(biāo)簽數(shù)據(jù)充當(dāng)訓(xùn)練數(shù)據(jù),包括與電子郵件地址以及來自諸如惡意帳戶數(shù)據(jù)庫和良性帳戶數(shù)據(jù)庫等一個或多個源的可能的附加信息相關(guān)聯(lián)的多個標(biāo)簽帳戶。標(biāo)簽數(shù)據(jù)中的每一個帳戶都被標(biāo)記為惡意或良性。
[0058]在304,計算系統(tǒng)116使用分類模型來確定帳戶102的信任級別。在一些實施例中,如果計算出的信任級別大于預(yù)設(shè)閾值,則帳戶102被確定為是良性的。另一方面,如果計算出的帳戶的信任級別小于可以與先前的預(yù)設(shè)閾值相同或不同的預(yù)設(shè)閾值,則該帳戶被確定為是惡意的。
[0059]302和304處的操作可以按順序執(zhí)行。例如,在對標(biāo)簽數(shù)據(jù)進行批量學(xué)習(xí)時,獲取分類模型128并使用該模型來對電子郵件地址104進行分類。
[0060]或者,302和304處的操作可以按交錯方式操作,并且用在線學(xué)習(xí)的結(jié)果來改進分類模型128。除了標(biāo)簽數(shù)據(jù)之外,使用諸如新的標(biāo)簽傳入帳戶(如帳戶102)等附加數(shù)據(jù)來增量式地訓(xùn)練分類模型128,同時使用分類模型128來對帳戶進行在線分類。例如,可獲取帳戶102的地面真值并將其與分類模型128所確定的結(jié)果進行比較。如果該地面真值與結(jié)果一致,則證明分類模型128及其所包括的特征成立。如果地面真值與結(jié)果不一致,則證明分類模型128不成立??墒褂眯碌臉?biāo)簽帳戶和/或先前確定的帳戶的反饋地面真值來增量式地訓(xùn)練分類模型128并由此用新訓(xùn)練數(shù)據(jù)來持續(xù)改進分類模型128。例如,帳戶102的地面真值可以是由人類手動評審以確定帳戶102是惡意的還是良性的結(jié)果。
[0061]計算系統(tǒng)116可使用一種或多種機器學(xué)習(xí)技術(shù)來學(xué)習(xí)分類模型。例如,機器學(xué)習(xí)技術(shù)可包括支持向量機(SVM)。可應(yīng)用諸如多項式或高斯徑向基函數(shù)等線性和非線性SVM。
[0062]圖4示出了持續(xù)訓(xùn)練分類模型128的機器學(xué)習(xí)技術(shù)的示例方法400的流程圖。
[0063]在402,接收來自一個或多個源的多個標(biāo)簽帳戶。每一個標(biāo)簽帳戶都指示相應(yīng)的標(biāo)簽帳戶是惡意帳戶還是良性帳戶。每一個帳戶都可以與電子郵件地址和/或附加信息相關(guān)聯(lián)。
[0064]在404,從多個標(biāo)簽帳戶中提取用于將惡意帳戶與良性帳戶區(qū)分開的一個或多個特征。例如,計算系統(tǒng)116可以從與帳戶相關(guān)聯(lián)的電子郵件地址和/或附加信息中提取一個或多個特征。計算系統(tǒng)116可使用帳戶的一個或多個特征和標(biāo)簽結(jié)果通過采用一種或多種機器學(xué)習(xí)方法來學(xué)習(xí)分類模型128。例如,計算系統(tǒng)116可使用SVM來產(chǎn)生或構(gòu)建分類模型128。計算系統(tǒng)116從帳戶中提取的一些特征可以與電子郵件地址的可記性相關(guān)。其他特征可基于電子郵件地址的域和/或關(guān)于電子郵件地址與關(guān)聯(lián)于同一帳戶的附加信息的相關(guān)性。另外,計算系統(tǒng)116從帳戶中提取的特征可以基于附加信息。例如,一些特征可基于姓名、地址、電話號碼的有效性,以及帳戶信息與一個或多個在線交易中所使用的信用卡的信息的相關(guān)性。另外,計算系統(tǒng)116還可以在確定帳戶的信任級別時修改每一個特征的閾值。
[0065]在406,通過使用一種或多種機器學(xué)習(xí)技術(shù)基于帳戶的所提取的特征和標(biāo)簽結(jié)果來學(xué)習(xí)或構(gòu)建分類模型128。例如,在406可使用SVM來產(chǎn)生分類模型128。
[0066]在408,使用分類模型128來確定帳戶102的信任級別。在一些實施例中,將計算出的信任級別與一個或多個閾值進行比較以確定帳戶102是惡意的、良性的、還是不確定。
[0067]在410,將分類模型128所確定的結(jié)果與地面真值進行比較以改進分類模型128。例如,可以將帳戶的地面真值與分類模型128所確定的結(jié)果進行比較以增量式地訓(xùn)練分類模型128以使得分類模型128得到改進。如果該地面真值與結(jié)果一致,則證明分類模型128及其所包括的特征成立。如果地面真值與結(jié)果不一致,則證明分類模型128不成立。
[0068]在412,接收新標(biāo)簽數(shù)據(jù)并且用新標(biāo)簽帳戶來增量式地使分類模型128自適應(yīng)。新標(biāo)簽數(shù)據(jù)可以是新傳入的標(biāo)簽數(shù)據(jù)或具有標(biāo)簽改變的先前標(biāo)簽的數(shù)據(jù),諸如先前標(biāo)簽的惡意帳戶被標(biāo)記為良性以及相反。例如,新標(biāo)簽帳戶可被應(yīng)用于增量式地訓(xùn)練分類模型128以適應(yīng)或跟蹤帳戶的改變。計算系統(tǒng)116可以繼續(xù)接收新傳入的標(biāo)簽數(shù)據(jù)并使分類模型128自適應(yīng)。
[0069]以下列出了與電子郵件地址104的可記性相關(guān)的一些示例性特征。這些特征中的一個或多個可由計算系統(tǒng)116從與帳戶102相關(guān)聯(lián)的電子郵件地址104中提取。以下示例特征中的每一個對帳戶的最終計算出的信任級別的貢獻可由分類模型128確定。例如,在確定信任級別時,特征及其相應(yīng)權(quán)重在一段時間內(nèi)可以是相同或不同的,并且可以從訓(xùn)練中添加、刪除或修改特征及其相應(yīng)權(quán)重,包括改進分類模型128或使其自適應(yīng),如上所述。
[0070]m_EmaiIAccountLength(m_電子郵件帳戶長度)。該特征表示電子郵件帳戶中在電子郵件地址中的符號“O”之前的字符的數(shù)量。在符號“O”后的是電子郵件地址的域。對于電子郵件地址 xuefei0917@gmail.com 的不例,其 m_EmaiIAccountLength 是 10。該域是 gmail.com。對于電子郵件地址 fkajklfa8971 jf jlajfqiuOgmail.com 的不例,其 m_EmaiIAccountLength是22,該電子郵件地址難以記住并且可能與惡意帳戶相關(guān)聯(lián)。例如,在該數(shù)字較大的情況下,電子郵件地址可能由機器創(chuàng)建,并由此該帳戶可能是可疑的。該特征對最終計算出的帳戶的信任級別的貢獻由分類模型128確定。
[0071]m_NumberMemorableLength(m_ 可記數(shù)字長度)。該特征表不諸如 19870919、123456,135531等包括日期、重復(fù)字符和對稱性的可記數(shù)字的總數(shù)。對于電子郵件地址 zsf58923igmail.com 的不例,其 m_NumberMemorabIeLength 是 O,因為 “58923” 看上去不可記。在一個示例中,諸如日期、對稱性、重復(fù)等數(shù)字可被認(rèn)為是可作為一個整體來記住的(即,100%可記)。對于電子郵件地址zsfl23321@gmail.com的示例,其m_NumberMemorableLength是6,該特征描述“ 123321 ”。注意,“123321”是對稱的。在另一示例中,具有對稱性的數(shù)字可被認(rèn)為是部分可記的。對于數(shù)字串“ 378873 ”,最后三個數(shù)字可以從前三個數(shù)字導(dǎo)出,并由此假定記住最后三個數(shù)字是不費力的。但人們可能仍舊需要記住前三個數(shù)字,因為它們看上去是無意義的(并由此需要努力記住)。因此,該數(shù)字串被認(rèn)為是3個可記數(shù)字和3個不可記數(shù)字,即50%可記。對于上述相同示例,如果附加信息106中的地址包含例如378(378是地址的郵政編碼的一部分),則這三個數(shù)字也被認(rèn)為是可記的,并且在這種情況下電子郵件地址包含6個可記數(shù)字。在可記數(shù)字的數(shù)量或百分比較低的情況下,電子郵件可能往往由機器生成,并且相關(guān)聯(lián)的帳戶可能是可疑的。
[0072]m—NumberofLetterStrings (m_字母串的數(shù)量)。該特征表示包括字母的單獨串的數(shù)量。對于電子郵件地址xuefei0917@gmail.com的不例,其m—NumberofLetterStrings是 I。對于電子郵件地址 xf0917zww@gmail.com 的不例,其 m—NumberofLetterStrings是2,即“xf ”和“zwww”。對于電子郵件地址f7fal8foa@gmail.com的不例,其m—NumberofLetterStrings是3,即“f ”、“fa”和“foa”。例如,在該數(shù)字較大的情況下,與電子郵件地址相關(guān)聯(lián)的帳戶可能是可疑的。
[0073]m—NumofMemorab I e (m_可記數(shù))。該特征表示諸如單詞、姓名等包括字母的可記子串的數(shù)量。對于xuefei0917@gmail.com的不例,其m—NumofMemorable是2,因為“xue”和“fei”兩者作為漢語拼音都是可記的。對于nicholas@gmail.com的示例,其m—NumofMemorable是1,因為它包括一個英文名“Nicholas”。對于電子郵件地址gkjhgfhja@163.com的示例,其m—NumofMemorable是0,因為在該電子郵件地址中未檢測到單詞。例如,在該數(shù)字較大的情況下,與該電子郵件地址相關(guān)聯(lián)的帳戶可能是可疑的。
[0074]m—LengthofMemorable (m—可記長度)。該特征表示包括字母的可記子串中的字符總數(shù)。對于電子郵件地址xuefei0917@gmail.com的不例,其m—LengthofMemorable是6,因為兩個可記字母串“xue”和“fei”中的字符總數(shù)是6。對于電子郵件地址nicholas.zxy@gmail.com的不例,其m—LengthofMemorable是8,因為可記字母串“Nicholas”中的字符數(shù)是8。例如,在該數(shù)字較大的情況下,與該電子郵件地址相關(guān)聯(lián)的帳戶可能是可疑的。
[0075]m—MemorableRate (m—可記率)。該特征表示可記率,其被測量為可記字母串中的字符總數(shù)除以電子郵件帳戶中在符號@之前的字符總數(shù)。對于電子郵件地址xuefei0917@gmail.com的示例,其m—MemorableRate是1.0,因為整個字母串是可記的。對于電子郵件地址 nicholas.zxy@gmail.com 的不例,其 m—MemorableRate 是 0.727 (即,8/11),因為可記字母串中的字符總數(shù)是8,而字符總數(shù)是11。對于電子郵件地址gkjhgfhja@163.com的示例,其m—MemorableRate是0,因為在該電子郵件地址中不存在可記字母串。例如,在該數(shù)字較小的情況下,與電子郵件地址相關(guān)聯(lián)的帳戶可能是可疑的。
[0076]m_FrontMemorabIeConfidenceLeveI (m_開頭可記置信度水平)。該特征表示范圍為從O到I的以可記串開始的電子郵件帳戶的置信度水平。詳細(xì)的計算方法可以變化。對于電子郵件地址 xuefei0917@gmail.com 的不例,其 m—FrontMemorableConfidenceLevel 為高,諸如0.9,因為“xue”被判斷為開頭位置處的可記串。對于電子郵件地址lijffs09@gmail.com 的不例,其 m—FrontMemorableConfidenceLevel 相對不確定,諸如 0.5,因為起始子串“l(fā)i”被判斷為具有0.5的概率是可記串。例如,在該數(shù)字較小的情況下,與該電子郵件地址相關(guān)聯(lián)的帳戶可能是可疑的。
[0077]m_EndMemorab I eConfidenceLeve I (m_末尾可記置信度水平)。該特征表示范圍為從O到I的以可記串結(jié)尾的電子郵件帳戶的置信度水平。該特征可以不考慮電子郵件地址的末尾的任何數(shù)字。對于電子郵件地址xuefei0917@gmail.com的示例,其m—EndMemorab I eConfidenceLeve I為高,諸如0.9,因為“fei ”被判斷為末尾位置處的合理字母串O
[0078]m_MaxLengthof Memorab I e (m_可記最大長度)。該特征表不最長可記字母子串中的字符數(shù)。對于電子郵件地址nicholas21eo2ben@gmail.com的示例,其m—MaxLengthofMemorabIe是8,因為最長可記字母串是“nicholas”,其具有8個字符。
[0079]m_Di stanceBetweenMemorabIe (m_可記之間的距離)。該特征表不兩個可記子串之間的最大距離。對于電子郵件地址xuefei0917@gmail.com的示例,其m_DistanceBetweenMemorable是O,因為在兩個可記子串“xue”和“fei”之間什么也沒有。對于 jobghjfsdfhtownOgmail.com 的不例,其m_DistanceBetweenMemorbale 是從單詞“word”到“town”的8。例如,在該數(shù)字較大的情況下,與該電子郵件地址相關(guān)聯(lián)的帳戶可能是可疑的。
[0080]m_MaxNonmemorableLength(m_最大不可記長度)。該特征表示最長不可記字母串中的字符數(shù)。該特征與前一特征的不同之處在于考慮所有不可記串,而前一特征m_DistanceBetweenMemorable只考慮可記串之間的不可記串。對于電子郵件地址 xuefei0917@gmail.com 的不例,其 m_MaxNonmemorabIeLength 是 O,因為字母串“xue”和“fei”兩者都是可記的。對于xuefeihhfg0917igmail.com的不例,其m_MaxNonmemorableLength是對應(yīng)于無意義字母串“hhfg”的4。對于電子郵件地址ghfiafsdkOgmail.com 的不例,其 m_MaxNonmemorabIeLength 是對應(yīng)于“ghfiafsdk”的 9。例如,在該數(shù)字較大的情況下,與電子郵件地址相關(guān)聯(lián)的帳戶可能是可疑的。
[0081]m_BreakPoints (m_斷點)。該特征表示由電子郵件帳戶中的字母組成的不可記串的總數(shù)。例如,對于 xuefei0917igmail.com, m_BreakPoints 是 O,因為 “xue” 和 “fei” 是可記的,而對于kjxuebbbhfei98jOgmail.com,m_BreakPoints是3,因為存在3個不可記子串,即“kj”、“bbbh”和“j”。該特征的值大可指示與電子郵件相關(guān)聯(lián)的帳戶很有可能是惡意的。
[0082]m_NumberofNonmemorable (m_不可記數(shù))。該特征表示包括電子郵件地址中的字母或數(shù)字的不可記串的數(shù)量。該特征的不同之處在于后者不考慮由數(shù)字組成的不可記串。對于電子郵件地址jobs472fhs@gmail.com的示例,其 m_Numberof Nonmemor able 是對應(yīng)于 “472” 和 “fhs” 的 2,而其 m_BreakPoints 是對應(yīng)于“fhs”的I。對于電子郵件地址gjh783ffsj04571fua@gmail.com的示例,其m_NumberofNonmemorable 是對應(yīng)于“gjh”、“783”、“ffsj”、“04571” 和“fua” 的 5,而其 m_Breakpoints是0,因為它不具有可記串。
[0083]η元語法均值和η元語法最大值。該特征表示電子郵件地址中的η元語法的均值。η元語法是連續(xù)的η個字符序列。η元語法模型是概率語言模型,該模型是在給定先前的(η-l)個字符Xi_(n_D、Xi_(n_2)、Xi^1的情況下的最后一個字符Xi的條件概率。η元語法模型可以從例如字典等多個單詞獲取。電子郵件的在符號之前的串可被劃分成多個連續(xù)η個字符。連續(xù)η個字符的每一個子串都由η元語法模型分配一概率或權(quán)重。這些η元語法概率的均值是η元語法均值,而這些η元語法概率的最大值是η元語法最大值。在一些實施例中,用于確定帳戶的信任級別的η元語法可以是2元語法、3元語法、4元語法和5元語法中的至少一個。例如,電子郵件地址treanOgmail.com中的串“trean”不是一個單詞,但它在η元語法判斷方面具有良好表現(xiàn),以使得諸如對于η = 2、3、4或5,該串具有比諸如“ghf js”、“gkjiu”和“tyttt”等隨機字符更好的η元語法均值和η元語法最大值。
[0084]m_LengthofNumberStrings(m_數(shù)字串長度)。該特征表示電子郵件地址中的包括數(shù)字的子串的長度。對于電子郵件地址xuefei0917@gmail.com的示例,其m_LengthofNumberStrings 是對應(yīng)于子串 “0917” 的 4。
[0085]m_NumberofNumberStrings (m_數(shù)字串?dāng)?shù)量)。該特征表示電子郵件地址中的單獨數(shù)字子串的數(shù)量。對于電子郵件地址xuefei0917@gmail.com的示例,其m_NumberofNumberString是對應(yīng)于子串“0917”的I。對于電子郵件地址48hfh519jhfa7888@gmail.com 的不例,其 m_NumberofNumberString 是對應(yīng)于子串“48”、“519”和“7888” 的 3。
[0086]m_TotalMemorableRate (m_總可記率)。該特征表示總可記率,其是可記字母子串的長度與可記數(shù)字子串的長度之和除以電子郵件地址的總長度。對于電子郵件地址xuefei0917@gmail.com的不例,其m_TotalMemorabIeRate是I,因為可記字母串的長度是對應(yīng)于“xuefei ”的6,且可記數(shù)字串的長度是對應(yīng)于被解釋為指示日期的“0917”的
4。電子郵件地址的總長度是10。因此總可記率是對應(yīng)于10/10的I。對于電子郵件地址benjamin2786ghhfigmail.com 的不例,其 m_TotalMemorbaleRate 是 0.5,因為可記字母子串的長度是對應(yīng)于“benjamin”的8,而可記數(shù)字子串的長度為O。電子郵件地址的總長度是16。因此總可記率是8/16。
[0087]m_NameConfidenceLevel (m_姓名置信度水平)。該特征表示電子郵件地址包含姓名的置信度水平。該置信度水平可以是[0,I]之間的值。一般而言,人類生成的電子郵件地址可包含指示電子郵件地址的用戶的姓名。對于電子郵件地址Nicholas312@gmail.com的不例,其m_NameConfidenceLevel為高(約為I),因為它具有子串“nicholas”,該子串是具有8個字母長度的姓名。該特征還可考慮姓名的首字母是否大寫(諸如此處的“N”)以及該姓名的位置,并且可考慮附加信息106或其變體中的姓名是否出現(xiàn)在電子郵件地址中以及該姓名有多少可能是有效姓名。如果姓名位于電子郵件地址的開頭或末尾,則值較高。對于電子郵件地址joshfguufsdOgmail.com的不例,其m_NameConfidenceLevel不會與Nicholas312igmail.com 一樣高,因為它具有電子郵件地址中的姓名的錯誤拼寫的較高概率。
[0088]m_DomainNameReliability (m_域名可靠性)。該特征表示電子郵件地址的域的可靠性分?jǐn)?shù)(諸如在O和I之間)。白名單中的域(諸如Microsoft, com、ibm.com)被分配高可靠性值(諸如1),而黑名單中的域(諸如“m5n.com”)被分配低可靠性分?jǐn)?shù)(諸如0)。對于不在任一列表中的域,可靠性分?jǐn)?shù)如下計算:例如通過標(biāo)簽數(shù)據(jù)以及確定新傳入的電子郵件地址來維護兩個附加域列表。良性域的列表列出多個域以及對與良性帳戶相關(guān)聯(lián)的每一個相應(yīng)域的不同電子郵件地址的計數(shù)C;。惡意域的列表列出多個域以及對與惡意帳戶相關(guān)聯(lián)的每一個相應(yīng)域的不同電子郵件地址的計數(shù)Cm??煽啃苑?jǐn)?shù)可通過公式(CB+C)/(CB+Cm+C)來獲取,其中C是對于小的Cb和Cm使分?jǐn)?shù)在0.5附近的參數(shù)。換言之,當(dāng)Cb和Cm的樣本不夠大時,可靠性分?jǐn)?shù)指示中立。在另一示例中,對于由良性域的列表和惡意域的列表確定的可靠性分?jǐn)?shù),可靠性分?jǐn)?shù)可以在諸如(0.3,0.7)等比(0,I)短的范圍內(nèi),以使得良性域和惡意域的可靠性分?jǐn)?shù)不同于白名單或黑名單中的那些域。
[0089]在考慮特征時,計算系統(tǒng)116還可使用一個或多個規(guī)則根據(jù)約定和縮寫來將特定數(shù)字或字母視作其他數(shù)字或字母。以下列出了一些示例轉(zhuǎn)換規(guī)則。
[0090]例如,數(shù)字“O”可被視作字母“O”,反之亦然。數(shù)字“2”可被視作字符“two”。數(shù)字“4”可被視作字符“for”。數(shù)字“I”可被視作“i”或“I”。數(shù)字3可被視作字母“e”。數(shù)字“5”可被視作字母“S”。字母“y”可被視作“i”。數(shù)字“7”可被視作字符“seven”。串“2k”可被視作“2000”。字母“c”可被視作字符“see”。串“im”可被視作“iam”。串“ezy”可被視作“ez”或“easy”。串“biz”可被視作“busy”或“business”。字母“f”或“f4”可被視作“for”。字母“X”可被視作乘號“*”。串“2b”可被視作“tobe”。串“nite”可被視作“night”。串“b4”可被視作“before”。串“u”可被視作“you”。數(shù)字“8”可被視作“ate”。
[0091]作為另一示例,短語“xxxst”可被視作“XXX”街,而短語“xxxav”可被視作“xxx”大道。此處的“XXX”擔(dān)當(dāng)占位符并且指代任何字符?!?07”代表著名電影并且被視作有意義的詞。串“XX.XX”、“XX-XX”和“xx_xx”可被視作由或“_”連接的一些有意義的數(shù)字。
[0092]結(jié)論
[0093]盡管已經(jīng)用結(jié)構(gòu)特征和/或方法動作專用的語言描述了本主題,但要理解,所附權(quán)利要求書中定義的主題不必限于所描述的具體特征或動作。相反地,這些具體特征和動作是作為實現(xiàn)該權(quán)利要求的示例性形式而公開的。
【權(quán)利要求】
1.一種由配置有計算機可執(zhí)行指令的一個或多個處理器執(zhí)行的方法,所述方法包括: 接收與包括電子郵件地址的信息相關(guān)聯(lián)的帳戶; 從與所述帳戶相關(guān)聯(lián)的信息中提取一個或多個特征;以及 至少部分地基于所提取的特征來確定所述帳戶的信任級別。
2.如權(quán)利要求1所述的方法,其特征在于,還包括: 在所確定的信任級別高于第一預(yù)設(shè)閾值的情況下確定所述帳戶是良性的;和/或在所確定的信任級別低于所述第一預(yù)設(shè)閾值或與所述第一預(yù)設(shè)閾值不同的第二預(yù)設(shè)閾值的情況下確定所述帳戶是惡意的。
3.如權(quán)利要求1所述的方法,其特征在于,所述一個或多個特征中的至少一個特征基于所述電子郵件地址的可記性。
4.如權(quán)利要求3所述的方法,其特征在于,所述一個或多個特征中的所述至少一個特征包括關(guān)于所述電子郵件地址中的有意義串的一個或多個特征。
5.如權(quán)利要求3所述的方法,其特征在于,所述一個或多個特征中的所述至少一個特征包括關(guān)于所述電子郵件地址中的可發(fā)音串的一個或多個特征。
6.如權(quán)利要求3所述的方法,其特征在于,所述一個或多個特征中的所述至少一個特征包括關(guān)于模式的一個或多個特征,所述模式包括所述電子郵件地址中的對稱性、非對稱性或均勻間隔的字符。
7.如權(quán)利要求1所述的方法,其特征在于,所述一個或多個特征中的至少一個特征基于所述電子郵件地址的域。
8.如權(quán)利要求1所述的方法,其特征在于: 所述信息還包括與所述帳戶和/或所述電子郵件地址相關(guān)聯(lián)的附加信息,所述附加信息包括與所述帳戶和/或所述電子郵件地址相關(guān)聯(lián)的姓名、電話號碼、請求源的IP地址和/或地址;并且 所述一個或多個特征中的至少一個特征基于所述帳戶的所述附加信息。
9.如權(quán)利要求1所述的方法,其特征在于,確定所述帳戶的信任級別包括: 分析來自一個或多個源的多個標(biāo)簽帳戶,所述多個標(biāo)簽帳戶中的每一個指示相應(yīng)的標(biāo)簽帳戶是惡意的或良性的; 確定從所述多個帳戶中提取的一個或多個特征,所述一個或多個特征對惡意的相應(yīng)標(biāo)簽帳戶和良性的相應(yīng)標(biāo)簽帳戶進行區(qū)分; 應(yīng)用一種或多種機器學(xué)習(xí)方法來基于所獲取的一個或多個特征構(gòu)建分類模型;以及 使用所述分類模型來計算所述帳戶的信任級別的分?jǐn)?shù)。
10.一種系統(tǒng),包括: 存儲一個或多個模塊的存儲器; 一個或多個處理器,所述一個或多個處理器在操作上耦合到所述存儲器以執(zhí)行所述一個或多個模塊,所述一個或多個模塊包括: 接收帳戶的接收模塊,所述帳戶與電子郵件地址和附加信息相關(guān)聯(lián); 訓(xùn)練模塊,所述訓(xùn)練模塊使用包括多個標(biāo)簽帳戶的一個或多個標(biāo)簽數(shù)據(jù)來基于來自與所述標(biāo)簽帳戶相關(guān)聯(lián)的電子郵件地址和/或附加信息的一個或多個特征學(xué)習(xí)分類模型,所述一個或多個特征至少部分地基于所述電子郵件地址的可記性來將惡意帳戶與良性帳戶區(qū)分開,所述特征包括以下各個特征中的至少一個: 關(guān)于有意義串的一個或多個特征,所述有意義串包括可根據(jù)一組規(guī)則來轉(zhuǎn)換的一個或多個字母或數(shù)字; 關(guān)于可發(fā)音串的一個或多個特征; 關(guān)于模式的一個或多個特征,所述模式包括所述電子郵件地址中的對稱性、非對稱性或均勻間隔的字符; 關(guān)于所述電子郵件地址的域的一個或多個特征; 關(guān)于與所述帳戶和/或所述電子郵件地址相關(guān)聯(lián)的附加信息的一個或多個特征,所述附加信息包括與所述帳戶和/或電子郵件地址相關(guān)聯(lián)的姓名、電話號碼或地址;以及使用所述分類模型來確定所述帳戶 的信任級別的確定模塊。
【文檔編號】G06Q40/02GK104054103SQ201380005288
【公開日】2014年9月17日 申請日期:2013年1月9日 優(yōu)先權(quán)日:2012年1月12日
【發(fā)明者】B·B·朱, F·薛 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
桑植县| 阿合奇县| 江源县| 哈巴河县| 金华市| 新乡市| 澄江县| 泽库县| 辽中县| 梁河县| 泽库县| 惠安县| 柳江县| 嘉峪关市| 丁青县| 清涧县| 民和| 静宁县| 银川市| 天长市| 馆陶县| 宜都市| 柞水县| 通城县| 玉环县| 仙游县| 龙井市| 辽阳市| 错那县| 福鼎市| 通城县| 托克托县| 英山县| 梧州市| 巴彦淖尔市| 太仓市| 盱眙县| 三亚市| 东安县| 永州市| 镇雄县|