欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種社交網(wǎng)用戶異常行為的分析方法

文檔序號:6541028閱讀:263來源:國知局
一種社交網(wǎng)用戶異常行為的分析方法
【專利摘要】一種社交網(wǎng)用戶異常行為的分析方法,可用于分析社交網(wǎng)站中存在的包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財(cái)?shù)犬惓J录?。該方法基于網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù),采用用戶行為分析技術(shù)對這些數(shù)據(jù)進(jìn)行分析和檢測,當(dāng)檢測到異常時(shí)發(fā)出告警,分為三個(gè)功能單元——數(shù)據(jù)獲取、分析檢測和異常報(bào)警,每個(gè)單元完成方法的一個(gè)功能。數(shù)據(jù)獲取單元采用網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù);分析檢測單元采用用戶行為分析技術(shù)對獲取到的用戶行為數(shù)據(jù)進(jìn)行分析和檢測;異常報(bào)警單元當(dāng)檢測到異常時(shí)發(fā)出告警短信。本發(fā)明能夠方便、靈活、智能地檢測社交網(wǎng)中廣泛存在的異常事件,社交網(wǎng)提供商可利用本發(fā)明及時(shí)發(fā)現(xiàn)惡意用戶,減少網(wǎng)民損失。
【專利說明】一種社交網(wǎng)用戶異常行為的分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種社交網(wǎng)用戶異常行為的分析方法,用于檢測社交網(wǎng)站中發(fā)布惡意鏈接、垃圾廣告、詐騙消息等的用戶異常行為,屬于網(wǎng)絡(luò)安全檢測【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]CNNIC統(tǒng)計(jì)數(shù)據(jù)顯示,2013年我國微博用戶數(shù)量達(dá)到5.36億,此外,使用人人網(wǎng)的用戶數(shù)量也達(dá)到了 2.8億之多。由于社交網(wǎng)絡(luò)中不可或缺的重要實(shí)體(即海量用戶)的存在,促使著商務(wù)類和個(gè)人類社交不斷發(fā)展,而伴隨著網(wǎng)絡(luò)社交的蓬勃發(fā)展,各種信息資源也在社交的過程中不斷地交流和傳播,并且由于這些信息不僅可能包含用戶的隱私信息,而且可能會是某些公司的商業(yè)機(jī)密,因而其信息價(jià)值越來越被認(rèn)可。伴隨著微博、人人等社交應(yīng)用的蓬勃興起,基于社交網(wǎng)絡(luò)的安全問題也越來越突出,例如,近年來利用社交網(wǎng)絡(luò)實(shí)施的釣魚欺詐行為數(shù)量正急劇增加。
[0003]社交網(wǎng)好友關(guān)系間的信任和認(rèn)可,是不法分子實(shí)施惡意活動的出發(fā)點(diǎn),而這也是社交網(wǎng)絡(luò)產(chǎn)生安全問題的根源。不法分子通過盜取用戶帳號來實(shí)施竊取用戶信息、誘騙廣告點(diǎn)擊、借錢欺詐等非法活動。近年來,許多安全公司給出的報(bào)告里都表明,有1/4左右的借錢欺詐、虛擬抽獎(jiǎng)等網(wǎng)絡(luò)釣魚的惡意活動是通過社交網(wǎng)絡(luò)傳播的,并且這些安全公司的分析預(yù)測也稱,全方位改善社交安全將成為網(wǎng)絡(luò)安全新課題。

【發(fā)明內(nèi)容】

[0004]鑒于此,本發(fā)明的目標(biāo)是針對社交網(wǎng)絡(luò)正常帳號被盜后發(fā)布詐騙、釣魚、垃圾信息等惡意消息這類異常事件,提出一種異常事件檢測方法,此方法基于網(wǎng)絡(luò)爬蟲技術(shù)爬取用戶行為數(shù)據(jù),基于用戶行為分析技術(shù)和數(shù)學(xué)建模思想進(jìn)行行為建模和分析檢測,當(dāng)檢測到異常賬戶時(shí)發(fā)出短信告警,可為社交網(wǎng)提供者提供異常用戶列表,從而大大減少網(wǎng)絡(luò)詐騙、釣魚和垃圾信息對網(wǎng)民的危害,同時(shí)該方法作為Web安全檢測的一部分,對研究Web環(huán)境下的安全問題也具有一定的參考價(jià)值和指導(dǎo)意義。
[0005]本發(fā)明提出的社交網(wǎng)異常事件檢測方法基于網(wǎng)絡(luò)爬蟲技術(shù)和Web解析技術(shù)獲取用戶在社交網(wǎng)中發(fā)布的消息數(shù)據(jù),然后對這些數(shù)據(jù)進(jìn)行用戶行為分析,從而檢測出異常用戶,并進(jìn)行告警。使用本方法可以檢測目標(biāo)社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件,包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財(cái)?shù)鹊?。本發(fā)明主要由三個(gè)主要功能單元組成,即數(shù)據(jù)獲取單元、分析檢測單元和異常報(bào)警單元。
[0006]所述的數(shù)據(jù)獲取單元的功能特點(diǎn)如下:
[0007]獲得目標(biāo)檢測社交網(wǎng)的操作權(quán)限,通過網(wǎng)絡(luò)爬蟲技術(shù)來完成對用戶消息數(shù)據(jù)(發(fā)布狀態(tài)、日志、照片、分享、評論等信息)的抓取,對抓取下來的數(shù)據(jù)解析后按用戶進(jìn)行分類并存入文件,這些文件就是分析檢測單元的輸入。
[0008]本單元主要包括用戶登錄、數(shù)據(jù)抓取、數(shù)據(jù)解析和數(shù)據(jù)輸出四個(gè)子單元。
[0009]所述的用戶登錄子單元的功能特點(diǎn)如下:[0010]創(chuàng)建一個(gè)Singleton Connector 類,使用 DefaultHttpClient、HttpGet 和HttpPosttjHttpGet用來獲取人人網(wǎng)入口 URL,HttpPost中設(shè)定人人網(wǎng)登錄URL,同時(shí)設(shè)定登錄用戶的基本信息(包括用戶名、密碼、人人網(wǎng)域名等,這些參數(shù)信息可從配置單元取到)。然后執(zhí)行1ginO方法,如果進(jìn)入到了登錄后的頁面,就表明已成功登錄,然后將用戶憑據(jù)信息作為Cookie保存下來,以便下次抓取時(shí)使用。
[0011]所述的數(shù)據(jù)抓取子單元的功能特點(diǎn)如下:
[0012]實(shí)現(xiàn)ICrawler 接口和 IParser 接口,其中 IParser 接 口繼承 HtmlParser。該單兀主要包括 CrawlFeeds 類、CrawlTimelineFeed 類、FilterOpenUser 類和 FeedController類。其中FeedContiOller類嚴(yán)格意義上不屬于數(shù)據(jù)抓取單元,因?yàn)樗脕砜刂茢?shù)據(jù)抓取和數(shù)據(jù)輸出存儲。用戶登錄后,首先FilterOpenUser從登錄的用戶節(jié)點(diǎn)開始獲取每一個(gè)待抓用戶所有相關(guān)的URL。如果該待抓用戶是登錄用戶的好友,則可以直接爬??;如果不是好友的話,有的信息需要加了好友后才能查看,通過這樣的方式得到所有可查看的userid列表。然后 FeedController 以 FilterOpenUser 得到的 userid 列表為輸入,調(diào)用 CrawlFeeds或CrawlTimelineFeed進(jìn)行爬取。在抓取的時(shí)候,采用定時(shí)器的增量式抓取方法。定時(shí)器的方法通過設(shè)定具體的時(shí)間間隔進(jìn)行抓取。具體的時(shí)間間隔由配置單元設(shè)定。爬取時(shí)就是按照userid進(jìn)行分別爬取。
[0013]所述的數(shù)據(jù)解析子單元的功能特點(diǎn)如下:
[0014]對爬取頁面進(jìn)行解析,然后將爬取子單元按userid爬取到的所有數(shù)據(jù)再按照狀態(tài)、日志、分享的鏈接等進(jìn)行分類,并提取出這些信息的發(fā)布時(shí)間、具體內(nèi)容等信息,還要對消息的具體內(nèi)容即html文本進(jìn)行解析。該子單元主要是FeedFilter類和HtmlParser類。其中HtmlParser是一個(gè)成熟的程序庫,它是一個(gè)基于Java代碼的HTML解析類庫,它不依賴于其他的Java庫,主要用于改造和提取HTML,并能夠高速、準(zhǔn)確地解析HTML。該單元利用HtmlParser提取出消息的文本內(nèi)容。HtmlParser通過Node、AbstractNode和Tag重新定義HTML的信息。在程序中,通過定義NodeFilter對象對html中提供文本輸入的標(biāo)簽進(jìn)行過濾,可以方便地找到消息文本的內(nèi)容。
[0015]所述的數(shù)據(jù)輸出子單元的功能特點(diǎn)如下:
[0016]通過爬蟲得到的數(shù)據(jù)結(jié)果以用userid命名的文件輸出,存儲在文件中的數(shù)據(jù)內(nèi)容格式為數(shù)據(jù)ID、數(shù)據(jù)類型、內(nèi)容、內(nèi)容語言、發(fā)布時(shí)間。
[0017]所述的分析檢測單元的功能特點(diǎn)如下:
[0018]以數(shù)據(jù)獲取單元得到的結(jié)果為輸入,對其進(jìn)行預(yù)處理,并在分析檢測方法中提出了 7個(gè)用戶行為特征,對這7個(gè)特征分別進(jìn)行建模,對用戶所有的歷史數(shù)據(jù)根據(jù)這個(gè)7個(gè)特征模型建模,得到用戶的行為輪廓。對歷史數(shù)據(jù)的最后一個(gè)時(shí)間點(diǎn)之后的數(shù)據(jù),先按照7個(gè)行為特征進(jìn)行分類,然后對每個(gè)行為特征得到一個(gè)異常得分,最后將7個(gè)異常得分進(jìn)行計(jì)算得到總的異常得分,從而判斷該用戶是否異常。
[0019]本單元采用的分析檢測方法包括用戶行為建模,用戶消息的相似度分析,如何對消息的異常得分進(jìn)行計(jì)算,以及如何最終檢測異常事件四個(gè)方面。
[0020]所述的用戶行為建模的功能特點(diǎn)如下:
[0021]用戶行為輪廓是通過用戶在社交網(wǎng)絡(luò)上的歷史行為得到的,它可以用來預(yù)期該用戶在將來的正常行為。為了建立用戶的行為輪廓,即用戶行為建模,就需要該用戶發(fā)布在社交網(wǎng)站上的消息流,而這些消息流正是數(shù)據(jù)獲取單元得到的結(jié)果。所以可以使用數(shù)據(jù)獲取單元得到的結(jié)果進(jìn)行行為輪廓的建立。
[0022]針對社交網(wǎng)絡(luò)的特點(diǎn)和檢測的需要,對于每條消息,本單元設(shè)定了 7個(gè)特征,對于每個(gè)特征訓(xùn)練一個(gè)統(tǒng)計(jì)模型。其中的每個(gè)模型都反應(yīng)了該條消息某方面的特性,對某個(gè)用戶的所有消息分析完之后,就可以得到該用戶在這7個(gè)方面的特征值,就可以預(yù)期該用戶發(fā)送的消息應(yīng)該是怎樣的。下面對每條消息的7個(gè)特征模型進(jìn)行詳細(xì)介紹。
[0023]1、消息發(fā)送的時(shí)間(hour/day)。這個(gè)特征模型用來捕獲一個(gè)帳號在一天中的哪些時(shí)間是活躍的。許多用戶在一天中的確定時(shí)間段是不活躍的,例如午飯時(shí)間、或者睡眠時(shí)間。通過用戶的消息流中用戶發(fā)布消息的時(shí)間,可以判定出哪些是非活躍時(shí)間,那么發(fā)布在非活躍時(shí)間的消息就被認(rèn)為是異常的。
[0024]2、消息源。發(fā)布消息的應(yīng)用程序。大多數(shù)社交網(wǎng)站提供傳統(tǒng)網(wǎng)絡(luò)和移動網(wǎng)絡(luò)接入給他們的用戶,以及用于移動平臺的應(yīng)用程序例如iOS和Android。許多社交網(wǎng)絡(luò)提供多種由第三方開發(fā)者獨(dú)立創(chuàng)建的應(yīng)用程序。當(dāng)然,在默認(rèn)情況下,第三方應(yīng)用程序不能發(fā)消息到用戶的帳戶。然而,如果一個(gè)用戶選擇這種方式發(fā)送,他可以授予這種特權(quán)給這個(gè)應(yīng)用,這就使該第三方應(yīng)用在沒有用戶憑據(jù)的情況下能夠訪問用戶的個(gè)人資料。事實(shí)上,根據(jù)相關(guān)評估顯示,第三方應(yīng)用程序經(jīng)常被用來發(fā)送惡意消息。
[0025]該模型用來確定用戶是否以前常使用特定應(yīng)用程序,或者反過來說,這是否是第一次使用某種應(yīng)用程序來發(fā)送消息。每當(dāng)用戶使用一個(gè)新的應(yīng)用程序發(fā)布消息,這個(gè)變化可能表明,一個(gè)攻擊者已成功引誘受害者授權(quán)惡意應(yīng)用程序訪問他的帳戶。
[0026]3、消息文本(語言)。用戶可以自由地使用任何語言發(fā)布消息。然而,事實(shí)上每個(gè)用戶只使用為數(shù)不多的語言種類來發(fā)布消息(通常,一個(gè)或兩個(gè))。因此,特別是當(dāng)這個(gè)模型特點(diǎn)(消息語言)是相對穩(wěn)定的,突然的語言變化則顯示用戶行為可疑。
[0027]要確定一個(gè)消息使用的語言,利用Iibtextcat庫。這個(gè)庫是一個(gè)執(zhí)行以n-gram為基礎(chǔ)的文本分類算法的開源庫。
[0028]4、消息話題。用戶發(fā)布的消息往往包含許多喋喋不休或世俗的信息。但是,很多用戶有一組他們經(jīng)常談?wù)摰脑掝},比如最喜歡的運(yùn)動隊(duì),樂隊(duì),或電視節(jié)目。當(dāng)用戶發(fā)布的消息通常集中在幾個(gè)話題中,然后突然發(fā)布一些不同和無關(guān)的話題,這個(gè)新的消息應(yīng)該被評為異常。
[0029]一般,從沒有上下文的短的文本片段,推斷消息的話題是困難的。然而,社交網(wǎng)絡(luò)平臺允許用戶標(biāo)記消息,明確指定他們的消息是哪個(gè)話題的。當(dāng)在有標(biāo)簽的情況下,它們提供了有價(jià)值的信息來源。一個(gè)眾所周知的例子的消息標(biāo)記機(jī)制是人人網(wǎng)、微博的話題標(biāo)簽,通常使用“ 兩個(gè)“ # ”號中間的為話題。
[0030]5、消息中的鏈接。通常情況下,發(fā)布在社交網(wǎng)站的消息包含指向其他資源的鏈接,如博客,圖片,視頻或新聞文章。從社交網(wǎng)出現(xiàn)到現(xiàn)在,消息中的鏈接都廣泛存在著,因而以前更多的關(guān)于社交網(wǎng)的安全研究工作都集中在對URL的分析,并把它作為確定消息是否為惡意的唯一的因素。論文也把消息中的URL作為用戶行為輪廓的一部分,但只是作為一個(gè)單一的特征模型。另外,確立該行為模型特征主要是用來捕捉用戶的正常活動。也就是說,本檢測方法不試圖檢測一個(gè)URL本身是否是惡意的,而是去檢測該用戶正常情況下會否發(fā)送這樣的URL。[0031]為了確定在消息中出現(xiàn)的鏈接,本方法只利用鏈接中URL的域名。其原因在于用戶可能會經(jīng)常引用在同一個(gè)域名中的內(nèi)容。例如,許多用戶往往看特定的新聞網(wǎng)站和博客,并經(jīng)常鏈接到在那里的有趣文章。惡意鏈接,另一方面,指向的是不合法的網(wǎng)站。因此,鏈接信息包含過去沒有出現(xiàn)過的域名時(shí)則表示了一種變化。該行為模型還考慮了消息中包含鏈接的頻率,以及用戶鏈接到特定網(wǎng)站的一致性。
[0032]6、用戶間交互。社交網(wǎng)絡(luò)提供單個(gè)用戶間直接進(jìn)行交互的機(jī)制。最常見的方式是通過直接發(fā)送消息到接收者。不同的社交網(wǎng)絡(luò)有不同的機(jī)制。隨著時(shí)間的推移,一個(gè)用戶在社交網(wǎng)絡(luò)就建立了一個(gè)與其他用戶互動的歷史記錄。通過社交網(wǎng)的這個(gè)特性就可以捕獲一個(gè)用戶的歷史交互記錄。事實(shí)上,它跟蹤用戶帳戶所有發(fā)生過的交互。發(fā)送消息的目的是為了得到接收者的注意,因此這種用戶間的直接交互方式常被用來發(fā)送垃圾消息。
[0033]7、鄰近的地理位置。在許多情況下,用戶在社交網(wǎng)絡(luò)中的朋友就是在現(xiàn)實(shí)中與他們親近的其他用戶。例如,一個(gè)人人網(wǎng)的用戶將有很多住在同一個(gè)城市,上同一所學(xué)校,或者工作在相同的公司的朋友。如果該用戶突然開始與生活在另一個(gè)大陸的人交往,這可能是可疑的。該特征用于捕捉消息是當(dāng)?shù)氐倪€是非本地的。
[0034]對于用戶的每條消息按上述7個(gè)特征模型進(jìn)行建模,然后對其進(jìn)行模型訓(xùn)練和評估。
[0035]所述的模型訓(xùn)練的功能特點(diǎn)如下:
[0036]模型訓(xùn)練的輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個(gè)消息,提取上述7個(gè)特征,例如發(fā)送消息的源程序和消息中包含的鏈接。
[0037]每一個(gè)特征模型用集合M來表示。M的每個(gè)元素是一個(gè)鍵值對元組<fv,C〉。fv是特征值(例如,英語的語言模型,或者鏈接模型examp I e.com )。c表示fv值出現(xiàn)的消息個(gè)數(shù)。此外,每個(gè)模型都存儲訓(xùn)練消息的總數(shù)N。
`[0038]將訓(xùn)練模型分為兩類:
[0039](I)必要模型是對于每一個(gè)消息都有一個(gè)特征值,并且這個(gè)特征值總是出現(xiàn)的模型。默認(rèn)模型包括消息發(fā)送的時(shí)間,消息源,鄰近的地理位置和消息語言。
[0040](2)可選模型是指對于一個(gè)消息來說,該模型不一定總需要有值。同時(shí),不同于必要模型的是,對于一個(gè)消息來說,這個(gè)模型可以對應(yīng)多個(gè)值??蛇x模型,包括鏈接,用戶間交互和主題。例如,一個(gè)消息可能有O個(gè),一個(gè)或者多個(gè)鏈接。對于每個(gè)可選模型,我們保留一個(gè)fV=null,并把這個(gè)特征值的“c”值提出(例如,沒有鏈接的消息數(shù))。
[0041]對于消息發(fā)送時(shí)間這個(gè)特征模型的訓(xùn)練稍有不同。基于前面的描述,系統(tǒng)首先提取消息發(fā)送于幾點(diǎn)。然后,它將存儲每個(gè)小時(shí)的fv,以及在這一小時(shí)被發(fā)布的消息數(shù)。這樣就會有一個(gè)問題,就是時(shí)間段可能是不連續(xù)的,是離散的。因此,在用戶的正常時(shí)間附近的時(shí)間點(diǎn)發(fā)送的消息就可能會被錯(cuò)誤地認(rèn)為是異常。
[0042]為了避免這個(gè)問題,在對時(shí)間模型訓(xùn)練之后調(diào)整步驟。具體來說就是,對于每個(gè)小時(shí)i,考慮與它相鄰的兩個(gè)小時(shí)。即,對于M的每個(gè)鍵值對〈i,Ci>,一個(gè)新的計(jì)算變量C’ i用來計(jì)算第i個(gè)小時(shí)Ci發(fā)布消息的平均數(shù),變量Cg用來存儲之前那個(gè)小時(shí)發(fā)送的消息數(shù),Ci+!用戶存儲第i小時(shí)之后的那個(gè)小時(shí)發(fā)送的消息數(shù)。當(dāng)計(jì)算出C’i,就用它來代替鍵值對〈i,Ci> 中的 Ci。
[0043]所述的模型評估的功能特點(diǎn)如下:[0044]模型的評估,即計(jì)算7個(gè)行為特征模型的異常得分,并最終將這個(gè)7個(gè)值采用一定的算法整合為一個(gè)值,即該條消息的異常得分。
[0045]> 7個(gè)特征模型異常得分的計(jì)算:
[0046]在一般情況下,當(dāng)一個(gè)消息的必要模型中的特征值沒有出現(xiàn)在用戶的信息流中,或者特征值出現(xiàn)的次數(shù)與M中的鍵值對不匹配,那么這個(gè)消息就是異常的。
[0047]對于必要模型的特征模型,消息的異常得分是通過如下方式計(jì)算的:
[0048]1、首先要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個(gè)元素的鍵值對,那么就可以從M中提取整個(gè)鍵值對。如果M中不存在以fv為第一個(gè)值的鍵值對,那么這個(gè)消息就是異常的,那么程序在這里就會返回異常得分I。
[0049]2、第二步,根據(jù)用戶的行為輪廓分析fv是否是異常的。c和M進(jìn)行比較,基于公式:
【權(quán)利要求】
1.一種社交網(wǎng)用戶異常行為的分析方法,可以檢測目標(biāo)社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件,包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財(cái)?shù)鹊?。其特征在于,基于網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù),將這些數(shù)據(jù)作為用戶行為分析的基礎(chǔ),對用戶發(fā)布的消息進(jìn)行建模和訓(xùn)練,提取出用戶的行為輪廓,根據(jù)用戶的行為輪廓評估新消息是否異常,當(dāng)檢測到異常事件時(shí)發(fā)出告警。 該方法主要由三個(gè)功能單元組成,即數(shù)據(jù)獲取、分析檢測和異常報(bào)警,其中: 數(shù)據(jù)獲取,旨在獲取到社交網(wǎng)中用戶的Deep Web數(shù)據(jù),即用戶發(fā)布和分享的狀態(tài)、日志,鏈接等數(shù)據(jù),這些數(shù)據(jù)需要采用網(wǎng)絡(luò)爬蟲方法對社交網(wǎng)絡(luò)進(jìn)行深層網(wǎng)絡(luò)爬蟲,即基于在目標(biāo)檢測社交網(wǎng)站注冊的有效登錄用戶帳號,采用該帳號登錄目標(biāo)檢測網(wǎng)站從而獲取網(wǎng)站授權(quán),爬取出用戶的Deep Web數(shù)據(jù)。 分析檢測,根據(jù)數(shù)據(jù)獲取單元得到的用戶數(shù)據(jù)建立用戶行為模型,并對其進(jìn)行訓(xùn)練和評估,然后對每個(gè)用戶的行為數(shù)據(jù)進(jìn)行基于內(nèi)容的相似度分類,最后根據(jù)特定算法進(jìn)行異常檢測。 異常報(bào)警,當(dāng)檢測到異常用戶時(shí)發(fā)生報(bào)警,提供短信發(fā)送和報(bào)警查詢功能。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)獲取功能單元,其特征在于:獲取該方法的分析基礎(chǔ)——社交網(wǎng)用戶數(shù)據(jù),首先需要取得目標(biāo)檢測社交網(wǎng)站的身份授權(quán),然后采用網(wǎng)絡(luò)爬蟲技術(shù)獲得從登錄節(jié)點(diǎn)起始的所有具有查看權(quán)限的用戶種子集,針對該種子集可采用時(shí)間軸數(shù)據(jù)進(jìn)行種子集中所有用戶數(shù)據(jù)的抓取,從爬取到的結(jié)果集中按照userid,userid即用戶唯一 ID號,再進(jìn)行分析,獲得該userid對應(yīng)的用戶的所有新鮮事,可提取出該userid發(fā)布和分享的所有狀態(tài)、日志、鏈接等數(shù)據(jù)信息,然后對這些數(shù)據(jù)信息進(jìn)行HTML文本解析和語言解析,解析后用以userid命名的文件形式輸出,文件內(nèi)容包括數(shù)據(jù)Id、發(fā)布時(shí)間、數(shù)據(jù)類型、內(nèi)容、語言類型、是否包含鏈接、鏈接地址等。
3.根據(jù)權(quán)利要求1所·述的分析檢測單元中用戶行為建模方法,其特征在于:通過用戶發(fā)布在社交網(wǎng)站上的消息流建立用戶的行為輪廓,而這些消息流正是數(shù)據(jù)獲取單元得到的輸出。 針對社交網(wǎng)絡(luò)的特點(diǎn)和檢測的需要,對于每條消息,本單元設(shè)定7個(gè)特征,針對每個(gè)特征訓(xùn)練一個(gè)統(tǒng)計(jì)模型。每個(gè)模型都反應(yīng)該條消息某方面的特性,在對某用戶的所有消息分析完之后,可以得到該用戶在此7個(gè)方面的特征值,從而可預(yù)期該用戶發(fā)送的消息內(nèi)容。
4.根據(jù)權(quán)利要求3所述7種特征,其特征在于:7種特征對應(yīng)每條消息的7個(gè)特征模型,分別為消息發(fā)送的時(shí)間(hour/day)、發(fā)布消息的應(yīng)用程序、語言類型、話題、鏈接、用戶間交互和地理位置,并將此7種特征分為兩類: (1)必要模型是對于每一個(gè)消息都有一個(gè)特征值,并且這個(gè)特征值總是出現(xiàn)。默認(rèn)特征包括消息發(fā)送的時(shí)間,消息源,鄰近的地理位置和消息語言。 (2)可選模型是指對于一個(gè)消息來說,該特征不一定總需要有值。同時(shí),不同于必要模型的是,對于一個(gè)消息來說,這個(gè)特征可以對應(yīng)多個(gè)值??蛇x模型,包括鏈接,用戶間交互和主題。例如,一個(gè)消息可能有O個(gè),一個(gè)或者多個(gè)鏈接。對于每個(gè)可選模型,我們保留一個(gè)fv=null,并把這個(gè)特征值的“c”值提出(例如,沒有鏈接的消息數(shù))。fv指某特征值,c表示fv出現(xiàn)的消息個(gè)數(shù)。
5.根據(jù)權(quán)利要求1所述分析檢測單元中用戶行為模型的訓(xùn)練和評估,其特征在于:對于模型的訓(xùn)練: 輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個(gè)消息,提取上述7個(gè)特征,例如發(fā)送消息的源程序和消息中包含的鏈接。每一個(gè)特征模型用集合M來表示。M的每個(gè)元素是一個(gè)鍵值對元組<fV,c〉。fv是特征值(例如,英語的語言模型,或者鏈接模型example, com)。c表示fv值出現(xiàn)的消息個(gè)數(shù)。此外,每個(gè)模型都存儲訓(xùn)練消息的總數(shù)N。 對于消息發(fā)送時(shí)間這個(gè)特征模型的訓(xùn)練稍有不同。具體來說就是,對于每個(gè)小時(shí)i,考慮與它相鄰的兩個(gè)小時(shí)。即,對于M的每個(gè)鍵值對<i,CiX—個(gè)新的計(jì)算變量C%用來計(jì)算第i個(gè)小時(shí)Ci發(fā)布消息的平均數(shù),變量C^1用來存儲之前那個(gè)小時(shí)發(fā)送的消息數(shù),Cf1用戶存儲第i小時(shí)之后的那個(gè)小時(shí)發(fā)送的消息數(shù)。當(dāng)計(jì)算出C’ i,就用它來代替鍵值對<i,Ci)中的C” 對于模型的評估: 即計(jì)算一條消息的異常得分,看這條消息是否不符合用戶的行為輪廓。 對于的特征模型,消息的異常得分是通過如下方式計(jì)算的: (1)首先必要模型要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個(gè)元素的鍵值對,那么就可以從M中提取整個(gè)鍵值對。如果M中不存在以fv為第一個(gè)值的鍵值對,那么這個(gè)消息就是異常的,那么程序在這里就會返回異常得分I。 (2)根據(jù)用戶的行為輪廓分析fv是否是異常的。c和巧進(jìn)行比較,基于公式:
6.根據(jù)權(quán)利要求1所述分析檢測單元中基于內(nèi)容的相似度分類,其特征在于:所述分析檢測單元中基于內(nèi)容的相似度分類,帳號異常檢測需要進(jìn)行基于內(nèi)容的相似度分析的原因是基于這樣一個(gè)事實(shí):釣魚、詐騙等消息是需要大量傳播的。所以當(dāng)只有一條消息被判定為異常時(shí),并不認(rèn)為其對應(yīng)帳號發(fā)生異常,需要進(jìn)一步觀察更多的其他類似消息,只有類似消息達(dá)到一定數(shù)量時(shí),才認(rèn)定發(fā)送這些消息的帳號為異常帳號。 內(nèi)容相似度的計(jì)算有兩種方法:一是文本內(nèi)容相似度;二是包含的URL相似度。
7.根據(jù)權(quán)利要求1所述分析檢測單元中異常檢測,其特征在于:主要檢測兩類異常:一是受侵害的可疑用戶群組;二是非受侵害的可疑用戶或應(yīng)用。它們的不同之處在于:前者存在正常的用戶行為輪廓,之后發(fā)布了大量相似的消息;后者從頭到尾都在發(fā)布大量相似的消息。 數(shù)據(jù)獲取單元得到的是一定時(shí)間間隔的用戶數(shù)據(jù),因而在分析檢測單元中,基于內(nèi)容分類的消息也是在一定時(shí)間間隔內(nèi)的。這每個(gè)時(shí)間間隔內(nèi)的數(shù)據(jù)叫做一個(gè)分組。對于每個(gè)分組,本方法檢查所有用戶帳戶的消息是否違反了其用戶行為輪廓?;谶@樣的分析,就能檢測出一個(gè)賬戶是否是異常的。 異常帳號檢測的規(guī)則是:每個(gè)分組中只要有消息的個(gè)人行為模型異常評分超過一定閥值,就判定這個(gè)分組為異常消息組,則其中所有消息對應(yīng)的帳號為異常帳號。閥值的計(jì)算方式為:
th (n) =max (0.1, kn+d) 其中η為分組數(shù)量,通過實(shí)驗(yàn)得到當(dāng)k=-0.005, d=0.82時(shí)結(jié)果最準(zhǔn)確。由公式可知,分組規(guī)模小的異常消息判定閥值較高,分組規(guī)模大的閥值較低。
8.根據(jù)權(quán)利要求1所述的異常報(bào)警單元,其特征在于:所述報(bào)警單元提供報(bào)警提示和報(bào)警查詢兩種服務(wù),并提供三種調(diào)用方式——Curl, Thrift和Json方式。其中,報(bào)警提示以發(fā)送短信的方式提供?!?br> 【文檔編號】G06F17/30GK103853841SQ201410101728
【公開日】2014年6月11日 申請日期:2014年3月19日 優(yōu)先權(quán)日:2014年3月19日
【發(fā)明者】閆丹鳳, 吳海莉, 徐佳 申請人:北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
九江县| 原平市| 平山县| 呼和浩特市| 扎囊县| 宣汉县| 丹凤县| 渝北区| 涿鹿县| 修武县| 游戏| 根河市| 甘南县| 洛宁县| 砀山县| 桃园县| 峨边| 滨州市| 新河县| 图片| 龙江县| 赤壁市| 浦东新区| 晋中市| 厦门市| 黄大仙区| 竹山县| 曲松县| 宁津县| 南溪县| 玛纳斯县| 萝北县| 绵竹市| 灌南县| 台中县| 丹阳市| 青田县| 建宁县| 辽源市| 资溪县| 莆田市|