一種社交網(wǎng)用戶異常行為的分析方法

文檔序號：6541028閱讀：263來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種社交網(wǎng)用戶異常行為的分析方法
【專利摘要】一種社交網(wǎng)用戶異常行為的分析方法，可用于分析社交網(wǎng)站中存在的包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財(cái)?shù)犬惓Ｊ录?。該方法基于網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù)，采用用戶行為分析技術(shù)對這些數(shù)據(jù)進(jìn)行分析和檢測，當(dāng)檢測到異常時(shí)發(fā)出告警，分為三個(gè)功能單元——數(shù)據(jù)獲取、分析檢測和異常報(bào)警，每個(gè)單元完成方法的一個(gè)功能。數(shù)據(jù)獲取單元采用網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù)；分析檢測單元采用用戶行為分析技術(shù)對獲取到的用戶行為數(shù)據(jù)進(jìn)行分析和檢測；異常報(bào)警單元當(dāng)檢測到異常時(shí)發(fā)出告警短信。本發(fā)明能夠方便、靈活、智能地檢測社交網(wǎng)中廣泛存在的異常事件，社交網(wǎng)提供商可利用本發(fā)明及時(shí)發(fā)現(xiàn)惡意用戶，減少網(wǎng)民損失。
【專利說明】一種社交網(wǎng)用戶異常行為的分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種社交網(wǎng)用戶異常行為的分析方法，用于檢測社交網(wǎng)站中發(fā)布惡意鏈接、垃圾廣告、詐騙消息等的用戶異常行為，屬于網(wǎng)絡(luò)安全檢測【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]CNNIC統(tǒng)計(jì)數(shù)據(jù)顯示，2013年我國微博用戶數(shù)量達(dá)到5.36億，此外，使用人人網(wǎng)的用戶數(shù)量也達(dá)到了 2.8億之多。由于社交網(wǎng)絡(luò)中不可或缺的重要實(shí)體(即海量用戶)的存在，促使著商務(wù)類和個(gè)人類社交不斷發(fā)展，而伴隨著網(wǎng)絡(luò)社交的蓬勃發(fā)展，各種信息資源也在社交的過程中不斷地交流和傳播，并且由于這些信息不僅可能包含用戶的隱私信息，而且可能會是某些公司的商業(yè)機(jī)密，因而其信息價(jià)值越來越被認(rèn)可。伴隨著微博、人人等社交應(yīng)用的蓬勃興起，基于社交網(wǎng)絡(luò)的安全問題也越來越突出，例如，近年來利用社交網(wǎng)絡(luò)實(shí)施的釣魚欺詐行為數(shù)量正急劇增加。
[0003]社交網(wǎng)好友關(guān)系間的信任和認(rèn)可，是不法分子實(shí)施惡意活動的出發(fā)點(diǎn)，而這也是社交網(wǎng)絡(luò)產(chǎn)生安全問題的根源。不法分子通過盜取用戶帳號來實(shí)施竊取用戶信息、誘騙廣告點(diǎn)擊、借錢欺詐等非法活動。近年來，許多安全公司給出的報(bào)告里都表明，有1/4左右的借錢欺詐、虛擬抽獎(jiǎng)等網(wǎng)絡(luò)釣魚的惡意活動是通過社交網(wǎng)絡(luò)傳播的，并且這些安全公司的分析預(yù)測也稱，全方位改善社交安全將成為網(wǎng)絡(luò)安全新課題。

【發(fā)明內(nèi)容】

[0004]鑒于此，本發(fā)明的目標(biāo)是針對社交網(wǎng)絡(luò)正常帳號被盜后發(fā)布詐騙、釣魚、垃圾信息等惡意消息這類異常事件，提出一種異常事件檢測方法，此方法基于網(wǎng)絡(luò)爬蟲技術(shù)爬取用戶行為數(shù)據(jù)，基于用戶行為分析技術(shù)和數(shù)學(xué)建模思想進(jìn)行行為建模和分析檢測，當(dāng)檢測到異常賬戶時(shí)發(fā)出短信告警，可為社交網(wǎng)提供者提供異常用戶列表，從而大大減少網(wǎng)絡(luò)詐騙、釣魚和垃圾信息對網(wǎng)民的危害，同時(shí)該方法作為Web安全檢測的一部分，對研究Web環(huán)境下的安全問題也具有一定的參考價(jià)值和指導(dǎo)意義。
[0005]本發(fā)明提出的社交網(wǎng)異常事件檢測方法基于網(wǎng)絡(luò)爬蟲技術(shù)和Web解析技術(shù)獲取用戶在社交網(wǎng)中發(fā)布的消息數(shù)據(jù)，然后對這些數(shù)據(jù)進(jìn)行用戶行為分析，從而檢測出異常用戶，并進(jìn)行告警。使用本方法可以檢測目標(biāo)社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件，包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財(cái)?shù)鹊?。本發(fā)明主要由三個(gè)主要功能單元組成，即數(shù)據(jù)獲取單元、分析檢測單元和異常報(bào)警單元。
[0006]所述的數(shù)據(jù)獲取單元的功能特點(diǎn)如下:
[0007]獲得目標(biāo)檢測社交網(wǎng)的操作權(quán)限，通過網(wǎng)絡(luò)爬蟲技術(shù)來完成對用戶消息數(shù)據(jù)(發(fā)布狀態(tài)、日志、照片、分享、評論等信息)的抓取，對抓取下來的數(shù)據(jù)解析后按用戶進(jìn)行分類并存入文件，這些文件就是分析檢測單元的輸入。
[0008]本單元主要包括用戶登錄、數(shù)據(jù)抓取、數(shù)據(jù)解析和數(shù)據(jù)輸出四個(gè)子單元。
[0009]所述的用戶登錄子單元的功能特點(diǎn)如下:[0010]創(chuàng)建一個(gè)Singleton Connector 類，使用 DefaultHttpClient、HttpGet 和HttpPosttjHttpGet用來獲取人人網(wǎng)入口 URL，HttpPost中設(shè)定人人網(wǎng)登錄URL，同時(shí)設(shè)定登錄用戶的基本信息(包括用戶名、密碼、人人網(wǎng)域名等，這些參數(shù)信息可從配置單元取到)。然后執(zhí)行1ginO方法，如果進(jìn)入到了登錄后的頁面，就表明已成功登錄，然后將用戶憑據(jù)信息作為Cookie保存下來，以便下次抓取時(shí)使用。
[0011]所述的數(shù)據(jù)抓取子單元的功能特點(diǎn)如下:
[0012]實(shí)現(xiàn)ICrawler 接口和 IParser 接口，其中 IParser 接口繼承 HtmlParser。該單兀主要包括 CrawlFeeds 類、CrawlTimelineFeed 類、FilterOpenUser 類和 FeedController類。其中FeedContiOller類嚴(yán)格意義上不屬于數(shù)據(jù)抓取單元，因?yàn)樗脕砜刂茢?shù)據(jù)抓取和數(shù)據(jù)輸出存儲。用戶登錄后，首先FilterOpenUser從登錄的用戶節(jié)點(diǎn)開始獲取每一個(gè)待抓用戶所有相關(guān)的URL。如果該待抓用戶是登錄用戶的好友，則可以直接爬??；如果不是好友的話，有的信息需要加了好友后才能查看，通過這樣的方式得到所有可查看的userid列表。然后 FeedController 以 FilterOpenUser 得到的 userid 列表為輸入，調(diào)用 CrawlFeeds或CrawlTimelineFeed進(jìn)行爬取。在抓取的時(shí)候,采用定時(shí)器的增量式抓取方法。定時(shí)器的方法通過設(shè)定具體的時(shí)間間隔進(jìn)行抓取。具體的時(shí)間間隔由配置單元設(shè)定。爬取時(shí)就是按照userid進(jìn)行分別爬取。
[0013]所述的數(shù)據(jù)解析子單元的功能特點(diǎn)如下:
[0014]對爬取頁面進(jìn)行解析，然后將爬取子單元按userid爬取到的所有數(shù)據(jù)再按照狀態(tài)、日志、分享的鏈接等進(jìn)行分類，并提取出這些信息的發(fā)布時(shí)間、具體內(nèi)容等信息，還要對消息的具體內(nèi)容即html文本進(jìn)行解析。該子單元主要是FeedFilter類和HtmlParser類。其中HtmlParser是一個(gè)成熟的程序庫,它是一個(gè)基于Java代碼的HTML解析類庫,它不依賴于其他的Java庫，主要用于改造和提取HTML，并能夠高速、準(zhǔn)確地解析HTML。該單元利用HtmlParser提取出消息的文本內(nèi)容。HtmlParser通過Node、AbstractNode和Tag重新定義HTML的信息。在程序中，通過定義NodeFilter對象對html中提供文本輸入的標(biāo)簽進(jìn)行過濾，可以方便地找到消息文本的內(nèi)容。
[0015]所述的數(shù)據(jù)輸出子單元的功能特點(diǎn)如下:
[0016]通過爬蟲得到的數(shù)據(jù)結(jié)果以用userid命名的文件輸出，存儲在文件中的數(shù)據(jù)內(nèi)容格式為數(shù)據(jù)ID、數(shù)據(jù)類型、內(nèi)容、內(nèi)容語言、發(fā)布時(shí)間。
[0017]所述的分析檢測單元的功能特點(diǎn)如下:
[0018]以數(shù)據(jù)獲取單元得到的結(jié)果為輸入，對其進(jìn)行預(yù)處理，并在分析檢測方法中提出了 7個(gè)用戶行為特征，對這7個(gè)特征分別進(jìn)行建模，對用戶所有的歷史數(shù)據(jù)根據(jù)這個(gè)7個(gè)特征模型建模，得到用戶的行為輪廓。對歷史數(shù)據(jù)的最后一個(gè)時(shí)間點(diǎn)之后的數(shù)據(jù)，先按照7個(gè)行為特征進(jìn)行分類，然后對每個(gè)行為特征得到一個(gè)異常得分，最后將7個(gè)異常得分進(jìn)行計(jì)算得到總的異常得分，從而判斷該用戶是否異常。
[0019]本單元采用的分析檢測方法包括用戶行為建模，用戶消息的相似度分析，如何對消息的異常得分進(jìn)行計(jì)算，以及如何最終檢測異常事件四個(gè)方面。
[0020]所述的用戶行為建模的功能特點(diǎn)如下:
[0021]用戶行為輪廓是通過用戶在社交網(wǎng)絡(luò)上的歷史行為得到的，它可以用來預(yù)期該用戶在將來的正常行為。為了建立用戶的行為輪廓，即用戶行為建模，就需要該用戶發(fā)布在社交網(wǎng)站上的消息流，而這些消息流正是數(shù)據(jù)獲取單元得到的結(jié)果。所以可以使用數(shù)據(jù)獲取單元得到的結(jié)果進(jìn)行行為輪廓的建立。
[0022]針對社交網(wǎng)絡(luò)的特點(diǎn)和檢測的需要，對于每條消息，本單元設(shè)定了 7個(gè)特征，對于每個(gè)特征訓(xùn)練一個(gè)統(tǒng)計(jì)模型。其中的每個(gè)模型都反應(yīng)了該條消息某方面的特性，對某個(gè)用戶的所有消息分析完之后，就可以得到該用戶在這7個(gè)方面的特征值，就可以預(yù)期該用戶發(fā)送的消息應(yīng)該是怎樣的。下面對每條消息的7個(gè)特征模型進(jìn)行詳細(xì)介紹。
[0023]1、消息發(fā)送的時(shí)間(hour/day)。這個(gè)特征模型用來捕獲一個(gè)帳號在一天中的哪些時(shí)間是活躍的。許多用戶在一天中的確定時(shí)間段是不活躍的，例如午飯時(shí)間、或者睡眠時(shí)間。通過用戶的消息流中用戶發(fā)布消息的時(shí)間，可以判定出哪些是非活躍時(shí)間，那么發(fā)布在非活躍時(shí)間的消息就被認(rèn)為是異常的。
[0024]2、消息源。發(fā)布消息的應(yīng)用程序。大多數(shù)社交網(wǎng)站提供傳統(tǒng)網(wǎng)絡(luò)和移動網(wǎng)絡(luò)接入給他們的用戶，以及用于移動平臺的應(yīng)用程序例如iOS和Android。許多社交網(wǎng)絡(luò)提供多種由第三方開發(fā)者獨(dú)立創(chuàng)建的應(yīng)用程序。當(dāng)然，在默認(rèn)情況下，第三方應(yīng)用程序不能發(fā)消息到用戶的帳戶。然而，如果一個(gè)用戶選擇這種方式發(fā)送，他可以授予這種特權(quán)給這個(gè)應(yīng)用，這就使該第三方應(yīng)用在沒有用戶憑據(jù)的情況下能夠訪問用戶的個(gè)人資料。事實(shí)上，根據(jù)相關(guān)評估顯示，第三方應(yīng)用程序經(jīng)常被用來發(fā)送惡意消息。
[0025]該模型用來確定用戶是否以前常使用特定應(yīng)用程序，或者反過來說，這是否是第一次使用某種應(yīng)用程序來發(fā)送消息。每當(dāng)用戶使用一個(gè)新的應(yīng)用程序發(fā)布消息，這個(gè)變化可能表明，一個(gè)攻擊者已成功引誘受害者授權(quán)惡意應(yīng)用程序訪問他的帳戶。
[0026]3、消息文本(語言)。用戶可以自由地使用任何語言發(fā)布消息。然而，事實(shí)上每個(gè)用戶只使用為數(shù)不多的語言種類來發(fā)布消息(通常，一個(gè)或兩個(gè))。因此，特別是當(dāng)這個(gè)模型特點(diǎn)(消息語言)是相對穩(wěn)定的，突然的語言變化則顯示用戶行為可疑。
[0027]要確定一個(gè)消息使用的語言,利用Iibtextcat庫。這個(gè)庫是一個(gè)執(zhí)行以n-gram為基礎(chǔ)的文本分類算法的開源庫。
[0028]4、消息話題。用戶發(fā)布的消息往往包含許多喋喋不休或世俗的信息。但是，很多用戶有一組他們經(jīng)常談?wù)摰脑掝}，比如最喜歡的運(yùn)動隊(duì)，樂隊(duì)，或電視節(jié)目。當(dāng)用戶發(fā)布的消息通常集中在幾個(gè)話題中，然后突然發(fā)布一些不同和無關(guān)的話題，這個(gè)新的消息應(yīng)該被評為異常。
[0029]一般，從沒有上下文的短的文本片段，推斷消息的話題是困難的。然而，社交網(wǎng)絡(luò)平臺允許用戶標(biāo)記消息，明確指定他們的消息是哪個(gè)話題的。當(dāng)在有標(biāo)簽的情況下，它們提供了有價(jià)值的信息來源。一個(gè)眾所周知的例子的消息標(biāo)記機(jī)制是人人網(wǎng)、微博的話題標(biāo)簽，通常使用“ 兩個(gè)“ # ”號中間的為話題。
[0030]5、消息中的鏈接。通常情況下，發(fā)布在社交網(wǎng)站的消息包含指向其他資源的鏈接，如博客，圖片，視頻或新聞文章。從社交網(wǎng)出現(xiàn)到現(xiàn)在，消息中的鏈接都廣泛存在著，因而以前更多的關(guān)于社交網(wǎng)的安全研究工作都集中在對URL的分析，并把它作為確定消息是否為惡意的唯一的因素。論文也把消息中的URL作為用戶行為輪廓的一部分，但只是作為一個(gè)單一的特征模型。另外，確立該行為模型特征主要是用來捕捉用戶的正常活動。也就是說，本檢測方法不試圖檢測一個(gè)URL本身是否是惡意的，而是去檢測該用戶正常情況下會否發(fā)送這樣的URL。[0031]為了確定在消息中出現(xiàn)的鏈接，本方法只利用鏈接中URL的域名。其原因在于用戶可能會經(jīng)常引用在同一個(gè)域名中的內(nèi)容。例如，許多用戶往往看特定的新聞網(wǎng)站和博客，并經(jīng)常鏈接到在那里的有趣文章。惡意鏈接，另一方面，指向的是不合法的網(wǎng)站。因此，鏈接信息包含過去沒有出現(xiàn)過的域名時(shí)則表示了一種變化。該行為模型還考慮了消息中包含鏈接的頻率，以及用戶鏈接到特定網(wǎng)站的一致性。
[0032]6、用戶間交互。社交網(wǎng)絡(luò)提供單個(gè)用戶間直接進(jìn)行交互的機(jī)制。最常見的方式是通過直接發(fā)送消息到接收者。不同的社交網(wǎng)絡(luò)有不同的機(jī)制。隨著時(shí)間的推移，一個(gè)用戶在社交網(wǎng)絡(luò)就建立了一個(gè)與其他用戶互動的歷史記錄。通過社交網(wǎng)的這個(gè)特性就可以捕獲一個(gè)用戶的歷史交互記錄。事實(shí)上，它跟蹤用戶帳戶所有發(fā)生過的交互。發(fā)送消息的目的是為了得到接收者的注意，因此這種用戶間的直接交互方式常被用來發(fā)送垃圾消息。
[0033]7、鄰近的地理位置。在許多情況下，用戶在社交網(wǎng)絡(luò)中的朋友就是在現(xiàn)實(shí)中與他們親近的其他用戶。例如，一個(gè)人人網(wǎng)的用戶將有很多住在同一個(gè)城市，上同一所學(xué)校，或者工作在相同的公司的朋友。如果該用戶突然開始與生活在另一個(gè)大陸的人交往，這可能是可疑的。該特征用于捕捉消息是當(dāng)?shù)氐倪€是非本地的。
[0034]對于用戶的每條消息按上述7個(gè)特征模型進(jìn)行建模，然后對其進(jìn)行模型訓(xùn)練和評估。
[0035]所述的模型訓(xùn)練的功能特點(diǎn)如下:
[0036]模型訓(xùn)練的輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個(gè)消息，提取上述7個(gè)特征，例如發(fā)送消息的源程序和消息中包含的鏈接。
[0037]每一個(gè)特征模型用集合M來表示。M的每個(gè)元素是一個(gè)鍵值對元組<fv，C〉。fv是特征值(例如，英語的語言模型，或者鏈接模型examp I e.com )。c表示fv值出現(xiàn)的消息個(gè)數(shù)。此外，每個(gè)模型都存儲訓(xùn)練消息的總數(shù)N。
`[0038]將訓(xùn)練模型分為兩類:
[0039](I)必要模型是對于每一個(gè)消息都有一個(gè)特征值，并且這個(gè)特征值總是出現(xiàn)的模型。默認(rèn)模型包括消息發(fā)送的時(shí)間，消息源，鄰近的地理位置和消息語言。
[0040](2)可選模型是指對于一個(gè)消息來說，該模型不一定總需要有值。同時(shí)，不同于必要模型的是，對于一個(gè)消息來說，這個(gè)模型可以對應(yīng)多個(gè)值?？蛇x模型，包括鏈接，用戶間交互和主題。例如，一個(gè)消息可能有O個(gè)，一個(gè)或者多個(gè)鏈接。對于每個(gè)可選模型，我們保留一個(gè)fV=null，并把這個(gè)特征值的“c”值提出(例如，沒有鏈接的消息數(shù))。
[0041]對于消息發(fā)送時(shí)間這個(gè)特征模型的訓(xùn)練稍有不同。基于前面的描述，系統(tǒng)首先提取消息發(fā)送于幾點(diǎn)。然后，它將存儲每個(gè)小時(shí)的fv，以及在這一小時(shí)被發(fā)布的消息數(shù)。這樣就會有一個(gè)問題，就是時(shí)間段可能是不連續(xù)的，是離散的。因此，在用戶的正常時(shí)間附近的時(shí)間點(diǎn)發(fā)送的消息就可能會被錯(cuò)誤地認(rèn)為是異常。
[0042]為了避免這個(gè)問題，在對時(shí)間模型訓(xùn)練之后調(diào)整步驟。具體來說就是，對于每個(gè)小時(shí)i，考慮與它相鄰的兩個(gè)小時(shí)。即，對于M的每個(gè)鍵值對〈i，Ci>，一個(gè)新的計(jì)算變量C’ i用來計(jì)算第i個(gè)小時(shí)Ci發(fā)布消息的平均數(shù)，變量Cg用來存儲之前那個(gè)小時(shí)發(fā)送的消息數(shù)，Ci+!用戶存儲第i小時(shí)之后的那個(gè)小時(shí)發(fā)送的消息數(shù)。當(dāng)計(jì)算出C’i，就用它來代替鍵值對〈i，Ci> 中的 Ci。
[0043]所述的模型評估的功能特點(diǎn)如下:[0044]模型的評估，即計(jì)算7個(gè)行為特征模型的異常得分，并最終將這個(gè)7個(gè)值采用一定的算法整合為一個(gè)值，即該條消息的異常得分。
[0045]> 7個(gè)特征模型異常得分的計(jì)算:
[0046]在一般情況下，當(dāng)一個(gè)消息的必要模型中的特征值沒有出現(xiàn)在用戶的信息流中，或者特征值出現(xiàn)的次數(shù)與M中的鍵值對不匹配，那么這個(gè)消息就是異常的。
[0047]對于必要模型的特征模型，消息的異常得分是通過如下方式計(jì)算的:
[0048]1、首先要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個(gè)元素的鍵值對，那么就可以從M中提取整個(gè)鍵值對。如果M中不存在以fv為第一個(gè)值的鍵值對，那么這個(gè)消息就是異常的，那么程序在這里就會返回異常得分I。
[0049]2、第二步，根據(jù)用戶的行為輪廓分析fv是否是異常的。c和M進(jìn)行比較，基于公式:
【權(quán)利要求】
1.一種社交網(wǎng)用戶異常行為的分析方法，可以檢測目標(biāo)社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件，包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財(cái)?shù)鹊?。其特征在于，基于網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù)，將這些數(shù)據(jù)作為用戶行為分析的基礎(chǔ)，對用戶發(fā)布的消息進(jìn)行建模和訓(xùn)練，提取出用戶的行為輪廓，根據(jù)用戶的行為輪廓評估新消息是否異常，當(dāng)檢測到異常事件時(shí)發(fā)出告警。該方法主要由三個(gè)功能單元組成，即數(shù)據(jù)獲取、分析檢測和異常報(bào)警，其中: 數(shù)據(jù)獲取，旨在獲取到社交網(wǎng)中用戶的Deep Web數(shù)據(jù)，即用戶發(fā)布和分享的狀態(tài)、日志，鏈接等數(shù)據(jù)，這些數(shù)據(jù)需要采用網(wǎng)絡(luò)爬蟲方法對社交網(wǎng)絡(luò)進(jìn)行深層網(wǎng)絡(luò)爬蟲，即基于在目標(biāo)檢測社交網(wǎng)站注冊的有效登錄用戶帳號，采用該帳號登錄目標(biāo)檢測網(wǎng)站從而獲取網(wǎng)站授權(quán)，爬取出用戶的Deep Web數(shù)據(jù)。分析檢測，根據(jù)數(shù)據(jù)獲取單元得到的用戶數(shù)據(jù)建立用戶行為模型，并對其進(jìn)行訓(xùn)練和評估，然后對每個(gè)用戶的行為數(shù)據(jù)進(jìn)行基于內(nèi)容的相似度分類，最后根據(jù)特定算法進(jìn)行異常檢測。異常報(bào)警，當(dāng)檢測到異常用戶時(shí)發(fā)生報(bào)警，提供短信發(fā)送和報(bào)警查詢功能。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)獲取功能單元，其特征在于:獲取該方法的分析基礎(chǔ)——社交網(wǎng)用戶數(shù)據(jù)，首先需要取得目標(biāo)檢測社交網(wǎng)站的身份授權(quán)，然后采用網(wǎng)絡(luò)爬蟲技術(shù)獲得從登錄節(jié)點(diǎn)起始的所有具有查看權(quán)限的用戶種子集，針對該種子集可采用時(shí)間軸數(shù)據(jù)進(jìn)行種子集中所有用戶數(shù)據(jù)的抓取，從爬取到的結(jié)果集中按照userid，userid即用戶唯一 ID號，再進(jìn)行分析，獲得該userid對應(yīng)的用戶的所有新鮮事，可提取出該userid發(fā)布和分享的所有狀態(tài)、日志、鏈接等數(shù)據(jù)信息，然后對這些數(shù)據(jù)信息進(jìn)行HTML文本解析和語言解析，解析后用以userid命名的文件形式輸出，文件內(nèi)容包括數(shù)據(jù)Id、發(fā)布時(shí)間、數(shù)據(jù)類型、內(nèi)容、語言類型、是否包含鏈接、鏈接地址等。
3.根據(jù)權(quán)利要求1所·述的分析檢測單元中用戶行為建模方法，其特征在于:通過用戶發(fā)布在社交網(wǎng)站上的消息流建立用戶的行為輪廓，而這些消息流正是數(shù)據(jù)獲取單元得到的輸出。針對社交網(wǎng)絡(luò)的特點(diǎn)和檢測的需要，對于每條消息，本單元設(shè)定7個(gè)特征，針對每個(gè)特征訓(xùn)練一個(gè)統(tǒng)計(jì)模型。每個(gè)模型都反應(yīng)該條消息某方面的特性，在對某用戶的所有消息分析完之后，可以得到該用戶在此7個(gè)方面的特征值，從而可預(yù)期該用戶發(fā)送的消息內(nèi)容。
4.根據(jù)權(quán)利要求3所述7種特征，其特征在于:7種特征對應(yīng)每條消息的7個(gè)特征模型，分別為消息發(fā)送的時(shí)間(hour/day)、發(fā)布消息的應(yīng)用程序、語言類型、話題、鏈接、用戶間交互和地理位置，并將此7種特征分為兩類: (1)必要模型是對于每一個(gè)消息都有一個(gè)特征值，并且這個(gè)特征值總是出現(xiàn)。默認(rèn)特征包括消息發(fā)送的時(shí)間，消息源，鄰近的地理位置和消息語言。 (2)可選模型是指對于一個(gè)消息來說，該特征不一定總需要有值。同時(shí)，不同于必要模型的是，對于一個(gè)消息來說，這個(gè)特征可以對應(yīng)多個(gè)值?？蛇x模型，包括鏈接，用戶間交互和主題。例如，一個(gè)消息可能有O個(gè)，一個(gè)或者多個(gè)鏈接。對于每個(gè)可選模型，我們保留一個(gè)fv=null,并把這個(gè)特征值的“c”值提出(例如,沒有鏈接的消息數(shù))。fv指某特征值，c表示fv出現(xiàn)的消息個(gè)數(shù)。
5.根據(jù)權(quán)利要求1所述分析檢測單元中用戶行為模型的訓(xùn)練和評估，其特征在于:對于模型的訓(xùn)練: 輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個(gè)消息，提取上述7個(gè)特征，例如發(fā)送消息的源程序和消息中包含的鏈接。每一個(gè)特征模型用集合M來表示。M的每個(gè)元素是一個(gè)鍵值對元組<fV，c〉。fv是特征值(例如，英語的語言模型，或者鏈接模型example, com)。c表示fv值出現(xiàn)的消息個(gè)數(shù)。此外，每個(gè)模型都存儲訓(xùn)練消息的總數(shù)N。對于消息發(fā)送時(shí)間這個(gè)特征模型的訓(xùn)練稍有不同。具體來說就是，對于每個(gè)小時(shí)i，考慮與它相鄰的兩個(gè)小時(shí)。即，對于M的每個(gè)鍵值對<i，CiX—個(gè)新的計(jì)算變量C%用來計(jì)算第i個(gè)小時(shí)Ci發(fā)布消息的平均數(shù)，變量C^1用來存儲之前那個(gè)小時(shí)發(fā)送的消息數(shù)，Cf1用戶存儲第i小時(shí)之后的那個(gè)小時(shí)發(fā)送的消息數(shù)。當(dāng)計(jì)算出C’ i，就用它來代替鍵值對<i，Ci)中的C” 對于模型的評估: 即計(jì)算一條消息的異常得分，看這條消息是否不符合用戶的行為輪廓。對于的特征模型，消息的異常得分是通過如下方式計(jì)算的: (1)首先必要模型要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個(gè)元素的鍵值對，那么就可以從M中提取整個(gè)鍵值對。如果M中不存在以fv為第一個(gè)值的鍵值對，那么這個(gè)消息就是異常的，那么程序在這里就會返回異常得分I。 (2)根據(jù)用戶的行為輪廓分析fv是否是異常的。c和巧進(jìn)行比較，基于公式:
6.根據(jù)權(quán)利要求1所述分析檢測單元中基于內(nèi)容的相似度分類，其特征在于:所述分析檢測單元中基于內(nèi)容的相似度分類，帳號異常檢測需要進(jìn)行基于內(nèi)容的相似度分析的原因是基于這樣一個(gè)事實(shí):釣魚、詐騙等消息是需要大量傳播的。所以當(dāng)只有一條消息被判定為異常時(shí)，并不認(rèn)為其對應(yīng)帳號發(fā)生異常，需要進(jìn)一步觀察更多的其他類似消息，只有類似消息達(dá)到一定數(shù)量時(shí)，才認(rèn)定發(fā)送這些消息的帳號為異常帳號。內(nèi)容相似度的計(jì)算有兩種方法:一是文本內(nèi)容相似度；二是包含的URL相似度。
7.根據(jù)權(quán)利要求1所述分析檢測單元中異常檢測，其特征在于:主要檢測兩類異常:一是受侵害的可疑用戶群組；二是非受侵害的可疑用戶或應(yīng)用。它們的不同之處在于:前者存在正常的用戶行為輪廓，之后發(fā)布了大量相似的消息；后者從頭到尾都在發(fā)布大量相似的消息。數(shù)據(jù)獲取單元得到的是一定時(shí)間間隔的用戶數(shù)據(jù)，因而在分析檢測單元中，基于內(nèi)容分類的消息也是在一定時(shí)間間隔內(nèi)的。這每個(gè)時(shí)間間隔內(nèi)的數(shù)據(jù)叫做一個(gè)分組。對于每個(gè)分組，本方法檢查所有用戶帳戶的消息是否違反了其用戶行為輪廓?；谶@樣的分析，就能檢測出一個(gè)賬戶是否是異常的。異常帳號檢測的規(guī)則是:每個(gè)分組中只要有消息的個(gè)人行為模型異常評分超過一定閥值，就判定這個(gè)分組為異常消息組，則其中所有消息對應(yīng)的帳號為異常帳號。閥值的計(jì)算方式為:
th (n) =max (0.1, kn+d) 其中η為分組數(shù)量，通過實(shí)驗(yàn)得到當(dāng)k=-0.005, d=0.82時(shí)結(jié)果最準(zhǔn)確。由公式可知，分組規(guī)模小的異常消息判定閥值較高，分組規(guī)模大的閥值較低。
8.根據(jù)權(quán)利要求1所述的異常報(bào)警單元，其特征在于:所述報(bào)警單元提供報(bào)警提示和報(bào)警查詢兩種服務(wù)，并提供三種調(diào)用方式——Curl, Thrift和Json方式。其中，報(bào)警提示以發(fā)送短信的方式提供?！?br> 【文檔編號】G06F17/30GK103853841SQ201410101728
【公開日】2014年6月11日申請日期:2014年3月19日優(yōu)先權(quán)日:2014年3月19日
【發(fā)明者】閆丹鳳, 吳海莉, 徐佳申請人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：閆丹鳳;吳海莉;徐佳
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：一種體感游戲機(jī)及其體感游戲的登錄方法和裝置制造方法
上一篇：曲線圖顯示裝置以及曲線圖顯示方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

社交網(wǎng)絡(luò)用戶行為分析相關(guān)技術(shù)

2016社交用戶行為分析相關(guān)技術(shù)

社交媒體用戶行為分析相關(guān)技術(shù)

異常用戶行為分析模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種社交網(wǎng)用戶異常行為的分析方法