欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于識(shí)別論壇用戶馬甲賬號(hào)的方法和系統(tǒng)的制作方法

文檔序號(hào):6536679閱讀:264來源:國知局
用于識(shí)別論壇用戶馬甲賬號(hào)的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種用于識(shí)別論壇用戶馬甲賬號(hào)的方法。該方法基于訓(xùn)練集中各用戶賬號(hào)及每個(gè)文本的特征向量來訓(xùn)練分類模型,利用訓(xùn)練好的分類模型確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中哪個(gè)用戶賬號(hào),然后基于所述分類結(jié)果來識(shí)別馬甲賬號(hào)。該方法從論壇用戶賬號(hào)發(fā)言的文本數(shù)據(jù)中選取特征,通過挖掘賬號(hào)的語言風(fēng)格的相似性來判斷屬于同一人的多個(gè)賬號(hào)間的關(guān)系,提高了識(shí)別馬甲賬號(hào)的概率。而且針對(duì)網(wǎng)絡(luò)語言的語法不嚴(yán)謹(jǐn),并且有許多的網(wǎng)絡(luò)用語的特點(diǎn),通過提取用戶發(fā)言文本中有效的特征進(jìn)行分析,規(guī)避了詞庫更新內(nèi)容和速度跟不上網(wǎng)絡(luò)語言的流行等問題,減少了維護(hù)分詞詞典的復(fù)雜操作,提高了馬甲識(shí)別的準(zhǔn)確率。
【專利說明】用于識(shí)別論壇用戶馬甲賬號(hào)的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)安全領(lǐng)域,尤其涉及識(shí)別論壇用戶馬甲賬號(hào)的方法。
【背景技術(shù)】
[0002]如今,全球超過15億人使用社交網(wǎng)絡(luò),全球社交網(wǎng)絡(luò)的月活躍用戶數(shù)量早已超過20億,每天產(chǎn)生大量的言論。社交網(wǎng)站的后臺(tái)實(shí)名注冊(cè)實(shí)施困難,還沒有完全普及;即使網(wǎng)站后臺(tái)是基于實(shí)名制的,但是網(wǎng)絡(luò)言論在網(wǎng)站前臺(tái)大都是匿名的,不易知道網(wǎng)絡(luò)上的言論所屬網(wǎng)絡(luò)用戶的真實(shí)身份。在社交網(wǎng)絡(luò)中,一個(gè)人擁有多個(gè)賬號(hào)(ID)的情況十分常見,或是在同一網(wǎng)站擁有幾個(gè)賬號(hào)或是在不同網(wǎng)站均注冊(cè)賬號(hào)。一個(gè)人在同一網(wǎng)站注冊(cè)多于2個(gè)賬號(hào)時(shí),常用的賬號(hào)為主賬號(hào),而其余賬號(hào)稱為馬甲賬號(hào),簡(jiǎn)稱馬甲。馬甲的功能中一部分是負(fù)面的,其中:利用不同身份為自己所開的討論沖人氣或推文;在主賬號(hào)已有固定的朋友圈或形成固定形象時(shí),使用馬甲反對(duì)甚至詆毀他人或發(fā)表另類見解;注冊(cè)成千上萬個(gè)賬號(hào)來發(fā)布不良信息、散布謠言、炒作或者通過賣等級(jí)高的馬甲賬號(hào)獲益等等。這樣的行為既浪費(fèi)網(wǎng)絡(luò)資源,又影響網(wǎng)絡(luò)的安全性和公平性。
[0003]現(xiàn)有的馬甲賬號(hào)識(shí)別方法中,主要是基于IP鑒定、基于臨時(shí)郵箱或基于用戶賬號(hào)行為分析來識(shí)別馬甲賬號(hào)。但是在這些方法中,可利用的用戶信息僅限于賬號(hào)曾使用的IP地址、賬號(hào)的注冊(cè)信息或賬號(hào)的操作行為等,因此識(shí)別范圍小且識(shí)別準(zhǔn)確率低。

【發(fā)明內(nèi)容】

[0004]因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種新的論壇用戶馬甲識(shí)別方法。
[0005]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0006]一方面,本發(fā)明提供了一種用于識(shí)別論壇用戶馬甲賬號(hào)的方法,包括:
[0007]步驟1,以來自論壇服務(wù)器的一組用戶賬號(hào)發(fā)言的文本作為訓(xùn)練集,基于訓(xùn)練集中各用戶賬號(hào)及每個(gè)文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號(hào);
[0008]步驟2,利用訓(xùn)練好的分類模型確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中哪個(gè)用戶賬號(hào);
[0009]步驟3,基于所述分類結(jié)果來識(shí)別馬甲賬號(hào)。
[0010]上述方法中,所述步驟I可包括:
[0011]11)對(duì)訓(xùn)練集中各用戶賬號(hào)的每個(gè)文本進(jìn)行分詞及詞性標(biāo)注;
[0012]12)從經(jīng)分詞和詞性標(biāo)注后的各個(gè)文本中選取特征詞,構(gòu)建各文本的特征向量;
[0013]13)基于訓(xùn)練集中各用戶賬號(hào)以及所構(gòu)建的各個(gè)文本的特征向量來訓(xùn)練所述分類模型。
[0014]上述方法中,所述步驟12)可包括:
[0015]對(duì)于經(jīng)分詞和詞性標(biāo)注后的每個(gè)文本,從中提取2-gram詞組并統(tǒng)計(jì)該詞組在該文本中出現(xiàn)的次數(shù),將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞;
[0016]從每個(gè)文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表;以及
[0017]基于該訓(xùn)練集的特征詞表,構(gòu)建每個(gè)文本的特征向量。
[0018]上述方法中,所述步驟12)可包括:
[0019]從經(jīng)分詞和詞性標(biāo)注后的各個(gè)文本中選取長(zhǎng)度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞,以組成該訓(xùn)練集的特征詞表;以及
[0020]基于該訓(xùn)練集的特征詞表,構(gòu)建每個(gè)文本的特征向量。
[0021]上述方法中,所述步驟I中所述分類模型可以為支持向量機(jī)模型。 [0022]上述方法中,所述訓(xùn)練集與所述測(cè)試集可以為同一集合。
[0023]上述方法中,所述步驟2可包括:
[0024]21)基于訓(xùn)練好的分類模型,確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中各個(gè)用戶賬號(hào)的概率;
[0025]22)對(duì)于每個(gè)文本,比較該文本被分到非該文本所屬的用戶賬號(hào)的概率,取最大概率值對(duì)應(yīng)的用戶賬號(hào)為該文本所分類到的用戶賬號(hào)。
[0026]上述方法中,所述訓(xùn)練集與所述測(cè)試集可以為不同的集合。
[0027]上述方法中,所述步驟2可包括:
[0028]21)基于訓(xùn)練好的分類模型,確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中各個(gè)用戶賬號(hào)的概率;
[0029]22)對(duì)于測(cè)試集中每個(gè)文本,取最大概率值對(duì)應(yīng)的訓(xùn)練集中的用戶賬號(hào)為該文本所分類到的用戶賬號(hào)。
[0030]上述方法中,所述步驟3可包括:
[0031]31)對(duì)于測(cè)試集中每個(gè)用戶賬號(hào)的多個(gè)文本,按文本所屬的用戶賬號(hào)匯總統(tǒng)計(jì)出測(cè)試集中每個(gè)用戶賬號(hào)的文本被分類到訓(xùn)練集中各用戶賬號(hào)的數(shù)量;
[0032]32)對(duì)于測(cè)試集中待識(shí)別的用戶賬號(hào),將所述數(shù)量的最大值對(duì)應(yīng)的訓(xùn)練集中的用戶賬號(hào)判斷為馬甲賬號(hào)。
[0033]上述方法中,所述步驟3可包括:
[0034]301)對(duì)于測(cè)試集中每個(gè)用戶賬號(hào)的多個(gè)文本,按文本所屬的用戶賬號(hào)匯總統(tǒng)計(jì)出測(cè)試集中每個(gè)用戶賬號(hào)的文本被分類到訓(xùn)練集中各用戶賬號(hào)的數(shù)量;
[0035]302)對(duì)于測(cè)試集中待識(shí)別用戶賬號(hào),采用下面的兩個(gè)公式計(jì)算該用戶賬號(hào)對(duì)訓(xùn)練集中每個(gè)用戶賬號(hào)的如下兩組相似度:
[0036]
【權(quán)利要求】
1.一種用于識(shí)別論壇用戶馬甲賬號(hào)的方法,所述方法包括: 步驟1,以來自論壇服務(wù)器的一組用戶賬號(hào)發(fā)言的文本作為訓(xùn)練集,基于訓(xùn)練集中各用戶賬號(hào)及每個(gè)文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號(hào); 步驟2,利用訓(xùn)練好的分類模型確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中哪個(gè)用戶賬號(hào); 步驟3,基于所述分類結(jié)果來識(shí)別馬甲賬號(hào)。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟I包括: 11)對(duì)訓(xùn)練集中各用戶賬號(hào)的每個(gè)文本進(jìn)行分詞及詞性標(biāo)注; 12)從經(jīng)分詞和詞性標(biāo)注后的各個(gè)文本中選取特征詞,構(gòu)建各文本的特征向量; 13)基于訓(xùn)練集中各用戶賬號(hào)以及所構(gòu)建的各個(gè)文本的特征向量來訓(xùn)練所述分類模型。
3.根據(jù)權(quán)利要求2所述的方法,所述步驟12)包括: 對(duì)于經(jīng)分詞和詞性標(biāo)注后的每個(gè)文本,從中提取2-gram詞組并統(tǒng)計(jì)該詞組在該文本中出現(xiàn)的次數(shù),將所提取的出現(xiàn)次數(shù)不低于設(shè)定的閾值的詞組作為特征詞; 從每個(gè)文本中提取的特征詞共同組成該訓(xùn)練集的特征詞表;以及 基于該訓(xùn)練集的特征詞表,構(gòu)建每個(gè)文本的特征向量。`
4.根據(jù)權(quán)利要求2所述的方法,所述步驟12)包括: 從經(jīng)分詞和詞性標(biāo)注后的各個(gè)文本中選取長(zhǎng)度不低于2的且出現(xiàn)頻率不低于2的詞語作為特征詞,以組成該訓(xùn)練集的特征詞表;以及 基于該訓(xùn)練集的特征詞表,構(gòu)建每個(gè)文本的特征向量。
5.根據(jù)權(quán)利要求1所述的方法,所述步驟I中所述分類模型為支持向量機(jī)模型。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述訓(xùn)練集與所述測(cè)試集為同一集合。
7.根據(jù)權(quán)利要求6所述的方法,所述步驟2包括: 21)基于訓(xùn)練好的分類模型,確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中各個(gè)用戶賬號(hào)的概率; 22)對(duì)于每個(gè)文本,比較該文本被分到非該文本所屬的用戶賬號(hào)的概率,取最大概率值對(duì)應(yīng)的用戶賬號(hào)為該文本所分類到的用戶賬號(hào)。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述訓(xùn)練集與所述測(cè)試集為不同的集合。
9.根據(jù)權(quán)利要求8所述的方法,所述步驟2包括: 21)基于訓(xùn)練好的分類模型,確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中各個(gè)用戶賬號(hào)的概率; 22)對(duì)于測(cè)試集中每個(gè)文本,取最大概率值對(duì)應(yīng)的訓(xùn)練集中的用戶賬號(hào)為該文本所分類到的用戶賬號(hào)。
10.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 31)對(duì)于測(cè)試集中每個(gè)用戶賬號(hào)的多個(gè)文本,按文本所屬的用戶賬號(hào)匯總統(tǒng)計(jì)出測(cè)試集中每個(gè)用戶賬號(hào)的文本被分類到訓(xùn)練集中各用戶賬號(hào)的數(shù)量; 32)對(duì)于測(cè)試集中待識(shí)別的用戶賬號(hào),將所述數(shù)量的最大值對(duì)應(yīng)的訓(xùn)練集中的用戶賬號(hào)判斷為馬甲賬號(hào)。
11.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 301)對(duì)于測(cè)試集中每個(gè)用戶賬號(hào)的多個(gè)文本,按文本所屬的用戶賬號(hào)匯總統(tǒng)計(jì)出測(cè)試集中每個(gè)用戶賬號(hào)的文本被分類到訓(xùn)練集中各用戶賬號(hào)的數(shù)量; 302)對(duì)于測(cè)試集中待識(shí)別用戶賬號(hào),采用下面的兩個(gè)公式計(jì)算該用戶賬號(hào)對(duì)訓(xùn)練集中每個(gè)用戶賬號(hào)的如下兩組相似度:
12.一種用于識(shí)別論壇用戶馬甲賬號(hào)的系統(tǒng),所述系統(tǒng)包括: 訓(xùn)練裝置,用于基于訓(xùn)練集中各用戶賬號(hào)及每個(gè)文本的特征向量來訓(xùn)練分類模型,所述分類模型用于判斷文本所屬的用戶賬號(hào);其中,所述訓(xùn)練集包括來自論壇服務(wù)器的一組用戶賬號(hào)發(fā)言的文本; 分類裝置,用于利用訓(xùn)練好的分類模型確定測(cè)試集中每個(gè)文本被分類到訓(xùn)練集中哪個(gè)用戶賬號(hào); 馬甲識(shí)別裝置,用于基于所述分類結(jié)果來識(shí)別馬甲賬號(hào)。
【文檔編號(hào)】G06F17/30GK103729474SQ201410032746
【公開日】2014年4月16日 申請(qǐng)日期:2014年1月23日 優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】許洪波, 樊茜, 梁英, 程學(xué)旗, 張國清 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
明溪县| 彭山县| 洛阳市| 繁昌县| 手游| 长顺县| 紫金县| 河池市| 铜鼓县| 民丰县| 诏安县| 弥勒县| 都江堰市| 霍邱县| 双柏县| 盐源县| 隆回县| 青铜峡市| 霸州市| 平乡县| 于田县| 偃师市| 山丹县| 玉山县| 共和县| 靖远县| 阳信县| 自治县| 邳州市| 南阳市| 武宣县| 甘南县| 亳州市| 镇坪县| 连州市| 于田县| 沽源县| 金寨县| 武邑县| 论坛| 股票|