一種用戶標(biāo)識(shí)識(shí)別方法和裝置的制造方法
【專利摘要】本發(fā)明公開了一種用戶標(biāo)識(shí)識(shí)別方法和裝置,涉及計(jì)算機(jī)技術(shù)領(lǐng)域。所述方法包括:獲取多個(gè)用戶標(biāo)識(shí);計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度;針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值;若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。由此解決了現(xiàn)有的基于規(guī)則的定性識(shí)別方法需要較多的人工干預(yù)且適用性不高,以及機(jī)器學(xué)習(xí)的方法時(shí)間成本過高且對(duì)數(shù)據(jù)的完備性要求較高,效率較低等問題,取得了降低時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,提高了用戶識(shí)別的效率以及適用性的有益效果。
【專利說明】
一種用戶標(biāo)識(shí)識(shí)別方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種用戶標(biāo)識(shí)識(shí)別方法和一種用戶標(biāo)識(shí)識(shí)別裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)信息交互平臺(tái)逐漸成為人們獲取信息的主要渠道。所謂互聯(lián)網(wǎng)信息交互平臺(tái),簡(jiǎn)稱信息交互平臺(tái)IIP (Informat1n Interact1nPlatform)是指:所有的可以進(jìn)行信息發(fā)布、表達(dá)、交互(包括回復(fù)、轉(zhuǎn)載)等操作的信息系統(tǒng)和平臺(tái),形式如社區(qū)、論壇、社交網(wǎng)絡(luò)、媒體、門戶等等。然而隨著IIP營(yíng)銷的普及,IIP平臺(tái)中的網(wǎng)絡(luò)水軍的數(shù)量也急劇增長(zhǎng)。網(wǎng)絡(luò)水軍可以制造大量無意義或者是不真實(shí)的垃圾信息,不僅嚴(yán)重影響了 IIP平臺(tái)的用戶體驗(yàn),而且制造了大量的噪音,影響了 IIP平臺(tái)數(shù)據(jù)的可信度。具體而言,IIP網(wǎng)絡(luò)水軍可以分為由水軍算法控制的僵尸網(wǎng)絡(luò)水軍和真人網(wǎng)絡(luò)水軍,其中大多數(shù)僵尸網(wǎng)絡(luò)水軍經(jīng)過不斷的進(jìn)化,已經(jīng)具備高度的智能,偽裝程度越來越高。真人網(wǎng)絡(luò)水軍在大多數(shù)情況下與真實(shí)的普通用戶無異,僅僅在特定的情況下,例如被營(yíng)銷需求方雇傭等,間斷地發(fā)布特定的內(nèi)容,以達(dá)到宣傳和營(yíng)銷的目的。
[0003]現(xiàn)有的IIP水軍識(shí)別方法可以分為兩類:一類是基于規(guī)則的定性識(shí)別,另一類是采用機(jī)器學(xué)習(xí)的方式進(jìn)行識(shí)別,然而這兩類方法都存在一定的局限性。
[0004]其中,基于規(guī)則的定性識(shí)別方法主要通過分析IIP轉(zhuǎn)發(fā)和評(píng)論的時(shí)序特征、內(nèi)容特征或者用戶的屬性特征等,人工總結(jié)一些規(guī)則,然后定性地判別水軍,而并沒有定量的模型和方法。例如基于用戶發(fā)布的內(nèi)容特征進(jìn)行水軍識(shí)別,但是對(duì)于例如微博等新媒體形式的IIP平臺(tái),一條微博的內(nèi)容被限制為140個(gè)字符以內(nèi),上下文信息相對(duì)較少,單純依賴傳統(tǒng)的基于語義的方法判斷發(fā)布該微博的用戶是否為網(wǎng)絡(luò)水軍的準(zhǔn)確率較低。這類方法的缺陷是需要較多的人工干預(yù),且人工總結(jié)出的規(guī)則往往僅僅適用于部分水軍,而IIP水軍又在不斷地進(jìn)化,因此這些規(guī)則往往僅僅在一段時(shí)間內(nèi)有效,適用性不高。
[0005]機(jī)器學(xué)習(xí)的方法是通過人為總結(jié)特征,基于標(biāo)注好的數(shù)據(jù)集來訓(xùn)練分類器來識(shí)別水軍。然而由于沒有公開的IIP水軍數(shù)據(jù)集,基于機(jī)器學(xué)習(xí)的方法依賴的訓(xùn)練數(shù)據(jù)難以獲取,而單純依賴人工標(biāo)注時(shí)間成本過高。此外,基于機(jī)器學(xué)習(xí)的方法需要較多的用戶信息才可以判別當(dāng)前用戶是否為水軍,對(duì)數(shù)據(jù)的完備性要求較高。因此,機(jī)器學(xué)習(xí)的方法效率也較低,且適用性不高。
【發(fā)明內(nèi)容】
[0006]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種用戶標(biāo)識(shí)識(shí)別方法和相應(yīng)的一種用戶標(biāo)識(shí)識(shí)別裝置。
[0007]依據(jù)本發(fā)明的一個(gè)方面,提供了一種用戶標(biāo)識(shí)識(shí)別方法,包括:
[0008]獲取多個(gè)用戶標(biāo)識(shí);
[0009]計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度;
[0010]針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值;
[0011]若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0012]可選地,在所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟之前,還包括:
[0013]將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0014]可選地,所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟,包括:
[0015]分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集以及并集;
[0016]將任意兩個(gè)所述分塊策略集合之間的交集與并集相除,得到對(duì)應(yīng)該兩個(gè)分塊策略集合的用戶標(biāo)識(shí)之間的相似度。
[0017]可選地,所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟,包括:
[0018]利用N個(gè)第一哈希函數(shù)分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素的哈希簽名;所述N個(gè)第一哈希函數(shù)各不相同;
[0019]針對(duì)每個(gè)第一哈希函數(shù),分別選擇各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素對(duì)應(yīng)于該第一哈希函數(shù)的哈希簽名中的最小值,構(gòu)建第二矩陣;所述第二矩陣的列分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),所述第二矩陣的行分別對(duì)應(yīng)各個(gè)第一哈希函數(shù)。
[0020]根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì);
[0021]計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0022]可選地,所述根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)的步驟,包括:
[0023]以行為單位,將所述第二矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同;
[0024]利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值;
[0025]根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0026]可選地,所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟,包括:
[0027]根據(jù)所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)與各用戶標(biāo)識(shí)的分塊策略集合中各元素之間的關(guān)系,構(gòu)建第一矩陣;其中,所述第一矩陣的列對(duì)應(yīng)于各用戶標(biāo)識(shí);所述第一矩陣的行對(duì)應(yīng)于各用戶標(biāo)識(shí)的分塊策略集合中的各元素;如果用戶標(biāo)識(shí)中包含所述元素中的任一元素,則對(duì)應(yīng)在所述第一矩陣中的值為第二數(shù)值;如果用戶標(biāo)識(shí)中不包含該元素,則對(duì)應(yīng)在所述第一矩陣中的值為第三數(shù)值;
[0028]對(duì)所述第一矩陣進(jìn)行N次隨機(jī)行變換,并且在每次隨機(jī)行變換后,選擇各個(gè)用戶標(biāo)識(shí)包含的元素在本次隨機(jī)行變換后的第一矩陣中行號(hào)的最小值,構(gòu)建第三矩陣;所述第三矩陣的行分別對(duì)應(yīng)隨機(jī)行變換的次數(shù),所述第三矩陣的列分別對(duì)應(yīng)各個(gè)用戶標(biāo)識(shí);
[0029]根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì);
[0030]計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0031]可選地,所述根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)的步驟,包括:
[0032]以行為單位,將所述第三矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同;
[0033]利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值;
[0034]根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0035]可選地,所述根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)的步驟,包括:
[0036]獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì);
[0037]按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后針對(duì)當(dāng)前子矩陣,進(jìn)入獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)的步驟。
[0038]可選地,所述針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值的步驟,包括:
[0039]判斷各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度是否超過第一閾值;若超過,則確認(rèn)該相似候選用戶標(biāo)識(shí)對(duì)為相似用戶標(biāo)識(shí)對(duì);
[0040]判斷包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量是否超過第一數(shù)值,若包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量超過第一數(shù)值,則確認(rèn)當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0041]可選地,在所述將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合的步驟之前,還包括:
[0042]過濾掉所述多個(gè)用戶標(biāo)識(shí)中已經(jīng)通過用戶標(biāo)識(shí)所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí);
[0043]和/或,過濾掉所述多個(gè)用戶標(biāo)識(shí)中長(zhǎng)度小于第一長(zhǎng)度閾值的用戶標(biāo)識(shí);
[0044]和/或,過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0045]可選地,所述過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)的步驟,包括:
[0046]利用正則表達(dá)式匹配所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)的組成;
[0047]過濾掉所述多個(gè)用戶標(biāo)識(shí)中匹配為完全由字母組成的用戶標(biāo)識(shí),以及匹配為由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0048]可選地,在所述若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的步驟之后,還包括:
[0049]利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型。
[0050]可選地,在所述利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型的步驟之后,還包括:
[0051]當(dāng)獲取一個(gè)新的用戶標(biāo)識(shí)時(shí),利用所述語言模型計(jì)算所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率;
[0052]如果所述概率超過第二閾值,則確認(rèn)所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0053]根據(jù)本發(fā)明的另一方面,提供了一種用戶標(biāo)識(shí)識(shí)別裝置,包括:
[0054]用戶標(biāo)識(shí)獲取模塊,用于獲取多個(gè)用戶標(biāo)識(shí);
[0055]計(jì)算模塊,用于計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度;
[0056]判斷模塊,用于針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值;
[0057]第一水軍確認(rèn)模塊,用于若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0058]可選地,還包括:
[0059]轉(zhuǎn)換模塊,用于將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0060]可選地,所述計(jì)算模塊,包括:
[0061]交并集計(jì)算子模塊,用于分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集以及并集;
[0062]相似度計(jì)算子模塊,用于將任意兩個(gè)所述分塊策略集合之間的交集與并集相除,得到對(duì)應(yīng)該兩個(gè)分塊策略集合的用戶標(biāo)識(shí)之間的相似度。
[0063]可選地,所述計(jì)算模塊,包括:
[0064]哈希簽名計(jì)算子模塊,用于利用N個(gè)第一哈希函數(shù)分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素的哈希簽名;所述N個(gè)第一哈希函數(shù)各不相同;
[0065]第二矩陣構(gòu)建子模塊,用于針對(duì)每個(gè)第一哈希函數(shù),分別選擇各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素對(duì)應(yīng)于該第一哈希函數(shù)的哈希簽名中的最小值,構(gòu)建第二矩陣;所述第二矩陣的列分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),行分別對(duì)應(yīng)各個(gè)第一哈希函數(shù);
[0066]第一相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,用于根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì);
[0067]計(jì)算子模塊,用于計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0068]可選地,所述第一相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,包括:
[0069]第二矩陣切分單元,用于以行為單位,將所述第二矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同;
[0070]哈希值計(jì)算單元,用于利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值;
[0071]相似候選用戶標(biāo)識(shí)對(duì)獲取單元,用于根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0072]可選地,所述計(jì)算模塊,還包括:
[0073]第一矩陣構(gòu)建子模塊,用于根據(jù)所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)與各用戶標(biāo)識(shí)的分塊策略集合中各元素之間的關(guān)系,構(gòu)建第一矩陣;其中,所述第一矩陣的列對(duì)應(yīng)于各用戶標(biāo)識(shí);所述第一矩陣的行對(duì)應(yīng)于各用戶標(biāo)識(shí)的分塊策略集合中的各元素;如果用戶標(biāo)識(shí)中包含所述元素中的任一元素,則對(duì)應(yīng)在所述第一矩陣中的值為第二數(shù)值;如果用戶標(biāo)識(shí)中不包含該元素,則對(duì)應(yīng)在所述第一矩陣中的值為第三數(shù)值;
[0074]第三矩陣構(gòu)建子模塊,用于對(duì)所述第一矩陣進(jìn)行N次隨機(jī)行變換,并且在每次隨機(jī)行變換后,選擇各個(gè)用戶標(biāo)識(shí)包含的元素在本次隨機(jī)行變換后的第一矩陣中行號(hào)的最小值,構(gòu)建第三矩陣;所述第三矩陣的行分別對(duì)應(yīng)隨機(jī)行變換的次數(shù),所述第三矩陣的列分別對(duì)應(yīng)各個(gè)用戶標(biāo)識(shí);
[0075]第二相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,用于根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)。
[0076]可選地,所述第二相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,包括:
[0077]第三矩陣切分單元,用于以行為單位,將所述第三矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同;
[0078]哈希值計(jì)算單元,用于利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值;
[0079]相似候選用戶標(biāo)識(shí)對(duì)獲取單元,用于根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0080]可選地,所述相似候選用戶標(biāo)識(shí)對(duì)獲取單元,包括:
[0081]相似候選用戶標(biāo)識(shí)對(duì)獲取子單元,用于獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì);
[0082]當(dāng)前子矩陣確認(rèn)子單元,用于按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后進(jìn)入相似候選用戶標(biāo)識(shí)對(duì)獲取子單
J L ο
[0083]可選地,所述判斷模塊,包括:
[0084]第一判斷子模塊,用于判斷各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度是否超過第一閾值;若超過,則進(jìn)入第一確認(rèn)子模塊;
[0085]第一確認(rèn)子模塊,用于確認(rèn)該相似候選用戶標(biāo)識(shí)對(duì)為相似用戶標(biāo)識(shí)對(duì);
[0086]第二判斷子模塊,用于判斷包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量是否超過第一數(shù)值,若包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量超過第一數(shù)值,則進(jìn)入第一水軍確認(rèn)模塊。
[0087]可選地,還包括:
[0088]第一過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中已經(jīng)通過用戶標(biāo)識(shí)所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí);
[0089]和/或,第二過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中長(zhǎng)度小于第一長(zhǎng)度閾值的用戶標(biāo)識(shí);
[0090]和/或,第三過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0091]可選地,所述第三過濾模塊,包括:
[0092]組成匹配子模塊,用于利用正則表達(dá)式匹配所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)的組成;
[0093]第三過濾子模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中匹配為完全由字母組成的用戶標(biāo)識(shí),以及匹配為由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0094]可選地,還包括:
[0095]語言模型訓(xùn)練模塊,適于利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型。
[0096]可選地,還包括:
[0097]概率計(jì)算模塊,適于當(dāng)獲取一個(gè)新的用戶標(biāo)識(shí)時(shí),利用所述語言模型計(jì)算所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率;如果所述概率超過第二閾值,則進(jìn)入第二水軍確認(rèn)豐吳塊;
[0098]第二水軍確認(rèn)模塊,適于確認(rèn)所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0099]根據(jù)本發(fā)明的一種用戶標(biāo)識(shí)識(shí)別方法可以獲取多個(gè)用戶標(biāo)識(shí),計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。由此解決了【背景技術(shù)】中的基于規(guī)則的定性識(shí)別方法需要較多的人工干預(yù)且僅在一段時(shí)間內(nèi)有效,適用性不高,以及機(jī)器學(xué)習(xí)的方法時(shí)間成本過高且對(duì)數(shù)據(jù)的完備性要求較高,進(jìn)而導(dǎo)致效率也較低,且適用性不高等問題,取得了降低了時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,進(jìn)而提高了對(duì)用戶識(shí)別的效率以及適用性的有益效果。
[0100]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0101]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0102]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別方法實(shí)施例的步驟流程圖;
[0103]圖1A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用戶標(biāo)識(shí)的示例;
[0104]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別方法實(shí)施例的步驟流程圖;
[0105]圖2A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種將第二矩陣切分為多個(gè)子矩陣的示例;
[0106]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別方法實(shí)施例的步驟流程圖;
[0107]圖3A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一個(gè)第一矩陣的示意圖;
[0108]圖3B示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一個(gè)對(duì)圖3A所示的第一矩陣進(jìn)行隨機(jī)行變換后的不意圖;
[0109]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別裝置實(shí)施例的結(jié)構(gòu)框圖;
[0110]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別裝置實(shí)施例的結(jié)構(gòu)框圖;以及
[0111]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別裝置實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0112]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0113]實(shí)施例一
[0114]參照?qǐng)D1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0115]步驟110,獲取多個(gè)用戶標(biāo)識(shí)。
[0116]在本發(fā)明實(shí)施例中,用戶標(biāo)識(shí)可以指在IIP中標(biāo)識(shí)用戶身份的名稱,例如用戶昵稱、用戶名、用戶賬號(hào)等等都屬于用戶標(biāo)識(shí)。在實(shí)際應(yīng)用中,用戶標(biāo)識(shí)是由一系列IIP系統(tǒng)可識(shí)別的字符組成,例如字母、漢字、阿拉伯?dāng)?shù)字、特殊符號(hào)等等。如圖1A為一些用戶標(biāo)識(shí)的示例??梢钥闯觯渲械?-4個(gè)用戶標(biāo)識(shí)是由漢字、下劃線、字母組成,而后續(xù)的第5-8、12_16個(gè)是由漢字和字母組成,另外的第9-11是完全由漢字組成。在本發(fā)明實(shí)施例中,各個(gè)用戶標(biāo)識(shí)均可以由IIP系統(tǒng)可識(shí)別的任意一種或多種字符組成,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0117]本發(fā)明實(shí)施例介紹的是一種針對(duì)用戶標(biāo)識(shí)的網(wǎng)絡(luò)水軍賬號(hào)識(shí)別算法,首先需要從IIP中獲取需要進(jìn)行識(shí)別的用戶標(biāo)識(shí)。具體地,可以從IIP用以存儲(chǔ)用戶標(biāo)識(shí)的存儲(chǔ)空間中直接導(dǎo)出多個(gè)用戶標(biāo)識(shí),當(dāng)然也可以采用現(xiàn)有的其他可利用的方法獲取用戶標(biāo)識(shí),對(duì)此本發(fā)明實(shí)施例不加以限定。而且在本發(fā)明實(shí)施例中,可以獲取IIP中所有用戶標(biāo)識(shí),或者是隨機(jī)或按照一定規(guī)則獲取IIP中部分用戶標(biāo)識(shí),對(duì)此本發(fā)明實(shí)施例也不加以限定。
[0118]步驟160,計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度。
[0119]用戶標(biāo)識(shí)之間的相似度,可以用以衡量各個(gè)用戶標(biāo)識(shí)之間的相似程度。比如用戶標(biāo)識(shí)的字符組合之間的文本相似度等。
[0120]在本發(fā)明實(shí)施例中,可以計(jì)算各用戶標(biāo)識(shí)兩兩之間的相似度。
[0121]例如,對(duì)于兩個(gè)用戶標(biāo)識(shí)a和b,其中用戶標(biāo)識(shí)a為“李易峰_梔¥子花為你開”,用戶標(biāo)識(shí)b為“李易峰_梔子P花為你開”。
[0122]若以單個(gè)字符為單位,計(jì)算用戶標(biāo)識(shí)a和b的相似度,可以看出,用戶標(biāo)識(shí)a和b中都包括字符“李” “易” “峰” ? “梔” “子” “花” “為” “你” “開” 10個(gè)字符,用戶標(biāo)識(shí)a另外還包括一個(gè)字符“Y”,用戶標(biāo)識(shí)b另外還包括一個(gè)字符“p”。此時(shí),用戶標(biāo)識(shí)a和用戶標(biāo)識(shí)b之間的相似度可以為用戶標(biāo)識(shí)a和用戶標(biāo)識(shí)b包含的字符的交集與用戶標(biāo)識(shí)a和用戶標(biāo)識(shí)b包含的字符的并集的商值,即10/12,相似度最終為0.833。
[0123]需要說明的是,此時(shí)相似度的取值范圍為0-1,相似度的值越大,說明兩個(gè)用戶標(biāo)識(shí)越相似。
[0124]但是從上面的過程可以看出,若以單個(gè)字符為單位,按照上述方法計(jì)算兩個(gè)用戶標(biāo)識(shí)符之間的相似度,并不會(huì)考慮到用戶標(biāo)識(shí)中所包含的字符的先后關(guān)系,例如,若兩個(gè)用戶標(biāo)識(shí)所包含的字符完全一樣,但是在每個(gè)用戶標(biāo)識(shí)中各字符的先后順序不一致,而此時(shí)若以單個(gè)字符為單位,按照上述方法計(jì)算兩個(gè)用戶之間的相似度為I,但是此時(shí)兩個(gè)用戶標(biāo)識(shí)并不是完全一致,相似程度并不是最高,所以對(duì)于此類情況,以單個(gè)字符為單位計(jì)算的相似度不是很精確。
[0125]所以,在本發(fā)明實(shí)施例中,可以將各用戶標(biāo)識(shí)進(jìn)行切分,每個(gè)切片中包含多個(gè)字符,然后將同一個(gè)用戶標(biāo)識(shí)的切片構(gòu)建一個(gè)分塊策略集合,即k-shingle集合,其中k是指集合中每個(gè)切片所包含的字符數(shù),k的值可以根據(jù)需求或多次試驗(yàn)確定,對(duì)此本發(fā)明實(shí)施例不加以限定,但是對(duì)于需要計(jì)算相似度的兩個(gè)用戶標(biāo)識(shí)而言,分別將兩個(gè)用戶標(biāo)識(shí)轉(zhuǎn)換成k-shingle集合時(shí)的k的取值是一致的。具體的切分過程可以為:從用戶標(biāo)識(shí)中的首個(gè)字符開始,逐個(gè)從當(dāng)前字符向后提取k個(gè)字符作為一個(gè)切片,直至將用戶標(biāo)識(shí)的最后一個(gè)字符提取至一個(gè)切片中為止。
[0126]例如,當(dāng)k取2時(shí),用戶標(biāo)識(shí)a“李易峰_梔¥子花為你開”對(duì)應(yīng)集合A{李易,易峰,峰_,_梔,梔Y,Y子,子花,花為,為你,你開},用戶標(biāo)識(shí)b “李易峰_梔子P花為你開”對(duì)應(yīng)集合B{李易,易峰,峰_,_梔,梔子,子P,P花,花為,為你,你開}。
[0127]此時(shí)可以定義兩個(gè)用戶標(biāo)識(shí)之間的相似度為
[0128]Jaccard(a,b) = (IAΠB I)/(IAU B I) (I)
[0129]其中,JaCCard(a,b)表示a和b之間的相似度,A是對(duì)應(yīng)于a的分塊策略集合,B是對(duì)應(yīng)于b的分塊策略集合。需要說明的是,IA η B I是指對(duì)應(yīng)于a的分塊策略集合與對(duì)應(yīng)于b的分塊策略集合的交集中包含的元素,即切片的數(shù)量,IA U B I指對(duì)應(yīng)于a的分塊策略集合與對(duì)應(yīng)于b的分塊策略集合的并集中所包含的元素的數(shù)量。例如上述的用戶標(biāo)識(shí)a和用戶標(biāo)識(shí)b,利用式(I)可以得知,用戶標(biāo)識(shí)a和用戶標(biāo)識(shí)b之間的相似度為7/13,換算作小數(shù)為0.538。
[0130]當(dāng)然,對(duì)于公式(I)中的a和b可以為獲取的多個(gè)用戶標(biāo)識(shí)中的任意兩個(gè)用戶標(biāo)識(shí),并不限于上述的用戶標(biāo)識(shí)a和用戶標(biāo)識(shí)b,對(duì)此本發(fā)明實(shí)施例不加以限定;另外,對(duì)于公式
(I)中的A是對(duì)應(yīng)于a的分塊策略集合,B是對(duì)應(yīng)于b的分塊策略集合,所以相應(yīng)地,A和B也并不限于上述集合A和集合B,對(duì)此本發(fā)明實(shí)施例也不加以限定。
[0131]需要說明的是,具體地計(jì)算用戶標(biāo)識(shí)相似度的方法并不限于公式(I)所示的方法,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0132]優(yōu)選地,在本發(fā)明實(shí)施例中,在步驟160之前,還包括:
[0133]步驟150,將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0134]在本發(fā)明實(shí)施例中,可以在計(jì)算各用戶標(biāo)識(shí)的相似度之前,將各個(gè)用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合,可以理解為兩種情況,其一可以在當(dāng)前計(jì)算某兩個(gè)用戶標(biāo)識(shí)的相似度之前,先將該兩個(gè)用戶標(biāo)識(shí)轉(zhuǎn)換成分塊策略集合,而對(duì)于之后計(jì)算相似度的用戶標(biāo)識(shí),此時(shí)并不轉(zhuǎn)換;其二可以在開始計(jì)算多個(gè)用戶標(biāo)識(shí)中各個(gè)用戶標(biāo)識(shí)之間的相似度之前,將需要計(jì)算相似度的全部用戶標(biāo)識(shí)都轉(zhuǎn)換成分塊策略集合。在實(shí)際應(yīng)用中,可以根據(jù)情況選擇上述的任意一種情況,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0135]對(duì)于具體的轉(zhuǎn)換過程,如步驟160所述,在此不再贅述。
[0136]優(yōu)選地,在本發(fā)明實(shí)施例中,步驟160包括:
[0137]子步驟161,分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集以及并集。
[0138]在將用戶標(biāo)識(shí)轉(zhuǎn)換為分塊策略集合之后,可以分別計(jì)算各個(gè)用戶標(biāo)識(shí)的對(duì)應(yīng)的分塊策略集合之間的交集以及并集。
[0139]如上述的用戶標(biāo)識(shí)a的分塊策略集合A{李易,易峰,峰_,_梔,梔Y,Y子,子花,花為,為你,你開},用戶標(biāo)識(shí)b的分塊策略集合B {李易,易峰,峰_,_梔,梔子,子P,?花,花為,為你,你開} O
[0140]則分塊策略集合A與分塊策略集合B之間的交集為{李易,易峰,峰_,_梔,花為,為你,你開},分塊策略集合A與分塊策略集合B之間的并集為{李易,易峰,峰_,_梔,梔Y,Y子,子花,花為,為你,你開,梔子,子P,?花}。
[0141]子步驟162,將任意兩個(gè)所述分塊策略集合之間的交集與并集相除,得到對(duì)應(yīng)該兩個(gè)分塊策略集合的用戶標(biāo)識(shí)之間的相似度。
[0142]需要說明的是,在本發(fā)明實(shí)施例中,將任意兩個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集與并集相除,可以是將任意兩個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集包含的切片個(gè)數(shù)與并集包含的切片個(gè)數(shù)相除,也即任意兩個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集包含的元素個(gè)數(shù)與并集包含的元素個(gè)數(shù)相除,進(jìn)而得到對(duì)應(yīng)該兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0143]例如,前述的用戶標(biāo)識(shí)a的分塊策略集合Α,用戶標(biāo)識(shí)b的分塊策略集合B。其中分塊策略集合A與分塊策略集合B之間的交集所包含的切片個(gè)數(shù)為7,分塊策略集合A與分塊策略集合B之間的并集所包含的切片個(gè)數(shù)為13,因此用戶標(biāo)識(shí)a和用戶標(biāo)識(shí)b之間的相似度為7/13ο
[0144]步驟170,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值;若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則進(jìn)入步驟180;若當(dāng)前用戶標(biāo)識(shí)未與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則不確認(rèn)該用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0145]在本發(fā)明實(shí)施例中,可以預(yù)置一個(gè)第一閾值,如果兩個(gè)用戶標(biāo)識(shí)之間的相似度超過第一閾值,則說明該兩個(gè)用戶標(biāo)識(shí)之中存在網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的可能性相較于相似度低于第一閾值的用戶標(biāo)識(shí)更高。其中第一閾值可以在本步驟之前,或者是本步驟之前的任一步驟之前根據(jù)多次試驗(yàn)或者實(shí)際需求設(shè)定,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0146]另外,在本發(fā)明實(shí)施例中,還可以預(yù)置一個(gè)第一數(shù)值,如果同一個(gè)用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則可以確認(rèn)該用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。其中第一閾值也可以在本步驟之前,或者是本步驟之前的任一步驟之前根據(jù)多次試驗(yàn)或者實(shí)際需求設(shè)定,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0147]步驟180,確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0148]優(yōu)選地,在本發(fā)明實(shí)施例中,在步驟150之前,還包括:
[0149]步驟120,過濾掉所述多個(gè)用戶標(biāo)識(shí)中已經(jīng)通過用戶標(biāo)識(shí)所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí)。
[0150]因?yàn)楸景l(fā)明是基于用戶標(biāo)識(shí)對(duì)用戶身份進(jìn)行識(shí)別,而在實(shí)際應(yīng)用中,IIP中的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)所占的比例并不大,為了避免不必要的工作量,導(dǎo)致工作量過大,所以在本發(fā)明實(shí)施例中,可以對(duì)從IIP中獲取的多個(gè)用戶標(biāo)識(shí)進(jìn)行篩選,過濾掉其中水軍概率較低的用戶標(biāo)識(shí),進(jìn)而還可以降低對(duì)用戶標(biāo)識(shí)的誤判率。
[0151]而對(duì)于已經(jīng)通過所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí)而言,在認(rèn)證過程中已經(jīng)對(duì)該用戶標(biāo)識(shí)的身份進(jìn)行了相關(guān)的驗(yàn)證,因此該用戶標(biāo)識(shí)為網(wǎng)絡(luò)數(shù)據(jù)用戶標(biāo)識(shí)的概率非常小,因此在本發(fā)明實(shí)施例中可以直接過濾掉多個(gè)用戶標(biāo)識(shí)中已經(jīng)通過用戶標(biāo)識(shí)所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí)。
[0152]和/或,步驟130,過濾掉所述多個(gè)用戶標(biāo)識(shí)中長(zhǎng)度小于第一長(zhǎng)度閾值的用戶標(biāo)識(shí)。
[0153]在實(shí)際應(yīng)用中,用戶標(biāo)識(shí)的長(zhǎng)度越短,其與其他用戶標(biāo)識(shí)相似的概率就越高,因此其被誤判為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率也就相應(yīng)越高。因此在本發(fā)明實(shí)施例中,可以預(yù)置一個(gè)第一長(zhǎng)度閾值,進(jìn)而過濾掉多個(gè)用戶標(biāo)識(shí)中長(zhǎng)度小于第一長(zhǎng)度閾值的用戶標(biāo)識(shí)。其中,第一長(zhǎng)度閾值可以在本步驟之前,或者是本步驟之前的任一步驟之前根據(jù)多次試驗(yàn)或者實(shí)際需求設(shè)定,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0154]和/或,步驟140,過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0155]另外,在實(shí)際應(yīng)用中,絕大多數(shù)的IIP會(huì)要求用戶標(biāo)識(shí)必須唯一,所以一部分IIP用戶會(huì)在自己的用戶標(biāo)識(shí)中加入了自己的英文名或拼音用于區(qū)分,而一些常見的英文名較為相似,漢字也存在很多同音字,進(jìn)而導(dǎo)致完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)被誤判的概率也較高。所以為了盡可能地降低誤判率,在本發(fā)明實(shí)施例中,也可以將這部分用戶剔除。
[0156]需要說明的是,步驟120-140只是按照部分規(guī)則對(duì)用戶標(biāo)識(shí)進(jìn)行過濾,在實(shí)際應(yīng)用中,還可以根據(jù)需求按照其他的規(guī)則對(duì)用戶標(biāo)識(shí)進(jìn)行過濾,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0157]優(yōu)選地,在本發(fā)明實(shí)施例中,步驟140包括:
[0158]子步驟141,利用正則表達(dá)式匹配所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)的組成。
[0159]其中,用戶標(biāo)識(shí)的組成是指用戶標(biāo)識(shí)的組成結(jié)構(gòu),包括用戶標(biāo)識(shí)中包含的字符以及各字符的前后關(guān)系等;正則表達(dá)式,又稱正規(guī)表示法、常規(guī)表示法,正則表達(dá)式可以使用單個(gè)字符串來描述、匹配一系列符合某個(gè)句法規(guī)則的字符串。
[0160]例如,用以匹配純字母的字符串的正則表達(dá)式為:~[a-zA-Z]+$;
[0161]用以匹配純漢字的字符串的正則表達(dá)式為:~[\u4E00-\u9FFF]+$;
[0162]用以匹配連續(xù)的漢字加上連續(xù)的字母的字符串的正則表達(dá)式為:~[\u4E00-\u9FFF] + [a~zA~Z]+$ ο
[0163]其中,.'表示起始位置4表示結(jié)尾位置,+表示前面的模式(中括號(hào)里的內(nèi)容)可以出現(xiàn)任意次數(shù)(大于I次)。
[0164]在實(shí)際應(yīng)用中,還有其他多種正則表達(dá)式,分別可以匹配符合不同句法規(guī)則的字符串,在此不再贅述。
[0165]如前述,本發(fā)明實(shí)施例中的用戶標(biāo)識(shí)是由IIP可識(shí)別的字符組成的,可以認(rèn)為是字符串。因此,在本發(fā)明實(shí)施例中,可以利用~[a-zA-Z]+$匹配出完全由字母組成的用戶標(biāo)識(shí),利用~[\u4E00-\u9FFF] + [a-zA-Z]+$匹配出由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0166]子步驟142,過濾掉所述多個(gè)用戶標(biāo)識(shí)中匹配為完全由字母組成的用戶標(biāo)識(shí),以及匹配為由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0167]如上述,在本發(fā)明實(shí)施例中,只需過濾掉多個(gè)用戶標(biāo)識(shí)中匹配為完全由字母組成的用戶標(biāo)識(shí),以及匹配為由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí),而對(duì)于匹配為其他類型的用戶標(biāo)識(shí),不需要過濾。
[0168]優(yōu)選地,在本發(fā)明實(shí)施例中,在步驟180之后,還包括:
[0169]步驟190,利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型。
[0170]在本發(fā)明實(shí)施例中,如果某種切片出現(xiàn)的頻率越高,則可以認(rèn)為包含該切片的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的可能性就越大。
[0171]例如,考慮下述兩句話:
[0172]1、你吃過飯了嗎
[0173]2、你飯吃過了嗎
[0174]明顯第一句話更合理,所謂合理就是這句話出現(xiàn)的頻率會(huì)更高。可以將上述兩句話劃分為五個(gè)詞:“你”、“吃過”、“飯”、“了”、“么”,那么第一句話出現(xiàn)的頻率可以用上述五個(gè)詞的出現(xiàn)概率來表示:
[0175]P(你吃過飯了嗎)=P(你)P(你I吃過)P(你吃過I飯)P(你吃過飯I 了)P(你吃過飯了 I嗎)⑵
[0176]其中,P(你)表示“你”這個(gè)詞出現(xiàn)的概率,P(你I吃過)表示“吃過”出現(xiàn)在“你”后面的概率,以此類推。
[0177]為了簡(jiǎn)化,可以認(rèn)為每個(gè)詞只與其前一個(gè)詞或兩個(gè)詞有關(guān)。其中,每個(gè)詞與其前一個(gè)詞有關(guān)可以稱為二元語言模型,每個(gè)詞與其前兩個(gè)詞有關(guān)可以稱為三元語言模型。在本發(fā)明實(shí)施例中,語言模型可以為二元語言模型,也可以為三元語言模型,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0178]以二元語言模型為例:
[0179]P(你吃過飯了嗎)=P(你)P(你I吃過)P(吃過I飯)P(飯I 了)P(了 I嗎)(3)
[0180]此時(shí)只要知道式(3)右邊的條件概率就可以算出整句話的概率,概率越高這句話越合理。由于在上面第二句話中P(飯I吃過)很低,導(dǎo)致第二句話的概率很小,也就是越不合理。
[0181]如果給定一個(gè)訓(xùn)練集,其中包括成千上萬的句子以及上萬個(gè)詞,如果已知了諸如P(吃過I飯)的所有詞之間的條件概率,就可以計(jì)算出任意一句話是否合理的概率。
[0182]所以在本發(fā)明實(shí)施例中的語言模型就可以表現(xiàn)為一系列詞語是否出現(xiàn)的條件概率。例如P(吃過I飯)P(你I吃過)等等。
[0183]在實(shí)際應(yīng)用中,上述的條件概率的計(jì)算方法有很多。例如可以通過最大似然估計(jì)(Maximum Likelihood,ML)來獲得。最大似然估計(jì)是一種統(tǒng)計(jì)方法,它用來求一個(gè)樣本集的相關(guān)概率密度函數(shù)的參數(shù)。
[0184]在本發(fā)明實(shí)施例中,可以將已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集,使用最大似然估計(jì)得出一個(gè)語言模型。因?yàn)橛?xùn)練集中全部是已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí),所以利用該語言模型,計(jì)算一個(gè)新的用戶標(biāo)識(shí)出現(xiàn)的概率,也即為該新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率,概率越高,其為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的可能性越高。
[0185]因?yàn)橛?xùn)練集中的用戶標(biāo)識(shí)都是由字符構(gòu)成,所以訓(xùn)練出的語言模型也是以字符為單位的語言模型。具體的訓(xùn)練過程可以為利用初始的語言模型,基于訓(xùn)練集,計(jì)算訓(xùn)練集中全部用戶標(biāo)識(shí)中所包含的每個(gè)字符出現(xiàn)的概率,例如,利用三元語言模型,計(jì)算已知兩個(gè)字符,第三個(gè)字符出現(xiàn)的概率,如P(峰I李易),P(a I易峰)等等,然后保存這些條件概率。
[0186]優(yōu)選地,在本發(fā)明實(shí)施例中,在步驟190之后,還包括:
[0187]步驟1110,當(dāng)獲取一個(gè)新的用戶標(biāo)識(shí)時(shí),利用所述語言模型計(jì)算所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率;如果所述概率超過第二閾值,則進(jìn)入步驟1120。
[0188]在訓(xùn)練過語言模型之后,當(dāng)獲取一個(gè)新的用戶標(biāo)識(shí)需要進(jìn)行識(shí)別時(shí),可以將該新的用戶標(biāo)識(shí)作為輸入值,輸入語言模型,然后根據(jù)訓(xùn)練過的語言模型中已有的各個(gè)字符的條件概率計(jì)算該新的用戶標(biāo)識(shí)出現(xiàn)的概率,即該新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率。
[0189]在本發(fā)明實(shí)施例中,可以在本步驟之前預(yù)置一個(gè)第二閾值,若計(jì)算出的該新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率超過第二閾值,則可以確認(rèn)該新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí),而若該新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率未超過第二閾值,則不可以確認(rèn)該新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。其中,第二閾值可以根據(jù)多次試驗(yàn)或?qū)嶋H需求設(shè)定,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0190]步驟1120,確認(rèn)所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0191]在本發(fā)明實(shí)施例中,獲取多個(gè)用戶標(biāo)識(shí),計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。以用戶標(biāo)識(shí)作為參數(shù),對(duì)各用戶標(biāo)識(shí)進(jìn)行身份識(shí)別,從而降低了時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,進(jìn)而提高了對(duì)用戶識(shí)別的效率以及適用性。
[0192]實(shí)施例二
[0193]參照?qǐng)D2,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0194]步驟210,獲取多個(gè)用戶標(biāo)識(shí)。
[0195]步驟220,將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0196]步驟230,利用N個(gè)第一哈希函數(shù)分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素的哈希簽名;所述N個(gè)第一哈希函數(shù)各不相同。
[0197]在實(shí)際應(yīng)用中,如果按照實(shí)施例一的方法,直接依次比較各個(gè)用戶昵稱之間的相似度,時(shí)間復(fù)雜度為0(n2),其中,0(f (η))是時(shí)間復(fù)雜度函數(shù),可以定量的描述算法f (η)的運(yùn)行時(shí)間,η為需要進(jìn)行識(shí)別的用戶標(biāo)識(shí)的數(shù)量,通常η可以高達(dá)數(shù)億,因此直接進(jìn)行比較的效率還是比較低。
[0198]在本發(fā)明實(shí)施例中,為了進(jìn)一步提高識(shí)別的效率,可以采用基于最小哈希(MinHash)算法的局部敏感哈希方法(Locality Sensitive Hashing,LSH)以降低比較的次數(shù)。
[0199]其中,MinHash算法是用于快速檢測(cè)兩個(gè)集合的相似性的方法。
[°20°]定義,h(x)為把X映射成一個(gè)整數(shù)的哈希(Hash)函數(shù),該整數(shù)可以稱為X的哈希值;hmin(S )為集合S中的各元素經(jīng)過h ( X )哈希后得到的哈希值中最小的哈希值。其中,哈希算法將任意長(zhǎng)度的二進(jìn)制值映射為較短的固定長(zhǎng)度的二進(jìn)制值,這個(gè)小的二進(jìn)制值稱為哈希值。哈希值是一段數(shù)據(jù)唯一且極其緊湊的數(shù)值表示形式。
[0201]常用的構(gòu)造哈希算法的方法包括:直接尋址法、數(shù)字分析法、平方取中法、折疊法、隨機(jī)數(shù)法、除留余數(shù)法等等。
[0202]其中,直接尋址法就是選取關(guān)鍵字的某個(gè)線性函數(shù)值為哈希值。哈希函數(shù)的一般形式為:h (key) = a*key+b,其中a、b為常量參數(shù),key為要計(jì)算哈希值的關(guān)鍵字;
[0203]數(shù)字分析法是取關(guān)鍵字中某些取值較分散的數(shù)字位作為哈希值的方法,它適合于所有關(guān)鍵字已知的情況。例如,可以取關(guān)鍵字的最后兩位作為哈希值;
[0204]平方取中法是取關(guān)鍵字平方的中間幾位作為哈希值的方法,具體取多少位視實(shí)際要求而定;
[0205]折疊法是首先將關(guān)鍵字分割成位數(shù)相同的幾段,段的位數(shù)取決于哈希值的位數(shù),由實(shí)際需要而定,然后將他們疊加求和作為哈希值的方法;
[0206]隨機(jī)數(shù)法是選擇一個(gè)隨機(jī)函數(shù),取關(guān)鍵字的隨機(jī)函數(shù)值作為哈希值的方法。哈希函數(shù)的一般形式為:h (key) = random(key),其中random為隨機(jī)函數(shù)。
[0207]除留余數(shù)法,就是選取關(guān)鍵字除以整數(shù)P的余數(shù)作為哈希值。哈希函數(shù)的一般形式為:h(key)=key%p,其中P是一個(gè)整數(shù);
[0208]常用的哈希算法包括:MD4(Message Digest 4,信息摘要算法4)、MD5(MessageDigest 5,信息摘要算法5)、SHA-l(Secure Hash Algorithm,安全散列算法),等等。
[0209]對(duì)于一個(gè)包含多個(gè)元素的集合而言,hmin⑶為一個(gè)值,所Whmin(S)的數(shù)量必然小于集合S中包含的元素的數(shù)量。
[0210]那么對(duì)集合4、8,11_(4)=11_(8)成立的條件是41^中具有最小哈希值的元素也在A門Βψ0
[0211]所以有,?[1^1^)=11_(8)]=拓(^^(厶,8),即集合八和8的相似度為集合八』經(jīng)過hash后最小哈希值相等的概率。
[0212]所以在本發(fā)明實(shí)施例中,可以基于各個(gè)用戶標(biāo)識(shí)的分塊策略集合,利用N個(gè)第一哈希函數(shù),分別計(jì)算各個(gè)分塊策略集合的最小哈希簽名,即上述的最小哈希值。其中,N的取值大于2,且可以根據(jù)需求N的具體取值,對(duì)此本發(fā)明實(shí)施例不加以限定。而且,N個(gè)第一哈希函數(shù)互不相同,具體的互不相同,可以包括,同一類型的哈希函數(shù)但是參數(shù)有所不同,或者是不同類型的哈希函數(shù),對(duì)此本發(fā)明實(shí)施例不加以限定。
[0213]由上述分析可知,經(jīng)過MinHash算法之后,可以得到各個(gè)分塊策略集合的最小哈希簽名,因此最小哈希簽名的數(shù)量等于分塊策略集合的數(shù)量,也即等于多個(gè)用戶標(biāo)識(shí)的數(shù)量,如經(jīng)過實(shí)施例一中步驟120-140對(duì)獲取的多個(gè)用戶標(biāo)識(shí)進(jìn)行篩選的過程后,則最小哈希簽名的數(shù)量等于篩選后的用戶標(biāo)識(shí)的數(shù)量。相對(duì)于實(shí)施例一中需要考慮各個(gè)分塊策略集合中包含的切片,即上述的集合中的元素,進(jìn)而計(jì)算各用戶標(biāo)識(shí)之間的相似度,此時(shí)需要考慮的數(shù)據(jù)量明顯減少很多。
[0214]另外,局部敏感哈希方法的基本思想是:將原始數(shù)據(jù)空間中的兩個(gè)相鄰數(shù)據(jù)點(diǎn)通過相同的映射或投影變換(project1n)后,這兩個(gè)數(shù)據(jù)點(diǎn)被映射到同一個(gè)存儲(chǔ)空間的概率很大,而不相鄰的數(shù)據(jù)點(diǎn)被映射到同一個(gè)存儲(chǔ)空間的概率很小。
[0215]所以,在本發(fā)明實(shí)施例中,在利用N個(gè)第一哈希函數(shù),構(gòu)建第二矩陣后,可以利用局部敏感哈希算法判斷各個(gè)用戶標(biāo)識(shí)是否為映射到同一個(gè)存儲(chǔ)空間。
[0216]步驟240,針對(duì)每個(gè)第一哈希函數(shù),分別選擇各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素對(duì)應(yīng)于該第一哈希函數(shù)的哈希簽名中的最小值,構(gòu)建第二矩陣;所述第二矩陣的列分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),行分別對(duì)應(yīng)各個(gè)第一哈希函數(shù)。
[0217]在本發(fā)明實(shí)施例中,因?yàn)镹個(gè)第一哈希函數(shù)互不相同,所以各個(gè)哈希函數(shù)針對(duì)同一集合中的元素計(jì)算得出的哈希簽名也不完全相同。當(dāng)然,若其中存在W個(gè)第一哈希函數(shù)相同的情況,則相當(dāng)于是利用N-W+1個(gè)第一哈希函數(shù),構(gòu)建第二矩陣。
[0218]對(duì)于為何選擇當(dāng)前用戶標(biāo)識(shí)的哈希簽名中的最小值,即最小哈希簽名作為當(dāng)前用戶標(biāo)識(shí)以及當(dāng)前第一哈希函數(shù)對(duì)應(yīng)在所述第二矩陣中的取值,原因如下:
[0219]因?yàn)閷?duì)于任意兩個(gè)集合而言,兩集合的最小hash簽名值相等的概率就等于集合之間的相似度。這個(gè)結(jié)論也是上述的MinHash算法的核心思想。具體證明過程可以如下:
[0220]假設(shè)在圖3A所示的第一矩陣中只考慮用戶標(biāo)識(shí)SI和S2對(duì)應(yīng)的列,那么它們的行的所有的取值結(jié)果必定屬于以下三類:
[0221](I)X類,兩列在該行的取值均為I,即兩個(gè)用戶標(biāo)識(shí)中都包含該行對(duì)應(yīng)的元素。
[0222](2)Y類,其中一列在該行的取值為I,另一列在該行的取值為0,即其中一個(gè)用戶標(biāo)識(shí)包含該行對(duì)應(yīng)的元素,而另一個(gè)用戶標(biāo)識(shí)不包含該行對(duì)應(yīng)的元素。
[0223](3)Ζ類,兩列在該行的取值均為0,即兩個(gè)用戶標(biāo)識(shí)中都不包含該行對(duì)應(yīng)的元素。
[0224]在實(shí)際應(yīng)用中,任意兩個(gè)用戶標(biāo)識(shí)包含同一元素的概率比較小,因此大多數(shù)的行都屬于Z類。假設(shè)屬于X類的行的數(shù)目為X,屬于Y類的行的數(shù)目為y,那么SI與S2的交集中包含的元素個(gè)數(shù)就等于x,Sl與S2的并集中包含的元素個(gè)數(shù)就等于x+y。因此,SI與S2的相似度等于 x/(x+y)。
[0225]考慮SI和S2的最小hash值相等的概率,假設(shè)對(duì)所有行進(jìn)行隨機(jī)排列轉(zhuǎn)換,然后從上向下進(jìn)行掃描,在碰到Y(jié)類的行之前先遇到X類的行的概率等于x/(x+y)。而從上往下掃描且在Y類之前先遇到X類,意味著在Y類之前的某一行如果不屬于Z類則必然屬于X類,而X類就意味著1^11(31)=1^11(32),也就是31和32的最小11&811簽名值相等。因此1^11(31)=1^11(S2)的概率等于SI和S2的相似度。
[0226]因此,在本發(fā)明實(shí)施例中,可以直接選擇利用當(dāng)前第一哈希函數(shù)計(jì)算出的當(dāng)前用戶標(biāo)識(shí)的哈希簽名中的最小值,即最小哈希簽名值,作為當(dāng)前用戶標(biāo)識(shí)對(duì)應(yīng)于當(dāng)前第一哈希函數(shù)在所述第二矩陣中的取值,此時(shí)最小哈希簽名值相等的概率即為對(duì)應(yīng)各用戶標(biāo)識(shí)之間的相似度。
[0227]例如,對(duì)任一用戶標(biāo)識(shí)S,調(diào)用N個(gè)隨機(jī)生成的hash函數(shù)hi,h2,h3"_hn,則可以獲取η個(gè)最小hash簽名,進(jìn)而構(gòu)建用戶標(biāo)識(shí)S對(duì)應(yīng)的最小hash簽名向量,因此可以針對(duì)各個(gè)用戶標(biāo)識(shí),構(gòu)建一個(gè)第二矩陣。根據(jù)前文的論述,兩個(gè)集合SI與S2之間的Jaccard相似度可以由hmin(Sl) =hmin(S2)的概率來度量,也就是說,當(dāng)N足夠大時(shí),根據(jù)大數(shù)定理,SI與S2的相似度就近似等于SI與S2在第二矩陣中對(duì)應(yīng)的列向量中相等的元素所占的比例,通常根據(jù)此方法得到的相似度的估算值與真實(shí)值的誤差很小。這個(gè)過程即為上述的MinHash算法。
[0228]在本發(fā)明實(shí)施例中的各個(gè)第一哈希函數(shù)可以是隨機(jī)生成的哈希函數(shù),其具體形式可以為上述的任意一種常用哈希算法或者哈希函數(shù),但是N個(gè)哈希函數(shù)互不相同。對(duì)此本發(fā)明實(shí)施例不加以限定。
[0229]在本發(fā)明實(shí)施例中,所構(gòu)建的第二矩陣的列可以分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),行則可以分別對(duì)應(yīng)各個(gè)第一哈希函數(shù)。也可以,第二矩陣的列分別對(duì)應(yīng)各個(gè)第一哈希函數(shù),行分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)。對(duì)此本發(fā)明實(shí)施例不加以限定。
[0230]步驟250,根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)。
[0231]在實(shí)際應(yīng)用中,即使可以利用MinHash算法,將各個(gè)用戶標(biāo)識(shí)的分塊策略集合整合壓縮成第二矩陣并且保持了任意用戶標(biāo)識(shí)對(duì)之間的相似度,但是此時(shí)需要比較的用戶標(biāo)識(shí)的數(shù)目仍然為初始獲取的用戶標(biāo)識(shí)數(shù)目,因此需要找到一種可以減小比較次數(shù)方法。
[0232]由于本發(fā)明實(shí)施例的目標(biāo)是計(jì)算相似度超過某個(gè)閾值的用戶標(biāo)識(shí)對(duì),所以可以只關(guān)注所獲取的多個(gè)用戶標(biāo)識(shí)中的可能相似的用戶標(biāo)識(shí)對(duì),即本發(fā)明實(shí)施例所稱的相似候選用戶標(biāo)識(shí)對(duì),而不需要研究所有的用戶標(biāo)識(shí)對(duì)。如前述,在本發(fā)明實(shí)施例中可以利用LSH方法根據(jù)第二矩陣,獲取多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)。
[0233]LSH算法可以對(duì)目標(biāo)項(xiàng)進(jìn)行多次hash處理,從而使相似項(xiàng)比不相似項(xiàng)更可能被hash到同一個(gè)存儲(chǔ)空間中,然后將至少有一次hash到一個(gè)桶中的目標(biāo)項(xiàng)作為候選相似對(duì);或者是對(duì)目標(biāo)項(xiàng)進(jìn)行多次hash處理,將至少有一次hash值相同的目標(biāo)項(xiàng)作為候選相似對(duì)。在本發(fā)明實(shí)施例中,目標(biāo)項(xiàng)可以為第二矩陣中的最小哈希簽名。
[0234]優(yōu)選地,在本發(fā)明實(shí)施例中,步驟250,包括:
[0235]子步驟251,以行為單位,將所述第二矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同。
[0236]在本發(fā)明實(shí)施例中,在獲取了用戶標(biāo)識(shí)對(duì)應(yīng)的第二矩陣后,可以首先以行為單位,將第二矩陣切分為至少兩個(gè)子矩陣,每個(gè)子矩陣中所包含的行數(shù)是相同的。在實(shí)際應(yīng)用中,具體將第二矩陣切分為子矩陣的個(gè)數(shù),以及每個(gè)子矩陣中包含的行數(shù)可以根據(jù)第二矩陣的尺寸,按照經(jīng)驗(yàn)或者實(shí)際需求等設(shè)置,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0237]例如,圖2A所示將第二矩陣切分為多個(gè)子矩陣的示例。其中,行條1、行條2、行條3、行條4分別為一個(gè)子矩陣??梢钥闯鲈搱D所示的是將一個(gè)哈希簽名矩陣切分為四個(gè)子矩陣,每個(gè)子矩陣中包含四行。因?yàn)樵诒景l(fā)明實(shí)施例中,第二矩陣中的每行所包含的最小哈希簽名的個(gè)數(shù)是一致的,因此每個(gè)子矩陣中包含的最小哈希簽名的個(gè)數(shù)也是一致的。
[0238]需要說明的是,若此時(shí)第二矩陣的列分別對(duì)應(yīng)各個(gè)第一哈希函數(shù),行分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),那么此時(shí)是以列為單位,將所述第二矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的列數(shù)相同。
[0239]子步驟252,利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值。
[0240]在本發(fā)明實(shí)施例中,可以利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列所包含的最小哈希簽名的哈希值,第二哈希函數(shù)也可以是隨機(jī)生成的哈希函數(shù),其也可以為前述的常用的哈希算法或者哈希函數(shù)中的任意一種,對(duì)此本發(fā)明實(shí)施例不加以限定。但是對(duì)于屬于同一個(gè)第二矩陣的各個(gè)子矩陣而言,所利用的第二哈希函數(shù)是一致的。
[0241]需要說明的是,在本發(fā)明實(shí)施例中第二哈希函數(shù)與第一哈希函數(shù)的具體作用以及操作對(duì)象不同。第一哈希函數(shù)的作用是計(jì)算各個(gè)用戶標(biāo)識(shí)包含元素的哈希簽名,第一哈希函數(shù)的操作對(duì)象是各個(gè)用戶標(biāo)識(shí)包含的元素;而第二哈希函數(shù)的作用是計(jì)算當(dāng)前子矩陣中各個(gè)列所包含的最小哈希簽名的哈希值,其操作對(duì)象是第二矩陣切分得到的各個(gè)子矩陣。
[0242]在本發(fā)明實(shí)施例中,可以按照一定順序利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值,也即各個(gè)列包含的最小哈希簽名的哈希值。例如,對(duì)于圖2A所示的四個(gè)子矩陣,可以按照從上到下的順序利用第二哈希函數(shù)依次分別計(jì)算當(dāng)前子矩陣中的各個(gè)列包含的最小哈希簽名的哈希值。當(dāng)然,也可以按照從下往上,或者是其他順序,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0243]需要說明的是,若此時(shí)第二矩陣的列分別對(duì)應(yīng)各個(gè)第一哈希函數(shù),行分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),那么此時(shí)是利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中的各個(gè)行的哈希值。具體的過程與上述的類似,只是把列替換為行,在此不再贅述。
[0244]子步驟253,根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0245]在獲取了當(dāng)前子矩陣中各個(gè)列所包含的最小哈希簽名的哈希值之后,可以進(jìn)一步比較各個(gè)列所包含的最小哈希簽名的哈希值,如果存在多個(gè)列所包含的最小哈希簽名的哈希值分別依次相等,則可以認(rèn)為這多個(gè)列中的任意兩列對(duì)應(yīng)的用戶標(biāo)識(shí)為相似候選用戶標(biāo)識(shí)對(duì)。
[0246]其中,多個(gè)列所包含的最小哈希簽名的哈希值分別依次相等,是指每列包含的屬于同一行的最小哈希簽名的哈希值相等。例如,對(duì)于一個(gè)包含的行數(shù)為3的子矩陣中的兩列最小哈希簽名,每一列對(duì)應(yīng)一個(gè)用戶昵稱。如果第一列第一行的最小哈希簽名的哈希值為3,第一列第二行的最小哈希簽名的哈希值為5,第一列第三行的最小哈希簽名的哈希值為7,第二列第一行的最小哈希簽名的哈希值為3,第二列第二行的最小哈希簽名的哈希值為5,第二列第三行的最小哈希簽名的哈希值為7,則對(duì)應(yīng)這兩列的兩個(gè)用戶標(biāo)識(shí)可以被判定為相似候選用戶標(biāo)識(shí)對(duì)。
[0247]在本發(fā)明實(shí)施例中,還可以利用第二哈希函數(shù)將當(dāng)前子矩陣中的各個(gè)列映射到M個(gè)存儲(chǔ)空間中。其中,M個(gè)存儲(chǔ)空間是可以根據(jù)實(shí)際情況,例如第二哈希函數(shù)、哈希簽名矩陣等,預(yù)先設(shè)置的M個(gè)存儲(chǔ)空間,M的具體取值也可以根據(jù)實(shí)際情況設(shè)置,對(duì)此本發(fā)明實(shí)施例不加以限定。在預(yù)置M個(gè)存儲(chǔ)空間時(shí),可以分別設(shè)置每個(gè)存儲(chǔ)空間對(duì)應(yīng)于一個(gè)數(shù)值。另外,存儲(chǔ)空間的具體存在形式包括隊(duì)列、數(shù)組等等,對(duì)此本發(fā)明實(shí)施例也不加以限定。
[0248]在本發(fā)明實(shí)施例中,可以按照一定順序利用第二哈希函數(shù)分別將各個(gè)子矩陣中包含的列映射到存儲(chǔ)空間中。例如,對(duì)于圖2A所示的四個(gè)子矩陣,可以按照從上到下的順序利用第二哈希函數(shù)依次分別將各個(gè)子矩陣中包含的列映射到存儲(chǔ)空間中。當(dāng)然,也可以按照從下往上,或者是其他順序,對(duì)此本發(fā)明實(shí)施例不加以限定。
[0249]具體地,可以利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中的各個(gè)列中各個(gè)最小哈希簽名的哈希值,若計(jì)算得到的當(dāng)前子矩陣中的某個(gè)列的某個(gè)最小哈希簽名的哈希值為某個(gè)存儲(chǔ)空間對(duì)應(yīng)的數(shù)值,則可以將該最小哈希簽名映射到該存儲(chǔ)空間中。
[0250 ] 例如,可以分別將M個(gè)存儲(chǔ)空間編號(hào)為00、O1、02........0m-1,各個(gè)存儲(chǔ)空間對(duì)應(yīng)的數(shù)值依次分別為0、1、2.......9。假設(shè)此時(shí)采用x%10(除10取余)作為第二哈希函數(shù),計(jì)算當(dāng)前子矩陣中的各個(gè)列中各個(gè)最小哈希簽名的哈希值,那么如果最小哈希簽名X的值為12,則X就被映射到編號(hào)為02的存儲(chǔ)空間中,如果X值為13,那么X就被映射到編號(hào)為03的存儲(chǔ)空間中。
[0251]在本發(fā)明實(shí)施例中,對(duì)于當(dāng)前子矩陣而言,如果其中兩列所包含的最小哈希簽名依次被映射到同樣的存儲(chǔ)空間中,則可以判定該兩列對(duì)應(yīng)的用戶標(biāo)識(shí)為相似候選用戶標(biāo)識(shí)對(duì)。
[0252]例如,對(duì)于一個(gè)包含的行數(shù)為3的子矩陣中的兩列最小哈希簽名,每一列對(duì)應(yīng)一個(gè)用戶昵稱。如果第一列的三個(gè)最小哈希簽名被第二哈希函數(shù)依次映射至的存儲(chǔ)空間編號(hào)依次為03、05、07,第二列的三個(gè)最小哈希簽名映射后對(duì)應(yīng)的存儲(chǔ)空間編號(hào)也是03、05、07,則對(duì)應(yīng)這兩列的兩個(gè)用戶標(biāo)識(shí)可以被判定為相似候選用戶標(biāo)識(shí)對(duì)。而如果第二列的三個(gè)最小哈希簽映射后對(duì)應(yīng)的存儲(chǔ)空間編號(hào)是03、06、07,或者07、05、03,則對(duì)于當(dāng)前子矩陣,對(duì)應(yīng)這兩列的兩個(gè)用戶標(biāo)識(shí)不可以被判定為相似候選用戶標(biāo)識(shí)對(duì),需要通過后面的子矩陣?yán)^續(xù)進(jìn)行判定。
[0253]需要說明的是,若此時(shí)第二矩陣的列分別對(duì)應(yīng)各個(gè)第一哈希函數(shù),行分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),那么此時(shí)是根據(jù)當(dāng)前子矩陣中的各個(gè)行的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。具體的過程與上述的類似,只是把列替換為行,在此不再贅述。
[0254]優(yōu)選地,在本發(fā)明實(shí)施例中,子步驟253包括:
[0255]子步驟2531,獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。
[0256]其中,哈希值相同的列是指各列包含的屬于同一行的最小哈希簽名的哈希值相同。此時(shí)可以以當(dāng)前子矩陣中哈希值相同的任意兩列對(duì)應(yīng)的用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。
[0257]如前述,在本發(fā)明實(shí)施例中,若利用第二哈希函數(shù)將當(dāng)前子矩陣中的各個(gè)列映射至IJM個(gè)存儲(chǔ)空間中,則此時(shí)可以通過獲取當(dāng)前子矩陣中映射到同樣存儲(chǔ)空間的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。其中,映射到同樣存儲(chǔ)空間是指各個(gè)列中包含的對(duì)應(yīng)各行的最小哈希簽名,對(duì)應(yīng)同一行的最小哈希簽名映射至同一存儲(chǔ)空間。
[0258]例如,對(duì)于前述的一個(gè)包含的行數(shù)為3的子矩陣中的兩列最小哈希簽名,每一列對(duì)應(yīng)一個(gè)用戶昵稱。如果第一列第一行的最小哈希簽名映射至03,第一列第二行的最小哈希簽名映射至05,第一列第三行的最小哈希簽名映射至07,第二列第一行的最小哈希簽名映射至03,第二列第二行的最小哈希簽名映射至05,第二列第三行的最小哈希簽名映射至07,則此時(shí)可以認(rèn)為該兩列被映射到同樣的存儲(chǔ)空間,那么對(duì)應(yīng)這兩列的兩個(gè)用戶標(biāo)識(shí)可以被判定為相似候選用戶標(biāo)識(shí)對(duì)。
[0259]而在實(shí)際應(yīng)用中,可能存在多個(gè)列映射到同樣的存儲(chǔ)空間中,則此時(shí)可以確認(rèn)映射到同樣存儲(chǔ)空間中的列對(duì)應(yīng)的各用戶標(biāo)識(shí)中的任意兩個(gè)用戶標(biāo)識(shí)為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。
[0260]例如,若存在三個(gè)列映射到同樣的存儲(chǔ)空間中,這三個(gè)列對(duì)應(yīng)的用戶標(biāo)識(shí)分別為31、32、33。那么此時(shí)可以確認(rèn)的相似候選用戶標(biāo)識(shí)對(duì)包括:31和32、31和33、32和33。
[0261]需要說明的是,若此時(shí)第二矩陣的列分別對(duì)應(yīng)各個(gè)第一哈希函數(shù),行分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),那么此時(shí)是獲取當(dāng)前子矩陣中哈希值相同的行對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。具體的過程與上述的類似,只是把列替換為行,在此不再贅述。
[0262]子步驟2532,按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后進(jìn)入步驟2531。
[0263]在本發(fā)明實(shí)施例中,對(duì)于已經(jīng)確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列,為了減少計(jì)算量,在后續(xù)的計(jì)算子矩陣的哈希值的過程中,可以不需要再計(jì)算已經(jīng)確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列中的最小哈希簽名的哈希值。
[0264]例如,對(duì)于圖2A中前兩列,如果已經(jīng)計(jì)算出行條I中包含的前兩列的部分的哈希值相同,則可以確認(rèn)這兩列對(duì)應(yīng)的用戶標(biāo)識(shí)為相似候選用戶標(biāo)識(shí)對(duì),那么對(duì)于后續(xù)的行條2、行條3、行條4,則不需要利用第二哈希函數(shù),計(jì)算其中包含的前兩列的部分的哈希值。
[0265]需要說明的是,若此時(shí)第二矩陣的列分別對(duì)應(yīng)各個(gè)第一哈希函數(shù),行分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),那么此時(shí)是按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的行以外的各個(gè)行的哈希值,然后獲取當(dāng)前子矩陣中哈希值相同的行對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。具體的過程與上述的類似,只是把列替換為行,在此不再贅述。
[0266]步驟260,計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0267]此時(shí)是計(jì)算每個(gè)相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。例如,對(duì)于由用戶標(biāo)識(shí)S1、用戶標(biāo)識(shí)S2組成的相似候選用戶標(biāo)識(shí)對(duì),以及由用戶標(biāo)識(shí)S3、用戶標(biāo)識(shí)S4組成的相似候選用戶標(biāo)識(shí)對(duì)。則此時(shí)只需計(jì)算SI與S2之間的相似度,以及S3與S4之間的相似度,而不需要計(jì)算SI與S3、S2與S3,等等之間的相似度。
[0268]具體的計(jì)算相似度的方法與前述的步驟120類似,在此不再贅述。
[0269]步驟270,判斷各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度是否超過第一閾值;若超過,則進(jìn)入步驟280;若未超過,則不對(duì)該相似候選用戶標(biāo)識(shí)執(zhí)行后續(xù)的操作。
[0270]在本發(fā)明實(shí)施例中,確認(rèn)了相似候選用戶標(biāo)識(shí)對(duì)后,可以只計(jì)算各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度,進(jìn)一步地,可以判斷各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度是否超過第一閾值。
[0271 ] 步驟280,確認(rèn)該相似候選用戶標(biāo)識(shí)對(duì)為相似用戶標(biāo)識(shí)對(duì)。
[0272]步驟290,判斷包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量是否超過第一數(shù)值,若包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量超過第一數(shù)值,則進(jìn)入步驟2110。
[0273]如果某一個(gè)用戶標(biāo)識(shí)存在于超過第一數(shù)值的相似用戶標(biāo)識(shí)對(duì)中,則說明該用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)之間的相似度超過第一閾值,那么可以確認(rèn)該用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0274]步驟2110,確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0275]在確認(rèn)網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)之后,在實(shí)際應(yīng)用中,對(duì)于確認(rèn)的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí),為了達(dá)到提高IIP平臺(tái)中數(shù)據(jù)的有效性,降低IIP平臺(tái)中的非法廣告、無效數(shù)據(jù)等冗余數(shù)據(jù)等目的,可以將網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)發(fā)布的消息屏蔽,或者是直接將網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)刪除。當(dāng)然,具體的應(yīng)用還有很多,在此不再贅述。
[0276]在本發(fā)明實(shí)施例中,同樣獲取多個(gè)用戶標(biāo)識(shí),計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。以用戶標(biāo)識(shí)作為參數(shù),對(duì)各用戶標(biāo)識(shí)進(jìn)行身份識(shí)別,從而降低了時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,進(jìn)而提高了對(duì)用戶識(shí)別的效率以及適用性。
[0277]另外,本發(fā)明實(shí)施例利用基于MinHash的LSH算法,首先利用第一哈希函數(shù)創(chuàng)建第二矩陣,然后對(duì)第二矩陣進(jìn)行切分成多個(gè)子矩陣,進(jìn)一步利用第二哈希函數(shù)依次將各個(gè)子矩陣映射到不同的存儲(chǔ)空間中,從而可以從多個(gè)用戶標(biāo)識(shí)中選擇出相似度較高的相似候選用戶標(biāo)識(shí)對(duì),最終只需計(jì)算各個(gè)相似用戶標(biāo)識(shí)對(duì)中包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度,從而進(jìn)一步地降低了計(jì)算量,提高了水軍用戶識(shí)別的效率。
[0278]實(shí)施例三
[0279]參照?qǐng)D3,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0280]步驟310,獲取多個(gè)用戶標(biāo)識(shí)。
[0281]步驟320,將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0282]步驟330,根據(jù)所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)與各用戶標(biāo)識(shí)的分塊策略集合中的各元素之間的關(guān)系,構(gòu)建第一矩陣;其中,所述第一矩陣的列對(duì)應(yīng)于各用戶標(biāo)識(shí);所述第一矩陣的行對(duì)應(yīng)于各用戶標(biāo)識(shí)的分塊策略集合中的各元素;如果用戶標(biāo)識(shí)中包含所述元素中的任一元素,則對(duì)應(yīng)在所述第一矩陣中的值為第二數(shù)值;如果用戶標(biāo)識(shí)中不包含該元素,則對(duì)應(yīng)在所述第一矩陣中的值為第三數(shù)值。
[0283]在本發(fā)明實(shí)施例中,用戶標(biāo)識(shí)中包含的是字符。而為了進(jìn)一步降低構(gòu)建第三矩陣的過程中第一哈希函數(shù)處理的數(shù)據(jù)量大小,同時(shí)便于構(gòu)建第三矩陣,所以首先可以根據(jù)所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)與各用戶標(biāo)識(shí)的分塊策略集合中的各元素之間的關(guān)系,構(gòu)建第一矩陣。第一矩陣的列對(duì)應(yīng)于各個(gè)用戶標(biāo)識(shí),行對(duì)應(yīng)于各用戶標(biāo)識(shí)的分塊策略集合中的各元素。
[0284]具體地,如果用戶標(biāo)識(shí)中包含所述元素中的任一元素,則對(duì)應(yīng)在所述第一矩陣中的值為第二數(shù)值;如果用戶標(biāo)識(shí)中不包含該元素,則對(duì)應(yīng)在所述第一矩陣中的值為第三數(shù)值。其中的元素可以為前述的各個(gè)分塊策略集合中的切片。
[0285]其中,第二數(shù)值和第三數(shù)值可以為任意的互不相同的數(shù)值,對(duì)此本發(fā)明實(shí)施例不加以限制。在實(shí)際應(yīng)用中,為了節(jié)約存儲(chǔ)空間,可以只記錄第二數(shù)值在第一矩陣中的位置。
[0286]在本發(fā)明實(shí)施例中,優(yōu)選地,可以取第二數(shù)值為I,第三數(shù)值為O。如圖3A即為有優(yōu)選地一種第一矩陣示意圖。其中,S1、S2、S3、S4表示4個(gè)分塊策略集合,也可以理解為4個(gè)用戶標(biāo)識(shí),a、b、c、d、e表示元素,如果集合包含某元素,則矩陣中相應(yīng)位置的值為I,否則為O。
[0287]另外需要說明的是,在本發(fā)明實(shí)施例中,在創(chuàng)建了第一矩陣之后,還可以分別針對(duì)任意兩個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)的列,判斷它們的行的所有的取值結(jié)果分別屬于上述的X類的行的數(shù)目X,以及Y類的行的數(shù)目y,那么此時(shí)該兩個(gè)用戶標(biāo)識(shí)之間的相似度為x/(x+y)。
[0288]步驟340,對(duì)所述第一矩陣進(jìn)行N次隨機(jī)行變換,并且在每次隨機(jī)行變換后,選擇各個(gè)用戶標(biāo)識(shí)包含的元素在本次隨機(jī)行變換后的第一矩陣中行號(hào)的最小值,構(gòu)建第三矩陣;所述第三矩陣的行分別對(duì)應(yīng)隨機(jī)行變換的次數(shù),所述第三矩陣的列分別對(duì)應(yīng)各個(gè)用戶標(biāo)識(shí)。
[0289]在本發(fā)明實(shí)施例中,還可以對(duì)第一矩陣進(jìn)行N次隨機(jī)行變換,每次隨機(jī)行變換后取各個(gè)用戶標(biāo)識(shí)的元素在本次變換后的第一矩陣中的最小行號(hào)作為各個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)本次隨機(jī)行變換在第三矩陣中的取值。而若在第一矩陣中的列對(duì)應(yīng)各個(gè)元素,行對(duì)應(yīng)各個(gè)用戶標(biāo)識(shí),那么此時(shí)可以對(duì)第一矩陣進(jìn)行N次隨機(jī)列變換,每次隨機(jī)列變換后取各個(gè)用戶標(biāo)識(shí)的元素在本次變換后的第一矩陣中的最小列號(hào)作為各個(gè)用戶標(biāo)識(shí)對(duì)應(yīng)本次隨機(jī)列變換在第三矩陣中的取值。下面以隨機(jī)行變換為例詳細(xì)說明。
[0290]如圖3B為對(duì)圖3A所示的第一矩陣進(jìn)行隨機(jī)行變換后的示意圖??梢钥闯觯?jīng)過隨機(jī)行變換之后,8對(duì)應(yīng)的行向量由第一行移動(dòng)到了第三行,13對(duì)應(yīng)的行向量由第二行移動(dòng)到了第一行,c對(duì)應(yīng)的行向量由第三行移動(dòng)到了第五行,e對(duì)應(yīng)的行向量由第四行移動(dòng)到了第二行,而d對(duì)應(yīng)的行向量為變化。
[0291]在對(duì)第一矩陣進(jìn)行隨機(jī)行變換之后,可以進(jìn)一步地相應(yīng)獲取變換后的第一矩陣各個(gè)列中取值為第二數(shù)值的元素所在的行號(hào),然后取最小的行號(hào)作為各個(gè)列對(duì)應(yīng)的用戶標(biāo)識(shí)對(duì)應(yīng)于本次隨機(jī)行變換在第三矩陣中的取值。
[0292]在本發(fā)明實(shí)施例中,若以變換后的第一矩陣各個(gè)列中取值為第二數(shù)值的元素在第一矩陣中的行號(hào),作為該元素的哈希簽名。那么在本發(fā)明實(shí)施例中,選擇哈希簽名中的最小值作為當(dāng)前用戶標(biāo)識(shí)對(duì)應(yīng)于本次隨機(jī)行變換在第三矩陣中的取值,也即,以變換后的第一矩陣各個(gè)列中取值為第二數(shù)值的元素在第一矩陣中的行號(hào)的最小值,作為該列對(duì)應(yīng)的用戶標(biāo)識(shí)對(duì)應(yīng)于本次隨機(jī)行變換在第三矩陣中的取值。
[0293]例如,對(duì)于圖3B所示的經(jīng)過隨機(jī)行變換后的第一矩陣。其中,SI對(duì)應(yīng)的列中取值為I的元素a、d所在的行中最小行號(hào)是第3行,S2對(duì)應(yīng)的列中取值為I的元素c首先出現(xiàn)在第5行,S3對(duì)應(yīng)的列中取值為I的元素b、e、d所在的行中最小行號(hào)是第I行,S4對(duì)應(yīng)的列中取值為I的元素a、d、c所在的行中最小行號(hào)是第3行。
[0294]因此可知,SI在第三矩陣中對(duì)應(yīng)于本次隨機(jī)行變換的取值為3,S2在第三矩陣中對(duì)應(yīng)于本次隨機(jī)行變換的取值為5,S3在第三矩陣中對(duì)應(yīng)于本次隨機(jī)行變換的取值為I,S4在第三矩陣中對(duì)應(yīng)于本次隨機(jī)行變換的取值為3。
[0295]步驟350,根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)。
[0296]本步驟與實(shí)施例二中的步驟250類似,本步驟中的第三矩陣相當(dāng)于步驟250中的第二矩陣,在此不再贅述。
[0297]優(yōu)選地在本發(fā)明實(shí)施例中,所述步驟350可以包括:
[0298]子步驟351,以行為單位,將所述第三矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同。
[0299 ]本步驟與實(shí)施例二中的步驟251類似,本步驟中的第三矩陣相當(dāng)于步驟251中的第二矩陣,在此不再贅述。
[0300]子步驟352,利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值。
[0301]子步驟353,根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0302]優(yōu)選地,在本發(fā)明實(shí)施例中,所述步驟353可以包括:
[0303]子步驟3531,獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。
[0304]子步驟3532,按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后進(jìn)入子步驟3531。
[0305]步驟360,計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0306]步驟370,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值;若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則進(jìn)入步驟380。
[0307]步驟380,確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0308]在本發(fā)明實(shí)施例中,同樣獲取多個(gè)用戶標(biāo)識(shí),計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。以用戶標(biāo)識(shí)作為參數(shù),對(duì)各用戶標(biāo)識(shí)進(jìn)行身份識(shí)別,從而降低了時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,進(jìn)而提高了對(duì)用戶識(shí)別的效率以及適用性。
[0309]另外,在本發(fā)明實(shí)施例中,可以先基于各個(gè)用戶標(biāo)識(shí)的分塊策略集合,創(chuàng)建第一矩陣,然后對(duì)第一矩陣進(jìn)行N次隨機(jī)行變換,創(chuàng)建第三矩陣,從而可以從多個(gè)用戶標(biāo)識(shí)中選擇出相似度較高的相似候選用戶標(biāo)識(shí)對(duì),最終只需計(jì)算各個(gè)相似用戶標(biāo)識(shí)對(duì)中包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度,從而也可以降低計(jì)算量,提高水軍用戶識(shí)別的效率。但是,相對(duì)于實(shí)施例二中利用N個(gè)第一哈希函數(shù)創(chuàng)建第二矩陣的方法,本發(fā)明實(shí)施例隨機(jī)行變換仍然會(huì)耗費(fèi)比較多的時(shí)間,所以相對(duì)而言,實(shí)施例二對(duì)水軍用戶識(shí)別的效率更高。
[0310]需要說明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng)實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本申請(qǐng)實(shí)施例所必須的。
[0311]實(shí)施例四
[0312]參照?qǐng)D4,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別裝置實(shí)施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
[0313]用戶標(biāo)識(shí)獲取模塊410,用于獲取多個(gè)用戶標(biāo)識(shí)。
[0314]計(jì)算模塊420,用于計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度。
[0315]優(yōu)選地,在本發(fā)明實(shí)施例中,還包括:
[0316]轉(zhuǎn)換模塊,用于將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0317]在實(shí)際應(yīng)用中,轉(zhuǎn)換模塊可以在計(jì)算模塊420之前執(zhí)行操作。
[0318]優(yōu)選地,在本發(fā)明實(shí)施例中,所述計(jì)算模塊420,包括:
[0319]交并集計(jì)算子模塊,用于分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集以及并集。
[0320]相似度計(jì)算子模塊,用于將任意兩個(gè)所述分塊策略集合之間的交集與并集相除,得到對(duì)應(yīng)該兩個(gè)分塊策略集合的用戶標(biāo)識(shí)之間的相似度。
[0321]判斷模塊430,用于針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值。若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則進(jìn)入第一水軍確認(rèn)模塊440。
[0322]第一水軍確認(rèn)模塊440,用于若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0323]優(yōu)選地,在本發(fā)明實(shí)施例中,還包括:
[0324]第一過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中已經(jīng)通過用戶標(biāo)識(shí)所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí)。
[0325]和/或,第二過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中長(zhǎng)度小于第一長(zhǎng)度閾值的用戶標(biāo)識(shí)。
[0326]和/或,第三過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0327]上述的第一過濾模塊,和/或第二過濾模塊,和/或第三過濾模塊都可以在轉(zhuǎn)換模塊之前,用戶標(biāo)識(shí)獲取模塊之后執(zhí)行。
[0328]優(yōu)選地,在本發(fā)明實(shí)施例中,所述第三過濾模塊,包括:
[0329]組成匹配子模塊,用于利用正則表達(dá)式匹配所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)的組成。
[0330]第三過濾子模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中匹配為完全由字母組成的用戶標(biāo)識(shí),以及匹配為由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。
[0331]優(yōu)選地,在本發(fā)明實(shí)施例中,還包括:
[0332]語言模型訓(xùn)練模塊,適于利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型。
[0333]在本發(fā)明實(shí)施例中,語言模型訓(xùn)練模塊可以在第一水軍確認(rèn)模塊340之后執(zhí)行具體操作。
[0334]優(yōu)選地,在本發(fā)明實(shí)施例中,還包括:
[0335]概率計(jì)算模塊,適于當(dāng)獲取一個(gè)新的用戶標(biāo)識(shí)時(shí),利用所述語言模型計(jì)算所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率;如果所述概率超過第二閾值,則進(jìn)入第二水軍確認(rèn)豐吳塊;
[0336]第二水軍確認(rèn)模塊,適于確認(rèn)所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0337]在本發(fā)明實(shí)施例中,概率計(jì)算模塊和第二水軍確認(rèn)模塊可以依次在語言模型訓(xùn)練模塊之后執(zhí)行具體操作。
[0338]在本發(fā)明實(shí)施例中,獲取多個(gè)用戶標(biāo)識(shí),計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。以用戶標(biāo)識(shí)作為參數(shù),對(duì)各用戶標(biāo)識(shí)進(jìn)行身份識(shí)別,從而降低了時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,進(jìn)而提高了對(duì)用戶識(shí)別的效率以及適用性。
[0339]實(shí)施例五
[0340]參照?qǐng)D5,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別裝置實(shí)施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
[0341]用戶標(biāo)識(shí)獲取模塊510,用于獲取多個(gè)用戶標(biāo)識(shí)。
[0342]轉(zhuǎn)換模塊520,用于將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0343]計(jì)算模塊530,用于計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度。具體包括:
[0344]哈希簽名計(jì)算子模塊531,用于利用N個(gè)第一哈希函數(shù)分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素的哈希簽名;所述N個(gè)第一哈希函數(shù)各不相同。
[0345]第二矩陣構(gòu)建子模塊532,用于針對(duì)每個(gè)第一哈希函數(shù),分別選擇各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素對(duì)應(yīng)于該第一哈希函數(shù)的哈希簽名中的最小值,構(gòu)建第二矩陣;所述第二矩陣的列分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),行分別對(duì)應(yīng)各個(gè)第一哈希函數(shù)。
[0346]第一相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊533,用于根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)。
[0347]優(yōu)選地,在本發(fā)明實(shí)施例中,所述第一相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊533,包括:
[0348]第二矩陣切分單元,用于以行為單位,將所述第二矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同。
[0349]哈希值計(jì)算單元,用于利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值。
[0350]相似候選用戶標(biāo)識(shí)對(duì)獲取單元,用于根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0351]優(yōu)選地,在本發(fā)明實(shí)施例中,所述相似候選用戶標(biāo)識(shí)對(duì)獲取單元,包括:
[0352]相似候選用戶標(biāo)識(shí)對(duì)獲取子單元,用于獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì);
[0353]當(dāng)前子矩陣確認(rèn)子單元,用于按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后針對(duì)當(dāng)前子矩陣,進(jìn)入相似候選用戶標(biāo)識(shí)對(duì)獲取子單元。
[0354]計(jì)算子模塊534,用于計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0355]在本發(fā)明實(shí)施例中,上述的哈希簽名計(jì)算子模塊、第一第二矩陣構(gòu)建子模塊以及相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊都可以依次在計(jì)算模塊之前,或者是在計(jì)算模塊之前的任一模塊之前,執(zhí)行具體的操作,對(duì)此本發(fā)明不加以限定。
[0356]判斷模塊540,用于針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值。具體包括:
[0357]第一判斷子模塊541,用于判斷各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度是否超過第一閾值;若超過,則進(jìn)入第一確認(rèn)子模塊542。
[0358]第一確認(rèn)子模塊542,用于確認(rèn)該相似候選用戶標(biāo)識(shí)對(duì)為相似用戶標(biāo)識(shí)對(duì)。
[0359]第二判斷子模塊543,用于判斷包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量是否超過第一數(shù)值,若包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量超過第一數(shù)值,則進(jìn)入第一水軍確認(rèn)模塊550。
[0360]第一水軍確認(rèn)模塊550,用于若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0361]在本發(fā)明實(shí)施例中,同樣獲取多個(gè)用戶標(biāo)識(shí),計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。以用戶標(biāo)識(shí)作為參數(shù),對(duì)各用戶標(biāo)識(shí)進(jìn)行身份識(shí)別,從而降低了時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,進(jìn)而提高了對(duì)用戶識(shí)別的效率以及適用性。
[0362]另外,本發(fā)明實(shí)施例利用基于MinHash的LSH算法,首先利用第一哈希函數(shù)創(chuàng)建第二矩陣,然后對(duì)第二矩陣進(jìn)行切分成多個(gè)子矩陣,進(jìn)一步利用第二哈希函數(shù)依次將各個(gè)子矩陣映射到不同的存儲(chǔ)空間中,從而可以從多個(gè)用戶標(biāo)識(shí)中選擇出相似度較高的相似候選用戶標(biāo)識(shí)對(duì),最終只需計(jì)算各個(gè)相似用戶標(biāo)識(shí)對(duì)中包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度,從而進(jìn)一步地降低了計(jì)算量,提高了水軍用戶識(shí)別的效率。
[0363]實(shí)施例六
[0364]參照?qǐng)D6,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種用戶標(biāo)識(shí)識(shí)別裝置實(shí)施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
[0365]用戶標(biāo)識(shí)獲取模塊610,用于獲取多個(gè)用戶標(biāo)識(shí)。
[0366]轉(zhuǎn)換模塊620,用于將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。
[0367]計(jì)算模塊630,用于計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度。具體包括:
[0368]第一矩陣構(gòu)建子模塊631,用于根據(jù)所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)與各用戶標(biāo)識(shí)的分塊策略集合中的各元素之間的關(guān)系,構(gòu)建第一矩陣;其中,所述第一矩陣的列對(duì)應(yīng)于各用戶標(biāo)識(shí);所述第一矩陣的行對(duì)應(yīng)于各用戶標(biāo)識(shí)的分塊策略集合中的各元素;如果用戶標(biāo)識(shí)中包含所述元素中的任一元素,則對(duì)應(yīng)在所述第一矩陣中的值為第二數(shù)值;如果用戶標(biāo)識(shí)中不包含該元素,則對(duì)應(yīng)在所述第一矩陣中的值為第三數(shù)值.
[0369]第三矩陣構(gòu)建子模塊632,用于對(duì)所述第一矩陣進(jìn)行N次隨機(jī)行變換,并且在每次隨機(jī)行變換后,選擇各個(gè)用戶標(biāo)識(shí)包含的元素在本次隨機(jī)行變換后的第一矩陣中行號(hào)的最小值,構(gòu)建第三矩陣;所述第三矩陣的行對(duì)應(yīng)隨機(jī)行變換的次數(shù),列對(duì)應(yīng)各個(gè)用戶標(biāo)識(shí)。
[0370]第二相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊633,用于根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)。
[0371]優(yōu)選地,在本發(fā)明實(shí)施例中,所述第二相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊633,包括:
[0372]第三矩陣切分單元,用于以行為單位,將所述第三矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同。
[0373]哈希值計(jì)算單元,用于利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值。
[0374]相似候選用戶標(biāo)識(shí)對(duì)獲取單元,用于根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。
[0375]優(yōu)選地,在本發(fā)明實(shí)施例中,所述相似候選用戶標(biāo)識(shí)對(duì)獲取單元,包括:
[0376]相似候選用戶標(biāo)識(shí)對(duì)獲取子單元,用于獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)。
[0377]當(dāng)前子矩陣確認(rèn)子單元,用于按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后進(jìn)入相似候選用戶標(biāo)識(shí)對(duì)獲取子單
J L ο
[0378]計(jì)算子模塊634,用于計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。
[0379]判斷模塊640,用于針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值。
[0380]第一水軍確認(rèn)模塊650,用于若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
[0381]在本發(fā)明實(shí)施例中,同樣獲取多個(gè)用戶標(biāo)識(shí),計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度,針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。以用戶標(biāo)識(shí)作為參數(shù),對(duì)各用戶標(biāo)識(shí)進(jìn)行身份識(shí)別,從而降低了時(shí)間成本以及對(duì)數(shù)據(jù)的完備性要求,進(jìn)而提高了對(duì)用戶識(shí)別的效率以及適用性。
[0382]另外,在本發(fā)明實(shí)施例中,可以先基于各個(gè)用戶標(biāo)識(shí)的分塊策略集合,創(chuàng)建第一矩陣,然后對(duì)第一矩陣進(jìn)行N次隨機(jī)行變換,創(chuàng)建第三矩陣,從而可以從多個(gè)用戶標(biāo)識(shí)中選擇出相似度較高的相似候選用戶標(biāo)識(shí)對(duì),最終只需計(jì)算各個(gè)相似用戶標(biāo)識(shí)對(duì)中包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度,從而也可以降低計(jì)算量,提高水軍用戶識(shí)別的效率。但是,相對(duì)于實(shí)施例二中利用N個(gè)第一哈希函數(shù)創(chuàng)建第二矩陣的方法,本發(fā)明實(shí)施例隨機(jī)行變換仍然會(huì)耗費(fèi)比較多的時(shí)間,所以相對(duì)而言,實(shí)施例二對(duì)水軍用戶識(shí)別的效率更高。
[0383]對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0384]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
[0385]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0386]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0387]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0388]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0389]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0390]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的用戶標(biāo)識(shí)識(shí)別設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0391]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【主權(quán)項(xiàng)】
1.一種用戶標(biāo)識(shí)識(shí)別方法,包括: 獲取多個(gè)用戶標(biāo)識(shí); 計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度; 針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值; 若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟之前,還包括: 將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟,包括: 分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集以及并集; 將任意兩個(gè)所述分塊策略集合之間的交集與并集相除,得到對(duì)應(yīng)該兩個(gè)分塊策略集合的用戶標(biāo)識(shí)之間的相似度。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟,包括: 利用N個(gè)第一哈希函數(shù)分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素的哈希簽名;所述N個(gè)第一哈希函數(shù)各不相同; 針對(duì)每個(gè)第一哈希函數(shù),分別選擇各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素對(duì)應(yīng)于該第一哈希函數(shù)的哈希簽名中的最小值,構(gòu)建第二矩陣;所述第二矩陣的列分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),所述第二矩陣的行分別對(duì)應(yīng)各個(gè)第一哈希函數(shù)。 根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì); 計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)的步驟,包括: 以行為單位,將所述第二矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同; 利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值; 根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度的步驟,包括: 根據(jù)所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)與各用戶標(biāo)識(shí)的分塊策略集合中各元素之間的關(guān)系,構(gòu)建第一矩陣;其中,所述第一矩陣的列對(duì)應(yīng)于各用戶標(biāo)識(shí);所述第一矩陣的行對(duì)應(yīng)于各用戶標(biāo)識(shí)的分塊策略集合中的各元素;如果用戶標(biāo)識(shí)中包含所述元素中的任一元素,則對(duì)應(yīng)在所述第一矩陣中的值為第二數(shù)值;如果用戶標(biāo)識(shí)中不包含該元素,則對(duì)應(yīng)在所述第一矩陣中的值為第三數(shù)值; 對(duì)所述第一矩陣進(jìn)行N次隨機(jī)行變換,并且在每次隨機(jī)行變換后,選擇各個(gè)用戶標(biāo)識(shí)包含的元素在本次隨機(jī)行變換后的第一矩陣中行號(hào)的最小值,構(gòu)建第三矩陣;所述第三矩陣的行分別對(duì)應(yīng)隨機(jī)行變換的次數(shù),所述第三矩陣的列分別對(duì)應(yīng)各個(gè)用戶標(biāo)識(shí); 根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì); 計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)的步驟,包括: 以行為單位,將所述第三矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同; 利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值; 根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。8.根據(jù)權(quán)利要求5或7所述的方法,其特征在于,所述根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)的步驟,包括: 獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì); 按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后針對(duì)當(dāng)前子矩陣,進(jìn)入獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì)的步驟。9.根據(jù)權(quán)利要求4或6所述的方法,其特征在于,所述針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值的步驟,包括: 判斷各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度是否超過第一閾值;若超過,則確認(rèn)該相似候選用戶標(biāo)識(shí)對(duì)為相似用戶標(biāo)識(shí)對(duì); 判斷包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量是否超過第一數(shù)值,若包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量超過第一數(shù)值,則確認(rèn)當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。10.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合的步驟之前,還包括: 過濾掉所述多個(gè)用戶標(biāo)識(shí)中已經(jīng)通過用戶標(biāo)識(shí)所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí); 和/或,過濾掉所述多個(gè)用戶標(biāo)識(shí)中長(zhǎng)度小于第一長(zhǎng)度閾值的用戶標(biāo)識(shí); 和/或,過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)的步驟,包括: 利用正則表達(dá)式匹配所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)的組成; 過濾掉所述多個(gè)用戶標(biāo)識(shí)中匹配為完全由字母組成的用戶標(biāo)識(shí),以及匹配為由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。12.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的步驟之后,還包括: 利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型。13.根據(jù)權(quán)利要求12所述的方法,其特征在于,在所述利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型的步驟之后,還包括: 當(dāng)獲取一個(gè)新的用戶標(biāo)識(shí)時(shí),利用所述語言模型計(jì)算所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率; 如果所述概率超過第二閾值,則確認(rèn)所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。14.一種用戶標(biāo)識(shí)識(shí)別裝置,包括: 用戶標(biāo)識(shí)獲取模塊,用于獲取多個(gè)用戶標(biāo)識(shí); 計(jì)算模塊,用于計(jì)算所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)之間的相似度; 判斷模塊,用于針對(duì)所述多個(gè)用戶標(biāo)識(shí)中的任一用戶標(biāo)識(shí),判斷當(dāng)前用戶標(biāo)識(shí)是否與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值; 第一水軍確認(rèn)模塊,用于若當(dāng)前用戶標(biāo)識(shí)與超過第一數(shù)值的其他用戶標(biāo)識(shí)的相似度超過第一閾值,則確認(rèn)所述當(dāng)前用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,還包括: 轉(zhuǎn)換模塊,用于將所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí)分別轉(zhuǎn)換成分塊策略集合;所述分塊策略集合包括相應(yīng)的用戶標(biāo)識(shí)的切片。16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述計(jì)算模塊,包括: 交并集計(jì)算子模塊,用于分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合之間的交集以及并集; 相似度計(jì)算子模塊,用于將任意兩個(gè)所述分塊策略集合之間的交集與并集相除,得到對(duì)應(yīng)該兩個(gè)分塊策略集合的用戶標(biāo)識(shí)之間的相似度。17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述計(jì)算模塊,包括: 哈希簽名計(jì)算子模塊,用于利用N個(gè)第一哈希函數(shù)分別計(jì)算各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素的哈希簽名;所述N個(gè)第一哈希函數(shù)各不相同;第二矩陣構(gòu)建子模塊,用于針對(duì)每個(gè)第一哈希函數(shù),分別選擇各個(gè)用戶標(biāo)識(shí)的分塊策略集合包含的元素對(duì)應(yīng)于該第一哈希函數(shù)的哈希簽名中的最小值,構(gòu)建第二矩陣;所述第二矩陣的列分別對(duì)應(yīng)所述多個(gè)用戶標(biāo)識(shí)中的各用戶標(biāo)識(shí),行分別對(duì)應(yīng)各個(gè)第一哈希函數(shù);第一相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,用于根據(jù)所述第二矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì); 計(jì)算子模塊,用于計(jì)算每個(gè)所述相似候選用戶標(biāo)識(shí)對(duì)對(duì)應(yīng)的兩個(gè)用戶標(biāo)識(shí)之間的相似度。18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述第一相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,包括: 第二矩陣切分單元,用于以行為單位,將所述第二矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同; 哈希值計(jì)算單元,用于利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值; 相似候選用戶標(biāo)識(shí)對(duì)獲取單元,用于根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。19.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述計(jì)算模塊,還包括: 第一矩陣構(gòu)建子模塊,用于根據(jù)所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)與各用戶標(biāo)識(shí)的分塊策略集合中各元素之間的關(guān)系,構(gòu)建第一矩陣;其中,所述第一矩陣的列對(duì)應(yīng)于各用戶標(biāo)識(shí);所述第一矩陣的行對(duì)應(yīng)于各用戶標(biāo)識(shí)的分塊策略集合中的各元素;如果用戶標(biāo)識(shí)中包含所述元素中的任一元素,則對(duì)應(yīng)在所述第一矩陣中的值為第二數(shù)值;如果用戶標(biāo)識(shí)中不包含該元素,則對(duì)應(yīng)在所述第一矩陣中的值為第三數(shù)值; 第三矩陣構(gòu)建子模塊,用于對(duì)所述第一矩陣進(jìn)行N次隨機(jī)行變換,并且在每次隨機(jī)行變換后,選擇各個(gè)用戶標(biāo)識(shí)包含的元素在本次隨機(jī)行變換后的第一矩陣中行號(hào)的最小值,構(gòu)建第三矩陣;所述第三矩陣的行分別對(duì)應(yīng)隨機(jī)行變換的次數(shù),所述第三矩陣的列分別對(duì)應(yīng)各個(gè)用戶標(biāo)識(shí); 第二相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,用于根據(jù)所述第三矩陣,獲取所述多個(gè)用戶標(biāo)識(shí)中的相似候選用戶標(biāo)識(shí)對(duì)。20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述第二相似候選用戶標(biāo)識(shí)對(duì)獲取子模塊,包括: 第三矩陣切分單元,用于以行為單位,將所述第三矩陣切分為至少兩個(gè)子矩陣;所述子矩陣中包含的行數(shù)相同; 哈希值計(jì)算單元,用于利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中各個(gè)列的哈希值; 相似候選用戶標(biāo)識(shí)對(duì)獲取單元,用于根據(jù)當(dāng)前子矩陣中各個(gè)列的哈希值,獲取相似候選用戶標(biāo)識(shí)對(duì)。21.根據(jù)權(quán)利要求18或20所述的裝置,其特征在于,所述相似候選用戶標(biāo)識(shí)對(duì)獲取單元,包括: 相似候選用戶標(biāo)識(shí)對(duì)獲取子單元,用于獲取當(dāng)前子矩陣中哈希值相同的列對(duì)應(yīng)的各用戶標(biāo)識(shí),并以其中的任意兩個(gè)用戶標(biāo)識(shí)作為一個(gè)相似候選用戶標(biāo)識(shí)對(duì); 當(dāng)前子矩陣確認(rèn)子單元,用于按照切分的順序,將當(dāng)前子矩陣的下一個(gè)子矩陣作為當(dāng)前子矩陣,并利用第二哈希函數(shù)分別計(jì)算當(dāng)前子矩陣中除了已確認(rèn)為相似候選用戶標(biāo)識(shí)對(duì)的用戶標(biāo)識(shí)對(duì)應(yīng)的列以外的各個(gè)列的哈希值,然后進(jìn)入相似候選用戶標(biāo)識(shí)對(duì)獲取子單元。22.根據(jù)權(quán)利要求17或19所述的裝置,其特征在于,所述判斷模塊,包括: 第一判斷子模塊,用于判斷各個(gè)相似候選用戶標(biāo)識(shí)對(duì)包含的兩個(gè)用戶標(biāo)識(shí)之間的相似度是否超過第一閾值;若超過,則進(jìn)入第一確認(rèn)子模塊; 第一確認(rèn)子模塊,用于確認(rèn)該相似候選用戶標(biāo)識(shí)對(duì)為相似用戶標(biāo)識(shí)對(duì); 第二判斷子模塊,用于判斷包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量是否超過第一數(shù)值,若包含當(dāng)前用戶標(biāo)識(shí)的相似用戶標(biāo)識(shí)對(duì)的數(shù)量超過第一數(shù)值,則進(jìn)入第一水軍確認(rèn)豐旲塊。23.根據(jù)權(quán)利要求15所述的裝置,其特征在于,還包括: 第一過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中已經(jīng)通過用戶標(biāo)識(shí)所在平臺(tái)認(rèn)證的用戶標(biāo)識(shí); 和/或,第二過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中長(zhǎng)度小于第一長(zhǎng)度閾值的用戶標(biāo)識(shí); 和/或,第三過濾模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中完全由字母組成的用戶標(biāo)識(shí),以及由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。24.根據(jù)權(quán)利要求23所述的裝置,其特征在于,所述第三過濾模塊,包括: 組成匹配子模塊,用于利用正則表達(dá)式匹配所述多個(gè)用戶標(biāo)識(shí)中各用戶標(biāo)識(shí)的組成; 第三過濾子模塊,用于過濾掉所述多個(gè)用戶標(biāo)識(shí)中匹配為完全由字母組成的用戶標(biāo)識(shí),以及匹配為由連續(xù)的漢字加上連續(xù)的字母組成的用戶標(biāo)識(shí)。25.根據(jù)權(quán)利要求14所述的裝置,其特征在于,還包括: 語言模型訓(xùn)練模塊,適于利用已經(jīng)確定的網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)作為訓(xùn)練集訓(xùn)練一個(gè)語言模型。26.根據(jù)權(quán)利要求25所述的裝置,其特征在于,還包括: 概率計(jì)算模塊,適于當(dāng)獲取一個(gè)新的用戶標(biāo)識(shí)時(shí),利用所述語言模型計(jì)算所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)的概率;如果所述概率超過第二閾值,則進(jìn)入第二水軍確認(rèn)模塊; 第二水軍確認(rèn)模塊,適于確認(rèn)所述新的用戶標(biāo)識(shí)為網(wǎng)絡(luò)水軍用戶標(biāo)識(shí)。
【文檔編號(hào)】G06Q50/00GK106095813SQ201610377674
【公開日】2016年11月9日
【申請(qǐng)日】2016年5月31日
【發(fā)明人】沈, 沈一, 鮑新平
【申請(qǐng)人】北京奇藝世紀(jì)科技有限公司