本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種身份核查一體化的方法和系統(tǒng)。
背景技術(shù):
身份核查一體化是通過進(jìn)行一站式人員基礎(chǔ)信息采集,將采集設(shè)備與人員信息采集系統(tǒng)緊密集成,實(shí)現(xiàn)人員信息實(shí)時(shí)送至各后臺(tái)業(yè)務(wù)系統(tǒng),即時(shí)將比對(duì)結(jié)果反饋給采集單位。通過各信息接口平臺(tái),方便地與各分散系統(tǒng)完整對(duì)接,快速完成采集即錄入,錄入即核查,核查即反饋。
目前,身份核查已經(jīng)大量的使用在飛機(jī)場(chǎng)、火車站、銀行等場(chǎng)合,用于對(duì)登機(jī)的乘客或銀行交易的客戶進(jìn)行身份核查。然而,在互聯(lián)網(wǎng)迅猛發(fā)展的今天,很多網(wǎng)絡(luò)即時(shí)通信工具不斷涌現(xiàn),例如微博、微信,由于這些通信工具被大量使用時(shí),可能并不需要實(shí)名驗(yàn)證。因此,僅僅知道這些即時(shí)通信工具的賬號(hào)并不能及時(shí)了解使用這個(gè)賬號(hào)的用戶的真實(shí)身份。這就給了一些犯罪分子以可乘之機(jī),例如網(wǎng)絡(luò)詐騙的案件層出不窮。
技術(shù)實(shí)現(xiàn)要素:
為解決以上問題,本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的。
本發(fā)明提出了一種身份核查一體化的方法,其包括:
步驟一,基于個(gè)人信息,使用網(wǎng)絡(luò)爬蟲方法抓取用戶相關(guān)的圖片,形成圖片庫(kù);
步驟二,基于上述個(gè)人信息和圖片庫(kù),對(duì)用戶的身份進(jìn)行一體化核查。
優(yōu)選的,如上所述的身份核查一體化的方法,所述網(wǎng)絡(luò)爬蟲方法包括如下步驟:
(一)、使用杜威十進(jìn)分類法,在網(wǎng)頁(yè)特征提取階段,快速找出將網(wǎng)頁(yè)文本與錨文本關(guān)鍵詞主題相近的關(guān)鍵詞。
(二)、提取主題候選鏈接特征文本;
(三)、使用樸素貝葉斯文本分類器對(duì)候選鏈接主題邊緣文本進(jìn)行分類,獲取主題相關(guān)網(wǎng)頁(yè);如果文本屬于特定主題,那么相對(duì)應(yīng)的候選鏈接以分類權(quán)值作為優(yōu)先級(jí)值,以優(yōu)先級(jí)的大小順序插入爬行隊(duì)列,爬蟲優(yōu)先訪問分類值大的鏈接,如果文本不屬于特定主題,則丟棄候選鏈接;
(四)、對(duì)相關(guān)網(wǎng)頁(yè)的web鏈接信息用hits算法計(jì)算出其對(duì)應(yīng)的權(quán)威度和中心度,綜合錨文本、錨文本附近信息、反向網(wǎng)頁(yè)、反向鏈接的兄弟鏈接、url鏈接,預(yù)判待爬取網(wǎng)頁(yè)與主題的相關(guān)度。
優(yōu)選的,如上所述的身份核查一體化的方法,所述提取主題候選鏈接特征文本包括如下步驟:
(1)對(duì)網(wǎng)頁(yè)的錨文本和正文進(jìn)行分詞處理,去掉停用詞,得到關(guān)鍵詞;
(2)查找關(guān)鍵詞的杜威分類號(hào)碼;
(3)運(yùn)用杜威十進(jìn)制分類法的特性并結(jié)合二維坐標(biāo)提取主題候選鏈接特征文本;把關(guān)鍵詞分類號(hào)碼的長(zhǎng)度作為x軸,關(guān)鍵詞分類號(hào)碼作為y軸,將關(guān)鍵詞對(duì)應(yīng)的杜威十進(jìn)分類號(hào)碼在二維坐標(biāo)中繪制相應(yīng)的點(diǎn)。
(4)提取二維坐標(biāo)中錨文本關(guān)鍵點(diǎn)以及錨文本周圍的關(guān)鍵點(diǎn)對(duì)應(yīng)的關(guān)鍵詞作為主題候選鏈接特征文本。
優(yōu)選的,如上所述的身份核查一體化的方法,所述個(gè)人信息為手機(jī)號(hào)、身份證號(hào)、或郵箱中的一個(gè)或多個(gè);所述用戶相關(guān)的圖片包括微博、微信、身份證上的圖片。
優(yōu)選的,如上所述的身份核查一體化的方法,所述一體化核查包括如下過程:對(duì)用戶進(jìn)行分析、打標(biāo)簽、關(guān)聯(lián)、價(jià)值定位。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種身份核查一體化的系統(tǒng),包括順序連接的如下模塊:
圖片抓取模塊,用于基于個(gè)人信息,使用網(wǎng)絡(luò)爬蟲方法抓取用戶相關(guān)的圖片,形成圖片庫(kù);
身份核查模塊,用于基于上述個(gè)人信息和圖片庫(kù),對(duì)用戶的身份進(jìn)行一體化核查。
優(yōu)選的,如上所述的身份核查一體化的系統(tǒng),所述圖片抓取模塊包括順序連接的如下單元:
關(guān)鍵詞尋找單元,用于使用杜威十進(jìn)分類法,在網(wǎng)頁(yè)特征提取階段,快速找出將網(wǎng)頁(yè)文本與錨文本關(guān)鍵詞主題相近的關(guān)鍵詞;
提取特征文本單元,用于提取主題候選鏈接特征文本;
網(wǎng)頁(yè)獲取單元,用于使用樸素貝葉斯文本分類器對(duì)候選鏈接主題邊緣文本進(jìn)行分類,獲取主題相關(guān)網(wǎng)頁(yè);如果文本屬于特定主題,那么相對(duì)應(yīng)的候選鏈接以分類權(quán)值作為優(yōu)先級(jí)值,以優(yōu)先級(jí)的大小順序插入爬行隊(duì)列,爬蟲優(yōu)先訪問分類值大的鏈接,如果文本不屬于特定主題,則丟棄候選鏈接;
預(yù)判單元,用于對(duì)相關(guān)網(wǎng)頁(yè)的web鏈接信息用hits算法計(jì)算出其對(duì)應(yīng)的權(quán)威度和中心度,綜合錨文本、錨文本附近信息、反向網(wǎng)頁(yè)、反向鏈接的兄弟鏈接、url鏈接,預(yù)判待爬取網(wǎng)頁(yè)與主題的相關(guān)度。
優(yōu)選的,如上所述的身份核查一體化的系統(tǒng),所述提取特征文本單元包括順序連接的如下裝置:
分詞裝置,用于對(duì)網(wǎng)頁(yè)的錨文本和正文進(jìn)行分詞處理,去掉停用詞,得到關(guān)鍵詞;
查找裝置,用于查找關(guān)鍵詞的杜威分類號(hào)碼;
第一提取裝置,用于運(yùn)用杜威十進(jìn)制分類法的特性并結(jié)合二維坐標(biāo)提取主題候選鏈接特征文本;把關(guān)鍵詞分類號(hào)碼的長(zhǎng)度作為x軸,關(guān)鍵詞分類號(hào)碼作為y軸,將關(guān)鍵詞對(duì)應(yīng)的杜威十進(jìn)分類號(hào)碼在二維坐標(biāo)中繪制相應(yīng)的點(diǎn)。
第二提取裝置,用于提取二維坐標(biāo)中錨文本關(guān)鍵點(diǎn)以及錨文本周圍的關(guān)鍵點(diǎn)對(duì)應(yīng)的關(guān)鍵詞作為主題候選鏈接特征文本。
優(yōu)選的,如上所述的身份核查一體化的系統(tǒng),所述個(gè)人信息為手機(jī)號(hào)、身份證號(hào)、或郵箱中的一個(gè)或多個(gè);所述用戶相關(guān)的圖片包括微博、微信、身份證上的圖片。
優(yōu)選的,如上所述的身份核查一體化的系統(tǒng),所述一體化核查包括如下過程:對(duì)用戶進(jìn)行分析、打標(biāo)簽、關(guān)聯(lián)、價(jià)值定位。
通過本發(fā)明可以從大量的數(shù)據(jù)提取有用數(shù)據(jù)來評(píng)價(jià)用戶是否為合法用戶,降低了被詐騙的可能性,從而保護(hù)用戶利益,提高用戶體驗(yàn)。在發(fā)生詐騙案件時(shí),能夠根據(jù)用戶網(wǎng)絡(luò)信息迅速鎖定身份,從而為迅速破案提供有力保證。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
附圖1示出了根據(jù)本發(fā)明實(shí)施方式的身份核查一體化的方法流程圖。
附圖2示出了根據(jù)本發(fā)明實(shí)施方式的信息圖片抓取的方法流程圖。
附圖3示出了根據(jù)本發(fā)明實(shí)施方式的身份核查一體化的系統(tǒng)模塊圖。
附圖4示出了根據(jù)本發(fā)明實(shí)施方式的圖片抓取模塊的結(jié)構(gòu)圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施方式。雖然附圖中顯示了本公開的示例性實(shí)施方式,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
具體的,如圖1所示,本發(fā)明提出了一種身份核查一體化的方法,其包括如下步驟:
步驟s1、基于個(gè)人信息,使用網(wǎng)絡(luò)爬蟲方法抓取用戶相關(guān)的圖片,形成圖片庫(kù)。上述個(gè)人信息為手機(jī)號(hào)、護(hù)照號(hào)、身份證號(hào)、或郵箱中的一個(gè)或多個(gè),也可以是戶口本編號(hào)、駕照號(hào)碼等等,不限于上述列舉,只要是能唯一識(shí)別用戶的個(gè)人信息即可。所述用戶相關(guān)的圖片包括但不限于微博、微信、身份證上的圖片,當(dāng)然也可以是例如駕照系統(tǒng)上的照片、律師執(zhí)業(yè)證上的照片等等。也就是說,通過大量搜集和用戶本人密切相關(guān)的圖片,可以在網(wǎng)絡(luò)上最大限度的查找到與其相關(guān)的照片信息。例如,將所述圖片庫(kù)歸成同一個(gè)人不同衣著的圖片庫(kù)。
在本發(fā)明的優(yōu)選實(shí)施例中,上述采集采用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行目標(biāo)抓取。網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在foaf社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。
網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲(generalpurposewebcrawler)、聚焦網(wǎng)絡(luò)爬蟲(focusedwebcrawler)、增量式網(wǎng)絡(luò)爬蟲(incrementalwebcrawler)、深層網(wǎng)絡(luò)爬蟲(deepwebcrawler)。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。
通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲(scalablewebcrawler),爬行對(duì)象從一些種子url擴(kuò)充到整個(gè)web,主要為門戶站點(diǎn)搜索引擎和大型web服務(wù)提供商采集數(shù)據(jù)。由于商業(yè)原因,它們的技術(shù)細(xì)節(jié)很少公布出來。這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大,對(duì)于爬行速度和存儲(chǔ)空間要求較高,對(duì)于爬行頁(yè)面的順序要求相對(duì)較低,同時(shí)由于待刷新的頁(yè)面太多,通常采用并行工作方式,但需要較長(zhǎng)時(shí)間才能刷新一次頁(yè)面。雖然存在一定缺陷,通用網(wǎng)絡(luò)爬蟲適用于為搜索引擎搜索廣泛的主題,有較強(qiáng)的應(yīng)用價(jià)值。
聚焦網(wǎng)絡(luò)爬蟲(focusedcrawler),又稱主題網(wǎng)絡(luò)爬蟲(topicalcrawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁(yè)面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁(yè)面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。
聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比,增加了鏈接評(píng)價(jià)模塊以及內(nèi)容評(píng)價(jià)模塊。聚焦爬蟲爬行策略實(shí)現(xiàn)的關(guān)鍵是評(píng)價(jià)頁(yè)面內(nèi)容和鏈接的重要性,不同的方法計(jì)算出的重要性不同,由此導(dǎo)致鏈接的訪問順序也不同。
由于本發(fā)明面向特定的數(shù)據(jù)源,因此屬于主題網(wǎng)絡(luò)爬蟲算法。本發(fā)明把網(wǎng)頁(yè)正文,錨文本、錨文本附近信息、反向網(wǎng)頁(yè)、反向鏈接的兄弟鏈接、url鏈接結(jié)合起來,使用一種混合爬行策略。針對(duì)每步待抓取網(wǎng)頁(yè)的特點(diǎn),采用差異化的url預(yù)測(cè)方法來提高網(wǎng)頁(yè)與主題的相關(guān)度。具體的,本發(fā)明采用了獨(dú)特的主題網(wǎng)絡(luò)爬蟲算法,如圖2所示,包括如下步驟:
s11、使用杜威十進(jìn)分類法,在網(wǎng)頁(yè)特征提取階段,快速找出網(wǎng)頁(yè)文本與錨文本關(guān)鍵詞主題相近的關(guān)鍵詞。例如,通過杜威十進(jìn)分類法,可以迅速查找出包含用戶照片的網(wǎng)頁(yè)和包含該照片的錨文本。
s12、提取主題候選鏈接特征文本。這個(gè)步驟的實(shí)現(xiàn)過程包括如下四個(gè)步驟:
(1)對(duì)網(wǎng)頁(yè)的錨文本和正文進(jìn)行分詞處理,去掉停用詞,得到關(guān)鍵詞;
(2)查找關(guān)鍵詞的杜威分類號(hào)碼;
(3)運(yùn)用杜威十進(jìn)制分類法的特性并結(jié)合二維坐標(biāo)提取主題候選鏈接特征文本。把關(guān)鍵詞分類號(hào)碼的長(zhǎng)度作為x軸,關(guān)鍵詞分類號(hào)碼作為y軸,將關(guān)鍵詞對(duì)應(yīng)的杜威十進(jìn)分類號(hào)碼在二維坐標(biāo)中繪制相應(yīng)的點(diǎn)。
(4)提取二維坐標(biāo)中錨文本關(guān)鍵點(diǎn)以及錨文本周圍的關(guān)鍵點(diǎn)對(duì)應(yīng)的關(guān)鍵詞作為主題候選鏈接特征文本。
s13、使用樸素貝葉斯文本分類器對(duì)候選鏈接主題邊緣文本進(jìn)行分類,獲取主題相關(guān)網(wǎng)頁(yè)。如果文本屬于特定主題,那么相對(duì)應(yīng)的候選鏈接以分類權(quán)值作為優(yōu)先級(jí)值,以優(yōu)先級(jí)的大小順序插入爬行隊(duì)列,爬蟲優(yōu)先訪問分類值大的鏈接,如果文本不屬于特定主題,則丟棄候選鏈接。例如如果文本屬于用戶照片這個(gè)主題,就賦予它較高的優(yōu)先級(jí),但如果文本不屬于用戶照片主題,就丟棄其中的候選鏈接。
s14、對(duì)相關(guān)網(wǎng)頁(yè)的web鏈接信息用hits算法計(jì)算出其對(duì)應(yīng)的權(quán)威度(authority)和中心度(hub),綜合錨文本、錨文本附近信息、反向網(wǎng)頁(yè)、反向鏈接的兄弟鏈接、url鏈接,預(yù)判待爬取網(wǎng)頁(yè)與主題的相關(guān)度。
例如,通過這個(gè)步驟,能夠很準(zhǔn)確的預(yù)判出待爬取的網(wǎng)頁(yè)與用戶照片的相關(guān)度,有些網(wǎng)頁(yè)雖然包含用戶照片,但相關(guān)度并不一定很高,也是可以摒棄的。
步驟s2,基于上述個(gè)人信息和圖片庫(kù),對(duì)用戶的身份進(jìn)行一體化核查。所述一體化核查包括如下過程:對(duì)用戶進(jìn)行分析、打標(biāo)簽、關(guān)聯(lián)、價(jià)值定位等。
其中,對(duì)用戶進(jìn)行分析的方法可以是,例如,圖片庫(kù)中同時(shí)搜集了對(duì)應(yīng)于一個(gè)身份證圖片的微博、微信上的其他個(gè)人照片,可以基于這些照片分析該用戶是否是同一個(gè)人,使用了哪些賬號(hào),其行蹤路線等等信息。
其中,對(duì)用戶打標(biāo)簽的方法可以是,例如,用戶的圖片庫(kù)中以出現(xiàn)在健身房、游泳館、體育館等處的居多,那么可以標(biāo)記該用戶為體育熱度用戶。
其中,對(duì)用戶進(jìn)行關(guān)聯(lián)的方法可以是,例如,對(duì)應(yīng)同一個(gè)手機(jī)號(hào)碼,如果用戶用于微信的注冊(cè)過程中,也用于了微博的注冊(cè)過程中,那么可以先將這三者的信息進(jìn)行關(guān)聯(lián),認(rèn)為同屬于一個(gè)用戶。
其中,對(duì)用戶進(jìn)行價(jià)值定位的方法可以是,例如,用戶在大宗交易的過程中使用了身份證圖片信息,在支付時(shí)使用了手機(jī)號(hào)或微信支付,那么可以把該用戶定位成高端用戶,因?yàn)樗哂休^高的交易能力和市場(chǎng)潛質(zhì)。
如圖3所示,本發(fā)明還提供了一種身份核查一體化系統(tǒng)100,其包括順序連接的如下模塊:
圖片抓取模塊1,用于基于個(gè)人信息,使用網(wǎng)絡(luò)爬蟲方法抓取用戶相關(guān)的圖片,形成圖片庫(kù);
身份核查模塊2,用于基于上述個(gè)人信息和圖片庫(kù),對(duì)用戶的身份進(jìn)行一體化核查。
如圖4所述,所述圖片抓取模塊1包括順序連接的如下單元:
關(guān)鍵詞尋找單元11,用于使用杜威十進(jìn)分類法,在網(wǎng)頁(yè)特征提取階段,快速找出網(wǎng)頁(yè)文本與錨文本關(guān)鍵詞主題相近的關(guān)鍵詞;
提取特征文本單元12,用于提取主題候選鏈接特征文本;
網(wǎng)頁(yè)獲取單元13,用于使用樸素貝葉斯文本分類器對(duì)候選鏈接主題邊緣文本進(jìn)行分類,獲取主題相關(guān)網(wǎng)頁(yè);如果文本屬于特定主題,那么相對(duì)應(yīng)的候選鏈接以分類權(quán)值作為優(yōu)先級(jí)值,以優(yōu)先級(jí)的大小順序插入爬行隊(duì)列,爬蟲優(yōu)先訪問分類值大的鏈接,如果文本不屬于特定主題,則丟棄候選鏈接;
預(yù)判單元14,用于對(duì)相關(guān)網(wǎng)頁(yè)的web鏈接信息用hits算法計(jì)算出其對(duì)應(yīng)的權(quán)威度和中心度,綜合錨文本、錨文本附近信息、反向網(wǎng)頁(yè)、反向鏈接的兄弟鏈接、url鏈接,預(yù)判待爬取網(wǎng)頁(yè)與主題的相關(guān)度。
所述提取特征文本單元12包括順序連接的如下裝置:
分詞裝置121,用于對(duì)網(wǎng)頁(yè)的錨文本和正文進(jìn)行分詞處理,去掉停用詞,得到關(guān)鍵詞;
查找裝置122,用于查找關(guān)鍵詞的杜威分類號(hào)碼;
第一提取裝置123,用于運(yùn)用杜威十進(jìn)制分類法的特性并結(jié)合二維坐標(biāo)提取主題候選鏈接特征文本;把關(guān)鍵詞分類號(hào)碼的長(zhǎng)度作為x軸,關(guān)鍵詞分類號(hào)碼作為y軸,將關(guān)鍵詞對(duì)應(yīng)的杜威十進(jìn)分類號(hào)碼在二維坐標(biāo)中繪制相應(yīng)的點(diǎn)。
第二提取裝置124,用于提取二維坐標(biāo)中錨文本關(guān)鍵點(diǎn)以及錨文本周圍的關(guān)鍵點(diǎn)對(duì)應(yīng)的關(guān)鍵詞作為主題候選鏈接特征文本。
通過本發(fā)明可以從大量的數(shù)據(jù)提取有用數(shù)據(jù)來評(píng)價(jià)用戶是否為合法用戶,降低了被詐騙的可能性,從而保護(hù)用戶利益,提高用戶體驗(yàn)。在發(fā)生詐騙案件時(shí),能夠根據(jù)用戶網(wǎng)絡(luò)信息迅速鎖定身份,從而為迅速破案提供有力保證。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。