本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的方法和系統(tǒng)。
背景技術(shù):
誠(chéng)信是中華民族的傳統(tǒng)的美德,但當(dāng)下不誠(chéng)信的人、不誠(chéng)信的事出現(xiàn)的頻率越來越高,已經(jīng)對(duì)人們的生活造成了巨大的影響,因此公民誠(chéng)信系統(tǒng)的建立顯得迫在眉睫。
現(xiàn)有技術(shù)中,人民銀行的征信系統(tǒng)對(duì)有業(yè)務(wù)來往的客戶建立誠(chéng)信系統(tǒng),為其他銀行提供信用參照。公安部對(duì)每個(gè)公民建立戶籍系統(tǒng)并建立案底檔案,教育部對(duì)每個(gè)受教育者建立教育檔案,其他民間機(jī)構(gòu)也對(duì)相應(yīng)個(gè)體建立相關(guān)方面的檔案資料。實(shí)際操作中,各大銀行可以根據(jù)征信系統(tǒng)來提供借貸服務(wù),鐵道部可以通過戶籍系統(tǒng)來實(shí)現(xiàn)實(shí)名制,公安局可以通過互聯(lián)網(wǎng)來追捕逃犯,教育部可以通過學(xué)生檔案來實(shí)現(xiàn)升學(xué)等等。
現(xiàn)有技術(shù)的缺點(diǎn)是只能針對(duì)采集的數(shù)據(jù)對(duì)個(gè)人目前某個(gè)方面狀態(tài)進(jìn)行評(píng)估,而不能對(duì)從整體上來評(píng)估一個(gè)人。還有現(xiàn)有技術(shù)在局部征信只能面對(duì)大企業(yè)或者行政機(jī)構(gòu),不能點(diǎn)對(duì)點(diǎn)的實(shí)現(xiàn)誠(chéng)信的評(píng)估。
大數(shù)據(jù)技術(shù)是近些年新興的科學(xué)技術(shù),其逐漸應(yīng)用于社會(huì)的各行各業(yè)。在大數(shù)據(jù)的框架下,有用的數(shù)據(jù)在大量的數(shù)據(jù)下被掩蓋,只有將這些數(shù)據(jù)通過數(shù)據(jù)漂白、清洗,然后分類出有用的數(shù)據(jù)。通過對(duì)有用的數(shù)據(jù)進(jìn)行分析評(píng)估,得出自己想要的分析結(jié)果。然而數(shù)據(jù)量如此之大,如何使用這些數(shù)據(jù),使用其中有用的數(shù)據(jù)就成為當(dāng)今一個(gè)重要的課題。
技術(shù)實(shí)現(xiàn)要素:
為解決以上問題,本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的。
本發(fā)明提出了一種多數(shù)據(jù)源防欺詐的方法,其包括:
步驟一,采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù);
步驟二,對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù),所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量;
步驟三,使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部,接著運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣;
步驟四,通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,所述預(yù)處理數(shù)據(jù)包括用戶行為參數(shù)和形成所述用戶行為的時(shí)間參數(shù)。
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,從來自不同的數(shù)據(jù)源的數(shù)據(jù)提取相應(yīng)的用戶行為數(shù)據(jù),使用不同的數(shù)值表示不同的用戶行為,以形成所述用戶行為參數(shù)。
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,所述p維隨機(jī)變量可以表示為y=(y1,l,yp)t,其中變量個(gè)數(shù)p遠(yuǎn)遠(yuǎn)大于上述預(yù)處理數(shù)據(jù)的樣本個(gè)數(shù)n。
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,所述步驟三的過程如下:
(1)計(jì)算p維度的隨機(jī)變量y的條件均值m和條件協(xié)方差σ的相合估計(jì):
(2)估計(jì)上述預(yù)處理后數(shù)據(jù)的樣本的條件協(xié)方差矩陣:
(3)運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣。
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,所述過程(1)的實(shí)現(xiàn)方法如下:
設(shè)u=(u1,l,up)t為建模時(shí)間,記給定u時(shí)y的條件均值和條件協(xié)方差分別為:m(u)=(m1(u),…,mp(u))t,σ(u),其中σjk(u)=cov(yj,yk|u),其中j,k為1到p之間的自然數(shù);在p固定的情況下,條件均值m和條件協(xié)方差σ的相合估計(jì)為:
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,所述過程(2)的實(shí)現(xiàn)方法如下:
在條件均值m和條件協(xié)方差σ的兩個(gè)表達(dá)式中替換數(shù)據(jù)樣本的觀測(cè)值的權(quán)重
估計(jì)當(dāng)u=u時(shí)的m(u),其中kh(·)=k(·/h)/h,k(·)是核函數(shù),h表示窗寬參數(shù),u為u的任意點(diǎn),則均值e(y1jyikt|u=u)的核估計(jì)為:
把每個(gè)u點(diǎn)的核估計(jì)結(jié)合在一起,得到樣本的條件協(xié)方差矩陣可估計(jì)為:
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,所述過程(3)的實(shí)現(xiàn)方法如下:
把原始樣本隨機(jī)分為兩個(gè)部分n1,n2,其中
其中:||m||2f=tr(mmt),m為任意變量;
其中,sλ是廣義收縮算子,r(λ,u)為條件協(xié)方差矩陣的二范數(shù),s(u)是矩陣的每個(gè)元素,所述每個(gè)元素由閾值λ來確定;
選擇上述閾值參數(shù)代入所述估計(jì)的協(xié)方差矩陣,得到最終的條件協(xié)方差矩陣。
優(yōu)選的,如上所述的多數(shù)據(jù)源防欺詐的方法,所述步驟四的過程如下:將所述具有統(tǒng)一格式的預(yù)處理數(shù)據(jù)代入所述條件協(xié)方差矩陣,若所述條件協(xié)方差矩陣為正定的,則認(rèn)為用戶正常行為,如果所述結(jié)果為非正定的,則認(rèn)為所述用戶行為有欺詐行為,采取相應(yīng)的限制措施進(jìn)行防范。
根據(jù)本發(fā)明的另一個(gè)方面,本發(fā)明還提供了一種多數(shù)據(jù)源防欺詐系統(tǒng),包括順序連接的如下模塊:
數(shù)據(jù)采集模塊,用于采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù);
預(yù)處理模塊,用于對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù),所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量;
矩陣獲取模塊,用于使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部,接著運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣;
估計(jì)分析模塊,用于通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。
通過本發(fā)明可以從大量的數(shù)據(jù)提取有用數(shù)據(jù)來評(píng)價(jià)用戶是否為合法用戶,降低了被詐騙的可能性,從而保護(hù)用戶利益,提高用戶體驗(yàn)。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
附圖1示出了根據(jù)本發(fā)明實(shí)施方式的基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的方法流程圖。
附圖2示出了根據(jù)本發(fā)明實(shí)施方式的基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的系統(tǒng)模塊圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施方式。雖然附圖中顯示了本公開的示例性實(shí)施方式,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
在構(gòu)建該多數(shù)據(jù)源的協(xié)方差矩陣之前,先了解以下概念。
協(xié)方差矩陣:記n維隨機(jī)向量x=(x1,x2,l,xn)t,若其每個(gè)分量的數(shù)學(xué)期望都存在,則稱:
為該隨機(jī)變量x的協(xié)方差矩陣,記為:var(x)。
本發(fā)明提出了一種基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的方法,用于征信平臺(tái),其包括如下步驟:
步驟s101、采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。
以上多個(gè)數(shù)據(jù)源包括多種數(shù)據(jù)來源。例如,公安系統(tǒng)、教育系統(tǒng)、征信系統(tǒng)、誠(chéng)信系統(tǒng)、金融系統(tǒng)、投融資系統(tǒng)等等。由于所有的系統(tǒng)都涉及公民的姓名、身份證號(hào)等基本公民信息。通過這些基本公民信息,可以將所有這些的系統(tǒng)中產(chǎn)生的數(shù)據(jù)形成關(guān)聯(lián),從而形成本發(fā)明的多數(shù)據(jù)源的數(shù)據(jù)。
步驟s102、對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù),所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量。
所述統(tǒng)一格式的預(yù)處理數(shù)據(jù),僅僅是格式的統(tǒng)一。數(shù)據(jù)內(nèi)容并不相同,因?yàn)閬碜圆煌瑪?shù)據(jù)源的數(shù)據(jù)是不相同的。其中,所述預(yù)處理數(shù)據(jù)包括用戶行為參數(shù)和形成所述用戶行為的時(shí)間參數(shù)。從來自不同的數(shù)據(jù)源的數(shù)據(jù)提取相應(yīng)的用戶行為數(shù)據(jù),使用不同的數(shù)值表示不同的用戶行為,形成用戶行為參數(shù)。
以網(wǎng)購(gòu)活動(dòng)為例,其與用戶行為有關(guān)的數(shù)據(jù)可能包括:客戶姓名、中英文全稱、性別代碼、國(guó)籍代碼、民族代碼、客戶編號(hào)、開始日期、結(jié)束日期、產(chǎn)品代碼、歷史交易、產(chǎn)品合約編號(hào)、產(chǎn)品合約修飾符、產(chǎn)品合約名稱、產(chǎn)品合約描述、生命周期狀態(tài)編碼、簽約日期、終止日期、簽約機(jī)構(gòu)、產(chǎn)品合約對(duì)應(yīng)的借記卡合約編號(hào)、賬戶關(guān)鍵字、機(jī)構(gòu)編碼、機(jī)構(gòu)中英文名稱、機(jī)構(gòu)類別、總行機(jī)構(gòu)編號(hào)、總行機(jī)構(gòu)名稱、一級(jí)行結(jié)構(gòu)編號(hào)、一級(jí)行機(jī)構(gòu)名稱、二級(jí)行機(jī)構(gòu)編號(hào)、二級(jí)行機(jī)構(gòu)名稱、支行編號(hào)、支行名稱、開業(yè)日期、機(jī)構(gòu)描述、詳細(xì)地址、郵政編碼等等。這些僅僅是舉例說明,實(shí)際產(chǎn)生的數(shù)據(jù)要比這個(gè)大得多。所有以上的數(shù)據(jù)都會(huì)有一個(gè)時(shí)間相關(guān)的數(shù)據(jù)。
以上在同一個(gè)數(shù)據(jù)源中與用戶行為相關(guān)的數(shù)據(jù)形成一個(gè)用戶行為向量,而來自不同的數(shù)據(jù)源的數(shù)據(jù)分別形成各自的用戶行為向量。由于不同的數(shù)據(jù)源的數(shù)據(jù)中用戶行為構(gòu)成不同,會(huì)造成用戶行為向量的維度不同,而為了構(gòu)成協(xié)方差矩陣,對(duì)于不同的維度的向量,需要統(tǒng)一成具有相同維度的向量。這種情況下,則需要以具有最大維度的向量為基礎(chǔ)。其他數(shù)據(jù)源的數(shù)據(jù)向量在不足相應(yīng)維度的向量中需要用0來補(bǔ)充,從而形成具有統(tǒng)一格式的預(yù)處理的數(shù)據(jù)。
設(shè)上述具有統(tǒng)一格式的預(yù)處理的數(shù)據(jù),可以表達(dá)為一個(gè)p維度的隨機(jī)變量y=(y1,l,yp)t,其中變量個(gè)數(shù)p遠(yuǎn)遠(yuǎn)大于上述數(shù)據(jù)的樣本個(gè)數(shù)n。
步驟s103、使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部,接著運(yùn)用閾值選擇以得到與p維隨機(jī)變量相一致的條件協(xié)方差矩陣。具體的,該步驟的實(shí)現(xiàn)過程如下:
(1)計(jì)算p維度的隨機(jī)變量y的條件均值m和條件協(xié)方差σ的相合估計(jì):
設(shè)u=(u1,l,up)t為建模時(shí)間,記給定u時(shí)y的條件均值和條件方差分別為:m(u)=(m1(u),…,mp(u))t,σ(u),其中σjk(u)=cov(yj,yk|u)(其中j,k為1到p之間的自然數(shù))。也就是說條件均值和條件協(xié)方差矩陣隨u的變化而變化。以u(píng)代表時(shí)間為例,該矩陣的條件均值和響應(yīng)向量的條件協(xié)方差是和時(shí)間有關(guān)的。
在p固定的情況下,條件均值m和條件協(xié)方差σ的相合估計(jì)為:
(2)估計(jì)上述預(yù)處理后數(shù)據(jù)的樣本的條件協(xié)方差矩陣:
在條件均值m和條件協(xié)方差σ的兩個(gè)表達(dá)式中替換數(shù)據(jù)樣本的觀測(cè)值的權(quán)重
估計(jì)當(dāng)u=u時(shí)的m(u),其中kh(·)=k(·/h)/h,k(·)是核函數(shù),h表示窗寬參數(shù),u為u的任意點(diǎn),則均值e(y1jyikt|u=u)的核估計(jì)為:
在合適的條件下該核估計(jì)在每個(gè)u點(diǎn)都是相合估計(jì),把每個(gè)u點(diǎn)的核估計(jì)結(jié)合在一起,得到樣本的條件協(xié)方差矩陣可估計(jì)為:
(3)運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣:
把原始樣本隨機(jī)分為兩個(gè)部分n1,n2,其中
其中:||m||2f=tr(mmt),m為任意變量;
這里,sλ是廣義收縮算子,r(λ,u)為條件協(xié)方差矩陣的二范數(shù),s(u)是矩陣的每個(gè)元素,所述每個(gè)元素由閾值λ來確定。
選擇上述閾值參數(shù)代入上述(2)中估計(jì)的協(xié)方差矩陣,得到最終的條件協(xié)方差矩陣。
步驟104、通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。
其具體包括:將所述具有統(tǒng)一格式的預(yù)處理數(shù)據(jù)代入所述條件協(xié)方差矩陣,若所述條件協(xié)方差矩陣為正定的,則認(rèn)為用戶正常行為,如果所述結(jié)果為非正定的,則認(rèn)為所述用戶行為有欺詐行為,采取相應(yīng)的限制措施進(jìn)行防范。例如對(duì)用戶提出告警提示,或者直接屏蔽上述被認(rèn)定為欺詐的用戶,或者將這類用戶加入黑名單。
如圖2所示,本發(fā)明還提供了一種基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐系統(tǒng)100,其包括順序連接的如下模塊:
數(shù)據(jù)采集模塊101,用于采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù);
預(yù)處理模塊102,用于對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù),所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量;
矩陣獲取模塊103,用于使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部,接著運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣;
估計(jì)分析模塊104,用于通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。