一種多數(shù)據(jù)源防欺詐的方法和系統(tǒng)與流程

文檔序號(hào)：11262273閱讀：202來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域，尤其涉及一種基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的方法和系統(tǒng)。

背景技術(shù)：

誠(chéng)信是中華民族的傳統(tǒng)的美德，但當(dāng)下不誠(chéng)信的人、不誠(chéng)信的事出現(xiàn)的頻率越來越高，已經(jīng)對(duì)人們的生活造成了巨大的影響，因此公民誠(chéng)信系統(tǒng)的建立顯得迫在眉睫。

現(xiàn)有技術(shù)中，人民銀行的征信系統(tǒng)對(duì)有業(yè)務(wù)來往的客戶建立誠(chéng)信系統(tǒng)，為其他銀行提供信用參照。公安部對(duì)每個(gè)公民建立戶籍系統(tǒng)并建立案底檔案，教育部對(duì)每個(gè)受教育者建立教育檔案，其他民間機(jī)構(gòu)也對(duì)相應(yīng)個(gè)體建立相關(guān)方面的檔案資料。實(shí)際操作中，各大銀行可以根據(jù)征信系統(tǒng)來提供借貸服務(wù)，鐵道部可以通過戶籍系統(tǒng)來實(shí)現(xiàn)實(shí)名制，公安局可以通過互聯(lián)網(wǎng)來追捕逃犯，教育部可以通過學(xué)生檔案來實(shí)現(xiàn)升學(xué)等等。

現(xiàn)有技術(shù)的缺點(diǎn)是只能針對(duì)采集的數(shù)據(jù)對(duì)個(gè)人目前某個(gè)方面狀態(tài)進(jìn)行評(píng)估，而不能對(duì)從整體上來評(píng)估一個(gè)人。還有現(xiàn)有技術(shù)在局部征信只能面對(duì)大企業(yè)或者行政機(jī)構(gòu)，不能點(diǎn)對(duì)點(diǎn)的實(shí)現(xiàn)誠(chéng)信的評(píng)估。

大數(shù)據(jù)技術(shù)是近些年新興的科學(xué)技術(shù)，其逐漸應(yīng)用于社會(huì)的各行各業(yè)。在大數(shù)據(jù)的框架下，有用的數(shù)據(jù)在大量的數(shù)據(jù)下被掩蓋，只有將這些數(shù)據(jù)通過數(shù)據(jù)漂白、清洗，然后分類出有用的數(shù)據(jù)。通過對(duì)有用的數(shù)據(jù)進(jìn)行分析評(píng)估，得出自己想要的分析結(jié)果。然而數(shù)據(jù)量如此之大，如何使用這些數(shù)據(jù)，使用其中有用的數(shù)據(jù)就成為當(dāng)今一個(gè)重要的課題。

技術(shù)實(shí)現(xiàn)要素：

為解決以上問題，本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的。

本發(fā)明提出了一種多數(shù)據(jù)源防欺詐的方法，其包括：

步驟一，采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)；

步驟二，對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù)，所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量；

步驟三，使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部，接著運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣；

步驟四，通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，所述預(yù)處理數(shù)據(jù)包括用戶行為參數(shù)和形成所述用戶行為的時(shí)間參數(shù)。

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，從來自不同的數(shù)據(jù)源的數(shù)據(jù)提取相應(yīng)的用戶行為數(shù)據(jù)，使用不同的數(shù)值表示不同的用戶行為，以形成所述用戶行為參數(shù)。

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，所述p維隨機(jī)變量可以表示為y＝(y1,l,yp)^t，其中變量個(gè)數(shù)p遠(yuǎn)遠(yuǎn)大于上述預(yù)處理數(shù)據(jù)的樣本個(gè)數(shù)n。

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，所述步驟三的過程如下：

(1)計(jì)算p維度的隨機(jī)變量y的條件均值m和條件協(xié)方差σ的相合估計(jì)：

(2)估計(jì)上述預(yù)處理后數(shù)據(jù)的樣本的條件協(xié)方差矩陣：

(3)運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣。

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，所述過程(1)的實(shí)現(xiàn)方法如下：

設(shè)u＝(u1,l,up)^t為建模時(shí)間，記給定u時(shí)y的條件均值和條件協(xié)方差分別為：m(u)＝(m1(u),…,mp(u))^t，σ(u)，其中σjk(u)＝cov(yj,yk|u)，其中j，k為1到p之間的自然數(shù)；在p固定的情況下，條件均值m和條件協(xié)方差σ的相合估計(jì)為：和

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，所述過程(2)的實(shí)現(xiàn)方法如下：

在條件均值m和條件協(xié)方差σ的兩個(gè)表達(dá)式中替換數(shù)據(jù)樣本的觀測(cè)值的權(quán)重以觀測(cè)值離目標(biāo)點(diǎn)的距離為權(quán)重，得到m(u),σ(u)的大致局部估計(jì)，記m(u)＝e(y|u)，用:

估計(jì)當(dāng)u＝u時(shí)的m(u)，其中kh(·)＝k(·/h)/h，k(·)是核函數(shù)，h表示窗寬參數(shù)，u為u的任意點(diǎn)，則均值e(y1jyik^t|u＝u)的核估計(jì)為：

把每個(gè)u點(diǎn)的核估計(jì)結(jié)合在一起，得到樣本的條件協(xié)方差矩陣可估計(jì)為：

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，所述過程(3)的實(shí)現(xiàn)方法如下：

把原始樣本隨機(jī)分為兩個(gè)部分n1,n2，其中并且重復(fù)這個(gè)過程n1次，記分別為：樣本觀測(cè)值n1,n2基于隨機(jī)變量y子集交互檢驗(yàn)帶寬選擇方法而得到的經(jīng)驗(yàn)條件協(xié)方差估計(jì)；在給定u的情況下，選擇閾值參數(shù)來估計(jì)∑(u)，通過最小化r(λ,u)實(shí)現(xiàn)，這里：

其中:||m||2f＝tr(mm^t)，m為任意變量；

其中，sλ是廣義收縮算子，r(λ,u)為條件協(xié)方差矩陣的二范數(shù)，s(u)是矩陣的每個(gè)元素，所述每個(gè)元素由閾值λ來確定；

選擇上述閾值參數(shù)代入所述估計(jì)的協(xié)方差矩陣，得到最終的條件協(xié)方差矩陣。

優(yōu)選的，如上所述的多數(shù)據(jù)源防欺詐的方法，所述步驟四的過程如下：將所述具有統(tǒng)一格式的預(yù)處理數(shù)據(jù)代入所述條件協(xié)方差矩陣，若所述條件協(xié)方差矩陣為正定的，則認(rèn)為用戶正常行為，如果所述結(jié)果為非正定的，則認(rèn)為所述用戶行為有欺詐行為，采取相應(yīng)的限制措施進(jìn)行防范。

根據(jù)本發(fā)明的另一個(gè)方面，本發(fā)明還提供了一種多數(shù)據(jù)源防欺詐系統(tǒng)，包括順序連接的如下模塊：

數(shù)據(jù)采集模塊，用于采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)；

預(yù)處理模塊，用于對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù)，所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量；

矩陣獲取模塊，用于使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部，接著運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣；

估計(jì)分析模塊，用于通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。

通過本發(fā)明可以從大量的數(shù)據(jù)提取有用數(shù)據(jù)來評(píng)價(jià)用戶是否為合法用戶，降低了被詐騙的可能性，從而保護(hù)用戶利益，提高用戶體驗(yàn)。

附圖說明

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號(hào)表示相同的部件。在附圖中：

附圖1示出了根據(jù)本發(fā)明實(shí)施方式的基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的方法流程圖。

附圖2示出了根據(jù)本發(fā)明實(shí)施方式的基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的系統(tǒng)模塊圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施方式。雖然附圖中顯示了本公開的示例性實(shí)施方式，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反，提供這些實(shí)施方式是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

在構(gòu)建該多數(shù)據(jù)源的協(xié)方差矩陣之前，先了解以下概念。

協(xié)方差矩陣：記n維隨機(jī)向量x＝(x1,x2,l,xn)^t，若其每個(gè)分量的數(shù)學(xué)期望都存在，則稱：

為該隨機(jī)變量x的協(xié)方差矩陣，記為：var(x)。

本發(fā)明提出了一種基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐的方法，用于征信平臺(tái)，其包括如下步驟：

步驟s101、采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。

以上多個(gè)數(shù)據(jù)源包括多種數(shù)據(jù)來源。例如，公安系統(tǒng)、教育系統(tǒng)、征信系統(tǒng)、誠(chéng)信系統(tǒng)、金融系統(tǒng)、投融資系統(tǒng)等等。由于所有的系統(tǒng)都涉及公民的姓名、身份證號(hào)等基本公民信息。通過這些基本公民信息，可以將所有這些的系統(tǒng)中產(chǎn)生的數(shù)據(jù)形成關(guān)聯(lián)，從而形成本發(fā)明的多數(shù)據(jù)源的數(shù)據(jù)。

步驟s102、對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù)，所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量。

所述統(tǒng)一格式的預(yù)處理數(shù)據(jù)，僅僅是格式的統(tǒng)一。數(shù)據(jù)內(nèi)容并不相同，因?yàn)閬碜圆煌瑪?shù)據(jù)源的數(shù)據(jù)是不相同的。其中，所述預(yù)處理數(shù)據(jù)包括用戶行為參數(shù)和形成所述用戶行為的時(shí)間參數(shù)。從來自不同的數(shù)據(jù)源的數(shù)據(jù)提取相應(yīng)的用戶行為數(shù)據(jù)，使用不同的數(shù)值表示不同的用戶行為，形成用戶行為參數(shù)。

以網(wǎng)購(gòu)活動(dòng)為例，其與用戶行為有關(guān)的數(shù)據(jù)可能包括：客戶姓名、中英文全稱、性別代碼、國(guó)籍代碼、民族代碼、客戶編號(hào)、開始日期、結(jié)束日期、產(chǎn)品代碼、歷史交易、產(chǎn)品合約編號(hào)、產(chǎn)品合約修飾符、產(chǎn)品合約名稱、產(chǎn)品合約描述、生命周期狀態(tài)編碼、簽約日期、終止日期、簽約機(jī)構(gòu)、產(chǎn)品合約對(duì)應(yīng)的借記卡合約編號(hào)、賬戶關(guān)鍵字、機(jī)構(gòu)編碼、機(jī)構(gòu)中英文名稱、機(jī)構(gòu)類別、總行機(jī)構(gòu)編號(hào)、總行機(jī)構(gòu)名稱、一級(jí)行結(jié)構(gòu)編號(hào)、一級(jí)行機(jī)構(gòu)名稱、二級(jí)行機(jī)構(gòu)編號(hào)、二級(jí)行機(jī)構(gòu)名稱、支行編號(hào)、支行名稱、開業(yè)日期、機(jī)構(gòu)描述、詳細(xì)地址、郵政編碼等等。這些僅僅是舉例說明，實(shí)際產(chǎn)生的數(shù)據(jù)要比這個(gè)大得多。所有以上的數(shù)據(jù)都會(huì)有一個(gè)時(shí)間相關(guān)的數(shù)據(jù)。

以上在同一個(gè)數(shù)據(jù)源中與用戶行為相關(guān)的數(shù)據(jù)形成一個(gè)用戶行為向量，而來自不同的數(shù)據(jù)源的數(shù)據(jù)分別形成各自的用戶行為向量。由于不同的數(shù)據(jù)源的數(shù)據(jù)中用戶行為構(gòu)成不同，會(huì)造成用戶行為向量的維度不同，而為了構(gòu)成協(xié)方差矩陣，對(duì)于不同的維度的向量，需要統(tǒng)一成具有相同維度的向量。這種情況下，則需要以具有最大維度的向量為基礎(chǔ)。其他數(shù)據(jù)源的數(shù)據(jù)向量在不足相應(yīng)維度的向量中需要用0來補(bǔ)充，從而形成具有統(tǒng)一格式的預(yù)處理的數(shù)據(jù)。

設(shè)上述具有統(tǒng)一格式的預(yù)處理的數(shù)據(jù)，可以表達(dá)為一個(gè)p維度的隨機(jī)變量y＝(y1,l,yp)^t，其中變量個(gè)數(shù)p遠(yuǎn)遠(yuǎn)大于上述數(shù)據(jù)的樣本個(gè)數(shù)n。

步驟s103、使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部，接著運(yùn)用閾值選擇以得到與p維隨機(jī)變量相一致的條件協(xié)方差矩陣。具體的，該步驟的實(shí)現(xiàn)過程如下：

(1)計(jì)算p維度的隨機(jī)變量y的條件均值m和條件協(xié)方差σ的相合估計(jì)：

設(shè)u＝(u1,l,up)^t為建模時(shí)間，記給定u時(shí)y的條件均值和條件方差分別為：m(u)＝(m1(u),…,mp(u))^t，σ(u)，其中σjk(u)＝cov(yj,yk|u)(其中j，k為1到p之間的自然數(shù))。也就是說條件均值和條件協(xié)方差矩陣隨u的變化而變化。以u(píng)代表時(shí)間為例，該矩陣的條件均值和響應(yīng)向量的條件協(xié)方差是和時(shí)間有關(guān)的。

在p固定的情況下，條件均值m和條件協(xié)方差σ的相合估計(jì)為：和

(2)估計(jì)上述預(yù)處理后數(shù)據(jù)的樣本的條件協(xié)方差矩陣：

在條件均值m和條件協(xié)方差σ的兩個(gè)表達(dá)式中替換數(shù)據(jù)樣本的觀測(cè)值的權(quán)重以觀測(cè)值離目標(biāo)點(diǎn)的距離為權(quán)重，觀測(cè)值的權(quán)重大就接近目標(biāo)u，得到m(u),σ(u)的大致局部估計(jì)，更特殊的情況，記m(u)＝e(y|u)，用:

在合適的條件下該核估計(jì)在每個(gè)u點(diǎn)都是相合估計(jì)，把每個(gè)u點(diǎn)的核估計(jì)結(jié)合在一起，得到樣本的條件協(xié)方差矩陣可估計(jì)為：

(3)運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣：

把原始樣本隨機(jī)分為兩個(gè)部分n1,n2，其中并且重復(fù)這個(gè)過程n1次，記分別為：樣本觀測(cè)值n1,n2基于隨機(jī)變量y子集交互檢驗(yàn)帶寬選擇方法而得到的經(jīng)驗(yàn)條件協(xié)方差估計(jì)。在給定u的情況下，選擇閾值參數(shù)來估計(jì)∑(u)，可通過最小化r(λ,u)實(shí)現(xiàn)，這里：

其中:||m||2f＝tr(mm^t)，m為任意變量；

這里，sλ是廣義收縮算子，r(λ,u)為條件協(xié)方差矩陣的二范數(shù)，s(u)是矩陣的每個(gè)元素，所述每個(gè)元素由閾值λ來確定。

選擇上述閾值參數(shù)代入上述(2)中估計(jì)的協(xié)方差矩陣，得到最終的條件協(xié)方差矩陣。

步驟104、通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。

其具體包括：將所述具有統(tǒng)一格式的預(yù)處理數(shù)據(jù)代入所述條件協(xié)方差矩陣，若所述條件協(xié)方差矩陣為正定的，則認(rèn)為用戶正常行為，如果所述結(jié)果為非正定的，則認(rèn)為所述用戶行為有欺詐行為，采取相應(yīng)的限制措施進(jìn)行防范。例如對(duì)用戶提出告警提示，或者直接屏蔽上述被認(rèn)定為欺詐的用戶，或者將這類用戶加入黑名單。

如圖2所示，本發(fā)明還提供了一種基于條件協(xié)方差矩陣的多數(shù)據(jù)源防欺詐系統(tǒng)100，其包括順序連接的如下模塊：

數(shù)據(jù)采集模塊101，用于采集來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)；

預(yù)處理模塊102，用于對(duì)所述多個(gè)數(shù)據(jù)源的數(shù)據(jù)預(yù)處理為統(tǒng)一格式的預(yù)處理數(shù)據(jù)，所述預(yù)處理數(shù)據(jù)對(duì)應(yīng)p維隨機(jī)變量；

矩陣獲取模塊103，用于使用核光滑方法估計(jì)要建立的條件協(xié)方差矩陣的局部，接著運(yùn)用閾值選擇以得到與上述p維隨機(jī)變量相一致的條件協(xié)方差矩陣；

估計(jì)分析模塊104，用于通過所述條件協(xié)方差矩陣估計(jì)并分析用戶行為。

以上所述，僅為本發(fā)明較佳的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王亞博;李莉莉;付春;陳放
技術(shù)所有人：國(guó)政通科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

64位系統(tǒng)odbc數(shù)據(jù)源相關(guān)技術(shù)

數(shù)據(jù)源管理系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多數(shù)據(jù)源防欺詐的方法和系統(tǒng)與流程