58] CN 105184574 A 說明書 5/11 頁
[0062] 表 5
[0063] 2、刪除異常交易數(shù)據(jù)向量
[0064] N個正常商戶一年的交易流水數(shù)據(jù)中存在部分噪聲,即異常交易數(shù)據(jù)。由于商戶交 易數(shù)據(jù)來源于多個數(shù)據(jù)庫,即使我們是從正常商戶庫中獲得的交易數(shù)據(jù)其中存在許多與套 用商戶欺詐無關(guān)的數(shù)據(jù),且常常不可避免地存在著不完整、不一致和重復的異常數(shù)據(jù)。由于 銀聯(lián)調(diào)查員實地考察過程可能還存在時間延誤,消息不準確等情況,例如某商戶上半年是 套用低手續(xù)率的類別碼,下半年應付檢查又改回原來類別碼,這種情況交易數(shù)據(jù)經(jīng)我們實 驗發(fā)現(xiàn)還是較多的這些異常數(shù)據(jù),會對后期的層次聚類過程進行誤導,導致對標準行為模 式產(chǎn)生過度擬合的情況,因此,必須對其予以刪除,從而改善數(shù)據(jù)質(zhì)量,得到需要的商戶交 易數(shù)據(jù)。
[0065] 如圖2所示,5411大型超市的標準行為模式應為雙峰型,最高峰出現(xiàn)在下午6點左 右。而我們看到圖中異常的大型超市商戶其行為模式與大型超市行為模式完全不同,卻與 7298的保健及美容spa的行為模式非常相似,交易量高潮區(qū)間出現(xiàn)在超市已經(jīng)停止營業(yè)的 時間段,夜間9點到凌晨2點。而我們查閱5411大型超市和7298的保健及美容的手續(xù)費 扣率,發(fā)現(xiàn)保健及美容spa的手續(xù)費扣率遠高于大型超市。這表明此正常商戶有極大可能 是異常數(shù)據(jù)。因此我們首先應該清洗數(shù)據(jù),去除噪聲即異常數(shù)據(jù),本發(fā)明先利用層次聚類去 除異常數(shù)據(jù),留下的正常商戶作為下一輪訓練樣本。我們發(fā)現(xiàn),異常數(shù)據(jù)并不是獨立分散在 交易數(shù)據(jù)集中的。相反,這些異常數(shù)據(jù)以小型簇狀聚集在一起。層次聚類算法在對噪聲較 強的數(shù)據(jù)集聚類時容易將距離主體數(shù)據(jù)較遠的噪聲點劃分為獨立的簇,如圖3。因此本發(fā)明 利用層次聚類去除噪聲簇內(nèi)包含元素較少),留下正常行為模式的商戶作為下一輪訓練樣 本。
[0066] 層次聚類去除異常數(shù)據(jù)基本步驟如下:
[0067] 將每個對象歸為一類,共得到N類,每類僅包含一個對象,類與類之間的距離就 是它們所包含的對象之間的距離;
[0068] 找到最相近的兩個類并合并成一類,于是總的類數(shù)少了一個;
[0069] 重新計算新的類與所有舊類之間的距離;
[0070] 重復第2步和第3步,直到最后合并成K個類為止(K為我們設(shè)置的類的個數(shù))。
[0071] 在本步驟層次聚類去噪中,我們設(shè)置最終得到的類數(shù)目,即上文的K設(shè)置為10個, 使得通過去除異常數(shù)據(jù)較少的小簇之后得到的大簇個數(shù)為10個,作為下一輪標準行為模 式訓練的訓練集。
[0072] 3、層次聚類獲取標準行為模式
[0073] 每一個商戶類別碼中可能包含多種不同營業(yè)方式的行業(yè),比如24小時便利店與 超市,即使是同一種行業(yè),例如連鎖超市,因為其地理位置,居民消費習慣等的不同存在著 不同的營業(yè)規(guī)律。例如不同的超市周末營業(yè)額與非周末營業(yè)額不同因而存在至少2種行為 模式。因此,利用上一步去除異常數(shù)據(jù)后,再次運用層次聚類將相似的商戶行為模式聚成一 類,得到每個商戶類別碼的一組標準行為模式庫。通過試驗發(fā)現(xiàn),我們發(fā)現(xiàn)每個商戶類別碼 的行為模式不會超過5個,因此在本步驟中層次聚類,我們將最終的類簇個數(shù)設(shè)置為5,得 到的行為模式最終不會超過5個。其中,商戶類別碼為5411 (大型倉儲式超級市場)一行 為模式庫如圖4所示。
[0074] 二、分類器訓練
[0075] 1、獲取商戶交易數(shù)據(jù)并進行預處理
[0076] 從銀聯(lián)內(nèi)部數(shù)據(jù)庫中,按照正常商戶:套用商戶=1:1的數(shù)量,隨機抽取P個正常 商戶、套用商戶,然后按照步驟一的方法,將他們一年的交易流水數(shù)據(jù)分別表示為具有86 維特征的交易數(shù)據(jù)向量并進行歸一化處理,得到基于小時,周,月等時間尺度的86維的特 征向量Xi= (X i,Xi,2, ...,Xi,e),1彡i彡P(guān),G = 86,與上一步驟獲取到的標準行為模式庫 進行比較匹配,通過計算商戶與上一個模塊中得到的每一個模式庫中的標準行為模式的歐 氏距離,作為商戶與該商戶類別碼的距離,即匹配度,距離越小匹配度越高。
[0077] 計算每一個商戶的交易數(shù)據(jù)向量與步驟一得到的所有商戶類別碼下的所有標準 行為模式的歐式距離,并且按照距離由小到大形成一個排名表;從排名表中,取距離最小 (匹配程度最高)的標準行為模式的商戶類別碼作為該商戶最相近的商戶類別碼,從而獲 取與商戶類別碼相關(guān)的9維特征:
[0078] 該商戶的商戶類別碼、最相近商戶類別碼、商戶手續(xù)費等級、最相近商戶類別碼手 續(xù)費等級、商戶小類ID、最相近商戶類別碼小類ID、商戶小類ID與最相近商戶類別碼小類 ID的差值、商戶類別碼在排名表中的名次、警告級別,具體如表6所示。
[0079] CN 105184574 A 1>兀 h/i -p 7/11 貞
[0081] 表 6
[0082] 其中,具體特征及解釋如下:
[0083] (1)、商戶類別碼(以下簡稱MCC)
[0084] 商戶注冊信息上注明的商戶類別碼(MCC)
[0085] (2)、最相近商戶類別碼(以下簡稱MinMCC)
[0086] 商戶行為模式相近的MCC,由于商戶可能存在套用,因此我們將商戶與所有MCC是 所有正常行為模式進行比較匹配,通過計算商戶與每一個MCC的每一個標準行為模式的歐 氏距離,獲取與每一個MCC的每一個標準行為模式最小的距離作為商戶與該MCC的距離,并 且按照距離由小到大形成一個排名表distanceList,距離越小,匹配度越高。從排名表中, 我們?nèi)【嚯x最小(匹配程度最高)的標準行為模式的作為該商戶最相近的MCC,即MinMCC。
[0087] (3)、商戶手續(xù)費等級(手續(xù)費序號)(以下簡稱usrPayment)
[0088] 不同MCC所有收取的手續(xù)費等級。
[0089] (4)、最相近商戶類別碼手續(xù)費等級(以下簡稱minPayment)
[0090] 通過MinMCC,查詢可得到MinMCC的手續(xù)費等級,我們就用此手續(xù)費等級作為"最 相近商戶類別碼的手續(xù)費等級"屬性的值。
[0091] (5)、商戶小類ID (以下簡稱usrClass)
[0092] 商戶根據(jù)銀聯(lián)內(nèi)部某種規(guī)則劃分的小類類別。
[0093] (6)、最相近商戶類別碼的小類ID (以下簡稱minClass)
[0094] 通過MinMCC,查詢可得到MinMCC的商戶小類ID,我們就用此小類ID作為"最相 近MCC的小類ID"屬性的值。
[0095] (7)、商戶小類ID與最相近商戶類別碼小類的差值(以下簡稱delCategory)最相 近的小類ID與登記小類ID的差值,并且歸一化,
[0096] (8)、商戶注冊的商戶類別碼在排名表中的名次(以下簡稱rank)
[0097] 商戶注冊的商戶類別碼在上述MCC排名表distanceList中的名次,并進行歸一 化。"排名"屬性的值越大,說明商戶與注冊商戶類別碼的距離越大,商戶為套用商戶的可能 性越尚。
[0098] (9)、警告級別(以下簡稱WarningLevel)
[0099] 警告級別屬性是對排名屬性的補充。當某商戶的排名靠前但實際上該商戶的行為 和其所在MCC的標準行為模式匹配程度非常低時,例如注冊MCC排在第5,但是前五的距離 是1,10, 50, 100, 5000,這種情況下,即使注冊MCC排在第5,但是由于距離太大,也很有可能 是套用的前四名的MCC,而不可能是正常商戶。警告等級屬性會起到修正的作用。具體表示 如下:
[0101] 其中,其中,Mindis表示用戶與匹配度最高的商戶類別碼下的標準行為模式的歐 式距離,SelfDis表示用戶與商戶注冊的商戶類別碼下的標準行為模式的歐式距離。警告 級別越高,說明套用的可能性越高。因此,當SelfDis很大時,即使排名靠前,警告級別也趨 近與1,對排名屬性起到了修正的作用。
[0102] 2、建立分類器模型
[0103] 將正常商戶的真實結(jié)果作為0、套用商戶的真實結(jié)果作為1,抽取正常商戶、套用 商戶的95維的特征向量作為輸入特征向量,通過批量梯度下降方法不斷訓練得到邏輯斯 蒂回歸模型的參數(shù),從而得到分類器
[0104] 本發(fā)明采用邏輯斯蒂回歸模型的原因是,由于欺詐檢測模型是一種特殊的分類模 型,而采用概率型的邏輯斯蒂回歸具有模型簡單,易于理解,同時兼具準確率召回率高的特 點,具有較強的泛化能力。邏輯斯蒂回歸輸出的是[0, 1]區(qū)間的概率值,通過概率值和設(shè)定 的閾值作比較來判斷該商戶是套用商戶的概率。利用95維的特征向量,通過批量梯度下降 方法不斷訓練得到邏輯斯蒂回歸模型的參數(shù),從而得到分類器模型。具體如下:
[0105] 建立邏輯斯蒂回歸分類器的步驟為:
[0106] (1)、設(shè)定擬合函數(shù)(hypothesis function):
[0108] 其意義是給定參數(shù)向量θ ( Θ Θ . . .,Θ 95),初始化時參數(shù)向量的每個分量設(shè) 為1,根據(jù)輸入95特征向量X,給出輸出he (X),當輸出值大于設(shè)定閾值的商戶很可能存在 套用行為。
[0109]