本發(fā)明涉及信貸風(fēng)控,具體是基于多統(tǒng)計(jì)量融合的風(fēng)險排序性評分指標(biāo)優(yōu)化方法及系統(tǒng)。
背景技術(shù):
1、在風(fēng)控領(lǐng)域中,排序性是指一個模型將觀測值從高風(fēng)險到低風(fēng)險或從低風(fēng)險到高風(fēng)險進(jìn)行有效排序的能力,一個具有良好的排序性模型能夠?qū)L(fēng)險水平明顯區(qū)分,并保持排序的一致性。
2、auc和ks代表好壞樣本累積分布的差異,在樣本分箱后是確定的一個值,但是lift曲線代表樣本分布的差異的變化趨勢,其單調(diào)性以及相鄰區(qū)分度在行業(yè)內(nèi)還是一個人為的“經(jīng)驗(yàn)值”,它不是一個能量化的具體數(shù)值,而是相關(guān)人員從業(yè)經(jīng)驗(yàn)的體現(xiàn),這就會導(dǎo)致不同的人對同一模型的“經(jīng)驗(yàn)值”可能不同。
3、在風(fēng)控場景中,模型的排序性能力直接關(guān)系到對風(fēng)險客戶的精準(zhǔn)識別和管理。一個具有良好排序性的風(fēng)控模型可以更準(zhǔn)確地區(qū)分高風(fēng)險和低風(fēng)險客戶,從而提高信貸決策的有效性和精確度。傳統(tǒng)的模型評估方法,如auc和ks,雖然可以在一定程度上衡量模型的區(qū)分能力,但無法全面評估模型在不同分箱下的表現(xiàn)和排序一致性,比如:風(fēng)控業(yè)務(wù)及模型開發(fā)人員常提到某某特征或模型的排序性強(qiáng)或弱,但對此更多的是靠業(yè)務(wù)或模型人員的經(jīng)驗(yàn)來判斷的,并在多個特征或模型之間針對排序性的比較也沒有一個可以量化的指標(biāo)來衡量,比如說某某模型的排序性要比某某模型排序性強(qiáng),這類判斷也是靠經(jīng)驗(yàn)來決策的。
4、因此,通過設(shè)計(jì)一個統(tǒng)計(jì)量來描述特征或模型的排序能力的大小,對特征或模型進(jìn)行量化評估,為風(fēng)險管理提供決策支持,顯得極為重要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)中存在的技術(shù)問題,提供基于多統(tǒng)計(jì)量融合的風(fēng)險排序性評分指標(biāo)優(yōu)化方法及系統(tǒng),本發(fā)明的目的在于解決傳統(tǒng)衡量模型排序性能力的局限性,探索更有效、更直觀,更多維,更量化的適用于風(fēng)險排序性評分指標(biāo)計(jì)算的優(yōu)化方法。
2、本發(fā)明為了解決上述技術(shù)問題,采用以下技術(shù)方案:
3、根據(jù)本發(fā)明的第一方面,提供基于多統(tǒng)計(jì)量融合的風(fēng)險排序性評分指標(biāo)優(yōu)化方法,包括以下步驟:
4、步驟1.獲取模型評分與風(fēng)控場景逾期標(biāo)簽,對模型評分進(jìn)行分箱處理,并計(jì)算出各箱壞樣本占比的lift值,即該箱壞樣本率/整體壞樣本率;
5、步驟2.根據(jù)模型評分分箱數(shù)量構(gòu)建同樣數(shù)量的等差數(shù)列,計(jì)算風(fēng)控模型評分分箱后的lift列表與等差數(shù)列列表之間的斯皮爾曼相關(guān)性系數(shù)corr;
6、步驟3.計(jì)算模型評分的roc曲線下的面積auc值與真陽性率與假陽性率曲線最大間隔距離ks值;
7、步驟4.根據(jù)模型評分分箱的壞樣本占比的lift值,計(jì)算出模型評分相鄰區(qū)分度指標(biāo),記為diff;
8、步驟5.對上述的corr、auc、ks、diff指標(biāo)進(jìn)行歸一化處理,消除量綱影響;
9、步驟6.使用專家經(jīng)驗(yàn)確定各指標(biāo)的權(quán)重系數(shù),然后采用歷史經(jīng)驗(yàn)逐步修正指標(biāo)權(quán)重系數(shù);
10、步驟7.通過得到的各指標(biāo)與確定好的指標(biāo)權(quán)重系數(shù),進(jìn)行加權(quán)求和計(jì)算得到排序性系數(shù);
11、步驟8.通過線性回歸將排序性系數(shù)轉(zhuǎn)化得到最終的排序性評分,若排序性評分大于預(yù)設(shè)值則說明排序性良好。
12、在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以作出如下改進(jìn)。
13、優(yōu)選地,步驟1中,將評分分箱后計(jì)算得到各箱的lift值,其計(jì)算公式如下:
14、
15、其中,bin_badratei為第i箱的壞樣本占比,total_badrate為整體樣本的壞樣本占比,計(jì)算結(jié)果lifti為第i箱的lift值。
16、優(yōu)選地,步驟3中計(jì)算auc值,公式如下:
17、
18、其中,|d+|、|d-|是好壞用戶的總對數(shù),是模型排錯的用戶對數(shù),是好壞用戶隊(duì)序一樣對數(shù)。
19、優(yōu)選地,步驟3中計(jì)算ks值,公式如下:
20、ks=max(tpr-fpr|)
21、其中,tpr表示真陽性率,即全體壞用戶被預(yù)測為壞用戶的比例,tpr表示假陽性率,即全體好用戶被預(yù)測為好用戶的比例。
22、優(yōu)選地,步驟4中計(jì)算相鄰區(qū)分度指標(biāo)diff,公式如下:
23、
24、其中,n是分箱箱數(shù),lifti是第i箱的lift值。
25、優(yōu)選地,步驟5中的斯皮爾曼相關(guān)性系數(shù)corr、auc、ks的歸一化處理,公式如下:
26、
27、其中,values為原始值,valuesmin為該值理論最小值,valuesmax為該值理論最大值,其中,corr的取值范圍為[0,1],auc的取值范圍為[0.5,1],ks的取值范圍為[0,1];模型評分相鄰區(qū)分度指標(biāo)diff采用sigmoid歸一化處理,公式如下:
28、
29、其中,-z為具體的原始指標(biāo)值diff。
30、優(yōu)選地,步驟6中,為每個指標(biāo)分配一個權(quán)重系數(shù),且使得所有權(quán)重系數(shù)之和為1,即σwi=1,其中,每個指標(biāo)的權(quán)重wi,采用專家經(jīng)驗(yàn)、數(shù)據(jù)驅(qū)動、優(yōu)化方法方式?jīng)Q定,通過加權(quán)求和計(jì)算得到排序性系數(shù),公式如下:
31、coeffranking=∑indexi*wi
32、其中,coeffranking代表排序性系數(shù),indexi分別代表歸一化后的corr、auc、ks、diff,wi分別代表corr、auc、ks、diff對應(yīng)的權(quán)重系數(shù)。
33、優(yōu)選地,步驟8中通過線性回歸將排序性系數(shù)coeffranking轉(zhuǎn)化得到排序性評分scoreranking,公式如下:
34、
35、其中,a、b是兩個常參數(shù)。
36、根據(jù)本發(fā)明的第二方面,提供基于多統(tǒng)計(jì)量融合的風(fēng)險排序性評分指標(biāo)優(yōu)化系統(tǒng),包括:
37、參數(shù)獲取模塊,用于獲取樣本分箱后的lift列表與等差數(shù)列列表之間的斯皮爾曼相關(guān)性系數(shù)corr、auc、ks、相鄰區(qū)分度指標(biāo)diff;
38、預(yù)處理模塊,用于對所有指標(biāo)進(jìn)行歸一化處理,消除量綱影響;
39、第一數(shù)據(jù)處理模塊,用于初期先用專家經(jīng)驗(yàn)決確定各指標(biāo)的權(quán)重系數(shù),后面采用歷史大量模型的結(jié)果通過人工判定的方式逐步修正權(quán)重系數(shù);
40、第二數(shù)據(jù)處理模塊,通過得到的各指標(biāo)與確定好的指標(biāo)權(quán)重系數(shù),進(jìn)行加權(quán)求和計(jì)算得到排序性系數(shù);
41、第三數(shù)據(jù)處理模塊,通過線性回歸將排序性系數(shù)轉(zhuǎn)化得到排序性評分,確保評分的合理性和可解釋性;
42、排序性評分模塊,用于通過線性回歸將排序性系數(shù)轉(zhuǎn)化得到最終的排序性評分,若排序性評分大于預(yù)設(shè)值則說明排序性良好。
43、根據(jù)本發(fā)明的第三方面,本發(fā)明提供了一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實(shí)現(xiàn)所述的一種基于多統(tǒng)計(jì)量融合的風(fēng)險排序性評分指標(biāo)優(yōu)化方法。
44、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):
45、本發(fā)明提供了基于多統(tǒng)計(jì)量融合的風(fēng)險排序性評分指標(biāo)優(yōu)化方法及系統(tǒng),通過斯皮爾曼相關(guān)性系數(shù)來將lift單調(diào)性進(jìn)行量化,避免了傳統(tǒng)場景中對于lift單調(diào)性的經(jīng)驗(yàn)取向。通過對相鄰區(qū)間的l?ift差值累計(jì)求平均和來將lift相鄰區(qū)分度進(jìn)行量化,避免了傳統(tǒng)場景中對于lift相鄰區(qū)分度的經(jīng)驗(yàn)取向。
46、本發(fā)明將樣本分箱后的lift列表與等差數(shù)列列表之間的斯皮爾曼相關(guān)性系數(shù)corr、auc、ks、lift相鄰區(qū)分度指標(biāo)diff等4個指標(biāo)利用從業(yè)人員的經(jīng)驗(yàn)及歷史數(shù)據(jù)修正進(jìn)行加權(quán)求和,生成了一個新的衡量衡量模型排序性能力指標(biāo)coeffranking,用1個指標(biāo)代替4個指標(biāo),能更多維、綜合、直觀地體現(xiàn)模型的排序性能力。
47、本發(fā)明通過設(shè)計(jì)一個統(tǒng)計(jì)量來描述特征或模型的排序能力的大小,對特征或模型進(jìn)行量化評估,提高從業(yè)人員對排序性大小的定性效率,同時為風(fēng)險管理者提供有力的決策支持。