本發(fā)明涉及金融科技,應用金融場景下的保險理賠處理過程中,具體涉及一種理賠決策方法、裝置、電子設備及存儲介質。
背景技術:
1、企業(yè)在經(jīng)營過程中面臨各種風險,為了保障企業(yè)的穩(wěn)定運營和員工的福祉,可以通過購買保險來轉移這些風險。例如,企業(yè)可以購買財產(chǎn)保險來保障企業(yè)資產(chǎn),購買責任保險來規(guī)避潛在的法律責任。
2、企業(yè)保險領域存在眾多的個性化因素,包括被保險人屬于企業(yè),與車險個人不同,企業(yè)的因素相對少但卻個性化,因為涉及到每個企業(yè)的屬性和關系不一樣,同時帶來的保費保單金額高,因此保險公司一般都是會給企業(yè)“量身定做”保單。因此不同類型的保險政策等多維度信息,這使得傳統(tǒng)的風控模型多為二分類模型,二分類模型在捕捉這些復雜的、高度個性化的特征時面臨巨大挑戰(zhàn),準確率難以滿足需求,維持在16%左右,因此,當理賠結果不準確時,可能會給保險公司帶來巨大的損失。
技術實現(xiàn)思路
1、本發(fā)明的目的在于克服上述技術不足,提供一種理賠決策方法、裝置、電子設備及存儲介質,解決現(xiàn)有技術中無法準確進行企業(yè)保險理賠決策的技術問題。
2、為達到上述技術目的,本發(fā)明采取了以下技術方案:
3、第一方面,本發(fā)明提供了一種理賠決策方法,包括如下步驟:
4、獲取若干個歷史企業(yè)理賠數(shù)據(jù),基于所述若干個所述歷史企業(yè)理賠數(shù)據(jù)構建訓練集,其中,所述歷史企業(yè)理賠數(shù)據(jù)包括企業(yè)特征參數(shù)和與所述企業(yè)特征參數(shù)對應的理賠結果;
5、建立初始策略網(wǎng)絡,基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子,其中,所述決策優(yōu)化因子包括用于表征狀態(tài)的狀態(tài)因子、用于表征動作的動作因子以及用于表征獎勵的獎勵因子;
6、基于所述狀態(tài)因子、動作因子和獎勵因子,采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡;
7、基于所述優(yōu)化后的策略網(wǎng)絡,輸出當前的企業(yè)的理賠決策結果。
8、在一些實施例中,所述建立初始策略網(wǎng)絡,基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子,包括:
9、建立基于多層感知器模型的初始策略網(wǎng)絡,并預設所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù);
10、將所述歷史企業(yè)理賠數(shù)據(jù)中的企業(yè)特征參數(shù)作為狀態(tài)因子;
11、基于所述狀態(tài)因子,采用所述初始策略網(wǎng)絡預測所述狀態(tài)因子對應的動作,并作為動作因子;
12、基于所述動作因子,采用預設的獎勵值計算模型,得到對應的獎勵值,并將所述獎勵值作為獎勵因子。
13、在一些實施例中,所述采用預設的獎勵值計算模型,得到對應的獎勵值,包括:
14、獲取所述動作因子,判斷所述動作因子的類型;
15、當所述動作因子為理賠動作時,輸出第一獎勵值,當所述動作因子為拒賠動作時,輸出第二獎勵值,其中,所述第一獎勵值為負數(shù),所述第二獎勵值為正數(shù)。
16、在一些實施例中,所述基于所述狀態(tài)因子、動作因子和獎勵因子,采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡,包括:
17、基于所述狀態(tài)因子和動作因子,計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率;
18、基于所述概率,計算出初始策略網(wǎng)絡的對數(shù)概率的梯度;
19、基于所述初始策略網(wǎng)絡的對數(shù)概率的梯度以及所述獎勵因子,計算出策略梯度;
20、采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡。
21、在一些實施例中,所述基于所述狀態(tài)因子和動作因子,計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率,包括:
22、基于所述狀態(tài)因子和動作因子,計算每個動作的指數(shù)值;
23、基于每個動作的指數(shù)值,計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率。
24、在一些實施例中,所述采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡,包括:
25、采用梯度上升算法最大化策略梯度值;
26、基于最大化策略梯度值以及預設的學習率,對所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)進行優(yōu)化,直至得到優(yōu)化后的策略網(wǎng)絡。
27、在一些實施例中,所述基于所述優(yōu)化后的策略網(wǎng)絡,輸出當前的企業(yè)的理賠決策結果,包括:
28、獲取當前企業(yè)的企業(yè)特征參數(shù);
29、將所述當前企業(yè)的企業(yè)特征參數(shù)輸入至所述優(yōu)化后的策略網(wǎng)絡中,以生成理賠決策結果。
30、第二方面,本發(fā)明還提供了一種理賠決策裝置,包括:
31、數(shù)據(jù)獲取模塊,用于獲取若干個歷史企業(yè)理賠數(shù)據(jù),基于所述若干個所述歷史企業(yè)理賠數(shù)據(jù)構建訓練集,其中,所述歷史企業(yè)理賠數(shù)據(jù)包括企業(yè)特征參數(shù)和與所述企業(yè)特征參數(shù)對應的理賠結果;
32、決策優(yōu)化因子獲取模塊,用于建立初始策略網(wǎng)絡,基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子,其中,所述決策優(yōu)化因子包括用于表征狀態(tài)的狀態(tài)因子、用于表征動作的動作因子以及用于表征獎勵的獎勵因子;
33、優(yōu)化模塊,用于基于所述狀態(tài)因子、動作因子和獎勵因子,采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡;
34、決策模塊,用于基于所述優(yōu)化后的策略網(wǎng)絡,輸出當前的企業(yè)的理賠決策結果。
35、第三方面,本發(fā)明還提供了一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如上所述的理賠決策方法的步驟。
36、第四方面,本發(fā)明還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上所述的理賠決策方法的步驟。
37、與現(xiàn)有技術相比,本發(fā)明提供的理賠決策方法、裝置、設備及存儲介質,首先獲取若干個歷史企業(yè)理賠數(shù)據(jù),基于所述若干個所述歷史企業(yè)理賠數(shù)據(jù)構建訓練集,其中,所述歷史企業(yè)理賠數(shù)據(jù)包括企業(yè)特征參數(shù)和與所述企業(yè)特征參數(shù)對應的理賠結果,然后建立初始策略網(wǎng)絡,基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子,其中,所述決策優(yōu)化因子包括用于表征狀態(tài)的狀態(tài)因子、用于表征動作的動作因子以及用于表征獎勵的獎勵因子,之后基于所述狀態(tài)因子、動作因子和獎勵因子,采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡,最后基于所述優(yōu)化后的策略網(wǎng)絡,輸出當前的企業(yè)的理賠決策結果。本發(fā)明能夠自動進行決策模型的優(yōu)化,無需人工介入,有數(shù)據(jù)便可處理,對噪聲較為魯棒,而且決策的準確率也極大的提升,此外,在輸入信息不完整也可以處理給出答案,加強了決策模型的性能。
1.一種理賠決策方法,其特征在于,包括如下步驟:
2.根據(jù)權利要求1所述的理賠決策方法,其特征在于,所述建立初始策略網(wǎng)絡,基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子,包括:
3.根據(jù)權利要求2所述的理賠決策方法,其特征在于,所述采用預設的獎勵值計算模型,得到對應的獎勵值,包括:
4.根據(jù)權利要求1所述的理賠決策方法,其特征在于,所述基于所述狀態(tài)因子、動作因子和獎勵因子,采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡,包括:
5.根據(jù)權利要求4所述的理賠決策方法,其特征在于,所述基于所述狀態(tài)因子和動作因子,計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率,包括:
6.根據(jù)權利要求1所述的理賠決策方法,其特征在于,所述采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù),以得到優(yōu)化后的策略網(wǎng)絡,包括:
7.根據(jù)權利要求1所述的理賠決策方法,其特征在于,所述基于所述優(yōu)化后的策略網(wǎng)絡,輸出當前的企業(yè)的理賠決策結果,包括:
8.一種理賠決策裝置,其特征在于,包括:
9.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權利要求1至7中任一項所述的理賠決策方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的理賠決策方法的步驟。