一種理賠決策方法、裝置、電子設備及存儲介質與流程

文檔序號：40529545發(fā)布日期：2024-12-31 13:41閱讀：12來源：國知局

本發(fā)明涉及金融科技，應用金融場景下的保險理賠處理過程中，具體涉及一種理賠決策方法、裝置、電子設備及存儲介質。

背景技術：

1、企業(yè)在經(jīng)營過程中面臨各種風險，為了保障企業(yè)的穩(wěn)定運營和員工的福祉，可以通過購買保險來轉移這些風險。例如，企業(yè)可以購買財產(chǎn)保險來保障企業(yè)資產(chǎn)，購買責任保險來規(guī)避潛在的法律責任。

2、企業(yè)保險領域存在眾多的個性化因素，包括被保險人屬于企業(yè)，與車險個人不同，企業(yè)的因素相對少但卻個性化，因為涉及到每個企業(yè)的屬性和關系不一樣，同時帶來的保費保單金額高，因此保險公司一般都是會給企業(yè)“量身定做”保單。因此不同類型的保險政策等多維度信息，這使得傳統(tǒng)的風控模型多為二分類模型，二分類模型在捕捉這些復雜的、高度個性化的特征時面臨巨大挑戰(zhàn)，準確率難以滿足需求，維持在16％左右，因此，當理賠結果不準確時，可能會給保險公司帶來巨大的損失。

技術實現(xiàn)思路

1、本發(fā)明的目的在于克服上述技術不足，提供一種理賠決策方法、裝置、電子設備及存儲介質，解決現(xiàn)有技術中無法準確進行企業(yè)保險理賠決策的技術問題。

2、為達到上述技術目的，本發(fā)明采取了以下技術方案：

3、第一方面，本發(fā)明提供了一種理賠決策方法，包括如下步驟：

4、獲取若干個歷史企業(yè)理賠數(shù)據(jù)，基于所述若干個所述歷史企業(yè)理賠數(shù)據(jù)構建訓練集，其中，所述歷史企業(yè)理賠數(shù)據(jù)包括企業(yè)特征參數(shù)和與所述企業(yè)特征參數(shù)對應的理賠結果；

5、建立初始策略網(wǎng)絡，基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子，其中，所述決策優(yōu)化因子包括用于表征狀態(tài)的狀態(tài)因子、用于表征動作的動作因子以及用于表征獎勵的獎勵因子；

6、基于所述狀態(tài)因子、動作因子和獎勵因子，采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡；

7、基于所述優(yōu)化后的策略網(wǎng)絡，輸出當前的企業(yè)的理賠決策結果。

8、在一些實施例中，所述建立初始策略網(wǎng)絡，基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子，包括：

9、建立基于多層感知器模型的初始策略網(wǎng)絡，并預設所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)；

10、將所述歷史企業(yè)理賠數(shù)據(jù)中的企業(yè)特征參數(shù)作為狀態(tài)因子；

11、基于所述狀態(tài)因子，采用所述初始策略網(wǎng)絡預測所述狀態(tài)因子對應的動作，并作為動作因子；

12、基于所述動作因子，采用預設的獎勵值計算模型，得到對應的獎勵值，并將所述獎勵值作為獎勵因子。

13、在一些實施例中，所述采用預設的獎勵值計算模型，得到對應的獎勵值，包括：

14、獲取所述動作因子，判斷所述動作因子的類型；

15、當所述動作因子為理賠動作時，輸出第一獎勵值，當所述動作因子為拒賠動作時，輸出第二獎勵值，其中，所述第一獎勵值為負數(shù)，所述第二獎勵值為正數(shù)。

16、在一些實施例中，所述基于所述狀態(tài)因子、動作因子和獎勵因子，采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡，包括：

17、基于所述狀態(tài)因子和動作因子，計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率；

18、基于所述概率，計算出初始策略網(wǎng)絡的對數(shù)概率的梯度；

19、基于所述初始策略網(wǎng)絡的對數(shù)概率的梯度以及所述獎勵因子，計算出策略梯度；

20、采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡。

21、在一些實施例中，所述基于所述狀態(tài)因子和動作因子，計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率，包括：

22、基于所述狀態(tài)因子和動作因子，計算每個動作的指數(shù)值；

23、基于每個動作的指數(shù)值，計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率。

24、在一些實施例中，所述采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡，包括：

25、采用梯度上升算法最大化策略梯度值；

26、基于最大化策略梯度值以及預設的學習率，對所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)進行優(yōu)化，直至得到優(yōu)化后的策略網(wǎng)絡。

27、在一些實施例中，所述基于所述優(yōu)化后的策略網(wǎng)絡，輸出當前的企業(yè)的理賠決策結果，包括：

28、獲取當前企業(yè)的企業(yè)特征參數(shù)；

29、將所述當前企業(yè)的企業(yè)特征參數(shù)輸入至所述優(yōu)化后的策略網(wǎng)絡中，以生成理賠決策結果。

30、第二方面，本發(fā)明還提供了一種理賠決策裝置，包括：

31、數(shù)據(jù)獲取模塊，用于獲取若干個歷史企業(yè)理賠數(shù)據(jù)，基于所述若干個所述歷史企業(yè)理賠數(shù)據(jù)構建訓練集，其中，所述歷史企業(yè)理賠數(shù)據(jù)包括企業(yè)特征參數(shù)和與所述企業(yè)特征參數(shù)對應的理賠結果；

32、決策優(yōu)化因子獲取模塊，用于建立初始策略網(wǎng)絡，基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子，其中，所述決策優(yōu)化因子包括用于表征狀態(tài)的狀態(tài)因子、用于表征動作的動作因子以及用于表征獎勵的獎勵因子；

33、優(yōu)化模塊，用于基于所述狀態(tài)因子、動作因子和獎勵因子，采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡；

34、決策模塊，用于基于所述優(yōu)化后的策略網(wǎng)絡，輸出當前的企業(yè)的理賠決策結果。

35、第三方面，本發(fā)明還提供了一種計算機設備，包括存儲器和處理器，所述存儲器中存儲有計算機可讀指令，所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如上所述的理賠決策方法的步驟。

36、第四方面，本發(fā)明還提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質上存儲有計算機可讀指令，所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上所述的理賠決策方法的步驟。

37、與現(xiàn)有技術相比，本發(fā)明提供的理賠決策方法、裝置、設備及存儲介質，首先獲取若干個歷史企業(yè)理賠數(shù)據(jù)，基于所述若干個所述歷史企業(yè)理賠數(shù)據(jù)構建訓練集，其中，所述歷史企業(yè)理賠數(shù)據(jù)包括企業(yè)特征參數(shù)和與所述企業(yè)特征參數(shù)對應的理賠結果，然后建立初始策略網(wǎng)絡，基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子，其中，所述決策優(yōu)化因子包括用于表征狀態(tài)的狀態(tài)因子、用于表征動作的動作因子以及用于表征獎勵的獎勵因子，之后基于所述狀態(tài)因子、動作因子和獎勵因子，采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡，最后基于所述優(yōu)化后的策略網(wǎng)絡，輸出當前的企業(yè)的理賠決策結果。本發(fā)明能夠自動進行決策模型的優(yōu)化，無需人工介入，有數(shù)據(jù)便可處理，對噪聲較為魯棒，而且決策的準確率也極大的提升，此外，在輸入信息不完整也可以處理給出答案，加強了決策模型的性能。

技術特征：

1.一種理賠決策方法，其特征在于，包括如下步驟：

2.根據(jù)權利要求1所述的理賠決策方法，其特征在于，所述建立初始策略網(wǎng)絡，基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子，包括：

3.根據(jù)權利要求2所述的理賠決策方法，其特征在于，所述采用預設的獎勵值計算模型，得到對應的獎勵值，包括：

4.根據(jù)權利要求1所述的理賠決策方法，其特征在于，所述基于所述狀態(tài)因子、動作因子和獎勵因子，采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡，包括：

5.根據(jù)權利要求4所述的理賠決策方法，其特征在于，所述基于所述狀態(tài)因子和動作因子，計算出所述初始策略網(wǎng)絡選擇所述動作因子的概率，包括：

6.根據(jù)權利要求1所述的理賠決策方法，其特征在于，所述采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡，包括：

7.根據(jù)權利要求1所述的理賠決策方法，其特征在于，所述基于所述優(yōu)化后的策略網(wǎng)絡，輸出當前的企業(yè)的理賠決策結果，包括：

8.一種理賠決策裝置，其特征在于，包括：

9.一種計算機設備，其特征在于，包括存儲器和處理器，所述存儲器中存儲有計算機可讀指令，所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權利要求1至7中任一項所述的理賠決策方法的步驟。

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質上存儲有計算機可讀指令，所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的理賠決策方法的步驟。

技術總結
本發(fā)明公開了一種理賠決策方法、裝置、電子設備及存儲介質，屬于金融科技技術領域。方法包括：獲取若干個歷史企業(yè)理賠數(shù)據(jù)，基于所述若干個所述歷史企業(yè)理賠數(shù)據(jù)構建訓練集，其中，所述歷史企業(yè)理賠數(shù)據(jù)包括企業(yè)特征參數(shù)和與所述企業(yè)特征參數(shù)對應的理賠結果；建立初始策略網(wǎng)絡，基于所述歷史企業(yè)理賠數(shù)據(jù)和所述初始策略網(wǎng)絡構建決策優(yōu)化因子；基于所述狀態(tài)因子、動作因子和獎勵因子，采用策略梯度更新所述初始策略網(wǎng)絡的網(wǎng)絡參數(shù)，以得到優(yōu)化后的策略網(wǎng)絡；基于所述優(yōu)化后的策略網(wǎng)絡，輸出當前的企業(yè)的理賠決策結果。本發(fā)明解決了現(xiàn)有技術中無法準確進行企業(yè)保險理賠決策的技術問題。

技術研發(fā)人員：何銀雪,陳奕宇
受保護的技術使用者：中國平安財產(chǎn)保險股份有限公司
技術研發(fā)日：
技術公布日：2024/12/30

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：何銀雪,陳奕宇
技術所有人：中國平安財產(chǎn)保險股份有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種理賠決策方法、裝置、電子設備及存儲介質與流程

一種理賠決策方法、裝置、電子設備及存儲介質與流程