本發(fā)明涉及深度學習和患者再入院風險預測領域,具體地說是一種基于改進cwgan模型的患者再入院風險預測方法。
背景技術:
1、近年來,不論是國內還是國外,各種流行病的再入院率普遍呈現(xiàn)上升趨勢。再入院指的是患者經(jīng)過治療,出院一段時間之后在規(guī)定的時間范圍內再次因相同的病因住院治療。降低再入院率已經(jīng)成為許多國家醫(yī)療改革中較為重要的目標之一。
2、目前,在對疾病再入院的研究方面主要分為兩種。一種是通過統(tǒng)計學原理對患者再入院風險因素進行分析研究;另一種是通過建立患者再入院風險預測模型來更準確地分析患者再入院的概率。再入院風險預測模型的構建主要是基于患者的電子病歷數(shù)據(jù),利用某種方法發(fā)掘其中的特征和再入院之間的關聯(lián),從而預測患者之后再入院的可能性。然而由于再入院數(shù)據(jù)具有天然非均衡的特點,即再入院和不再入院的患者數(shù)量差距較大,而傳統(tǒng)的一些分類模型都是建立在均衡數(shù)據(jù)集上的,因此,如何對非均衡數(shù)據(jù)進行處理使得它不影響模型的預測效果是相關研究的重點之一。綜上,對再入院的風險預測研究主要有兩個重點,一個是對非均衡數(shù)據(jù)的處理,另一個則是構建預測模型。
3、在非均衡數(shù)據(jù)處理方面,chawla等提出合成少數(shù)類過采樣技術smote(syntheticminority?over-sampling?technique),smote通過生成合成樣本來增加少數(shù)類樣本的數(shù)量,以平衡類別分布,它主要通過在少數(shù)類樣本之間進行線性插值來創(chuàng)建新樣本,從而避免了簡單復制樣本帶來的過擬合問題,但是它沒有考慮樣本的分布情況。he等在smote的基礎上提出自適應合成采樣算法(adaptive?synthetic?sampling,?adasyn?)?,?adasyn在smote的基礎上進行了改進,通過自適應地生成少數(shù)類樣本來提高分類器對少數(shù)類的識別能力。但上述提到的過采樣方法主要是基于少數(shù)類的部分子集來合成樣本,沒有兼顧到數(shù)據(jù)整體的一個分布情況,因此對模型分類性能的提升比較有限。
4、在預測模型方面,再入院作為一個分類問題,能夠運用的相關預測模型有很多,但已有的許多預測模型都有著難以解釋的缺點,無法對具體結果進行實際分析。
技術實現(xiàn)思路
1、本發(fā)明為了克服現(xiàn)有技術存在的不足之處,提出了一種基于改進cwgan模型的患者再入院風險預測方法,以期能通過生成更多高質量的合成患者再入院數(shù)據(jù),解決患者再入院數(shù)據(jù)不均衡的問題,從而能提高再入院風險預測的準確性,更有效地捕捉患者再入院影響特征與再入院標簽之間的復雜關系。同時,也能夠優(yōu)化醫(yī)療資源的配置,輔助醫(yī)療決策,推動智能醫(yī)療技術的發(fā)展。
2、為達到上述目的,本發(fā)明采用的技術方案為:
3、本發(fā)明一種基于改進cwgan模型的患者再入院風險預測方法的特點在于,是按如下步驟進行:
4、步驟1、獲取患者再入院數(shù)據(jù)集,包括患者的再入院影響特征集和患者再入院標簽,其中,患者的再入院影響特征集包括:分類列影響特征集和數(shù)值列影響特征集,所述患者再入院標簽的取值為0或1,分別表示患者是否會再入院;
5、對所述分類列影響特征集進行one-hot編碼,得到編碼后的分類列影響特征集;
6、采用變分高斯混合模型對所述數(shù)值列影響特征集進行歸一化轉換,得到正態(tài)分布的數(shù)值列影響特征集;
7、由編碼后的分類列影響特征集、正態(tài)分布的數(shù)值列影響特征集和患者再入院標簽構成預處理后的患者再入院數(shù)據(jù)集,并記為,其中,表示第個患者的再入院數(shù)據(jù),為患者的數(shù)量;且,其中,表示第個患者預處理后的再入院影響特征,表示第個患者的再入院標簽;
8、步驟2、構建由生成網(wǎng)絡g和判別網(wǎng)絡d組成的改進cwgan模型,并基于對改進cwgan模型進行訓練,從而得到最優(yōu)cwgan模型;
9、步驟3、所述最優(yōu)cwgan模型對進行處理,并輸出最優(yōu)再入院影響合成特征集,其中,表示第個患者的最優(yōu)再入院影響合成數(shù)據(jù);
10、由與構成第個患者的最優(yōu)再入院合成數(shù)據(jù),從而得到最優(yōu)再入院合成數(shù)據(jù)集;
11、由和組成得到二分類再入院數(shù)據(jù)集;
12、步驟4、構建xgboost二分類模型,使用對xgboost二分類模型進行訓練,得到最優(yōu)xgboost二分類模型,并輸出再入院預測標簽,若為1,則說明第個患者再入院風險高,反之,說明第個患者再入院風險低。
13、本發(fā)明所述的一種基于改進cwgan模型的患者再入院風險預測方法的特點也在于,所述步驟2是按如下步驟進行:
14、步驟2.1、構建生成網(wǎng)絡g,包含并行的個生成網(wǎng)絡隱藏層和個生成網(wǎng)絡交叉層,以及一個生成網(wǎng)絡輸出層;
15、第個生成網(wǎng)絡隱藏層為全連接層并采用leaky?relu激活函數(shù),其中,;
16、當=1時,任取一個隨機噪聲向量分別輸入到第個生成網(wǎng)絡隱藏層和第個生成網(wǎng)絡交叉層中進行處理,相應輸出第個患者的第個生成網(wǎng)絡再入院影響隱藏特征和第個生成網(wǎng)絡再入院影響交叉特征;
17、當=2,3,…時,將第個生成網(wǎng)絡再入院影響隱藏特征輸入第個生成網(wǎng)絡隱藏層中進行處理,并得到,從而由第個生成網(wǎng)絡隱藏層輸出第個生成網(wǎng)絡再入院影響隱藏特征;
18、同時,將第個生成網(wǎng)絡再入院影響交叉特征輸入第個生成網(wǎng)絡交叉層中,并通過式(1)得到,從而由第個生成網(wǎng)絡交叉層輸出第個生成網(wǎng)絡再入院影響交叉特征;
19、?????(1)
20、式(1)中,和分別是第個生成網(wǎng)絡交叉層的權重矩陣和偏置;
21、將和拼接后,得到第個生成網(wǎng)絡再入院影響隱藏交叉拼接特征,并輸入所述生成網(wǎng)絡輸出層中,分別經(jīng)過gumbel_softmax函數(shù)和tanh函數(shù)的處理后,相應得到第個再入院患者的分類列影響合成特征和數(shù)值列影響合成特征,從而構成第個患者的再入院影響合成特征;
22、步驟2.2、構建判別網(wǎng)絡d,包含并行的個判別網(wǎng)絡隱藏層和個判別網(wǎng)絡交叉層,以及一個判別網(wǎng)絡輸出層;
23、第個判別網(wǎng)絡隱藏層為全連接層,并采用leaky?relu激活函數(shù),其中,;
24、當=1時,將分別輸入到第個判別網(wǎng)絡隱藏層和第個判別網(wǎng)絡交叉層中進行處理,相應輸出第個患者的第個判別網(wǎng)絡再入院影響隱藏特征和第個判別網(wǎng)絡再入院影響交叉特征;
25、當=2,3,…時,將第個判別網(wǎng)絡再入院影響隱藏特征輸入第個判別網(wǎng)絡隱藏層中進行處理,并得到第個判別網(wǎng)絡再入院影響隱藏特征,從而由第個判別網(wǎng)絡隱藏層輸出第個判別網(wǎng)絡再入院影響隱藏特征;
26、同時,將第個判別網(wǎng)絡再入院影響交叉特征輸入第個判別網(wǎng)絡交叉層中,并通過式(2)得到第個判別網(wǎng)絡再入院影響交叉特征,從而由第個判別網(wǎng)絡交叉層輸出第個判別網(wǎng)絡再入院影響交叉特征;
27、?????(2)
28、式(2)中,和分別是第個判別網(wǎng)絡交叉層的權重矩陣和偏置;
29、將和拼接后,得到第個判別網(wǎng)絡再入院影響隱藏交叉拼接特征,并輸入所述判別網(wǎng)絡輸出層中,相應得到判別網(wǎng)絡d對真假判別的預測值及第個再入院患者再入院標簽的預測值;
30、步驟2.3、利用式(3)建立標簽重構損失:
31、?????(3)
32、式(3)中,表示交叉熵損失;
33、步驟2.4、利用式(4)建立生成網(wǎng)絡g的損失函數(shù):
34、?????(4)
35、式(4)中,表示服從中再入院數(shù)據(jù)分布的的數(shù)學期望,是的權重;
36、步驟2.5、利用式(5)建立判別網(wǎng)絡d的損失函數(shù):
37、??????(5)
38、式(5)中,表示服從中再入院數(shù)據(jù)分布的的數(shù)學期望,表示判別網(wǎng)絡d對的預測值;是對的梯度,是權衡梯度懲罰項的權重;
39、步驟2.6、利用式(6)構建全局目標函數(shù):
40、????(6)
41、步驟2.7、基于,利用梯度下降法對所述改進cwgan模型進行訓練,并計算所述全局目標函數(shù)以更新模型參數(shù),直至判別網(wǎng)絡d無法判斷輸入數(shù)據(jù)的真假時,得到最優(yōu)cwgan模型。
42、本發(fā)明一種電子設備,包括存儲器以及處理器的特點在于,所述存儲器用于存儲支持處理器執(zhí)行所述患者再入院風險預測方法的程序,所述處理器被配置為用于執(zhí)行所述存儲器中存儲的程序。
43、本發(fā)明一種計算機可讀存儲介質,計算機可讀存儲介質上存儲有計算機程序的特點在于,所述計算機程序被處理器運行時執(zhí)行所述患者再入院風險預測方法的步驟。
44、與現(xiàn)有技術相比,本發(fā)明的有益效果體現(xiàn)在:
45、1、本發(fā)明采用改進cwgan模型來生成患者再入院數(shù)據(jù),從而平衡再入院數(shù)據(jù)集。生成對抗網(wǎng)絡作為近些年來熱門的一種生成模型,廣泛運用于對原始樣本的分布特征的無監(jiān)督式學習,而作為生成對抗網(wǎng)絡的變體,相比于其他的非均衡數(shù)據(jù)處理方法,改進的cwgan模型可以在無監(jiān)督的情況下獲得數(shù)據(jù)的潛在分布規(guī)律并由此生成高度逼真的人工樣本,從而可以得到高質量的平衡患者再入院數(shù)據(jù)集,提高了患者再入院預測的準確性。
46、2、本發(fā)明采用極端梯度提升(xgboost)模型進行患者再入院數(shù)據(jù)集的分類預測,相比于統(tǒng)計性分析,該模型可以生成分類樹的集合,并為每個特征分配預測風險評分,從而能夠更準確地分析出患者再入院的風險概率。