本發(fā)明涉及醫(yī)療,尤其是涉及一種基于多模態(tài)圖學習模型的疾病風險預測方法。
背景技術:
1、基于生物醫(yī)學影像的先進應用技術具有進一步提高診斷效率和準確性的潛力。多模態(tài)醫(yī)學數(shù)據(jù)同時獲取比較困難,將基因數(shù)據(jù)與高維影像數(shù)據(jù)聯(lián)合建模的技術更是缺乏,將生物醫(yī)學影像和基因組信息用于疾病分類,代表了醫(yī)學診斷中的前沿方法。該技術允許對復雜疾病(如心血管疾病、糖尿病和肝病)的遺傳和環(huán)境因素進行更深層次的整合,目前這些疾病正越來越多地通過多組學方法進行研究。
2、醫(yī)學影像提供了關于人體內部解剖結構和功能狀態(tài)的視覺信息。從影像中提取的表型可以定量反映器官的結構和功能狀態(tài),是疾病風險預測的優(yōu)秀生物標志物。另一方面,多基因風險評分(prs)因其在預測各種常見疾病風險方面的有效性和潛在臨床價值,得以廣泛研究。prs提供了對影響疾病的固有遺傳因素的關鍵信息,在早期疾病預警中具有重要作用。它們提供了有關疾病進展的寶貴見解,促進了疾病的早期發(fā)現(xiàn)。整合磁共振原始影像特征和prs可以提高復雜特征在疾病風險預測中的效能。在進行疾病風險預測時,將prs與從健康記錄中相對容易計算的qcancer-10評分整合在一起比單獨使用qcancer-10評分準確率更高。2022年wang等人開發(fā)了一種利用mri和prs特征的分類器,在精神分裂癥的預測中取得了很好的預測性能。然而,以往的研究僅利用單一器官的idps,未考慮整合多器官數(shù)據(jù)的潛在優(yōu)勢,這是一個限制。這可能會限制對疾病機制的理解和治療策略制定的全面性。將基因數(shù)據(jù)與高維影像數(shù)據(jù)聯(lián)合建模用于疾病風險預測是一個備受關注的研究領域。在多模態(tài)異構數(shù)據(jù)集成、共性特征與特定特征表征、模型優(yōu)化等方面的問題還需要進一步探索,基于多模態(tài)數(shù)據(jù)進行疾病風險預測的準確性、全面性還需進一步提高。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于多模態(tài)圖學習模型的疾病風險預測方法,將多器官影像與基因組信息整合在一起,顯著提高了預測的精確性和全面性。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于多模態(tài)圖學習模型的疾病風險預測方法,包括以下步驟:
3、s1、收集全身多器官的原始影像數(shù)據(jù)和全基因組數(shù)據(jù);
4、s2、使用深度學習模型進行器官自動分割,將分割標簽施加到原始圖像從而獲取不同器官影像數(shù)據(jù)中的影像衍生表型;
5、s3、基于全基因組數(shù)據(jù),計算不同疾病的多基因風險評分;
6、s4、基于步驟s2的影像衍生表型和步驟s3的多基因風險評分,使用隨機森林算法導出的gini系數(shù)的平均減少值對特征重要性進行排序,得到排序后的特征;
7、s5、將不同器官的原始影像數(shù)據(jù)和步驟s4的排序后的特征作為輸入,構建基于多模態(tài)圖學習模型的疾病風險預測模型。
8、優(yōu)選的,步驟s1中,不同器官包括心臟、大腦、腎臟、肝臟、肺、胰腺和脾臟;不同疾病包括心房顫動、心力衰竭、高血壓、心肌梗死、哮喘、2型糖尿病、慢性腎病、冠狀動脈疾病和慢性阻塞性肺病。
9、優(yōu)選的,步驟s3中,基于全基因組數(shù)據(jù),計算不同疾病的多基因風險評分,具體操作如下:
10、s31、處理每種疾病的匯總統(tǒng)計數(shù)據(jù);
11、s32、提取和合并跨不同染色體選擇的snp數(shù)據(jù),以處理原始按染色體分割的遺傳數(shù)據(jù)文件;
12、s33、對遺傳數(shù)據(jù)文件進行格式轉化,設置基因型概率閾值參數(shù);
13、s34、snp的質量控制使用基因型質量info和次要等位基因頻率maf數(shù)據(jù)進行;
14、s35、使用經過質量控制的snp數(shù)據(jù)計算prs。
15、優(yōu)選的,步驟s31中,具體操作為:
16、使用特定參數(shù)進行基于p值的聚類方法,識別與疾病強相關但不受ld效應影響的snp;
17、其中,主要snp的p值閾值為0.0001,次要snp的p值閾值為0.01,ld的r2閾值為0.5,ld的距離為250kb。
18、優(yōu)選的,步驟s34中,snp的質量控制包括去除效應等位基因頻率eaf值在0.4~0.6之間、基因型質量info值低于0.4及次要等位基因頻率maf值低于0.005的snp。
19、優(yōu)選的,步驟s5中,多模態(tài)圖學習模型的構建方法如下:
20、s51、通過多模態(tài)感知表征學習將異構的原始多模態(tài)特征x映射為模態(tài)特定表征hsp和模態(tài)共享表征hsh,得到多模態(tài)聯(lián)合感知表征矩陣h=concat(hsh,hsp);
21、s52、基于自適應圖學習算法得到多模態(tài)聯(lián)合感知表征矩陣h的鄰接矩陣a;
22、s53、基于多模態(tài)聯(lián)合感知表征矩陣h和鄰接矩陣a,使用gnn輸出患者的預測結果,用表示;
23、同時,額外設置輔助分類器f(·)來獲得預測結果,此預測結果用表示,用以反饋指導模態(tài)特定表征hsp的構建。
24、優(yōu)選的,步驟s51中,通過多模態(tài)感知表征學習將異構的原始多模態(tài)特征x映射為模態(tài)特定表征hsp和模態(tài)共享表征hsh,得到多模態(tài)聯(lián)合感知表征矩陣h=concat(hsh,hsp),具體操作如下:
25、通過映射關系從異構的原始多模態(tài)特征x中學習多模態(tài)感知表征矩陣h,其中表示患者的多模態(tài)共享表征映射,表示患者的多模態(tài)特定表征映射,公式如下:
26、
27、其中,和分別代表多模態(tài)共享表征和多模態(tài)特定表征,因此,對于病人u,多模態(tài)聯(lián)合感知表征hu將由和構成,其中,h為多模態(tài)聯(lián)合感知表征矩陣h中的一個元素:
28、
29、具體操作如下:
30、輸入異構的原始多模態(tài)特征x,通過變換矩陣將每個模態(tài)特征轉換為與其同維度的矩陣將異構的原始多模態(tài)特征x映射到df維共享同質子空間,對于病人u的多模態(tài)特征xu表示為特征矩陣
31、其中,dm表示原始特征維數(shù);df為映射后的共享同質子空間維數(shù);xm表示第m個模態(tài)的原始特征;表示第m個模態(tài)映射后的特征;表示病人u的第m個模態(tài)的映射后的特征,m取值范圍為[1,m],m表示模態(tài)的總個數(shù);
32、對于病人u的特征矩陣xu,通過變換矩陣wq、wk和wv獲得查詢矩陣關鍵矩陣和值矩陣
33、其中,分別為查詢矩陣qu、關鍵矩陣ku、值矩陣vu的第m個元素;
34、由查詢矩陣qu和關鍵矩陣ku基于公式(3)得到注意力矩陣p,其元素計算公式如下:
35、
36、其中,pu,ij表示p的一個元素,其具體含義為患者u的第i種模態(tài)對第j種模態(tài)的注意力強度;τ是控制注意力強弱的縮放因子,設置為
37、在患者u的注意力矩陣pu的基礎上,基于公式(4),對每種模態(tài)的值矩陣vu進行共享的跨模態(tài)融合:
38、
39、其中,α是一個超參數(shù),用于控制原始模態(tài)信息的自我保護強度;i是其同型單位陣;表示模態(tài)融合后的值矩陣的轉置;表示值矩陣vu的轉置;
40、最后,模態(tài)共享表征通過公式(5)得到:
41、
42、其中,wh是的一個投影矩陣;vec表示取特征向量運算;
43、公式(1)中的定義為:
44、
45、將公式(1)中的定義為:
46、
47、表示模態(tài)特定表征,作為模態(tài)共享表征的補充;
48、多模態(tài)聯(lián)合感知表征矩陣h根據(jù)公式(2)得到,其中
49、優(yōu)選的,步驟s52中,基于自適應圖學習算法得到多模態(tài)聯(lián)合感知表征矩陣h的鄰接矩陣a:
50、aij=sim(hi,hj)=cos(wahi,wahj)?(8)
51、其中,hi和hj分別表示患者i和患者j的多模態(tài)感知聯(lián)合表征;wa是可學習的權重矩陣;aij表示鄰接矩陣a中第i行第j列的元素(同時也是患者i與患者j之間除外疾病因素后很少存在的單向影響)。
52、優(yōu)選的,步驟s53中,基于多模態(tài)聯(lián)合感知表征矩陣h和鄰接矩陣a,使用gnn輸出患者的預測結果具體操作如下:
53、對于一系列模態(tài)聯(lián)合感知表征{h1,h2,…,hn},使用dirichlet能量來衡量平滑度:
54、
55、其中,為待優(yōu)化的平滑度函數(shù);i和j的取值范圍是[1,n],n表示患者的總數(shù);
56、鄰接矩陣a施加一個額外的正則化項:
57、
58、其中,為待優(yōu)化的正則化項,采用對數(shù)約束控制鄰接矩陣a的連通性;代表全1向量;因此,全圖正則化函數(shù)定義為:
59、
60、其中,β和γ是兩個超參數(shù),用于平衡正則化項;f表示對鄰接矩陣a施加frobenius正則化;
61、至此,給定多模態(tài)聯(lián)合感知表征矩陣h的鄰接矩陣a通過最小化實現(xiàn)對鄰接矩陣a稀疏性、連通性、平滑性的全面優(yōu)化;
62、
63、其中,a*為鄰接矩陣a的優(yōu)化估計結果;
64、基于多模態(tài)感知表征矩陣h和鄰接矩陣a,使用gnn輸出預測結果患者的預測結果。
65、優(yōu)選的,步驟s53中,額外設置輔助分類器f(·)來獲得預測結果以反饋指導hsp的構建,具體操作如下:
66、輔助分類器f(·)用多層感知模型,將層數(shù)設為1;
67、使用以下聯(lián)合損失函數(shù)來同時指導多模態(tài)圖學習模型的優(yōu)化:
68、
69、其中,表示基于gnn的任務感知損失;λ和η是平衡三個損失項的超參數(shù);和都為交叉熵損失函數(shù);y為模型預測的參考標準;為基于多模態(tài)聯(lián)合感知表征結合圖學習模型對y進行估計的結果;為基于模態(tài)特定表征結合多層感知模型對y進行估計的結果。
70、因此,本發(fā)明采用上述的一種基于多模態(tài)圖學習模型的疾病風險預測方法,有益技術效果如下:
71、(1)整合來自不同數(shù)據(jù)源的信息,包括不同器官的原始影像數(shù)據(jù)和全基因組數(shù)據(jù),為疾病風險預測提供更全面的數(shù)據(jù)資料;
72、(2)基于隨機森林gini系數(shù)的特征重要性排序步驟篩選到了對于不同疾病風險的預測來說比較重要的特征,有助于提高模型的可解釋性和可靠性,使得醫(yī)生和患者能夠理解模型的預測結果,有助于醫(yī)生更準確地識別高風險患者;
73、(3)將不同器官的原始影像數(shù)據(jù)和根據(jù)特征重要性排序后的影像衍生表型及多基因風險評分特征作為輸入,通過多模態(tài)感知表征學習到異構的原始多模態(tài)特征內部及跨模態(tài)的相互作用(即模態(tài)共享表征及模態(tài)特定表征),以應對模態(tài)缺失的挑戰(zhàn),通過自適應圖學習算法靈活建模,提高預測模型的準確性。