本發(fā)明涉及糖尿病,具體地說,涉及一種基于多模態(tài)大模型的糖尿病風(fēng)險預(yù)測模型。
背景技術(shù):
1、糖尿病是由遺傳和環(huán)境因素共同作用,引起的—組以慢性高血糖為主要特征的臨床綜合征,是一種常見的代謝性疾病,已經(jīng)成為全球性的健康問題,糖尿病具有很高的危害性,必須采取措施進行預(yù)防和管理,現(xiàn)有技術(shù)中針對糖尿病風(fēng)險預(yù)測的系統(tǒng),如公開號cn111968748a提供了一種糖尿病并發(fā)癥預(yù)測模型的建模方法,包括如下步驟:s10數(shù)據(jù)采集,采集醫(yī)院糖尿病并發(fā)癥數(shù)據(jù);s20數(shù)據(jù)處理,將所述并發(fā)癥數(shù)據(jù)進行預(yù)處理獲得建模數(shù)據(jù);s30將所述建模數(shù)據(jù)利用spss軟件進行數(shù)據(jù)離散化處理獲得特征數(shù)據(jù);以及s40使用70%的所述特征數(shù)據(jù)對機器學(xué)習(xí)模型進行訓(xùn)練,使用30%的所述特征數(shù)據(jù)對所述機器學(xué)習(xí)模型進行測試,獲得所述糖尿病并發(fā)癥預(yù)測模型。本發(fā)明的一種糖尿病并發(fā)癥預(yù)測模型的建模方法,使用大量現(xiàn)有的國內(nèi)糖尿病患者的電子病歷數(shù)據(jù)建立糖尿病并發(fā)癥預(yù)測模型,可提高國內(nèi)糖尿病患者的并發(fā)癥的預(yù)測效果,將所述糖尿病并發(fā)癥預(yù)測模型應(yīng)用于糖尿病并發(fā)癥預(yù)測可針對高危人群采取恰當(dāng)措施,輔助醫(yī)生診療;
2、目前用戶分為攜帶糖尿病基因(有家族史)和不攜帶糖尿病基因兩種類型,針對不同用戶需要預(yù)測的內(nèi)容也不同,然而現(xiàn)有技術(shù)不方便根據(jù)用戶基因情況分配預(yù)測模型,導(dǎo)致不能針對性的進行風(fēng)險預(yù)測,影響后續(xù)診療,鑒于此,我們提出一種基于多模態(tài)大模型的糖尿病風(fēng)險預(yù)測模型,可針對攜帶糖尿病基因的用戶預(yù)測疾病進展和并發(fā)癥,針對不攜帶糖尿病基因的用戶預(yù)測未來患病風(fēng)險。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于多模態(tài)大模型的糖尿病風(fēng)險預(yù)測模型,通過根據(jù)基因檢測和家族史數(shù)據(jù),分配不同的模型預(yù)測糖尿病風(fēng)險,且針對有家族史的用戶結(jié)合家族史數(shù)據(jù),更全面地評估個體風(fēng)險,為家族成員提供針對性的健康管理建議。
2、為實現(xiàn)上述目的,本發(fā)明提供一種基于多模態(tài)大模型的糖尿病風(fēng)險預(yù)測模型,包括多數(shù)據(jù)融合采集單元、模型構(gòu)建選擇單元和用戶分類單元;
3、所述多數(shù)據(jù)融合采集單元用于挖掘糖尿病患者的歷史數(shù)據(jù),歷史包括有家族史的糖尿病患者歷史數(shù)據(jù)和無家族史的糖尿病患者歷史數(shù)據(jù);
4、所述模型構(gòu)建選擇單元通過將所述多數(shù)據(jù)融合采集單元中有家族史的糖尿病患者歷史數(shù)據(jù)作為初始訓(xùn)練集,訓(xùn)練攜帶預(yù)測模型,用于分析時間序列數(shù)據(jù),預(yù)測血糖波動和并發(fā)癥風(fēng)險;通過將無家族史的糖尿病患者歷史數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練正常預(yù)測模型,用于預(yù)測未來患病風(fēng)險;
5、所述用戶分類單元用于收集當(dāng)前用戶數(shù)據(jù),當(dāng)前用戶數(shù)據(jù)包括基因數(shù)據(jù)、家族史數(shù)據(jù)、臨床數(shù)據(jù)和生活方式數(shù)據(jù),并從基因數(shù)據(jù)中獲取基因芯片分析當(dāng)前用戶糖尿病攜帶情況;
6、若用戶攜帶糖尿病基因,且家族史數(shù)據(jù)反映無家族史,則將當(dāng)前用戶數(shù)據(jù)輸入攜帶預(yù)測模型,預(yù)測血糖波動和并發(fā)癥風(fēng)險;
7、若用戶攜帶糖尿病基因,且家族史數(shù)據(jù)反映有家族史,則將當(dāng)前用戶數(shù)據(jù)對應(yīng)的家族數(shù)據(jù)作為訓(xùn)練集,重新訓(xùn)練實際攜帶基因訓(xùn)練模型,預(yù)測血糖波動和并發(fā)癥風(fēng)險;
8、若用戶未攜帶糖尿病基因,且家族史數(shù)據(jù)反映有家族史,則將當(dāng)前用戶數(shù)據(jù)輸入實際攜帶預(yù)測模型,預(yù)測血糖波動和并發(fā)癥風(fēng)險;
9、若用戶未攜帶糖尿病基因,且家族史數(shù)據(jù)反映無家族史,則將當(dāng)前用戶數(shù)據(jù)輸入正常預(yù)測模型,預(yù)測未來患病風(fēng)險。
10、作為本技術(shù)方案的進一步改進,所述多數(shù)據(jù)融合采集單元包括爬蟲挖掘模塊和家族史分類模塊;
11、所述爬蟲挖掘模塊用于從醫(yī)療記錄中爬取所有糖尿病患者的患病數(shù)據(jù),所述患病數(shù)據(jù)包括家族史數(shù)據(jù)、臨床數(shù)據(jù)和生活方式數(shù)據(jù);
12、所述家族史分類模塊用于調(diào)出患病數(shù)據(jù),分析對應(yīng)家族史數(shù)據(jù)中是否有患病記錄進行分類存儲,若有患病記錄,則標(biāo)記為有家族史的糖尿病患者存儲在第一數(shù)據(jù)庫,若無患病記錄,則標(biāo)記為無家族史的糖尿病患者存儲在第二數(shù)據(jù)庫。
13、作為本技術(shù)方案的進一步改進,所述模型構(gòu)建選擇單元中訓(xùn)練攜帶預(yù)測模型在所述第一數(shù)據(jù)庫內(nèi),采用循環(huán)神經(jīng)網(wǎng)絡(luò)來訓(xùn)練有家族史的糖尿病患者歷史數(shù)據(jù),包括以下步驟:
14、選擇第一數(shù)據(jù)庫中標(biāo)記為有家族史的糖尿病患者對應(yīng)的患病數(shù)據(jù),并對數(shù)據(jù)進行清洗,處理缺失值,進行歸一化,并轉(zhuǎn)換為適合循環(huán)神經(jīng)網(wǎng)絡(luò)輸入的格式;
15、提取周期性的時間特征作為輸入層,使用rnn單元作為隱藏層處理序列數(shù)據(jù),捕捉時間依賴性,根據(jù)預(yù)測血糖波動和并發(fā)癥風(fēng)險設(shè)計輸出層,其表達式為:
16、ht=f(ht-1,xt,wh,bh)
17、yt=g(ht,wy,by)
18、其中,ht是在時間步t的隱藏狀態(tài),先前的隱藏狀態(tài)ht-1,xt是在時間步t的輸入,wh和bh是隱藏層的權(quán)重和偏置,f是激活函數(shù),通常使用tanh或relu,yt是在時間步t的輸出,wy和by分別是輸出層的權(quán)重和偏置,g是輸出層的激活函數(shù)。
19、作為本技術(shù)方案的進一步改進,所述模型構(gòu)建選擇單元中訓(xùn)練正常預(yù)測模型在所述第二數(shù)據(jù)庫內(nèi),采用深度學(xué)習(xí)算法來訓(xùn)練無家族史的糖尿病患者歷史數(shù)據(jù),包括以下步驟:
20、選擇第二數(shù)據(jù)庫中標(biāo)記為無家族史的糖尿病患者對應(yīng)的患病數(shù)據(jù),并對數(shù)據(jù)進行清洗,處理缺失值,進行歸一化,實現(xiàn)所有數(shù)值特征進行標(biāo)準(zhǔn)化成特征向量;
21、構(gòu)建一個多層感知器模型,在輸入層接受患者的特征向量,在隱藏層通過非線性激活函數(shù)對輸入數(shù)據(jù)進行特征提取和轉(zhuǎn)換,最后輸出層使用sigmoid激活函數(shù),輸出為患病風(fēng)險概率,值介于0到1之間。
22、作為本技術(shù)方案的進一步改進,所述用戶分類單元包括數(shù)據(jù)采集模塊、基因檢測模塊、模型選擇模塊和更新調(diào)整模塊;
23、所述數(shù)據(jù)采集模塊用于通過家族病史記錄收集用戶的家族史數(shù)據(jù),輸出家族史情況,家族史情況包括有家族史和無家族史,從電子健康記錄系統(tǒng)中獲取臨床數(shù)據(jù),通過用戶填寫的問卷收集生活方式數(shù)據(jù);
24、所述基因檢測模塊用于通過基因檢測來獲取用戶的基因信息,使用已知的與糖尿病相關(guān)的基因芯片,進行靶向檢測,若存在糖尿病基因,則輸出基因信號,若不存在糖尿病基因,則輸出無基因信號;
25、所述模型選擇模塊用于同時接收所述數(shù)據(jù)采集模塊和基因檢測模塊的家族史情況和靶向檢測結(jié)果,包括以下姿態(tài):
26、姿態(tài)一、接收到基因信號和無家族史,輸入所述數(shù)據(jù)采集模塊中的臨床數(shù)據(jù)和生活方式數(shù)據(jù)攜帶基因訓(xùn)練模型,輸出預(yù)測血糖波動和并發(fā)癥風(fēng)險結(jié)果;
27、姿態(tài)二、接收到基因信號和有家族史,傳輸信號至更新調(diào)整模塊,用于采集當(dāng)前用戶家屬的家族數(shù)據(jù)輸入第一數(shù)據(jù)庫內(nèi),家族數(shù)據(jù)包括家族臨床數(shù)據(jù)和家族生活方式數(shù)據(jù),采用循環(huán)神經(jīng)網(wǎng)絡(luò)再次訓(xùn)練家族臨床數(shù)據(jù)和生活方式數(shù)據(jù)形成實際攜帶基因訓(xùn)練模型,輸入所述數(shù)據(jù)采集模塊中的臨床數(shù)據(jù)和家族生活方式數(shù)據(jù),輸出預(yù)測血糖波動和并發(fā)癥風(fēng)險;
28、姿態(tài)三、接收到無基因信號和有家族史,輸入所述數(shù)據(jù)采集模塊中的臨床數(shù)據(jù)和生活方式數(shù)據(jù)至實際攜帶基因訓(xùn)練模型,輸出預(yù)測血糖波動和并發(fā)癥風(fēng)險;
29、姿態(tài)四、接收到無基因信號和無家族史,輸入所述數(shù)據(jù)采集模塊中的臨床數(shù)據(jù)和生活方式數(shù)據(jù)至正常預(yù)測模型,預(yù)測未來患病風(fēng)險。
30、作為本技術(shù)方案的進一步改進,所述更新調(diào)整模塊采集當(dāng)前用戶家屬的家族數(shù)據(jù),采用預(yù)先設(shè)計好的問卷,使用文本分類算法對文本數(shù)據(jù)進行分類,識別出臨床數(shù)據(jù)和生活方式數(shù)據(jù)。
31、作為本技術(shù)方案的進一步改進,所述問卷分為臨床數(shù)據(jù)和生活方式數(shù)據(jù)兩個類別;
32、臨床數(shù)據(jù):包括但不限于疾病診斷和醫(yī)療記錄;
33、生活方式數(shù)據(jù):包括但不限于飲食習(xí)慣、運動習(xí)慣、睡眠習(xí)慣和情緒狀態(tài)。
34、作為本技術(shù)方案的進一步改進,所述用戶分類單元還包括節(jié)點劃分模塊,所述節(jié)點劃分模塊用于定義一個窗口大小,例如過去3個月的數(shù)據(jù),使用滑動窗口內(nèi)所述數(shù)據(jù)采集模塊收集的用戶數(shù)據(jù)輸入模型選擇模塊預(yù)測,每當(dāng)收到新的血糖監(jiān)測數(shù)據(jù),就將窗口向前移動一個時間步長,并將最新的數(shù)據(jù)加入窗口,每當(dāng)窗口更新后,根據(jù)用戶的最新數(shù)據(jù)和時間變化情況更新預(yù)測結(jié)果。
35、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
36、該基于多模態(tài)大模型的糖尿病風(fēng)險預(yù)測模型中,采用深度學(xué)習(xí)算法來訓(xùn)練無家族史的糖尿病患者歷史數(shù)據(jù),采用循環(huán)神經(jīng)網(wǎng)絡(luò)來訓(xùn)練有家族史的糖尿病患者歷史數(shù)據(jù),形成多個預(yù)測模型,方便根據(jù)用戶是否攜帶糖尿病基因和家族史情況分配對應(yīng)的預(yù)測模型,能夠為個體提供更加精準(zhǔn)的健康評估和預(yù)防建議,預(yù)測結(jié)果可以幫助醫(yī)生更快地做出決策,有利于后續(xù)早期預(yù)防和干預(yù);
37、并且采用循環(huán)神經(jīng)網(wǎng)絡(luò)再次訓(xùn)練家族臨床數(shù)據(jù)和生活方式數(shù)據(jù)形成實際攜帶基因訓(xùn)練模型,輸入所述數(shù)據(jù)采集模塊中的臨床數(shù)據(jù)和家族生活方式數(shù)據(jù),輸出預(yù)測血糖波動和并發(fā)癥風(fēng)險,確保預(yù)測結(jié)果更加貼近個體實際情況,結(jié)合家族史數(shù)據(jù),可以更全面地評估個體風(fēng)險,為家族成員提供針對性的健康管理建議,將家族數(shù)據(jù)整合進模型,有助于發(fā)現(xiàn)家族遺傳模式,提高預(yù)測的準(zhǔn)確性,即使沒有基因信號,也能通過家族史數(shù)據(jù)提高預(yù)測的準(zhǔn)確性,充分利用現(xiàn)有信息。