專利名稱:Ii型糖尿病發(fā)病概率分層預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種II型糖尿病發(fā)病概率分層預(yù)測方法,屬于生物信息處理技術(shù)領(lǐng)域。
背景技術(shù):
II型糖尿病是由遺傳因素和環(huán)境因素長期相互作用而引起的臨床綜合征,可導(dǎo)致心臟、腦血管、腎功能、眼睛下肢等多器官并發(fā)癥發(fā)生,具有很高的致殘率,甚至很多在確診糖尿病之前就已經(jīng)出現(xiàn)了并發(fā)癥。因此,對于II型糖尿病控制,關(guān)鍵是預(yù)防,即在糖尿病發(fā)生以前通過生活方式和飲食等干預(yù),從而避免或者延緩糖尿病的發(fā)生,也是目前控制II型糖尿病最有效、最經(jīng)濟的方法。II型糖尿病發(fā)病概率分層預(yù)測需要解決2個基本問題:1.如何提取與II型糖尿病發(fā)病緊密相關(guān)的關(guān)鍵屬性,提高發(fā)病概率預(yù)測的準(zhǔn)確性;2.如何根據(jù)關(guān)鍵屬性合理的預(yù)測個體發(fā)病概率。綜觀現(xiàn)有II型糖尿病發(fā)病概率預(yù)測方法,通常使用的方法有:1.在關(guān)鍵屬性提取方面:根據(jù)算法原理一般分為過濾法和包裝法,過濾法一般包括以下方法:(I)Relief方法:該方法是根據(jù)統(tǒng)計相關(guān)性標(biāo)準(zhǔn)提取關(guān)鍵屬性,根據(jù)特征值的區(qū)分能力來評價特征的相關(guān)度,即關(guān)鍵屬性應(yīng)該使同類的樣本接近,而使不同類的樣本之間遠(yuǎn)離,基本思想是:對樣本進(jìn)行抽樣,在根據(jù)抽取的樣本與同類、不同類的兩個最接近樣本的差異計算相關(guān)度,從而確定每個屬性的不同權(quán)重。Relief方法選擇的關(guān)鍵屬性相關(guān)性較強,且能夠處理離散和連續(xù)屬性,但該方法不能消除冗余屬性,且由于計算樣本間距離將產(chǎn)生較大的時間開銷,無法滿足高維數(shù)據(jù)關(guān)鍵屬性提取的時間性能要求。(2)主成分分析方法:該方法研究各個屬性之間的相關(guān)關(guān)系,將原來一組具有一定相關(guān)性的屬性,通過變換成為一組新的屬性集合作為關(guān)鍵屬性,通過這種變換達(dá)到用較少的新屬性代替原來較多屬性的目的,并且使新屬性盡可能多保留原來較多屬性反映的信息。但是主成分分析法涉及到特征方程等矩陣運算,算法的時間消耗不能滿足高維數(shù)據(jù)關(guān)鍵屬性提取的要求。(3)粗糙集方法:該方法是在保持屬性的分類能力下,不斷篩除冗余屬性從而獲得關(guān)鍵屬性集合。粗糙集方法一般根據(jù)差別矩陣、屬性重要度或JOHNSON約簡方法,通過屬性依賴程度的不同消除對分類結(jié)果影響較低的屬性,達(dá)到提取關(guān)鍵屬性的目的。雖然該方法可以有效地刪除不相關(guān)屬性,但沒有考慮噪聲數(shù)據(jù)的影響,并且計算效率低。(4)信息熵方法:該方法主要用于信息理論中分析信息不確定度,也可用作屬性作用度的評價,即關(guān)鍵屬性提取。其基本思想是根據(jù)計算信息增益等方法劃分?jǐn)?shù)據(jù),并從新計算劃分后的數(shù)據(jù)增益,典型方法有ID3和C4.5,但該方法時間復(fù)雜度高。(5)遺傳算法:該方法將解表示為以二進(jìn)制串編碼的“染色體”,在執(zhí)行算法前,給出假設(shè)解的“染色體”,然后把這些假設(shè)解置于具體問題也即“環(huán)境”中,按照一定原則從中選擇出較適應(yīng)環(huán)境的編碼串模擬生物遺傳過程的復(fù)制、交叉、變異產(chǎn)生更適應(yīng)環(huán)境的新一代。依此進(jìn)化,最后就會逐漸收斂到最適應(yīng)環(huán)境的一個編碼串上,也即最優(yōu)解。通過該過程即可提取關(guān)鍵屬性。但該方法需要不停迭代計算,算法時間復(fù)雜度高,在關(guān)鍵屬性提取中很少應(yīng)用。包裝法:該方法將學(xué)習(xí)算法作為測試用的黑盒子,利用相關(guān)的學(xué)習(xí)算法對屬性子集進(jìn)行評價,其主要思想是用訓(xùn)練數(shù)據(jù)和相應(yīng)的學(xué)習(xí)算法訓(xùn)練一個分類模型,然后用測試數(shù)據(jù)來評估這個分類器的分類準(zhǔn)確率,通過迭代提取關(guān)鍵屬性,同時能夠發(fā)現(xiàn)比較適合的學(xué)習(xí)算法以及算法的相關(guān)參數(shù)設(shè)定值。包裝法優(yōu)點是對學(xué)習(xí)算法的支持度高,缺點是該模型需要耗費大量的時間進(jìn)行學(xué)習(xí)和訓(xùn)練,時間復(fù)雜度高,效率低,不適用于學(xué)習(xí)算法經(jīng)常變動的情況。2.在發(fā)病概率預(yù)測方面:(I)多元回歸多元回歸模型是應(yīng)用較廣泛的一種建模方法,既可以橫斷面資料用于群體水平糖尿病危險因素的探索,也可以隊列資料用于個體水平糖尿病的發(fā)病風(fēng)險的預(yù)測上。利用logistic回歸建立糖尿病個體水平預(yù)測模型對資料的要求比較寬松。模型因變量是發(fā)生糖尿病和不發(fā)生糖尿病概率之比的自然對數(shù),很容易獲得未來一定時間發(fā)生糖尿病或者某種并發(fā)癥的概率;自變量可以是分類資料也可以是連續(xù)變量。⑵決策樹決策樹模型是對偶然事件或者按照時間順序列出所有由此引發(fā)的不同結(jié)果繪制成圖形,由于這個圖形就像一棵樹干,故稱為決策樹。每一個偶然事件都分配一個概率,這種概率是靜態(tài)概率,也是決策樹的缺點所在。所以決策樹只是一種決策方法,或者說是一種建模思路,一般并不單獨用于模型的建立,而是用其他建模方法,按照決策樹的思路建立一個混合模型。⑶Cox比例風(fēng)險在糖尿病相關(guān)預(yù)測模型中,Cox比例風(fēng)險模型應(yīng)用于糖尿病發(fā)病風(fēng)險評估,糖尿病并發(fā)癥風(fēng)險評估和糖尿病死亡率評估等。Cox比例風(fēng)險模型能有效利用結(jié)局變量所經(jīng)歷的時間信息,可以分析刪失數(shù)據(jù),比較符合隊列研究的實際情況。利用Cox比例風(fēng)險模型獲得相關(guān)變量的RR值后,轉(zhuǎn)化形成危險評分,避免了數(shù)學(xué)公式推廣應(yīng)用的局限性,任何一個人用評分規(guī)則對模型變量進(jìn)行評分,就可以獲得今后若干年的糖尿病發(fā)病概率。無論是普通居民還是專業(yè)人士均可以輕松做出自己未來患糖尿病的概率,進(jìn)而采取相應(yīng)措施。在用Cox比例風(fēng)險模型建立糖尿病發(fā)病概率、糖尿病并發(fā)癥發(fā)病概率或者是成本效益分析時,要求連續(xù)觀察,確定每一觀測對象的結(jié)局,并計算相應(yīng)的人年數(shù),應(yīng)用該法建立模型,對數(shù)據(jù)要求高,追蹤時間不宜過短,成本較高。(4)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)是20世紀(jì)80年代中期基于大腦和神經(jīng)系統(tǒng)研究而建立的一種計算模型,由許多并行計算、功能簡單的單元按照一定的層次排列組成,具有很強的自組織、自適應(yīng)和容錯能力等特征,在處理非線性問題上,具有獨特的優(yōu)越性,廣泛應(yīng)用于糖尿病等慢性病的預(yù)測,但是人工神經(jīng)網(wǎng)絡(luò)建模復(fù)雜,且規(guī)則不易理解。(5)阿基米德預(yù)測法阿基米德模型是一個通過模擬生物器官來對“人”進(jìn)行模擬。人的模型是利用一組方程,可以表征人類的所有相關(guān)的生理系統(tǒng)活動;并且阿基米德模型還可以模擬個體生理、疾病、干預(yù)和衛(wèi)生保健,它用一組方程去描述疾病和相關(guān)并發(fā)癥的生理工作方式。阿基米德模型可以預(yù)測糖尿病、冠心病、心肌收縮等13種疾病的發(fā)病概率,并且經(jīng)過驗證,達(dá)到很好的預(yù)測效果。阿基米德模型與其他預(yù)測模型的不同之處:1)它是一個針對個體的模擬方法,而不是所有的人用同一個模型;2)它需要很多的生物細(xì)節(jié),包括:治療過程、資源和治療開銷等;3)它在時間上面是連續(xù)的,而不是離散化的;4)它能模擬很多的疾病,包括II型糖尿病和它的并發(fā)癥。雖然阿基米德模型可以預(yù)測多年以后糖尿病的發(fā)病概率,但是需要大量的臨床數(shù)據(jù)去建立模型。在公開的21個方程中涉及的變量就超過30個,并且許多變量都是領(lǐng)域性比較強的屬性,一般人很難獲取。由于醫(yī)學(xué)數(shù)據(jù)中同一個人長期的跟蹤數(shù)據(jù)是比較少的,如果能夠根據(jù)小數(shù)據(jù)集的跟蹤數(shù)據(jù)就可以預(yù)測多年的糖尿病發(fā)病概率,則對糖尿病的干預(yù)和控制有重要實際應(yīng)用價值。糖尿病相關(guān)預(yù)測模型的建立方法較多,除了上述幾種主要方法外,也有人用可加模型、Gompertzm模型和模糊模型建立了糖尿病、糖尿病并發(fā)癥發(fā)生概率的預(yù)測模型。甚至在缺乏隊列數(shù)據(jù)的情況下有人采用文獻(xiàn)查閱和專家經(jīng)驗相結(jié)合,根據(jù)哈佛癌癥風(fēng)險評估方
法建立。綜上所述,對于II型糖尿病的預(yù)測這一應(yīng)用場景,現(xiàn)有的預(yù)測方法都是將人群初始時刻視為相同健康狀況,但是不同人群初始風(fēng)險等級是不同的。而且現(xiàn)有預(yù)測技術(shù)的預(yù)測準(zhǔn)確率不夠理想,模型過于復(fù)雜,解釋性較差。
發(fā)明內(nèi)容
本發(fā)明的目的是解決預(yù)測個體和人群N年以后II型糖尿病發(fā)病概率的問題,提出一種基于馬爾科夫鏈的II型糖尿病發(fā)病概率分層預(yù)測方法。本發(fā)明的設(shè)計原理為根據(jù)II型糖尿病風(fēng)險等級判定標(biāo)準(zhǔn),將人群分層處理;再對不同風(fēng)險等級人群采用包裝法進(jìn)行屬性選擇,選擇出與II型糖尿病發(fā)病密切相關(guān)的8維發(fā)病危險屬性;然后利用樸素貝葉斯算法,根據(jù)8維發(fā)病危險屬性計算出個體初始發(fā)病概率;個體初始發(fā)病概率與單步轉(zhuǎn)移矩陣構(gòu)建馬爾可夫鏈,從而建立針對不同風(fēng)險等級人群的II型糖尿病發(fā)病概率預(yù)測系統(tǒng)。本發(fā)明在進(jìn)一步提升II型糖尿病發(fā)病概率預(yù)測準(zhǔn)確率的同時,可以根據(jù)不同個體輸入的數(shù)據(jù)選擇對應(yīng)風(fēng)險等級的預(yù)測模型,預(yù)測N年內(nèi)的發(fā)病概率。本發(fā)明的技術(shù)方案是通過如下步驟實現(xiàn)的:步驟1,發(fā)病風(fēng)險狀態(tài)判定。具體方法如下:為了實現(xiàn)對未患病人群S進(jìn)行發(fā)病概率預(yù)測,本發(fā)明首先對未患II型糖尿病的人群進(jìn)行發(fā)病風(fēng)險狀態(tài)的判定,將人群劃分為無風(fēng)險、低中風(fēng)險、和高風(fēng)險3個風(fēng)險等級。并且無風(fēng)險、低中風(fēng)險和高風(fēng)險作為數(shù)據(jù)的分類的類別變量,在本文中分別使用0,I和2表
/Jn ο步驟2,在步驟I的基礎(chǔ)上,求解初始狀態(tài)向量。具體過程如下:步驟2.1,首先對訓(xùn)練數(shù)據(jù)進(jìn)行屬性選擇,具體方法為:輸入經(jīng)過RSD處理以后的數(shù)據(jù),運用包裝法作為屬性選擇算法,采用樸素貝葉斯算法作為包裝法中的學(xué)習(xí)算法,選擇出N維關(guān)鍵屬性。步驟2.2,在步驟2.1的基礎(chǔ)上,將屬性選擇輸出的N維屬性作為求解初始狀態(tài)向量的輸入,采用樸素貝葉斯算法,求解初始狀態(tài)向量。基于樸素貝葉斯求解初始狀態(tài)向量的具體方法為:首先設(shè)初始狀態(tài)空間為:0,1,2分別代表無風(fēng)險、低中風(fēng)險和高風(fēng)險狀態(tài)。步驟2.2.1,計算先驗概率
權(quán)利要求
1.一種II型糖尿病發(fā)概率分層預(yù)測方法,其特征在于,包括如下步驟: 步驟1,將N個被評估對象作為樣本集S,其中每個對象包含M個影響2型糖尿病發(fā)病的關(guān)鍵屬性;將關(guān)鍵屬性作為列,不同樣本對應(yīng)的屬性值作為行,建立樣本集S的矩陣表示[s(a+c)b];采用包裝法中樸素貝葉斯學(xué)習(xí)算法對樣本集進(jìn)行屬性選擇,選擇出影響II型糖尿病發(fā)病的J維屬性。
步驟2,求解初始狀態(tài)向量。具體過程如下: 步驟2.1,利用風(fēng)險狀態(tài)判定系統(tǒng)對人群進(jìn)行風(fēng)險狀態(tài)判定,判定為無風(fēng)險、低風(fēng)險、中風(fēng)險或高風(fēng)險4個風(fēng)險等級中的一種?;谀P蛷?fù)雜程度的考慮,將低風(fēng)險和中風(fēng)險人群合并,統(tǒng)稱為低中風(fēng)險人群,并且無風(fēng)險、低中風(fēng)險和高風(fēng)險作為數(shù)據(jù)的分類的類別變量,在本文中分別使用類別Ci(0、1、2)表示。
步驟2.2,在步驟2.1的基礎(chǔ)上,將屬性選擇輸出的J維屬性作為求解初始狀態(tài)向量的輸入,基于樸素貝葉斯算法,求解初始狀態(tài)向量。具體方法為: 步驟2.2.1,計算先驗概率
2.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測方法,其特征在于:步驟2.2.4,計算初始狀態(tài)向量P (Ci IX)。
樸素貝葉斯分類算法,把記錄X分到它所作用總的程度最大的類別中去。也就是分到P(CiIX)最大的類別Ci中去。具體計算公式如下所示:
3.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測方法,其特征在于:步驟3,求解一步狀態(tài)轉(zhuǎn)移矩陣。
認(rèn)為馬爾科夫鏈中的一個吸收態(tài)。結(jié)合算法原理和狀態(tài)轉(zhuǎn)移兩部分的介紹,我們可以得到以下結(jié)論,經(jīng)過風(fēng)險狀態(tài)判定以后經(jīng)過統(tǒng)計分析可以得到各個風(fēng)險等級的m步轉(zhuǎn)移矩陣如下式所示:
4.根據(jù)權(quán)利要求1所述的II型糖尿病發(fā)病概率分層預(yù)測方法,其特征在于:在步驟2和3的基礎(chǔ)上,即在已知初始狀態(tài)向量和一步狀態(tài)轉(zhuǎn)移矩陣的情況下構(gòu)建馬爾科夫鏈?zhǔn)?,其?gòu)建的公式如下式所示。Pn = P0XQn 式中,Ptl是初始狀態(tài)向量,Q是一步狀態(tài)轉(zhuǎn)移矩陣,η表示轉(zhuǎn)移的次數(shù)。
全文摘要
本發(fā)明涉及一種II型糖尿病發(fā)病概率分層預(yù)測方法,屬于生物信息處理技術(shù)領(lǐng)域。本發(fā)明首先對Ⅱ型糖尿病人群進(jìn)行風(fēng)險等級判定,然后對不同風(fēng)險等級人群采用包裝法進(jìn)行屬性選擇,選擇出關(guān)鍵發(fā)病危險屬性;然后利用樸素貝葉斯算法,計算出個體初始發(fā)病概率;個體初始發(fā)病概率與單步轉(zhuǎn)移矩陣構(gòu)建馬爾可夫鏈,從而建立針對不同風(fēng)險等級人群的Ⅱ型糖尿病發(fā)病概率預(yù)測系統(tǒng)。與現(xiàn)有技術(shù)相比,本發(fā)明在進(jìn)一步提升II型糖尿病發(fā)病概率預(yù)測準(zhǔn)確率的同時,可以根據(jù)不同個體輸入的數(shù)據(jù)選擇對應(yīng)風(fēng)險等級的預(yù)測模型,預(yù)測多年內(nèi)的發(fā)病概率,處理速度快。能夠達(dá)到對Ⅱ型糖尿病早發(fā)現(xiàn)、早重視、提前干預(yù),降低(或延緩)Ⅱ型糖尿病發(fā)生的目的。
文檔編號G06Q10/04GK103150611SQ20131007385
公開日2013年6月12日 申請日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 趙海秀, 潘麗敏, 郭偉東, 張鐵梅 申請人:北京理工大學(xué)