專利名稱:發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及醫(yī)療信息決策系統(tǒng)技術(shù)領(lǐng)域,特別是涉及一種發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法及系統(tǒng)。
背景技術(shù):
隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,人們已經(jīng)可以從大量的數(shù)據(jù)中提取出有用的數(shù)據(jù)進(jìn)行處理,并得到以前認(rèn)為無關(guān)信息間的密切關(guān)聯(lián)關(guān)系,或者根據(jù)現(xiàn)有經(jīng)驗(yàn)預(yù)測將來有可能發(fā)生的事情。據(jù)醫(yī)學(xué)相關(guān)領(lǐng)域研究成果顯示,許多重大疾病甚至造成嚴(yán)重后果的慢性病在病變前或多或少都會有一些癥狀產(chǎn)生。而對于不嚴(yán)重的病癥如體溫變化、腰部酸痛等,很多人都會忽略,致使醫(yī)生和研究人員無法掌握完整的信息和資料對重大疾病進(jìn)行預(yù)防性研究。
現(xiàn)在的電子病歷基本上能夠做到對有記錄的病人的身體情況做較為詳細(xì)的記錄,以電子病歷為數(shù)據(jù)源,利用數(shù)據(jù)挖掘技術(shù)可以研究重大疾病發(fā)生前的有關(guān)特征,并建立相關(guān)的疾病預(yù)警機(jī)制。比如國家醫(yī)療衛(wèi)生機(jī)構(gòu)可以在某一時期內(nèi)對某種慢性病的病變情況進(jìn)行實(shí)時追蹤,國家可以根據(jù)慢性病實(shí)際分布及病變情況進(jìn)行及時、準(zhǔn)確的決策、預(yù)警。公開號為CN1961321A的中國專利“為醫(yī)療決策提供支持的方法及系統(tǒng)”提出了以例證為根據(jù)的醫(yī)療決策而提供支持的系統(tǒng)和方法,包含現(xiàn)有醫(yī)療/保健數(shù)據(jù)庫中的統(tǒng)計分析,以便向患者或醫(yī)護(hù)人員提供在不同治療方法之間作出抉擇的客觀依據(jù)。公開號為CN101366032A的中國專利“用于醫(yī)療信息系統(tǒng)的基于決策的顯示”給出了一種決策支持系統(tǒng),包括用戶接口,用于顯示多步指南的流程圖,以用于指定提供給服務(wù)接收者的服務(wù)的當(dāng)前階段沿著該指南處于什么位置以及當(dāng)前階段確定要呈現(xiàn)的決策支持?jǐn)?shù)據(jù)。目前,現(xiàn)有技術(shù)存在著如下問題1、現(xiàn)有技術(shù)中所涉及的醫(yī)療信息系統(tǒng)均為電子病歷信息管理,并未涉及到疾病高風(fēng)險因子提取及疾病預(yù)警領(lǐng)域;2、現(xiàn)有技術(shù)中有對重大傳染病建立預(yù)警機(jī)制,但是往往由于病歷數(shù)據(jù)的噪聲及數(shù)據(jù)不完整性導(dǎo)致模型復(fù)雜性高,預(yù)警效果大大降低。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的上述缺陷,提供了一種發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,能夠提取疾病的高風(fēng)險因子,以及進(jìn)行疾病突變預(yù)警,實(shí)現(xiàn)簡單,效果好。本發(fā)明采用如下技術(shù)方案一種發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,所述方法包括如下步驟數(shù)據(jù)預(yù)處理,將病歷檔案數(shù)據(jù)轉(zhuǎn)換為訓(xùn)練數(shù)值矩陣;建立疾病預(yù)警模型;通過驗(yàn)證找到最優(yōu)預(yù)警模型。優(yōu)選地,所述方法還包括
輸入具體患者的病歷檔案數(shù)據(jù),提取患者的疾病高風(fēng)險因子以及進(jìn)行疾病風(fēng)險評估。優(yōu)選地,采用LI正則邏輯斯蒂回歸模型建立疾病預(yù)警模型。優(yōu)選地,采用N折交叉驗(yàn)證方法找到最優(yōu)預(yù)警模型。優(yōu)選地,所述數(shù)據(jù)預(yù)處理,將病歷檔案數(shù)據(jù)轉(zhuǎn)換為訓(xùn)練數(shù)值矩陣的步驟具體為通過分詞和匹配,將文本病歷拆分成一系列關(guān)鍵詞,通過預(yù)先設(shè)定的匹配規(guī)則,將劃分的關(guān)鍵詞分為特征變量和變量取值兩種類型。優(yōu)選地,所述病歷檔案數(shù)據(jù)包括電子病歷、病歷檔案或生化檢查數(shù)據(jù)。優(yōu)選地,所述分詞的方法包括字符串匹配的分詞法、詞義分詞法或統(tǒng)計分詞法。優(yōu)選地,所述字符串匹配的分詞法包括正向最大匹配法、反向最大匹配法、最短路徑分詞法或雙向最大匹配法。優(yōu)選地,LI正則邏輯斯蒂回歸模型為
權(quán)利要求
1.一種發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述方法包括如下步驟 數(shù)據(jù)預(yù)處理,將病歷檔案數(shù)據(jù)轉(zhuǎn)換為訓(xùn)練數(shù)值矩陣; 建立疾病預(yù)警模型; 通過驗(yàn)證找到最優(yōu)預(yù)警模型。
2.根據(jù)權(quán)利要求1所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述方法還包括 輸入具體患者的病歷檔案數(shù)據(jù),提取患者的疾病高風(fēng)險因子以及進(jìn)行疾病風(fēng)險評估。
3.根據(jù)權(quán)利要求1所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,采用LI正則邏輯斯蒂回歸模型建立疾病預(yù)警模型。
4.根據(jù)權(quán)利要求1所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,采用N折交叉驗(yàn)證方法找到最優(yōu)預(yù)警模型。
5.根據(jù)權(quán)利要求1所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述數(shù)據(jù)預(yù)處理,將病歷檔案數(shù)據(jù)轉(zhuǎn)換為訓(xùn)練數(shù)值矩陣的步驟具體為 通過分詞和匹配,將文本病歷拆分成一系列關(guān)鍵詞,通過預(yù)先設(shè)定的匹配規(guī)則,將劃分的關(guān)鍵詞分為特征變量和變量取值兩種類型。
6.根據(jù)權(quán)利要求1所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述病歷檔案數(shù)據(jù)包括電子病歷、病歷檔案或生化檢查數(shù)據(jù)。
7.根據(jù)權(quán)利要求5所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述分詞的方法包括字符串匹配的分詞法、詞義分詞法或統(tǒng)計分詞法。
8.根據(jù)權(quán)利要求7所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述字符串匹配的分詞法包括正向最大匹配法、反向最大匹配法、最短路徑分詞法或雙向最大匹配法。
9.根據(jù)權(quán)利要求3所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,LI正則邏輯斯蒂回歸模型為
10.根據(jù)權(quán)利要求9所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述方法還包括 將分類器權(quán)重初始化為0,采用梯度下降法求解V和b,循環(huán)迭代,直到求得最小目標(biāo)值。
11.根據(jù)權(quán)利要求4所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述采用N折交叉驗(yàn)證方法找到最優(yōu)預(yù)警模型的步驟具體為 將初始數(shù)據(jù)隨機(jī)劃分成N個不相交的子集Dl,D2,…,DN ; 進(jìn)打N次訓(xùn)練和檢驗(yàn); 在第i次迭代時,劃分子集Di用作檢驗(yàn)集,其余的子集用作訓(xùn)練集來訓(xùn)練模型; 綜合計算所有子集上的平均誤差,評定選定調(diào)節(jié)權(quán)重參數(shù)Y的性能; 分別采用不同的調(diào)節(jié)權(quán)重參數(shù)進(jìn)行嘗試,從結(jié)果中選取最優(yōu)的模型參數(shù),得到最優(yōu)化的疾病預(yù)警模型。
12.根據(jù)權(quán)利要求2所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,其特征在于,所述輸入具體患者的病歷檔案數(shù)據(jù),提取患者的疾病高風(fēng)險因子以及進(jìn)行疾病風(fēng)險評估的步驟具體為 輸入具體患者的電子病歷數(shù)據(jù)、病歷檔案數(shù)據(jù)或生化檢查數(shù)據(jù); 將所述輸入的數(shù)據(jù)按照數(shù)據(jù)預(yù)處理流程轉(zhuǎn)換為個體數(shù)值矩陣,所述個體數(shù)值矩陣中每一行對應(yīng)的特征變量與所述通過數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)值矩陣中的特征變量的順序一致; 將所述最優(yōu)預(yù)警模型應(yīng)用于個體數(shù)值矩陣,由每個特征變量對公式(2)中發(fā)病風(fēng)險的貢獻(xiàn)值大小,提取出該患者的疾病高風(fēng)險因子,并通過公式(2)得到每個具體患者的發(fā)病風(fēng)險概率,進(jìn)行疾病風(fēng)險評估
13.一種發(fā)病關(guān)鍵因素提取與疾病預(yù)警系統(tǒng),其特征在于,包括 進(jìn)行數(shù)據(jù)預(yù)處理,將病歷檔案數(shù)據(jù)轉(zhuǎn)換為訓(xùn)練數(shù)值矩陣的數(shù)據(jù)預(yù)處理模塊; 建立疾病預(yù)警模型,通過驗(yàn)證找到最優(yōu)預(yù)警模型,提取患者的疾病高風(fēng)險因子以及進(jìn)行疾病風(fēng)險評估的預(yù)警模型模塊;和 輸入具體患者的病歷檔案數(shù)據(jù)的患者病歷數(shù)據(jù)模塊。
14.根據(jù)權(quán)利要求13所述的發(fā)病關(guān)鍵因素提取與疾病預(yù)警系統(tǒng),其特征在于,所述系統(tǒng)還包括 顯示提取的疾病高風(fēng)險因子和疾病風(fēng)險評估的結(jié)果的顯示模塊。
全文摘要
本發(fā)明涉及醫(yī)療信息決策系統(tǒng)技術(shù)領(lǐng)域,提供了一種發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法,所述方法包括如下步驟數(shù)據(jù)預(yù)處理,將病歷檔案數(shù)據(jù)轉(zhuǎn)換為訓(xùn)練數(shù)值矩陣;建立疾病預(yù)警模型;通過驗(yàn)證找到最優(yōu)預(yù)警模型。本發(fā)明還提供了一種發(fā)病關(guān)鍵因素提取與疾病預(yù)警系統(tǒng)。通過本發(fā)明提供的發(fā)病關(guān)鍵因素提取與疾病預(yù)警方法與系統(tǒng),能夠提取疾病的高風(fēng)險因子,進(jìn)行疾病突變預(yù)警,實(shí)現(xiàn)簡單,效果好。
文檔編號G06F19/00GK103020454SQ20121054633
公開日2013年4月3日 申請日期2012年12月15日 優(yōu)先權(quán)日2012年12月15日
發(fā)明者蔡云鵬, 樊小毛, 李燁, 鄭卓遠(yuǎn), 楊玉潔 申請人:中國科學(xué)院深圳先進(jìn)技術(shù)研究院