背景技術(shù):
隨著醫(yī)療信息化的發(fā)展,醫(yī)院為病人建立診療病歷,詳細(xì)記錄病人的診療信息,以方便對病人診療信息進(jìn)行跟蹤與管理,大量病人多次診療信息形成了疾病診療信息空間,面向診療信息進(jìn)行數(shù)據(jù)挖掘,從中挖掘出疾病、癥狀間的關(guān)聯(lián),獲得診療記錄及病人間的關(guān)聯(lián)關(guān)系,以科學(xué)地實(shí)現(xiàn)對診療記錄、病人的管理、跟蹤及預(yù)測,為病人提供更好的信息服務(wù)是當(dāng)前醫(yī)療數(shù)據(jù)分析領(lǐng)域新興的研究課題,有重要的理論和應(yīng)用價(jià)值。
診療記錄中通常記錄著醫(yī)生為病人歷次進(jìn)行檢查診療的信息,其中既包括病人的就診時(shí)間、地點(diǎn)、年齡、性別這類結(jié)構(gòu)化的屬性信息,也包含著病人對于疾病癥狀的描述、醫(yī)生對于該疾病所提出的治療方案等以關(guān)鍵詞描述的非結(jié)構(gòu)化信息。現(xiàn)有面向診療記錄中的非結(jié)構(gòu)化數(shù)據(jù)的挖掘方法缺少統(tǒng)一、集成的框架。Parikshit Sondhi等人在該方向做出了有意義的嘗試,面向非結(jié)構(gòu)化文本診療數(shù)據(jù),提出了基于圖模型的癥狀聯(lián)想方法,用于發(fā)現(xiàn)疾病間平面結(jié)構(gòu)的關(guān)聯(lián)關(guān)系,然而其無法發(fā)現(xiàn)疾病主題間的層級關(guān)聯(lián),層次化的關(guān)聯(lián)可以更直觀、形象地發(fā)現(xiàn)疾病主題間的關(guān)聯(lián)。另外,診療記錄中的結(jié)構(gòu)化屬性為非結(jié)構(gòu)化的診療文本信息提供了關(guān)于疾病豐富的描述,例如診療時(shí)間、年齡、地點(diǎn)信息可便于跟蹤疾病關(guān)聯(lián)隨時(shí)間、地點(diǎn)的動態(tài)演化,在挖掘過程中充分考慮這些元素可更準(zhǔn)確地發(fā)現(xiàn)疾病間的關(guān)聯(lián),有助于發(fā)現(xiàn)疾病癥狀及其影響因素的關(guān)系,便于對于疾病進(jìn)行跟蹤、管理及預(yù)測。
層次主題模型為發(fā)現(xiàn)層級關(guān)聯(lián)提供了有效的途徑,David M.Blei等利用層次主題模型發(fā)現(xiàn)文獻(xiàn)摘要中隱含的主題層次結(jié)構(gòu),本發(fā)明針對現(xiàn)有非結(jié)構(gòu)化診療記錄挖掘方法中集成化、層次化、動態(tài)性考慮較少的特點(diǎn),基于層次主題模型,提出融合多種要素的癥狀層級關(guān)聯(lián)及預(yù)測方法,綜合考慮多種因素,從而更加直觀、形象、準(zhǔn)確地發(fā)現(xiàn)癥狀間的主題層次關(guān)聯(lián),實(shí)現(xiàn)疾病的高效、準(zhǔn)確預(yù)測,該方法首先基于每個(gè)病人的診療歷史記錄的癥狀詞集合,利用層次主題模型挖掘其中潛在的癥狀層次主題結(jié)構(gòu);基于此層次主題結(jié)構(gòu),利用最大概率映射規(guī)則,將病人的每個(gè)診療記錄映射至對應(yīng)的節(jié)點(diǎn)上,實(shí)現(xiàn)了診療信息的層級組織和病人群體的聚類;最后基于此層次結(jié)構(gòu)進(jìn)行預(yù)測,對于已有病人,根據(jù)該病人所在樹狀層級的路徑以及對應(yīng)診療的節(jié)點(diǎn)信息,預(yù)測病人可能存在的健康危機(jī),對于新病人,將其已有診療記錄映射至對應(yīng)節(jié)點(diǎn),按照最大概率原則確定其所在路徑,從而實(shí)現(xiàn)預(yù)測。
技術(shù)實(shí)現(xiàn)要素:
為解決現(xiàn)有非結(jié)構(gòu)化診療記錄挖掘方法中集成化、層次化、動態(tài)性考慮較少的特點(diǎn),本發(fā)明提出了基于層次主題模型的癥狀關(guān)聯(lián)及預(yù)測方法,面向非結(jié)構(gòu)化的診療數(shù)據(jù),構(gòu)建癥狀主題層次空間,采用最大概率準(zhǔn)則實(shí)現(xiàn)診療記錄及病人的層次化映射,并綜合考慮病人的多種屬性信息實(shí)現(xiàn)疾病的動態(tài)預(yù)測。
本發(fā)明公開了一種癥狀層次關(guān)聯(lián)及預(yù)測方法,其包括:
步驟 1、根據(jù)病人的診療記錄信息構(gòu)建診療信息空間;
步驟 2、基于診療信息空間,利用層次主題模型獲得癥狀主題層次空間;
步驟 3、根據(jù)所獲得的癥狀主題層次空間,利用最大概率準(zhǔn)則對診療記錄和病人進(jìn)行層次化映射;
步驟 4、綜合考慮病人的多種屬性信息實(shí)現(xiàn)疾病的動態(tài)預(yù)測;
步驟 5、根據(jù)疾病預(yù)測結(jié)果進(jìn)行拓展應(yīng)用。
本發(fā)明提出的上述方法,提供了從疾病、診療記錄、病人三個(gè)層面自動挖掘診療信息的集成化統(tǒng)一框架,進(jìn)而增強(qiáng)病人及醫(yī)生對于疾病不同時(shí)期癥狀、影響要素、診治方法及其關(guān)聯(lián)、動態(tài)發(fā)展與演化有深入了解與直觀形象的認(rèn)識,便于實(shí)現(xiàn)對于疾病、診療記錄及病人的管理、跟蹤及預(yù)測,為病人提供疾病的早期預(yù)防、預(yù)測及診治等更好的信息服務(wù)。
附圖說明
圖1 是本發(fā)明的總體框架圖;
圖2 診療信息空間組成示意圖;
圖3 癥狀主題層次生成示意圖;
圖4 診療記錄及病人映射示意圖;
圖5 癥狀預(yù)測過程流程圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
圖1 是本發(fā)明中癥狀層次關(guān)聯(lián)及預(yù)測方法的步驟流程圖,如圖1所示,本發(fā)明提出了一種癥狀層次關(guān)聯(lián)及預(yù)測方法,該方法包括以下步驟:
步驟 S1、根據(jù)病人的診療記錄信息構(gòu)建診療信息空間;
步驟 S2、基于步驟S1的診療信息空間,利用層次主題模型獲得癥狀主題層次空間,獲得癥狀及診療詞在層次主題空間中所屬的層級信息;
步驟 S3、根據(jù)步驟S2所獲得的癥狀主題層次空間,利用最大概率準(zhǔn)則對診療記錄和病人進(jìn)行層次化映射,獲得診療記錄及病人所屬的層級信息;
步驟 S4、利用步驟S3獲得的診療記錄及病人所屬的層級集合信息,綜合考慮病人診療記錄的年齡、診療時(shí)間、地點(diǎn)、性別多種屬性信息計(jì)算待診療病歷在病人歷史病歷中出現(xiàn)的概率,進(jìn)而實(shí)現(xiàn)疾病的動態(tài)預(yù)測;
步驟 S5、疾病預(yù)測結(jié)果進(jìn)行拓展應(yīng)用。由步驟S4獲得的診療記錄間的相似度關(guān)聯(lián)及病人間的相似度關(guān)聯(lián),可以有效實(shí)現(xiàn)病人及記錄的層級管理,便于醫(yī)生和病人對疾病的影響因素進(jìn)行深入分析,獲得疾病演變的認(rèn)識,同時(shí),便于更科學(xué)化的對記錄及病人進(jìn)行跟蹤管理,為病人提供更好的信息服務(wù)。
下面詳細(xì)敘述上述各個(gè)步驟。
步驟 S1、根據(jù)病人的診療記錄信息構(gòu)建診療信息空間;
每個(gè)病人的病歷是其每次診療信息的集合,診療信息由描述疾病、癥狀、治療方案等的詞組成,詞集合組成了診療信息詞表CV,V表示詞表的長度,則每個(gè)診療信息可以表示成一個(gè)向量di=(li; agei; gi; ti; pi1, pi2, ..., pin,, ..., piV, ),li表示診療di地點(diǎn)信息,agei表示di出現(xiàn)時(shí)病人的年齡,gi表示病人的性別,ti表示診療di的時(shí)間,pij表示詞wj在診療di中出現(xiàn)的頻率。每個(gè)病人的病歷記錄patn=(dn,1, dn,2, ..., dn,Kn), Kn表示病人patn的診療個(gè)數(shù)。病人的集合{pat1, pat2 , ..., patN},其中,N表示病人集合中病人的數(shù)目,組成了診療信息空間。圖2所示為由疾病、診療記錄、病人組成的診療信息空間示意圖。
步驟 S2、基于步驟S1的診療信息空間,利用層次主題模型獲得癥狀主題層次空間;
所述步驟S2癥狀主題層次空間如圖3所示,基于層級主題模型,通過引入嵌套式中國餐館過程作為層級結(jié)構(gòu)/樹結(jié)構(gòu)的先驗(yàn),將診療信息空間構(gòu)建成癥狀潛在主題層次樹,層次樹中每個(gè)節(jié)點(diǎn)代表的主題表示為診療記錄中癥狀/治療詞表上的分布,高層級的節(jié)點(diǎn)代表比較泛的疾病癥狀主題,低層級的節(jié)點(diǎn)代表比較細(xì)致的疾病癥狀主題。所述步驟S2具體包括:
步驟S21、采樣主題在診療記錄詞表上的概率分布;
對深度為L的主題樹結(jié)構(gòu)T中的每一個(gè)主題k ∈ T:采樣k在詞表上的概率分布βk,滿足βk~Dirichlet(η),其中超參數(shù)η控制主題-診療詞分布的平滑性;
步驟S22、對每個(gè)病人采樣樹結(jié)構(gòu)中從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑;
對于病人的集合{pat1, pat2 , ..., patN}中的每一個(gè)病人patn(n ∈ {1,2,3, ...,N}),從樹結(jié)構(gòu)采樣一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑cn,滿足cn~nCRP(γ),其中γ為nCRP中控制樹結(jié)構(gòu)的參數(shù);
步驟S23、采樣病人的每個(gè)診療記錄在各層上的分布向量;
對patn的診療記錄dn,i( i∈{1,2,3, ..., Kn}),采樣診療記錄dn,i在各層上的分布向量θi,滿足θi | {m, π}~GEM(m, π),GEM(·)為使用木棒分割構(gòu)造方法(Stick-Breaking constructions)時(shí)的GEM分布函數(shù),其中參數(shù)m控制在各主題層上分布的均衡性,π決定服從參數(shù)m的嚴(yán)格性;
步驟S24、對診療記錄中的每個(gè)癥狀詞代表的位置采樣一個(gè)癥狀詞;
對診療記錄di中的每一個(gè)詞代表的位置
——依據(jù)上一步采樣得到的分布向量θi為該位置采樣一個(gè)層級zij,滿足zij | θ~Mult(θi),Mult(·)為多項(xiàng)式分布;
——依據(jù)已經(jīng)采樣得到的zjr, cn,為該位置采樣一個(gè)詞wij,滿足wij | {zij, cn, β} ~Mult(βcn[zij]),其中β控制主題-詞的分布;
其中,4個(gè)超參數(shù){η, γ, m, π}的設(shè)定將影響癥狀層次樹型主題結(jié)構(gòu)的形狀以及分布,因此可以通過調(diào)整超參數(shù)獲取預(yù)期的癥狀層次樹結(jié)構(gòu)。
步驟 S3、根據(jù)步驟S2所獲得的癥狀主題層次空間,利用最大概率準(zhǔn)則對診療記錄和病人進(jìn)行層次化映射;
圖4所示為步驟S3對診療記錄和病人進(jìn)行層次化映射的示意圖,旨在基于獲得的癥狀潛在主題層次樹,將每個(gè)病人的診療記錄映射到樹結(jié)構(gòu)中的節(jié)點(diǎn)上,形成病人診療記錄的層級結(jié)構(gòu), 根據(jù)診療記錄的映射結(jié)果進(jìn)一步將病人映射到樹結(jié)構(gòu)中的節(jié)點(diǎn)上,形成癥狀、診療記錄、病人三個(gè)層面的層次化關(guān)聯(lián)組織與管理。所述步驟S3具體包括:
步驟S31、根據(jù)診療記錄中癥狀詞對應(yīng)的層級分布,計(jì)算病人診療記錄出現(xiàn)在不同層級的概率分布,將診療記錄映射到概率最大的層級主題節(jié)點(diǎn)上;
病人的診療記錄出現(xiàn)在不同層級的概率分布p(zj | dn,i)的計(jì)算如下:
其中,Ndn,i表示診療記錄dn,i中詞的個(gè)數(shù),wik表示dn,i中的第k個(gè)詞,p(zj|wik,cn)表示dn,i中的詞wik出現(xiàn)在路徑cn中層級zj的概率;
步驟S32、根據(jù)病人各個(gè)診療記錄的層級,計(jì)算病人在不同層級的概率分布,將病人映射到概率最大的層級主題節(jié)點(diǎn)上;
病人出現(xiàn)在不同層級的概率分布p(zj | patn)的計(jì)算公式如下:
。
步驟 S4、綜合考慮病人的多種屬性信息實(shí)現(xiàn)疾病的動態(tài)預(yù)測:
圖5所示為融合多種屬性信息實(shí)現(xiàn)疾病的動態(tài)預(yù)測的流程圖。首先定位到病人所映射到的潛在主題層次樹對應(yīng)的節(jié)點(diǎn),將該病人新的記錄與該節(jié)點(diǎn)上其他診療記錄進(jìn)行相似概率分布計(jì)算,以預(yù)測新的診療記錄在病人歷史病歷中出現(xiàn)的概率分布,特征在于綜合考慮病人診療地點(diǎn)、年齡、性別、時(shí)間多個(gè)屬性信息的記錄相似度計(jì)算方法。所述步驟S4具體包括:
步驟S41、如果待預(yù)測病人已經(jīng)存在于癥狀主題層次樹中,則直接將其定位到層次樹中對應(yīng)的節(jié)點(diǎn);如不存在于主題層次樹中,則根據(jù)其新的診療記錄,根據(jù)步驟S2獲得的癥狀主題層級結(jié)構(gòu),基于步驟S3所示方法,利用最大主題概率映射規(guī)則將其診療記錄分別映射至相應(yīng)的節(jié)點(diǎn);
步驟S42、將待預(yù)測病人的診療記錄與所定位節(jié)點(diǎn)上的其他記錄進(jìn)行相似度計(jì)算,相似度計(jì)算過程中,綜合考慮病人的診療地點(diǎn)、年齡、性別、時(shí)間多個(gè)屬性信息及診療記錄中的疾病描述及診療信息,該計(jì)算方式可以有效度量多因素對于疾病的影響,從而實(shí)現(xiàn)更準(zhǔn)確的疾病預(yù)測與診療;
計(jì)算dk和同一節(jié)點(diǎn)其他診療記錄dj的相似度計(jì)算函數(shù)為:
其中,? 表示不同診療記錄在同層級的概率差值的權(quán)重,
表示屬性計(jì)算分段函數(shù),sk表示診療記錄dk中的某個(gè)屬性,λs表示屬性s分段對應(yīng)的閾值,as表示屬性s超出范圍時(shí)對應(yīng)的函數(shù)值;
步驟S43、基于計(jì)算得到的診療記錄相似度,獲得新的診療記錄在病人歷史病歷中出現(xiàn)的概率分布,實(shí)現(xiàn)對病人疾病的預(yù)測,并基于相似診療記錄中疾病的治療信息對病人進(jìn)行疾病治療方案方面的信息推薦;
根據(jù)映射規(guī)則,得到病人疾病范圍對應(yīng)的主題節(jié)點(diǎn)后,綜合同一節(jié)點(diǎn)對應(yīng)的此病人與其他診療記錄的時(shí)間、地點(diǎn)、性別、年齡屬性以及其他病人診療記錄出現(xiàn)在此節(jié)點(diǎn)的概率分布計(jì)算預(yù)測概率p(dj|patn),預(yù)測診療記錄dj未來在病人patn病歷中出現(xiàn)的概率分值,計(jì)算公式如下:
其中,表示病人patn的診療記錄映射至其路徑的層級z的個(gè)數(shù),dk表示patn在層級z的第k個(gè)診療記錄。
步驟 S5、根據(jù)疾病預(yù)測結(jié)果進(jìn)行拓展應(yīng)用:
對待預(yù)測病人的疾病進(jìn)行預(yù)測后,還可借鑒與其相似疾病其他病人的治療方案對其進(jìn)行早期防治與治療,綜合分析相似診療記錄的結(jié)構(gòu)化屬性及非結(jié)構(gòu)化屬性,可進(jìn)而增強(qiáng)病人及醫(yī)生對于疾病不同時(shí)期癥狀、影響要素、診治方法及其關(guān)聯(lián)、動態(tài)發(fā)展與演化有深入了解與直觀形象的認(rèn)識,便于實(shí)現(xiàn)對于疾病、診療記錄及病人的管理、跟蹤及預(yù)測,為病人提供疾病的早期預(yù)防、預(yù)測及診治等更好的信息服務(wù)。同時(shí),本專利提出的方法生成的疾病、診療記錄、病人三個(gè)層面的層次關(guān)聯(lián)發(fā)現(xiàn)也為醫(yī)院更科學(xué)管理病歷提供了有效的途徑。