1.一種面向診療數(shù)據(jù)的癥狀層次關(guān)聯(lián)及預(yù)測方法,其包括:
步驟 1、根據(jù)病人的診療記錄信息構(gòu)建診療信息空間;
步驟 2、基于診療信息空間,利用層次主題模型獲得癥狀主題層次空間;
步驟 3、根據(jù)所獲得的癥狀主題層次空間,利用最大概率準(zhǔn)則對診療記錄和病人進(jìn)行層次化映射;
步驟 4、綜合考慮病人的多種屬性信息實(shí)現(xiàn)疾病的動(dòng)態(tài)預(yù)測;
步驟 5、根據(jù)疾病預(yù)測結(jié)果進(jìn)行拓展應(yīng)用;
本發(fā)明彌補(bǔ)了現(xiàn)有非結(jié)構(gòu)化診療記錄挖掘方法中集成化、層次化、動(dòng)態(tài)性考慮較少的不足,便于實(shí)現(xiàn)對于疾病、診療記錄及病人的管理、跟蹤及預(yù)測。
2.如權(quán)利要求1所述的方法,其特征在于,所述診療信息空間旨在表示由病人診療地點(diǎn)、年齡、性別、時(shí)間、疾病癥狀描述及診治方案信息組成的病人診療病歷信息;所述步驟2基于診療信息空間及層級(jí)主題模型,構(gòu)建癥狀主題層次空間:通過引入嵌套式中國餐館過程作為層級(jí)結(jié)構(gòu)/樹結(jié)構(gòu)的先驗(yàn),將診療信息空間構(gòu)建成癥狀潛在主題層次樹,層次樹中每個(gè)節(jié)點(diǎn)代表的主題表示為診療記錄中癥狀/治療詞表上的分布,高層級(jí)的節(jié)點(diǎn)代表比較泛的疾病癥狀主題,低層級(jí)的節(jié)點(diǎn)代表比較細(xì)致的疾病癥狀主題;
所述步驟2具體包括:
步驟21、采樣主題在診療記錄詞表上的概率分布;
步驟22、對每個(gè)病人采樣樹結(jié)構(gòu)中從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑;
步驟23、采樣病人的每個(gè)診療記錄在各層上的分布向量;
步驟24、對診療記錄中的每個(gè)癥狀詞代表的位置采樣一個(gè)癥狀詞。
3.如權(quán)利要求2所述的方法,其特征在于,步驟21對深度為L的主題樹結(jié)構(gòu)T中的每一個(gè)主題k ∈ T:采樣k在詞表上的概率分布βk,滿足βk~Dirichlet(η),其中超參數(shù)η控制主題-診療詞分布的平滑性;步驟22對于病人的集合{pat1, pat2 , ..., patN}中的每一個(gè)病人patn(n ∈ {1,2,3, ...,N}),從樹結(jié)構(gòu)采樣一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑cn,滿足cn~nCRP(γ),其中γ為nCRP中控制樹結(jié)構(gòu)的參數(shù);步驟23對patn的診療記錄dn,i( i∈{1,2,3, ..., Kn}),采樣診療記錄dn,i在各層上的分布向量θi,滿足θi | {m, π}~GEM(m, π),GEM(·)為使用木棒分割構(gòu)造方法(Stick-Breaking constructions)時(shí)的GEM分布函數(shù),其中參數(shù)m控制在各主題層上分布的均衡性,π決定服從參數(shù)m的嚴(yán)格性; 步驟24對診療記錄di中的每一個(gè)詞代表的位置
——依據(jù)上一步采樣得到的分布向量θi為該位置采樣一個(gè)層級(jí)zij,滿足zij | θ~Mult(θi),Mult(·)為多項(xiàng)式分布;
——依據(jù)已經(jīng)采樣得到的zjr, cn,為該位置采樣一個(gè)詞wij,滿足wij | {zij, cn, β} ~Mult(βcn[zij]),其中β控制主題-詞的分布;
其中,4個(gè)超參數(shù){η, γ, m, π}的設(shè)定將影響癥狀層次樹型主題結(jié)構(gòu)的形狀以及分布,因此可以通過調(diào)整超參數(shù)獲取預(yù)期的癥狀層次樹結(jié)構(gòu)。
4.如權(quán)利要求1所述的方法,其特征在于,所述步驟3對診療記錄和病人進(jìn)行層次化映射,旨在基于獲得的癥狀潛在主題層次樹,將每個(gè)病人的診療記錄映射到樹結(jié)構(gòu)中的節(jié)點(diǎn)上,形成病人診療記錄的層級(jí)結(jié)構(gòu), 根據(jù)診療記錄的映射結(jié)果進(jìn)一步將病人映射到樹結(jié)構(gòu)中的節(jié)點(diǎn)上,形成癥狀、診療記錄、病人三個(gè)層面的層次化關(guān)聯(lián)組織與管理;
所述步驟3具體包括:
步驟31、根據(jù)診療記錄中癥狀詞對應(yīng)的層級(jí)分布,計(jì)算病人診療記錄出現(xiàn)在不同層級(jí)的概率分布,將診療記錄映射到概率最大的層級(jí)主題節(jié)點(diǎn)上;
步驟32、根據(jù)病人各個(gè)診療記錄的層級(jí),計(jì)算病人在不同層級(jí)的概率分布,將病人映射到概率最大的層級(jí)主題節(jié)點(diǎn)上。
5.如權(quán)利要求4所述的方法,其特征在于,所述步驟31病人的診療記錄出現(xiàn)在不同層級(jí)的概率分布p(zj | dn,i)的計(jì)算如下:
其中,Ndn,i表示診療記錄dn,i中詞的個(gè)數(shù),wik表示dn,i中的第k個(gè)詞,p(zj|wik,cn)表示dn,i中的詞wik出現(xiàn)在路徑cn中層級(jí)zj的概率;
所述步驟32病人出現(xiàn)在不同層級(jí)的概率分布p(zj | patn)的計(jì)算公式如下:
其中,Kn為病人patn的診療記錄個(gè)數(shù)。
6.如權(quán)利要求1所述的方法,其特征在于,步驟4首先定位到病人所映射到的潛在主題層次樹對應(yīng)的節(jié)點(diǎn),將該病人新的記錄與該節(jié)點(diǎn)上其他診療記錄進(jìn)行相似概率分布計(jì)算,以預(yù)測新的診療記錄在病人歷史病歷中出現(xiàn)的概率分布,特征在于綜合考慮病人診療地點(diǎn)、年齡、性別、時(shí)間多個(gè)屬性信息的記錄相似度計(jì)算方法;
所述步驟4具體包括:
步驟41、對于主題層次樹中已經(jīng)存在的待預(yù)測病人,直接將其定位到層次樹中對應(yīng)的節(jié)點(diǎn),對于主題層次樹中不存在的待預(yù)測病人,根據(jù)其新的診療記錄,按照步驟3所述方法,將其映射到相應(yīng)節(jié)點(diǎn);
步驟42、將待預(yù)測病人的診療記錄與所定位節(jié)點(diǎn)上的其他記錄進(jìn)行相似度計(jì)算,相似度計(jì)算過程中,綜合考慮病人的診療地點(diǎn)、年齡、性別、時(shí)間多個(gè)屬性信息及診療記錄中的疾病描述及診療信息,該計(jì)算方式可以有效度量多因素對于疾病的影響,從而實(shí)現(xiàn)更準(zhǔn)確的疾病預(yù)測與診療;
步驟43、基于計(jì)算得到的診療記錄相似度,獲得新的診療記錄在病人歷史病歷中出現(xiàn)的概率分布,實(shí)現(xiàn)對病人疾病的預(yù)測,并基于相似診療記錄中疾病的治療信息對病人進(jìn)行疾病治療方案方面的信息推薦。
7.如權(quán)利要求6所述的方法,其特征在于,步驟42計(jì)算dk和同一節(jié)點(diǎn)其他診療記錄dj的相似度計(jì)算函數(shù)為:
其中, 表示不同診療記錄在同層級(jí)的概率差值的權(quán)重,
表示屬性計(jì)算分段函數(shù),sk表示診療記錄dk中的某個(gè)屬性,λs表示屬性s分段對應(yīng)的閾值,as表示屬性s超出范圍時(shí)對應(yīng)的函數(shù)值;
步驟43預(yù)測診療記錄dj未來在病人patn病歷中出現(xiàn)的概率分值,計(jì)算公式如下:
其中,表示病人patn的診療記錄映射至其路徑的層級(jí)z的個(gè)數(shù),dk表示patn在層級(jí)z的第k個(gè)診療記錄。