絞痛發(fā)作和最終的心力衰竭診斷之間的所有事件。把定義哪些事件序列應(yīng)當(dāng)被認(rèn)為是情節(jié)的規(guī)則表示為情節(jié)規(guī)范。有效的規(guī)范包括三個(gè)元素:(I)里程碑事件、(2)前提條件、和(3)結(jié)果度量。
[0029]每個(gè)情節(jié)規(guī)范200具有至少兩個(gè)里程碑事件210-1和210_N以表示情節(jié)200的起始和結(jié)束。例如,在前面的示例中,心絞痛的發(fā)作是起始里程碑210-1,并且心力衰竭是結(jié)束里程碑210-N。另外,可以包括中間里程碑(諸如里程碑事件210-2和210-3)以對(duì)附加約束進(jìn)行編碼。例如,心律失??梢员话ㄗ鳛橹虚g里程碑210,以便僅考慮在心力衰竭之前遭受不規(guī)律心跳的患者。最后,可以包括時(shí)間間隙以保證時(shí)間約束(例如,在里程碑之間至少有兩年)。
[0030]前提條件是在起始里程碑之前必須滿足的一組約束(如果有的話)。例如,前提條件可以指定僅僅包括在心絞痛發(fā)作之前具有糖尿病的診斷的患者。
[0031]結(jié)果度量指定用于評(píng)估情節(jié)200的最終結(jié)果的方式。繼續(xù)心力衰竭的示例,患者的結(jié)果度量可以是例如最終的心臟瓣膜置換療程的存在。結(jié)果度量定義是情節(jié)規(guī)范中的關(guān)鍵因素,因?yàn)槟J酵诰蛩惴▽ふ仪楣?jié)內(nèi)的具有與好(或差)結(jié)果的強(qiáng)相關(guān)性的事件模式。
[0032]圖3A示出允許用戶指定情節(jié)200的示例性圖形用戶接口 300。通常,示例性圖形用戶接口 300允許用戶交互式地指定他們希望分析的情節(jié)的類型。示例性用戶接口 300包括與規(guī)范的三個(gè)部分中的每一個(gè)相對(duì)應(yīng)的區(qū)域310、320、330,并且可選地提供查詢面板的“添加事件”控制340和“添加間隙”控制345,以允許用戶插入新的元素到規(guī)范中。拖放交互可選地允許用戶對(duì)規(guī)范的元素重新排序或者在前提條件部分、里程碑部分和結(jié)果部分之間移動(dòng)所述元素。
[0033]在一個(gè)示例性實(shí)施例中,一旦用戶已經(jīng)經(jīng)由用戶接口 300完成情節(jié)規(guī)范的定義,則將可視化查詢規(guī)范轉(zhuǎn)化成例如用結(jié)構(gòu)化查詢語言(SQL)表示的正式查詢,該正式查詢從患者數(shù)據(jù)存儲(chǔ)庫(kù)105取回匹配的患者事件情節(jié)。通常,查詢會(huì)返回具有滿足情節(jié)規(guī)范的(按適當(dāng)順序的)事件的所有患者。除了轉(zhuǎn)化成SQL的步驟以外,示例性可視化分析系統(tǒng)100獨(dú)立于下層的數(shù)據(jù)源,從而允許數(shù)據(jù)源之間的輕松遷移。
[0034]圖3B示出示例性查詢結(jié)果350,其包括滿足圖3A中所示的示例性查詢中體現(xiàn)的情節(jié)約束的匹配患者和事件序列。以這種方式,通過查詢返回的數(shù)據(jù)包含其病歷滿足情節(jié)規(guī)范的患者的群體。如圖3B所示,對(duì)于每個(gè)示例性患者(諸如患者360-1至360-3),取回事件(諸如事件370-1至370-3)的列表,所述事件包含所要求的里程碑事件210,其以規(guī)范的第一里程碑210-1開始且以最后里程碑210-N結(jié)束。如圖2所示,總情節(jié)200可以在里程碑事件210處可選地再分為一系列中間情節(jié),諸如中間情節(jié)220-1至220-3。因此,患者的事件列表還可選地包括在情節(jié)里程碑210之間發(fā)生的中間事件。事件的完整序列被稱為總情節(jié)200。任何一對(duì)鄰近里程碑210之間的中間事件的跨度被稱為中間情節(jié)220。
[0035]時(shí)間樽式校掘
[0036]如先前所指出的,模式挖掘模塊400執(zhí)行時(shí)間模式挖掘。圖4是示出包含本發(fā)明的方面的模式挖掘模塊400的示例性實(shí)現(xiàn)的流程圖。通常,示例性模式挖掘模塊400首先對(duì)總情節(jié)200執(zhí)行頻繁模式挖掘(FPM),然后再次對(duì)由可視化查詢模塊110取回的每個(gè)中間情節(jié)220執(zhí)行頻繁模式挖掘。一般來說,對(duì)于完整情節(jié)200存在一輪的模式挖掘,并且對(duì)于具有η個(gè)里程碑事件的情節(jié)存在另外的η-1輪的模式挖掘。在其中定義了四個(gè)里程碑的示例性情節(jié)中,在針對(duì)總情節(jié)的一輪模式挖掘之后存在附加的3輪模式挖掘。如在下文中所討論的,示例性FPM引擎包括在步驟420期間操作的頻繁模式挖掘器、以及在步驟430和440期間操作的統(tǒng)計(jì)模式分析器。
[0037]如圖4所示,示例性模式挖掘模塊400接收輸入數(shù)據(jù)405,該輸入數(shù)據(jù)405包括一組檢測(cè)到的情節(jié)、相應(yīng)的支持度值(示例性挖掘器尋找具有閾值以上的支持度值的模式)和結(jié)果。示例性模式挖掘模塊400然后在步驟410期間執(zhí)行包括折疊(collapse)并發(fā)事件集的預(yù)處理。
[0038]此后,在步驟420期間,模式挖掘模塊400使用頻繁模式挖掘器檢測(cè)頻繁事件模式。示例性頻繁模式挖掘器負(fù)責(zé)檢測(cè)在一組輸入情節(jié)200中頻繁出現(xiàn)的事件子序列。挖掘器基于其中出現(xiàn)了模式的輸入情節(jié)的百分比(其在本文中被稱為模式的支持度)將模式定義為“頻繁”。如以上所指出的,挖掘器尋找具有閾值以上的支持度值的模式。在一個(gè)優(yōu)選實(shí)施例中,支持度值是可配置的。用戶還可以指定最小模式長(zhǎng)度,其可以是任何大于或等于一的整數(shù)值。示例性模式挖掘模塊400所采用的模式發(fā)現(xiàn)基于以位圖表示為基礎(chǔ)的順序模式挖掘器(SPAM)(參見例如 Jay Ayres等人的“Sequential Pattern Mining Using a BitmapRepresentat1n”,Proc.0f the 8th ACM SIGKDD Int,I Conf.0n Knowledge Discoveryand Data Mining,429-35 (2002),通過引用將其結(jié)合在本文中),其使用把搜索空間的深度優(yōu)先遍歷與有效修剪機(jī)制相集成的搜索策略。SPAM算法已經(jīng)被證實(shí)比傳統(tǒng)模式挖掘方法快一個(gè)數(shù)量級(jí),特別是當(dāng)其應(yīng)用于相對(duì)長(zhǎng)的情節(jié)時(shí)。SPAM算法將一組事件序列(即,情節(jié)數(shù)據(jù))和用戶指定的支持度值作為輸入,并產(chǎn)生一組頻繁模式作為輸出。然后應(yīng)用用戶提供的最小長(zhǎng)度閾值,以過濾掉太短的模式。
[0039]通常,統(tǒng)計(jì)模式分析器尋找所挖掘的模式和情節(jié)規(guī)范的結(jié)果度量之間的相關(guān)性。示例性模式挖掘模塊400在步驟430期間采用統(tǒng)計(jì)模式分析器,以便根據(jù)識(shí)別出的頻繁模式集為每個(gè)情節(jié)形成模式袋(BoP, bag-of-pattern)表示矩陣。更正式地,給定一組η個(gè)頻繁模式,BoP表示是η維向量,其中該向量的第i個(gè)元素存儲(chǔ)相應(yīng)的情節(jié)內(nèi)的第i個(gè)模式的頻率。如果存在m個(gè)情節(jié)(對(duì)應(yīng)于m個(gè)不同患者),那么構(gòu)造mXn的情節(jié)模式矩陣X =[Xl,X2,…,xn],其第(j,i)個(gè)元素指示第i個(gè)模式在第j個(gè)情節(jié)中出現(xiàn)的次數(shù)。因此,其第i列Xj匯總第i個(gè)模式在所有m個(gè)情節(jié)中的頻率。還可以構(gòu)造m維情節(jié)結(jié)果向量y,使得y」是第j個(gè)情節(jié)的結(jié)果。在二進(jìn)制的情況下,YiE {+1,_1},其中+1表示正面結(jié)果且-1表示負(fù)面結(jié)果。給定該公式,計(jì)算測(cè)量每個(gè)Xi和y之間的相關(guān)性的統(tǒng)計(jì)數(shù)值以便測(cè)量第i個(gè)模式在預(yù)測(cè)情節(jié)的結(jié)果方面的信息度。例如,可以計(jì)算皮爾遜相關(guān)性、P值(以測(cè)量相關(guān)性的顯著性)、信息增益和優(yōu)勢(shì)比。
[0040]在步驟440期間,統(tǒng)計(jì)模式分析器對(duì)每種模式與結(jié)果的相關(guān)性執(zhí)行統(tǒng)計(jì)分析。最后,模式挖掘模塊400在步驟450期間提供結(jié)果到示例性圖形用戶接口 300。
[0041]奪互式可視化
[0042]如先前所指出的,一旦模式挖掘模塊400已經(jīng)完成,則將結(jié)果傳遞給交互式可視化模塊500。圖5是示出包含本發(fā)明的方面的交互式可視化模塊500的示例性實(shí)現(xiàn)的流程圖。通常,如下面進(jìn)一步討論的,示例性交互式可視化模塊500提供群體概覽、里程碑時(shí)間軸和挖掘模式圖。
[0043]如圖5所示,示例性交互式可視化模塊500處理數(shù)據(jù)輸入505,其包括一組事件序列和挖掘輸出(例如,對(duì)于每個(gè)中間情節(jié)而言,模式和相關(guān)聯(lián)的統(tǒng)計(jì)數(shù)值的列表;對(duì)于完整情節(jié)而言,模式和相關(guān)聯(lián)的統(tǒng)計(jì)數(shù)值的列表)。
[0044]在步驟510期間,交互式可視化模塊500最初聚合每個(gè)里程碑之間的事件序列數(shù)據(jù),包括結(jié)果和定時(shí)。此后,交互式可視化模塊500在步驟520期間產(chǎn)生流程圖布局和色彩編碼,并在步驟530期間呈現(xiàn)流程圖。
[0045]在步驟540期間,示例性交互式可視化模塊500取回針對(duì)所選的邊緣(或者整個(gè)序列,如果沒有選擇任何邊緣的話)的模式統(tǒng)計(jì)數(shù)值。在步驟550期間,產(chǎn)生事件模式散點(diǎn)圖的遞增呈現(xiàn)(以動(dòng)畫示出各個(gè)單獨(dú)的事件的進(jìn)入/退出/改變)。最后,在步驟560期間,交互式可視化模塊500監(jiān)聽邊緣選擇事件。
[0046]如以上所指出的,示例性交互式可視化模塊500提供群體概覽。圖6A至6C分別示出針對(duì)心力衰竭患者的示例性可視化600、630、660。圖6A至6C示出不同的選擇,其中圖6A示出總情節(jié)、并且圖6B和6C示出兩個(gè)中間情節(jié)