面向智能臨床輔助決策支持系統(tǒng)的知識庫構建方法與系統(tǒng)與流程

文檔序號：12364988閱讀：1065來源：國知局

本發(fā)明涉及知識庫的構建領域，特別涉及一種面向智能臨床輔助決策支持系統(tǒng)的知識庫構建方法與系統(tǒng)。

背景技術：

智能臨床輔助決策支持系統(tǒng)CDSS(Clinical Decision Support System)借助信息技術、智能技術，通過分析電子病例，基于數據庫和知識庫，為醫(yī)生臨床診斷決策提供信息服務，提升醫(yī)療質量,減少醫(yī)療差錯，控制醫(yī)療費用支出。臨床醫(yī)生借助CDSS深入分析病歷資料，能夠獲取更為全面細致的信息和知識，做出恰當診療決策，CDSS的一個關鍵基礎是基于臨床病例和臨床路徑知識建立的知識庫，將醫(yī)生的臨床經驗與臨床指南作為主要決策依據，提升了臨床決策過程的科學性("From spoken narratives to domain knowledge:Mining linguistic data for medical image understanding",Artificial Intelligence in Medicine,vol.62,pp.79-90,/2014)。

知識庫構建的核心是知識的表達方法，構建知識庫所用的知識表示方法大多采用語義網中的本體技術：

發(fā)明專利“一種模糊本體描述方法和模糊本體建模方法”，該發(fā)明公開了一種模糊本體描述方法和模糊本體建模方法，模糊本體描述方法是在原有的網絡本體語言(OWL)描述本體上，不改變原有對精確本體表達的同時能夠添加本體的模糊信息，使信息有可精確表達的部分和需要模糊表達的部分。但是該發(fā)明對于人類社會中普遍存在的不確定性和模糊性信息無法直接定義和描述，通常需要借助描述邏輯等本體構建技術，對于描述病例中的“咳嗽漸漸加重”、“發(fā)熱有段時間了”等經常出現(xiàn)的信息無法靈活擴展。

文獻(A fuzzy-ontology-oriented case-based reasoning framework for semantic diabetes diagnosis)介紹了一種基于CBR框架的模糊本體框架，來模擬專家思維以及一種新型的OWL2模糊本體語言，從而支持模糊語義檢索。

發(fā)明專利“案例知識庫表示及案例相似度獲取方法及系統(tǒng)”公開了一種案例知識庫表示方法，其中介紹了一種N元關系模型，通過引入新類和相關屬性來實現(xiàn)，該方法的缺點是不適用于實例多且特征多的情況，對醫(yī)學領域的知識表示，尤其對病例知識的表示，經常需要使用多元關系，且實例多、實例包含的特征多、特征又包含了模糊知識，很難通過引入新類和相關屬性的方法解決醫(yī)學領域知識表示的問題。

本體技術不能描述有時間順序的多元關系，例如，若描述“發(fā)燒39度，持續(xù)了3天，吃過退燒藥好了，幾天后發(fā)燒40度，不能通過本體技術描述病情在時間上的演變順序等。

發(fā)明專利“一種基于語義網無監(jiān)督的自動問答方法”使用語義網的知識表示方法構建的知識庫，網絡中每個節(jié)點代表實體(人名、地名、機構名、概念等)，而每條邊則代表實體之間的關系，因此大部分知識采用三元組(實體1，關系，實體2)來表示，對應語義網中的一條邊及其連接的兩個實體，這種方式雖然很嚴謹、很詳細，但其知識組織太過冗余、復雜，當利用知識庫計算實體間的語義或推理關系時，計算效率過低。

發(fā)明專利“一種人體醫(yī)學知識構建方法”公開了一種人體醫(yī)學知識構建方法。該方法根據人體的不同部位建立了多個醫(yī)學知識庫，但是對于涉及多人體器官的臨床知識，無法界定存儲在哪個醫(yī)學知識庫。

發(fā)明專利“基于開放式管理的醫(yī)學知識本體建模方法”公開了一種基于開放式管理的醫(yī)學本體建模方法，通過構建醫(yī)學知識本體結構將醫(yī)學概念用層級結構表示，但是該方法仍然基于RDF/OWL來構建，構建本體費時耗力，更新維護難。

綜上所述，醫(yī)學知識中模糊知識的表示及提取、多元關系的表示及提取、時序關系的表示及提取、知識庫存儲結構的靈活性與計算效率的提高是本發(fā)明要解決的問題。

技術實現(xiàn)要素：

針對現(xiàn)有技術的不足，本發(fā)明提出一種面向智能臨床輔助決策支持系統(tǒng)的知識庫構建方法與系統(tǒng)。

本發(fā)明提出一種面向智能臨床輔助決策支持系統(tǒng)的知識庫構建方法，包括：

步驟1，獲取輸入信息，對所述輸入信息進行分詞處理、詞性標注以及語法分析，獲取關系依賴樹，提取所述關系依賴樹中的概念、實體、實體修飾語；

步驟2，并根據所述概念、所述實體、所述實體修飾語，通過關系語義規(guī)則，獲取所述關系依賴樹中各所述實體之間的關系；

步驟3，設置擴展三元組，通過所述擴展三元組將所述關系依賴樹中各所述實體之間的關系進行儲存，以完成構建知識庫。

擴展三元組定義：將如[<L₁>……<L_n>:A,<M₁>…<M_t>:B,<N₁>……<N_s>:C]的表示稱為擴展三元組，其中，L₁……L_n，M₁…M_t，N₁……N_s稱為實體修飾標號，實體修飾標號使用<>標識，A,C為結點，B為所述關系依賴樹中各所述實體之間的關系，L_i為對結點A的實體修飾標號，M_j為對結點B的實體修飾標號，N_k為對結點C的實體修飾標號。

如果對一個擴展三元組中的任何一個結點沒有實體修飾標號，則稱沒有實體修飾標號的擴展三元組為無嵌套擴展三元組；如果對一個擴展三元組中的任意一個結點存在實體修飾標號，則稱存在實體修飾標號的擴展三元組為嵌套擴展三元組。

實體修飾標號用三元組的形式表示，三元組的主語為空或不為空。

初始的所述關系依賴樹主語和謂語部分為空，關系依賴樹采用正則表達式定義。

本發(fā)明還提出一種面向智能臨床輔助決策支持系統(tǒng)的知識庫構建系統(tǒng)，

獲取關系依賴樹模塊，用于獲取輸入信息，對所述輸入信息進行分詞處理、詞性標注以及語法分析，獲取關系依賴樹，提取所述關系依賴樹中的概念、實體、實體修飾語；

獲取實體間關系模塊，用于并根據所述概念、所述實體、所述實體修飾語，通過關系語義規(guī)則，獲取所述關系依賴樹中各所述實體之間的關系；

構建知識庫模塊，用于設置擴展三元組，通過所述擴展三元組將所述關系依賴樹中各所述實體之間的關系進行儲存，以完成構建知識庫。

實體修飾標號用三元組的形式表示，三元組的主語為空或不為空。

初始的所述關系依賴樹主語和謂語部分為空，關系依賴樹采用正則表達式定義。

由以上方案可知，本發(fā)明的優(yōu)勢在于：

(1)知識庫中的知識能夠用于快速查詢、檢索、匹配、推薦等問題，計

算效率大大提高；

(2)可用于臨床實例多且特征多的情況，對于病例表述信息可實現(xiàn)靈活

拓展；

(3)可通過概念實體識別環(huán)節(jié)描述病情在時間上的演變順序；

(4)知識庫更新維護簡單。

附圖說明

圖1為本發(fā)明方法框架圖；

圖2為概念實體識別流程圖；

圖3為病例知識庫模型圖。

具體實施方式

本發(fā)明提供了面向智能臨床輔助決策支持系統(tǒng)的知識庫構建方法與系統(tǒng)，通過定義一系列關系語義規(guī)則來表示、獲取醫(yī)學診療過程中的多元關系，以及定義一種擴展三元組的新型數據結構來存儲模糊知識、多元關系，時序關系，該數據結構能夠使知識庫存儲形式具有擴展性，知識庫中的知識能夠用于快速查詢、檢索、匹配、推薦等問題。

面向醫(yī)學診療知識庫的構建方法步驟，如圖1所示：

步驟A：文法分析，接收知識庫系統(tǒng)的輸入，知識庫系統(tǒng)輸入包含無結構的電子形式的病例、參考文獻、專家經驗，并統(tǒng)稱為輸入知識；利用現(xiàn)有的自然語言技術進行分詞處理、詞性標注以及語法分析，得到關系依賴樹；

步驟A1：本發(fā)明的輸入知識包含電子形式的病例、參考文獻、專家經驗，都是基于無結構/半結構化的數據，使用HMM分析方法進行分詞處理、詞性標注、語法分析；

步驟A2：根據步驟A1得到的語法分析結果，構造關系依賴樹，初始的關系依賴樹主語和謂語部分為空，關系依賴樹采用正則表達式定義，關系依賴樹的形式以病例為例：

{<人>|<疾病>[病癥行為]*}+<病癥詞>[病癥描述]+

步驟B：概念實體識別，根據文法分析得到的關系依賴樹提取實體的概念、實體和實體修飾語，實體修飾語即醫(yī)學診療過程中的模糊知識；

步驟B1：人、疾病、病癥行為、病癥詞、病癥描述根據醫(yī)學診療詞典進行實體識別，提取關鍵詞，所述關鍵詞包括患者信息、醫(yī)學概念(包括疾病、癥狀、檢查、治療)、實體修飾語(模糊知識)、藥物(包括劑量、服用頻次、攝入方式、服用時間)、實體之間的時間信息。

醫(yī)學診療詞典的形式如下：

病癥詞：{病癥詞庫}

病癥行為:{得，出現(xiàn)，持續(xù)，可能，連續(xù)，偶爾，得過，過去得過，偶見，偶有}

病癥描述：{高，重，好了，未見，偶見}

人：{我，你，他，病人，患者}

疾?。簕感冒，肺炎，支氣管炎}

步驟B2：實體修飾語識別，醫(yī)學診療問題中出現(xiàn)的實體修飾語包含六種類型：當前的、不存在的、非患者本人的、有條件的、可能的、待證實的，本發(fā)明使用機器學習的方法提取實體的模糊信息。

步驟C：實體之間的關系抽取，主要由定義關系語義規(guī)則和基于規(guī)則獲取實體間的關系兩部分組成，定義了一系列關系語義規(guī)則，用于表示、獲取實體之間的關系即醫(yī)學診療過程中的多元關系。

步驟C1：定義關系語義規(guī)則：

分類：表示個體的值與類型的關系，用“種類”表示；

包含：表示高層概念的分解，即類型與值的關系，用“包含”表示；

泛化：表示事物的屬概念與種概念之間的關系，用“是”表示；

屬于：表示個體概念與整體概念之間的關系，用“屬于”表示；

蘊含：表示前者事件導致了后者事件的發(fā)生，用“引起”表示；

表示前者事件發(fā)生的條件是后者事件的發(fā)生，用“條件”表示；

解釋：表示事務概念與概念描述之間的關系，用“描述”表示；

表示事務概念與結果之間的因果關系，用“病因”表示；

表示事務概念與屬性之間的從屬關系，用“具有”表示；

定義：表示一個事務的概念與相同概念之間的關系，用“名稱”表示；

邏輯：表示概念之間的與、或、非等邏輯關系，用“與”、“或”、“非”表示；

時間：表示事件與事件之間發(fā)生的先后關系，用“時間”表示；

除此之外，還定義了一系列醫(yī)學領域特有的語義規(guī)則：

治愈：表示治療方案治愈了疾病，用“治愈”表示；

改善：表示治療方案改善了疾病的狀況，用“改善”表示；

惡化：表示治療方案沒有治愈/改善疾病的狀況，用“惡化”表示；

證實：表示檢查證實了某個疾病，用“證實”表示；

不存在：表示疾病和疾病間不存在上述關系，用“不存在”表示；

實體之間的關系包含層級關系、因果關系、時序關系等，本發(fā)明基于上述規(guī)則獲取實體之間的關系，通過識別表達語義關系的短語來抽取實體之間的關系，例如(傳染性單核細胞增多癥，又稱為，傳單)、(傳單，癥狀，發(fā)熱)(發(fā)熱，持續(xù)時間，3天)。

步驟C2：基于步驟C1定義的關系語義規(guī)則抽取14種類型的關系。本發(fā)明采用SVM(Min J,Chen Y,Mei L,et al.A study of machine-learning-based approaches to extract clinical entities and their assertions from discharge summaries[J].Journal of the American Medical Informatics Association,2011,18(5):93-94.)的方法將關系的抽取轉化為特征分類問題，進行抽取。

步驟D：構建知識庫，定義了一種擴展三元組的新型數據結構，可以存儲步驟B、步驟C所提的概念、實體以及實體間的關系。

步驟D1：所述擴展三元組的數據結構指在傳統(tǒng)的知識表示結構三元組的基礎上通過引入標號關系式以增強語義知識表示結構。

擴展三元組定義：

將形如的表示稱為擴展三元組。其中，L₁……L_n，M₁…M_t，N₁……N_S稱為實體修飾標號，實體修飾標號使用<>標識，A,C為結點，B為關系，當n≠0，t≠0，時，L_i為對結點A的實體修飾標號，M_j為對結點B的實體修飾標號，N_k為對結點C的實體修飾標號。這里n代表結點A的實體修飾總個數，t代表關系B的總個數，s代表結點A的實體修飾總個數，其中i≤n,j≤t,k≤s。實體修飾標號可以用三元組的形式表示，三元組的主語可以為空。

如果對一個擴展三元組中的任何一個結點沒有實體修飾標號，則稱這樣的擴展三元組為無嵌套擴展三元組；如果對一個擴展三元組中的任意一個結點存在實體修飾標號，則稱這樣的擴展三元組為嵌套擴展三元組。

步驟D2：標號關系式也是三元組形式，其可以表示醫(yī)學專家知識或病例知識中存在的多元關系，例如分類關系、包含關系、泛化關系等。

本發(fā)明還提出一種面向智能臨床輔助決策支持系統(tǒng)的知識庫構建系統(tǒng)，

獲取實體間關系模塊，用于并根據所述概念、所述實體、所述實體修飾語，通過關系語義規(guī)則，獲取所述關系依賴樹中各所述實體之間的關系；

構建知識庫模塊，用于設置擴展三元組，通過所述擴展三元組將所述所述關系依賴樹中各所述實體之間的關系進行儲存，以完成構建知識庫。

實體修飾標號用三元組的形式表示，三元組的主語為空或不為空。

初始的所述關系依賴樹主語和謂語部分為空，關系依賴樹采用正則表達式定義。

下面結合圖1，進一步描述面向醫(yī)學診療的知識庫系統(tǒng)的構建流程。

步驟1：現(xiàn)有的病例都是基于無結構/半結構化的數據，其中，病例的主要字段包初步診斷、主訴、現(xiàn)病史、體格檢查、科別、日期、患者編號等,將無結構的醫(yī)學病例、醫(yī)學參考文獻、專家經驗作為知識庫構建系統(tǒng)的輸入，記作，為單字；依據醫(yī)學領域詞庫，使用中文分詞工具(HMM分析方法)進行分詞以及詞性標注，分詞以及詞性標注的結果為,/*代表了分詞結果的詞性，例如/n,/v等；在此過程中，當遇到未出現(xiàn)的詞匯時，加入到醫(yī)學領域詞庫。

步驟2：通過語法分析獲取關系依賴樹，關系依賴樹采用正則表達式定義，以病例為例形式如下：

{<人>|<疾病>[病癥行為]*}+<病癥詞>[病癥描述]+

其中<>表示匹配詞，病例或參考文獻中出現(xiàn)的疾病名稱或病癥詞，|表示將兩個匹配條件進行邏輯或運算，*表示之前出現(xiàn)表達式任意次，{}表示匹配的固定對象，病例或參考文獻一定要匹配的對象，[]表示字符集合，可有可無，+表示匹配前面的子表達式一次或多次。

步驟3：概念實體識別，人、疾病、病癥行為、病癥詞、病癥描述采用基于詞典和規(guī)則的方法識別文本中的實體，所述關鍵詞包括患者信息、醫(yī)學概念(包括疾病、癥狀、檢查、治療)、實體修飾語(模糊知識)、藥物(包括劑量、服用頻次、攝入方式、服用時間)、實體間時間信息。醫(yī)學診療詞典的形式如下：

病癥詞：{病癥詞庫}

病癥行為:{得，出現(xiàn)，持續(xù)，可能，連續(xù)，偶爾，得過，過去得過，偶見，偶有}

病癥描述：{高，重，好了，未見，偶見}

人：{我，你，他，病人，患者}

疾?。簕感冒，肺炎，支氣管炎等}

實體間時間信息是病例、醫(yī)療參考文獻以及專家經驗中的重要信息，可以抽取事件發(fā)生的時間建立事件的時序邏輯關系，采用正則表達式提取時間信息，概念實體識別流程見圖2所示。

步驟如下：

步驟3.1：先定義現(xiàn)實文獻中與時間相關的短語其中包含時間、年齡、日期等：

d_time_unit＝[u'天',u'月',u'小時',u'周',u'星期',u'禮拜',u'分',u'分鐘',u'點']

d_nianling_unit＝[u'歲',u'個月大',u'周歲',u'周',u'個月',u'個星期']

d_post_guiji＝[u'左右',u'前后',u'分鐘',u'下',u'個',u'歲']

d_date＝[u'd號',u'星期d',u'周d',u'd月(d(號|日))？',u'月初',u'月中',u'月末']

d_time＝[u'd點(半|d(點|刻)？)？']

d_duration＝[u'd(個|來|來個)？(小時|分鐘|天|日|周|月|星期|年|季度)']

d_age＝[u'd(歲半？|個月大|周歲|周大|天大|月齡)']

d_agetime＝[u'd(歲半？|個月大|周歲|周大|天大|個半月|個月|個星期|月齡|月|號)']

步驟3.2：然后定義第一級的匹配模式串：

p_num＝u'(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+'

p_time_unit＝u'(天|月|小時|周|星期|禮拜|分|分鐘|點)+'

p_nianling_unit＝u'(歲|個月大|周歲|周|個月|個星期)+'

p_pre_guji＝u'(幾|若干|數)+'

p_pre_xiangdui＝u'(前|后|差)+'

步驟3.3：利用一級正則匹配串以及時間相關短語生成以下幾種匹配帶有時序的信息如日期相關、年齡相關的內容：

病歷中帶有時間間隔含義的正則匹配模式串如下：

u'(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(個|來|來個)？(小時|分鐘|天|日|周|月|星期|年|季度)'

例如：

11點白天咳嗽輕點吃藥已有十天不見好轉。若干天后到醫(yī)院拍片說是支氣管炎，幾天前醫(yī)生讓住院治療，打點滴8天后夜里咳嗽好轉，偶爾咳嗽，醫(yī)生講可以出院了并且不要吃藥了，在家注意不要受涼，出院一星期目前還是不定期偶爾咳嗽，發(fā)現(xiàn)口臭。

匹配結果：能夠識別出句子中的時間信息，十天、8天、一星期。

步驟3.4：病歷中真實年齡的正則匹配模式串如下：

u'(寶寶|孩子|小孩|小兒|寶貝|小孩子|兒童|幼兒|幼子|嬰兒|嬰幼兒|女兒|小女|女寶寶|女童|女寶|女孩|男孩|男寶|男童|男寶寶|兒子)\\D{0,3}(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|個半月|個月|個星期|月齡|月|號)'

u'(寶寶|孩子|小孩|小兒|寶貝|小孩子|兒童|幼兒|幼子|嬰兒|嬰幼兒|女兒|小女|女寶寶|女童|女寶|女孩|男孩|男寶|男童|男寶寶|兒子)\\D{0,3}(差|還有)？(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(個|來|來個)？(小時|分鐘|天|日|周|月|星期|年|季度)就？(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|個半月|個月|個星期|月齡|月|號)'

u'(寶寶|孩子|小孩|小兒|寶貝|小孩子|兒童|幼兒|幼子|嬰兒|嬰幼兒|女兒|小女|女寶寶|女童|女寶|女孩|男孩|男寶|男童|男寶寶|兒子)\\D{0,3}(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|月齡)零？(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|個半月|個月|個星期|月齡|月|號)'

u'(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|個半月|個月|個星期|月齡|月|號)\\D{0,3}(寶寶|孩子|小孩|小兒|寶貝|小孩子|兒童|幼兒|幼子|嬰兒|嬰幼兒|女兒|小女|女寶寶|女童|女寶|女孩|男孩|男寶|男童|男寶寶|兒子)'

u'(差|還有)？(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(個|來|來個)？(小時|分鐘|天|日|周|月|星期|年|季度)就？(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|個半月|個月|個星期|月齡|月|號)\\D{0,3}(寶寶|孩子|小孩|小兒|寶貝|小孩子|兒童|幼兒|幼子|嬰兒|嬰幼兒|女兒|小女|女寶寶|女童|女寶|女孩|男孩|男寶|男童|男寶寶|兒子)'

u'(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|月齡)零？(一|二|三|四|五|六|七|八|九|十|百|千|萬|半|\\d)+(歲半？|個月大|周歲|周大|天大|個半月|個月|個星期|月齡|月|號)\\D{0,3}(寶寶|孩子|小孩|小兒|寶貝|小孩子|兒童|幼兒|幼子|嬰兒|嬰幼兒|女兒|小女|女寶寶|女童|女寶|女孩|男孩|男寶|男童|男寶寶|兒子)'

例如：我家寶寶差1個月3歲，我家寶寶4歲1個月，我家寶寶5歲零1月。

匹配結果：能夠識別出句子中的年齡信息，寶寶差1個月3歲、寶寶5歲零1月。

步驟4：實體修飾語識別,本發(fā)明采用的實體修飾語識別的方法使用符合步驟2的正則表達式的匹配的方法,采用基于機器學習的SVM，其中提取了若干特征如：句法特征、醫(yī)療名詞所在的章節(jié)標題、上下文特征等,其中上下文特征由分詞結果中實體前后5個詞,該方法充分考慮語法特征、醫(yī)療文獻章節(jié)標題以及上下文特征等結構化信息，能有效的識別出實體修飾的類型。

步驟5：實體之間的關系抽取。

步驟5.1：關系語義規(guī)則示例如下：

分類：[傳染性單核細胞增多癥,種類,急性感染性疾病]

包含：[呼吸系統(tǒng)癥狀,包含,發(fā)熱]

泛化：[阿奇霉素,是,藥]

屬于：[EBV,屬于,皰疹病毒屬]

蘊含：[換氣功能障礙,引起,低氧血癥]

[神經系統(tǒng)疾病,條件,重癥患者]

解釋：[發(fā)熱,描述,體溫38到40不等,無固定熱型,熱程大概1至2周,少數可達數月,中毒癥狀多不嚴重]

[傳單,病因,EB病毒]

[傳單,具有,特征]

定義：[傳染性單核細胞增多癥,名稱,傳單]