本公開涉及醫(yī)療文本的自然語言處理技術(shù)領(lǐng)域,具體而言,涉及一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法以及一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置。
背景技術(shù):
醫(yī)療數(shù)據(jù)主要包含患者的病歷、醫(yī)囑、護(hù)理文書、檢查所見、檢查結(jié)論等,這些數(shù)據(jù)反映了患者的基本信息、臨床診斷、治療過程和結(jié)果;隨著醫(yī)療系統(tǒng)信息化建立和完善,越來越多的醫(yī)療數(shù)據(jù)由人工記錄的方式轉(zhuǎn)為電子化錄入,對(duì)于病歷、醫(yī)囑、護(hù)理文書、檢查報(bào)告等臨床信息主要由醫(yī)療人員通過自然語言的方式書寫而成,信息結(jié)構(gòu)較為復(fù)雜,如何對(duì)大量這些信息進(jìn)行處理、分析和挖掘是醫(yī)療信息化建設(shè)的一個(gè)重要問題。
醫(yī)療文本結(jié)構(gòu)化是一個(gè)文本信息提取和轉(zhuǎn)換(或編碼)的過程,具體來說,是自動(dòng)化地將非結(jié)構(gòu)化的自然語言信息轉(zhuǎn)化為計(jì)算機(jī)能夠“理解”和方便處理的數(shù)據(jù)結(jié)構(gòu);所得結(jié)構(gòu)化數(shù)據(jù)可用于信息檢索、相識(shí)病歷的發(fā)現(xiàn)、患者信息管理、醫(yī)療數(shù)據(jù)的深度分析等。
傳統(tǒng)的醫(yī)療文本結(jié)構(gòu)化處理方法,大都依賴于醫(yī)療從業(yè)人員憑借經(jīng)驗(yàn)對(duì)病理報(bào)告的文本內(nèi)容進(jìn)行人工處理,其過程實(shí)質(zhì)上是依靠醫(yī)療人員的醫(yī)療知識(shí),以人工的方式提取出包含在病理文本數(shù)據(jù)中的標(biāo)本及其各指標(biāo)的值。但是,這種人工處理的方式不僅耗時(shí)耗力,而且正確率難以得到保證。此外,也有一些研究人員嘗試通過傳統(tǒng)自然語言處理等手段進(jìn)行結(jié)構(gòu)化處理。但醫(yī)療文本信息的寫作方式與通常的書寫文本有很大的不同,常常沒有特定的主謂或主謂賓等結(jié)構(gòu),很難通過句法分析方式處理。
需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)要素:
本公開的目的在于提供一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法以及一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置,進(jìn)而至少在一定程度上克服由于相關(guān)技術(shù)的限制和缺陷而導(dǎo)致的一個(gè)或者多個(gè)問題。
根據(jù)本公開的一個(gè)方面,提供一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法,包括:
接收待處理醫(yī)療文本,并對(duì)所述待處理醫(yī)療文本進(jìn)行分詞,得到多個(gè)詞語;
結(jié)合多個(gè)第一醫(yī)療命名實(shí)體從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體;
基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系以及自然語言實(shí)體關(guān)系建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系;
結(jié)合所述第二醫(yī)療命名實(shí)體以及所述第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù)。
在本公開的一種示例性實(shí)施例中,根據(jù)隱式馬爾科夫模型對(duì)所述待處理醫(yī)療文本進(jìn)行分詞。
在本公開的一種示例性實(shí)施例中,從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體包括:
基于所述多個(gè)第一醫(yī)療命名實(shí)體對(duì)所述多個(gè)詞語進(jìn)行精確匹配,以從所述多個(gè)詞語中識(shí)別出第一部分所述第二醫(yī)療命名實(shí)體;以及,
基于預(yù)設(shè)規(guī)則對(duì)所述多個(gè)詞語進(jìn)行模糊匹配,以從所述多個(gè)詞語中識(shí)別出第二部分所述第二醫(yī)療命名實(shí)體。
在本公開的一種示例性實(shí)施例中,建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系包括:
基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間是否可能存在邏輯關(guān)系;
在判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間可能存在邏輯關(guān)系時(shí),結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在。
在本公開的一種示例性實(shí)施例中,結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在包括:
基于人工先驗(yàn)知識(shí)、數(shù)據(jù)統(tǒng)計(jì)以及條件隨機(jī)場CRF算法中的一種或多種確認(rèn)所述邏輯關(guān)系是否確實(shí)存在。
根據(jù)本公開的另一個(gè)方面,提供一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置,包括:
文本接收模塊:用于接收待處理醫(yī)療文本,并對(duì)所述待處理醫(yī)療文本進(jìn)行分詞,得到多個(gè)詞語;
實(shí)體識(shí)別模塊:用于結(jié)合多個(gè)第一醫(yī)療命名實(shí)體從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體;
關(guān)系識(shí)別模塊:用于基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系以及自然語言實(shí)體關(guān)系建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系;
數(shù)據(jù)生成模塊:用于結(jié)合所述第二醫(yī)療命名實(shí)體以及所述第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù)。
在本公開的一種示例性實(shí)施例中,根據(jù)隱式馬爾科夫模型對(duì)所述待處理醫(yī)療文本進(jìn)行分詞。
在本公開的一種示例性實(shí)施例中,從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體包括:
基于所述多個(gè)第一醫(yī)療命名實(shí)體對(duì)所述多個(gè)詞語進(jìn)行精確匹配,以從所述多個(gè)詞語中識(shí)別出第一部分所述第二醫(yī)療命名實(shí)體;以及,
基于預(yù)設(shè)規(guī)則對(duì)所述多個(gè)詞語進(jìn)行模糊匹配,以從所述多個(gè)詞語中識(shí)別出第二部分所述第二醫(yī)療命名實(shí)體。
在本公開的一種示例性實(shí)施例中,建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系包括:
基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間是否可能存在邏輯關(guān)系;
在判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間可能存在邏輯關(guān)系時(shí),結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在。
在本公開的一種示例性實(shí)施例中,結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在包括:
基于人工先驗(yàn)知識(shí)、數(shù)據(jù)統(tǒng)計(jì)以及條件隨機(jī)場CRF算法中的一種或多種確認(rèn)所述邏輯關(guān)系是否確實(shí)存在。
本公開的結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法及裝置,通過結(jié)合醫(yī)療命名實(shí)體以及療命名實(shí)體之間的邏輯關(guān)系可以基于醫(yī)療文本自動(dòng)生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù)。相比于現(xiàn)有技術(shù)而言,實(shí)現(xiàn)對(duì)海量醫(yī)療文本進(jìn)行數(shù)據(jù)結(jié)構(gòu)化,提高了處理速度,同時(shí)提高了準(zhǔn)確率。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實(shí)施例,并與說明書一起用于解釋本公開的原理。顯而易見地,下面描述中的附圖僅僅是本公開的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1示意性示出本公開示例性實(shí)施例中一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法的流程圖。
圖2示意性示出本公開示例性實(shí)施例中實(shí)體識(shí)別的步驟。
圖3示意性示出本公開示例性實(shí)施例中關(guān)系識(shí)別的步驟。
圖4示意性示出本公開示例性實(shí)施例中另一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法的流程圖。
圖5示意性示出本公開示例性實(shí)施例中一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置的框圖。
具體實(shí)施方式
現(xiàn)在將參考附圖更全面地描述示例實(shí)施方式。然而,示例實(shí)施方式能夠以多種形式實(shí)施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實(shí)施方式使得本公開將更加全面和完整,并將示例實(shí)施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個(gè)或更多實(shí)施方式中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對(duì)本公開的實(shí)施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識(shí)到,可以實(shí)踐本公開的技術(shù)方案而省略所述特定細(xì)節(jié)中的一個(gè)或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細(xì)示出或描述公知技術(shù)方案以避免喧賓奪主而使得本公開的各方面變得模糊。
此外,附圖僅為本公開的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對(duì)它們的重復(fù)描述。附圖中所示的一些方框圖是功能實(shí)體,不一定必須與物理或邏輯上獨(dú)立的實(shí)體相對(duì)應(yīng)??梢圆捎密浖问絹韺?shí)現(xiàn)這些功能實(shí)體,或在一個(gè)或多個(gè)硬件模塊或集成電路中實(shí)現(xiàn)這些功能實(shí)體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實(shí)現(xiàn)這些功能實(shí)體。
本示例實(shí)施方式中首先提供了一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法。參考圖1所示,所訴結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法可以包括以下步驟:
步驟S110.接收待處理醫(yī)療文本,并對(duì)所述待處理醫(yī)療文本進(jìn)行分詞,得到多個(gè)詞語;
步驟S120.結(jié)合多個(gè)第一醫(yī)療命名實(shí)體從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體;
步驟S130.基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系以及自然語言實(shí)體關(guān)系建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系;
步驟S140.結(jié)合所述第二醫(yī)療命名實(shí)體以及所述第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù)。
本示例實(shí)施方式中的結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法,通過結(jié)合醫(yī)療命名實(shí)體以及療命名實(shí)體之間的邏輯關(guān)系可以基于醫(yī)療文本自動(dòng)生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù)。相比于現(xiàn)有技術(shù)而言,實(shí)現(xiàn)對(duì)海量醫(yī)療文本進(jìn)行數(shù)據(jù)結(jié)構(gòu)化,提高了處理速度,同時(shí)提高了準(zhǔn)確率。
下面,將對(duì)本示例實(shí)施方式中結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法的各個(gè)步驟進(jìn)行進(jìn)一步的詳細(xì)說明。
在步驟S110中,接收待處理醫(yī)療文本,并對(duì)所述待處理醫(yī)療文本進(jìn)行分詞,得到多個(gè)詞語。
在本技術(shù)領(lǐng)域中,分詞是指將連續(xù)的字序列根據(jù)一定的規(guī)范重新組合成詞序列的過程。舉例而言,本示例實(shí)施方式中可以結(jié)合已知醫(yī)療命名實(shí)體和常規(guī)文本常規(guī)詞頻,根據(jù)隱式馬爾科夫模型(Hidden Markov Model,HMM)進(jìn)行分詞。其中,隱式馬爾科夫模型(Hidden Markov Model,HMM)是一個(gè)統(tǒng)計(jì)模型,可以用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程,然后利用這些參數(shù)來作進(jìn)一步分析。但容易理解的是,在本公開的其他示例性實(shí)施例中,也可以采用其他方式進(jìn)行分詞,本示例性實(shí)施例中對(duì)此不做特殊限定。
本示例實(shí)施方式中,上述已知醫(yī)療命名實(shí)體可以來自一醫(yī)療知識(shí)圖譜。醫(yī)療知識(shí)圖譜是一個(gè)根據(jù)實(shí)際結(jié)構(gòu)化需要維護(hù)的醫(yī)療知識(shí)數(shù)據(jù)庫,本示例實(shí)施方式中,醫(yī)療知識(shí)圖譜可以包括醫(yī)療命名實(shí)體詞表和醫(yī)療命名實(shí)體分類間關(guān)系邏輯表,可以理解為根據(jù)實(shí)際醫(yī)學(xué)知識(shí)抽象出來的知識(shí)集合;醫(yī)療命名實(shí)體詞表由醫(yī)療命名實(shí)體和所對(duì)應(yīng)分類組成,比如醫(yī)療命名實(shí)體可以為發(fā)熱(分類為表現(xiàn)),其作用在于召回文本中醫(yī)療命名實(shí)體;醫(yī)療命名實(shí)體間關(guān)系邏輯表通過醫(yī)療命名實(shí)體間關(guān)系構(gòu)成,其作用在于召回文本中醫(yī)療命名實(shí)體中潛在的邏輯關(guān)系,比如可以為頭部(分類為解剖部位)和發(fā)熱(分類為表現(xiàn))存在邏輯關(guān)系等。本示例實(shí)施方式中,醫(yī)療知識(shí)圖譜可以通過醫(yī)療人員通過醫(yī)療用語詞典結(jié)合挖掘?qū)嶋H文本產(chǎn)生。
在步驟S120中,結(jié)合多個(gè)第一醫(yī)療命名實(shí)體從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體。參考圖2所示,本示例實(shí)施方式中步驟S120例如可以包括下述步驟S122~S124。其中:
在步驟S122中,基于所述多個(gè)第一醫(yī)療命名實(shí)體對(duì)所述多個(gè)詞語進(jìn)行精確匹配,以從所述多個(gè)詞語中識(shí)別出第一部分所述第二醫(yī)療命名實(shí)體。舉例而言,比如分詞得出的結(jié)果可能包括:老人、兒童、68歲、女性、沒有、哮喘、血壓、血糖、咳嗽、肺癌、糖尿病等等,可以直接根據(jù)醫(yī)療知識(shí)圖譜中的詞進(jìn)行精確匹配。
在步驟S124中,基于預(yù)設(shè)規(guī)則對(duì)所述多個(gè)詞語進(jìn)行模糊匹配,以從所述多個(gè)詞語中識(shí)別出第二部分所述第二醫(yī)療命名實(shí)體。舉例而言,比如分詞得出的結(jié)果包括:日期、藥物劑量等,則可以通過模糊匹配方式進(jìn)行匹配。模糊匹配的方式可以包括:通過正則表達(dá)式的方式對(duì)文本中出現(xiàn)的模式進(jìn)行識(shí)別,比如出現(xiàn)了日期為2010年12月11日的分詞結(jié)果,則可以通過(\d+年\d+月\d+日)正則表達(dá)式進(jìn)行識(shí)別,但本公開不以此為限。此外,在本公開的其他示例性實(shí)施例中,也可以根據(jù)情況以其他方式進(jìn)行匹配,本示例性實(shí)施例中對(duì)此不做特殊限定。
在步驟S130中,基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系以及自然語言實(shí)體關(guān)系建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系。參考圖3所示,本示例實(shí)施方式中步驟S130例如可以包括下述步驟S132~S134。其中:
在步驟S132中,基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間是否可能存在邏輯關(guān)系。
上述關(guān)系的建立主要通過醫(yī)學(xué)人員根據(jù)醫(yī)學(xué)知識(shí)建立,比如化療方案對(duì)應(yīng)藥物、化療方案發(fā)生的時(shí)間之間是否可能存在邏輯關(guān)系,但本公開不以此為限。此外,在本公開的其他示例性實(shí)施例中,也可以根據(jù)情況以其他方式判斷所述邏輯關(guān)系是否存在,本示例性實(shí)施例中對(duì)此不做特殊限定。
在步驟S134中,在判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間可能存在邏輯關(guān)系時(shí),結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在。
比如,在一份醫(yī)療文本中,具體的文本內(nèi)容為:2015-12-11復(fù)查PET-CT未見病情進(jìn)展、2016-01-16行CIK細(xì)胞免疫治療1程;其中,實(shí)體2015-12-11、實(shí)體2016-01-16和實(shí)體CIK細(xì)胞免疫治療都存在潛在關(guān)系,但是只有2016-01-16才是真實(shí)修飾詞。但本領(lǐng)域技術(shù)人員容易理解的是,在本公開的其他示例性實(shí)施例中,也可以采用其他方式判斷所述邏輯關(guān)系是否確實(shí)存在,本示例實(shí)施方式中對(duì)此不做特殊限定。
在步驟S140中,結(jié)合所述第二醫(yī)療命名實(shí)體以及所述第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù)。
在步驟S130中,產(chǎn)生的結(jié)果是一個(gè)完全結(jié)構(gòu)化結(jié)果,而實(shí)際需求可能需要的是更為通用的數(shù)據(jù)結(jié)構(gòu),比如可以是:csv格式或者json格式,但是本公開不以此為限,用戶可以根據(jù)需求自行選擇;本公開同時(shí)也根據(jù)實(shí)際不同需要設(shè)計(jì)了不同的數(shù)據(jù)抽取模塊。
本公開的結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法及裝置,通過結(jié)合醫(yī)療命名實(shí)體以及療命名實(shí)體之間的邏輯關(guān)系生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù),實(shí)現(xiàn)對(duì)海量醫(yī)療文本進(jìn)行數(shù)據(jù)結(jié)構(gòu)化,提高了處理速度,同時(shí)提高了準(zhǔn)確率。
在本公開的另一些實(shí)施例中,上述結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在包括:基于人工先驗(yàn)知識(shí)、數(shù)據(jù)統(tǒng)計(jì)以及條件隨機(jī)場CRF算法中的一種或多種確認(rèn)所述邏輯關(guān)系是否確實(shí)存在,但本公開不以此為限。此外,在本公開的其他示例性實(shí)施例中,也可以根據(jù)情況以其他方式確認(rèn)所述邏輯關(guān)系是否確實(shí)存在,本示例性實(shí)施例中對(duì)此不做特殊限定。
在本公開的一些實(shí)施例中,上述條件隨機(jī)場是一個(gè)典型的判別式模型,其聯(lián)合概率可以寫成若干勢(shì)函數(shù)聯(lián)乘的形式。
在本公開的另一些實(shí)施例中,參考圖4所示,公開了另一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成方法,包括步驟S410~S440,其中:
在步驟S410中,接收待處理醫(yī)療文本,并對(duì)所述待處理醫(yī)療文本進(jìn)行分詞,得到多個(gè)詞語。
上述步驟和步驟S110相同,因此不再贅述。
在步驟S420中,通過醫(yī)療知識(shí)圖譜中醫(yī)學(xué)用詞語表,對(duì)醫(yī)療文本中醫(yī)療實(shí)體進(jìn)行召回。
分詞完成后,根據(jù)醫(yī)療命名實(shí)體詞表中分類進(jìn)行對(duì)醫(yī)療命名實(shí)體詞表中出現(xiàn)的詞進(jìn)行召回;對(duì)于無法通過詞表中精確完整定義的實(shí)體,通過模糊匹配的方式進(jìn)行召回。
在步驟S430中,通過醫(yī)療知識(shí)圖譜中醫(yī)學(xué)用詞語表中實(shí)體間規(guī)則策略,對(duì)已召回的實(shí)體之間存在的邏輯關(guān)系進(jìn)行召回。
本步驟包括如下兩個(gè)步驟:首先,通過醫(yī)療知識(shí)圖譜中主體分類間邏輯關(guān)系來確定已召回實(shí)體間可能存在的邏輯關(guān)系;其次,在召回主體間可能存在關(guān)系之后,需要根據(jù)文本語義關(guān)系來判斷上述邏輯關(guān)系是否確實(shí)存在。
在步驟S440中,根據(jù)實(shí)際需要,通過實(shí)體以及實(shí)體間召回的關(guān)系,進(jìn)行特征提取,滿足實(shí)際中檢索、對(duì)比、分析等需求。
下述為本發(fā)明裝置實(shí)施例,可以用于執(zhí)行本發(fā)明方法實(shí)施例。對(duì)于本發(fā)明裝置實(shí)施例中未披露的細(xì)節(jié),請(qǐng)參照本發(fā)明方法實(shí)施例。
本示例實(shí)施方式中還提供了一種結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置,該結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置是一種基于醫(yī)療知識(shí)圖譜化的裝置,實(shí)現(xiàn)對(duì)海量醫(yī)療文本進(jìn)行數(shù)據(jù)結(jié)構(gòu)化。參考圖5所示,所述結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置可以包括:文本接收模塊510、實(shí)體識(shí)別模塊520、關(guān)系識(shí)別模塊530以及數(shù)據(jù)生成模塊540;其中:
文本接收模塊510可以用于接收待處理醫(yī)療文本,并對(duì)所述待處理醫(yī)療文本進(jìn)行分詞,得到多個(gè)詞語;
實(shí)體識(shí)別模塊520可以用于結(jié)合多個(gè)第一醫(yī)療命名實(shí)體從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體;
關(guān)系識(shí)別模塊530可以用于基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系以及自然語言實(shí)體關(guān)系建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系;
數(shù)據(jù)生成模塊540可以用于結(jié)合所述第二醫(yī)療命名實(shí)體以及所述第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系生成結(jié)構(gòu)化醫(yī)療數(shù)據(jù)。
在本公開的另一些實(shí)施例中,根據(jù)隱式馬爾科夫模型對(duì)所述待處理醫(yī)療文本進(jìn)行分詞。
在本公開的另一些實(shí)施例中,從所述多個(gè)詞語中識(shí)別出多個(gè)第二醫(yī)療命名實(shí)體包括:
基于所述多個(gè)第一醫(yī)療命名實(shí)體對(duì)所述多個(gè)詞語進(jìn)行精確匹配,以從所述多個(gè)詞語中識(shí)別出第一部分所述第二醫(yī)療命名實(shí)體;以及,
基于預(yù)設(shè)規(guī)則對(duì)所述多個(gè)詞語進(jìn)行模糊匹配,以從所述多個(gè)詞語中識(shí)別出第二部分所述第二醫(yī)療命名實(shí)體。
在本公開的另一些實(shí)施例中,建立所述多個(gè)第二醫(yī)療命名實(shí)體之間的邏輯關(guān)系包括:
基于所述多個(gè)第一醫(yī)療命名實(shí)體之間的邏輯關(guān)系判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間是否可能存在邏輯關(guān)系;
在判斷多個(gè)所述第二醫(yī)療命名實(shí)體之間可能存在邏輯關(guān)系時(shí),結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在。
在本公開的另一些實(shí)施例中,結(jié)合自然語言實(shí)體關(guān)系確認(rèn)所述邏輯關(guān)系是否確實(shí)存在包括:
基于人工先驗(yàn)知識(shí)、數(shù)據(jù)統(tǒng)計(jì)以及條件隨機(jī)場CRF算法中的一種或多種確認(rèn)所述邏輯關(guān)系是否確實(shí)存在。
由于本公開實(shí)施方式的結(jié)構(gòu)化醫(yī)療數(shù)據(jù)生成裝置的各個(gè)功能模塊與上述方法發(fā)明實(shí)施方式中相同,因此在此不再贅述。
應(yīng)當(dāng)注意,盡管在上文詳細(xì)描述中提及了用于動(dòng)作執(zhí)行的設(shè)備的若干模塊或者單元,但是這種劃分并非強(qiáng)制性的。實(shí)際上,根據(jù)本公開的實(shí)施方式,上文描述的兩個(gè)或更多模塊或者單元的特征和功能可以在一個(gè)模塊或者單元中具體化。反之,上文描述的一個(gè)模塊或者單元的特征和功能可以進(jìn)一步劃分為由多個(gè)模塊或者單元來具體化。
此外,盡管在附圖中以特定順序描述了本公開中方法的各個(gè)步驟,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些步驟,或是必須執(zhí)行全部所示的步驟才能實(shí)現(xiàn)期望的結(jié)果。附加的或備選的,可以省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,以及/或者將一個(gè)步驟分解為多個(gè)步驟執(zhí)行等。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實(shí)施方式可以通過軟件實(shí)現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實(shí)現(xiàn)。因此,根據(jù)本公開實(shí)施方式的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易失性存儲(chǔ)介質(zhì)(可以是CD-ROM,U盤,移動(dòng)硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺(tái)計(jì)算設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、移動(dòng)終端、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本公開實(shí)施方式的方法。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本公開的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本公開的真正范圍和精神由所附的權(quán)利要求指出。