欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法及裝置與流程

文檔序號:12666060閱讀:229來源:國知局
一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法及裝置與流程
本發(fā)明涉及醫(yī)療實體識別
技術(shù)領(lǐng)域
,尤其涉及一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法及裝置。
背景技術(shù)
:目前,隨著網(wǎng)絡(luò)和醫(yī)療信息技術(shù)的發(fā)展、中國人口逐漸趨于老年化、互聯(lián)網(wǎng)醫(yī)療逐漸興起,醫(yī)療衛(wèi)生行業(yè)大數(shù)據(jù)也相繼產(chǎn)生。醫(yī)學機器翻譯、智能醫(yī)學問答、智能導診、輔助診療等應用越來越普遍,作用也越來越凸顯出來。在智能醫(yī)學問答、智能導診等應用過程中,醫(yī)療機構(gòu)組織例如醫(yī)院名稱、科室名稱、地址等是頻繁出現(xiàn)的詞匯,因此可以說醫(yī)療機構(gòu)組織類的實體識別是智能醫(yī)學問答、智能導診等的技術(shù)基礎(chǔ)。由于醫(yī)學數(shù)據(jù)是海量的、書寫格式復雜多樣的自然語言形式,計算機自動準確識別這些醫(yī)療機構(gòu)組織難度較大。而如何提高計算機識別醫(yī)療機構(gòu)組織類詞匯的成功率和準確率,成為一個亟待解決的問題。近年來,作為醫(yī)療健康數(shù)據(jù)分析的重要的一步,醫(yī)療實體識別(例如醫(yī)療機構(gòu)組織類的實體識別)可以抽取出相關(guān)文本中存在的醫(yī)療術(shù)語,對后續(xù)研究的性能起到重要的作用。目前常見的實體識別技術(shù)有基于詞表的醫(yī)學實體識別和基于條件隨機場(ConditionalRandomFields,簡稱CRF)的醫(yī)學實體識別,然而基于詞表的醫(yī)學實體識別僅僅依靠術(shù)語庫匹配,缺少上下文語境識別,且術(shù)語庫匹配存在較大局限性。而基于CRF的醫(yī)學實體識別技術(shù),缺少大數(shù)據(jù)語料庫和語言規(guī)則的應用,語料均為人工標注后的語料,而沒有利用半監(jiān)督學習等方法,增加對數(shù)量更龐大的未標注數(shù)據(jù)的使用,使得模型不夠完善,缺少基于語言學與醫(yī)療信息的規(guī)則,僅僅依靠模型,對數(shù)據(jù)的針對性不夠強??梢?,當前的實體識別方案并不能準確進行醫(yī)療機構(gòu)組織類實體識別。技術(shù)實現(xiàn)要素:本發(fā)明的實施例提供一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法及裝置,以解決當前的實體識別方案并不能準確進行醫(yī)療機構(gòu)組織類實體識別的問題。為達到上述目的,本發(fā)明采用如下技術(shù)方案:一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法,包括:獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進行單字切分,確定待處理語句中的每個文字;根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體;根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體;根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體;若第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。具體的,所述根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果,包括:確定待處理語句在進行術(shù)語切分時,是否通過預先設(shè)置的切分規(guī)則進行切分;若待處理語句在進行術(shù)語切分時,通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第二組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;若待處理語句在進行術(shù)語切分時,未通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第一組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;或者,確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中,實體個數(shù)少,且實體包含的字符數(shù)多的一組實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;所述醫(yī)療機構(gòu)組織類實體結(jié)果中的實體類型包括醫(yī)院名稱實體、藥店名稱實體、科室名稱實體、生產(chǎn)企業(yè)名稱實體、其他機構(gòu)名稱實體;在所述第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中相對應的實體的實體類型不一致時,選擇第二組候選實體中的實體的實體類型作為所述相對應的實體的實體類型。具體的,所述原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識庫數(shù)據(jù)、文獻庫數(shù)據(jù)。具體的,根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列,包括:從預先設(shè)置的語料庫中提取待處理語句中的每個文字的CRF統(tǒng)計特征值;所述預先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實體、以及各語句中的實體在各語句中的位置以及實體類別;所述CRF統(tǒng)計特征值包括每個文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;根據(jù)每個字在各語句中的CRF統(tǒng)計特征值,確定一訓練模型;所述訓練模型為:根據(jù)所述訓練模型,計算待處理語句中的每個文字的實體標記yj;將每個文字的實體標記進行組合,形成待處理語句的實體標記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應的文字的實體標記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個數(shù);n表示待處理語句中的文字位置個數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標記概率。具體的,根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體,包括:在實體標記序列中確定各文字對應的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實體。進一步的,該面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法,還包括:在所述待處理語句未在預先設(shè)置的語料庫中被標注,根據(jù)公式:確定待處理語句中各實體的不確定值;其中,IEk為第k個實體的不確定值;kstart為第k個實體的實體標記的開始位置;kend為第k個實體的實體標記的尾部位置;為待處理語句中s位置的文字對應第j個實體標記的概率;將待處理語句中不確定值為1的實體與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫匹配,若匹配成功,則將匹配成功的實體的實體標記進行保存;確定待處理語句的預測置信度和字典匹配標記的實體比例;將預測置信度大于預設(shè)置信度閾值和字典匹配標記的實體比例大于預設(shè)比例閾值的待處理語句加入到所述語料庫中,以進行語料庫更新;其中,所述預測置信度為待處理語句中各文字對應的標記概率的乘積;所述字典匹配標記的實體比例為:其中,C為待處理語句中預測出的實體總數(shù)中出現(xiàn)在預設(shè)字典中的實體數(shù);B為待處理語句中預測出的實體總數(shù)。具體的,根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體,包括:將待處理語句中的標點符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預先設(shè)置的非醫(yī)學術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學術(shù)語表中的術(shù)語刪除,形成預處理后的待處理語句;將預處理后的待處理語句采用逆向最大匹配原則與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫進行匹配,將預處理后的待處理語句中與醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫中的標準術(shù)語名稱或同義詞相匹配的字符串作為初步實體抽出,并將所述標準術(shù)語名稱或同義詞所對應的術(shù)語類型作為所述初步實體的實體類型;在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室特征詞實體,則將所述疾病名稱實體或解剖名稱實體與所述科室特征詞實體作為整體抽出,形成重新篩選后的科室名稱實體;在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室名稱實體,則將所述疾病名稱實體或解剖名稱實體與所述科室名稱實體作為整體抽出,形成重新篩選后的科室名稱實體;在預處理后的待處理語句中的初步實體中,若存在其他機構(gòu)名稱實體,且所述其他機構(gòu)名稱實體的末尾字符串為機構(gòu)特征詞庫中的詞,則將所述其他機構(gòu)名稱實體確定為與機構(gòu)特征詞庫中的詞對應的實體。具體的,根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體,包括:判斷第一組候選實體和第二組候選實體中各候選實體的末尾字符是否為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符;若各候選實體的末尾字符為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符,將所述候選實體舍棄。一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置,包括:待處理語句獲取單元,用于獲取原始數(shù)據(jù)中的待處理語句;單字切分單元,用于將所述待處理語句進行單字切分,確定待處理語句中的每個文字;實體標記序列確定單元,用于根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;第一組候選實體確定單元,用于根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體;第二組候選實體確定單元,用于根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體;候選實體篩選單元,用于根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體;醫(yī)療機構(gòu)組織類實體結(jié)果確定單元,用于在第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同時,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。具體的,所述醫(yī)療機構(gòu)組織類實體結(jié)果確定單元,包括:術(shù)語切分判斷模塊,用于確定待處理語句在進行術(shù)語切分時,是否通過預先設(shè)置的切分規(guī)則進行切分;醫(yī)療機構(gòu)組織類實體結(jié)果確定模塊,用于在待處理語句在進行術(shù)語切分時,通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第二組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;在待處理語句在進行術(shù)語切分時,未通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第一組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;所述醫(yī)療機構(gòu)組織類實體結(jié)果確定模塊,還用于確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中,實體個數(shù)少,且實體包含的字符數(shù)多的一組實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;所述醫(yī)療機構(gòu)組織類實體結(jié)果中的實體類型包括醫(yī)院名稱實體、藥店名稱實體、科室名稱實體、生產(chǎn)企業(yè)名稱實體、其他機構(gòu)名稱實體;實體類型確定模塊,用于在所述第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中相對應的實體的實體類型不一致時,選擇第二組候選實體中的實體的實體類型作為所述相對應的實體的實體類型。具體的,所述待處理語句獲取單元中的原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識庫數(shù)據(jù)、文獻庫數(shù)據(jù)。進一步的,所述實體標記序列確定單元,包括:CRF統(tǒng)計特征值提取模塊,用于從預先設(shè)置的語料庫中提取待處理語句中的每個文字的CRF統(tǒng)計特征值;所述預先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實體、以及各語句中的實體在各語句中的位置以及實體類別;所述CRF統(tǒng)計特征值包括每個文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;訓練模型確定模塊,用于根據(jù)每個字在各語句中的CRF統(tǒng)計特征值,確定一訓練模型;所述訓練模型為:實體標記計算模塊,用于根據(jù)所述訓練模型,計算待處理語句中的每個文字的實體標記yj;實體標記序列確定模塊,用于將每個文字的實體標記進行組合,形成待處理語句的實體標記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應的文字的實體標記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個數(shù);n表示待處理語句中的文字位置個數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標記概率。此外,所述第一組候選實體確定單元,具體用于:在實體標記序列中確定各文字對應的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實體。進一步的,所述的面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置,還包括語料庫更新單元,用于:在所述待處理語句未在預先設(shè)置的語料庫中被標注,根據(jù)公式:確定待處理語句中各實體的不確定值;其中,IEk為第k個實體的不確定值;kstart為第k個實體的實體標記的開始位置;kend為第k個實體的實體標記的尾部位置;為待處理語句中s位置的文字對應第j個實體標記的概率;將待處理語句中不確定值為1的實體與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫匹配,在匹配成功時,將匹配成功的實體的實體標記進行保存;確定待處理語句的預測置信度和字典匹配標記的實體比例;將預測置信度大于預設(shè)置信度閾值和字典匹配標記的實體比例大于預設(shè)比例閾值的待處理語句加入到所述語料庫中,以進行語料庫更新;其中,所述預測置信度為待處理語句中各文字對應的標記概率的乘積;所述字典匹配標記的實體比例為:其中,C為待處理語句中預測出的實體總數(shù)中出現(xiàn)在預設(shè)字典中的實體數(shù);B為待處理語句中預測出的實體總數(shù)。此外,所述第二組候選實體確定單元,包括:預處理模塊,用于將待處理語句中的標點符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預先設(shè)置的非醫(yī)學術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學術(shù)語表中的術(shù)語刪除,形成預處理后的待處理語句;醫(yī)療機構(gòu)組織本體庫匹配模塊,用于將預處理后的待處理語句采用逆向最大匹配原則與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫進行匹配,將預處理后的待處理語句中與醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫中的標準術(shù)語名稱或同義詞相匹配的字符串作為初步實體抽出,并將所述標準術(shù)語名稱或同義詞所對應的術(shù)語類型作為所述初步實體的實體類型;實體重新篩選模塊,用于在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室特征詞實體,則將所述疾病名稱實體或解剖名稱實體與所述科室特征詞實體作為整體抽出,形成重新篩選后的科室名稱實體;在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室名稱實體,則將所述疾病名稱實體或解剖名稱實體與所述科室名稱實體作為整體抽出,形成重新篩選后的科室名稱實體;在預處理后的待處理語句中的初步實體中,若存在其他機構(gòu)名稱實體,且所述其他機構(gòu)名稱實體的末尾字符串為機構(gòu)特征詞庫中的詞,則將所述其他機構(gòu)名稱實體確定為與機構(gòu)特征詞庫中的詞對應的實體。此外,所述候選實體篩選單元,包括:非醫(yī)療機構(gòu)組織術(shù)語字符判斷模塊,用于判斷第一組候選實體和第二組候選實體中各候選實體的末尾字符是否為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符;候選實體舍棄模塊,用于在各候選實體的末尾字符為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符時,將所述候選實體舍棄。本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法及裝置,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進行單字切分,確定待處理語句中的每個文字;根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體;然后,根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體;根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體;若第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。本發(fā)明將條件隨機場CRF統(tǒng)計機器學習方法與術(shù)語切分方法相結(jié)合,能夠自動識別醫(yī)療機構(gòu)組織類實體,克服了當前的實體識別的數(shù)據(jù)源較為單一,實體識別不準確的問題。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法的流程圖一;圖2為本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法的流程圖二的A部分;圖3為本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法的流程圖二的B部分;圖4為本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置的結(jié)構(gòu)示意圖一;圖5為本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置的結(jié)構(gòu)示意圖二。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。如圖1所示,本發(fā)明實施例提供一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法,包括:步驟101、獲取原始數(shù)據(jù)中的待處理語句。步驟102、將所述待處理語句進行單字切分,確定待處理語句中的每個文字。步驟103、根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列。步驟104、根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體。步驟105、根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體。步驟106、根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體。步驟107、若第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進行單字切分,確定待處理語句中的每個文字;根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體;然后,根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體;根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體;若第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。本發(fā)明將條件隨機場CRF統(tǒng)計機器學習方法與術(shù)語切分方法相結(jié)合,能夠自動識別醫(yī)療機構(gòu)組織類實體,克服了當前的實體識別的數(shù)據(jù)源較為單一,實體識別不準確的問題。為了使本領(lǐng)域的技術(shù)人員更好的了解本發(fā)明,下面結(jié)合具體的實例來說明本發(fā)明。如圖2和圖3所示(其中,圖2為一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法的A部分,圖3為一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法的B部分,此處分為A、B部分是由于本發(fā)明實施例的步驟較多,并非表示實際意義上的區(qū)別,A部分與B部分形成整個步驟201至步驟221,其中圖2示出了步驟201至步驟211,圖3示出了步驟212至步驟221。),本發(fā)明實施例提供一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法,包括:步驟201、獲取原始數(shù)據(jù)中的待處理語句。具體的,所述原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識庫數(shù)據(jù)、文獻庫數(shù)據(jù)等,但不僅局限于此。步驟202、將所述待處理語句進行單字切分,確定待處理語句中的每個文字。例如,待處理語句為“建議到北京來我院眼科就診”,則單字切分后,每個文字為:“建”“議”“到”“北”“京”“來”“我”“院”“眼”“科”“就”“診”。步驟203、從預先設(shè)置的語料庫中提取待處理語句中的每個文字的CRF統(tǒng)計特征值。所述預先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實體、以及各語句中的實體在各語句中的位置以及實體類別;所述CRF統(tǒng)計特征值包括每個文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。對于預先設(shè)置的語料庫可以由人為預先標注,例如語句:“于2013年11月份在北京天壇糖尿病醫(yī)院住院治療”“建議到北京來我院眼科就診”則對于醫(yī)療機構(gòu)組織類實體,可以分別標注出:c=北京天壇糖尿病醫(yī)院P=1:121:20t=醫(yī)院名稱;c=眼科P=2:92:10t=科室名稱;其中,c表示醫(yī)療機構(gòu)組織類實體,P表示醫(yī)療機構(gòu)組織類實體所在語料中句子的行號及句子中字符位置,t表示醫(yī)療機構(gòu)組織實體類別(在本發(fā)明中醫(yī)療機構(gòu)組織實體類別包括醫(yī)院名稱實體、藥店名稱實體、科室名稱實體、生產(chǎn)企業(yè)名稱實體、其他機構(gòu)名稱實體)。對于CRF統(tǒng)計特征值,例如語句“建議到北京來我院眼科就診”,其實體標記序列為“OOOOOOOOBEOO”。例如,對于“眼”字,CRF統(tǒng)計特征說明如下表1所示:表1:步驟204、根據(jù)每個字在各語句中的CRF統(tǒng)計特征值,確定一訓練模型。其中,所述訓練模型為:步驟205、根據(jù)所述訓練模型,計算待處理語句中的每個文字的實體標記yj。其中,x表示所述待處理語句;yj表示待處理語句中j位置對應的文字的實體標記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù),訓練得到的模型參數(shù)可使句子的訓練模型p(y|x)的和達到最大;m表示分詞特征的個數(shù);n表示待處理語句中的文字位置個數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標記概率。對于fi(yj,yj-1,x),其表示若yj、yj-1、x均出現(xiàn)在語料中,則fi(yj,yj-1,x)=1,否則為0。步驟206、將每個文字的實體標記進行組合,形成待處理語句的實體標記序列。例如語句“建議到北京來我院眼科就診”,其實體標記序列為“OOOOOOOOBEOO”。步驟207、在實體標記序列中確定各文字對應的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實體。例如,對于“北京積水潭醫(yī)院的骨科在全國排名如何?”,其實體標記序列為“BIIIIIEOBEOOOOOOOO”,因此,可識別出第一組候選實體為“北京積水潭醫(yī)院【醫(yī)院名稱】”和“骨科【科室名稱】”。步驟208、將待處理語句中的標點符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母。步驟209、調(diào)用預先設(shè)置的非醫(yī)學術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學術(shù)語表中的術(shù)語刪除,形成預處理后的待處理語句。步驟210、將預處理后的待處理語句采用逆向最大匹配原則與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫進行匹配,將預處理后的待處理語句中與醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫中的標準術(shù)語名稱或同義詞相匹配的字符串作為初步實體抽出,并將所述標準術(shù)語名稱或同義詞所對應的術(shù)語類型作為所述初步實體的實體類型。值得說明的是,預先設(shè)置的醫(yī)療機構(gòu)組織本體庫中可以包括例如科室詞表、醫(yī)療相關(guān)機構(gòu)表等。其中科室詞表是在國家標準《醫(yī)療機構(gòu)診療科目名錄》為基礎(chǔ)上構(gòu)建而成。其他機構(gòu)詞表是在采集了全國各類事實型數(shù)據(jù)后整理加工而成的。例如,分別如下表2和表3所示:表2:科室詞表:標準術(shù)語名稱同義詞術(shù)語編碼上位詞名稱術(shù)語類型心血管內(nèi)科心內(nèi)科;心血管科KS001.002內(nèi)科科室名稱肝膽外科肝膽科;肝臟外科KS002.001.004普外科科室名稱眼科KS004.001五官科科室名稱表3:醫(yī)療相關(guān)機構(gòu)表:另外,該解剖詞庫、疾病詞庫、機構(gòu)特征詞庫可以分別包括解剖詞表、疾病詞表以及機構(gòu)特征詞表,分別可以如下表4、表5和表6所示。表4:解剖詞表:標準術(shù)語名稱同義詞術(shù)語類型口腔解剖名稱牙體牙髓解剖名稱皮膚解剖名稱咽喉解剖名稱表5:疾病詞表:表6:機構(gòu)特征詞表:是指機構(gòu)名稱中具有標志性字符和詞組成的詞表:標準術(shù)語名稱類型??瓶剖姨卣髟~門診科室特征詞中心科室特征詞科科室特征詞醫(yī)院醫(yī)院特征詞廠生成企業(yè)特征詞藥店藥店特征詞這樣,將預處理后的待處理語句中與醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫中的標準術(shù)語名稱或同義詞相匹配的字符串作為初步實體抽出,并將所述標準術(shù)語名稱或同義詞所對應的術(shù)語類型作為所述初步實體的實體類型,從而得到初步實體。例如:原始數(shù)據(jù)為“北京積水潭醫(yī)院的腎積水??圃谌珖琶绾??”,通過步驟210抽出的實體結(jié)果為“北京積水潭醫(yī)院【醫(yī)院名稱】”,“腎積水”【疾病名稱】,“??啤薄究剖姨卣髟~】。步驟211、在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室特征詞實體,則將所述疾病名稱實體或解剖名稱實體與所述科室特征詞實體作為整體抽出,形成重新篩選后的科室名稱實體。例如,原始數(shù)據(jù)為“腎積水??啤薄;诓襟E210抽取得到的實體結(jié)果為:“腎積水”【疾病名稱】,“??啤薄究剖姨卣髟~】通過此處步驟211重新篩選后得到的實體為:腎積水專科【科室名稱】。步驟212、在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室名稱實體,則將所述疾病名稱實體或解剖名稱實體與所述科室名稱實體作為整體抽出,形成重新篩選后的科室名稱實體。例如,原始數(shù)據(jù)為“血管外科”。基于步驟210抽取得到的結(jié)果為:“血管”【解剖名稱】,“外科”【科室名稱】。通過此處步驟212重新篩選后的實體結(jié)果為:血管外科【科室名稱】。步驟213、在預處理后的待處理語句中的初步實體中,若存在其他機構(gòu)名稱實體,且所述其他機構(gòu)名稱實體的末尾字符串為機構(gòu)特征詞庫中的詞,則將所述其他機構(gòu)名稱實體確定為與機構(gòu)特征詞庫中的詞對應的實體。例如,原始數(shù)據(jù)為“中醫(yī)心血管科”?;诓襟E210抽出的實體的類別為“其他機構(gòu)名稱”,但其最后字符為“科”,在特征詞表中為科室的特征詞,因此,根據(jù)此處的步驟213確定實體類別為“科室名稱”。步驟214、形成第二組候選實體。該步驟210之后,通過步驟211至步驟213的具體的規(guī)則,即可形成最終的第二組候選實體。步驟215、判斷第一組候選實體和第二組候選實體中各候選實體的末尾字符是否為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符。該預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符可以是例如“病、藥、手術(shù)、術(shù)、檢查”等。步驟216、若各候選實體的末尾字符為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符,將所述候選實體舍棄。在步驟216之后,執(zhí)行步驟217或者步驟220。步驟217、在第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同時,確定待處理語句在進行術(shù)語切分時,是否通過預先設(shè)置的切分規(guī)則進行切分。即是否通過上述步驟211、212、213的處理。在步驟217之后,執(zhí)行步驟218或者步驟219。步驟218、若待處理語句在進行術(shù)語切分時,通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第二組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果。例如,原始數(shù)據(jù)為:血管外科。第一組醫(yī)療機構(gòu)組織類候選實體為:外科【科室名稱】。第二組醫(yī)療機構(gòu)組織類候選實體為:血管外科【科室名稱】。第二組醫(yī)療機構(gòu)組織類候選實體是經(jīng)過預先設(shè)置的切分規(guī)則進行切分得到的。則醫(yī)療機構(gòu)組織類實體結(jié)果選擇第二組醫(yī)療機構(gòu)組織類候選實體:血管外科【科室名稱】。步驟219、若待處理語句在進行術(shù)語切分時,未通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第一組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果。例如,原始數(shù)據(jù)為“廣州市海珠區(qū)中醫(yī)院”。第一組醫(yī)療機構(gòu)組織類候選實體為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”;第二組醫(yī)療機構(gòu)組織類候選實體為“海珠區(qū)中醫(yī)院【醫(yī)院名稱】。第二組醫(yī)療機構(gòu)組織類候選實體未經(jīng)過切分規(guī)則進行切分。則,最終結(jié)果為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”。步驟220、在第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同時,確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中,實體個數(shù)少,且實體包含的字符數(shù)多的一組實體作為醫(yī)療機構(gòu)組織類實體結(jié)果。例如,原始數(shù)據(jù)為“廣州市海珠區(qū)中醫(yī)院”。第一組醫(yī)療機構(gòu)組織類候選實體為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”;第二組醫(yī)療機構(gòu)組織類候選實體為“海珠區(qū)中醫(yī)院【醫(yī)院名稱】則,最終結(jié)果為“廣州市海珠區(qū)中醫(yī)院【醫(yī)院名稱】”。在步驟218、219和步驟220之后,執(zhí)行步驟221。步驟221、在所述第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中相對應的實體的實體類型不一致時,選擇第二組候選實體中的實體的實體類型作為所述相對應的實體的實體類型。通過上述步驟201至步驟221,最終可以得到醫(yī)療機構(gòu)組織類實體識別結(jié)果。另外,為了實現(xiàn)對語料庫進行更新,可以由人工總結(jié)發(fā)現(xiàn)新的句型特征,并人工標注加入到語料庫中;另外,還可以在所述待處理語句未在預先設(shè)置的語料庫中被標注,根據(jù)公式:確定待處理語句中各實體的不確定值;其中,IEk為第k個實體的不確定值;kstart為第k個實體的實體標記的開始位置;kend為第k個實體的實體標記的尾部位置;為待處理語句中s位置的文字對應第j個實體標記的概率。例如,“北京積水潭醫(yī)院的骨科在全國排名如何?”,實體標記序列為“BIIIIIEOBEOOOOOOOO”,位置序列為“0123456789101112131415161718”,看出實體為北京積水潭醫(yī)院,位置為“0123456”,因此,Kstart為0,Kend為6。實體骨科,位置為“89”,因此Kstart為8,Kend為9。將待處理語句中不確定值為1的實體與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫匹配,若匹配成功,則將匹配成功的實體的實體標記進行保存。確定待處理語句的預測置信度和字典匹配標記的實體比例。將預測置信度大于預設(shè)置信度閾值和字典匹配標記的實體比例大于預設(shè)比例閾值的待處理語句加入到所述語料庫中,以進行語料庫更新。其中,所述預測置信度為待處理語句中各文字對應的標記概率的乘積。所述字典匹配標記的實體比例為:其中,C為待處理語句中預測出的實體總數(shù)中出現(xiàn)在預設(shè)字典中的實體數(shù);B為待處理語句中預測出的實體總數(shù)??梢?,通過語料庫的更新,可以實現(xiàn)實體識別所需語料數(shù)據(jù)利用半監(jiān)督自學習方法,實現(xiàn)語料庫不斷豐富,解決了語料庫數(shù)目不足、不完整的問題。本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別方法,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進行單字切分,確定待處理語句中的每個文字;根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體;然后,根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體;根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體;若第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。本發(fā)明將條件隨機場CRF統(tǒng)計機器學習方法與術(shù)語切分方法相結(jié)合,能夠自動識別醫(yī)療機構(gòu)組織類實體,克服了當前的實體識別的數(shù)據(jù)源較為單一,實體識別不準確的問題。對應于上述圖1、圖2和圖3所示的方法實施例,如圖4所示,本發(fā)明實施例提供一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置,包括:待處理語句獲取單元31,用于獲取原始數(shù)據(jù)中的待處理語句。單字切分單元32,用于將所述待處理語句進行單字切分,確定待處理語句中的每個文字。實體標記序列確定單元33,用于根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列。第一組候選實體確定單元34,用于根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體。第二組候選實體確定單元35,用于根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體。候選實體篩選單元36,用于根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體。醫(yī)療機構(gòu)組織類實體結(jié)果確定單元37,用于在第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同時,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。具體的,如圖5所示,所述醫(yī)療機構(gòu)組織類實體結(jié)果確定單元37,包括:術(shù)語切分判斷模塊371,用于確定待處理語句在進行術(shù)語切分時,是否通過預先設(shè)置的切分規(guī)則進行切分。醫(yī)療機構(gòu)組織類實體結(jié)果確定模塊372,用于在待處理語句在進行術(shù)語切分時,通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第二組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;在待處理語句在進行術(shù)語切分時,未通過預先設(shè)置的切分規(guī)則進行切分,則選擇所述第一組醫(yī)療機構(gòu)組織類候選實體中的候選實體作為醫(yī)療機構(gòu)組織類實體結(jié)果。所述醫(yī)療機構(gòu)組織類實體結(jié)果確定模塊372,還用于確定來源于相同待處理語句的原始字符串的第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中,實體個數(shù)少,且實體包含的字符數(shù)多的一組實體作為醫(yī)療機構(gòu)組織類實體結(jié)果;所述醫(yī)療機構(gòu)組織類實體結(jié)果中的實體類型包括醫(yī)院名稱實體、藥店名稱實體、科室名稱實體、生產(chǎn)企業(yè)名稱實體、其他機構(gòu)名稱實體;實體類型確定模塊373,用于在所述第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中相對應的實體的實體類型不一致時,選擇第二組候選實體中的實體的實體類型作為所述相對應的實體的實體類型。具體的,所述待處理語句獲取單元31中的原始數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、電子病歷數(shù)據(jù)、網(wǎng)絡(luò)問答數(shù)據(jù)庫數(shù)據(jù)、網(wǎng)絡(luò)知識庫數(shù)據(jù)、文獻庫數(shù)據(jù)。進一步的,如圖5所示,所述實體標記序列確定單元33,包括:CRF統(tǒng)計特征值提取模塊331,用于從預先設(shè)置的語料庫中提取待處理語句中的每個文字的CRF統(tǒng)計特征值;所述預先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實體、以及各語句中的實體在各語句中的位置以及實體類別;所述CRF統(tǒng)計特征值包括每個文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。訓練模型確定模塊332,用于根據(jù)每個字在各語句中的CRF統(tǒng)計特征值,確定一訓練模型;所述訓練模型為:實體標記計算模塊333,用于根據(jù)所述訓練模型,計算待處理語句中的每個文字的實體標記yj。實體標記序列確定模塊334,用于將每個文字的實體標記進行組合,形成待處理語句的實體標記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應的文字的實體標記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個數(shù);n表示待處理語句中的文字位置個數(shù);Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標記概率。此外,所述第一組候選實體確定單元34,具體用于:在實體標記序列中確定各文字對應的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實體。進一步的,如圖5所示,所述的面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置,還包括語料庫更新單元38用于:在所述待處理語句未在預先設(shè)置的語料庫中被標注,根據(jù)公式:確定待處理語句中各實體的不確定值;其中,IEk為第k個實體的不確定值;kstart為第k個實體的實體標記的開始位置;kend為第k個實體的實體標記的尾部位置;為待處理語句中s位置的文字對應第j個實體標記的概率。將待處理語句中不確定值為1的實體與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫匹配,在匹配成功時,將匹配成功的實體的實體標記進行保存。確定待處理語句的預測置信度和字典匹配標記的實體比例。將預測置信度大于預設(shè)置信度閾值和字典匹配標記的實體比例大于預設(shè)比例閾值的待處理語句加入到所述語料庫中,以進行語料庫更新。其中,所述預測置信度為待處理語句中各文字對應的標記概率的乘積。所述字典匹配標記的實體比例為:其中,C為待處理語句中預測出的實體總數(shù)中出現(xiàn)在預設(shè)字典中的實體數(shù);B為待處理語句中預測出的實體總數(shù)。此外,如圖5所示,所述第二組候選實體確定單元35,包括:預處理模塊351,用于將待處理語句中的標點符號轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預先設(shè)置的非醫(yī)學術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學術(shù)語表中的術(shù)語刪除,形成預處理后的待處理語句。醫(yī)療機構(gòu)組織本體庫匹配模塊352,用于將預處理后的待處理語句采用逆向最大匹配原則與預先設(shè)置的醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫進行匹配,將預處理后的待處理語句中與醫(yī)療機構(gòu)組織本體庫、解剖詞庫、疾病詞庫、機構(gòu)特征詞庫中的標準術(shù)語名稱或同義詞相匹配的字符串作為初步實體抽出,并將所述標準術(shù)語名稱或同義詞所對應的術(shù)語類型作為所述初步實體的實體類型。實體重新篩選模塊353,用于在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室特征詞實體,則將所述疾病名稱實體或解剖名稱實體與所述科室特征詞實體作為整體抽出,形成重新篩選后的科室名稱實體;在預處理后的待處理語句中的初步實體中,若存在疾病名稱實體或解剖名稱實體之后相鄰連接有科室名稱實體,則將所述疾病名稱實體或解剖名稱實體與所述科室名稱實體作為整體抽出,形成重新篩選后的科室名稱實體;在預處理后的待處理語句中的初步實體中,若存在其他機構(gòu)名稱實體,且所述其他機構(gòu)名稱實體的末尾字符串為機構(gòu)特征詞庫中的詞,則將所述其他機構(gòu)名稱實體確定為與機構(gòu)特征詞庫中的詞對應的實體。此外,如圖5所示,所述候選實體篩選單元36,包括:非醫(yī)療機構(gòu)組織術(shù)語字符判斷模塊361,用于判斷第一組候選實體和第二組候選實體中各候選實體的末尾字符是否為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符。候選實體舍棄模塊362,用于在各候選實體的末尾字符為預先設(shè)置的非醫(yī)療機構(gòu)組織術(shù)語字符時,將所述候選實體舍棄。值得說明的是,本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置的具體實現(xiàn)方式可以參見上述的方法實施例,此處不再贅述。本發(fā)明實施例提供的一種面向多數(shù)據(jù)源的醫(yī)療機構(gòu)組織類實體識別裝置,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進行單字切分,確定待處理語句中的每個文字;根據(jù)預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;根據(jù)待處理語句的實體標記序列,確定待處理語句的第一組候選實體;然后,根據(jù)預先設(shè)置的醫(yī)療機構(gòu)組織類術(shù)語切分策略,對所述待處理語句進行術(shù)語切分,確定第二組候選實體;根據(jù)第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體;若第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體不相同,根據(jù)預先設(shè)置的判斷策略從第一組醫(yī)療機構(gòu)組織類候選實體和第二組醫(yī)療機構(gòu)組織類候選實體中確定醫(yī)療機構(gòu)組織類實體結(jié)果。本發(fā)明將條件隨機場CRF統(tǒng)計機器學習方法與術(shù)語切分方法相結(jié)合,能夠自動識別醫(yī)療機構(gòu)組織類實體,克服了當前的實體識別的數(shù)據(jù)源較為單一,實體識別不準確的問題。本領(lǐng)域內(nèi)的技術(shù)人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。本發(fā)明中應用了具體實施例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平昌县| 多伦县| 八宿县| 肥城市| 古交市| 遂平县| 东明县| 绥江县| 岳阳县| 乐昌市| 新泰市| 河津市| 怀来县| 叙永县| 上蔡县| 阜城县| 甘泉县| 汤阴县| 德庆县| 焦作市| 建阳市| 娄底市| 湘潭市| 商河县| 林州市| 开原市| 周宁县| 金华市| 交城县| 尼玛县| 丹凤县| 额济纳旗| 通城县| 濉溪县| 中宁县| 开化县| 达日县| 长宁县| 京山县| 滕州市| 多伦县|