基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng)及方法,該系統(tǒng)包括:結(jié)構(gòu)提取模塊、OCR文字識別模塊、存儲模塊、LUCENE檢索模塊、相似性度量模塊、手繪流程圖輸入模塊、顯示模塊等。實施本發(fā)明,一是采用文字識別技術(shù),提取出流程圖中的文字,避免了傳統(tǒng)的人工標(biāo)注圖像的方式,實施方便、快捷、錯誤率低;二是充分利用流程圖的結(jié)構(gòu)信息,將流程圖特有的結(jié)構(gòu)信息作為檢索條件,提高流程圖檢索的準(zhǔn)確性。
【專利說明】基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)領(lǐng)域,具體涉及一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著社會的發(fā)展和計算機(jī)技術(shù)的進(jìn)步,圖形圖像已經(jīng)滲透到社會生活的方方面面,例如,人們因攝影愛好而拍攝的大量風(fēng)景圖、人物圖、動物圖等等;工業(yè)設(shè)計所產(chǎn)生的設(shè)計圖形;藝術(shù)專業(yè)人士繪制的許多圖像;醫(yī)院檢查病情所拍攝的大量CT、胸透、X光片,以及醫(yī)院確定的疾病診斷、治療流程圖等等。
[0003]這些數(shù)量日益龐大的圖像,種類繁多,是人們?nèi)粘I詈凸ぷ髦胁豢苫蛉钡馁Y源。人們可以找出一些風(fēng)景圖來確定旅游計劃,可以借鑒已有的工業(yè)設(shè)計來改進(jìn)出更完善的產(chǎn)品,可以根據(jù)醫(yī)療圖像來判斷自己的病情和治療方法。因此,人們需要從龐大的圖像庫中查找出有用的圖像集,圖像檢索已經(jīng)成為人們關(guān)注的焦點。
[0004]從20世紀(jì)70年代開始,有關(guān)圖像檢索的研究就已開始,當(dāng)時主要是基于文檔的圖像檢索技術(shù),利用文本描述的方式描述圖像特征,如繪畫作品的作者、年代、流派等。到90年代以后,出現(xiàn)了對圖像的內(nèi)容語義,如圖像的顏色、紋理、布局等進(jìn)行分析和檢索的圖像檢索技術(shù),即基于內(nèi)容的圖像檢索。
[0005]在生物醫(yī)療圖像領(lǐng)域,依然可以利用文本來描述圖像,或者根據(jù)圖像的顏色、紋理等內(nèi)容進(jìn)行檢索。對于生物醫(yī)療流程圖而言,它主要是指用流程圖的方式來記錄疾病的變化過程,或治療步驟,由于其圖像的特殊性,可以研究出一些更有針對性的檢索方法,以提高檢索的準(zhǔn)確性。
[0006]生物醫(yī)療流程圖,它以文字流程圖的方法描述了疾病的變化階段和治療步驟,給醫(yī)生確診疾病、制定治療方法提供了有用的參考信息。這樣,結(jié)合醫(yī)生的臨床經(jīng)驗和醫(yī)療流程圖的輔助,大大提高了疾病確診的準(zhǔn)確性,并制定出有效地治療計劃。對于生物醫(yī)療流程圖的檢索,由于它是文字圖片而無法采用基于內(nèi)容的檢索,目前有一種解決方案是:利用疾病的名稱等關(guān)鍵字來描述流程圖,然后用關(guān)鍵字進(jìn)行檢索,從而查找出所需的醫(yī)療流程圖。
[0007]采用關(guān)鍵字描述和檢索醫(yī)療流程圖,是一種基本的檢索方法,其檢索結(jié)果的準(zhǔn)確性依賴于文本描述流程圖的準(zhǔn)確性。目前主要是以人工方式來賦予關(guān)鍵字,由于主觀性和人工失誤,因此這種方法的準(zhǔn)確性有待提高。此外,由于流程圖本身的特殊性,流程圖本身的結(jié)構(gòu)是非常重要的信息,僅依靠關(guān)鍵字來描述醫(yī)療流程圖,就忽略了其結(jié)構(gòu)信息,降低了檢索結(jié)果的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0008]本發(fā)明提供了一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖的檢索系統(tǒng)及方法,利用微軟提出的OCR文字識別技術(shù),識別出醫(yī)療流程圖中的文字,從而準(zhǔn)確地表示流程圖的內(nèi)容,提高了圖像標(biāo)識的準(zhǔn)確性;另一方面,提取出流程圖的結(jié)構(gòu)信息,并將這種結(jié)構(gòu)信息作為檢索時進(jìn)行相似性判斷的重要依據(jù)。通過結(jié)合生物醫(yī)療流程圖的文字內(nèi)容和結(jié)構(gòu)信息,大大提高流程圖系統(tǒng)檢索的準(zhǔn)確性。
[0009]相應(yīng)的,本發(fā)明實施例提供了一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng),包括:
[0010]結(jié)構(gòu)提取模塊,用于負(fù)責(zé)對流程圖進(jìn)行切割,提取出其中的每個節(jié)點;
[0011]OCR文字識別模塊,用于負(fù)責(zé)識別出流程圖中的具體文字;
[0012]存儲模塊,用于將流程圖的信息,包括名稱、出處、類別信息合理地存儲到數(shù)據(jù)庫中;
[0013]LUCENE檢索模塊,用于利用文本檢索方式對數(shù)據(jù)庫中的流程圖進(jìn)行檢索,查找出內(nèi)容相似的流程圖;
[0014]相似性度量模塊,用于計算兩個流程圖之間的結(jié)構(gòu)相似性,并量化這種相似性;
[0015]手繪流程圖輸入模塊,用于提供給用戶的輸入界面,用戶根據(jù)自己的需求,手動繪制一些流程圖作為查詢條件,系統(tǒng)接收用戶輸入,同時也要調(diào)用OCR文字識別模塊、結(jié)構(gòu)提取模塊對查詢條件進(jìn)行解析,然后再進(jìn)行系統(tǒng)檢索;
[0016]顯示模塊,用于將系統(tǒng)檢索的結(jié)果返回給用戶,檢索結(jié)果必須是內(nèi)容相關(guān),然后按照流程圖結(jié)構(gòu)相似性從高到低的順序排列。
[0017]相應(yīng)的,本發(fā)明實施例還提供了一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的方法,包括如下步驟:
[0018]對生物醫(yī)療流程圖集合中的圖像進(jìn)行去噪等預(yù)處理;
[0019]對流程圖切割,提取出節(jié)點,并記錄結(jié)構(gòu)信息;
[0020]OCR識別出每個流程圖中的文字;
[0021]將流程圖的文字和結(jié)構(gòu)信息,以XML格式存儲到數(shù)據(jù)庫中;
[0022]用戶在輸入界面手繪醫(yī)療流程圖,作為系統(tǒng)的查詢條件;
[0023]手繪流程圖的預(yù)處理;
[0024]提取手繪流程圖的節(jié)點結(jié)構(gòu)信息;
[0025]提取手繪流程圖中的文字;
[0026]以手繪流程圖中的文字作為查詢條件,利用LUCENE在數(shù)據(jù)庫中檢索出具有匹配內(nèi)容的流程圖;
[0027]如果檢索到內(nèi)容匹配的流程圖,利用存儲的流程圖結(jié)構(gòu)信息和手繪流程圖的結(jié)構(gòu)信息進(jìn)行對比,計算出相似性度量分?jǐn)?shù);
[0028]按照相似性分?jǐn)?shù)從高到低的順序輸出,顯示給用戶;
[0029]如果檢索不到內(nèi)容匹配的醫(yī)療流程圖,結(jié)束此次檢索。
[0030]本發(fā)明具有如下有益效果,本發(fā)明有兩個關(guān)鍵點,一是采用文字識別技術(shù),提取出流程圖中的文字,避免了傳統(tǒng)的人工標(biāo)注圖像的方式,實施方便、快捷、錯誤率低;二是充分利用流程圖的結(jié)構(gòu)信息,將流程圖特有的結(jié)構(gòu)信息作為檢索條件,提高流程圖檢索的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0031]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0032]圖1是本發(fā)明實施例中的基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng)結(jié)構(gòu)示意圖;
[0033]圖2是本發(fā)明實施例中的基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的方法流程圖。【具體實施方式】
[0034]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護(hù)的范圍。
[0035]本發(fā)明提供了一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng),利用微軟提出的OCR文字識別技術(shù),識別出醫(yī)療流程圖中的文字,從而準(zhǔn)確地表示流程圖的內(nèi)容,提高了圖像標(biāo)識的準(zhǔn)確性;另一方面,提取出流程圖的結(jié)構(gòu)信息,并將這種結(jié)構(gòu)信息作為檢索時進(jìn)行相似性判斷的重要依據(jù)。通過結(jié)合生物醫(yī)療流程圖的文字內(nèi)容和結(jié)構(gòu)信息,大大提高流程圖系統(tǒng)檢索的準(zhǔn)確性。
[0036]圖1示出了本發(fā)明實施例中基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng)結(jié)構(gòu)示意圖,該系統(tǒng)主要包括結(jié)構(gòu)提取模塊、OCR文字識別模塊、存儲模塊、LUCENE檢索模塊、相似性度量模塊、顯示模塊、手繪流程圖輸入模塊等,其中:
[0037]結(jié)構(gòu)提取模塊負(fù)責(zé)對流程圖進(jìn)行切割,提取出其中的每個節(jié)點。流程圖是由多個節(jié)點,例如矩形框、橢圓形框,以及指向性的箭頭或連線組成,因此可以按節(jié)點對流程圖進(jìn)行切割,每個節(jié)點是一個小的單元,同時也記錄節(jié)點之間的相對位置關(guān)系。
[0038]OCR文字識別模塊負(fù)責(zé)識別出流程圖中的具體文字。相比傳統(tǒng)的人工方式進(jìn)行圖像關(guān)鍵字標(biāo)注,利用OCR文字識別技術(shù),可以有效提取出流程圖的內(nèi)容,省時省力且準(zhǔn)確性高。在構(gòu)建本檢索系統(tǒng)時,需要采用OCR文字識別模塊預(yù)先對數(shù)據(jù)集中的每一張流程圖進(jìn)行文字提取。
[0039]存儲模塊是將流程圖的信息,包括名稱、出處、類別,特別是圖中文字及其節(jié)點的結(jié)構(gòu)信息,需要將這些信息合理地存儲到數(shù)據(jù)庫中。例如,對于名稱、出處、類別等基本信息,可以簡單存成數(shù)據(jù)庫表項,而流程圖節(jié)點中的文字及節(jié)點之間的關(guān)系可以存儲成XML結(jié)構(gòu),用XML節(jié)點來存放流程圖節(jié)點的內(nèi)容,用XML節(jié)點的屬性來存儲流程圖節(jié)點的位置關(guān)系O
[0040]LUCENE檢索模塊是利用文本檢索方式對數(shù)據(jù)庫中的流程圖進(jìn)行檢索,查找出內(nèi)容相似的流程圖。內(nèi)容匹配是本系統(tǒng)檢索的第一步,只有內(nèi)容相關(guān)的流程圖才具有可比性。LUCENE是一個開源的全文檢索引擎工具包,檢索效率高,利用LUCENE進(jìn)行文本檢索,查找出內(nèi)容相關(guān)的流程圖,然后再利用相似性度量模塊進(jìn)行相似性計算。
[0041]相似性度量模塊是計算兩個流程圖之間的結(jié)構(gòu)相似性,并量化這種相似性,例如給定一個分?jǐn)?shù)值。LUCENE檢索模塊得到的結(jié)果集是內(nèi)容相關(guān)的流程圖,在此基礎(chǔ)上,計算出查詢條件與LUCENE結(jié)果集中每張流程圖的相似性,并按相似程度從高到低的順序排列。[0042]手繪流程圖輸入模塊是提供給用戶的輸入界面,用戶根據(jù)自己的需求,手動繪制一些流程圖作為查詢條件,系統(tǒng)接收用戶輸入,同時也要調(diào)用OCR文字識別模塊、結(jié)構(gòu)提取模塊對查詢條件進(jìn)行解析,然后再進(jìn)行系統(tǒng)檢索。
[0043]顯示模塊是將系統(tǒng)檢索的結(jié)果返回給用戶,檢索結(jié)果必須是內(nèi)容相關(guān),然后按照流程圖結(jié)構(gòu)相似性從高到低的順序排列。
[0044]圖2示出了本發(fā)明實施例中的基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索方法,該方法具體流程如下:
[0045]第I步,對生物醫(yī)療流程圖集合中的圖像進(jìn)行去噪等預(yù)處理。
[0046]第2步,對流程圖切割,提取出節(jié)點,并記錄結(jié)構(gòu)信息。
[0047]第3步,OCR識別出每個流程圖中的文字。
[0048]第4步,將流程圖的文字和結(jié)構(gòu)信息,以XML格式存儲到數(shù)據(jù)庫中。
[0049]第5步,用戶在輸入界面手繪醫(yī)療流程圖,作為系統(tǒng)的查詢條件。
[0050]第6步,手繪流程圖的預(yù)處理。
[0051]第7步,提取手繪流程圖的節(jié)點結(jié)構(gòu)信息。
[0052]第8步,提取手繪流程圖中的文字。
[0053]第9步,以手繪流程圖中的文字作為查詢條件,利用LUCENE在數(shù)據(jù)庫中檢索出具有匹配內(nèi)容的流程圖。
[0054]第10步,如果檢索到內(nèi)容匹配的流程圖,利用存儲的流程圖結(jié)構(gòu)信息和手繪流程圖的結(jié)構(gòu)信息進(jìn)行對比,計算出相似性度量分?jǐn)?shù)。
[0055]第11步,按照相似性分?jǐn)?shù)從高到低的順序輸出,顯示給用戶。
[0056]第12步,如果檢索不到內(nèi)容匹配的醫(yī)療流程圖,結(jié)束此次檢索。
[0057]本發(fā)明具有如下有益效果,本發(fā)明有兩個關(guān)鍵點,一是采用文字識別技術(shù),提取出流程圖中的文字,避免了傳統(tǒng)的人工標(biāo)注圖像的方式,實施方便、快捷、錯誤率低;二是充分利用流程圖的結(jié)構(gòu)信息,將流程圖特有的結(jié)構(gòu)信息作為檢索條件,提高流程圖檢索的準(zhǔn)確性。
[0058]本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(ROM,Read Only Memory)、隨機(jī)存取存儲器(RAM,RandomAccess Memory)、磁盤或光盤等。
[0059]以上對本發(fā)明實施例所提供的一種基于智能盒的智能家居管理系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的系統(tǒng),其特征在于,包括: 結(jié)構(gòu)提取模塊,用于負(fù)責(zé)對流程圖進(jìn)行切割,提取出其中的每個節(jié)點; OCR文字識別模塊,用于負(fù)責(zé)識別出流程圖中的具體文字; 存儲模塊,用于將流程圖的信息,包括名稱、出處、類別信息合理地存儲到數(shù)據(jù)庫中;LUCENE檢索模塊,用于利用文本檢索方式對數(shù)據(jù)庫中的流程圖進(jìn)行檢索,查找出內(nèi)容相似的流程圖; 相似性度量模塊,用于計算兩個流程圖之間的結(jié)構(gòu)相似性,并量化這種相似性; 手繪流程圖輸入模塊,用于提供給用戶的輸入界面,用戶根據(jù)自己的需求,手動繪制一些流程圖作為查詢條件,系統(tǒng)接收用戶輸入,同時也要調(diào)用OCR文字識別模塊、結(jié)構(gòu)提取模塊對查詢條件進(jìn)行解析,然后再進(jìn)行系統(tǒng)檢索; 顯示模塊,用于將系統(tǒng)檢索的結(jié)果返回給用戶,檢索結(jié)果必須是內(nèi)容相關(guān),然后按照流程圖結(jié)構(gòu)相似性從高到低的順序排列。
2.一種基于內(nèi)容和結(jié)構(gòu)的生物醫(yī)療流程圖檢索的方法,其特征在于,包括如下步驟: 對生物醫(yī)療流程圖集合中的圖像進(jìn)行去噪等預(yù)處理; 對流程圖切割,提取出節(jié)點,并記錄結(jié)構(gòu)信息; OCR識別出每個流程圖中的文字; 將流程圖的文字和結(jié)構(gòu)信息,以XML格式存儲到數(shù)據(jù)庫中; 用戶在輸入界面手繪醫(yī)療流程圖,作為系統(tǒng)的查詢條件; 手繪流程圖的預(yù)處理; 提取手繪流程圖的節(jié)點結(jié)構(gòu)信息; 提取手繪流程圖中的文字; 以手繪流程圖中的文字作為查詢條件,利用LUCENE在數(shù)據(jù)庫中檢索出具有匹配內(nèi)容的流程圖; 如果檢索到內(nèi)容匹配的流程圖,利用存儲的流程圖結(jié)構(gòu)信息和手繪流程圖的結(jié)構(gòu)信息進(jìn)行對比,計算出相似性度量分?jǐn)?shù); 按照相似性分?jǐn)?shù)從高到低的順序輸出,顯示給用戶; 如果檢索不到內(nèi)容匹配的醫(yī)療流程圖,結(jié)束此次檢索。
【文檔編號】G06K9/20GK103440261SQ201310330216
【公開日】2013年12月11日 申請日期:2013年7月31日 優(yōu)先權(quán)日:2013年7月31日
【發(fā)明者】羅笑南, 姜濤, 薛凱軍, 張偉忠 申請人:東莞中山大學(xué)研究院, 中山大學(xué)