提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法
【專利摘要】本發(fā)明公開了一種提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法,用于解決現(xiàn)有醫(yī)療化驗單圖像識別方法識別率低的技術(shù)問題。技術(shù)方案是首先對手機(jī)掃描的醫(yī)療化驗單圖像利用Canny算法進(jìn)行邊緣檢測,然后對二值化處理后的醫(yī)療化驗單圖片按照不同的字符模式進(jìn)行均等分割。再對分割后的圖片進(jìn)行逐個對比識別,最后對識別的字符串結(jié)果進(jìn)行遍歷,完成識別。由于利用Canny算子進(jìn)行邊緣檢測和濾波,實現(xiàn)局部的閾值分割,得到較好的預(yù)處理效果;利用分割圖片結(jié)合不同語言模式識別,得到初步識別結(jié)果;遍歷識別出的字符串根據(jù)上下文出現(xiàn)的概率大小,進(jìn)行進(jìn)一步檢驗更正。提高了醫(yī)療化驗單圖像的識別率。
【專利說明】
提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種醫(yī)療化驗單圖像識別方法,特別涉及一種提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法。
【背景技術(shù)】
[0002]文獻(xiàn)“申請公布號是CN104966109A的中國發(fā)明專利”公開了一種醫(yī)療化驗單圖像分類方法及裝置。所述醫(yī)療化驗單圖像分類方法包括:計算給定醫(yī)療化驗單圖像的圖像特征;以及基于所計算的圖像特征利用訓(xùn)練好的分類模型確定所述給定醫(yī)療化驗單圖像所對應(yīng)的醫(yī)療化驗單的類型和格式。本發(fā)明提供的醫(yī)療化驗單圖像分類方法及裝置通過圖像特性自動判斷醫(yī)療化驗單的類型和格式,免去人工鑒別醫(yī)療化驗單的類型和格式的過程,提高了醫(yī)療化驗單識別的效率。
【發(fā)明內(nèi)容】
[0003]為了克服現(xiàn)有醫(yī)療化驗單圖像識別方法識別率低的不足,本發(fā)明提供一種提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法。該方法首先對手機(jī)掃描的醫(yī)療化驗單圖像利用Canny算法進(jìn)行邊緣檢測,然后利用字符本身的形態(tài)學(xué)特征與背景噪音的本質(zhì)差別進(jìn)行特征濾波以及局部的閾值分割。對二值化處理后的醫(yī)療化驗單圖片按照不同的字符模式進(jìn)行均等分割。結(jié)合OCR識別引擎,建立醫(yī)療化驗單詞匯數(shù)據(jù)庫,對分割后的圖片進(jìn)行逐個對比識別。對識別的字符串結(jié)果進(jìn)行遍歷,如果結(jié)果字符串中包含與高頻詞匯類似的結(jié)果,則將結(jié)果字符串中與高頻詞匯類似的結(jié)果替換成專業(yè)醫(yī)療詞匯。由于利用Canny算子進(jìn)行邊緣檢測和濾波,實現(xiàn)局部的閾值分割,得到較好的預(yù)處理效果;利用分割圖片結(jié)合不同語言模式識別,得到初步識別結(jié)果;遍歷識別出的字符串根據(jù)上下文出現(xiàn)的概率大小,進(jìn)行進(jìn)一步檢驗更正。提高了醫(yī)療化驗單圖像的識別率。
[0004]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案:一種提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法,其特點是包括以下步驟:
[0005]步驟一、對手機(jī)掃描的醫(yī)療化驗單圖像利用Canny算法進(jìn)行邊緣檢測,找到字符與空白部分的界限,然后利用字符本身的形態(tài)學(xué)特征與背景噪音的本質(zhì)差別進(jìn)行特征濾波以及局部的閾值分割,最后利用投票法對未檢測出的字符再次定位并二值化。
[0006]步驟二、對二值化處理后的醫(yī)療化驗單圖片按照不同的字符模式進(jìn)行均等分割。
[0007]步驟三、結(jié)合OCR識別引擎,建立醫(yī)療化驗單詞匯數(shù)據(jù)庫,對分割后的圖片進(jìn)行逐個對比識別。其中,按照醫(yī)療化驗單的固有格式,在不同列的識別中進(jìn)行中英文模式切換。
[0008]步驟四、對識別的字符串結(jié)果進(jìn)行遍歷,如果結(jié)果字符串中包含與高頻詞匯類似的結(jié)果,則將結(jié)果字符串中與高頻詞匯類似的結(jié)果替換成專業(yè)醫(yī)療詞匯。對識別錯誤的字符進(jìn)行修改,并將修改結(jié)果同步記錄到對應(yīng)到識別語庫中。
[0009]本發(fā)明的有益效果是:該方法首先對手機(jī)掃描的醫(yī)療化驗單圖像利用Canny算法進(jìn)行邊緣檢測,然后利用字符本身的形態(tài)學(xué)特征與背景噪音的本質(zhì)差別進(jìn)行特征濾波以及局部的閾值分割。對二值化處理后的醫(yī)療化驗單圖片按照不同的字符模式進(jìn)行均等分割。結(jié)合OCR識別引擎,建立醫(yī)療化驗單詞匯數(shù)據(jù)庫,對分割后的圖片進(jìn)行逐個對比識別。對識別的字符串結(jié)果進(jìn)行遍歷,如果結(jié)果字符串中包含與高頻詞匯類似的結(jié)果,則將結(jié)果字符串中與高頻詞匯類似的結(jié)果替換成專業(yè)醫(yī)療詞匯。由于利用Canny算子進(jìn)行邊緣檢測和濾波,實現(xiàn)局部的閾值分割,得到較好的預(yù)處理效果;利用分割圖片結(jié)合不同語言模式識別,得到初步識別結(jié)果;遍歷識別出的字符串根據(jù)上下文出現(xiàn)的概率大小,進(jìn)行進(jìn)一步檢驗更正。醫(yī)療化驗單圖像的識別率由【背景技術(shù)】的60%提高到80%。
[0010]下面結(jié)合附圖和【具體實施方式】對本發(fā)明作詳細(xì)說明。
【附圖說明】
[0011]圖1是本發(fā)明提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法流程圖。
[0012]圖2是本發(fā)明方法中用于識別的化驗單示意圖。
[0013]圖3是本發(fā)明方法識別后的化驗單截圖。
[0014]圖4是本發(fā)明方法利用圖3識別結(jié)果生成的ExceI表截圖。
【具體實施方式】
[0015]參照圖1-4。本發(fā)明提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法具體步驟如下:
[0016]第一步,優(yōu)化預(yù)處理過程。為提高識別效率,特將圖像轉(zhuǎn)變?yōu)槎祷瘓D像,而傳統(tǒng)的最大方差,閾值分割等二值化方法對本圖中出現(xiàn)的褶皺,光暗不均等問題,無法達(dá)到一個很好的效果,為解決這些問題,本專利利用結(jié)合邊緣檢測和實際字符形態(tài)學(xué)特征的的二值化方法。由于canny算子作為傳統(tǒng)方法中最好的邊緣算子,在提取目標(biāo)邊緣的過程中,對噪音的抑制較好。在本圖像的實際場景中,目標(biāo)即為相應(yīng)的字符,而字符的邊緣在整張圖看來盡管有明暗差異,但是其與周圍背景的對比度仍舊很高,像素之間梯度變化的很強(qiáng)烈,故canny算子可以很好的保留字符的邊緣,而對噪音有著很好的抑制,有處理后的圖像可以看出,大部分的噪音得以去除,而此時出現(xiàn)的邊緣噪音,在很大程度上,呈現(xiàn)出與字符截然不同的特性。字符本身有一定的形態(tài)學(xué)特性,漢字與英文字母,特定符號和數(shù)字均有一定的大小范圍,而其余的噪音的大小則不確定,呈現(xiàn)出來的長線形等情況。利用這樣的形態(tài)學(xué)特征進(jìn)行濾波,以不同的字符窗的大小進(jìn)行濾波,保留條件為最大程度上的字符窗內(nèi)包含著相應(yīng)的邊緣檢測部分,便可以得到較為精確的對字符的定位,也可以在一定程度上抑制長條形等孤立的噪音等等。而在真正的二值化過程中,對已經(jīng)確定的字符位置,對相應(yīng)位置便可以進(jìn)行局部的閾值分割。確定相應(yīng)字符的精確性。在最后的二值化判決過程中,已檢測出來的字符位置上的權(quán)值要遠(yuǎn)遠(yuǎn)大于背景位置。而由于拍照角度等問題,對于背景的分割可以采用先中值濾波再全局閾值分割的方式,防止有突變點的影響。之后可以采用投票算法,將未檢出的點,再次二值化出。
[0017]第二步,分割化驗單并識別。當(dāng)前的圖像識別庫,都是中英分開的,為了提高對化驗單的識別率可以將手機(jī)拍下的照片,進(jìn)行分塊識別,對每一個分塊,找到每一個分塊的閾值,再按照第一步進(jìn)行識別,對于化驗單中先中文后英文,或者中英文交替的規(guī)律,在對圖片分塊預(yù)處理之后選擇不同的語言庫,提高對每一個分塊的識別率。
[0018]第三步,建立醫(yī)學(xué)詞匯數(shù)據(jù)庫。在手機(jī)安卓端建立一個專業(yè)的醫(yī)學(xué)詞匯數(shù)據(jù)庫,識別化驗單時,將識別到的醫(yī)學(xué)詞匯與醫(yī)學(xué)詞匯庫進(jìn)行對比,計算兩者的相似度,由于化驗單上的醫(yī)學(xué)詞匯比較專業(yè),當(dāng)兩者的相似度達(dá)到一定閾值時,即認(rèn)為識別到的中文就是醫(yī)學(xué)詞匯庫里面的詞匯。從圖3可以看到,化驗單的識別率得到了提高。
[0019]第四步,識別結(jié)果優(yōu)化。由于手機(jī)像素不高,拍照的光線角度等問題,手機(jī)端對醫(yī)療化驗單的識別率不夠高。而化驗單上的檢查項名詞出現(xiàn)的頻率較高,比如紅細(xì)胞,白細(xì)胞等專業(yè)詞匯,在實際識別過程中,對這些高頻詞匯進(jìn)行一定的權(quán)值加重,在之后的優(yōu)化處理中,對已經(jīng)識別的詞匯進(jìn)行遍歷掃描,如果出現(xiàn)很大程度上對特定高頻詞匯的偏好,即采用相應(yīng)高頻詞匯,人機(jī)交互,提高人的參與性,在實際文件保存之前,操作者對生成的Excel表進(jìn)行編輯和選擇,這樣在下一次遇到相同或類似的情況時,就可以直接以上次人的選擇為主在人的意識主導(dǎo)下,確保較高的正確率。
【主權(quán)項】
1.一種提高紙質(zhì)醫(yī)療化驗單手機(jī)掃描識別率的方法,其特征在于包括以下步驟: 步驟一、對手機(jī)掃描的醫(yī)療化驗單圖像利用Canny算法進(jìn)行邊緣檢測,找到字符與空白部分的界限,然后利用字符本身的形態(tài)學(xué)特征與背景噪音的本質(zhì)差別進(jìn)行特征濾波以及局部的閾值分割,最后利用投票法對未檢測出的字符再次定位并二值化; 步驟二、對二值化處理后的醫(yī)療化驗單圖片按照不同的字符模式進(jìn)行均等分割; 步驟三、結(jié)合OCR識別引擎,建立醫(yī)療化驗單詞匯數(shù)據(jù)庫,對分割后的圖片進(jìn)行逐個對比識別;其中,按照醫(yī)療化驗單的固有格式,在不同列的識別中進(jìn)行中英文模式切換; 步驟四、對識別的字符串結(jié)果進(jìn)行遍歷,如果結(jié)果字符串中包含與高頻詞匯類似的結(jié)果,則將結(jié)果字符串中與高頻詞匯類似的結(jié)果替換成專業(yè)醫(yī)療詞匯;對識別錯誤的字符進(jìn)行修改,并將修改結(jié)果同步記錄到對應(yīng)到識別語庫中。
【文檔編號】G06K9/34GK105930844SQ201610245064
【公開日】2016年9月7日
【申請日】2016年4月20日
【發(fā)明人】鐘冬, 張靖, 董輝, 吳軼成, 張甲棟, 解飛
【申請人】西北工業(yè)大學(xué)