專(zhuān)利名稱(chēng):中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種中醫(yī)證型的自動(dòng)識(shí)別方法,特別涉及一種肝硬化常見(jiàn)中醫(yī)證候的檢測(cè)方法。
背景技術(shù):
肝硬化嚴(yán)重影響著人們的身體健康,其主要病因?yàn)楦窝撞《靖腥?,尤其是乙肝肝炎病毒感染,所以探討乙型肝炎病毒感染?dǎo)致的肝炎肝硬化的臨床特點(diǎn)有著重要的實(shí)用價(jià)值。但是迄今為止西醫(yī)學(xué)對(duì)一些常見(jiàn)的肝臟疾病,如慢性肝病的肝纖維化、肝硬化等尚無(wú)有效的治療方法,而中醫(yī)藥卻有著相當(dāng)大的優(yōu)勢(shì)。二十余年來(lái),中醫(yī)藥在肝臟病的防治中發(fā)揮著重要的作用,取得了一些令國(guó)際肝病學(xué)界關(guān)注的科研成果。證候研究是中醫(yī)臨床基礎(chǔ)研究的重要內(nèi)容。肝炎肝硬化“證”的研究也是當(dāng)今中醫(yī)研究熱點(diǎn),但目前主要的辨證還是依靠名老專(zhuān)家來(lái)完成。人工辨證大大限制了中醫(yī)的發(fā)展,隨著中醫(yī)越來(lái)越成為世界的健康源泉,自動(dòng)辨證成為研究的熱點(diǎn)。經(jīng)對(duì)現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),張琴等運(yùn)用多元逐步回歸法建立數(shù)學(xué)的模型得出中醫(yī)征候與生物學(xué)指標(biāo)存在一定的關(guān)系。常潔等應(yīng)用判別分析法對(duì)慢性乙肝中醫(yī)辨證分型進(jìn)行研究,發(fā)現(xiàn)用癥狀等中醫(yī)信息對(duì)于證型的判別具有顯著意義,得出的判別函數(shù)式臨床診斷符合率為90%以上。從目前的資料可以看出,肝硬化中醫(yī)病癥存在一定的規(guī)律,但是其不足在于,這些方法只是給出一些數(shù)學(xué)方程,對(duì)主要影響證候的因素、判別規(guī)則沒(méi)有很好的給出,從而結(jié)果只能進(jìn)行一定的研究,不能應(yīng)用于更廣泛的領(lǐng)域。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是基于決策樹(shù)的ES-ID3算法,提出一種中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,該檢測(cè)方法解決了困擾已久的肝硬化自動(dòng)辨證問(wèn)題。為了解決上述技術(shù)問(wèn)題,本發(fā)明提出的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,包含以下步驟a.數(shù)據(jù)標(biāo)準(zhǔn)化建立標(biāo)準(zhǔn)化客觀化的中醫(yī)病例數(shù)據(jù)庫(kù);b.關(guān)鍵體征屬性篩選通過(guò)步驟a得到一個(gè)標(biāo)準(zhǔn)化的中醫(yī)樣本數(shù)據(jù)庫(kù),以基于協(xié)關(guān)系的屬性篩選方法,計(jì)算各個(gè)屬性間的互信息及對(duì)稱(chēng)不確定性,基于啟發(fā)式規(guī)則,挑選出對(duì)于證型檢測(cè)貢獻(xiàn)度較大的癥狀屬性集合;C.ES-ID3算法提取分類(lèi)規(guī)則根據(jù)步驟b得到的屬性集合以及病例數(shù)據(jù)庫(kù)中的樣本信息,通過(guò)計(jì)算屬性的信息增益率,確定決策屬性,同時(shí)控制每個(gè)節(jié)點(diǎn)的樣本下限并記錄分類(lèi)誤差,以增量學(xué)習(xí)的方式讀取所有訓(xùn)練樣本及準(zhǔn)訓(xùn)練樣本,最后得到分類(lèi)規(guī)則;d.新樣本辨證利用步驟c得到的分類(lèi)規(guī)則進(jìn)行新樣本的證型識(shí)別檢測(cè)。優(yōu)選地,步驟a中,所述的標(biāo)準(zhǔn)客觀化的中醫(yī)病例數(shù)據(jù)庫(kù)的每一個(gè)列代表一個(gè)癥狀指標(biāo)屬性,屬性為種類(lèi)型,取值為1、2、3或4,數(shù)據(jù)庫(kù)中每一個(gè)條目代表一個(gè)病例樣本,每一個(gè)樣本有其唯一的編號(hào),樣本集合經(jīng)過(guò)缺失補(bǔ)全以及剔除重復(fù)處理。
優(yōu)選地,步驟b中,所述的癥狀屬性集合是在臨床采樣時(shí)確定的,2中所提到的表結(jié)構(gòu)中的每一列,即代表一個(gè)癥狀屬性。優(yōu)選地,步驟b中,所述的篩選癥狀屬性集合的目的是消除原樣本中的無(wú)關(guān)與冗余信息,作為分類(lèi)信息的預(yù)處理工作,力求得到更精確、更明晰的分類(lèi)規(guī)則。優(yōu)選地,步驟b中,所述的篩選癥狀屬性集合是通過(guò)基于各個(gè)屬性間協(xié)關(guān)系的測(cè)量而完成的,包括以下步驟(1)計(jì)算屬性集合中每個(gè)屬性的熵及兩兩屬性間的互信息;(2)計(jì)算屬性集合中兩兩屬性的對(duì)稱(chēng)不確定性;(3)基于啟發(fā)式規(guī)則,對(duì)整個(gè)屬性集合進(jìn)行搜索,得到最終互不相關(guān)且冗余度低的屬性子集;(4)構(gòu)建只包含篩選后屬性子集及類(lèi)別的新樣本集合。步驟b中,所述的屬性間的互信息由下式得到Ι(Χ, Y) =H(Y)-H(Y/X)式中I (X,Y)為屬性X和屬性Y間的互信息,H(Y)為屬性Y的信息熵,H(Y/X)為屬性Y 基于屬性X的條件熵,信息熵與條件熵的定義如下
權(quán)利要求
1.一種中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征在于,包含以下步驟a.數(shù)據(jù)標(biāo)準(zhǔn)化建立標(biāo)準(zhǔn)化客觀化的中醫(yī)病例數(shù)據(jù)庫(kù);b.關(guān)鍵癥狀屬性篩選通過(guò)步驟a得到一個(gè)標(biāo)準(zhǔn)化的中醫(yī)樣本數(shù)據(jù)庫(kù),以基于協(xié)關(guān)系的屬性篩選方法,計(jì)算各個(gè)屬性間的互信息及對(duì)稱(chēng)不確定性,基于啟發(fā)式規(guī)則,挑選出對(duì)于證型檢測(cè)貢獻(xiàn)度較大的癥狀屬性集合;c.ES-ID3算法提取分類(lèi)規(guī)則根據(jù)步驟b得到的屬性集合以及病例數(shù)據(jù)庫(kù)中的樣本信息,通過(guò)計(jì)算屬性的信息增益率,確定決策屬性,同時(shí)控制每個(gè)節(jié)點(diǎn)的樣本下限并記錄分類(lèi)誤差,以增量學(xué)習(xí)的方式讀取所有訓(xùn)練樣本及準(zhǔn)訓(xùn)練樣本,最后得到分類(lèi)規(guī)則;d.新樣本辨證利用步驟c得到的分類(lèi)規(guī)則進(jìn)行新樣本的證型識(shí)別檢測(cè)。
2.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟a中,所述的標(biāo)準(zhǔn)化客觀化的中醫(yī)病例數(shù)據(jù)庫(kù)的每一個(gè)列代表一個(gè)癥狀指標(biāo)屬性,屬性為種類(lèi)型,取值為1、2、3或4,數(shù)據(jù)庫(kù)中每一個(gè)條目代表一個(gè)病例樣本,每一個(gè)樣本有其唯一的編號(hào),樣本集合經(jīng)過(guò)缺失補(bǔ)全以及剔除重復(fù)處理。
3.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟b中,所述的癥狀屬性集合是在臨床采樣時(shí)確定的,2中所提到的表結(jié)構(gòu)中的每一列,即代表一個(gè)癥狀屬性。
4.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟b中,所述的篩選癥狀屬性集合的目的是消除原樣本中的無(wú)關(guān)與冗余信息,作為分類(lèi)信息的預(yù)處理工作,力求得到更精確、更明晰的分類(lèi)規(guī)則。
5.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟b中,所述的篩選癥狀屬性集合是通過(guò)基于各個(gè)屬性間協(xié)關(guān)系的測(cè)量而完成的,包括以下步驟(1)計(jì)算屬性集合中每個(gè)屬性的熵及兩兩屬性間的互信息;(2)計(jì)算屬性集合中兩兩屬性的對(duì)稱(chēng)不確定性;(3)基于啟發(fā)式規(guī)則,對(duì)整個(gè)屬性集合進(jìn)行搜索,得到最終互不相關(guān)且冗余度低的屬性子集;(4)構(gòu)建只包含篩選后屬性子集及類(lèi)別的新樣本集合。
6.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟b中,所述的屬性間的互信息由下式得到I (X, Y) = H(Y)-H(Y/X)式中I(X, Y)為屬性X和屬性Y間的互信息,H⑴為屬性Y的信息熵,H(Y/X)為屬性Y基于屬性X的條件熵,信息熵與條件熵的定義如下
7.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟b中,所述的屬性間的對(duì)稱(chēng)不確定性由下式得到
8.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟b中,所述的挑選屬性采用的啟發(fā)式規(guī)則,是通過(guò)測(cè)定各屬性子集的皮爾遜相關(guān)系數(shù)確定屬性子集對(duì)分類(lèi)的貢獻(xiàn)程度,皮爾遜相關(guān)系數(shù)由下式得到
9.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟c中,所述的病例數(shù)據(jù)庫(kù)是一個(gè)提煉過(guò)的表結(jié)構(gòu),只包含由步驟b挑選出來(lái)的關(guān)鍵屬性。
10.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟C中,所述的 ES-ID3算法是一種決策樹(shù)模型,包括以下步驟(1)構(gòu)建訓(xùn)練樣本集合與優(yōu)化樣本集合,其中訓(xùn)練樣本集合包含確定分類(lèi)的樣本,而優(yōu)化樣本集合包含那些已經(jīng)采集但為確定分類(lèi)集團(tuán)的“準(zhǔn)訓(xùn)練樣本”;(2)根據(jù)已有訓(xùn)練樣本,進(jìn)行決策樹(shù)構(gòu)建,構(gòu)建過(guò)程中通過(guò)信息增益率來(lái)決定分類(lèi)決策屬性,同時(shí)控制每個(gè)節(jié)點(diǎn)的樣本下限并記錄分類(lèi)誤差;(3)批量讀取優(yōu)化樣本,利用步驟O)中取得的分類(lèi)規(guī)則對(duì)樣本進(jìn)行分類(lèi),并記錄每一個(gè)分類(lèi)節(jié)點(diǎn)對(duì)應(yīng)的分類(lèi)誤差;(4)將步驟(3)中分類(lèi)誤差滿足要求的優(yōu)化樣本添加到訓(xùn)練樣本中,擴(kuò)大訓(xùn)練樣本容量;(5)利用擴(kuò)容后的訓(xùn)練樣本集合及經(jīng)提煉的決策屬性候選集合,重新構(gòu)造決策樹(shù),所述的經(jīng)提煉的決策屬性候選集合,指的是由步驟(2)得到的決策樹(shù)所包含的決策屬性集合, 而不再是原先的屬性集合全體;(6)判斷是否還存在未處理優(yōu)化樣本分組?若存在,轉(zhuǎn)步驟(3),繼續(xù)優(yōu)化過(guò)程,否則得到最優(yōu)決策樹(shù)模型,提取分類(lèi)規(guī)則。
11.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟c中,所述的節(jié)點(diǎn)的樣本下限,是指通過(guò)全局靜態(tài)定義,或者根據(jù)樹(shù)的層數(shù)動(dòng)態(tài)定義的方式,規(guī)定每個(gè)節(jié)點(diǎn)在訓(xùn)練過(guò)程中必須包含樣本量的最小值。
12.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟c中,所述的節(jié)點(diǎn)的分類(lèi)誤差,是指該節(jié)點(diǎn)包含的不符合本節(jié)點(diǎn)分類(lèi)號(hào)的樣本個(gè)數(shù)占整個(gè)節(jié)點(diǎn)包含樣本個(gè)數(shù)的比例值。
13.根據(jù)權(quán)利要求1所述的中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,其特征是,步驟c中,所述的增量學(xué)習(xí)方式,是指過(guò)程權(quán)利要求10中步驟03)-(6)所體現(xiàn)的將未分類(lèi)的優(yōu)化樣本轉(zhuǎn)化為訓(xùn)練樣本繼而進(jìn)行再次訓(xùn)練的過(guò)程。
全文摘要
本發(fā)明公開(kāi)了一種中醫(yī)自動(dòng)識(shí)別證型的檢測(cè)方法,包含以下步驟建立標(biāo)準(zhǔn)客觀化的中醫(yī)病例數(shù)據(jù)庫(kù);針對(duì)該標(biāo)準(zhǔn)化中醫(yī)樣本數(shù)據(jù)庫(kù),以基于協(xié)關(guān)系的屬性篩選方法,計(jì)算各個(gè)屬性間的互信息及對(duì)稱(chēng)不確定性,基于啟發(fā)式規(guī)則,挑選出對(duì)于證型檢測(cè)貢獻(xiàn)度較大的癥狀屬性集合;利用挑選出的關(guān)鍵屬性集合以及病例數(shù)據(jù)庫(kù)中的樣本信息構(gòu)建分類(lèi)訓(xùn)練樣本集合,通過(guò)計(jì)算屬性的信息增益率,確定決策屬性,同時(shí)控制每個(gè)節(jié)點(diǎn)的樣本下限并記錄分類(lèi)誤差,以增量學(xué)習(xí)的方式讀取所有訓(xùn)練樣本及準(zhǔn)訓(xùn)練樣本,最后得到分類(lèi)規(guī)則;利用得到的分類(lèi)規(guī)則進(jìn)行新樣本的證型識(shí)別檢測(cè)。本發(fā)明不僅可應(yīng)用于肝硬化的自動(dòng)辨證問(wèn)題,還可推廣到中醫(yī)其他證型的自動(dòng)判別領(lǐng)域。
文檔編號(hào)G06F19/00GK102298663SQ20101020880
公開(kāi)日2011年12月28日 申請(qǐng)日期2010年6月24日 優(yōu)先權(quán)日2010年6月24日
發(fā)明者周忞, 廖曉威, 褚娜, 馬利莊 申請(qǐng)人:上海中醫(yī)藥大學(xué), 上海交通大學(xué)