一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法
【專利摘要】本發(fā)明公開了一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,屬于數(shù)字醫(yī)療技術(shù)領(lǐng)域。本發(fā)明將特征空間映射到樣本空間,利用互信息特征核函數(shù)來表征肺音樣本特征屬性之間的聯(lián)系強(qiáng)度,最終實(shí)現(xiàn)肺音特征的降維。包括在肺音數(shù)據(jù)庫中選擇肺音數(shù)據(jù)作為肺音樣本,建立相關(guān)向量機(jī);建立肺音特征向量樣本集;基于RVM肺音特征向量降維。本發(fā)明具有魯棒性和稀疏性的優(yōu)點(diǎn),對數(shù)據(jù)噪聲不敏感,減少了采集噪聲引起的不確定性;適合于處理高維肺音特征的情況。本發(fā)明中提出的降維方法利用肺音特征間的互信息作為核函數(shù),在模型中充分考慮了特征之間的聯(lián)系強(qiáng)度,不僅保障了降維結(jié)果的簡約性,同時(shí)保障了保留特征的完備性。
【專利說明】
一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于數(shù)字醫(yī)療技術(shù)領(lǐng)域,涉及肺部數(shù)字診療領(lǐng)域,具體涉及一種利用相關(guān) 向量機(jī)的方法對肺音中蘊(yùn)含的特征進(jìn)行約減,為利用數(shù)字肺音進(jìn)行診斷提供準(zhǔn)確的數(shù)據(jù) 源。
【背景技術(shù)】
[0002] 肺音中包換了豐富的病理信息,利用肺音對人體的肺部健康狀態(tài)進(jìn)行檢測具有對 被測者無創(chuàng)傷和對疾病可預(yù)測的優(yōu)點(diǎn)。利用采集的數(shù)字化肺音進(jìn)行肺部診斷具有智能化特 性,在國際上被稱為肺音識別。對于肺音識別的研究,國內(nèi)外學(xué)者作了許多的研究工作,提 出了一些較實(shí)用的理論和方法,在模式識別領(lǐng)域,模糊集理論、小波理論、神經(jīng)網(wǎng)絡(luò)、遺傳算 法等理論和方法被廣泛應(yīng)用。但是這些方法都需要提取出可用于識別的特征。
[0003] 目前用于肺音識別的特征多種多樣,如聲音特征、頻譜特征等??墒窃谔卣骶S數(shù)不 斷增加的同時(shí),也會帶來災(zāi)難維數(shù)的問題,因此需要對特征進(jìn)行約減,降維,祛除冗余屬性。 用于特征約減的主要方法有主成分分析法(Principal Component Analysis,PCA)、線性判 另ll 分析法(Linear Discriminant Analysis, LDA)及獨(dú)立成分分析(Independent Component Ana lysis, I CAhPCA、LDA、ICA方法都是利用線性變化的方法對特征進(jìn)行降維, 不適合處理屬性間存在非線性關(guān)系的特征。但是在肺音識別領(lǐng)域,肺音的特征之間是非線 性的。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明針對現(xiàn)有技術(shù)中難以從肺音數(shù)據(jù)中提取出準(zhǔn)確的、無冗余特征的問題,提 出了一種利用相關(guān)向量機(jī)(Relevance Vector Machine,RVM)對肺音特征進(jìn)行約減的方法, 來實(shí)現(xiàn)肺音特征的降維。此方法將特征空間映射到樣本空間,利用互信息特征核函數(shù)來表 征肺音樣本特征屬性之間的聯(lián)系強(qiáng)度,最終實(shí)現(xiàn)肺音特征的降維。
[0005] 本發(fā)明提供的一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,包括如下步驟:
[0006] 第一步,在肺音數(shù)據(jù)庫中選擇肺音數(shù)據(jù)作為肺音樣本,建立相關(guān)向量機(jī)。
[0007] 第二步,建立肺音特征向量樣本集T。
[0008] 第三步,基于RVM肺音特征向量降維,具體為:
[0009] 3.1建立基于RVM的肺音特征降維模型。
[0010] 3.2構(gòu)建互信息特征核函數(shù)。
[0011] 3.3基于RVM的肺音特征向量降維模型求解。
[0012] 本發(fā)明具有的優(yōu)點(diǎn)和積極效果在于:
[0013] 1.魯棒性:肺音采集的數(shù)據(jù)中不可避免的會存在噪聲,本發(fā)明提出的數(shù)字化肺音 特征降維方法在模型建立時(shí)就考慮了噪聲的影響。對數(shù)據(jù)噪聲不敏感,減少了采集噪聲引 起的不確定性。
[0014] 2.稀疏性:本發(fā)明中提出的數(shù)字化肺音特征降維方法是稀疏的,運(yùn)算結(jié)果中,多數(shù) 特征的系數(shù)為零,只有相關(guān)向量的系數(shù)是非零的,適合于處理高維肺音特征的情況。
[0015] 3.本發(fā)明中提出的降維方法利用肺音特征間的互信息作為核函數(shù),在模型中充分 考慮了特征之間的聯(lián)系強(qiáng)度,不僅保障了降維結(jié)果的簡約性,同時(shí)保障了保留特征的完備 性。
【附圖說明】
[0016] 圖1為本發(fā)明提供的基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法的流程圖。
【具體實(shí)施方式】
[0017] 下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。
[0018] 本發(fā)明提供一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,如圖1所示流程,所 述方法包括如下步驟:
[0019] 第一步:在肺音數(shù)據(jù)庫中以相等的數(shù)據(jù)量選擇干羅音、濕羅音及無羅音肺音數(shù)據(jù), 并且每種肺音數(shù)據(jù)類型不少于200條肺音數(shù)據(jù),將選擇的肺音數(shù)據(jù)作為肺音樣本,建立相關(guān) 向量機(jī)。
[0020] 所述的肺音數(shù)據(jù)庫中存儲的是肺音數(shù)據(jù),每條肺音數(shù)據(jù)中記錄了采集的人體肺部 的呼吸音,每條肺音數(shù)據(jù)長度為409600個(gè)點(diǎn)。肺音數(shù)據(jù)庫中應(yīng)包含干羅音、濕羅音及無羅音 三種數(shù)據(jù)類型,并且每種數(shù)據(jù)類型不少于200條。
[0021] 第二步:建立肺音特征向量樣本集。
[0022] 在本發(fā)明中,對于每一個(gè)肺音樣本選取38個(gè)肺音特征f 1,f 2,…f 38構(gòu)成相應(yīng)肺音樣 本的特征向量X,即乂=出力,一&8)。則對于第1個(gè)肺音樣本仏丄)對應(yīng)的特征向量為乂1上 G R38,i = 1,2,…,n,n為肺音樣本個(gè)數(shù),600。其中Yi的定義為:若第i個(gè)肺音樣本為無羅 音數(shù)據(jù),則Yi = 1;若第i個(gè)肺音樣本為干羅音數(shù)據(jù),則Yi = 2;若第i個(gè)肺音樣本為濕羅音數(shù) 據(jù),則Yi = 3。
[0023] 根據(jù)肺音樣本建立的特征向量樣本集T為:
[0024] (1)
[0025] 將所述的特征向量樣本集T作為訓(xùn)練RVM模型的訓(xùn)練樣本集。
[0026]按照序號,所述的每個(gè)肺音樣本的38個(gè)肺音特征fl,f2,…f38如表1所示:
[0027] 表1肺音特征
[0031] 第三步:基于RVM肺音特征向量降維,具體為:
[0032] 3.1建立基于RVM的肺音特征降維模型。
[0033] 基于RVM的肺音特征降維模型如下: 38
[0034] z = J>,.Z;.+6. (2)
[0035]其中fj為特征向量父=出力,-心8)中的第」個(gè)肺音特征?!晔橇憔?、方差為〇2的 高斯噪聲。A為肺音特征t的權(quán)重。從(2)式可以看出<^#0所對應(yīng)的肺音特征就為降維或約 減后的肺音特征。
[0036] 為了能處理非線性的情況,引進(jìn)了函數(shù)(H):將Z映射為(Hz);將fj映射為(Hfj), j = l,2,…,38。則基于RVM的肺音特征降維模型即公式(2)變換為如下函數(shù)形式: 38:
[0037] (Hz) = Y〇Af))^S (3) j=i
[0038] 3.2構(gòu)建互信息特征核函數(shù);
[0039]互信息能度量出兩個(gè)變量之間相互的知識關(guān)聯(lián)性,因此在本發(fā)明中利用互信息作 為核函數(shù)。給出兩個(gè)不相關(guān)的變量U和V,觀測量分別表示為u和V,那么變量U和V之間的互信 息I(U,V)表不為:
(16)
[00411其中p (u,v)是變量U和V的聯(lián)合概率密度函數(shù),p (u)和p (v)分別是變量U和V的邊緣 概率密度函數(shù)。
[0042]根據(jù)上述核函數(shù)的定義,本發(fā)明中給定一個(gè)肺音樣本中的任意兩個(gè)肺音特征 fv,u=l,2,…,38,v=l,2,".,38,u乒v。對于給定的訓(xùn)練樣本集了={(父1,¥1),(父2,丫2),." (父"八")},每一個(gè)肺音樣本0 1,¥〇中都存在兩個(gè)肺音特征匕和匕。因此可以得到2個(gè)向量?11 ={fu1,fu2,…fun},F(xiàn) v = {fv1,fv2,…f/},其中f J表示肺音樣本(Xi,Yi)中肺音特征fu的取值, fv1表示肺音樣本(Xi,Yi)中肺音特征fv的取值,i = l,2,…,n,n為訓(xùn)練樣本集T中肺音樣本總 數(shù)??梢杂孟率鲞@種方法計(jì)算兩個(gè)肺音特征的互信息特征核函數(shù)K(fu,f v):
[0043] 1)將向量{",",…以丨和向量仏^丄…以丨分別劃分成^^個(gè)大小相同的特征區(qū) 間,N=5〇
[0044] 2)將向量{fu1,;^2, ???fi/1}和向量{fv1,;^2,的各個(gè)元素離散化到每一個(gè)特征 區(qū)間中,如果向量{匕1,仇2,一匕"}中的最大值和最小值分別是1^\和11? 111,那么每個(gè)特征區(qū)間 的大小為(umax_umin)/5。若向量{fu1,fu 2,…以}中的某個(gè)分量的值fuk落在第k個(gè)特征區(qū)間中, 貝 ljfu1 = k,k= 1,2,…,N。
[0045] 3)計(jì)算概率密度函數(shù) p(fu,fv),p(fu)和 p(fv):
[0046] p(fu = 1 ) = counts (fu = 1 )/n
[0047] p(fv=z) = counts(fv = z)/n
[0048] p(fu = 1 ,fv = z) = counts(fu = 1 ,fv=z)/n
[0049] 其中,〇〇111^8(;^=1)表示向量{;^1,;^2,一;^}中落在第1個(gè)區(qū)間的分量的個(gè)數(shù),1 =1,2,…,N,counts(f v = z),表示向量{fv^fv2,中落在第z個(gè)區(qū)間的分量的個(gè)數(shù),z = 1,2,…,N〇
[0050] 由此,將互信息核函數(shù)定義為,
m
[0052] 由互信息核函數(shù)的特性可知其滿足對稱非負(fù):
[0053] K(fu,fv)=K(fv,fu) (8)
[0054] K(fu,fv)^0 (9)
[0055] 互信息特征核函數(shù)同樣也滿足Mercer條件,保證了 RVM算法的收斂性。
[0056] 3.3基于RVM的肺音特征向量降維模型求解。
[0057] 這一步求解RVM模型即公式(3)中的肺音特征權(quán)重a = {ai,a2,…,a38}。
[0058]給定訓(xùn)練樣本集T = {(Xi,Yd,(X2,Y2),…(Xn,Yn)},訓(xùn)練樣本集T的似然函數(shù)為:
[0064]為了保證RVM模型的稀疏性,假設(shè)肺音特征權(quán)重ai符合均值為〇、方差為&的正態(tài)分 布,g卩ai~N(0,隊(duì)),i = 1,2,…,38,則肺音特征的權(quán)重a= {ai,a2,…,a38}服從概率分布p(a P):
[0065] p(am = UZN(ai\°^rL) (13)
[0066]因此求解a = {a:,a2,…,a38}的問題與最大化后驗(yàn)概率p (a,0,o2| (J)(y))等價(jià)。利用 貝葉斯公式,可得,
[0067] p(a,0,o2| (J>(y))=p(a| <i> (y) ,P,〇2)p(P,〇21 <i>(y)) (14)
[0068] 其中p(a| (J) (y),0,〇2)表示已知傘(7),0,〇2的條件下權(quán)重向量 的概率分布,p(0,〇2| (My))表示已知4>(y)的條件下,0={01,02,…,038}和〇2的聯(lián)合概率密 度。所述的求解參數(shù)…,a38}、0和〇2的過程具體為:
[0069] (1)首先最大化計(jì)算p(a |巾(y),0,〇2):
[0071 ]通過定義的核函數(shù)替代后得到協(xié)方差矩陣2和均值y的方程:
[0072] 5: =(〇-2K(XT,X)+A)-1 (16)
[0073] y = o-22K(XT,y) (17)
[0074]其中協(xié)方差矩陣2為一個(gè)38階的方陣,第i行第j列的元素表示為2 第i行為一 個(gè)38維的行向量,記為 2 i;A=diag(0i,02,…,038),y= {yi,ii2,…,此}。
[0075] (2),最大化〇(0,〇21巾(7)),從而計(jì)算出參數(shù)3和〇2:
[0077] E為38階的單位陣。
[0078] 通過偏微分可以得到審新超參數(shù)3和噪聲方差〇2的方稈:
[0083]經(jīng)過(1)和(2)步驟反復(fù)迭代計(jì)算(優(yōu)選100次)來更新各個(gè)參數(shù),最終將會得到稀 疏的肺音特征權(quán)重{^,a2,…,a38},其中大部分肺音特征權(quán)重值為零,剩下的非零權(quán)重所對 應(yīng)的肺音特征即是所求的降維后的"相關(guān)特征",也就是與響應(yīng)的相關(guān)性很強(qiáng)的特征屬性。 [0084] 通過上述方法,本發(fā)明可以實(shí)現(xiàn)對肺音特征的有效降維。例如對于2015年3-4月份 在河北石家莊的1894個(gè)肺音案例的數(shù)據(jù),利用本發(fā)明提出的方法,將38維的特征向量降為 12維,有效地降低了特征向量的維數(shù)。
【主權(quán)項(xiàng)】
1. 一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,其特征在于:包括如下步驟, 第一步,在肺音數(shù)據(jù)庫中W相等的數(shù)據(jù)量選擇干羅音、濕羅音及無羅音肺音數(shù)據(jù),并且 每種肺音數(shù)據(jù)類型不少于200條肺音數(shù)據(jù),將選擇的肺音數(shù)據(jù)作為肺音樣本,建立相關(guān)向量 機(jī); 第二步,建立肺音特征向量樣本集T為: T=KXl,Yl),(X2,Y2),---(Xn,Yn)}; 對于每一個(gè)肺音樣本選取38個(gè)肺音特征…f38構(gòu)成相應(yīng)肺音樣本的特征向量X,即 X = (f 1,f 2,…f 38),則對于第i個(gè)肺音樣本(Xi,Yi)對應(yīng)的特征向量為Xi,Xi G R38,i = 1,2,…, n,n為肺音樣本個(gè)數(shù),n>600;其中Yi的定義為:若第i個(gè)肺音樣本為無羅音數(shù)據(jù),貝化i=l;若 第i個(gè)肺音樣本為干羅音數(shù)據(jù),則Yi = 2;若第i個(gè)肺音樣本為濕羅音數(shù)據(jù),則Yi = 3; 第=步,基于RVM肺音特征向量降維,具體為: 3.1建立基于RVM的肺音特征降維模型; 3.2構(gòu)建互信息特征核函數(shù); 3.3基于RVM的肺音特征向量降維模型求解。2. 根據(jù)權(quán)利要求1所述的一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,其特征在 于:所述的每個(gè)肺首樣本的38個(gè)肺首特征fl , f 2 ,…f 38分別為:基頻、局部基頻微擾、關(guān)聯(lián)基 頻微擾、振幅微擾、平均信噪比、第一共振峰、第一共振峰帶寬、第二共振峰、第二共振峰帶 寬、第=共振峰、第=共振峰帶寬、共振峰中值、共振峰均值、共振峰標(biāo)準(zhǔn)方差、共振峰最大 值、共振峰最小值、共振峰脈沖個(gè)數(shù)、共振峰周期個(gè)數(shù)、局部無基頻帖分?jǐn)?shù)、聲音的最大基頻 率值、聲音段的最小基頻率值、聲音間歇率、聲音中斷次數(shù)、聲音段的平均頻率值、聲音段的 中值頻率、最小振幅、平均振幅、振幅范圍、偏斜度、峰度、總功率、最大功率值、最大功率所 對應(yīng)的頻率、總功率的75 %處所對應(yīng)的功率值、總功率的50 %處所對應(yīng)的功率值、總功率的 25%處所對應(yīng)的功率值、總功率的25%至75%對應(yīng)頻率范圍內(nèi),從最大功率處到最小功率 處的斜率和在總功率的25 %至75 %所對應(yīng)得頻率范圍內(nèi)的樣本方差。3. 根據(jù)權(quán)利要求1所述的一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,其特征在 于:第=步中所述的基于RVM的肺音特征降維模型如下:(2) 其中。為特征向量X=(fl,f2,…f38)中的第j個(gè)肺音特征,e是零均值、方差為02的高斯 噪聲,Qj為肺音特征fj的權(quán)重; 為了能處理非線性的情況,引進(jìn)了函數(shù)(6():將Z映射為(Hz);將。映射為(1)化)J = 1,2,…,38,則基于RVM的肺音特征降維模型即公式(2)變換為如下函數(shù)形式:0)4. 根據(jù)權(quán)利要求1所述的一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,其特征在 于:第=步中所述的構(gòu)建互信息特征核函數(shù),具體為, 給定一個(gè)肺音樣本中的任意兩個(gè)肺音特征片和;^\^,11=1,2,,,,,38,¥=1,2,,,,,38,11聲¥; 對于給定的訓(xùn)練樣本集T = {(Xi,Yi),促,Y2),…祐,Yn)},每一個(gè)肺音樣本化,Yi)中都存在 兩個(gè)肺音特征f U和f V ;因此得到2個(gè)向量Fu = { f,f U2,…f u。},F(xiàn)v = { f ,f V2,…f V。},其中f ui表 示肺音樣本化,Yi)中肺音特征fu的取值,f/表示肺音樣本化,Yi)中肺音特征f V的取值,i = 1,2,…,n,n為訓(xùn)練樣本集T中肺音樣本總數(shù);用下述運(yùn)種方法計(jì)算兩個(gè)肺音特征的互信息 特征核函數(shù)K(fu,fv): 1) 將向量{ful,fu2,…fun巧日向量{fvl,fV2,…fvn}分別劃分成N個(gè)大小相同的特征區(qū)間,N =5; 2) 將向量{ful,fu2,…fun巧日向量{fVl,fV2,…fVn}的各個(gè)元素離散化到每一個(gè)特征區(qū)間 中,如果向量{ful,fu2,…fun}中的最大值和最小值分別是Umax和Umln,那么每個(gè)特征區(qū)間的大 小為(lW-Umin)/5;若向量{ful,fu2,…fun忡的某個(gè)分量的值fuk落在第k個(gè)特征區(qū)間中,貝|J fu" = k,k=l ,N; 3) 計(jì)算概率密度函數(shù)P(fu,fv),p(fu)和p(fv): p(fu = l) = counts(fu= l)/n p(fv = z) = counts(fv=z)/n p(fu = l ,fv=z) = counts(fu=l ,fv = z)/n 其中,counts(fu=l)表示向量{fui,fu2,…fuD}中落在第I個(gè)區(qū)間的分量的個(gè)數(shù),i = i, 2,…,N,counts(fv = z),表示向量{fvi,fv2, ???fVn}中落在第Z個(gè)區(qū)間的分量的個(gè)數(shù),Z = I , 2,...,N; 由此,將互信息核函數(shù)定義為,巧 由互信息核函數(shù)的特性可知其滿足對稱非負(fù): K(fu,fv)=K(fv,fu) (8) K(fu,fv)^0 (9) 互信息特征核函數(shù)同樣也滿足Mercer條件,保證了 RVM算法的收斂性。5.根據(jù)權(quán)利要求1所述的一種基于相關(guān)向量機(jī)的數(shù)字化肺音特征降維方法,其特征在 于:第=步中基于RVM的肺音特征向量降維模型求解,包括求解肺音特征權(quán)重a = {ai,a2,…, 口38},和方差為權(quán),具體為: 給定訓(xùn)練樣本集1={化,¥1),促,¥2)^-祐,¥。)},訓(xùn)練樣本集1'的似然函數(shù)為:(10) 其中,4 (X) = [ d) (。),d)祀),...,4 化8)]; I (Hy)-(HX)Q M 2 =d) (y)T(J) (y)-化T& (X)T^ (y)+口T& (X)T^ (X)日 = K(yT,y)-化 TK(xT,y)+aTK(xT,x)a (11) 其中(12) 為了保證RVM模型的稀疏性,假設(shè)肺音特征權(quán)重CU符合均值為0、方差為扣的正態(tài)分布, 即Qi~N(0,0i),i = 1,2,…,38,則肺音特征的權(quán)重a = {日1,日2,…,日38}服從概率分布p(a 10):(13) 因此求解a={ai,a2,…,038}的問題與最大化后驗(yàn)概率p(a,e,o2| (Hy))等價(jià);利用貝葉 斯公式得, p(a,0,〇2| (}) (y))=p(a| (}) (y),0,〇2)p(0,〇2| * (y)) (14) 其中P(a| 4 (y),P,〇2)表示已知4 (y),0,〇2的條件下權(quán)重向量日={日1,日2,。',日38}的概 率分布,p(ey I 4 (y))表示已知4 (y)的條件下,0=化1,阮,…,038}和O2的聯(lián)合概率密度; 所述的求解參數(shù)日={日1,日2,…,日38}、0和O2的過程具體為: (1) 首先最大化計(jì)算P(a| 4(y),e,〇2):(15) 通過定義的核函數(shù)替代后得到協(xié)方差矩陣X和均值ii的方程: E = (〇-2k(xT,X)+A 廠 1 (16) ii=〇-=^EK(X\y) (17) 其中協(xié)方差矩陣S為一個(gè)38階的方陣,第i行第j列的元素表示為X U,第i行為一個(gè)38 維的行向量,記為 X i;A=diag(0i,02,...,抗8) ,Ji=山1,化,...,化8}; (2) 最大化P化,O2 d)(y)),從而計(jì)算出參數(shù)0和曰2:E為38階的單位陣;通過偏微分得到更新超參數(shù)e和噪聲方差O2的方程:(19) Yi = I- (21) (22) 經(jīng)過(1)和(2)步驟反復(fù)迭代計(jì)算來更新各個(gè)參數(shù),最終將會得到稀疏的肺音特征權(quán)重 (口1,〇2,…,038},非零權(quán)重所對應(yīng)的肺音特征即是所求的降維后的"相關(guān)特征",也就是與響 應(yīng)的相關(guān)性很強(qiáng)的特征屬性。
【文檔編號】G06K9/40GK105913066SQ201610229273
【公開日】2016年8月31日
【申請日】2016年4月13日
【發(fā)明人】劉國棟
【申請人】劉國棟