本發(fā)明涉及生物信息學(xué)中對測序獲得的dna序列進(jìn)行可編碼基因區(qū)域的識別和定位領(lǐng)域,具體涉及一種基于變步長最小均方誤差(lms)自適應(yīng)濾波器的基因識別系統(tǒng)。
背景技術(shù):
現(xiàn)階段基因識別的研究取得了很多優(yōu)秀的成果,形成了許多成熟的預(yù)測系統(tǒng),但這些系統(tǒng)主要都依托于一些經(jīng)典的機(jī)器學(xué)習(xí)標(biāo)記方法,如hmm和crf等,一般模型結(jié)構(gòu)復(fù)雜,調(diào)節(jié)參數(shù)繁多,訓(xùn)練耗時且不易存儲,同時系統(tǒng)特異性過強(qiáng),不利于物種間的遷移通用。另外,針對短基因序列隨機(jī)噪聲大、特征信息稀少而識別率低等問題,也不能進(jìn)行有效的抑制和解決。
為了克服上述種種問題,國內(nèi)外研究者們在數(shù)字信號處理技術(shù)、基因序列長程相關(guān)性以及統(tǒng)計特征等方面都做了大量的研究和分析,取得了不錯的研究成果。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于變步長最小均方誤差(lms)自適應(yīng)濾波器的基因識別系統(tǒng),提出了變步長lms自適應(yīng)濾波器改進(jìn)算法和多特征加權(quán)融合算法,并將二者集成到同一個基因識別系統(tǒng)中,進(jìn)一步改善其識別性能。
為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
一種基于變步長最小均方誤差自適應(yīng)濾波器的基因識別系統(tǒng),包括變步長lms自適應(yīng)濾波器算法改進(jìn)單元和基因結(jié)構(gòu)多特征加權(quán)融合算法處理單元;所述的變步長lms自適應(yīng)濾波器算法改進(jìn)單元,用于通過變步長lms自適應(yīng)改進(jìn)算法對基因序列進(jìn)行濾波處理,得到隨機(jī)噪聲較少、周期3行為較強(qiáng)的基因特征;所述的基因結(jié)構(gòu)多特征加權(quán)融合算法處理單元,用于通過多特征加權(quán)融合策略,對基因序列進(jìn)行特征提取,從而得到表達(dá)能力更強(qiáng)的特征向量。
研究表明,外顯子編碼區(qū)域?qū)?yīng)的功率譜曲線在其π/3處通常可以觀測到明顯的波峰,而非編碼區(qū)序列對應(yīng)的功率譜曲線則觀測不到如此波峰。假設(shè)系統(tǒng)輸出為y(n),分別定義其一階、二階變量為
e1(n)=y(tǒng)(n)-y(n-1)
e2(n)=e1(n)-e1(n-1)
因為輸出y(n)中的波峰部分通常表示算法預(yù)測的外顯子區(qū)域,對算法識別性能而言至關(guān)重要,所以著重改善算法對波峰曲線上升部分的預(yù)測十分必要。在波峰曲線處于上升階段時,可以適當(dāng)減小步長因子,以提高算法識別的準(zhǔn)確性;而在其他部分,可以適當(dāng)增大步長因子,以促使系統(tǒng)快速收斂并具備更強(qiáng)的實時追蹤能力。依據(jù)函數(shù)微分的幾何定義,曲線從波谷上升到波峰的階段其斜率必有e1(n)>0,而其曲線斜率的變化趨勢可能通常要經(jīng)歷一個由小變大再變小的過程。在曲線斜率增長變快時,希望調(diào)整步長相應(yīng)越小,而曲線斜率增長變慢,則調(diào)整步長相應(yīng)逐漸增大。為了滿足這一要求,提出系統(tǒng)輸出反饋與步長因子新的函數(shù)關(guān)聯(lián)關(guān)系,公式定義如下
其中,u0為初始步長,k為常數(shù),且有1≤k<1/u0λmax,λmax為輸入信號自相關(guān)矩陣最大的特征值。
另外,一般lms自適應(yīng)濾波器基因識別算法研究中,通常定義a、c、g、t四種堿基對應(yīng)的濾波器輸出信號的平方和為y(n),有
y(n)=|ya(n)|2+|yc(n)|2+|yg(n)|2+|yt(n)|2,
在實際情況中,四種堿基對外顯子的預(yù)測結(jié)果的影響可能不盡相同,造成
ya(n),yc(n),yg(n),yt(n)對總輸出y(n)的貢獻(xiàn)比率也應(yīng)該各有不同。由仿真研究表明,堿基g、c的影響貢獻(xiàn)率往往大于堿基a、t的影響,同時引入的噪聲也相對更少。為了清晰表示出這種不同,提出根據(jù)基因序列g(shù)c含量與at含量的比值作為權(quán)重重新定義系統(tǒng)的輸出,即
其中tb>0,分別對應(yīng)四種堿基的加權(quán)系數(shù),且默認(rèn)有tg=tc=1,ta=tt=1。
基因結(jié)構(gòu)多特征加權(quán)融合算法處理單元的主要設(shè)計思想是依據(jù)單一特征在同一統(tǒng)計分析方法下,對基因編碼區(qū)識別的表征能力的強(qiáng)弱或者說影響貢獻(xiàn)的大小,即ac指標(biāo),對所選擇的基因結(jié)構(gòu)多種特征進(jìn)行加權(quán)融合,形成可統(tǒng)一維度大小的復(fù)合特征向量。本系統(tǒng)主要涉及四種編碼區(qū)特征,分別為:堿基組成成分、堿基位置相關(guān)性、密碼子使用頻率以及周期3行為。具體實現(xiàn)步驟如下:
1)、在同一統(tǒng)計分析方法下,分別單獨使用上述提到的四種統(tǒng)計特征,訓(xùn)練判別模型并計算其對應(yīng)的近似相關(guān)系數(shù)(ac)的算法評價指標(biāo),可記作feaaci,0≤i≤3。
2)、選取四種單一特征指標(biāo)最小的值,令各個特征的ac指標(biāo)值分別除以最小指標(biāo)值做歸一化處理,其結(jié)果值作為對應(yīng)特征的權(quán)值,表達(dá)式記為
其中,feaaci分別對應(yīng)上述四種統(tǒng)計特征的ac評估指標(biāo)值,wi表示四種特征歸一化后對應(yīng)的權(quán)系數(shù)。
3)、將四種特征中的每一個特征量與其對應(yīng)的權(quán)值相乘,組合成一個75維的多特征融合向量繼續(xù)用于基因識別的算法研究,表達(dá)式可記為
其中,feaveci表示第i個特征向量,wi表示第i個特征對應(yīng)的權(quán)系數(shù),fusionvec表示加權(quán)融合后的特征向量。注意,這里所有的單一特征分量維數(shù)不盡相同,融合前,需為每一特征量設(shè)定固定填充位置,其余位置用0填充,統(tǒng)一擴(kuò)充到75維。
本發(fā)明具有以下有益效果:
提出了變步長lms自適應(yīng)濾波器改進(jìn)算法和多特征加權(quán)融合算法,并將二者集成到同一個基因識別系統(tǒng)中,進(jìn)一步改善其識別性能。
附圖說明
圖1為本發(fā)明實施例中變步長lms改進(jìn)算法處理過程小結(jié)。
圖2為本發(fā)明實施例中改進(jìn)的多特征加權(quán)融合算法相應(yīng)的處理框圖。
圖3為本發(fā)明實施例中結(jié)合上述兩種算法改進(jìn)的基因識別系統(tǒng)的單序列識別流程圖。
具體實施方式
為了使本發(fā)明的目的及優(yōu)點更加清楚明白,以下結(jié)合實施例對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
研究表明,外顯子編碼區(qū)域?qū)?yīng)的功率譜曲線在其π/3處通??梢杂^測到明顯的波峰,而非編碼區(qū)序列對應(yīng)的功率譜曲線則觀測不到如此波峰。假設(shè)系統(tǒng)輸出為y(n),分別定義其一階、二階變量為
e1(n)=y(tǒng)(n)-y(n-1);
e2(n)=e1(n)-e1(n-1);
因為輸出y(n)中的波峰部分通常表示算法預(yù)測的外顯子區(qū)域,對算法識別性能而言至關(guān)重要,所以著重改善算法對波峰曲線上升部分的預(yù)測十分必要。在波峰曲線處于上升階段時,可以適當(dāng)減小步長因子,以提高算法識別的準(zhǔn)確性;而在其他部分,可以適當(dāng)增大步長因子,以促使系統(tǒng)快速收斂并具備更強(qiáng)的實時追蹤能力。依據(jù)函數(shù)微分的幾何定義,曲線從波谷上升到波峰的階段其斜率必有e1(n)>0,而其曲線斜率的變化趨勢可能通常要經(jīng)歷一個由小變大再變小的過程。在曲線斜率增長變快時,希望調(diào)整步長相應(yīng)越小,而曲線斜率增長變慢,則調(diào)整步長相應(yīng)逐漸增大。為了滿足這一要求,提出系統(tǒng)輸出反饋與步長因子新的函數(shù)關(guān)聯(lián)關(guān)系,公式定義如下
其中,u0為初始步長,k為常數(shù),且有1≤k<1/u0λmax,λmax為輸入信號自相關(guān)矩陣最大的特征值。
另外,一般lms自適應(yīng)濾波器基因識別算法研究中,通常定義a、c、g、t四種堿基對應(yīng)的濾波器輸出信號的平方和為y(n),有
y(n)=|ya(n)|2+|yc(n)|2+|yg(n)|2+|yt(n)|2,
在實際情況中,四種堿基對外顯子的預(yù)測結(jié)果的影響可能不盡相同,造成ya(n),yc(n),yg(n),yt(n)對總輸出y(n)的貢獻(xiàn)比率也應(yīng)該各有不同。由仿真研究表明,堿基g、c的影響貢獻(xiàn)率往往大于堿基a、t的影響,同時引入的噪聲也相對更少。為了清晰表示出這種不同,提出根據(jù)基因序列g(shù)c含量與at含量的比值作為權(quán)重重新定義系統(tǒng)的輸出,即
其中tb>0,分別對應(yīng)四種堿基的加權(quán)系數(shù),且默認(rèn)有tg=tc=1,ta=tt=1。該部分完整的算法處理過程如附圖1所示。
基因結(jié)構(gòu)多特征加權(quán)融合算法處理單元的主要設(shè)計思想是依據(jù)單一特征在同一統(tǒng)計分析方法下,對基因編碼區(qū)識別的表征能力的強(qiáng)弱或者說影響貢獻(xiàn)的大小,即ac指標(biāo),對所選擇的基因結(jié)構(gòu)多種特征進(jìn)行加權(quán)融合,形成可統(tǒng)一維度大小的復(fù)合特征向量。本系統(tǒng)主要涉及四種編碼區(qū)特征,分別為:堿基組成成分、堿基位置相關(guān)性、密碼子使用頻率以及周期3行為。具體實現(xiàn)步驟如下:
1)、在同一統(tǒng)計分析方法下,分別單獨使用上述提到的四種統(tǒng)計特征,訓(xùn)練判別模型并計算其對應(yīng)的近似相關(guān)系數(shù)(ac)的算法評價指標(biāo),可記作feaaci,0≤i≤3。
2)、選取四種單一特征指標(biāo)最小的值,令各個特征的ac指標(biāo)值分別除以最小指標(biāo)值做歸一化處理,其結(jié)果值作為對應(yīng)特征的權(quán)值,表達(dá)式記為
其中,feaaci分別對應(yīng)上述四種統(tǒng)計特征的ac評估指標(biāo)值,wi表示四種特征歸一化后對應(yīng)的權(quán)系數(shù)。
3)、將四種特征中的每一個特征量與其對應(yīng)的權(quán)值相乘,組合成一個75維的多特征融合向量繼續(xù)用于基因識別的算法研究,表達(dá)式可記為
其中,feaveci表示第i個特征向量,wi表示第i個特征對應(yīng)的權(quán)系數(shù),fusionvec表示加權(quán)融合后的特征向量。注意,這里所有的單一特征分量維數(shù)不盡相同,融合前,需為每一特征量設(shè)定固定填充位置,其余位置用0填充,統(tǒng)一擴(kuò)充到75維。算法的相應(yīng)處理過程如附圖2所示。
實施例
以單條dna序列輸入為例,默認(rèn)系統(tǒng)已經(jīng)預(yù)先從配置文件中加載了相關(guān)模型的訓(xùn)練參數(shù)值,其識別流程如圖3所示。系統(tǒng)開始每次讀取一條未知的輸入序列,先統(tǒng)計其中a、c、g、t四種堿基的組成成份,計算gc含量與at含量的比值,更新各堿基對應(yīng)濾波器輸出的權(quán)值并保存,以便于在計算序列n/3處總功率譜或信噪比值時,對單一堿基的濾波器功率譜輸出加權(quán)。再以單個堿基為步長滑動處理,每向前滑動一個堿基位置,判斷是否抵達(dá)序列的終點,如果反饋結(jié)果為是,說明整條序列已經(jīng)處理完備,系統(tǒng)會自動對其進(jìn)行一些必要的后處理,再輸出預(yù)測結(jié)果,并退出程序;如果反饋為否,會以該位置為中心,截取長度為m的序列片段(假如長度不足m,系統(tǒng)默認(rèn)會以對稱和隨機(jī)原則生成相關(guān)堿基加以補(bǔ)充),可以用多線程同時計算上述四種特征向量,其中對于周期3特征向量的計算,從流程圖可以看到,是由lms自適應(yīng)濾波處理之后,再由第一步保存的濾波器輸出權(quán)值加權(quán)求和而成(參照圖1所示算法處理過程)。然后加權(quán)融合四種特征量(加權(quán)融合算法參照圖2所示框圖),獲得對應(yīng)的多維特征向量,計算fisher線性分類結(jié)果,與訓(xùn)練的閾值比較,如果大于,則相應(yīng)位置堿基用1替代,否則用0替代。之后,向前滑動一個堿基位置,繼續(xù)上述處理。
關(guān)于系統(tǒng)模型參數(shù)的訓(xùn)練,圖3表示的系統(tǒng)中因為涉及到多特征融合和fisher線性判別分類器,需要訓(xùn)練保存的參數(shù)值比較多,如上述四種特征融合的權(quán)值參數(shù),75維的fisher分類器的權(quán)值向量以及一個用于二值化預(yù)測結(jié)果的閾值參數(shù)。其訓(xùn)練策略采用5折交叉驗證,即獲取足夠量的特定種類的基因標(biāo)記序列數(shù)據(jù)集,隨機(jī)均分為5個互不相交的子集,每次抽取一組子集作為測試數(shù)據(jù)集,其余混合用于訓(xùn)練模型。按標(biāo)記抽取訓(xùn)練集中的編碼區(qū),作為外顯子訓(xùn)練數(shù)據(jù)集,其他剩余的非編碼部分統(tǒng)一作為內(nèi)含子訓(xùn)練數(shù)據(jù)集。測試集也依此處理。依照圖2所示的多特征提取和加權(quán)融合的算法處理過程,訓(xùn)練、保存模型參數(shù),再在測試集上進(jìn)行評估,記錄其對應(yīng)的近似相關(guān)系數(shù)指標(biāo)ac值。5次循環(huán)操作之后,選擇ac指標(biāo)最大的那組,即平均測試誤差最小的組作為系統(tǒng)的模型參數(shù),寫入系統(tǒng)配置文件。
關(guān)于fisher線性分類閾值模型的選擇,采用已有的概率平均法,即分別求出訓(xùn)練集中所有外顯子和內(nèi)含子對應(yīng)的特征評估值的平均值與標(biāo)準(zhǔn)偏差,如功率譜、信噪比等,按類別相乘再求和,并除以外顯子和內(nèi)含子的平均值之和,其比值即為所得到的閾值參數(shù)。
為了完整說明我們實現(xiàn)的基因識別系統(tǒng),在上述兩種改進(jìn)單元之外,需要再引入兩個處理單元,分別為基因數(shù)據(jù)預(yù)處理單元和預(yù)測結(jié)果輸出單元。所述的基因數(shù)據(jù)預(yù)處理單元,主要是對獲取的dna序列進(jìn)行必要的預(yù)處理操作,如序列中含有未知堿基n或者n,則通過隨機(jī)概率生成的方式,將其以a、c、g、t四種堿基的某一項作替換;如序列長度低于某一閾值,則通過不斷復(fù)制拼接原序列的方式擴(kuò)展序列長度,最后拼接進(jìn)去的原序列,如果使總長度大于閾值,則多余的部分直接截斷舍棄,如果總長度尚小于閾值,不足的部分則以隨機(jī)概率生成的方式進(jìn)行補(bǔ)充。然后將處理后的基因數(shù)據(jù)作為系統(tǒng)的輸入數(shù)據(jù)。所述的預(yù)測結(jié)果輸出單元,主要利用提取到的特征向量進(jìn)行預(yù)測,并做必要的后處理操作,即先給定特定閾值,用0、1元素二值化預(yù)測結(jié)果(1表示是外顯子編碼區(qū)中堿基,0表示是非編碼區(qū)中的堿基),再把預(yù)測結(jié)果中,兩處連1之間相夾的長度小于30bp的連0重置為1,最后將長度小于30bp的連1重置為0,統(tǒng)計記錄各個連1區(qū)間的起始和終止位置,作為匹配的外顯子預(yù)測范圍輸出
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。