一種人類基因啟動子識別方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種人類基因啟動子識別方法及裝置,現(xiàn)有技術(shù)中典型的非啟動子具體包括外顯子、內(nèi)含子和3’-UTR,因此本申請預(yù)先分別構(gòu)建預(yù)設(shè)啟動子-外顯子分類器、預(yù)設(shè)啟動子-內(nèi)含子分類器和預(yù)設(shè)啟動子-3’-UTR分類器,相對于傳統(tǒng)的啟動子-非啟動子的分類器,由于每個分類器中只有兩個類別,不會出現(xiàn)交叉分類的情況,所以分類性能顯著提高。并且分類器的基因訓(xùn)練序列中啟動子與外顯子的數(shù)量一致,啟動子與內(nèi)含子的數(shù)量一致,啟動子與3’-UTR的數(shù)量一致,因此保證每個分類器中啟動子和非啟動子樣本平衡,使得分類器能夠依據(jù)平衡樣本進行分類,因此能夠準(zhǔn)確識別啟動子,解決現(xiàn)有技術(shù)中假陽性的問題,進而提高分類器的分類性能。
【專利說明】一種人類基因啟動子識別方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自動化【技術(shù)領(lǐng)域】,尤其涉及一種人類基因啟動子識別方法及裝置。
【背景技術(shù)】
[0002] 目前,研宄人類基因表達調(diào)控已然成為一個極具挑戰(zhàn)性的研宄方向,其中啟動子 識別對整個基因組功能的詮釋具有重要作用,因此如何又好又快地識別人類啟動子,已成 為一個熱點研宄領(lǐng)域,越來越多的研宄人員利用生物信息學(xué)的方法通過計算機技術(shù)來預(yù)測 與識別啟動子。利用計算機技術(shù)識別啟動子依賴于DNA的特征,DNA的特征有撓性、剛性和 柔性等特征,這些特征均從三維空間提取的特征。
[0003] 現(xiàn)有技術(shù)中利用計算機識別啟動子和非啟動子的方法有:在啟動子和非啟動子上 提取基因剛性特征集,然后利用SVM分類器進行啟動子和非啟動子識別。但在SVM分類器 的數(shù)據(jù)集中啟動子與非啟動子的樣本比例相差較大,啟動子的序列數(shù)遠小于非啟動子的序 列數(shù),導(dǎo)致SVM分類器中樣本不平衡,易出現(xiàn)誤將非啟動子識別為啟動子情況,即現(xiàn)有技術(shù) 的分類方法具有較大的假陽性。此外,由于非啟動子內(nèi)部還有不同的分類,且各個類別的性 質(zhì)不同,容易導(dǎo)致啟動子分類錯誤。
[0004] 因此現(xiàn)在需要一種新的識別方法,能夠準(zhǔn)確識別啟動子,提高分類器的分類性能 和分類效率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種人類基因啟動子識別方法及裝置,本申請能夠準(zhǔn)確識別啟動 子,提高分類器的分類性能。
[0006] 為了實現(xiàn)上述目的,本發(fā)明提供了以下技術(shù)手段:
[0007] 一種人類基因啟動子識別方法,包括:
[0008] 對基因測試序列進行特征提取、獲得特征向量;
[0009] 將所述特征向量分別輸入至預(yù)設(shè)啟動子-外顯子分類器、預(yù)設(shè)啟動子-內(nèi)含子分 類器和預(yù)設(shè)啟動子-3' -UTR分類器,其中,三個分類器的基因訓(xùn)練序列中啟動子與外顯子 的數(shù)量一致、啟動子與內(nèi)含子的數(shù)量一致,啟動子與3' -UTR的數(shù)量一致;
[0010] 當(dāng)有至少兩個分類器判定所述特征向量為啟動子時,則確定所述基因測試序列為 啟動子。
[0011] 優(yōu)選的,還包括:
[0012] 當(dāng)有至少兩個分類器判定所述特征向量為非啟動子時,確定所述基因測試序列為 非啟動子。
[0013] 優(yōu)選的,還包括:
[0014] 預(yù)先構(gòu)建所述預(yù)設(shè)啟動子-外顯子分類器、所述預(yù)設(shè)啟動子-內(nèi)含子分類器和所 述預(yù)設(shè)啟動子-3' -UTR分類器。
[0015] 優(yōu)選的,所述預(yù)先構(gòu)建所述預(yù)設(shè)啟動子-外顯子分類器、所述預(yù)設(shè)啟動子-內(nèi)含子 分類器和所述預(yù)設(shè)啟動子-3' -UTR分類器包括:
[0016] 分別獲取類別為啟動子、外顯子、內(nèi)含子和3' -UTR的基因訓(xùn)練序列組,且各個類 別的基因訓(xùn)練序列的數(shù)量一致;
[0017] 分別對四個基因訓(xùn)練序列組進行特征提取,獲得四個訓(xùn)練特征向量組;
[0018] 將四個訓(xùn)練特征向量組按類別分為啟動子-外顯子數(shù)據(jù)集、啟動子-內(nèi)含子數(shù)據(jù) 集和啟動子-3' -UTR數(shù)據(jù)集;
[0019] 采用三個SVM分類器分別對啟動子-外顯子數(shù)據(jù)集、啟動子-內(nèi)含子數(shù)據(jù)集和啟 動子-3'-UTR數(shù)據(jù)集進行訓(xùn)練,獲得所述預(yù)設(shè)啟動子-外顯子分類器、所述預(yù)設(shè)啟動子-內(nèi) 含子分類器和所述預(yù)設(shè)啟動子-3' -UTR分類器。
[0020] 優(yōu)選的,所述對基因測試序列進行特征提取、獲得特征向量包括:
[0021] 利用三核苷酸模型以及以下公式對基因測試序列進行特征提??;
[0022] 從基因測試序列的起始位置計算6-mer(6個堿基長序列)的剛性值,令剛性特征 訓(xùn)練數(shù)據(jù)集為
[0023] 其τ
【權(quán)利要求】
1. 一種人類基因啟動子識別方法,其特征在于,包括: 對基因測試序列進行特征提取、獲得特征向量; 將所述特征向量分別輸入至預(yù)設(shè)啟動子-外顯子分類器、預(yù)設(shè)啟動子-內(nèi)含子分類器 和預(yù)設(shè)啟動子-3' -UTR分類器,其中,三個分類器的基因訓(xùn)練序列中啟動子與外顯子的數(shù) 量一致、啟動子與內(nèi)含子的數(shù)量一致,啟動子與3' -UTR的數(shù)量一致; 當(dāng)有至少兩個分類器判定所述特征向量為啟動子時,則確定所述基因測試序列為啟動 子。
2. 如權(quán)利要求1所述的方法,其特征在于,還包括: 當(dāng)有至少兩個分類器判定所述特征向量為非啟動子時,確定所述基因測試序列為非啟 動子。
3. 如權(quán)利要求1所述的方法,其特征在于,還包括: 預(yù)先構(gòu)建所述預(yù)設(shè)啟動子-外顯子分類器、所述預(yù)設(shè)啟動子-內(nèi)含子分類器和所述預(yù) 設(shè)啟動子-3' -UTR分類器。
4. 如權(quán)利要求3所述的方法,其特征在于,所述預(yù)先構(gòu)建所述預(yù)設(shè)啟動子-外顯子分類 器、所述預(yù)設(shè)啟動子-內(nèi)含子分類器和所述預(yù)設(shè)啟動子-3' -UTR分類器包括: 分別獲取類別為啟動子、外顯子、內(nèi)含子和3' -UTR的基因訓(xùn)練序列組,且各個類別的 基因訓(xùn)練序列的數(shù)量一致; 分別對四個基因訓(xùn)練序列組進行特征提取,獲得四個訓(xùn)練特征向量組; 將四個訓(xùn)練特征向量組按類別分為啟動子-外顯子數(shù)據(jù)集、啟動子-內(nèi)含子數(shù)據(jù)集和 啟動子-3' -UTR數(shù)據(jù)集; 采用三個SVM分類器分別對啟動子-外顯子數(shù)據(jù)集、啟動子-內(nèi)含子數(shù)據(jù)集和啟動 子-3'-UTR數(shù)據(jù)集進行訓(xùn)練,獲得所述預(yù)設(shè)啟動子-外顯子分類器、所述預(yù)設(shè)啟動子-內(nèi)含 子分類器和所述預(yù)設(shè)啟動子-3' -UTR分類器。
5. 如權(quán)利要求1、2或3所述的方法,其特征在于,所述對基因測試序列進行特征提取、 獲得特征向量包括: 利用三核苷酸模型以及以下公式對基因測試序列進行特征提??; 從基因測試序列的起始位置計算6-mer(6個堿基長序列)的剛性值,令剛性特征訓(xùn)練 數(shù)據(jù)集為4=把,乃 其中f€,···,.為基因測試序列在第i個位置時的剛性值, ,tk是每個重疊的三核苷酸在第j個堿基位置的剛性參數(shù)值,i= 1、2……L,為 k=j 基因序列的長度,j(j= 1,2, 一,LI)是位置索引。
6. -種人類基因啟動子識別裝置,其特征在于,包括: 提取單元,用于對基因測試序列進行特征提取、獲得特征向量; 分類單元,用于將所述特征向量分別輸入至預(yù)設(shè)啟動子-外顯子分類器、預(yù)設(shè)啟動 子-內(nèi)含子分類器和預(yù)設(shè)啟動子-3 '-UTR分類器,其中,三個分類器的基因訓(xùn)練序列中啟動 子與外顯子的數(shù)量一致、啟動子與內(nèi)含子的數(shù)量一致,啟動子與3' -UTR的數(shù)量一致; 第一確定單元,用于當(dāng)有至少兩個分類器判定所述特征向量為啟動子時,則確定所述 基因測試序列為啟動子。
7. 如權(quán)利要求6所述的裝置,其特征在于,還包括: 第二確定單元,用于當(dāng)有至少兩個分類器判定所述特征向量為非啟動子時,確定所述 基因測試序列為非啟動子。
8. 如權(quán)利要求6所述的裝置,其特征在于,還包括: 構(gòu)建單元,用于預(yù)先構(gòu)建所述預(yù)設(shè)啟動子-外顯子分類器、所述預(yù)設(shè)啟動子-內(nèi)含子分 類器和所述預(yù)設(shè)啟動子-3' -UTR分類器。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述構(gòu)建單元包括: 獲取單元,用于分別獲取類別為啟動子、外顯子、內(nèi)含子和3' -UTR的基因訓(xùn)練序列組, 且各個類別的基因訓(xùn)練序列的數(shù)量一致; 特征分類單元,用于分別對四個基因訓(xùn)練序列組進行特征提取,獲得四個訓(xùn)練特征向 量組;將四個訓(xùn)練特征向量組按類別分為啟動子-外顯子數(shù)據(jù)集、啟動子-內(nèi)含子數(shù)據(jù)集和 啟動子-3' -UTR數(shù)據(jù)集; 訓(xùn)練單元,用于采用三個SVM分類器分別對啟動子-外顯子數(shù)據(jù)集、啟動子-內(nèi)含子數(shù) 據(jù)集和啟動子-3'_UTR數(shù)據(jù)集進行訓(xùn)練,獲得所述預(yù)設(shè)啟動子-外顯子分類器、所述預(yù)設(shè)啟 動子-內(nèi)含子分類器和所述預(yù)設(shè)啟動子-3' -UTR分類器。
10. 如權(quán)利要求6所述的裝置,其特征在于,提取單元對基因測試序列進行特征提取、 獲得特征向量具體包括: 利用三核苷酸模型以及以下公式對基因測試序列進行特征提?。粡幕驕y試序列的起 始位置計算6-mer(6個堿基長序列)的剛性值,令剛性特征訓(xùn)練數(shù)據(jù)集為={壙,乃}二; 其中if5為基因測試序列在第i個位置時的剛性值,,tk 是每個重疊的三核苷酸在第j個堿基位置的剛性參數(shù)值,i= 1、2……L,為基因序列的長 度,j(j= 1,2,…,L-5)是位置索引。
【文檔編號】G06F19/24GK104462870SQ201510011796
【公開日】2015年3月25日 申請日期:2015年1月9日 優(yōu)先權(quán)日:2015年1月9日
【發(fā)明者】張莉, 徐文軒, 魯亞平, 王邦軍, 張召, 李凡長, 楊季文 申請人:蘇州大學(xué)