本發(fā)明涉及rna修飾點位識別預(yù)測,特別是涉及一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法及系統(tǒng)。
背景技術(shù):
1、核糖2′-o-甲基化是最常見和最廣泛的rna修飾類型之一,常見于核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、小核仁rna(snrna)以及信使rna(mrna)中。該修飾包括核糖2′-oh部分的甲基化(甲基ch的酶促轉(zhuǎn)移3-從甲基供體到rna底物的基團(tuán)),因此可以出現(xiàn)在所有4個核苷酸和其他非經(jīng)典核苷酸中。由于這種甲基化修飾(記作“m”)可以發(fā)生于a/u/g/c(記作“n”)中的任何一種核苷酸殘基的核糖2’-oh上,即可能為2'-o-甲基腺苷(am),2'-o-甲基鳥苷(gm),2'-o-甲基胞苷(cm)和2'-o-甲基尿苷(um)中的任意一種,故又被稱為“nm修飾或2om修飾”。微觀來看,2om以多種方式影響rna,因為它可以增加rna的疏水性,保護(hù)它們免受核酸酶的攻擊,穩(wěn)定螺旋結(jié)構(gòu),并影響它們與蛋白質(zhì)或其他rna的相互作用。例如,添加2om修飾可以破壞rna的三級結(jié)構(gòu),并通過空間效應(yīng)或通過影響氫鍵,抑制rna-蛋白質(zhì)相互作用。宏觀來看,2om修飾和疾病息息相關(guān),如智力障礙,癌癥等。例如,rrna的2om參與修飾的酶是ftsj2,它是ftsj1的兩個旁系同源之一,ftsj2與細(xì)胞增殖有關(guān),并在不同的癌細(xì)胞系中過表達(dá),特別是在肺癌細(xì)胞中。
2、現(xiàn)有的rna2om修飾檢測方法依賴于復(fù)雜的生物技術(shù)手段,如液相色譜聯(lián)用質(zhì)譜(lc/ms)和二維薄層色譜(2d-tlc)等經(jīng)典生物化學(xué)方法,但這些方法是需要使用到許多人力資源,需要專門的工具,可能會損壞rna樣品,需要消耗比較大量的rna樣本。后來的傳統(tǒng)機(jī)器模型可以更方便快捷地對于mrna的ac4c位點進(jìn)行測序,如基于支持向量機(jī)(svm)的模型,利用核苷酸化學(xué)性質(zhì)和核苷酸組成對rna序列進(jìn)行編碼,從而識別2′-o-甲基化位點;基于隨機(jī)森林(rf)和組合多種編碼方案的預(yù)測模型;基于特征選擇和極限梯度提升分類器、支持向量機(jī)的預(yù)測模型。
3、因此,傳統(tǒng)的2om修飾檢測方法大多完全依賴于手工提取特征和傳統(tǒng)的機(jī)器學(xué)習(xí)模型,實驗既昂貴又耗時,并且準(zhǔn)確度較低。
技術(shù)實現(xiàn)思路
1、基于此,為了解決上述技術(shù)問題,提供一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法及系統(tǒng),可以提高2om甲基化修飾位點識別的準(zhǔn)確度,降低成本。
2、一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法,所述方法包括:
3、采集rna序列,并對所述rna序列的編碼方式進(jìn)行轉(zhuǎn)換,得到序列特征;
4、將所述序列特征進(jìn)行拼接,得到多維度序列特征,并將所述多維度序列特征輸入至anova特征選擇算法中;
5、通過所述anova特征選擇算法降低所述多維度序列特征的維度,并計算所述多維度序列特征以及目標(biāo)變量的方差分析的統(tǒng)計量值,基于所述統(tǒng)計量值進(jìn)行特征選擇,得到輸入特征;
6、對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中,通過所述第一分類器進(jìn)行激活、池化處理,并經(jīng)過多頭自注意力機(jī)制處理后輸出分類結(jié)果;對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,通過所述第二分類器中的dropout層、線性層進(jìn)行數(shù)據(jù)處理,并經(jīng)過sigmoid層處理后輸出分類結(jié)果;
7、基于所述分類結(jié)果確定2om甲基化修飾位點識別結(jié)果。
8、在其中一個實施例中,所述方法還包括:
9、采集包含有2om位點的序列作為數(shù)據(jù)集;
10、基于所述數(shù)據(jù)集,從每個2om位點的上游和下游各選擇20bp的核苷酸窗口大小作為陽性樣本;
11、基于所述數(shù)據(jù)集,從每個2om位點的遠(yuǎn)端隨機(jī)選擇41bp的核苷酸窗口大小作為陰性樣本;
12、通過下采樣將所述陽性樣本、陰性樣本轉(zhuǎn)換為比例數(shù)據(jù)集,并將所述比例數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集。
13、在其中一個實施例中,所述方法還包括:
14、根據(jù)2om位點修飾堿基的不同,將所述比例數(shù)據(jù)集劃分為a、u、c、g四個子集;
15、修飾位點在c上的rna序列為c子集;修飾位點在a、g、u上的rna序列分別為a、g、u子集。
16、在其中一個實施例中,對所述rna序列的編碼方式進(jìn)行轉(zhuǎn)換,得到序列特征,包括:
17、將rna序列文本轉(zhuǎn)換成anf、ncp、pseknc、pseeiip、ps2、dpcp_2、k-mer、enac的編碼方式,得到特征向量。
18、在其中一個實施例中,通過所述anova特征選擇算法計算所述多維度序列特征以及目標(biāo)變量的方差分析的統(tǒng)計量值,包括:
19、通過所述anova特征選擇算法將所述多維度序列特征劃分為若干個特征組;
20、計算各個所述特征組的組間均方、組內(nèi)均方;
21、根據(jù)所述組間均方、組內(nèi)均方,基于目標(biāo)變量計算統(tǒng)計量值。
22、在其中一個實施例中,對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中,通過所述第一分類器進(jìn)行激活、池化處理,并經(jīng)過多頭自注意力機(jī)制處理后輸出分類結(jié)果,包括:
23、對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中進(jìn)入卷積層,通過輸出通道輸出卷積后的數(shù)據(jù);
24、將所述卷積后的數(shù)據(jù)經(jīng)過relu激活和最大池化處理,輸出張量;
25、將輸出的張量輸入至多頭自注意力機(jī)制中,并通過全連接層處理后得到分類結(jié)果。
26、在其中一個實施例中,對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,通過所述第二分類器中的dropout層、線性層進(jìn)行數(shù)據(jù)處理,并經(jīng)過sigmoid層處理后輸出分類結(jié)果,包括:
27、對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,并在所述第二分類器中的dropout層設(shè)置丟棄比例;
28、所述輸入特征經(jīng)過所述dropout層,基于所述丟棄比例對所述輸入特征進(jìn)行處理,并將處理后的特征輸入至線性層、sigmoid層處理,得到分類結(jié)果。
29、在其中一個實施例中,所述基于所述分類結(jié)果確定2om甲基化修飾位點識別結(jié)果,包括:
30、獲取分?jǐn)?shù)閾值,將所述分類結(jié)果與所述分?jǐn)?shù)閾值進(jìn)行比較,得到比較結(jié)果;
31、若所述比較結(jié)果為所述分類結(jié)果高于所述分?jǐn)?shù)閾值,則確定2om甲基化修飾位點識別結(jié)果為陽性;
32、若所述比較結(jié)果為所述分類結(jié)果不高于所述分類閾值,則確定2om甲基化修飾位點識別結(jié)果為陰性。
33、一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別系統(tǒng),所述系統(tǒng)包括:
34、特征轉(zhuǎn)換模塊,用于采集rna序列,并對所述rna序列的編碼方式進(jìn)行轉(zhuǎn)換,得到序列特征;
35、特征拼接模塊,用于將所述序列特征進(jìn)行拼接,得到多維度序列特征,并將所述多維度序列特征輸入至anova特征選擇算法中;
36、特征選擇模塊,用于通過所述anova特征選擇算法降低所述多維度序列特征的維度,并計算所述多維度序列特征以及目標(biāo)變量的方差分析的統(tǒng)計量值,基于所述統(tǒng)計量值進(jìn)行特征選擇,得到輸入特征;
37、分類模塊,用于對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中,通過所述第一分類器進(jìn)行激活、池化處理,并經(jīng)過多頭自注意力機(jī)制處理后輸出分類結(jié)果;對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,通過所述第二分類器中的dropout層、線性層進(jìn)行數(shù)據(jù)處理,并經(jīng)過sigmoid層處理后輸出分類結(jié)果;
38、識別模塊,用于基于所述分類結(jié)果確定2om甲基化修飾位點識別結(jié)果。
39、上述基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法及系統(tǒng),通過anova特征選擇算法對輸入的特征進(jìn)行降維,基于方差分析來選擇特征,對于不同位置的2om位點數(shù)據(jù)采用不同的分類器進(jìn)行處理,從而提高2om甲基化修飾位點的識別準(zhǔn)確度。