欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2OM甲基化修飾位點識別方法及系統(tǒng)

文檔序號:40529483發(fā)布日期:2024-12-31 13:41閱讀:12來源:國知局
基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2OM甲基化修飾位點識別方法及系統(tǒng)

本發(fā)明涉及rna修飾點位識別預(yù)測,特別是涉及一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法及系統(tǒng)。


背景技術(shù):

1、核糖2′-o-甲基化是最常見和最廣泛的rna修飾類型之一,常見于核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、小核仁rna(snrna)以及信使rna(mrna)中。該修飾包括核糖2′-oh部分的甲基化(甲基ch的酶促轉(zhuǎn)移3-從甲基供體到rna底物的基團(tuán)),因此可以出現(xiàn)在所有4個核苷酸和其他非經(jīng)典核苷酸中。由于這種甲基化修飾(記作“m”)可以發(fā)生于a/u/g/c(記作“n”)中的任何一種核苷酸殘基的核糖2’-oh上,即可能為2'-o-甲基腺苷(am),2'-o-甲基鳥苷(gm),2'-o-甲基胞苷(cm)和2'-o-甲基尿苷(um)中的任意一種,故又被稱為“nm修飾或2om修飾”。微觀來看,2om以多種方式影響rna,因為它可以增加rna的疏水性,保護(hù)它們免受核酸酶的攻擊,穩(wěn)定螺旋結(jié)構(gòu),并影響它們與蛋白質(zhì)或其他rna的相互作用。例如,添加2om修飾可以破壞rna的三級結(jié)構(gòu),并通過空間效應(yīng)或通過影響氫鍵,抑制rna-蛋白質(zhì)相互作用。宏觀來看,2om修飾和疾病息息相關(guān),如智力障礙,癌癥等。例如,rrna的2om參與修飾的酶是ftsj2,它是ftsj1的兩個旁系同源之一,ftsj2與細(xì)胞增殖有關(guān),并在不同的癌細(xì)胞系中過表達(dá),特別是在肺癌細(xì)胞中。

2、現(xiàn)有的rna2om修飾檢測方法依賴于復(fù)雜的生物技術(shù)手段,如液相色譜聯(lián)用質(zhì)譜(lc/ms)和二維薄層色譜(2d-tlc)等經(jīng)典生物化學(xué)方法,但這些方法是需要使用到許多人力資源,需要專門的工具,可能會損壞rna樣品,需要消耗比較大量的rna樣本。后來的傳統(tǒng)機(jī)器模型可以更方便快捷地對于mrna的ac4c位點進(jìn)行測序,如基于支持向量機(jī)(svm)的模型,利用核苷酸化學(xué)性質(zhì)和核苷酸組成對rna序列進(jìn)行編碼,從而識別2′-o-甲基化位點;基于隨機(jī)森林(rf)和組合多種編碼方案的預(yù)測模型;基于特征選擇和極限梯度提升分類器、支持向量機(jī)的預(yù)測模型。

3、因此,傳統(tǒng)的2om修飾檢測方法大多完全依賴于手工提取特征和傳統(tǒng)的機(jī)器學(xué)習(xí)模型,實驗既昂貴又耗時,并且準(zhǔn)確度較低。


技術(shù)實現(xiàn)思路

1、基于此,為了解決上述技術(shù)問題,提供一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法及系統(tǒng),可以提高2om甲基化修飾位點識別的準(zhǔn)確度,降低成本。

2、一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法,所述方法包括:

3、采集rna序列,并對所述rna序列的編碼方式進(jìn)行轉(zhuǎn)換,得到序列特征;

4、將所述序列特征進(jìn)行拼接,得到多維度序列特征,并將所述多維度序列特征輸入至anova特征選擇算法中;

5、通過所述anova特征選擇算法降低所述多維度序列特征的維度,并計算所述多維度序列特征以及目標(biāo)變量的方差分析的統(tǒng)計量值,基于所述統(tǒng)計量值進(jìn)行特征選擇,得到輸入特征;

6、對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中,通過所述第一分類器進(jìn)行激活、池化處理,并經(jīng)過多頭自注意力機(jī)制處理后輸出分類結(jié)果;對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,通過所述第二分類器中的dropout層、線性層進(jìn)行數(shù)據(jù)處理,并經(jīng)過sigmoid層處理后輸出分類結(jié)果;

7、基于所述分類結(jié)果確定2om甲基化修飾位點識別結(jié)果。

8、在其中一個實施例中,所述方法還包括:

9、采集包含有2om位點的序列作為數(shù)據(jù)集;

10、基于所述數(shù)據(jù)集,從每個2om位點的上游和下游各選擇20bp的核苷酸窗口大小作為陽性樣本;

11、基于所述數(shù)據(jù)集,從每個2om位點的遠(yuǎn)端隨機(jī)選擇41bp的核苷酸窗口大小作為陰性樣本;

12、通過下采樣將所述陽性樣本、陰性樣本轉(zhuǎn)換為比例數(shù)據(jù)集,并將所述比例數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集。

13、在其中一個實施例中,所述方法還包括:

14、根據(jù)2om位點修飾堿基的不同,將所述比例數(shù)據(jù)集劃分為a、u、c、g四個子集;

15、修飾位點在c上的rna序列為c子集;修飾位點在a、g、u上的rna序列分別為a、g、u子集。

16、在其中一個實施例中,對所述rna序列的編碼方式進(jìn)行轉(zhuǎn)換,得到序列特征,包括:

17、將rna序列文本轉(zhuǎn)換成anf、ncp、pseknc、pseeiip、ps2、dpcp_2、k-mer、enac的編碼方式,得到特征向量。

18、在其中一個實施例中,通過所述anova特征選擇算法計算所述多維度序列特征以及目標(biāo)變量的方差分析的統(tǒng)計量值,包括:

19、通過所述anova特征選擇算法將所述多維度序列特征劃分為若干個特征組;

20、計算各個所述特征組的組間均方、組內(nèi)均方;

21、根據(jù)所述組間均方、組內(nèi)均方,基于目標(biāo)變量計算統(tǒng)計量值。

22、在其中一個實施例中,對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中,通過所述第一分類器進(jìn)行激活、池化處理,并經(jīng)過多頭自注意力機(jī)制處理后輸出分類結(jié)果,包括:

23、對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中進(jìn)入卷積層,通過輸出通道輸出卷積后的數(shù)據(jù);

24、將所述卷積后的數(shù)據(jù)經(jīng)過relu激活和最大池化處理,輸出張量;

25、將輸出的張量輸入至多頭自注意力機(jī)制中,并通過全連接層處理后得到分類結(jié)果。

26、在其中一個實施例中,對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,通過所述第二分類器中的dropout層、線性層進(jìn)行數(shù)據(jù)處理,并經(jīng)過sigmoid層處理后輸出分類結(jié)果,包括:

27、對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,并在所述第二分類器中的dropout層設(shè)置丟棄比例;

28、所述輸入特征經(jīng)過所述dropout層,基于所述丟棄比例對所述輸入特征進(jìn)行處理,并將處理后的特征輸入至線性層、sigmoid層處理,得到分類結(jié)果。

29、在其中一個實施例中,所述基于所述分類結(jié)果確定2om甲基化修飾位點識別結(jié)果,包括:

30、獲取分?jǐn)?shù)閾值,將所述分類結(jié)果與所述分?jǐn)?shù)閾值進(jìn)行比較,得到比較結(jié)果;

31、若所述比較結(jié)果為所述分類結(jié)果高于所述分?jǐn)?shù)閾值,則確定2om甲基化修飾位點識別結(jié)果為陽性;

32、若所述比較結(jié)果為所述分類結(jié)果不高于所述分類閾值,則確定2om甲基化修飾位點識別結(jié)果為陰性。

33、一種基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別系統(tǒng),所述系統(tǒng)包括:

34、特征轉(zhuǎn)換模塊,用于采集rna序列,并對所述rna序列的編碼方式進(jìn)行轉(zhuǎn)換,得到序列特征;

35、特征拼接模塊,用于將所述序列特征進(jìn)行拼接,得到多維度序列特征,并將所述多維度序列特征輸入至anova特征選擇算法中;

36、特征選擇模塊,用于通過所述anova特征選擇算法降低所述多維度序列特征的維度,并計算所述多維度序列特征以及目標(biāo)變量的方差分析的統(tǒng)計量值,基于所述統(tǒng)計量值進(jìn)行特征選擇,得到輸入特征;

37、分類模塊,用于對于修飾位點在c上的rna序列,將所述輸入特征輸入至第一分類器中,通過所述第一分類器進(jìn)行激活、池化處理,并經(jīng)過多頭自注意力機(jī)制處理后輸出分類結(jié)果;對于修飾位點在a、g、u上的rna序列,將所述輸入特征輸入至第二分類器中,通過所述第二分類器中的dropout層、線性層進(jìn)行數(shù)據(jù)處理,并經(jīng)過sigmoid層處理后輸出分類結(jié)果;

38、識別模塊,用于基于所述分類結(jié)果確定2om甲基化修飾位點識別結(jié)果。

39、上述基于特征選擇和深度神經(jīng)網(wǎng)絡(luò)的2om甲基化修飾位點識別方法及系統(tǒng),通過anova特征選擇算法對輸入的特征進(jìn)行降維,基于方差分析來選擇特征,對于不同位置的2om位點數(shù)據(jù)采用不同的分類器進(jìn)行處理,從而提高2om甲基化修飾位點的識別準(zhǔn)確度。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南漳县| 惠东县| 突泉县| 虞城县| 含山县| 莱州市| 巴彦淖尔市| 兴城市| 桦南县| 河曲县| 开鲁县| 宁城县| 扎囊县| 嘉峪关市| 佛山市| 吴江市| 湾仔区| 东乡族自治县| 贵州省| 古田县| 金山区| 云梦县| 怀仁县| 临桂县| 岳阳市| 莱州市| 镇原县| 德钦县| 嫩江县| 从化市| 淮滨县| 聊城市| 康保县| 阿城市| 内黄县| 丁青县| 凤山县| 北宁市| 远安县| 百色市| 电白县|