欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于RNAErnie預(yù)訓(xùn)練模型的RNAN4-乙酰胞苷修飾位點(diǎn)預(yù)測方法及系統(tǒng)

文檔序號:40613045發(fā)布日期:2025-01-07 20:59閱讀:15來源:國知局
基于RNAErnie預(yù)訓(xùn)練模型的RNA N4-乙酰胞苷修飾位點(diǎn)預(yù)測方法及系統(tǒng)

本發(fā)明涉及生物信息,特別是涉及一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測方法及系統(tǒng)。


背景技術(shù):

1、迄今為止,在rna中已經(jīng)發(fā)現(xiàn)了超過170種修飾的核苷。rna的轉(zhuǎn)錄后化學(xué)修飾,統(tǒng)稱為“表轉(zhuǎn)錄組”,對基因表達(dá)和細(xì)胞過程具有實(shí)質(zhì)性影響,在分子相互作用和分子間關(guān)系中起著重要作用。n4-乙酰胞苷(ac4c)是由酶nat10催化的常見類型,在胞苷堿基的第四位的氮上添加乙酰基。最初在真核生物和原核生物的trna和rrna中發(fā)現(xiàn)了ac4c,目前的研究還確定了ac4c存在于人類mrna中,它可以提高翻譯效率,增強(qiáng)mrna穩(wěn)定性,并調(diào)節(jié)基因表達(dá)。此外,越來越多的證據(jù)表明,ac4c與多種人類疾病有關(guān),包括炎癥、代謝紊亂、自身免疫性疾病和癌癥等??傊?,ac4c修飾作為rna的關(guān)鍵轉(zhuǎn)錄后修飾,在細(xì)胞功能和疾病過程中發(fā)揮重要作用。探討rna-ac4c修飾位點(diǎn)的功能和機(jī)制對于闡明其生物學(xué)意義和推進(jìn)相關(guān)疾病的治療策略至關(guān)重要。

2、傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測包括生物實(shí)驗(yàn)方法、高通量測序技術(shù)、計(jì)算機(jī)輔助分析方法。其中,傳統(tǒng)的生物實(shí)驗(yàn)方法,是檢測rna中ac4c修飾的傳統(tǒng)方法主要包括化學(xué)分析和免疫檢測,在實(shí)驗(yàn)室中廣泛使用,具有較高的靈敏度和特異性,適合對特定修飾進(jìn)行定性和定量分析;高通量測序技術(shù)近年來被廣泛用于ac4c修飾的全基因組水平檢測,其中以merip-seq(mrna免疫共沉淀測序)為代表,該技術(shù)通過富集rna樣本中的修飾位點(diǎn),再進(jìn)行測序分析,能夠?qū)θ蚪M范圍內(nèi)的ac4c修飾進(jìn)行大規(guī)模探索和分析;計(jì)算機(jī)輔助分析方法,是生物信息學(xué)工具基于機(jī)器學(xué)習(xí)算法,通過分析rna序列、結(jié)構(gòu)、進(jìn)化保守性等特征,構(gòu)建預(yù)測模型,幫助研究人員快速識別潛在的ac4c修飾位點(diǎn)。

3、然而,傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測中,生物實(shí)驗(yàn)方法大多數(shù)濕實(shí)驗(yàn)既昂貴又耗時,檢測成本高昂,操作復(fù)雜,靈敏度和特異性較低;高通量測序技術(shù)往往依賴抗體富集,分辨率較低,且檢測精度受限于抗體質(zhì)量和背景噪聲;計(jì)算機(jī)輔助分析方法嚴(yán)重依賴于傳統(tǒng)的特征編碼技術(shù),需要復(fù)雜的特征工程步驟,缺乏對上下文語義關(guān)系的綜合理解。因此,傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測方法往往存在成本高、信息挖掘不夠充分,導(dǎo)致rna-ac4c修飾位點(diǎn)探測的準(zhǔn)確率較低的問題。


技術(shù)實(shí)現(xiàn)思路

1、基于此,為了解決上述技術(shù)問題,提供一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測方法及系統(tǒng),可以快速、低成本、且提高模型的rnan4-乙酰胞苷修飾位點(diǎn)修飾位點(diǎn)探測準(zhǔn)確率。

2、一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測方法,所述方法包括:

3、采集rna序列數(shù)據(jù)集;所述rna序列數(shù)據(jù)集中包含有陽性和陰性樣本;

4、將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級掩碼,捕捉上下文依賴關(guān)系并提取出全局特征;并將所述rnaernie預(yù)訓(xùn)練模型結(jié)合六種傳統(tǒng)特征編碼方法對各個所述rna序列進(jìn)行特征編碼,得到編碼后的高維特征;

5、將所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征;

6、將所述降維后的特征輸入至軟投票集成模型中,通過所述軟投票集成模型集成不同分類器的預(yù)測結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測結(jié)果;

7、其中,所述軟投票集成模型由xgboost、mlp、catboost分類器構(gòu)建而成。

8、在其中一個實(shí)施例中,所述方法還包括:

9、確定評估指標(biāo),并根據(jù)所述評估指標(biāo)使用十折交叉驗(yàn)證方式對所述軟投票集成模型進(jìn)行性能評估,得到評估結(jié)果;

10、其中,所述評估指標(biāo)包括靈敏性、特異性、準(zhǔn)確性、馬修斯相關(guān)系數(shù)、曲線下面積。

11、在其中一個實(shí)施例中,所述方法還包括:

12、展示用戶交互界面,并通過所述用戶交互界面獲取待預(yù)測rna序列;

13、將所述待預(yù)測rna序列輸入至所述軟投票集成模型中,輸出與所述待預(yù)測rna序列對應(yīng)的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測結(jié)果;

14、在所述用戶交互界面中展示與所述待預(yù)測rna序列對應(yīng)的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測結(jié)果。

15、在其中一個實(shí)施例中,采集rna序列數(shù)據(jù)集之后,所述方法還包括:

16、確定數(shù)據(jù)集劃分比例;

17、基于所述數(shù)據(jù)集劃分比例,將所述rna序列數(shù)據(jù)集進(jìn)行分層抽樣處理,得到劃分后的訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集。

18、在其中一個實(shí)施例中,所述rnaernie預(yù)訓(xùn)練模型建立在通過知識集成增強(qiáng)表示框架的基礎(chǔ)上,且結(jié)合transformer層和多頭自注意機(jī)制;其中:

19、將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中,基于所述多頭自注意機(jī)制,通過每個注意力頭部計(jì)算各個所述rna序列對應(yīng)的注意力分?jǐn)?shù);

20、將得到的各個所述注意力分?jǐn)?shù)進(jìn)行連接,對各個所述rna序列通過線性變換矩陣被映射到查詢、鍵和值矩陣。

21、在其中一個實(shí)施例中,將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級掩碼,包括:

22、所述rnaernie預(yù)訓(xùn)練模型采用基序級掩蔽、子序列級掩蔽、基序級隨機(jī)掩蔽策略,結(jié)合粗粒類型的rna作為詞匯標(biāo)記;

23、所述rnaernie預(yù)訓(xùn)練模型將所述詞匯標(biāo)記附加到各個所述rna序列的最后一段,增強(qiáng)rna序列表示。

24、在其中一個實(shí)施例中,將所述高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征,包括:

25、將所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中,通過所述深度神經(jīng)網(wǎng)絡(luò)模型的多層非線性映射,將所述高維特征從高維空間映射到低維空間,得到降維后的特征。

26、在其中一個實(shí)施例中,通過所述軟投票集成模型集成不同分類器的預(yù)測結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測結(jié)果,包括:

27、通過所述軟投票集成模型確定所有分類器的預(yù)測概率;

28、對各個所述預(yù)測概率進(jìn)行加權(quán)平均計(jì)算,得到加權(quán)平均概率的最大值;

29、將所述最大值作為rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測結(jié)果。

30、一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測系統(tǒng),所述系統(tǒng)包括:

31、數(shù)據(jù)集采集模塊,用于采集rna序列數(shù)據(jù)集;所述rna序列數(shù)據(jù)集中包含有陽性和陰性樣本;

32、特征編碼模塊,用于將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級掩碼,捕捉上下文依賴關(guān)系并提取出全局特征;并將所述rnaernie預(yù)訓(xùn)練模型結(jié)合六種傳統(tǒng)特征編碼方法對各個所述rna序列進(jìn)行特征編碼,得到編碼后的高維特征;

33、特征降維模塊,用于從所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征;

34、結(jié)果預(yù)測模塊,用于將所述降維后的特征輸入至軟投票集成模型中,通過所述軟投票集成模型集成不同分類器的預(yù)測結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測結(jié)果;

35、其中,所述軟投票集成模型由xgboost、mlp、catboost分類器構(gòu)建而成。

36、上述基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測方法及系統(tǒng),通過rnaernie預(yù)訓(xùn)練模型進(jìn)行多級掩碼,能夠精準(zhǔn)捕捉上下文依賴關(guān)系并提取全局特征,捕捉到更全面的rna序列信息,結(jié)合六種傳統(tǒng)特征編碼方式可以捕捉到序列的細(xì)節(jié)和物理化學(xué)屬性;利用深度神經(jīng)網(wǎng)絡(luò)自動進(jìn)行特征降維,通過自動學(xué)習(xí)和篩選最具相關(guān)性的特征,減少了計(jì)算復(fù)雜度并保留了關(guān)鍵信息;將降維后的特征輸入軟投票集成模型,通過集成多個分類器得到最終預(yù)測結(jié)果,顯著提升了預(yù)測的準(zhǔn)確性和魯棒性,可以快速、低成本、且提高模型的rnan4-乙酰胞苷修飾位點(diǎn)探測準(zhǔn)確率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
利川市| 巴塘县| 福州市| 新民市| 嘉定区| 郯城县| 北流市| 连云港市| 日喀则市| 五华县| 桦甸市| 镇平县| 彭水| 雅安市| 光泽县| 田林县| 淮阳县| 桦甸市| 罗平县| 芦山县| 包头市| 新平| 钟山县| 正宁县| 江都市| 松潘县| 专栏| 汤原县| 陆良县| 长宁县| 巩留县| 辉南县| 德化县| 巧家县| 全州县| 德州市| 盐亭县| 东乡族自治县| 石台县| 云阳县| 中宁县|