本發(fā)明涉及生物信息,具體涉及一種單細(xì)胞多組學(xué)數(shù)據(jù)整合方法。
背景技術(shù):
1、近年來,單細(xì)胞多組學(xué)技術(shù)不再局限于轉(zhuǎn)錄組,還包括表觀組、蛋白質(zhì)組等多個(gè)組學(xué)。該技術(shù)能夠同時(shí)檢測(cè)兩種或兩種以上的分子,例如single?cell?rna?sequencing(scrna-seq)與single?cell?atac?sequencing(scatac-seq)的聯(lián)合檢測(cè),以及單細(xì)胞轉(zhuǎn)錄組、免疫組庫、表面蛋白的同時(shí)檢測(cè)等。這種綜合性的方法為單細(xì)胞水平上的研究提供了更全面、更精細(xì)、更完整的分析策略。特別是,scatac-seq(單細(xì)胞atac測(cè)序)允許我們?cè)趩渭?xì)胞水平上探索細(xì)胞之間的異質(zhì)性。通過檢測(cè)開放染色質(zhì)區(qū)域,我們可以識(shí)別不同的細(xì)胞類型、亞型和狀態(tài),揭示細(xì)胞發(fā)育和分化的軌跡。
2、然而,由于染色質(zhì)可及性的變化較少且難以捕獲,scatac-seq通常極度稀疏且高維,難以直接識(shí)別細(xì)胞類型。相比之下,scrna-seq(單細(xì)胞rna測(cè)序)通常提供更豐富的基因表達(dá)信息,有助于更準(zhǔn)確地注釋和識(shí)別細(xì)胞類型。通過將細(xì)胞類型標(biāo)簽從scrna-seq傳遞到scatac-seq中,可以幫助研究人員整合這兩種組學(xué)數(shù)據(jù)集,以獲得更加全面的視角。
3、針對(duì)大規(guī)模且極度稀疏的多組學(xué)數(shù)據(jù)集,目前需要一種深度學(xué)習(xí)方法,用于實(shí)現(xiàn)scatac-seq與scrna-seq數(shù)據(jù)的集成。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是為了解決上述問題,提供一種單細(xì)胞多組學(xué)數(shù)據(jù)整合方法。
2、為了達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
3、本發(fā)明提供了一種單細(xì)胞多組學(xué)數(shù)據(jù)整合方法,包括以下步驟:
4、s1:對(duì)單細(xì)胞rna測(cè)序數(shù)據(jù)與單細(xì)胞atac測(cè)序數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)篩選與基因選擇兩個(gè)部分;
5、s2:構(gòu)建低維共享空間,使用自編碼器構(gòu)建一個(gè)兩種組學(xué)數(shù)據(jù)的低維共享空間;
6、s3:使用低維共享空間中的單細(xì)胞rna測(cè)序數(shù)據(jù)訓(xùn)練深度金字塔卷積神經(jīng)網(wǎng)絡(luò);
7、s4:使用訓(xùn)練好的深度金字塔卷積神經(jīng)網(wǎng)絡(luò),對(duì)單細(xì)胞atac測(cè)序數(shù)據(jù)進(jìn)行分類,得到細(xì)胞類型標(biāo)簽,實(shí)現(xiàn)單細(xì)胞rna測(cè)序數(shù)據(jù)與單細(xì)胞atac測(cè)序數(shù)據(jù)的數(shù)據(jù)整合。
8、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s1具體為:
9、s1-1、數(shù)據(jù)采集:使用人類外周血單核細(xì)胞數(shù)據(jù)集;
10、s1-2、數(shù)據(jù)預(yù)處理,篩選出單細(xì)胞rna測(cè)序數(shù)據(jù)與單細(xì)胞atac測(cè)序數(shù)據(jù)中的高質(zhì)量數(shù)據(jù),并且選擇二者共有的基因特征。
11、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s2的具體操作為:利用帶有標(biāo)簽信息的單細(xì)胞rna測(cè)序數(shù)據(jù)集與未帶標(biāo)簽信息的單細(xì)胞atac測(cè)序數(shù)據(jù)集共同訓(xùn)練一個(gè)自編碼器,學(xué)習(xí)一個(gè)共享的低維嵌入空間,最大限度地增強(qiáng)兩種組學(xué)數(shù)據(jù)之間的相似性。
12、本發(fā)明進(jìn)一步設(shè)置為:所述步驟s3的具體操作為:學(xué)習(xí)不同細(xì)胞類型的分布,最后使用訓(xùn)練好的深度金字塔卷積神經(jīng)網(wǎng)絡(luò)對(duì)未帶標(biāo)簽的單細(xì)胞atac測(cè)序數(shù)據(jù)進(jìn)行分類,以確定其細(xì)胞類型。
13、與現(xiàn)有技術(shù)相比,本方案的有益效果:本發(fā)明通過使用自編碼器網(wǎng)絡(luò),構(gòu)建出低維共享空間,最大化不同組學(xué)數(shù)據(jù)之間的相似性,通過文本卷積網(wǎng)絡(luò)學(xué)習(xí)不同細(xì)胞類型數(shù)據(jù)之間的分布,最終實(shí)現(xiàn)整合多組學(xué)數(shù)據(jù)的目的。
1.一種單細(xì)胞多組學(xué)數(shù)據(jù)整合方法,其特征是,包括以下步驟:
2.如權(quán)利要求1所述的一種單細(xì)胞多組學(xué)數(shù)據(jù)整合方法,其特征是,所述步驟s1具體為:
3.如權(quán)利要求1所述的一種單細(xì)胞多組學(xué)數(shù)據(jù)整合方法,其特征是,所述步驟s2的具體操作為:利用帶有標(biāo)簽信息的單細(xì)胞rna測(cè)序數(shù)據(jù)集與未帶標(biāo)簽信息的單細(xì)胞atac測(cè)序數(shù)據(jù)集共同訓(xùn)練一個(gè)自編碼器,學(xué)習(xí)一個(gè)共享的低維嵌入空間,最大限度地增強(qiáng)兩種組學(xué)數(shù)據(jù)之間的相似性。
4.如權(quán)利要求1所述的一種單細(xì)胞多組學(xué)數(shù)據(jù)整合方法,其特征是,所述步驟s3的具體操作為:學(xué)習(xí)不同細(xì)胞類型的分布,最后使用訓(xùn)練好的深度金字塔卷積神經(jīng)網(wǎng)絡(luò)對(duì)未帶標(biāo)簽的單細(xì)胞atac測(cè)序數(shù)據(jù)進(jìn)行分類,以確定其細(xì)胞類型。