本發(fā)明涉及生物學(xué),具體為一種基于深度學(xué)習(xí)的空間轉(zhuǎn)錄組空間域識(shí)別方法。
背景技術(shù):
1、轉(zhuǎn)錄組學(xué)是一門(mén)在整體水平上研究細(xì)胞中基因轉(zhuǎn)錄情況的學(xué)科,它關(guān)注的是基因表達(dá)的情況以及轉(zhuǎn)錄調(diào)控規(guī)律。轉(zhuǎn)錄組學(xué)的研究對(duì)象包括信使rna(mrna)、轉(zhuǎn)運(yùn)rna(trna)、核糖體rna(rrna)及其他非編碼rna(如micro?rna、small?rna等)。廣義上,轉(zhuǎn)錄組是指在某一特定細(xì)胞類(lèi)型或生理或疾病的狀態(tài)下,所有基因轉(zhuǎn)錄產(chǎn)生的rna分子的總和;狹義上,它指的是某一生理?xiàng)l件下所有mrna分子的集合。轉(zhuǎn)錄組學(xué)是連接基因組遺傳信息和生物表型的必然橋梁,是功能基因組研究中不可或缺的一項(xiàng)重要內(nèi)容
2、轉(zhuǎn)錄組測(cè)序(rna-seq)作為一種革新性的高效工具,能夠去除內(nèi)含子和非編碼區(qū)域,從而以更高的成本效益解釋基因表達(dá)的精細(xì)圖譜。這種技術(shù)能夠解決基因表達(dá)譜分析、新轉(zhuǎn)錄本的發(fā)現(xiàn)、低豐度轉(zhuǎn)錄本的挖掘、可變剪接的調(diào)控等問(wèn)題,并且在農(nóng)學(xué)、生物學(xué)、醫(yī)學(xué)研究等領(lǐng)域有廣泛應(yīng)用。
3、傳統(tǒng)的轉(zhuǎn)錄組學(xué)技術(shù)通常涉及從組織或細(xì)胞中提取總rna,然后測(cè)序并分析其基因表達(dá)模式,然而,這種方法無(wú)法提供關(guān)于基因表達(dá)在空間上如何分布的信息。
技術(shù)實(shí)現(xiàn)思路
1、(一)解決的技術(shù)問(wèn)題
2、為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于深度學(xué)習(xí)的空間轉(zhuǎn)錄組空間域識(shí)別方法。
3、(二)技術(shù)方案
4、基于此,本發(fā)明提供如下技術(shù)方案:一種基于深度學(xué)習(xí)的空間轉(zhuǎn)錄組空間域識(shí)別方法,原組織學(xué)圖像中空間域的標(biāo)識(shí)與圖像分割過(guò)程,利用深度學(xué)習(xí)進(jìn)行空間轉(zhuǎn)錄組空間域識(shí)別具有以下流程:
5、步驟s1:從原始圖像中提取基因表達(dá)信息,組織學(xué)圖像中點(diǎn)的坐標(biāo)信息并進(jìn)行數(shù)據(jù)預(yù)處理,將少量細(xì)胞的組織樣本中的每個(gè)觀察單元spot建模為一個(gè)節(jié)點(diǎn),測(cè)得的geneexpression被視為節(jié)點(diǎn)屬性,由于組織切片中相鄰的spot在歐氏空間中通過(guò)無(wú)向邊相連,這種格狀spot可以基于圖神經(jīng)網(wǎng)絡(luò)的模型spagcn建模,該模型學(xué)習(xí)三維嵌入以保留轉(zhuǎn)錄組學(xué)空間中所有點(diǎn)之間的拓?fù)潢P(guān)系,gene?expression的三維嵌入被映射到rgb圖像中的r、g和b三個(gè)顏色通道,可視化為空間基因表達(dá)的圖像,為基因表達(dá)矩陣;
6、步驟s2:將基因表達(dá)信息,組織學(xué)圖像中點(diǎn)的坐標(biāo)信息整合為圖數(shù)據(jù)結(jié)構(gòu);
7、步驟s3:將圖數(shù)據(jù)結(jié)構(gòu)通過(guò)graph?autoencoder生成三維embedding,然后映射到rgb色譜來(lái)生成rgb圖像;
8、步驟s4:利用基于深度學(xué)習(xí)的圖像分割模型分割生成的rgb圖像后,獲得若干分割圖,每一張圖片對(duì)應(yīng)一種空間域;
9、步驟s5:通過(guò)若干分割圖推理結(jié)果。
10、優(yōu)選的,如上所述的步驟s2具體操作步驟如下:
11、步驟s21:數(shù)據(jù)歸一化:使用logcpm方法對(duì)基因表達(dá)矩陣進(jìn)行歸一化,edger中提供了一種名為cpm的定量方式,全稱(chēng)為count-per-millon,即每百萬(wàn)的計(jì)數(shù)。cpm本質(zhì)為相對(duì)豐度,只不過(guò)考慮到測(cè)序的基因總量很多,所以總的基因數(shù)目以百萬(wàn)為單位。使用cpm過(guò)濾表達(dá)較低的基因,但由于不同基因的cpm值差異較大,并采用log轉(zhuǎn)換縮小不同基因之間的差異,為logcpm方法;
12、步驟s13:缺失點(diǎn)填充:由于技術(shù)不完善,組織切片中可能缺少一些spot的表達(dá),這導(dǎo)致rgb圖像中這些spot的位置上出現(xiàn)空白塊。這種作為不兼容噪聲的空白塊可能會(huì)干擾之后的空間架構(gòu)的邊界識(shí)別。我們假設(shè)鄰近的spot中可能具有與缺失spot相似的值,并通過(guò)對(duì)其有效6個(gè)相鄰spot的像素應(yīng)用加權(quán)平均來(lái)估算這些缺失的spot值,由于這些缺失的點(diǎn)是彩色的,而默認(rèn)情況下與組織外的背景相同,我們需要根據(jù)拓?fù)浣Y(jié)構(gòu)分析將它們與全白像素區(qū)分開(kāi)來(lái),首先從邊界開(kāi)始逐步檢測(cè)組織的所有輪廓,面積最大的輪廓被確定為外輪廓,然后,用鄰居的插補(bǔ)值代替組織輪廓內(nèi)的所有白色像素,給定缺失的spot坐標(biāo),搜索它們最近k的個(gè)有效spot?si(i=1,2,...k)來(lái)計(jì)算目標(biāo)缺失點(diǎn)s的插補(bǔ)值xs,見(jiàn)下式:
13、
14、式中dis(si,s)——si與s的歐氏距離;
15、softmax()——激活函數(shù),將所有dis(si,s)的倒數(shù)及其k個(gè)(默認(rèn)情況下設(shè)置k=6)鄰居si歸一化為0到1的權(quán)重。
16、優(yōu)選的,如上所述的步驟s3具體操作步驟如下:
17、步驟s31:graph?autoencoder通過(guò)pca對(duì)基因表達(dá)矩陣降維,并選出前50個(gè)主成份作為輸入,graph?autoencoder在接受輸入后會(huì)根據(jù)其中的基因表達(dá)與組織圖像數(shù)據(jù)將其轉(zhuǎn)換成帶權(quán)無(wú)向圖g(u,v),每個(gè)spot為1個(gè)頂點(diǎn),且v中每?jī)蓚€(gè)頂點(diǎn)由一條帶權(quán)邊連接;
18、步驟s32:雖然有些spot在物理上彼此鄰近,但在組織學(xué)圖像上它們屬于不同的組織層,因此需要考慮其他的方法判斷兩個(gè)spot是否臨近。我們規(guī)定兩個(gè)spot是臨近的,當(dāng)且僅當(dāng):兩個(gè)spot物理上臨近;兩個(gè)spot在組織學(xué)圖像上具有相似的像素相似度,定義基于以上兩點(diǎn)的距離度量,把原本spot的二維坐標(biāo)擴(kuò)展為三維,對(duì)于每個(gè)spot?v,為其添加一個(gè)坐標(biāo)zv;
19、步驟s33:在轉(zhuǎn)換后的圖g(u,v)中,頂點(diǎn)u與v間的距離數(shù)值代表兩個(gè)頂點(diǎn)相對(duì)的相似度,而頂點(diǎn)u與v間的距離數(shù)值由u與v在組織切片上的物理距離和這兩個(gè)點(diǎn)相關(guān)的組織學(xué)信息決定,為了推導(dǎo)出單個(gè)值來(lái)表示組織學(xué)特征,graph?autoencoder使用每個(gè)spot的rgb值的加權(quán)和zv,見(jiàn)下式:
20、
21、式中rv——v的r值;
22、gv——spot?v的g值;
23、bv——spot?v的b值;
24、vr——所有spot的r值的方差;
25、vg——所有spot的g值的方差;
26、vb——所有spot的b值的方差。
27、之后將zv重構(gòu)為作為最后添加的坐標(biāo)值,見(jiàn)下式:
28、
29、式中——spot?v的rgb值加權(quán)和;
30、μz——zv的均值;
31、σz——zv的標(biāo)準(zhǔn)差;
32、σx——xv的標(biāo)準(zhǔn)差;
33、σy——yv的標(biāo)準(zhǔn)差;
34、s——比例因子,通常設(shè)置為1;
35、步驟s34:經(jīng)過(guò)上述操作,圖g(u,v)中的所有頂點(diǎn)構(gòu)造完畢,獲取每個(gè)頂點(diǎn)v的坐標(biāo)在圖中每?jī)蓚€(gè)頂點(diǎn)間都有一條帶權(quán)邊,下面開(kāi)始計(jì)算每條邊的權(quán)值,由于邊的權(quán)值體現(xiàn)了兩個(gè)頂點(diǎn)的相關(guān)性程度并與兩點(diǎn)間距離負(fù)相關(guān),定義邊(u,v)的權(quán)值w(u,v)如下,見(jiàn)下式:
36、
37、式中d(u,v)——頂點(diǎn)u,v的歐氏距離;
38、l——超參數(shù),為特征長(zhǎng)度尺度,決定了權(quán)值衰減的速率,
39、完成上述操作后,帶權(quán)無(wú)向圖g(u,v)構(gòu)建完畢,用鄰接矩陣a=[w(u,v)]保存得到的圖數(shù)據(jù)結(jié)構(gòu)作為圖卷積層的輸入。
40、優(yōu)選的,如上所述的步驟s4中所述圖像分割模型包括主干網(wǎng)絡(luò)、解碼頭和輔助頭三部分;
41、所述主干網(wǎng)絡(luò):基于twins-pcpvt實(shí)現(xiàn),twins-pcpvt是一種用于圖像分割任務(wù)的vision?transformer的并行交叉參數(shù)化模型。該模型通過(guò)并行處理多個(gè)階段,每個(gè)階段具有不同的嵌入維度、注意力頭數(shù)和基礎(chǔ)塊數(shù)量,每個(gè)階段通過(guò)將輸入圖像分割成不同大小的圖像塊,并使用patch?embedding技術(shù)來(lái)提取特征,在每個(gè)階段中,模型使用空間可分離自我注意力機(jī)制來(lái)捕捉圖像中的局部和全局關(guān)系,通過(guò)query、key與值value的交互,注意力機(jī)制計(jì)算特征的權(quán)重值,這樣可以更好地捕捉特征之間的依賴(lài)關(guān)系。
42、優(yōu)選的,所述解碼頭采用了uperhead解碼頭,通過(guò)多尺度特征融合和通道注意力機(jī)制,實(shí)現(xiàn)了對(duì)不同階段特征的有效整合和利用。結(jié)合交叉熵?fù)p失函數(shù)進(jìn)行分類(lèi),具有較好的特征表達(dá)能力和損失優(yōu)化性能,適用于多類(lèi)別分類(lèi)任務(wù)。同時(shí),采用了dropout技術(shù)來(lái)減少過(guò)擬合風(fēng)險(xiǎn),保證模型的泛化能力。
43、優(yōu)選的,所述輔助頭采用了fcnhead結(jié)構(gòu),在特征提取過(guò)程中引入了一層卷積層,提取輸入特征的信息并實(shí)現(xiàn)分類(lèi),通過(guò)交叉熵?fù)p失函數(shù)進(jìn)行分類(lèi),并設(shè)置了適當(dāng)?shù)膿p失權(quán)重,以在訓(xùn)練過(guò)程中平衡主分類(lèi)頭和輔助頭的作用。
44、優(yōu)選的,如上所述的步驟s4具體操作步驟如下:
45、步驟s41:模型訓(xùn)練,在mmsegmentation(一個(gè)基于pytorch的開(kāi)源語(yǔ)義分割工具箱)平臺(tái)上完成,應(yīng)用了mmsegmentation中定義的變換,包括隨機(jī)裁剪、旋轉(zhuǎn)和光度失真以增強(qiáng)訓(xùn)練rgb圖像,每一張rgb圖像被裁剪為400×400大小,為模型提供不同的來(lái)自整個(gè)rgb圖像的roi;
46、步驟s42:進(jìn)行隨機(jī)旋轉(zhuǎn)(范圍從-180°到180°)以適應(yīng)空間架構(gòu)的潛在不規(guī)則布局。在將數(shù)據(jù)集加載到mmsegmentation的過(guò)程中,還使用了亮度、對(duì)比度、色調(diào)和飽和度變化等一些光度失真方法來(lái)訓(xùn)練樣本;
47、步驟s43:使用singlecell_dataset作為數(shù)據(jù)集,并為mmsegmentation編寫(xiě)其對(duì)應(yīng)的注冊(cè)文件,這樣便可直接在mmsegmentation模型配置的數(shù)據(jù)集配置文件中加入數(shù)據(jù)集的設(shè)置、參數(shù)與使用策略,數(shù)據(jù)集存放于mmsegmentation目錄下的data文件夾中,命名為singelcell_dataset,格式如下:
48、singelcell_dataset/
49、|__ann_dir/
50、||__train
51、||__val
52、|__img_dir/
53、||__train
54、||__val
55、img_dir中存放訓(xùn)練用的圖像,ann_dir中存放訓(xùn)練圖像對(duì)應(yīng)的標(biāo)簽圖像,train為訓(xùn)練集,val為驗(yàn)證集;
56、singlecell_dataset中包含12組帶標(biāo)簽的樣本和4組無(wú)標(biāo)簽樣本,帶標(biāo)簽樣本為空間轉(zhuǎn)錄組rgb圖像與其對(duì)應(yīng)的標(biāo)簽灰度圖像,無(wú)標(biāo)簽樣本只有空間轉(zhuǎn)錄組rgb圖像,每組樣本包含60張graphautoencoder以不同超參數(shù)組合生成的空間轉(zhuǎn)錄組rgb圖像,整個(gè)數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集、測(cè)試集三部分,訓(xùn)練集和驗(yàn)證集用于圖像分割模型的訓(xùn)練,為12組帶標(biāo)簽的樣本;測(cè)試集用于評(píng)價(jià)模型的推理結(jié)果,分為4組無(wú)標(biāo)簽樣本與4組帶標(biāo)簽樣本兩部分,其中無(wú)標(biāo)簽樣本用于評(píng)價(jià)模型在未知組織學(xué)圖像上的分割效果,帶標(biāo)簽樣本用于評(píng)價(jià)模型本身的訓(xùn)練效果。
57、(三)有益效果
58、與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種基于深度學(xué)習(xí)的空間轉(zhuǎn)錄組空間域識(shí)別方法,具備以下有益效果:
59、該一種基于深度學(xué)習(xí)的空間轉(zhuǎn)錄組空間域識(shí)別方法,空間轉(zhuǎn)錄組技術(shù)可用于研究藥物在組織內(nèi)的作用機(jī)制和效果評(píng)估,通過(guò)空間域識(shí)別,可以確定藥物靶點(diǎn)在組織中的位置分布情況,并評(píng)估藥物對(duì)不同細(xì)胞類(lèi)型的影響,這有助于指導(dǎo)藥物開(kāi)發(fā)過(guò)程中的靶向設(shè)計(jì)和藥效評(píng)估,提高臨床治療的準(zhǔn)確性和有效性。