本發(fā)明涉及生物識別,尤其是涉及一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法。
背景技術(shù):
1、細(xì)胞異質(zhì)性被定義為生物系統(tǒng)的一種固有屬性,有助于形成遺傳多樣性。識別和表征細(xì)胞群體內(nèi)的異質(zhì)性能夠有效揭示看似同質(zhì)的細(xì)胞群體內(nèi)部的復(fù)雜性和差異,這些差異不僅體現(xiàn)在基因表達(dá)、蛋白質(zhì)水平和代謝狀態(tài)等方面,而且反映了細(xì)胞在不同生理和病理條件下的反應(yīng)能力以及功能狀態(tài)。傳統(tǒng)上,細(xì)胞群體異質(zhì)性的表征主要依賴于一些易于理解的維度,例如細(xì)胞周期階段或細(xì)胞類型。這些維度通常用于將細(xì)胞群體劃分為獨特且具有生物學(xué)意義的混合物。然而,在細(xì)胞間變異缺乏明顯或已知的生物學(xué)解釋的情況下,細(xì)胞狀態(tài)可以通過選擇特定的分子差異來加以區(qū)分,例如細(xì)胞粘附或免疫分子,這些分子因單個細(xì)胞的差異而表現(xiàn)出巨大的多樣性。然而,僅僅基于這些分子差異來表征細(xì)胞狀態(tài)可能存在片面性,不足以揭示細(xì)胞整體的生物學(xué)特征。
2、隨著單細(xì)胞測序技術(shù)的快速發(fā)展,已經(jīng)能夠獲取大量單細(xì)胞數(shù)據(jù),為深入理解細(xì)胞群體異質(zhì)性提供了前所未有的機會。然而,如何從這些海量的單細(xì)胞數(shù)據(jù)中全面挖掘細(xì)胞群體的內(nèi)部差異和功能仍是一項挑戰(zhàn)。因此,迫切需要開發(fā)新的工具能夠有效地識別和解釋細(xì)胞群體異質(zhì)性,識別出處于相同潛能狀態(tài)的同質(zhì)細(xì)胞。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,能夠更精確地揭示細(xì)胞群體內(nèi)部的復(fù)雜性和差異。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,包括以下步驟:
3、步驟s1、對單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行預(yù)處理;
4、步驟s2、對預(yù)處理后的數(shù)據(jù)進(jìn)行特征選擇,定義細(xì)胞狀態(tài);
5、步驟s3、基于霍普菲爾德神經(jīng)網(wǎng)絡(luò)構(gòu)建基因局部網(wǎng)絡(luò);
6、步驟s4、計算基因局部網(wǎng)絡(luò)能量和細(xì)胞能量,并對細(xì)胞能量進(jìn)行歸一化處理;
7、步驟s5、引入高斯混合模型,通過分析細(xì)胞的能量分布差異來識別細(xì)胞的潛能狀態(tài),并將處于相同分化潛能狀態(tài)的細(xì)胞進(jìn)行聚類;
8、步驟s6、評估細(xì)胞群體的異質(zhì)性。
9、優(yōu)選的,步驟s1中,對于包含n個細(xì)胞和m1個基因的單細(xì)胞表達(dá)矩陣細(xì)胞n中所有基因組成的集合表示如下:
10、
11、其中,表示基因m1在細(xì)胞n中的表達(dá)水平。
12、優(yōu)選的,步驟s1中,預(yù)處理包括對數(shù)轉(zhuǎn)換處理和標(biāo)準(zhǔn)化處理。
13、優(yōu)選的,步驟s2中,對預(yù)處理后的數(shù)據(jù)進(jìn)行特征選擇,定義細(xì)胞狀態(tài),具體操作為:通過findvariablefeatures函數(shù)對預(yù)處理后的數(shù)據(jù)進(jìn)行高變異基因的篩選,保留1000~5000個高變異基因;
14、獲得數(shù)據(jù)集中包含n個細(xì)胞和m個高變異基因,細(xì)胞n的狀態(tài)用向量來表示;
15、其中,表示基因i在細(xì)胞n中的狀態(tài)值,根據(jù)的符號決定,如下所示:
16、
17、其中,代表基因i在細(xì)胞n中標(biāo)準(zhǔn)化處理后的表達(dá)水平。
18、優(yōu)選的,步驟s3中,基因局部網(wǎng)絡(luò)中的節(jié)點代表基因,網(wǎng)絡(luò)中基因之間的相互作用通過其鄰接矩陣w來指定,矩陣元素wij表示基因i和j的關(guān)系:
19、
20、其中,表示基因j在細(xì)胞n中的狀態(tài)值;p代表穩(wěn)定狀態(tài)的數(shù)量。
21、優(yōu)選的,步驟s4中,基因局部網(wǎng)絡(luò)能量(gene?local?network?energy,glne)的計算公式如下:
22、
23、其中,為細(xì)胞n中以基因i為中心構(gòu)成的局部網(wǎng)絡(luò)的能量值;n(i)表示網(wǎng)絡(luò)中節(jié)點i的鄰域。
24、優(yōu)選的,步驟s4中,細(xì)胞能量由細(xì)胞包含的所有基因的局部網(wǎng)絡(luò)能量水平組成,定義為:
25、
26、其中,en為細(xì)胞n的能量值;m表示高變異基因的數(shù)量。
27、優(yōu)選的,步驟s4中,歸一化處理為:
28、
29、其中,和分別表示所有細(xì)胞能量值的最小值和最大值;e'n為歸一化后的細(xì)胞能量。
30、優(yōu)選的,步驟s5中,引入高斯混合模型,通過分析細(xì)胞的能量分布差異來識別細(xì)胞的潛能狀態(tài),并將處于相同分化潛能狀態(tài)的細(xì)胞進(jìn)行聚類,具體操作為:
31、對于一個包含n個細(xì)胞的細(xì)胞群體s,利用歸一化后的細(xì)胞能量e'n∈n來量化每個細(xì)胞的分化潛能狀態(tài);
32、根據(jù)細(xì)胞能量的大小對細(xì)胞進(jìn)行排序,并采用高斯混合模型對所有細(xì)胞的e'n∈n值進(jìn)行擬合;
33、其中,高斯混合模型如下:
34、
35、其中,表示第k個高斯分布在給定均值μk和方差條件下的概率密度函數(shù);λk>0是第k個高斯分布的混合權(quán)重,滿足
36、高斯分布的成分?jǐn)?shù)量k是通過貝葉斯信息準(zhǔn)則bic確定的,定義為:
37、
38、其中,v是估計參數(shù)的數(shù)量。
39、優(yōu)選的,步驟s6中,評估細(xì)胞群體的異質(zhì)性,具體操作如下:
40、細(xì)胞群體s中的每個細(xì)胞都會被配到k個特定的潛能狀態(tài),將細(xì)胞被分配給第k個潛能狀態(tài)的概率定義為pk:
41、
42、其中,n(ck)和n(s)分別代表第k個潛能狀態(tài)和細(xì)胞群體s中包含的細(xì)胞總數(shù);
43、然后通過異質(zhì)性指數(shù)衡量每個群體中的細(xì)胞在潛能狀態(tài)方面的多樣性,異質(zhì)性指數(shù)的計算公式如下:
44、
45、其中,hi為異質(zhì)性指數(shù)。
46、因此,本發(fā)明采用上述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,有益技術(shù)效果如下:
47、(1)本發(fā)明引入了高斯混合模型(gaussian?mixture?model,gmm),通過分析細(xì)胞的能量分布差異來識別其可能處在的潛能狀態(tài),更加準(zhǔn)確地識別具有一致分化潛力的細(xì)胞群體,克服了傳統(tǒng)方法過度依賴轉(zhuǎn)錄組相似性的局限,提供了更靈活和精準(zhǔn)的細(xì)胞聚類方式;
48、(2)本發(fā)明提出了異質(zhì)性指數(shù)(heterogeneous?index,hi),這一指標(biāo)能夠量化和評估不同細(xì)胞群體內(nèi)部的多樣性,幫助研究人員區(qū)分和篩選具有不同潛能狀態(tài)和生物學(xué)特性的細(xì)胞群體。如果一個群體包含多種潛能狀態(tài),異質(zhì)性指數(shù)得分較高,表明其內(nèi)部異質(zhì)性較大;相反,如果群體中細(xì)胞的潛能狀態(tài)較為一致,異質(zhì)性指數(shù)得分則較低;
49、(3)本發(fā)明不僅有助于深入理解細(xì)胞的生物學(xué)特征,還能在細(xì)胞分化、重編程等研究中,識別新的或動態(tài)變化的同質(zhì)細(xì)胞群體,為生物學(xué)研究和臨床應(yīng)用提供更全面、精準(zhǔn)的工具。
1.一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s1中,對于包含n個細(xì)胞和m1個基因的單細(xì)胞表達(dá)矩陣細(xì)胞n中所有基因組成的集合表示如下:
3.根據(jù)權(quán)利要求2所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s1中,預(yù)處理包括對數(shù)轉(zhuǎn)換處理和標(biāo)準(zhǔn)化處理。
4.根據(jù)權(quán)利要求3所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s2中,對預(yù)處理后的數(shù)據(jù)進(jìn)行特征選擇,定義細(xì)胞狀態(tài),具體操作為:
5.根據(jù)權(quán)利要求4所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s3中,基因局部網(wǎng)絡(luò)中的節(jié)點代表基因,網(wǎng)絡(luò)中基因之間的相互作用通過其鄰接矩陣w來指定,矩陣元素wij表示基因i和j的關(guān)系:
6.根據(jù)權(quán)利要求5所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s4中,基因局部網(wǎng)絡(luò)能量的計算公式如下:
7.根據(jù)權(quán)利要求6所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s4中,細(xì)胞能量由細(xì)胞中包含的所有基因的局部網(wǎng)絡(luò)能量水平組成,定義為:
8.根據(jù)權(quán)利要求7所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s4中,歸一化處理為:
9.根據(jù)權(quán)利要求8所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s5中,引入高斯混合模型,通過分析細(xì)胞的能量分布差異來識別細(xì)胞的潛能狀態(tài),并將處于相同分化潛能狀態(tài)的細(xì)胞進(jìn)行聚類,具體操作為:
10.根據(jù)權(quán)利要求9所述的一種基于能量指標(biāo)評估細(xì)胞群體異質(zhì)性的方法,其特征在于,步驟s6中,評估細(xì)胞群體的異質(zhì)性,具體操作如下: