本發(fā)明涉及計算機領(lǐng)域,具體涉及一種索引序列生成方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、采用基因表達數(shù)據(jù)預(yù)測基因調(diào)控網(wǎng)絡(luò),在生物醫(yī)學(xué)研究中十分重要。隨著高通量測序技術(shù)的發(fā)展,可以獲取到大規(guī)模的基因表達數(shù)據(jù),其中包括不同條件下的基因表達水平。這些數(shù)據(jù)為研究基因調(diào)控提供了寶貴的資源。
2、基因調(diào)控網(wǎng)絡(luò)描述了基因之間的調(diào)控關(guān)系,有助于理解基因在細胞和組織功能中的作用。通過預(yù)測基因調(diào)控網(wǎng)絡(luò),可以推斷出哪些基因?qū)ζ渌虻谋磉_具有重要影響,并識別出關(guān)鍵的調(diào)控因子和調(diào)控路徑。這種預(yù)測能夠揭示基因調(diào)控網(wǎng)絡(luò)的拓撲結(jié)構(gòu),為深入理解生物系統(tǒng)的復(fù)雜性和生物過程的發(fā)生機制提供重要線索。
3、預(yù)測基因調(diào)控網(wǎng)絡(luò)的方法通常利用基因表達數(shù)據(jù)作為輸入特征,并應(yīng)用機器學(xué)習和統(tǒng)計模型進行分析,這些模型可以從大規(guī)模的基因表達數(shù)據(jù)中發(fā)現(xiàn)潛在的調(diào)控關(guān)系。然而,預(yù)測基因調(diào)控網(wǎng)絡(luò)也面臨一些挑戰(zhàn)和限制。生物系統(tǒng)的復(fù)雜性使得基因調(diào)控網(wǎng)絡(luò)的構(gòu)建和解釋仍然具有一定的困難。比如傳統(tǒng)的基因表達數(shù)據(jù)分析方法在面對高維、龐大的數(shù)據(jù)矩陣時,往往面臨計算復(fù)雜度高、數(shù)據(jù)噪聲干擾嚴重以及難以捕捉全局調(diào)控關(guān)系等問題。另外,基因表達數(shù)據(jù)中的大量基因和樣本維度帶來了巨大的數(shù)據(jù)量和復(fù)雜性,使得直接建模和分析變得異常困難。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種索引序列生成方法、裝置、電子設(shè)備及存儲介質(zhì),以解決傳統(tǒng)的基因表達數(shù)據(jù)分析方法計算復(fù)雜度高、數(shù)據(jù)噪聲干擾嚴重以及難以捕捉全局調(diào)控關(guān)系等問題。
2、第一方面,本發(fā)明提供了一種索引序列生成方法,所述方法包括:
3、獲取第一基因表達數(shù)據(jù)和至少一個碼本條目,其中每個所述碼本條目包括一一對應(yīng)的碼本索引和初始向量;
4、對所述第一基因表達數(shù)據(jù)進行編碼,提取所述第一基因表達數(shù)據(jù)中的局部信息,并將所述局部信息映射到潛在空間中,得到局部信息的潛在表示;
5、基于所述至少一個碼本條目對所述局部信息的潛在表示進行量化處理,生成第一碼本索引矩陣和至少一個量化向量,所述第一碼本索引矩陣由多個離散且新的碼本索引組成,且每個新的碼本索引對應(yīng)一個量化向量;
6、對所述第一碼本索引矩陣進行解碼和重構(gòu),輸出第二基因表達數(shù)據(jù),并對所述第二基因表達數(shù)據(jù)進行判別,得到判別結(jié)果,以及根據(jù)所述判別結(jié)果對解碼器和所述至少一個量化向量進行對抗訓(xùn)練,輸出優(yōu)化參數(shù),所述優(yōu)化參數(shù)包括:優(yōu)化后的解碼器和至少一個新的碼本條目;
7、對所述至少一個新的碼本條目做進行自回歸建模處理,生成第二碼本索引矩陣;
8、利用優(yōu)化后的解碼器對所述第二碼本索引矩陣進行處理,得到數(shù)據(jù)樣本。
9、本方面提供的索引序列生成方法,其核心在于通過量化和編碼的過程,將高維、復(fù)雜的基因表達數(shù)據(jù)映射到一個低維、離散化的潛在空間。不僅減輕高維數(shù)據(jù)建模的計算負擔,還提高了模型捕獲數(shù)據(jù)全局模式的能力,為構(gòu)建更準確、更具生物學(xué)意義的基因調(diào)控網(wǎng)絡(luò)提供了有效途徑。另外,通過數(shù)據(jù)壓縮實現(xiàn)了在高維基因表達數(shù)據(jù)中進行全局模式識別、條件生成和生物學(xué)信息保留等方面的突破,為生物醫(yī)學(xué)研究提供了高效且具有解釋力的分析工具。
10、結(jié)合第一方面,在一種可能的實施方式中,對所述第一基因表達數(shù)據(jù)進行編碼之前,還包括:獲取條件信息,所述條件信息中包括生物學(xué)特征;
11、所述對第一基因表達數(shù)據(jù)進行編碼,提取第一基因表達數(shù)據(jù)中的局部信息,并將所述局部信息映射到潛在空間中,得到局部信息的潛在表示,包括:對所述第一基因表達數(shù)據(jù)和所述條件信息進行編碼,提取關(guān)鍵特征,并將所述關(guān)鍵特征映射為一個潛在空間中的所述潛在表示,其中所述關(guān)鍵特征包括所述局部信息。
12、結(jié)合第一方面,在另一種可能的實施方式中,所述對所述第一基因表達數(shù)據(jù)進行編碼之前,還包括:獲取損失函數(shù),所述損失函數(shù)包括重建損失函數(shù);
13、所述對所述第一基因表達數(shù)據(jù)和所述條件信息進行編碼,提取關(guān)鍵特征,并將所述關(guān)鍵特征映射為一個潛在空間中的所述潛在表示,包括:利用所述重建損失函數(shù)對所述第一基因表達數(shù)據(jù)和所述條件信息進行編碼,提取所述關(guān)鍵特征,并映射為一個潛在空間中的所述潛在表示。
14、結(jié)合第一方面,在又一種可能的實施方式中,所述損失函數(shù)還包括:碼本損失函數(shù)和承諾損失函數(shù);
15、所述基于所述至少一個碼本條目對所述局部信息的潛在表示進行量化處理,生成第一碼本索引矩陣,包括:在基于所述至少一個碼本條目對所述局部信息的潛在表示進行量化處理過程中,加入所述碼本損失函數(shù)和所述承諾損失函數(shù),生成所述第一碼本索引矩陣。
16、可選的,所述損失函數(shù)表示為:
17、
18、其中,表示重建損失函數(shù),表示碼本損失函數(shù),表示承諾損失函數(shù),sg[]表示停止梯度操作,表示損失函數(shù),e表示編碼器,g表示解碼器,z表示碼本條目,x表示第一基因表達數(shù)據(jù),表示第二基因表達數(shù)據(jù),e(x)表示數(shù)據(jù)x經(jīng)過編碼器e的輸出,表示對數(shù)據(jù)量化后的編碼結(jié)果。
19、結(jié)合第一方面,在又一種可能的實施方式中,所述根據(jù)所述判別結(jié)果對解碼器和所述至少一個量化向量進行對抗訓(xùn)練,輸出優(yōu)化參數(shù),包括:
20、通過對抗損失函數(shù),對所述解碼器和所述至少一個量化向量進行對抗訓(xùn)練,生成所述優(yōu)化參數(shù);所述對抗損失函數(shù)為:
21、
22、其中,表示判別器對真實基因表達數(shù)據(jù)的預(yù)測,表示判別器對重建的基因表達數(shù)據(jù)的預(yù)測,d表示判別器;
23、所述優(yōu)化參數(shù)為,的表達式為:
24、
25、其中,表示優(yōu)化參數(shù),表示解碼器最小化整體目標函數(shù),判別器d最大化該目標函數(shù),為平衡因子,期望表示對基因表達數(shù)據(jù)分布p(x)上的損失進行計算。
26、結(jié)合第一方面,在又一種可能的實施方式中,通過對抗損失函數(shù),對所述解碼器和所述至少一個量化向量進行對抗訓(xùn)練過程中,還包括:
27、從數(shù)據(jù)集中抽取部分批量數(shù)據(jù),所述數(shù)據(jù)集為至少一個基因表達數(shù)據(jù)的集合;分別計算所述集合中每個基因表達數(shù)據(jù)的向量離散化損失和對抗損失;根據(jù)所述向量離散化損失和所述對抗損失計算所述部分批量數(shù)據(jù)的損失平均值,得到平均值近似整體的期望。
28、結(jié)合第一方面,在又一種可能的實施方式中,還包括:
29、分別計算在對抗訓(xùn)練過程中的對抗性損失的梯度和重建損失的梯度;
30、根據(jù)所述對抗性損失的梯度和重建損失的梯度,按照關(guān)系式計算所述平衡因子;其中,所述平衡因子計算的所述關(guān)系式為:
31、
32、其中,為平衡因子,表示重建損失的梯度,表示對抗性損失相對于解碼器g的梯度,δ為常數(shù)。
33、結(jié)合第一方面,在又一種可能的實施方式中,所述對所述至少一個新的碼本條目做自回歸建模處理,得到第二碼本索引矩陣,包括:
34、利用自回歸方式對所述至少一個新的碼本條目對應(yīng)的碼本索引進行預(yù)測,得到預(yù)測結(jié)果,所述得到預(yù)測結(jié)果中的每個新的碼本索引都基于在前的碼本索引預(yù)測;預(yù)測后對整個碼本索引序列的概率進行建模,得到新的碼本索引之間的依賴關(guān)系;根據(jù)預(yù)測結(jié)果和所述依賴關(guān)系,生成所述第二碼本索引矩陣。
35、結(jié)合第一方面,在又一種可能的實施方式中,所述利用自回歸方式對所述至少一個新的碼本條目對應(yīng)的碼本索引進行預(yù)測,得到預(yù)測結(jié)果,包括:
36、在利用自回歸方式對所述至少一個新的碼本條目對應(yīng)的碼本索引進行預(yù)測過程中,通過負對數(shù)似然損失對預(yù)測精度進行評估,使得損失最小化;所述負對數(shù)似然損失表示為:
37、
38、其中,表示所述新的碼本條目對應(yīng)的負對數(shù)似然損失,表示所述新的碼本條目對應(yīng)的概率建模。
39、結(jié)合第一方面,在又一種可能的實施方式中,所述對所述至少一個新的碼本條目做自回歸建模處理,得到第二碼本索引矩陣,包括:
40、獲取離散化模型,利用所述離散化模型對條件信息進行編碼,生成條件索引序列;
41、將所述條件索引序列添加到所述至少一個新的碼本條目中,并對添加后的至少一個新的碼本條目進行自回歸建模處理,得到第三碼本索引矩陣;
42、所述利用優(yōu)化后的解碼器對所述第二碼本索引矩陣進行處理,得到數(shù)據(jù)樣本,包括:
43、利用所述優(yōu)化后的解碼器將輸入的所述第三碼本索引矩陣,映射回碼本空間中的潛在向量;根據(jù)所述潛在向量生成新的基因表達數(shù)據(jù),作為所述數(shù)據(jù)樣本。
44、第二方面,本發(fā)明提供了一種索引序列生成裝置,所述裝置包括:
45、編碼器,用于獲取第一基因表達數(shù)據(jù)和至少一個碼本條目,對所述第一基因表達數(shù)據(jù)進行編碼,提取所述第一基因表達數(shù)據(jù)中的局部信息,并將所述局部信息映射到潛在空間中,得到局部信息的潛在表示,其中每個所述碼本條目包括一一對應(yīng)的碼本索引和初始向量;
46、壓縮模塊,用于基于所述至少一個碼本條目對所述局部信息的潛在表示進行量化處理,生成第一碼本索引矩陣和至少一個量化向量,所述第一碼本索引矩陣由多個離散且新的碼本索引組成,且每個新的碼本索引對應(yīng)一個量化向量;
47、解碼器,用于對所述第一碼本索引矩陣進行解碼和重構(gòu),輸出第二基因表達數(shù)據(jù),并利用判別器對所述第二基因表達數(shù)據(jù)進行判別,得到判別結(jié)果,以及根據(jù)所述判別結(jié)果對解碼器和所述至少一個量化向量進行對抗訓(xùn)練,輸出優(yōu)化參數(shù),所述優(yōu)化參數(shù)包括:優(yōu)化后的解碼器和至少一個新的碼本條目;
48、處理模塊,用于所述至少一個新的碼本條目做自回歸建模處理,得到第二碼本索引矩陣,以及利用優(yōu)化后的解碼器對所述第二碼本索引矩陣進行處理,得到數(shù)據(jù)樣本。
49、第三方面,本發(fā)明提供了一種電子設(shè)備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的索引序列生成方法。
50、第四方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的索引序列生成方法。
51、此外,本發(fā)明提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的索引序列生成方法。
52、本發(fā)明提供一種索引序列生成方法、裝置和設(shè)備,具體包括如下有益效果:
53、1.離散化編碼:首先通過編碼器將高維的基因表達數(shù)據(jù)映射到一個潛在空間中,這個潛在空間是原始基因表達數(shù)據(jù)的低維表示。然后為了進一步壓縮數(shù)據(jù),引入了量化過程。該量化過程將連續(xù)的潛在表示離散化為一組有限的碼本條目,這些碼本條目構(gòu)成了離散碼本。通過離散化,原始基因表達數(shù)據(jù)被轉(zhuǎn)換為一個離散的碼本索引矩陣,大大降低了數(shù)據(jù)的維度和復(fù)雜性,使數(shù)據(jù)表示更為緊湊。
54、2.碼本索引:離散化的過程中,編碼器的輸出被映射到預(yù)定義的碼本中。這意味著原始高維空間中的每個潛在表示都被替換為碼本中的某個離散向量索引。通過這種方式,將第一基因表達數(shù)據(jù)被壓縮為一組碼本索引,從而實現(xiàn)數(shù)據(jù)的壓縮表示。這個過程確保了基因表達數(shù)據(jù)的復(fù)雜模式可以被一組有限的、具有代表性的特征來描述,進而實現(xiàn)對數(shù)據(jù)的有效壓縮。
55、3.自回歸建模:為了捕獲基因表達數(shù)據(jù)中的全局相互作用,本發(fā)明利用隱模型對離散碼本索引序列進行自回歸建模。該建模過程不僅進一步壓縮了數(shù)據(jù),還保留了數(shù)據(jù)中的全局依賴關(guān)系。通過在潛在空間中學(xué)習基因之間的相互作用,使模型可以在低維空間中捕獲高維數(shù)據(jù)的復(fù)雜特征,從而實現(xiàn)對數(shù)據(jù)的進一步壓縮。
56、4.表達矩陣隱空間的全局建模:本發(fā)明對量化后的基因表達潛在空間進行全局建模,捕捉基因表達數(shù)據(jù)中的復(fù)雜調(diào)控關(guān)系和全局依賴性,從而提高對基因表達數(shù)據(jù)的整體描述能力。
57、另外,采用自回歸建模方式生成基因表達數(shù)據(jù)的碼本索引序列,使得每個索引的預(yù)測不僅依賴于前面的索引,還結(jié)合條件信息,實現(xiàn)了對基因表達數(shù)據(jù)復(fù)雜模式的精確建模。
58、5.條件表達信息的量化處理:通過離散化模型,如vq-gan模型對條件基因信息進行量化,將復(fù)雜的生物學(xué)特征(如不同基因表達狀態(tài)、細胞類型)編碼為離散的碼本索引序列,使得條件信息在生成過程中能夠被有效利用。另外,利用vq-gan模型進行基因表達數(shù)據(jù)的量化和解碼,并利用隱transformer進行序列建模,實現(xiàn)了對高維基因表達數(shù)據(jù)的有效生成和重建。
59、6.條件表達信息的預(yù)置機制:本發(fā)明提出了一種將條件基因信息的索引序列添加到基因表達潛在碼本索引序列之前的機制,使得隱transformer在生成基因表達數(shù)據(jù)時,可以充分利用這些條件信息,生成符合生物學(xué)背景的表達矩陣。
60、7.數(shù)據(jù)潛在空間的離散化:通過量化將連續(xù)的基因表達潛在空間離散化為碼本索引序列,降低了基因表達數(shù)據(jù)的復(fù)雜性,使模型在處理高維基因表達數(shù)據(jù)時具有更強的魯棒性和更高的計算效率。