本發(fā)明涉及生物研究
技術(shù)領(lǐng)域:
,具體為一種基于基因表達(dá)譜的胃癌預(yù)后標(biāo)志物篩選及分類(lèi)方法。
背景技術(shù):
:胃癌是最常見(jiàn)的惡性腫瘤之一,發(fā)病率及死亡率居高不下,早期診斷、合理評(píng)估其預(yù)后并適時(shí)適度干預(yù)十分重要。目前研究揭示:胃癌是一種基因病,是由多種癌基因抗癌基因共同參與、多階段多途徑協(xié)同,使胃黏膜逐步發(fā)展到癌前病變,再發(fā)展到胃癌的這樣一個(gè)演變過(guò)程。正常胃黏膜到癌前變過(guò)程及癌前變至胃癌過(guò)程皆存在特征性的差異表達(dá)基因,而分子病理學(xué)將分子雜交技術(shù)與組織形態(tài)學(xué)檢測(cè)相融合,隨著免疫組織化學(xué)及分子生物學(xué)的發(fā)展,胃癌的病理與免疫學(xué)及分子生物學(xué)研究之間越來(lái)越密不可分,目前已探索了許多與胃癌相關(guān)的基因及其蛋白質(zhì)產(chǎn)物,早期發(fā)現(xiàn)這些基因及標(biāo)志物為探討胃癌發(fā)病機(jī)理開(kāi)辟了新途徑,更加能夠揭示腫瘤組織的生長(zhǎng)活性在腫瘤生長(zhǎng)、浸潤(rùn)和轉(zhuǎn)移方面的作用,從而更加準(zhǔn)確地指導(dǎo)臨床治療,判斷預(yù)后。隨著基因芯片實(shí)驗(yàn)技術(shù)的日益成熟和完善,各種基因表達(dá)譜數(shù)據(jù)正在以指數(shù)級(jí)方式增加。目前,全球最有影響力的基因表達(dá)譜數(shù)據(jù)庫(kù)主要包括GEO(全稱(chēng)是GeneExpressionOmnibus)、ArrayExpress以及SMD(全稱(chēng)是StanfordMicroarrayDatabase)。生物信息技術(shù)也在快速發(fā)展,利用基因表達(dá)譜數(shù)據(jù)在基因水平上研究腫瘤的發(fā)生發(fā)展機(jī)理,有助于腫瘤診斷和個(gè)性化治療。當(dāng)前基于基因表達(dá)譜的腫瘤分類(lèi)方法研究多數(shù)集中在兩方面:一、由于基因表達(dá)譜數(shù)據(jù)具有高維樣本的顯著特性,而且其中存在大量的冗余基因及噪聲,如何從高維數(shù)據(jù)中提取出致病基因仍是一個(gè)難點(diǎn);二、基因表達(dá)譜數(shù)據(jù)分析的準(zhǔn)確度還沒(méi)有達(dá)到應(yīng)用水平,腫瘤的最終診斷例如胃癌等,還是依賴(lài)于醫(yī)學(xué)專(zhuān)家。因此尋找合適的分類(lèi)算法并提高其性能是目前研究的重中之重。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提供一種基于基因表達(dá)譜的胃癌預(yù)后標(biāo)志物篩選及分類(lèi)方法,以解決上述
背景技術(shù):
中提出的問(wèn)題。為了實(shí)現(xiàn)上述目的,本發(fā)明一種基于基因表達(dá)譜的胃癌預(yù)后標(biāo)志物篩選及分類(lèi)方法,包括以下步驟(1)從GEO數(shù)據(jù)庫(kù)獲取胃癌病人基因表達(dá)譜數(shù)據(jù)以及病人的臨床隨訪(fǎng)信息數(shù)據(jù),且數(shù)據(jù)樣本的數(shù)目為N。(2)根據(jù)步驟(1)中得到的基因表達(dá)譜數(shù)據(jù)構(gòu)建病人的基因表達(dá)譜矩陣,若出現(xiàn)某個(gè)基因在某個(gè)樣本中未檢測(cè)到則使用該基因在其他樣本中的表達(dá)平均值替代,若出現(xiàn)多次檢測(cè)到則取平均值替代,最終構(gòu)建無(wú)缺失值的矩陣如下表所列:Sample1Sample2……SampleNGene1Exp11Exp12Exp1…Exp1NGene2Exp21Exp22Exp2…Exp2N……Exp…1Exp…2Exp……Exp…NGeneMExpM1ExpM2ExpM…ExpMN(3)根據(jù)步驟(2)所得矩陣計(jì)算每個(gè)基因(i=1,2,3……M)在各樣本中的表達(dá)水平的中位數(shù)Mi,以及在各樣本中表達(dá)水平的方差Vi,進(jìn)一步的將所有基因的中位數(shù)Mi和方差Vi從大到小排序,分別選取在排序前80%的基因組成兩個(gè)基因集合,進(jìn)一步的選取兩個(gè)基因集合取交集作為預(yù)選的有變化的基因。(4)根據(jù)步驟(3)中篩選出來(lái)的基因的表達(dá)水平以及步驟(1)中的病人的臨床隨訪(fǎng)信息數(shù)據(jù)建立Cox比例風(fēng)險(xiǎn)模型:其中β1,β2,…,βp為偏回歸系數(shù),h0(t)為未知數(shù),x1,x2,…,xp為基因的表達(dá)水平,h(t)表示t時(shí)刻病人死亡的風(fēng)險(xiǎn)率。對(duì)Cox模型檢驗(yàn),采用似然比檢驗(yàn),步驟如下:a、假設(shè)H0:所有的βi為0,H1:所有的βi不為0;b、將H0和H1條件下的最大似然函數(shù)的對(duì)數(shù)值分別記為L(zhǎng)Lp(H0)和LLp(H1);c、計(jì)算在原假設(shè)的條件下統(tǒng)計(jì)量χ2=-2[LLp(H1)-LLp(H0)]服從自由度為p的χ2分布的顯著性p值;最后根據(jù)上述a、b、c步驟對(duì)每一個(gè)基因單獨(dú)代入Cox模型,分別計(jì)算最終的統(tǒng)計(jì)學(xué)顯著性p值,最終篩選顯著性p值小于0.05的基因作為種子基因。(5)根據(jù)種子基因在病人中表達(dá)水平構(gòu)建新的表達(dá)矩陣,結(jié)合步驟(1)中的病人的臨床隨訪(fǎng)信息數(shù)據(jù)構(gòu)建最大似然模型篩選預(yù)后關(guān)鍵基因,步驟如下:Ⅰ、隨機(jī)將樣本分成三份,選擇三倍交叉驗(yàn)證,隨機(jī)選擇其中兩組作為訓(xùn)練集,另外一組作為檢驗(yàn)集。根據(jù)訓(xùn)練集可以得到每個(gè)基因的參數(shù)的估計(jì)值,然后這個(gè)參數(shù)在檢驗(yàn)集通過(guò)最大似然估計(jì)方法評(píng)價(jià)好壞。Ⅱ、重復(fù)第Ⅰ步10次,得到每一個(gè)基因的最大似然估計(jì)的10個(gè)值,選擇最大似然估計(jì)平均值最大的作為最好的基因。接著搜索下一個(gè)最好的基因,評(píng)估剩下的每個(gè)基因與上次最好的基因的組合模型。Ⅲ、通過(guò)不斷的向前選擇基因的方法得到一系列模型。對(duì)每個(gè)模型通過(guò)Akaike信息論準(zhǔn)則(AICs)進(jìn)行模型的評(píng)估,最后選擇AIC值最小的那個(gè)模型作為最優(yōu)模型,篩選出最優(yōu)的基因組合作為預(yù)后關(guān)鍵基因。Ⅳ、計(jì)算基因i的風(fēng)險(xiǎn)比HR,公式如下:(6)根據(jù)步驟(5)中篩選出來(lái)的每個(gè)預(yù)后關(guān)鍵基因在病人中的風(fēng)險(xiǎn)比以及這些基因?qū)?yīng)病人的表達(dá)譜構(gòu)建新的表達(dá)矩陣,然后對(duì)矩陣進(jìn)行離散化,離散方式如下:當(dāng)預(yù)后關(guān)鍵基因i對(duì)應(yīng)風(fēng)險(xiǎn)系數(shù)大于1且該基因在樣本j中的表達(dá)水平排在該基因在所有樣本中的表達(dá)水平的中位數(shù)以上,則在矩陣中將表達(dá)水平替換成1。當(dāng)預(yù)后關(guān)鍵基因i對(duì)應(yīng)風(fēng)險(xiǎn)系數(shù)小于1且該基因在樣本j中的表達(dá)水平排在該基因在所有樣本中的表達(dá)水平的中位數(shù)以下,則在矩陣中將表達(dá)水平替換成1。不滿(mǎn)足以上兩個(gè)條件的則標(biāo)記為0。最后得到0-1矩陣。(7)根據(jù)病人預(yù)后關(guān)鍵基因的0-1矩陣,統(tǒng)計(jì)每個(gè)病人在各預(yù)后關(guān)鍵基因中被標(biāo)記為1的個(gè)數(shù)Ci,分別根據(jù)Ci≥1,Ci≥2…..Ci≥N(N=預(yù)后關(guān)鍵基因個(gè)數(shù))對(duì)病人進(jìn)行高風(fēng)險(xiǎn)預(yù)測(cè)歸類(lèi)。(8)根據(jù)步驟(7)中N種歸類(lèi)方式,使用Kaplan-Meier生存函數(shù)估計(jì)預(yù)測(cè)為高風(fēng)險(xiǎn)病人與其他病人的生存差異,采用log-rank檢驗(yàn)方式作為統(tǒng)計(jì)學(xué)檢驗(yàn)特征,最終得到每個(gè)歸類(lèi)方式下的顯著性p值,選擇最顯著的歸類(lèi)方式作為最終的歸類(lèi)方式對(duì)病人進(jìn)行高風(fēng)險(xiǎn)預(yù)測(cè)。優(yōu)選的,所述步驟(1)中的病人基因表達(dá)譜數(shù)據(jù)以及病人的臨床隨訪(fǎng)信息數(shù)據(jù)的數(shù)據(jù)樣本量N至少為11。優(yōu)選的,從所述步驟(4)中篩選的顯著性p值小于0.05的基因中篩選p值較小的部分基因作為種子基因。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:一種基于基因表達(dá)譜的胃癌預(yù)后標(biāo)志物篩選及分類(lèi)方法,采用多種特征提取的方法組合將高維表達(dá)譜數(shù)據(jù)降維挖掘出最重要的幾個(gè)影響疾病的關(guān)鍵的基因,大大降低基因的維數(shù),從而提高分類(lèi)正確率,并根據(jù)挖掘得到的疾病預(yù)后關(guān)鍵基因的表達(dá)水平使用離散化方法預(yù)測(cè)病人的預(yù)后風(fēng)險(xiǎn)。附圖說(shuō)明圖1為本發(fā)明的流程示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。一種基于基因表達(dá)譜的胃癌預(yù)后標(biāo)志物篩選及分類(lèi)方法:從GEO數(shù)據(jù)庫(kù)中下載432個(gè)胃癌的疾病樣本一共17418個(gè)基因的表達(dá)值以及病人的病人的臨床隨訪(fǎng)數(shù)據(jù),并建立數(shù)據(jù)矩陣。篩選在各樣本中有變化的基因,計(jì)算每個(gè)基因(i=1,2,3……M)在各樣本中的表達(dá)水平的中位數(shù)Mi,以及在各樣本中表達(dá)水平的方差Vi,進(jìn)一步的將所有基因的中位數(shù)Mi和方差Vi從大到小排序,分別選取在排序前80%的基因組成兩個(gè)基因集合,進(jìn)一步的選取兩個(gè)基因集合取交集作為預(yù)選的有變化的基因。通過(guò)此篩選條件從17418個(gè)基因中共得到了11420個(gè)有變化的基因。根據(jù)基因在各病人中的表達(dá)水平以及對(duì)應(yīng)的病人的生存時(shí)間借助于Logistic模型的構(gòu)造思想構(gòu)建Cox比例風(fēng)險(xiǎn)模型:其中β1,β2,…,βp為偏回歸系數(shù),h0(t)為未知數(shù),x1,x2,…,xp為基因的表達(dá)水平,h(t)表示t時(shí)刻病人死亡的風(fēng)險(xiǎn)率。對(duì)Cox模型檢驗(yàn),采用似然比檢驗(yàn),步驟如下:a、假設(shè)H0:所有的βi為0,H1:所有的βi不為0;b、將H0和H1條件下的最大似然函數(shù)的對(duì)數(shù)值分別記為L(zhǎng)Lp(H0)和LLp(H1);c、計(jì)算在原假設(shè)的條件下統(tǒng)計(jì)量χ2=-2[LLp(H1)-LLp(H0)]服從自由度為p的χ2分布的顯著性p值;最后根據(jù)上述步驟對(duì)每一個(gè)基因單獨(dú)代入以上模型,分別計(jì)算最終的統(tǒng)計(jì)學(xué)顯著性p值,得到共有798個(gè)顯著性p值小于0.05的基因,進(jìn)一步篩選出其中最顯著的20個(gè)基因如下表所列:Ⅰ、選擇三倍交叉驗(yàn)證(隨機(jī)分成三份),隨機(jī)將每一個(gè)樣本分配到訓(xùn)練集和檢驗(yàn)集。根據(jù)訓(xùn)練集得到每個(gè)基因的參數(shù)的估計(jì)值,然后這個(gè)參數(shù)在檢驗(yàn)集通過(guò)最大似然估計(jì)方法評(píng)價(jià)好壞。Ⅱ、重復(fù)步驟Ⅰ這一步10次,得到每一個(gè)基因的最大似然估計(jì)的10個(gè)值,選擇最大似然估計(jì)平均值最大的作為最好的基因。接著搜索下一個(gè)最好的基因,評(píng)估剩下的每個(gè)基因與上次最好的基因的組合模型。Ⅲ、通過(guò)不斷的向前選擇基因的方法得到一系列模型。對(duì)每個(gè)模型通過(guò)Akaike信息論準(zhǔn)則(AICs)進(jìn)行模型的評(píng)估,最后選擇AIC值最小的那個(gè)模型作為最優(yōu)模型。Ⅳ、重復(fù)以上步驟Ⅰ、步驟Ⅱ和步驟Ⅲ循環(huán)1000次,結(jié)果顯示9個(gè)基因的組合頻率為999次,選取這9個(gè)基因作為預(yù)后關(guān)鍵基因;同時(shí)計(jì)算出風(fēng)險(xiǎn)比HR,其計(jì)算公式為根據(jù)步驟Ⅳ篩選出來(lái)的預(yù)后關(guān)鍵基因在病人中的風(fēng)險(xiǎn)比以及這些預(yù)后關(guān)鍵基因?qū)?yīng)病人的表達(dá)譜構(gòu)建新的表達(dá)矩陣,然后對(duì)矩陣進(jìn)行離散化,離散方式如下:當(dāng)預(yù)后關(guān)鍵基因i對(duì)應(yīng)風(fēng)險(xiǎn)系數(shù)大于1且該基因在樣本j中的表達(dá)水平排在該基因在所有樣本中的表達(dá)水平的中位數(shù)以上,則在矩陣中將表達(dá)水平替換成1。當(dāng)關(guān)鍵基因i對(duì)應(yīng)風(fēng)險(xiǎn)系數(shù)小于1且該基因在樣本j中的表達(dá)水平排在該基因在所有樣本中的表達(dá)水平的中位數(shù)以下,則在矩陣中將表達(dá)水平替換成1。不滿(mǎn)足以上兩個(gè)條件的則標(biāo)記為0,計(jì)算出每個(gè)樣本對(duì)應(yīng)的激活影響因子個(gè)數(shù)。根據(jù)每個(gè)樣本對(duì)應(yīng)的激活影響因子個(gè)數(shù)≥1、≥2、≥3、≥4……進(jìn)行分類(lèi),同時(shí)進(jìn)行KaplanMeier單因素生存分析得到結(jié)果顯著性p值,不同分類(lèi)方式得到的KaplanMeier生存分析結(jié)果如下表所列:激活影響因子個(gè)數(shù)顯著性p值激活影響因子個(gè)數(shù)≥10.2052激活影響因子個(gè)數(shù)≥20.00264激活影響因子個(gè)數(shù)≥36e-05激活影響因子個(gè)數(shù)≥43.108872e-08激活影響因子個(gè)數(shù)≥53.830298e-10激活影響因子個(gè)數(shù)≥61.841547e-08激活影響因子個(gè)數(shù)≥74.573210e-10激活影響因子個(gè)數(shù)≥83.751351e-08激活影響因子個(gè)數(shù)≥91.216125e-05從表中可以看出整體九個(gè)分類(lèi)結(jié)果都有著顯著的預(yù)后差異,尤其激活影響因子個(gè)數(shù)≥5最為顯著,最終我們選擇激活影響因子個(gè)數(shù)≥5作為最終的模型,即九個(gè)預(yù)后特征基因中有五個(gè)被激活則病人具有預(yù)后高風(fēng)險(xiǎn)。使用TCGA引入外部數(shù)據(jù),對(duì)以上結(jié)果進(jìn)行驗(yàn)證,根據(jù)激活影響因子個(gè)數(shù)≥5將415個(gè)病人樣本分為高風(fēng)險(xiǎn)病人和低風(fēng)險(xiǎn)病人兩組,使用KaplanMeier單因素生存分析結(jié)果顯示兩類(lèi)樣本的生存時(shí)間有顯著性p值為0.00445,復(fù)發(fā)風(fēng)險(xiǎn)的顯著性p值為0.00147,具有顯著差別。本發(fā)明的基于因表達(dá)譜數(shù)據(jù)的胃癌預(yù)后標(biāo)志物篩選及分類(lèi)方法可以有效的將高維冗雜的基因表達(dá)譜數(shù)據(jù)降維,從幾萬(wàn)個(gè)基因中篩選出容易應(yīng)用于臨床檢測(cè)的關(guān)鍵的幾個(gè)基因;并且通過(guò)本發(fā)明提供的分類(lèi)方法可以通過(guò)其他實(shí)驗(yàn)室的數(shù)據(jù)得到驗(yàn)證。盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。當(dāng)前第1頁(yè)1 2 3