本發(fā)明涉及一種癌癥預后模型的構建方法及癌癥預后的檢測試劑盒,尤其涉及一種胃癌預后模型的構建方法和用于胃癌預后的檢測試劑盒。
背景技術:
1、胃癌是作為一種異質性較高的腫瘤癌,其預后相關影響因素較多,fa代謝與胃癌的發(fā)生發(fā)展及侵襲能力明顯相關,影響胃癌患者預后。
2、脂肪酸(fatty?acid,fa)代謝在體外和體內多種類型癌癥的發(fā)生和進展中起重要作用,異常的脂肪酸代謝影響腫瘤的侵襲能力。fa代謝與癌細胞遷移、血管的生成、人體對腫瘤細胞的免疫監(jiān)視和腫瘤對化療藥物的耐藥性等生物學行為明顯相關,干擾胃癌侵襲能力,影響胃癌患者的預后,基于腫瘤免疫學、組蛋白乳酸化和腫瘤自噬等已經建立了多種預測胃癌預后模型。但目前缺乏基于脂肪酸代謝相關基因(fmgs)亞型剖析胃癌異質性的相關研究。
3、臨床預測模型是根據研究群體的特征來評估發(fā)生某種疾病或出現(xiàn)某種結局可能性的統(tǒng)計模型,主要分為診斷模型和預后模型。生物信息學方法聚集了統(tǒng)計學、生物學和計算機科學等多個學科領域知識,以生物大分子為研究對象,對其大量的信息數(shù)據進行挖掘,將其與機器學習算法(machine?learning,ml)結合不同的組學,例如基因組、代謝組和蛋白組等的數(shù)據進行特征篩選和特征提取等綜合分析,獲得數(shù)字化信息,發(fā)現(xiàn)關鍵的基因組合,訓練并建立模型,在預測疾病的進展方面具有良好表現(xiàn)。
4、針對于不同的組學,可以通過分子分型(molecular?classification)的方法將樣本的特征進行分析,分類為不同的亞群,將其應用于腫瘤學中,可以幫助確定不同類型的腫瘤亞型,分析不同群體亞型生存時間、治療反應等差異,從而推動個體化治療和預后評估。常見的分型算法有一致性聚類(consensus?cluster)、非負矩陣分解(non?negativematrix?factorization,nmf)及自組織映射(som?clustering)。
5、nmf是一種在矩陣中所有元素均為非負數(shù)約束條件之下,對其進行降維分析和特征提取的矩陣分解方法。nmf的基本思想可以簡單理解為:對于任意給定的一個非負矩陣v,nmf算法能夠尋找到一個非負矩陣w和一個非負矩陣h,使得v=w*h成立,從而將一個非負的矩陣分解為左右兩個非負矩陣的乘積,將一個大的非負矩陣首先分解為兩個小的非負矩陣,因為分解后的矩陣也是非負的,所以也可以繼續(xù)分解,nmf算法通常會用不同參數(shù)運行許多次,結果輸出后分析nmf?rank度量圖,其中包括共生相關系數(shù)(copheneticcorrelation?coefficients)和輪廓系數(shù)(silhouette?coefficients)、彌散系數(shù)(dispersion?coefficients)等,它們可以反映實例在各類簇中是否緊湊、可賦予一定的優(yōu)勢度來評價聚類效果,尋找最好的分型結果。評價聚類效果是否緊湊的常用標準是cophenetic曲線下降范圍最大的前點,還可以聯(lián)合silhouette曲線和dispersion曲線共同決定,也可以由殘差平方和(residual?sum?of?square,rss)曲線呈現(xiàn)拐點的第一個r值來判定,還能夠直接對共識矩陣目視觀察來判斷聚類效果。
6、在醫(yī)學領域中,常用的風險預測建模機器學習方法包括生存樹、貝葉斯方法和神經網絡、支持向量機及其他機器學習算法。根據生存時間分布特性,應用于生存分析的統(tǒng)計學方法包括參數(shù)法、半參數(shù)法及非參數(shù)法,當生存時間分布未知時,比例風險假設不成立時,采用非參數(shù)方法更為適用。
7、隨機生存森林(random?survival?forest,rsf)是隨機森林(random?forests,rf)處理生存數(shù)據的擴展方法,作為一種處理右刪失數(shù)據的集成機器學習算法,具有非參數(shù)法的特性。rsf是二元決策樹(binary?decision?tree)的衍生物-二元生存樹的集合,它通過訓練大量生存樹,每棵生存樹根據最大化生存差異的準則進行節(jié)點分裂輸出一個預測結果,之后通過投票表決的方式,對個體樹的預測結果進行綜合加權選舉出最終結果,一般流程為:(1)通過“自助法”(bootstrap)從給定的數(shù)據集中以有放回的方式隨機抽取樣樣本子集,用于構建生存樹,因為每個樣本中約有37%的數(shù)據未被抽取到,這些被稱為袋外(outof?bag,oob)數(shù)據。(2)對每個訓練樣本集隨機選擇特征構建其對應的二元生存樹,使用候選特征對每顆生存樹根節(jié)點(root?node)進行分割,使子集之間的生存差異最大化。(3)應用nelson-aalen法估算隨機生存森林的總累積風險。(4)一般應用harrell的一致性指數(shù)(concordance?index)的數(shù)值來評價rsf構建的模型準確度,一致性指數(shù)數(shù)值越高,模型的準確度越高,c-index=1-error?rate。隨機生存森林應用vimp法或最小深度法可以對變量的重要性進行排名,尋找出對結局事件的重要變量。相對于傳統(tǒng)生存統(tǒng)計學分析方法如cox比例風險回歸(cox?proportional?hazards?regression,cph)模型,隨機生存森林能夠不受實際生存數(shù)據難以滿足為cph模型設置的等比例風險假設和要求協(xié)變量之間相互獨立的條件時,可以成為cph模型的替代模型,rsf對于數(shù)據類型無任何要求,結構設計靈活,因為對于數(shù)據集進行bootstrap采樣,生成的過程中就進行了內部評估,獲得了誤差的一個無偏估計,所以無需應用其他獨立測試機驗證。
8、cgβ8是編碼人絨毛膜促性腺激素(hcg)β亞單位的等位基因之一,β-hcg多與妊娠密切相關。與之前研究發(fā)現(xiàn)相似,cgβ8是胃癌患者的預后因子。zhao?r等研究發(fā)現(xiàn),對于cgβ8編碼的hcg及其受體在胃癌組織的表達明顯高于癌旁組織,可能通過激活依賴于pka信號通路的c-met的表達來促進腫瘤細胞的增殖。人尿溶蛋白1b(uroplakin1b,upk1b)是尿路上皮細胞的一種結構蛋白,在可促進腫瘤細胞的增殖、侵襲和轉移,在多種具有組織特異性的腫瘤中存在差異表達,如尿路上皮癌、腎癌等惡性腫瘤。人類嗅覺受體(or)基因家族是感覺神經元中的g蛋白偶聯(lián)受體的重要成員,不僅在嗅覺上皮細胞發(fā)揮重要作用,在腫瘤細胞的侵襲中也發(fā)揮關鍵作用,or基因家族在腫瘤中明顯過表達,被認為是腫瘤生物標志物,但or家族在胃癌中的功能及其潛在的分子機制仍然在很大程度上是未知的。
技術實現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的是提供一種胃癌預后模型的構建方法,解決如何篩選并利用脂肪酸代謝相關基因構建胃癌預后模型的問題,本發(fā)明的另一目的是提供一種用于胃癌預后的檢測試劑盒,解決如何利用全新靶基因進行胃癌預后的問題。
2、技術方案:本發(fā)明所述的一種胃癌預后模型的構建方法,包括如下步驟:
3、應用胃癌轉錄組和臨床數(shù)據篩選胃癌組織樣本和癌旁組織樣本之間的差異表達基因;
4、收集脂肪酸代謝基因,將差異表達基因與脂肪酸代謝基因取交集,得到差異表達的脂肪酸代謝相關基因;
5、利用非負矩陣方法分解具有差異表達的脂肪酸代謝相關基因的胃腺癌患者隊列,識別為不同預后的患者亞型;
6、富集分析不同預后的患者亞型的差異功能、差異通路、腫瘤微環(huán)境;
7、以不同預后的患者亞型之間的差異表達的脂肪酸代謝相關基因作為候選基因,建立sum模型,基于胃癌患者數(shù)據集篩選核心基因構建胃癌預后模型。
8、本發(fā)明基于機器學習算法,探索胃癌中差異表達的fmgs與胃腺癌患者的預后關系,建立fmgs分型的胃癌預后模型。首先通過nmf這一聚類分析算法,成功確定了tcga-stad隊列中的兩個分子亞型:c1亞型與c2亞型,使用k-m法(log-rank檢驗)觀察亞型之間是否存在生存差異,結果顯示c1亞型患者的5年dss和pfi以及整體os較c2亞型患者具有更明顯的生存優(yōu)勢(p<0.05)。
9、差異功能、差異通路及腫瘤微環(huán)境都是為了說明分型,把兩種預后的患者分類出來。
10、本發(fā)明構建的預后模型關鍵基因之一or51g2為首次發(fā)現(xiàn)于與胃腺癌患者預后相關。優(yōu)選地,所述應用胃癌轉錄組和臨床數(shù)據篩選胃癌組織樣本和癌旁組織樣本之間的差異表達基因為:應用tcga數(shù)據庫下載的胃癌轉錄組和臨床數(shù)據,基于r語言的limma軟件包,以截斷標準是差異倍數(shù)fc,|log2fc|>1且調整p值<0.05篩選胃癌組織樣本和癌旁組織樣本之間的差異表達基因。
11、優(yōu)選地,所述利用非負矩陣方法分解具有差異表達的脂肪酸代謝相關基因的胃腺癌患者隊列,識別為不同預后的患者亞型為:設定秩次rank從2~10對具有差異表達的脂肪酸代謝相關基因的胃腺癌患者隊列進行非矩陣分解,根據穩(wěn)定性確定最優(yōu)的秩次rank,根據最優(yōu)的秩次rank產生不同預后的患者亞型。
12、優(yōu)選地,所述基于胃癌患者數(shù)據集篩選核心基因構建胃癌預后模型包括:
13、隨機將胃癌患者隨機分為訓練集和測試集,在訓練集中對候選基因采用單因素cox回歸分析,以p<0.05為過濾條件,篩選出與總體預后有關的基因,之后用多變量cox回歸分析篩選出核心基因構建胃癌預后模型;
14、對測試集在胃癌預后模型中重復抽樣并擬合模型,用隨機生存森林進一步評估核心基因對患者生存狀態(tài)的重要程度,采用cox回歸系數(shù)和基因的變量進行模型構建,并為患者進行風險評分,將胃癌患者按照風險評分的中位值劃分為高風險患者和低風險患者。
15、優(yōu)選地,所述核心基因為cgβ8蛋白基因、upk1b蛋白基因和or51g2蛋白基因。
16、本發(fā)明基于上述預后模型中的核心基因進一步提供一種用于胃癌預后的檢測試劑盒,包括檢測預后靶基因表達水平的引物對,所述預后靶基因包括or51g2蛋白基因、cgβ8蛋白基因和/或upk1b蛋白基因。
17、優(yōu)選地,所述預后靶基因表達水平的檢測方法為熒光定量pcr。熒光定量pcr的相關試劑包括dntp,聚合酶等。現(xiàn)有的商品化試劑superreal?premix包含有熒光定量pcr所需的必要組分。所述熒光定量pcr的反應體系為:
18、
19、優(yōu)選地,所述or51g2蛋白基因的表達水平檢測引物對為:
20、上游引物:5'-tggagcacgagaaattagcca-3';
21、下游引物:5'-gccacaataggggaatcttttga-3'。
22、所述cgβ8蛋白基因的表達水平檢測引物對為:
23、上游引物:5'-ctggctgtggagaaggag-3';
24、下游引物:5'-acatcgcggtagttgcac-3';
25、所述upk1b蛋白基因的表達水平檢測引物對為:
26、上游引物:5'-ccaaagacaactcaactgttcgt-3';
27、下游引物:5'-aatgccgcaacaaccaataatc-3';
28、優(yōu)選地,所述熒光定量pcr的內參基因為gapdh,上述試劑盒中還包括gapdh表達水平檢測引物對,序列為:
29、上游引物:5'-acaactttggtatcgtggaagg-3';
30、下游引物:5'-gccatcacgccacagtttc-3'。
31、gapdh也可以根據檢測需要替換為β-actin、18s?rrna等其他內參基因。
32、優(yōu)選地,上述試劑盒中還包括反轉錄pcr試劑和rna提取試劑,所述反轉錄pcr的反應體系為:
33、
34、有益效果:與現(xiàn)有技術相比,本發(fā)明具有如下顯著優(yōu)點:
35、本發(fā)明基于fmgs亞型,通過rsf聯(lián)合多因素cox回歸模型,篩選與stad患者預后相關的獨立風險基因,構建了由cgβ8、upk1b和or51g2組成的預后風險模型,該模型的準率約64%,并根據風險評分的中位值將患者劃分為高風險組和低風險組,k-m生存分析顯示高低風險組dss、os及pfi均有顯著差異(p<0.001)低風險組具有更明顯的生存優(yōu)勢。本發(fā)明發(fā)現(xiàn)的三個fmgs(cgβ8、upk1b、or51g2)與胃癌患者預后密切相關,均為胃癌的不良預后因素。
36、本發(fā)明首次發(fā)現(xiàn)or51g2蛋白基因的表達水平與胃腺癌患者不良預后相關,rt-pcr實驗發(fā)現(xiàn)在胃癌組織和癌旁組織存在顯著表達差異。cgβ8和upk1b在多個研究中被證實在胃癌的惡性生物學行為中發(fā)揮重要作用,與胃癌患者不良預后相關。本發(fā)明采用針對or51g2、cgβ8和upk1b三種預后靶點設計的引物對,通過rt-pcr即可快速準確地對胃癌預后,具有很好的診斷應用前景。