本發(fā)明屬于生物信息學的數(shù)據(jù)處理
技術(shù)領(lǐng)域:
,尤其涉及一種利用全基因組數(shù)據(jù)挖掘甲基化模式的方法。
背景技術(shù):
:隨著高通量測序技術(shù)以及基因芯片技術(shù)的不斷發(fā)展進步,可以得到高效海量的基因數(shù)據(jù),基因數(shù)據(jù)蘊含著許多錯綜復雜的生命現(xiàn)象,使全面地探索疾病的遺傳和表觀遺傳基礎(chǔ)成為可能,為現(xiàn)代生命科學研究提供了新的方向和思路。然而海量數(shù)據(jù)并不能直觀地揭示生命現(xiàn)象或者反映生物規(guī)律,必須使用復雜的統(tǒng)計方法和其他的一些手段和技術(shù)來分析探索海量數(shù)據(jù)蘊含的生物學現(xiàn)象。由此,衍生出了生物信息學科。生物信息學是一門生命科學和計算機科學相結(jié)合的新興學科,研究生物信息的采集、處理、存儲、傳播、分析和解釋等,通過綜合利用生物學、計算機科學和信息技術(shù)來揭示復雜的生物數(shù)據(jù)所蘊藏的生物學奧秘。人類基因組實際上包含兩類信息:遺傳信息和表觀遺傳信息,由此催生了遺傳學和表觀遺傳學。遺傳學(genetics)研究生物的遺傳和變異,包括基因結(jié)構(gòu)、功能變異及表達規(guī)律,即由dna序列發(fā)生改變而產(chǎn)生的遺傳信息;表觀遺傳學(epigenetics)研究在核苷酸序列不發(fā)生改變的前提下,基因表達發(fā)生改變而導致的遺傳。遺傳和表觀遺傳是相對的概念,同時又相互依存共同構(gòu)成人類的遺傳信息。在胚胎形成和發(fā)展中dna甲基化是至關(guān)重要的生命過程,也是最常見的表觀遺傳修飾之一。因此,作為表觀遺傳修飾重要組成部分的dna甲基化也成為研究的重點,其在疾病的早期檢測、預防、治療、預后等取得了顯著的成效。dna甲基化是指在dna甲基轉(zhuǎn)移酶(dnmt)的催化下,以硫代蛋氨酸為甲基供體,在cpg二核苷酸胞嘧啶分子的5’碳原子上添加一個甲基基團的化學修飾。dna甲基化能夠?qū)е履承┗蚴Щ钜约澳承﹨^(qū)域dna構(gòu)象變化,進而影響dna與蛋白質(zhì)的相互作用,控制基因表達。dna甲基化還可能引起基因組中相應區(qū)域染色質(zhì)結(jié)構(gòu)的改變,導致dna失去核梅,限制性內(nèi)切酶的切割位點,以及dna酶的敏感位點,使染色質(zhì)高度螺旋,凝縮成團,失去轉(zhuǎn)錄活性。通過分析甲基化水平與基因表達的關(guān)系發(fā)現(xiàn),甲基化水平與基因表達程負相關(guān),即低甲基化促進基因表達,而高甲基化抑制基因表達。同時大量研究表明,與正常細胞相比,疾病細胞中基因組整體甲基化水平偏低,但啟動子局部區(qū)域異常高甲基化,這為利用甲基化水平檢測疾病的發(fā)生提供了理論依據(jù)。同時某些基因可能在癌細胞或組織中存在腫瘤特異性甲基化的改變,基于此特性,可以將dna甲基化作為疾病早期診斷的生物標記,分子標記可以進一步確定疾病的亞型,這對疾病的治療非常重要;再者由于表觀遺傳的可逆性,臨床上可以將dna甲基化作為疾病治療的新靶點,已有研究表明通過去甲基化藥物處理體外培養(yǎng)的細胞,可以激活由于dna甲基化改變而沉默的基因。測序技術(shù)和微陣列技術(shù)的限制,dna甲基化數(shù)據(jù)非正態(tài)分布的統(tǒng)計特點以及高異質(zhì)性的特點,dna甲基化數(shù)據(jù)在基因組上的不均勻分布,不同組學數(shù)據(jù)的不同維度都對甲基化數(shù)據(jù)分析產(chǎn)生巨大挑戰(zhàn)。dna甲基化數(shù)據(jù)的來源主要通過芯片和測序技術(shù),使用芯片可以獲得多個樣本的全基因組甲基化數(shù)據(jù),可以統(tǒng)計地研究dna甲基化在復雜疾病中的作用,但是其在基因組上的覆蓋率較低,而且不如測序數(shù)據(jù)精確;測序數(shù)據(jù)成本高、耗時多、樣本數(shù)量少,盡管覆蓋率高且結(jié)果精確,但對于癌癥研究存在一定限制;常用的差異分析方法如t檢驗,anova等統(tǒng)計方法對數(shù)據(jù)分布都有一定的要求,并不適用于分析dna甲基化數(shù)據(jù),因此在識別dna甲基化模式時,需要提出新的統(tǒng)計方法或測度;dna甲基化和基因表達的維度不同,而且,一個基因包含多個甲基化位點,如何整合二者,也是研究人員面臨的一大挑戰(zhàn)。正是鑒于以上原因,當前,關(guān)于dna甲基化模式的研究雖多,但大多數(shù)研究都是基于一種疾病或者單個基因及較小區(qū)域的dna甲基化,很少是基于多種疾病的全基因組上的dna甲基化模式的分析,致使多種疾病的dna甲基化模式并不清晰,目前已發(fā)現(xiàn)的甲基化調(diào)控位點更是少之又少。綜上所述,現(xiàn)有技術(shù)存在的問題是:傳統(tǒng)統(tǒng)計方法對數(shù)據(jù)的分布要求較高,即要求數(shù)據(jù)的分布是確定的,而實際甲基化數(shù)據(jù)的分布并不明確,所以傳統(tǒng)的統(tǒng)計方法存在局限性;不同組學數(shù)據(jù)其維度不同,所以數(shù)據(jù)整合也是當前研究面臨的挑戰(zhàn)。技術(shù)實現(xiàn)要素:針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種利用全基因組數(shù)據(jù)挖掘甲基化模式的方法。本發(fā)明是這樣實現(xiàn)的,一種利用全基因組數(shù)據(jù)挖掘甲基化模式的方法,所述利用全基因組數(shù)據(jù)挖掘甲基化模式的方法包括:在多種數(shù)據(jù)樣本集上使用基因芯片顯著性分析sam方法,分別篩選出全基因組上的差異甲基化位點;將多個樣本集的甲基化差異位點取交集,得到共同差異位點集合;計算差異甲基化位點的甲基化水平與相應基因表達水平間的皮爾森相關(guān)系數(shù),識別甲基化調(diào)控位點;對差異位點集合迭代進行ap聚類,得到甲基化簇,分別對每個甲基化簇進行模式分析,并通過基因注釋和kegg富集分析進行論證。進一步,所述利用全基因組數(shù)據(jù)挖掘甲基化模式的方法包括以下步驟:步驟一,對多種疾病樣本數(shù)據(jù)的甲基化水平及基因表達水平進行預處理,預處理過程分為甲基化數(shù)據(jù)預處理和基因表達數(shù)據(jù)預處理;步驟二,用基因芯片顯著性分析sam方法篩選差異甲基化位點,對每種疾病預處理后的cpg位點甲基化數(shù)據(jù),分別采取非配對參數(shù)的sam算法進行差異甲基化位點篩選,每種疾病的正常樣本和患病樣本進行100次的重復實驗以調(diào)整sam的閾值,觀察每個閾值對應的假陽性率fdr值,選取fdr值為0時對應的值作為閾值δ;步驟三,將篩選出來的各個疾病的差異甲基化位點,取交集,得到差異甲基化位點集合;分析差異甲基化位點集合在基因各個位置的分布;步驟四,對得到的差異甲基化位點集合進行ap聚類,得到甲基化簇;步驟五,取出差異甲基化位點集合對應的基因表達水平,計算之間的皮爾森相關(guān)系數(shù),根據(jù)系數(shù)的大小設(shè)置閾值,識別甲基化調(diào)控位點;步驟六,根據(jù)得到的甲基化簇及甲基化調(diào)控位點,得到多種疾病全基因組上的甲基化模式。進一步,所述步驟一具體包括:1)甲基化數(shù)據(jù)預處理:將每個樣本的beta值映射到基因組上而產(chǎn)生的數(shù)據(jù);去掉基因名為空的位點,以及包含0的個數(shù)達到80%以上的位點;2)基因表達數(shù)據(jù)預處理:去掉包含0的個數(shù)達到80%以上的基因,進行缺失值填充,標準化后取對數(shù)歸一化;3)按照基因結(jié)構(gòu)將位點分區(qū)域:將全基因組的甲基化位點根據(jù)基因結(jié)構(gòu)分為如下區(qū)域:啟動子區(qū)域、基因體區(qū)域、3'utr三個區(qū)域;啟動子區(qū)域劃分為tss1500、tss200、第一外顯子、5'utr四個小區(qū)域。進一步,所述步驟四具體包括:1)取出差異甲基化位點集合對應的每種疾病的患病樣本的甲基化水平,得到一個行為甲基化位點,列為數(shù)據(jù)集樣本的矩陣,即聚類的數(shù)據(jù)集;2)計算甲基化數(shù)據(jù)的相似矩陣,相似性度量采用皮爾森相關(guān)系數(shù),得到的相似矩陣為對稱矩陣;3)將相似矩陣當做ap聚類的輸入,迭代地進行差異甲基化數(shù)據(jù)的ap聚類,每次迭代都生成一定數(shù)目的聚類。進一步,所述3)中迭代的具體包括:設(shè)置迭代次數(shù)大于等于10或者聚類數(shù)目小于等于10時,聚類終止;當?shù)螖?shù)小于10且當前聚類數(shù)目小于10個時,將當前每個聚類中的甲基化位點對應樣本的甲基化水平求平均值,得到新的甲基化位點作為該聚類的代表點;ap聚類過程中,有兩種信息在各節(jié)點間傳遞并不斷被更新,吸引度r和歸屬度a,通過多次迭代不斷更新每個樣本點的吸引度和歸屬度,直到產(chǎn)生多個高質(zhì)量的聚類中心,并將其他樣本點分配到相應的簇中;在第一次迭代中,r變量更新公式如下:第一次迭代之后的迭代過程中,根據(jù)信息變量a的值來更新公式;a變量的更新則是收集所有的樣本點對于每一個候選聚類中心的支持度,其更新公式如下:將所有聚類的新甲基化位點代表點組成的數(shù)據(jù)矩陣作為下次迭代的新甲基化數(shù)據(jù),并計算其相似矩陣作為下次迭代的輸入,繼續(xù)聚類過程,直到達到設(shè)定的迭代終止條件。進一步,所述步驟五中根據(jù)甲基化水平與基因表達間的皮爾森相關(guān)系數(shù)以相關(guān)系數(shù)的絕對值0.3為閾值。本發(fā)明的優(yōu)點及積極效果為:本發(fā)明使用sam差異分析方法解決了傳統(tǒng)差異分析方法中對數(shù)據(jù)分布的要求,同時本發(fā)明的方法與t檢驗方法對比發(fā)現(xiàn),差異不大,證明了sam方法的有效性;本發(fā)明使用的ap聚類方法,也摒棄了傳統(tǒng)聚類方法中預設(shè)置聚類數(shù)目的缺陷,不僅提高了聚類效率,還降低了fdr(假陽性率)。本發(fā)明綜合考慮多種疾病的甲基化數(shù)據(jù),由以往方法中的單個疾病擴展到多種類型的疾?。挥蓡蝹€基因或者某個區(qū)域擴展到全基因組;結(jié)合其基因表達數(shù)據(jù),總結(jié)出疾病的dna甲基化模式,對比不同疾病類型甲基化模式的相似性和特異性,揭示甲基化模式對疾病發(fā)生發(fā)展的重要作用,為甲基化在臨床上的應用提供理論依據(jù)和借鑒。本發(fā)明利用甲基化與基因表達之間的皮爾森相關(guān)系數(shù),設(shè)定閾值,篩選強相關(guān)位點,識別甲基化調(diào)控位點。這些位點與多種疾病有關(guān)聯(lián),并不局限于某種疾病,為多種疾病類型所共享。本發(fā)明可用于闡釋復雜疾病的致病機理,對疾病進行風險預測,并為針對去甲基化的藥物研制提供參考和借鑒;不同類型的疾病在甲基化模式上的確存在共性,從全基因組角度研究甲基化模式與疾病的關(guān)系具有現(xiàn)實和臨床意義。附圖說明圖1是本發(fā)明實施例提供的利用全基因組數(shù)據(jù)挖掘甲基化模式的方法流程圖。圖2是本發(fā)明實施例提供的利用全基因組數(shù)據(jù)挖掘甲基化模式的方法實現(xiàn)流程示意圖。圖3是是本發(fā)明實施例提供的在真實數(shù)據(jù)中的實驗結(jié)果示意圖;圖中:(a)腫瘤細胞中各區(qū)域甲基化水平分布情況;(b)正常細胞中各區(qū)域甲基化水平分布情況。具體實施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。下面結(jié)合附圖對本發(fā)明的應用原理作詳細的描述。如圖1所示,本發(fā)明實施例提供的利用全基因組數(shù)據(jù)挖掘甲基化模式的方法包括以下步驟:s101:在多種數(shù)據(jù)樣本集上使用基因芯片顯著性分析sam方法,分別篩選出全基因組上的差異甲基化位點;將多個樣本集的甲基化差異位點取交集,得到共同差異位點集合;s102:計算差異甲基化位點的甲基化水平與相應基因表達水平間的皮爾森相關(guān)系數(shù),識別甲基化調(diào)控位點;s103:對差異位點集合迭代進行ap聚類,得到甲基化簇,分別對每個甲基化簇進行模式分析,并通過基因注釋和kegg富集分析進行論證。下面結(jié)合附圖對本發(fā)明的應用原理作進一步的描述。如圖2所示,本發(fā)明實施例提供的利用全基因組數(shù)據(jù)挖掘甲基化模式的方法包括以下步驟:步驟一,數(shù)據(jù)預處理:甲基化數(shù)據(jù)預處理:去掉基因名(gene-symbol)為空的位點,以及包含0的個數(shù)達到80%以上的位點?;虮磉_數(shù)據(jù)預處理:首先去掉包含0的個數(shù)達到80%以上的基因,然后進行缺失值填充,取標準化后取對數(shù)歸一化。按照基因結(jié)構(gòu)將位點分區(qū)域:將全基因組的甲基化位點根據(jù)基因結(jié)構(gòu)分為啟動子區(qū)域(promoter)、基因體(genebody)區(qū)域、3'utr三個區(qū)域;啟動子區(qū)域又可以進一步劃分為tss1500、tss200、第一外顯子(1stexon)、5'utr四個小區(qū)域。步驟二,利用sam方法篩選單個疾病的差異甲基化位點:分別對各種疾病預處理后的cpg位點的甲基化數(shù)據(jù)采取非配對參數(shù)的sam算法進行差異甲基化位點篩選,每種疾病的正常樣本和患病樣本進行100次的重復實驗去調(diào)整sam的閾值,觀察每個閾值對應的fdr值,最后選取fdr值為0時對應的值為閾值(δ)。本發(fā)明實施例中取的閾值分別為:blcaδ=4.51;brcaδ=4.94;coadδ=4.62;luadδ=4.90;luscδ=4.69;ucecδ=5.03。步驟三,將步驟二中篩選出來的各個疾病的差異甲基化位點,取交集,得到差異甲基化位點集合;分析差異甲基化位點集合在各基因區(qū)域中的分布,如圖2所示。步驟四,對步驟三得到的差異甲基化位點集合進行ap聚類,得到9個甲基化簇。ap聚類的具體過程如下:首先,取出差異甲基化位點集合對應的每種疾病的患病樣本的甲基化水平,得到一個行為甲基化位點,列為數(shù)據(jù)集樣本的矩陣,即聚類的數(shù)據(jù)集;其次,計算甲基化數(shù)據(jù)的相似矩陣,本發(fā)明使用的是皮爾森相關(guān)系數(shù),所以得到的相似矩陣(similarity)為對稱矩陣;最后,將相似矩陣當做ap聚類的輸入,迭代地進行差異甲基化數(shù)據(jù)的ap聚類,每次迭代都生成一定數(shù)目的聚類;其迭代的具體過程為:(1)設(shè)定迭代終止的條件,設(shè)置迭代次數(shù)大于等于10或者聚類數(shù)目小于等于10時,聚類終止;(2)當?shù)螖?shù)小于10且當前聚類數(shù)目小于10個時,將當前每個聚類中的甲基化位點對應樣本的甲基化水平求平均值,得到新的甲基化位點作為該聚類的代表點;ap聚類過程中,有兩種信息在各節(jié)點間傳遞并不斷被更新,即吸引度r(responsibility)和歸屬度a(availability),該算法通過多次迭代不斷更新每個樣本點的吸引度和歸屬度,直到產(chǎn)生多個高質(zhì)量的聚類中心,并將其他樣本點分配到相應的簇中;在第一次迭代中,r變量更新公式如下:第一次迭代過程僅是單純的數(shù)據(jù)驅(qū)動,因為只需要去考慮樣本點之間的相似性大小,而不需要去考慮其它的樣本點對當前的候選樣本點支持度,然而在之后的迭代過程中,需要根據(jù)信息變量a的值來更新公式;a變量的更新則是收集所有的樣本點對于每一個候選聚類中心的支持度,其更新公式如下:(3)將所有聚類的新甲基化位點代表點組成的數(shù)據(jù)矩陣作為下次迭代的新甲基化數(shù)據(jù),并計算其相似矩陣作為下次迭代的輸入,繼續(xù)聚類過程,直到達到設(shè)定的迭代終止條件。步驟五,取出步驟三中差異甲基化位點集合對應的基因表達水平,計算之間的皮爾森相關(guān)系數(shù),皮爾森系數(shù)絕對值大于0.3認為是強相關(guān),識別出甲基化調(diào)控位點。步驟六,根據(jù)步驟四得到的甲基化簇及步驟五得到的甲基化調(diào)控位點總結(jié)出多種疾病全基因組上的甲基化模式。下面結(jié)合實驗對本發(fā)明的應用效果作詳細的描述。1、利用真實病例數(shù)據(jù),挖掘全基因組甲基化模式。實驗中采用的全基因組dna甲基化數(shù)據(jù)集和基因表達數(shù)據(jù)集均來自癌癥和腫瘤基因圖譜(thecancergenomealtas,tcga)中的泛癌癥項目(pan-cancerinitiative)數(shù)據(jù)庫(https://www.synapse.org/#!synapse:syn300013/wiki/70804)中的提供的六種疾病的數(shù)據(jù)集。包括:膀胱尿路上皮癌(bladderurothelialca-rcinoma,blca)、乳腺浸潤癌(breastinvasivecarcinoma,brca)、結(jié)腸癌(colonadenocarcinoma,coad)、肺鱗狀細胞癌(lungsquamouscellcarcinoma,lusc)、子宮內(nèi)膜癌(uterinecorpusendometrialcarcinoma,ucec)、肺腺癌(lungadenocarcinoma,luad)。數(shù)據(jù)都是illumina平臺上的level3水平數(shù)據(jù),甲基化數(shù)據(jù)是illumina微陣列平臺(illuminainfiniumhumanmethylation450karray)上形成的,即將每個樣本的beta值映射到基因組上而產(chǎn)生的數(shù)據(jù);基因表達數(shù)據(jù)使用的是illuminahiseqrnaseqv2數(shù)據(jù)。表1列出了本實驗采用的dna甲基化原始數(shù)據(jù),包含396064個cpg位點,每個基因上可能有多個位點,即每個樣本對應396064個cpg位點的不同甲基化水平,為一系列0到1連續(xù)的值。六種疾病類型的患病樣本和正常樣本都是不平衡樣本,由于處理成平衡樣本會丟失大量樣本,忽略因樣本非對照造成的誤差。表1序號疾病類型cpg位點數(shù)患病樣本正常樣本1blca396064126182brca396064578963coad396064255384luad396064306325lusc396064225426ucec396064383422、實驗的具體實施步驟如下:對表1中的數(shù)據(jù)做預處理,本發(fā)明使用的是bioconductor上提供的fem包里的基因信息,然后去掉基因名(gene-symbol)為空的位點,以及包含0的個數(shù)達到80%以上的位點最后得到248592個cpg位點,接下來的步驟中使用這248592個位點的甲基化值。分別對六種癌癥預處理后的248592個cpg位點的甲基化數(shù)據(jù)采取非配對參數(shù)的sam算法進行差異甲基化位點篩選,每種癌癥的正常樣本和疾病樣本進行100次的重復實驗去調(diào)整sam的閾值,觀察每個閾值對應的fdr值,最后選取fdr值為0時對應的值為閾值(δ),則各癌癥對應的閾值分別為:blcaδ=4.51;brcaδ=4.94;coadδ=4.62;luadδ=4.90;luscδ=4.69;ucecδ=5.03。表2給出了六種疾病的差異甲基化結(jié)果。表23、為了分析多種疾病類型全基因組上的甲基化模式,本發(fā)明使用六種疾病差異甲基化后的交集數(shù)據(jù)其結(jié)果。取交集得到的差異cpg位點為2184個,基因為2728個,其中高甲基化cpg位點(up)1489個和1591個基因;低甲基化cpg位點(low)692個cpg位點和611個基因;由高甲基化位點小于基因個數(shù),推斷出有些位點在多個基因上,如基因結(jié)合處。整體來看,差異甲基化位點個數(shù)小于基因個數(shù),進一步說明了,同一個基因?qū)鄠€位點,且其在不同位點的甲基化水平差距較大;由此推斷,甲基化水平差異較大的位點并不在genebody區(qū)域,而是基因交界處,即啟動子區(qū)。綜上,接下來的實驗中僅使用差異后取交集得到的2184個cpg位點和2728個基因,對應到之前劃分的六個區(qū)域上進行分析,其在各區(qū)域的分布情況如表3所示。由表及圖3可知,在腫瘤基因中,第一外顯子是甲基化差異最大的區(qū)域,其次是3'utr、genebody、tss1500是甲基化差異較大的區(qū)域,由此可以推測,這部分區(qū)域的dna甲基化參與人體的部分基本功能,若這些區(qū)域的甲基化水平產(chǎn)生較大的變化,則易導致其相關(guān)功能的紊亂,致使癌癥發(fā)生,這一現(xiàn)象體現(xiàn)了癌癥之間的相似性。表34.對經(jīng)過上述sam差異分析并取交集的2184個差異甲基化位點及其2728個基因,進行ap聚類。首先取出2184個差異甲基化對應的每種癌癥的患病樣本的甲基化水平,得到一個2184行,1874列的矩陣,即聚類的數(shù)據(jù)集。其次計算甲基化數(shù)據(jù)的相似矩陣,本發(fā)明使用的是皮爾森相關(guān)系數(shù),所以得到的相似矩陣(similarity)為對稱矩陣。將相似性矩陣當做ap聚類的輸入,迭代地進行差異甲基化數(shù)據(jù)的ap聚類,每次迭代都生成一定數(shù)目的聚類,其具體聚類過程為:首先設(shè)定迭代終止的條件,這里設(shè)置迭代次數(shù)大于等于10或者聚類數(shù)目小于等于10時,聚類終止;當?shù)螖?shù)小于10同時當前聚類數(shù)目小于10個時,將當前每個聚類中的甲基化位點對應樣本的甲基化水平求平均值,得到新的甲基化位點作為該聚類的代表點,然后將所有聚類的新甲基化位點代表點組成的數(shù)據(jù)矩陣作為下次迭代的新甲基化數(shù)據(jù),并計算其相似矩陣作為下次迭代的輸入,繼續(xù)聚類過程,直到達到設(shè)定的迭代終止條件。本發(fā)明中迭代終止時,共進行了兩次迭代,最終產(chǎn)生了9個甲基化簇,每個甲基化簇的代表點即為該甲基化簇中所有甲基化位點的甲基化水平的平均值,其結(jié)果如表4所示。由表4可知,2184個cpg位點分在9個不同的甲基化簇中之間沒有重合。觀察基因個數(shù)發(fā)現(xiàn),9個簇中基因的總個數(shù)為1406,但是2184個cpg位點總共對應1239個基因。因此,可以推斷出有部分基因被劃分到多個甲基化簇中。表45.識別甲基化調(diào)控位點:分別計算9個甲基化簇中cpg位點的甲基化水平值與對應基因表達水平間的皮爾森相關(guān)系數(shù)。實驗中9個甲基化簇共包含2184個cpg位點,從tcga數(shù)據(jù)庫中得到基因表達的原始數(shù)據(jù)。通過前期的數(shù)據(jù)預處理,去掉某些基因的表達水平值,2184個差異cpg位點對應到基因表達上剩余1721個位點。觀察這1721個位點的甲基化水平與基因表達水平的皮爾森相關(guān)系數(shù)發(fā)現(xiàn),從總體上看,大部分的cpg位點甲基化程度與基因表達水平之間的相關(guān)系數(shù)的絕對值均低于0.1,甚至有200多個cpg位點的相關(guān)系數(shù)接近于零,可以認為是不相關(guān);只有8個cpg位點的相關(guān)系數(shù)的絕對值大于0.3。它們位于不同的染色體上,且分布集中在第3、4、5甲基化簇中。這其中cg19883813這個位點的皮爾森相關(guān)系數(shù)為-0.63,強負相關(guān),由此可以推斷出這8個基因的異常表達可能是由相對堿基位點過高或過低的甲基化水平異常引起的,表5給出了8個甲基化調(diào)控位點的具體信息。表56.對各個甲基化簇使用david軟件借助go等數(shù)據(jù)庫進行基因注釋,并使用r軟件包gostats參照kegg數(shù)據(jù)庫進行pathway富集分析。pathway通路富集分析結(jié)果(如表6所示),顯示第3甲基化簇沒有參與任何通路即生物過程,說明此類與各癌癥的關(guān)聯(lián)性可能很小,這與david基因注釋的結(jié)果相同??v向觀察表6可以發(fā)現(xiàn),其or值均大于1,由此推斷這部分基因是疾病的危險因素,與腫瘤有著密切關(guān)系。9類甲基化簇在23個生物通路中出現(xiàn)顯著性富集,這表明異常dna甲基化水平影響著多個不同的癌癥相關(guān)通路,并在多個類型的腫瘤相關(guān)通路中發(fā)揮關(guān)鍵性作用。表6由表6可知,各甲基化簇基因參與的主要生物過程有:促進神經(jīng)組織中受體與配體的相互作用,誘發(fā)致心律失常性右室心肌病(arrhythmogenicrightventricularcardiomyopathyarvc)、肥厚性心肌病(hypertrophiccardiomyopathy,hcm)、擴張型心肌病、青春晚期糖尿病、ii型糖尿病等疾病的發(fā)生;在鈣信號通路、趨化因子信號通路、notch信號通路、胰島素信號通路等相關(guān)信號通路中顯著性富集;參與嗅覺信號傳導、細胞粘附分子(celladhesionmolecules,cam)黏著連接、胃酸分泌、氨基酸代謝等相關(guān)生物過程。其富集結(jié)果表明這些基因不僅在癌癥中起著重要作用,其表達異常也可能導致其他疾病的發(fā)生;這也表明癌癥之間,各種疾病之間存在一些相同的相關(guān)致病基因。karnovsky等通過分析dna甲基化的特異性表達探究了多個癌癥類型的相關(guān)通路,并表明癌癥之間有相似的通路,這與本發(fā)明有著相似的結(jié)論,證明了本發(fā)明的有效性。本發(fā)明綜合多種疾病的甲基化和基因表達數(shù)據(jù),對比不同疾病類型甲基化模式的相似性和特異性,揭示甲基化模式對疾病發(fā)生發(fā)展的重要作用,為甲基化在臨床上的應用提供理論依據(jù)和借鑒。本發(fā)明針對以上提到的研究中的局限性,從多種疾病的角度在全基因組上分析dna甲基化數(shù)據(jù)以及基因表達模式,總結(jié)出dna甲基化與基因表達的關(guān)聯(lián)模式,找到不同疾病類型之間dna甲基化的相似性和特異性,力爭將單個疾病的治療方法移植到其他類似疾病的治療上,為疾病的診斷、治療、預后探索一條新途徑。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。當前第1頁12