欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多樣本間甲基化差異檢測方法及裝置的制作方法

文檔序號:6432283閱讀:285來源:國知局
專利名稱:一種多樣本間甲基化差異檢測方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及表觀遺傳學領(lǐng)域,特別是涉及一種多樣本間甲基化差異檢測方法及裝置。
背景技術(shù)
DNA甲基化已經(jīng)成為表觀遺傳學和表觀基因組學的重要研究內(nèi)容。DNA甲基化是重要的表觀遺傳調(diào)控因子之一,對不同細胞、組織等甲基化修飾模式差異的研究,對于更好地解釋組織與組織之間、個體與個體之間在表觀修飾上存在差異的原因以及對于疾病易感人群,個體醫(yī)療甚至藥物設(shè)計等方面的研究有著重大的意義。然而,相對于測定DNA甲基化譜的高通量實驗技術(shù)的快速發(fā)展,從這些實驗數(shù)據(jù)中查找與檢測甲基化顯著性差異區(qū)域的方法和裝置的步伐卻遠遠滯后。目前已實現(xiàn)的甲基化顯著性差異區(qū)域檢測的方法,主要集中在兩個樣本之間的比較,例如,利用卡方檢驗或者t檢驗獲得顯著性差異區(qū)間,這種方法在一定程度上可以獲得具有差異的區(qū)間,但是由于靈敏度較低,統(tǒng)計功效不高,不能實現(xiàn)多樣本間甲基化顯著性差異區(qū)域的查找與檢測。另外就是利用基因芯片技術(shù),但該技術(shù)具有檢測結(jié)果不準確、實驗要求聞、費用昂貴的缺點。因此,研究一種新的可以進行多樣本間甲基化差異區(qū)域查找和甲基化差異檢測并且具有較高靈敏度、特異度、準確性高,成本低的技術(shù)就成了亟待解決的問題。

發(fā)明內(nèi)容
本發(fā)明主要解決的技術(shù)問題是提供一種多樣本間甲基化差異檢測方法及裝置,能夠準確、靈敏、快速地進行多樣本間甲基化差異檢測。為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是本發(fā)明提供了一種多樣本間甲基化差異的檢測方法,該方法包括步驟獲得多組樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本的甲基化數(shù)據(jù);對在參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域;對同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取在甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。根據(jù)本發(fā)明的一優(yōu)選實施例,對在參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域的步驟包括以下步驟預設(shè)窗口長度,根據(jù)位置信息,從參考基因組序列起始端開始,以窗口長度作為判斷區(qū)間的起始長度在參考基因組序列上設(shè)定判斷區(qū)間;判斷同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提;若符合方差分析前提,則將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間方差分析,若不符合方差分析前提,則將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異;若存在甲基化差異,則延長該判斷區(qū)間,判斷位置在同一延長后的判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提,若符合則進行前述組間方差分析,若不符合則進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,重復本步驟直至判斷得出上述組在當前判斷區(qū)間內(nèi)不存在甲基化差異,并輸出該當前判斷區(qū)間的信息作為甲基化差異區(qū)域;若不存在甲基化差異,則從上一判斷區(qū)間的末端開始在參考基因組序列上以窗口長度作為判斷區(qū)間的起始長度設(shè)定下一判斷區(qū)間,判斷位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提,若符合則進行前述組間方差分析,若不符合則進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異,若存在甲基化差異則執(zhí)行前述延長該判斷區(qū)間、判斷是否符合方差分析前提以及分析并判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若不存在甲基化差異則執(zhí)行本步驟。根據(jù)本發(fā)明的一優(yōu)選實施例,的對同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取在甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組的步驟包括以下步驟通過最小顯著性差異法對位置在同一甲基化差異區(qū)域內(nèi)的且符合方差分析前提的各組的甲基化數(shù)據(jù)進行組間兩兩比較,通過Kruskal-Wallis Dunn方法對各組在甲基化差異區(qū)域內(nèi)的且不符合方差分析前提的甲基化數(shù)據(jù)進行組間兩兩比較,得到比較結(jié)果;根據(jù)比較結(jié)果判斷并輸出在該甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。根據(jù)本發(fā)明的一優(yōu)選實施例,對在參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域的步驟包括以下步驟在判斷完上述組在當前判斷區(qū)間是否存在甲基化差異之后,判斷當前判斷區(qū)間是否已達參考基因組序列末端,若是,則終止繼續(xù)設(shè)定或延長判斷區(qū)間以及分析并判斷上述組在判斷區(qū)間內(nèi)是否存在甲基化差異的步驟。根據(jù)本發(fā)明的一優(yōu)選實施例,在判斷得出上述組在當前判斷區(qū)間內(nèi)存在甲基化差異時,延長該判斷區(qū)間的步驟具體為將該判斷區(qū)間延長一個預設(shè)步長。根據(jù)本發(fā)明的一優(yōu)選實施例,方差分析前提為各組樣本的數(shù)據(jù)是否具有獨立性;同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合正態(tài)分布;同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差齊性。本發(fā)明還提供了一種多樣本間甲基化差異的檢測裝置,該裝置包括甲基化數(shù)據(jù)獲取單元,用于獲得多組樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本的甲基化數(shù)據(jù);甲基化差異區(qū)域獲取單元,用于對在參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域;甲基化差異組獲取單元,用于對同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取在甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。根據(jù)本發(fā)明的一優(yōu)選實施例,甲基化差異區(qū)域獲取單元包括設(shè)置單元,用于預設(shè)窗口長度,根據(jù)位置信息,從參考基因組序列起始端開始,以窗口長度作為判斷區(qū)間的起始長度在參考基因組序列上設(shè)定判斷區(qū)間;判斷單元,用于判斷同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提;分析單元,若符合方差分析前提,分析單元用于將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間方差分析,若不符合方差分析前提,分析單元用于將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異;控制單元,若存在甲基化差異,控制單元控制設(shè)置單元延長該判斷區(qū)間,控制判斷單元判斷位置在同一延長后的判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提,控制分析單元在符合方差分析前提時進行前述組間方差分析,在不符合方差分析前提時進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,控制設(shè)置單元、判斷單元及分析單元重復本步驟直至判斷得出上述組在當前判斷區(qū)間內(nèi)不存在甲基化差異,并輸出該當前判斷區(qū)間的信息作為甲基化差異區(qū)域;若不存在甲基化差異,控制單元控制設(shè)置單元從上一判斷區(qū)間的末端開始在參考基因組序列上以窗口長度作為判斷區(qū)間的起始長度設(shè)定下一判斷區(qū)間,控制判斷單元判斷位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提,控制分析單元在符合方差分析前提時進行前述組間方差分析,控制分析單元在不符合方差分析前提時進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若存在甲基化差異則執(zhí)行前述延長該判斷區(qū)間、判斷是否符合方差分析前提以及分析并判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若不存在甲基化差異則執(zhí)行本步驟。根據(jù)本發(fā)明的一優(yōu)選實施例,甲基化差異組獲取單元包括比較單元,用于通過最小顯著性差異法對位置在同一甲基化差異區(qū)域內(nèi)的且符合方差分析前提的各組的甲基化數(shù)據(jù)進行組間兩兩比較,通過Kruskal-Wallis Dunn方法對各組在甲基化差異區(qū)域內(nèi)的且不符合方差分析前提的甲基化數(shù)據(jù)進行組間兩兩比較,得到比較結(jié)果;輸出單元,用于根據(jù)比較結(jié)果判斷并輸出在該甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。根據(jù)本發(fā)明的一優(yōu)選實施例,甲基化差異區(qū)域獲取單元還包括終止單元,用于在分析單元判斷完上述組在當前判斷區(qū)間是否存在甲基化差異之后,判斷當前判斷區(qū)間是否已達參考基因組序列末端,若是,則終止設(shè)置單元、判斷單元及分析單元。根據(jù)本發(fā)明的一優(yōu)選實施例,在分析單元判斷得出上述組在當前判斷區(qū)間內(nèi)存在甲基化差異時,設(shè)置單元延長該判斷區(qū)間具體為將該判斷區(qū)間延長一個預設(shè)步長。根據(jù)本發(fā)明的一優(yōu)選實施例,判斷單元判斷同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提具體為判斷各組樣本的數(shù)據(jù)是否具有獨立性;同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合正態(tài)分布;同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差齊性。區(qū)別于現(xiàn)有甲基化顯著性差異區(qū)域檢測技術(shù)靈敏度較低、統(tǒng)計功效不高、結(jié)果不準確、實驗要求高、費用昂貴的情況,本發(fā)明的多樣本間甲基化差異檢測方法及裝置具有高靈敏度、特異性和快速的特點,能在解決大批量樣本或者海量測序數(shù)據(jù)背景下準確查找并檢測出樣本基因組之間存在的甲基化差異性區(qū)域以及在該甲基化差異性區(qū)域存在甲基化差異的樣本組,為進一步在表觀遺傳學方面的生物信息挖掘與研究提供基礎(chǔ),同時也為表觀生物靶標,甚至藥物設(shè)計等方面的研究提供一套啟發(fā)性的方法。


圖I是本發(fā)明多樣本間甲基化差異的檢測方法一實施例的流程圖;圖2是圖I的多樣本間甲基化差異的檢測方法中的步驟S14的具體實現(xiàn)步驟的流程圖;圖3是圖I的多樣本間甲基化差異的檢測方法中的步驟S15的具體實現(xiàn)步驟的流程圖;圖4是本發(fā)明多樣本間甲基化差異的檢測方法另一實施例的流程圖;圖5是本發(fā)明多樣本間甲基化差異的檢測方法另一實施例的流程圖;圖6是本發(fā)明多樣本間甲基化差異的檢測方法一個具體實施方式
的流程圖;圖7、圖8是圖6的多樣本間甲基化差異的檢測方法檢測到的長度較短((600堿基)的甲基化顯著性差異區(qū)域;圖9是圖6的多樣本間甲基化差異的檢測方法檢測到的中等長度(600-1500堿 基)的甲基化顯著性差異區(qū)域;圖10、圖11是圖6的多樣本間甲基化差異的檢測方法檢測到的長度較長(> 1500堿基)的甲基化顯著性差異區(qū)域;圖12是本發(fā)明提供的多樣本間甲基化差異的檢測裝置一實施例的結(jié)構(gòu)示意圖。
具體實施例方式下面結(jié)合附圖和實施例對本發(fā)明進行詳細說明。圖I示出了本發(fā)明提供的多樣本間甲基化差異的檢測方法一實施例的流程圖。本實施例中采用的測序技術(shù)為高通量測序技術(shù),高通量測序技術(shù)可以為Illumina GA測序技術(shù),也可以是現(xiàn)有的其它高通量測序技術(shù)。參考基因組序列可取于公共數(shù)據(jù)庫(例如,美國國立生物技術(shù)信息中心,NCBI,該公共數(shù)據(jù)庫可以通過如下途徑獲取http://www. ncbi.nlm. nih. gov/gene term = hvp)。如圖I所示,該多樣本間甲基化差異的檢測方法10包括步驟在步驟S13中,獲得多組樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本的甲基化數(shù)據(jù)。當測序技術(shù)采用高通量測序技術(shù)時,可以通過任何一種短序列映射程序(如SOAP等映射程序)將高通量測序技術(shù)得到的樣本的基因組測序片段比對到參考基因組序列上。根據(jù)比對的結(jié)果,獲得了各個樣本的基因組測序片段對應于參考基因組序列上的位置信
肩、O根據(jù)比對的結(jié)果,獲得支持樣本基因組測序片段中各個胞嘧啶的序列數(shù)量(對于MeDIP技術(shù),則是各個胞嘧啶被覆蓋的序列數(shù)量)。若采用MeDIP技術(shù),則確定基因組測序片段對應于參考基因組序列上的具體位置,計算各個樣本的基因組測序片段比對到參考基因組序列上后對參考基因組序列上各個胞嘧啶的深度覆蓋情況,即直接計算覆蓋在參考基因組序列上的各個胞嘧啶的測序片段的條數(shù),并對計算獲得的各個樣本的深度覆蓋情況進行標準化,以此來獲得不同樣本的甲基化數(shù)據(jù)。標準化的公式sample_read_num_STD =sampIe_read_num_ori *(sampIe_max_read_num/max_read_num),其中,sampIe_read_num_STD表示標準化后樣本的序列數(shù);samp I e_read_num_or i表示樣本實際序列數(shù);samp I e_max_read_num表示樣本對應文庫的測序下機序列數(shù);max_read_num表示待研究的各個樣本文庫中最大的測序下機序列數(shù)。標準化之后按照該公式重新計算各個樣本胞嘧啶被覆蓋的序列數(shù)量。
在步驟S14中,對在參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域。圖2是圖I的多樣本間甲基化差異的檢測方法中的步驟S14的具體實現(xiàn)步驟的流程圖。如圖2所示,在本實施例中,步驟S14具體采用以下步驟實現(xiàn)步驟S141,預設(shè)窗口長度和預設(shè)步長,根據(jù)位置信息,從參考基因組序列起始端開始,以窗口長度作為判斷區(qū)間的起始長度在參考基因組序列上設(shè)定判斷區(qū)間,將預設(shè)步長作為判斷區(qū)間的延長長度。由于不同物種的甲基化差異情形不一定相同,因此窗口長度和步長的具體數(shù)值需要根據(jù)具體情況由用戶決定的,通常初始窗口長度不會超過1000個堿基距離,步長最少長度為I個堿基長。步驟S142,判斷同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提。其中,方差分析前提具體為各組樣本的數(shù)據(jù)是否具有獨立性;同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合正態(tài)分布;同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差齊性。步驟S143,若符合方差分析前提則將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間方差分析,若不符合方差分析前提則將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果。步驟S144,根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異。步驟S145,若存在甲基化差異,則延長該判斷區(qū)間,判斷位置在同一延長后的判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提,然后執(zhí)行步驟S143及步驟S144,重復本步驟S145直至判斷得出上述組在當前判斷區(qū)間內(nèi)不存在甲基化差異,并輸出該當前判斷區(qū)間的信息作為甲基化差異區(qū)域。具體的,在判斷得出上述組在當前判斷區(qū)間內(nèi)存在甲基化差異時延長該判斷區(qū)間為將該判斷區(qū)間延長一個預設(shè)步長。步驟S146,若不存在甲基化差異,則從上一判斷區(qū)間的末端開始在參考基因組序列上以所述窗口長度作為所述判斷區(qū)間的起始長度設(shè)定下一判斷區(qū)間,判斷位置在同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提,然后執(zhí)行步驟S143及步驟S144,若存在甲基化差異則執(zhí)行前述S145步驟,若不存在甲基化差異則執(zhí)行本步驟S146。步驟S147,在判斷完上述組在當前判斷區(qū)間是否存在甲基化差異之后,判斷當前判斷區(qū)間是否已達所述參考基因組序列末端,若是,則終止繼續(xù)設(shè)定或延長判斷區(qū)間以及分析并判斷上述組在判斷區(qū)間內(nèi)是否存在甲基化差異的步驟。通過這整一個過程便可以得到上述組之間存在著甲基化顯著差異的一系列區(qū)間的初步結(jié)果。根據(jù)本發(fā)明的另一實施例,接著再對這些區(qū)間進行相關(guān)的FDR(falsediscovery rate,錯誤發(fā)現(xiàn)率)過濾,最后得到最終的甲基化差異區(qū)域。在步驟S15中,對同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取在甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。圖3是圖I的多樣本間甲基化差異的檢測方法中的步驟S15的具體實現(xiàn)步驟的流程圖。如圖3所示,在本實施例中,步驟S15具體采用以下步驟實現(xiàn)步驟S151,在獲得甲基化差異區(qū)域后,若同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)滿足方差分析前提則通過最小顯著性差異法(Least significant difference,簡稱LSD)對位置在同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)進行組間兩兩比較,若不滿足方差分析前提則通過Kruskal-Wallis Dunn方法對各組在甲基化差異區(qū)域內(nèi)的甲基化數(shù)據(jù)進行組間兩兩比較,得到比較結(jié)果。步驟S152,根據(jù)比較結(jié)果判斷并輸出在該甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。如上所述,通過多重比較的方法確定了在這些甲基化差異區(qū)域中具體是哪些組和哪些組之間存在著差異。特別的,在步驟S13之前,可以采用如下步驟對樣本基因組進行預處理步驟Spl,獲得樣本的基因組測序片段。具體可以采用MeDIP_seq(Methylated DNAImmunoprecipitation Sequencing,甲基化DNA免疫共沉淀)技術(shù),即通過5'-甲基胞U密啶抗體特異性富集樣本基因組上發(fā)生甲基化的DNA片段,然后將這些DNA片段進行測序,獲得樣本的基因組測序片段。步驟Sp2,將接頭序列測序質(zhì)量過低的基因組測序片段去除。該步驟可通過如下方式實現(xiàn)預先設(shè)置樣本接頭序列的測序質(zhì)量閾值(如5)和堿基數(shù)閾值(如3),將接頭序列中堿基的測序質(zhì)量值低于測序質(zhì)量閾值,且堿基的數(shù)量超過堿基數(shù)閾值的序列去除,例如,綜合考慮測序條件和環(huán)境,將本實施例中IObp(堿基對)的接頭序列中測序質(zhì)量值低于5的堿基且個數(shù)大于3個的基因組測序片段去除。步驟Sp3,將基因組測序片段中的樣本接頭序列與樣本接頭序列庫進行比對,實現(xiàn)區(qū)分樣本操作,并同時將樣本接頭序列從基因組測序片段中去除。具體包括如下步驟步驟Sp31,樣本接頭序列與樣本接頭序列庫中序列進行完全匹配操作。步驟Sp32,考慮到一系列實驗過程中,樣本接頭序列可能出現(xiàn)降解情況,假設(shè)樣本接序列降解l_2bp與樣本接頭序列庫中序列對應部分進行完全匹配操作。步驟Sp33,考慮到一系列實驗過程中,樣本接頭序列發(fā)生堿基插入,本發(fā)明中允許樣本序列僅有一個堿基的插入,在樣本接頭序列起始端進行完全匹配操作,當出現(xiàn)某堿基無法匹配時認為該堿基為插入堿基,跳過此堿基后繼續(xù)嚴格的完全匹配操作。步驟Sp34,考慮到一系列實驗過程中,樣本接頭序列發(fā)生堿基缺失,本發(fā)明中允許樣本序列僅有一個堿基的缺失,在樣本接頭序列中允許任何一個位置缺失一個堿基后,進行完全匹配操作。完成步驟Sp31-Sp34后,按照步驟Sp31 >步驟Sp32 >步驟Sp33 >步驟Sp34的優(yōu)先級順序確定最終的樣本接頭序列的比對結(jié)果。而對于四步操作中四步均無比對結(jié)果,或者一個步驟同時比對到兩個結(jié)果或僅有且同時Sp33、Sp34步驟比對出結(jié)果,則認為該比對結(jié)果是由于無法區(qū)分而判定為無效信息,并將相應的該條基因組測序片段去除。比對到同一樣本接頭序列的被認為是同一樣本序列,從而實現(xiàn)樣本區(qū)分的目的。最后去除每條有效的基因組測序片段中樣本接頭序列部分(長度范圍大概8-llbp)。圖4示出了本發(fā)明提供的多樣本間甲基化差異的檢測方法一實施例的流程圖。如圖4所示,該多樣本間甲基化差異的檢測方法20包括步驟S21、S23、S24、S25。其中步驟S23、S24和S25可以分別執(zhí)行與圖I所示的步驟S13、S14和S15相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖4所示,在步驟S23之前,執(zhí)行步驟S21 :對基因組測序片段進行過濾,以去除不合格的基因組測序片段。具體來說,步驟S21包括如下情況預先設(shè)置堿基的測序質(zhì)量閾值和不合格堿基的比例閾值,其中,測序質(zhì)量閾值和不合格堿基的比例閾值由具體測序技術(shù)及測序環(huán)境而定,例如,測序質(zhì)量閾值設(shè)置為5,測序質(zhì)量閾值低于5的堿基為不合格堿基,不合格堿基的比例閾值設(shè)置為50%,當基因組測序片段中堿基的測序質(zhì)量值低于測序質(zhì)量閾值,且不合格堿基的個數(shù)占整條序列堿基個數(shù)的比例超過比例閾值時,則認為該基因組測序片段是不合格序列并將其過濾掉;當基因組測序片段的測序結(jié)果中不確定的堿基(如Illumina GA測序結(jié)果中的N)的個數(shù)超過整條序列堿基個數(shù)的10%,則認為該基因組測序片段是不合格序列并將其過濾掉;與測序接頭序列庫進行比對,如果基因組測序片段中存在測序接頭序列,則認為該基因組測序片段是不合格序列并將其過濾掉;除樣本接頭序列外,與其它實驗引入的的外源序列比對(如各種接頭序列),若序列中存在外源序列則認為該基因組測序片段是不合格序列并將其過濾掉。本發(fā)明提供的多樣本間甲基化差異檢測方法,通過對基因組測序片段進行過濾,去除不合格的基因組測序片段,進一步降低了不合格基因組測序片段的影響,從而提高了檢測分析的準確性。圖5示出了本發(fā)明提供的多樣本間甲基化差異的檢測方法一實施例的流程圖。如圖5所示,該多樣本間甲基化差異的檢測方法30包括步驟S32、S33、S34、S35。其中步驟S33、S34、S35可以分別執(zhí)行與圖I所示的步驟S13、S14和S15相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖5所示,在步驟S33之前,執(zhí)行步驟S32 對多組樣本的基因組測序片段與相應的參考基因組序列比對獲得的結(jié)果進行篩選”。具體來說,步驟S32包括如下情況如唯一性的比較、比對長度的比較、錯配數(shù)的比較,比對次數(shù)的比較等,篩選出每條序列比對結(jié)果最好及非常接近最好結(jié)果的比對信息,選用的篩選條件需視選用的比對軟件、序列背景而定。最終僅保留篩選的比對結(jié)果為唯一的序列作為有效序列。在下文的其他實施例中還將舉例對前述步驟中的具體實現(xiàn)方式作進一步的詳細介紹。為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合具體實施方式
對本發(fā)明進行進一步詳細說明,結(jié)果的分析中為簡明起見也只用物種的3號染色體作為例子。圖6示出了本發(fā)明提供的多樣本間甲基化差異的檢測方法一個具體實施方式
的流程圖。樣本來自同種哺乳動物的三個不同品種,每個品種6個正常個體,每個個體提取8類脂肪組織和2類肌肉組織,共180個真實組織樣本。上機策略由于皆是正常個體,無需設(shè)計對照組,只需設(shè)計一類文庫,包含180個樣本,超聲打斷樣本的DNA片段后采用MeDIP技術(shù)沉降目標序列片段,然后采用IlluminaGA高通量測序技術(shù)對這些目標序列片段進行測序,獲得樣本的基因組測序片段。如圖6所示,該多樣本間甲基化差異的檢測方法40包括步驟S41,接收高通量測序技術(shù)得到的基因組測序片段。接收到基因組測序片段后,需對基因組測序片段進行過濾,以去除不合格的基因組測序片段。不合格的基因組測序片段包括測序質(zhì)量值低于5的堿基的個數(shù)超過整條序列堿基個數(shù)的50%的則認為是不合格序列;序列中測序結(jié)果中N的個數(shù)超過整條序列堿基個數(shù)的10%的則認為是不合格序列。步驟S42,將基因組測序片段中的樣本接頭序列與樣本接頭序列庫進行比對,實現(xiàn)區(qū)分樣本操作,同時將接頭序列從基因組測序片段中去除。該步驟將接頭序列中有測序質(zhì)量低于5的堿基個數(shù)大于3個的序列去除,并執(zhí)行與前述步驟Sp3相同或相似的內(nèi)容,為簡潔起見,此處不再贅述。此過程在序列下機時就已經(jīng)完成,信息分析過程已經(jīng)不需要再進行該步驟的區(qū)分。步驟S43,與參考基因組序列進行比對并進行分析,獲得各個樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本基因組測序片段中胞嘧啶的甲基化數(shù)據(jù)。米用S0AP(Short Oligonucleotide Analysis Package)映射程序,將高通量測序技術(shù)得到的基因組測序片段比對到參考基因組序列上。比對后,篩選每條基因組測序片段比對得最好的結(jié)果,即對于比到相同位置的基因組測序片段只選比對質(zhì)量最好的,并且比對結(jié)果為唯一的基因組測序片段作為最終的有效序列。確定了樣本的基因組測序片段在參考基因組序列上的具體位置之后,依照MeDIP技術(shù)的特點,計算各個樣本基因組測序片段比對到參考基因組序列上后,對參考基因組序列上各個胞嘧啶的深度覆蓋情況,并進行標準化,以此來獲得不同樣本的甲基化數(shù)據(jù)。標準化的方法請參考前述步驟S13的內(nèi)容,為簡潔起見,此處不再贅述。步驟S44,對樣本進行分組。按照品種、組織和性別進行七類分析,各個分析中的具體分組如下(I)脂肪按照不同的品種分成3組進行比較,用于檢測脂肪組織在品種之間的甲基化顯著性差異區(qū)域;(2)脂肪按照不同的脂肪組織分成8組進行比較,用于檢測脂肪組織之間的顯著性差異區(qū)域;(3)脂肪按照不同的性別分2組進行比較,用于檢測脂肪組織在性別之間的甲基化顯著性差異區(qū)域;(4)肌肉按照不同的品種分成3組進行比較,用于檢測肌肉組織在品種之間的甲基化顯著性差異區(qū)域;(5)肌肉按照不同的肌肉分成2組進行比較,用于檢測肌肉組織之間的顯著性差異區(qū)域;(6)肌肉按照不同的性別分2組進行比較,用于檢測肌肉組織在性別之間的甲基
化顯著性差異區(qū)域。(7)將2類肌肉組織分別與8類脂肪組織進行比較,檢測肌肉組織與脂肪組織之間甲基化的顯著性差異區(qū)域;步驟S45,該步驟執(zhí)行與前述步驟S141至步驟S147以及步驟S151至步驟S152相同或相似的內(nèi)容,為簡潔起見,此處不再贅述。如此,通過單因素方差分析以及Kruskal-Wallis檢驗最后便可以獲得三個品種之間具有可信度高的甲基化顯著性差異區(qū)域。
本實施例中只給出品種之間甲基化差異性區(qū)域的部分比較結(jié)果。圖7-11為第一種分類,即不同品種的脂肪組織之間甲基化顯著性差異區(qū)域結(jié)果,其中圖7、圖8示出的是多樣本間甲基化差異的檢測方法400檢測到的長度較短((600堿基)的甲基化顯著性差異區(qū)域;圖9示出的是多樣本間甲基化差異的檢測方法400檢測到的中等長度(600-1500堿基)的甲基化顯著性差異區(qū)域;圖10、圖11示出的是多樣本間甲基化差異的檢測方法400檢測到的長度較長(> 1500堿基)的甲基化顯著性差異區(qū)域。圖中兩條豎直虛線之間的區(qū)域即是檢測到的差異區(qū)域,水平虛線則是深度的閾值,本實施方式中要求三個組中至少有一組的平均深度超過該閾值,該閾值為10,橫坐標表示染色體上的位置,區(qū)間的兩端是該差異性區(qū)域左右各500堿基長的范圍,圖中的三條線分別表示三個品種(即三個組),圖中的黑點,黑方框和黑菱形分別代表三個組所處區(qū)間中的胞嘧啶(C)和鳥嘌呤(G) 二核苷酸位點,這是哺乳動物中主要的甲基化位點。由圖可以看出,三個品種在所檢測出來的區(qū)間相比于區(qū)間的兩端中存在著明顯的差異。由圖9、圖10和圖11同樣可以獲得這種情形,這說明本發(fā)明的多樣本間甲基化差異的檢測方法400具有著很高敏感度以及特異性,對不同長度范圍的差異性區(qū)間都具有很高的統(tǒng)計功效和敏感度。至此,本實施例實現(xiàn)了利用生物信息學的方法高敏感度和特異性,快速地檢測并識別各組間甲基化差異區(qū)間的目的。雖然圖7-11只對應于第一種分類分析的結(jié)果,但其它的分類分析所采用的方法和程序與第一種分類分析采用的方法和程序一樣,由于第一種分類分析得出了結(jié)果,因此其它的分類分析也都能得出結(jié)果,在此對其它的分類分析結(jié)果就不一一贅述。圖12示出了本發(fā)明提供的多樣本間甲基化差異的檢測裝置一實施例的結(jié)構(gòu)示意圖。如圖12所示,該多樣本間甲基化差異的檢測裝置50包括甲基化數(shù)據(jù)獲取單元51、甲基化差異區(qū)域獲取單元52和甲基化差異組獲取單元53,其中甲基化數(shù)據(jù)獲取單元51,用于獲得多組樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本的甲基化數(shù)據(jù)。甲基化差異區(qū)域獲取單元52,用于對在所述參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域。甲基化差異組獲取單元53,用于對同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取在甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。如圖12所示,甲基化差異區(qū)域獲取單元52包括設(shè)置單元521、判斷單元522、分析單元523、控制單元524以及終止單元525。其中,設(shè)置單元521,用于預設(shè)窗口長度和預設(shè)步長,根據(jù)位置信息,從參考基因組序列起始端開始,以所述窗口長度作為判斷區(qū)間的起始長度在參考基因組序列上設(shè)定判斷區(qū)間。判斷單元522,用于判斷同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提。其中,方差分析前提的內(nèi)容如步驟S142中所述,此處不再贅述。分析單元523,若符合方差分析前提則分析單元522將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間方差分析,若不若符合方差分析前提則分析單元522將位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異??刂茊卧?24,若存在甲基化差異,控制單元524控制設(shè)置單元延長該判斷區(qū)間,控制判斷單元522判斷位置在同一延長后的判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提,控制分析單元523在符合方差分析前提時進行前述組間方差分析,在不符合方差分析前提時進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,控制設(shè)置單元521、判斷單元522及分析單元523重復本步驟直至判斷得出上述組在當前判斷區(qū)間內(nèi)不存在甲基化差異,并輸出該當前判斷區(qū)間的信息作為甲基化差異區(qū)域,若不存在甲基化差異,控制單元524控制設(shè)置單元521從上一判斷區(qū)間的末端開始在參考基因組序列上以窗口長度作為判斷區(qū)間的起始長度設(shè)定下一判斷區(qū)間,控制判斷單元522判斷位置在同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)是否符合方差分析前提,控制分析單元523在符合方差分析前提時進行前述組間方差分析,控制分析單元523在不符合方差分析前提時進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若存在甲基化差異則執(zhí)行前述延長該判斷區(qū)間、判斷是否符合方差分析前提以及分析并判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若不存在甲基化差異則執(zhí)行本步驟。其中,在判斷得出上述組在當前判斷區(qū)間內(nèi)存在甲基化差異時,設(shè)置單元521延長該判斷區(qū)間具體為將該判斷區(qū)間延長一個預設(shè)步長。終止單元523,用于在分析單元523判斷完上述組在當前判斷區(qū)間是否存在甲基化差異之后,判斷當前判斷區(qū)間是否已達參考基因組序列末端,若是,則終止設(shè)置單元521、判斷單元522及分析單元523。在本發(fā)明提供的多樣本間甲基化差異的檢測裝置另一實施例中,甲基化差異區(qū)域獲取單元52還包括過濾單元,用于對獲得的甲基化差異區(qū)域進行FDR假陽性率過濾。如圖12所示,甲基化差異組獲取單元53包括比較單元531及輸出單元532。其中比較單元531,用于通過最小顯著性差異法對位置在同一甲基化差異區(qū)域內(nèi)的且符合方差分析前提的各組的甲基化數(shù)據(jù)進行組間兩兩比較,通過Kruskal-Wallis Dunn方法對各組在所述甲基化差異區(qū)域內(nèi)的且不符合方差分析前提的甲基化數(shù)據(jù)進行組間兩兩比較,得到比較結(jié)果。輸出單元532,根據(jù)比較結(jié)果判斷并輸出在該甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。區(qū)別于現(xiàn)有技術(shù)的情況,本發(fā)明的多樣本間甲基化差異檢測方法及裝置具有高靈敏度、特異性和快速的特點,能在解決大批量樣本或者海量測序數(shù)據(jù)背景下準確查找并檢測出樣本基因組之間存在的甲基化差異性區(qū)域以及在該甲基化差異性區(qū)域存在甲基化差異的樣本組,為進一步在表觀遺傳學方面的生物信息挖掘與研究提供基礎(chǔ),同時也為表觀生物靶標,甚至藥物設(shè)計等方面的研究提供一套啟發(fā)性的方法。以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。
權(quán)利要求
1.一種多樣本間甲基化差異的檢測方法,其特征在于,所述方法包括步驟 獲得多組樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本的甲基化數(shù)據(jù); 對在所述參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域; 對同一甲基化差異區(qū)域內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取在所述甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。
2.根據(jù)權(quán)利要求I所述的多樣本間甲基化差異的檢測方法,其特征在于, 對在所述參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域的步驟包括以下步驟 預設(shè)窗口長度,根據(jù)位置信息,從參考基因組序列起始端開始,以所述窗口長度作為判斷區(qū)間的起始長度在參考基因組序列上設(shè)定判斷區(qū)間; 判斷同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提; 若符合方差分析前提,則將位置在同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行組間方差分析,若不符合方差分析前提,則將位置在同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異; 若存在甲基化差異,則延長該判斷區(qū)間,判斷位置在同一延長后的判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提,若符合則進行前述組間方差分析,若不符合則進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,重復本步驟直至判斷得出上述組在當前判斷區(qū)間內(nèi)不存在甲基化差異,并輸出該當前判斷區(qū)間的信息作為甲基化差異區(qū)域; 若不存在甲基化差異,則從上一判斷區(qū)間的末端開始在參考基因組序列上以所述窗口長度作為所述判斷區(qū)間的起始長度設(shè)定下一判斷區(qū)間,判斷位置在同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提,若符合則進行前述組間方差分析,若不符合則進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異,若存在甲基化差異則執(zhí)行前述延長該判斷區(qū)間、判斷是否符合方差分析前提以及分析并判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若不存在甲基化差異則執(zhí)行本步驟。
3.根據(jù)權(quán)利要求2所述的多樣本間甲基化差異的檢測方法,其特征在于, 所述的對同一甲基化差異區(qū)域內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取在所述甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組的步驟包括以下步驟 通過最小顯著性差異法對位置在同一甲基化差異區(qū)域內(nèi)的且符合方差分析前提的各組的所述甲基化數(shù)據(jù)進行組間兩兩比較,通過Kruskal-Wallis Dunn方法對各組在所述甲基化差異區(qū)域內(nèi)的且不符合方差分析前提的所述甲基化數(shù)據(jù)進行組間兩兩比較,得到比較結(jié)果; 根據(jù)所述比較結(jié)果判斷并輸出在該甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。
4.根據(jù)權(quán)利要求2所述的多樣本間甲基化差異的檢測方法,其特征在于, 對在所述參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域的步驟包括以下步驟 在判斷完上述組在當前判斷區(qū)間是否存在甲基化差異之后,判斷當前判斷區(qū)間是否已達所述參考基因組序列末端,若是,則終止繼續(xù)設(shè)定或延長判斷區(qū)間以及分析并判斷上述組在判斷區(qū)間內(nèi)是否存在甲基化差異的步驟。
5.根據(jù)權(quán)利要求2所述的多樣本間甲基化差異的檢測方法,其特征在于,在判斷得出上述組在當前判斷區(qū)間內(nèi)存在甲基化差異時,所述延長該判斷區(qū)間的步驟具體為將該判斷區(qū)間延長一個預設(shè)步長。
6.根據(jù)權(quán)利要求2所述的多樣本間甲基化差異的檢測方法,其特征在于,所述方差分析前提為 各組樣本的數(shù)據(jù)是否具有獨立性; 同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合正態(tài)分布; 同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差齊性。
7.一種多樣本間甲基化差異的檢測裝置,其特征在于,所述裝置包括 甲基化數(shù)據(jù)獲取單元,用于獲得多組樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本的甲基化數(shù)據(jù); 甲基化差異區(qū)域獲取單元,用于對在所述參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域; 甲基化差異組獲取單元,用于對同一甲基化差異區(qū)域內(nèi)的各組的所述甲基化數(shù)據(jù)進行分析,獲取在所述甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。
8.根據(jù)權(quán)利要求7所述的多樣本間甲基化差異的檢測裝置,其特征在于,其中,所述甲基化差異區(qū)域獲取單元包括 設(shè)置單元,用于預設(shè)窗口長度,根據(jù)位置信息,從參考基因組序列起始端開始,以所述窗口長度作為判斷區(qū)間的起始長度在參考基因組序列上設(shè)定判斷區(qū)間; 判斷單元,用于判斷同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提; 分析單元,若符合方差分析前提,所述分析單元用于將位置在同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行組間方差分析,若不符合方差分析前提,所述分析單元用于將位置在同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)進行組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異; 控制單元,若存在甲基化差異,所述控制單元控制所述設(shè)置單元延長該判斷區(qū)間,控制所述判斷單元判斷位置在同一延長后的判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提,控制所述分析單元在符合方差分析前提時進行前述組間方差分析,在不符合方差分析前提時進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,控制所述設(shè)置單元、所述判斷單元及所述分析單元重復本步驟直至判斷得出上述組在當前判斷區(qū)間內(nèi)不存在甲基化差異,并輸出該當前判斷區(qū)間的信息作為甲基化差異區(qū)域; 若不存在甲基化差異,所述控制單元控制所述設(shè)置單元從上一判斷區(qū)間的末端開始在參考基因組序列上以所述窗口長度作為所述判斷區(qū)間的起始長度設(shè)定下一判斷區(qū)間,控制所述判斷單元判斷位置在同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提,控制所述分析單元在符合方差分析前提時進行前述組間方差分析,控制所述分析單元在不符合方差分析前提時進行前述組間Kruskal-Wallis非參數(shù)檢驗,得到分析結(jié)果,并根據(jù)分析結(jié)果判斷上述組在該判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若存在甲基化差異則執(zhí)行前述延長該判斷區(qū)間、判斷是否符合方差分析前提以及分析并判斷上述組在當前判斷區(qū)間內(nèi)是否存在甲基化差異的步驟,若不存在甲基化差異則執(zhí)行本步驟。
9.根據(jù)權(quán)利要求8所述的多樣本間甲基化差異的檢測裝置,其特征在于,其中,所述甲基化差異組獲取單元包括 比較單元,用于通過最小顯著性差異法對位置在同一甲基化差異區(qū)域內(nèi)的且符合方差分析前提的各組的所述甲基化數(shù)據(jù)進行組間兩兩比較,通過Kruskal-Wallis Dunn方法對各組在所述甲基化差異區(qū)域內(nèi)的且不符合方差分析前提的所述甲基化數(shù)據(jù)進行組間兩兩比較,得到比較結(jié)果; 輸出單元,用于根據(jù)所述比較結(jié)果判斷并輸出在該甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。
10.根據(jù)權(quán)利要求8所述的多樣本間甲基化差異的檢測裝置,其特征在于,所述甲基化差異區(qū)域獲取單元還包括 終止單元,用于在所述分析單元判斷完上述組在當前判斷區(qū)間是否存在甲基化差異之后,判斷當前判斷區(qū)間是否已達所述參考基因組序列末端,若是,則終止所述設(shè)置單元、判斷單元及分析單元。
11.根據(jù)權(quán)利要求8所述的多樣本間甲基化差異的檢測裝置,其特征在于,在所述分析單元判斷得出上述組在當前判斷區(qū)間內(nèi)存在甲基化差異時,所述設(shè)置單元延長該判斷區(qū)間具體為將該判斷區(qū)間延長一個預設(shè)步長。
12.根據(jù)權(quán)利要求8所述的多樣本間甲基化差異的檢測裝置,其特征在于,所述判斷單元判斷同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差分析前提具體為判斷 各組樣本的數(shù)據(jù)是否具有獨立性; 同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合正態(tài)分布; 同一判斷區(qū)間內(nèi)的各組的所述甲基化數(shù)據(jù)是否符合方差齊性。
全文摘要
本發(fā)明提供了一種多樣本間甲基化差異的檢測方法,該方法包括步驟獲得多組樣本的基因組測序片段對應于參考基因組序列上的位置信息以及各個樣本的甲基化數(shù)據(jù);對在參考基因組序列上滑動的同一判斷區(qū)間內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取上述組基因組上存在甲基化差異的甲基化差異區(qū)域;對同一甲基化差異區(qū)域內(nèi)的各組的甲基化數(shù)據(jù)進行分析,獲取在甲基化差異區(qū)域內(nèi)存在甲基化差異的具體組。本發(fā)明還提供了一種多樣本間甲基化差異的檢測裝置。本發(fā)明的多樣本間甲基化差異的檢測方法及裝置能查找并檢測出多個樣本基因組之間存在的甲基化差異性區(qū)域以及在該甲基化差異性區(qū)域存在甲基化差異的樣本組。
文檔編號G06F19/22GK102982253SQ201110258798
公開日2013年3月20日 申請日期2011年9月2日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者吳紅龍, 黃樹嘉, 王俊 申請人:深圳華大基因科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
诏安县| 离岛区| 宝应县| 许昌市| 镶黄旗| 囊谦县| 鄢陵县| 通榆县| 聂拉木县| 万州区| 牟定县| 石狮市| 汉中市| 宝鸡市| 南投市| 略阳县| 延川县| 陇川县| 山阴县| 巴中市| 德昌县| 宜昌市| 礼泉县| 万载县| 阿鲁科尔沁旗| 荣昌县| 上饶市| 平顺县| 香河县| 宣武区| 辛集市| 怀仁县| 故城县| 台前县| 桂林市| 孝义市| 德清县| 承德县| 二连浩特市| 耒阳市| 饶河县|