1.一種檢測染色體非整倍體和基因拷貝數(shù)變異的方法,其特征在于,所述方法包括步驟:
(1)提供待測樣本,并對所述樣本進(jìn)行全基因組測序獲得全基因組序列;
(2)提供檢測流程參考文件:
(2.1)生成窗口文件
提供參考基因組,將參考基因組按照步驟(1)中測得序列的長度隨機(jī)打斷成模擬read(讀段)并將其重新比對到參考基因組上;
其中,每個窗口含有n個read(讀段),相鄰窗口間的重合區(qū)域含有0.1n~0.4n個讀段;
(2.2)提供全基因組校正基線文件
(2.2.1)提供正常參考樣本,并對所述正常參考樣本進(jìn)行全基因組測序;
(2.2.2)將所述正常參考樣本的全基因組序列比對到所述參考基因組上,提取唯一比對的read,去掉其中比對位置相同的read,
(2.2.3)根據(jù)(2.2.2)中比對read的坐標(biāo)信息,計算落入(2.1)中每個窗口內(nèi)的read數(shù)ri,j,對于一個樣本計算對應(yīng)窗口參考基因組上的GC含量,比對上序列的GC含量,相對序列數(shù)Ri,j=ri,j/M;其中,M是此樣本常染色體的所有窗口的平均read數(shù),ri,j為此窗口的read數(shù);
其中,定義gs為比對上序列的GC含量,gr為對應(yīng)窗口參考基因組上的GC含量;對于gs和gr按x%的GC含量間隔計算在此范圍內(nèi)序列數(shù)的中位值
則窗口i的矯正系數(shù)為則每個窗口矯正后的序列數(shù)累計全基因組常染色體的值除以總的窗口數(shù)得到矯正值M′,最終對于窗口i矯正后的序列數(shù)為
針對每種性別的所有參考樣本取相同窗口的中位值做為最終基線文件內(nèi)每個窗口的參考值;
(3)待測樣本分析
(3.1)初始斷點查找
逐個遍歷待測樣本全基因組序列中的窗口,選擇窗口相鄰的左右兩端等量的窗口數(shù)進(jìn)行游程檢驗,得到每個窗口對應(yīng)的檢測P值;對所有P值進(jìn)行排序去掉非顯著的窗口位置,得到初始斷點集合B={b1,b2,b3……};
(3.2)更新P值
對(3.1)中獲得的斷點,分別對相鄰斷點左右兩端區(qū)間內(nèi)的深度值進(jìn)行二輪統(tǒng)計得到每個斷點對應(yīng)新的P值;
(3.3)最終斷點查找
在(3.2)斷點P值的基礎(chǔ)上,對于一特定斷點,分別于該特定斷點左右兩斷點區(qū)間進(jìn)行統(tǒng)計檢驗,并在循環(huán)中刪除不顯著斷點;獲得每個斷點區(qū)間的P值和深度值的均值;
(3.4)斷點過濾
根據(jù)斷點P值顯著性判斷是否為真實斷點,根據(jù)深度值的大小判斷是缺失還是重復(fù);根據(jù)斷點區(qū)間大小判斷檢測精度;
(3.5)結(jié)果報告
根據(jù)變異區(qū)間坐標(biāo)給出染色體條帶信息、所屬基因類型、疾病類型等。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟(2)中,還包括步驟:
(2.3)構(gòu)建數(shù)據(jù)質(zhì)控體系
在比對完成后根據(jù)比對信息計算樣本唯一比對率、重復(fù)率、唯一比對read數(shù)目、錯配率、GC含量;根據(jù)數(shù)據(jù)分布特點,選用百分位數(shù)法估計正常值范圍;確定以上5個指標(biāo)在參考樣本中的波動范圍;
(2.4)過濾已知假陽性信號
從參考樣本的檢測結(jié)果中得到由于系統(tǒng)誤差導(dǎo)致的假陽性信號,作為檢測樣本的過濾庫;過濾掉與ENCODE計劃中列出(The ENCODE Project Consortium 2012)基因組上微衛(wèi)星的區(qū)域,端粒酶和著絲粒區(qū)域重合的窗口;去掉參考基因組上的窗口內(nèi)比對率低的窗口。
3.如權(quán)利要求1所述的方法,其特征在于,所述步驟(2.1)中,所述參考基因組為NCBI數(shù)據(jù)庫中的標(biāo)準(zhǔn)人類參考基因組序列。
4.如權(quán)利要求1所述的方法,其特征在于,所述步驟(2.1)中,n為50K-200K,優(yōu)選地n為100K,相鄰窗口間重合區(qū)域含有0.2n-0.3n個read。
5.如權(quán)利要求1所述的方法,其特征在于,所述步驟(2.2.3)中,x%為約0.1%-5%。
6.如權(quán)利要求5所述的方法,其特征在于,所述步驟(2.2.3)中,x%為0.5%-2%。
7.如權(quán)利要求5所述的方法,其特征在于,所述步驟(2.2.3)中,x%為約1%。
8.如權(quán)利要求2所述的方法,其特征在于,所述參考基因組為hg18,NCBI Build 36;或hg19,NCBI Build 37。
9.如權(quán)利要求1所述的方法,其特征在于,所述步驟(3)中,所述斷點P值為1e-10,所述深度值中設(shè)定缺失閾值為0.7、重復(fù)閾值為1.3,斷點區(qū)間大小為≥1M。
10.如權(quán)利要求1所述的方法,其特征在于,所述步驟(3.5)中,選用大于1M的區(qū)間為最終的拷貝數(shù)變異區(qū)間,進(jìn)行結(jié)果輸出。