一種優(yōu)化的重疊混合測序方法
【專利摘要】本發(fā)明公開了一種優(yōu)化的重疊混合測序方法,包括如下步驟:基于測序過程中測序深度服從負(fù)二項(xiàng)分布、測序錯(cuò)誤服從二項(xiàng)分布的一般規(guī)律,提出了混合測序的深度模型,并基于此模型計(jì)算并設(shè)計(jì)了混合測序的最佳深度,通過降低冗余測序深度有效減少測序成本;提出了一種基于稀有突變分布概率的分組重疊混合測序方法,與直接測序相比,分組策略將大幅減少測序數(shù)據(jù)量需求,提高混合測序效率;建立了測序代價(jià)模型,并基于此模型選擇最優(yōu)的重疊混合測序方案來篩選稀有突變的攜帶者。本發(fā)明最大程度降低篩選稀有突變攜帶者的測序成本。
【專利說明】-種優(yōu)化的重疊混合測序方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基因測序領(lǐng)域,尤其是一種優(yōu)化的重疊混合測序方法。
【背景技術(shù)】
[0002] 利用高通量DNA測序技術(shù),分析遺傳突變與人類疾病之間關(guān)系是生物醫(yī)學(xué)研究的 重要方法,而篩選和檢測稀有DNA突變則是目前研究的焦點(diǎn)。為了發(fā)現(xiàn)人類基因組中的稀 有突變,探索稀有突變與疾病之間的關(guān)系,需要對大量個(gè)體DNA樣本進(jìn)行測序和分析。為了 提高測序效率,充分利用現(xiàn)有測序儀器的測序能力,需要將多個(gè)樣本混合在一起同時(shí)進(jìn)行 測序,即混合測序。
[0003] 混合測序的關(guān)鍵在于如何從測序結(jié)果中分離出來自不同樣本的DNA測序片段,以 便確定稀有突變的攜帶者(即陽性樣本)。一種常用的方法是在測序前給每個(gè)樣本加上一 條唯一的DNA條形碼,測序結(jié)束后,根據(jù)每條測序片段上的條形碼確定該片段來自于哪個(gè) 樣本,并根據(jù)測序結(jié)果判定哪個(gè)樣本是陽性的。另一種方法則是將樣本重疊地混合在不同 的混合池中,分別對各個(gè)混合池進(jìn)行測序,最后根據(jù)各個(gè)樣本在不同混合池中出現(xiàn)的模式 (即重疊混合模式)及各個(gè)混合池的測序結(jié)果確定陽性樣本。
[0004] 在該重疊混合測序方法中,將樣本按照一定組合規(guī)則混合之后再進(jìn)行測序。重疊 混合測序能夠使用非常少的混合測序次數(shù)即可在大量樣本中鑒定出稀有突變的攜帶者,從 而降低了制備測序文庫制備所需要的工作量以及測序的總成本。
[0005] 但是,現(xiàn)有的重疊測序方法還存在以下問題:無法確定究竟需要什么樣的測序深 度才能既保證準(zhǔn)確判定陽性樣本又使得測序代價(jià)最???究竟需要多少混合池?如何將各 個(gè)樣本重疊地分配到各個(gè)混合池?如何選擇最佳的測序方案?
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:提供一種優(yōu)化的重疊混合測序方法,以解決現(xiàn)有技術(shù)存在的上述問題, 優(yōu)化測序過程,提高測序效率。
[0007] 技術(shù)方案:一種優(yōu)化的重疊混合測序方法,包括以下步驟:
[0008] 步驟一、根據(jù)混合測序深度模型計(jì)算最優(yōu)測序深度,對大量樣本進(jìn)行分組重疊混 合測序,并根據(jù)測序代價(jià)模型選擇最佳測序方案;
[0009] 其中,最優(yōu)測序深度是根據(jù)測序深度服從負(fù)二項(xiàng)分布、測序錯(cuò)誤服從二項(xiàng)分布的 一般規(guī)律,計(jì)算得到滿足假陽性錯(cuò)誤和假陰性錯(cuò)誤要求的最低測序深度;
[0010] 分組重疊混合測序:將大規(guī)模樣本分成數(shù)個(gè)小組,根據(jù)已知稀有突變的概率計(jì)算 每個(gè)小組中稀有突變攜帶者的可能個(gè)數(shù),然后再對每個(gè)小組進(jìn)行獨(dú)立的重疊混合測序;
[0011] 建立合理的測序代價(jià)模型:綜合考慮文庫制備、測序數(shù)據(jù)兩方面的成本,并根據(jù)代 價(jià)模型計(jì)算重疊混合測序方案的成本,選擇最優(yōu)的重疊混合測序方案;
[0012] 步驟二、利用上述方法開展從大量樣本中篩查稀有突變攜帶者的高通量測序?qū)?驗(yàn)。
[0013] 所述最優(yōu)測序深度的計(jì)算模型如下:
[0014] 假定測序深度服從如下負(fù)二項(xiàng)分布:
[0015]
【權(quán)利要求】
1. 一種優(yōu)化的重疊混合測序方法,其特征在于,包括以下步驟: 步驟一、根據(jù)混合測序深度模型計(jì)算最優(yōu)測序深度,對樣本進(jìn)行分組重疊混合測序,并 根據(jù)測序代價(jià)模型選擇最佳測序方案; 其中,最優(yōu)測序深度是根據(jù)測序深度服從負(fù)二項(xiàng)分布、測序錯(cuò)誤服從二項(xiàng)分布,計(jì)算得 到滿足假陽性錯(cuò)誤和假陰性錯(cuò)誤要求的最低測序深度; 分組重疊混合測序:將大規(guī)模樣本分成數(shù)個(gè)小組,根據(jù)已知稀有突變的概率計(jì)算每個(gè) 小組中稀有突變攜帶者的可能個(gè)數(shù),然后再對每個(gè)小組進(jìn)行獨(dú)立的重疊混合測序; 建立合理的測序代價(jià)模型:綜合考慮文庫制備、測序數(shù)據(jù)兩方面的成本,并根據(jù)代價(jià)模 型計(jì)算重疊混合測序方案的成本,選擇最優(yōu)的重疊混合測序方案; 步驟二、利用上述方法開展從大量樣本中篩查稀有突變攜帶者的高通量測序?qū)嶒?yàn)。
2. 如權(quán)利要求1所述的優(yōu)化的重疊混合測序方法,其特征在于,所述最優(yōu)測序深度的 計(jì)算模型如下: 假定測序深度服從如下負(fù)二項(xiàng)分布:
其中D為平均測序深度,隊(duì)為基因組上某個(gè)位置被測到的次數(shù),r為負(fù)二項(xiàng)分布的參數(shù) 且與測序平臺(tái)和測序?qū)ο笙嚓P(guān),NB表示負(fù)二項(xiàng)分布, 同時(shí)假定測序錯(cuò)誤服從如下所示的二項(xiàng)分布: P (E | Nr) = Bin (E ;Nr, perror) 其中E為發(fā)生測序錯(cuò)誤的次數(shù),為平均測序錯(cuò)誤率,Bin表示二項(xiàng)分布, 設(shè)定觀察閾值為T,即觀察到不少于T個(gè)攜帶稀有突變的測序片段則認(rèn)為混合樣本中 包含攜帶稀有突變的樣本,否則認(rèn)為混合樣本全部由正常樣本組成,在此基礎(chǔ)上,構(gòu)建混合 池屬性判斷出現(xiàn)假陽性錯(cuò)誤F_P和假陰性錯(cuò)誤F_N的概率如下:
其中D為混合測序深度,隊(duì)為基因組上某個(gè)位置被測到的次數(shù),E為發(fā)生測序錯(cuò)誤的次 數(shù),為平均測序錯(cuò)誤率,r為負(fù)二項(xiàng)分布的參數(shù);
其中P為混合池中攜帶稀有突變的染色體比例,〇為觀測到的攜帶突變的測序片段個(gè) 數(shù),X為來自于正常個(gè)體的攜帶突變的測序片段個(gè)數(shù),i和j分別代表來自于正常個(gè)體和攜 帶突變個(gè)體的測序片段個(gè)數(shù),D為混合測序深度,為平均測序錯(cuò)誤率; 在給定重疊混合測序所能允許的混合池判斷錯(cuò)誤率為α的前提下,設(shè)定混合測序的 最佳深度D_al如下: Doptimal = min{D|F_N(D,T)彡 a&F_P(D,T)彡 a,Te [1,D]} 并計(jì)算對應(yīng)的觀察閾值T為: T = min {T I F_N (Doptinial)彡 a &F_P (Doptinial)彡 α }。
3. 如權(quán)利要求1所述的優(yōu)化的重疊混合測序方法,其特征在于,所述分組重疊混合測 序具體如下: 將樣本分成Β個(gè)小組,根據(jù)超幾何分布或二項(xiàng)分布計(jì)算每個(gè)小組中的稀有突變攜帶者 可能的個(gè)數(shù),并對各小組獨(dú)立設(shè)計(jì)重疊混合測序方案,根據(jù)如下兩個(gè)概率公式可以計(jì)算每 個(gè)小組中稀有突變攜帶者個(gè)數(shù)小于dB個(gè)的概率ρ Β :
其中i為臨時(shí)變量,η為樣本總數(shù),ηΒ為每組中的樣本個(gè)數(shù),d為稀有突變攜帶者總數(shù), Pv為稀有突變攜帶者在群體中的頻率,dB為每個(gè)小組中突變攜帶者的個(gè)數(shù)上限; 假定B個(gè)小組之間相互獨(dú)立,所有小組中的稀有突變攜帶者都小于dB個(gè)的概率則為pB 的B次方(pi);當(dāng);^超過一定的閾值時(shí),可以認(rèn)為所有小組均最多含有dB個(gè)稀有突變攜帶 者;然后,針對含有nB個(gè)樣本其中最多七個(gè)為突變攜帶者的每個(gè)小組,獨(dú)立設(shè)計(jì)重疊混合方 案并測序。
4. 如權(quán)利要求1所述的優(yōu)化的重疊混合測序方法,其特征在于,所述測序代價(jià)模型為: C = tPi+Ν,Ρ, 其中t為混合測序次數(shù)(即文庫制備次數(shù),也即混合池的個(gè)數(shù)),匕為文庫制備的成本, Nd為數(shù)據(jù)量,Pd為數(shù)據(jù)產(chǎn)生成本,其中,數(shù)據(jù)量Nd與測序深度和測序區(qū)域的大小相關(guān):
Di代表每個(gè)混合池的平均測序深度,R代表測序區(qū)域的長度,i為臨時(shí)變量;不同的重 疊混合測序方案需要不同的混合池個(gè)數(shù)以及數(shù)據(jù)量,根據(jù)該代價(jià)模型計(jì)算各方案的成本并 選擇最低成本的方案為最優(yōu)重疊混合測序方案。
【文檔編號(hào)】G06F19/22GK104217135SQ201410462490
【公開日】2014年12月17日 申請日期:2014年9月11日 優(yōu)先權(quán)日:2014年9月11日
【發(fā)明者】孫嘯, 曹唱唱, 李成 申請人:東南大學(xué)