欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于識別單核苷酸變異及其它變異的方法和設(shè)備的制造方法

文檔序號:10517856閱讀:297來源:國知局
用于識別單核苷酸變異及其它變異的方法和設(shè)備的制造方法
【專利摘要】可以相對于參考序列通過使用測序段在滿足高置信度條件的位置的值來識別靶序列的堿基,以識別不滿足所述高置信度條件的給定位置的堿基。所述高置信度條件可以涉及參考序列某位置上測序讀段的覆蓋水平。所述測序讀段的測量質(zhì)量可以結(jié)合為堿基過程的一部分。
【專利說明】
用于識別單核苷酸變異及其它變異的方法和設(shè)備
[0001] 相關(guān)申請的交叉引用
[0002] 本申請要求2013年11月1日提交的美國臨時申請No. 61 /898,680的權(quán)益,該申請的 全部內(nèi)容通過引用并入本文。
技術(shù)領(lǐng)域
[0003] 本公開內(nèi)容總的來說涉及核苷酸數(shù)據(jù),更具體地涉及核苷酸數(shù)據(jù)的數(shù)據(jù)處理。
【背景技術(shù)】
[0004] 有關(guān)核苷酸數(shù)據(jù)的靶序列與核苷酸數(shù)據(jù)的參考序列對比的應(yīng)用通常在解釋數(shù)據(jù) 范圍及數(shù)據(jù)質(zhì)量的影響方面具有有限的能力。因此,需要對靶序列與參考序列進(jìn)行對比的 改良方法及相關(guān)系統(tǒng)。
【附圖說明】
[0005] -些實施方式被以實例的方式說明,但是其不限于附圖中的圖。
[0006] 圖1是示出了根據(jù)一個示例性實施方式識別靶序列的至少一個堿基的方法的流程 圖。
[0007]圖2是不出了與圖1實施方式有關(guān)的序列兀素的圖。
[0008] 圖3A、3B及3C是示出了與圖1實施方式有關(guān)的表格的圖。
[0009] 圖4是示出了與圖1實施方式有關(guān)的抽樣方法的流程圖。
[0010]圖5是示出了與圖1實施方式有關(guān)的另一種抽樣方法的流程圖。
[0011] 圖6是示出了用于一個示例性實施方式的設(shè)備的示意圖的框圖。
[0012] 圖7是示出了計算機(jī)處理系統(tǒng)的框圖,所述系統(tǒng)內(nèi)部可以執(zhí)行一組指令,這些指令 可以使計算機(jī)執(zhí)行此處所述的任何一種方法。
[0013] 詳細(xì)描述 [0014] 1、背景
[0015]隨著下一代測序技術(shù)的實質(zhì)性進(jìn)步,研究者們已經(jīng)發(fā)現(xiàn)了多種利用這些技術(shù)的方 法,并開發(fā)了多種應(yīng)用。下一代測序技術(shù)/數(shù)據(jù)的一種重要用途或應(yīng)用就是所謂的重測序應(yīng) 用,也就是說,進(jìn)行所述測序?qū)嶒炛荚谏煽梢员挥成涞絽⒖夹蛄猩系臄?shù)據(jù),進(jìn)行所述實驗 旨在發(fā)現(xiàn)新生成的序列(如某人自己的基因組序列)與所述參考序列(如大約十年前完成的 人類基因組計劃中得到的人類參考基因組)之間的區(qū)別??梢詫⒅販y序應(yīng)用進(jìn)一步分為全 基因組測序和有針對性重測序,將后者進(jìn)一步分為外顯子組測序(也就是說,個體總共 20000個蛋白編碼基因的測序)及其它更專業(yè)的有針對性測序(如蛋白編碼基因的選定子集 或"面板"測序,所述基因呈現(xiàn)出例如前列腺癌的風(fēng)險)。
[0016]典型的重測序應(yīng)用分析流程中,單核苷酸變異(SNV)識別是一個關(guān)鍵步驟。它指新 生成的序列與參考序列之間的單堿基差異識別(或確定)。除SNVs之外,個體樣本序列與參 考序列之間還有兩種其它常見的變異類型:(1)插入缺失(如插入或刪除,可能包括長達(dá)50 個核苷酸的一段變化)及(2)結(jié)構(gòu)變異(SVs)或拷貝數(shù)變異(CNVs),可能包括非常長片段的 變化-數(shù)千甚至數(shù)百萬個核苷酸。通常將插入缺失(或插入刪除)理解為在給定位置通過多 個插入缺失(或插入刪除)執(zhí)行的插入或刪除。盡管后兩種變異類型通常較SNVs更難識別, 但是可以將本申請內(nèi)容用于這些變異,這對于相關(guān)領(lǐng)域的技術(shù)人員也將是顯而易見的。
[0017] 變體識別包括SNV識別、插入缺失識別及SV或CNV識別,在分析流程中位于映射或 比對步驟的后面。映射或比對是指將原始測序讀段映射到參考序列上的操作。因為測序讀 段較短,且在很長的參考序列上有許多重復(fù)區(qū)(如人類參考基因組為30-40億個核苷酸長), 所以在讀段映射到的參考序列上找到精確的位置也是具有挑戰(zhàn)性的。本領(lǐng)域的技術(shù)人員都 熟知映射方法,所以就不在這里進(jìn)行討論了。
[0018] 對于下一代測序(NGS)而言,較難進(jìn)行SNV識別的一個原因是通常認(rèn)為常規(guī)NGS技 術(shù)(如ILLUMINA公司技術(shù))造成的錯誤率在1%的水平,這比SNV率高出一個數(shù)量級(也就是 說,任何兩個體之間,或某個體的基因組與參考基因組之間的核苷酸比例是不同的hSNVs 及測序錯誤都表現(xiàn)為測序數(shù)據(jù)與參考序列之間的差異。換句話說,"噪聲"(如測序錯誤)比 "信號"(如真實SNVs)高一個數(shù)量級。
[0019] 在某種程度上,可以通過深度測序方法解決這種困難,通過該方法,各區(qū)或各位置 都被許多讀段覆蓋,所以可以應(yīng)用某些統(tǒng)計方法(如貝葉斯建模)來更可靠地確定個體序列 與參考序列之間的差異是不是由測序錯誤造成的,這些錯誤是系統(tǒng)性錯誤,可以通過求平 均值或利用真實SNVs來解決。然而,包括貝葉斯建模等傳統(tǒng)統(tǒng)計方法將個體序列數(shù)據(jù)合并 到相關(guān)統(tǒng)計特征中的能力有限(如先驗和條件概率)。相反,這些統(tǒng)計特征通常是基于一些 假定的SNVs個體序列數(shù)據(jù)的"一般行為"。
[0020] 2、方法實施方式
[0021] 示例的方法和系統(tǒng)涉及核苷酸數(shù)據(jù)的數(shù)據(jù)處理。披露的例子僅僅代表可能的變 異。除非另有明確說明,組件和功能是可選的,并可以組合或再分,而操作可以有不同的順 序或可以組合或再分。以下描述中,為了說明,給出了許多具體細(xì)節(jié)以提供對解示例實施例 的全面理解。然而,即使沒有這些具體細(xì)節(jié)也可以實施本主題,這對于本領(lǐng)域的技術(shù)人員而 目將是顯而易見的。
[0022]為了討論SNV識別的目的,我們使用兩個可以互換的術(shù)語"SNV識別"與"基因分 型"。我們還假定被采樣的個體是二倍體(也就是說,具有映射到參考序列的每個區(qū)域的兩 個稍微不同的DNA拷貝,一個是從個體的父親繼承來的,而另一個是從他/她的母新繼承來 的),但是本文所述的方法也同樣適用于不同倍性的樣本。我們要識別參考序列中各個位置 的二倍體基因型,所述基因型由新生成的測序數(shù)據(jù)所覆蓋。因為兩個DNA拷貝中的每個的各 個位置都有四種可能的核苷酸,所以總共有10種可能的二倍體基因型:AA、CC、GG、TT--這 4種被稱為純合子基因型,而六(:^6^1'、06、(:1'、61'-這6種被稱為雜合體基因型-這些都是不 言而喻的。
[0023]因為被抽樣個體與參考序列是相同的物種,因此它們非常相似。事實上,對于人類 種族,各個位置上平均只有0.1%的不同。(因此,如上所述,這種差異率較測序錯誤率低一 個數(shù)量級(-1%)。)考慮到參考序列的尺寸較大(數(shù)十億個堿基),我們在考慮全基因組重測 序時新序列和參考序列之間有幾百萬個位置有差異。還應(yīng)注意的是,由于參考序列是單倍 體(即每個位置一個拷貝),故需要確定二倍體個體序列和單倍體參考序列之間的差異。因 此,可以將已確定的差異進(jìn)一步分類為純合子SNVs(如參考是A,個體基因型是CC)及雜合子 SNVs(如參考是A,個體基因型是AC)。極少在一個位置出現(xiàn)3個堿基的情況(如參考是A,而個 體基因型是CG)。然而,一般不考慮這些罕見的情況。對于非人類物種(如豬),其個體變異水 平可能更高或其參考基因組可能有質(zhì)量問題,這種情況(如某位置為雜合型,但兩個核苷酸 都與參考堿基不同)可能更頻繁地出現(xiàn)。本申請內(nèi)容中所述的實施方式同樣適用于這些情 況。
[0024] 如下所述,SNV識別過程的統(tǒng)計特性受到測定質(zhì)量和范圍二者的影響。
[0025] 由下一代測序設(shè)備生成的測序讀段數(shù)據(jù)包括由4字字母表{A、C、G、T}中的字母組 成的η個堿基的字符串(η是讀取長度,通常為50到150之間的一個整數(shù))。此字符串中的各個 字符被稱為"堿基",等同于讀段中的一個位置。此外,各個讀段中的各個堿基(或位置)與被 稱為Phred分?jǐn)?shù)的質(zhì)量分?jǐn)?shù)有關(guān),所述Phred分?jǐn)?shù)由測序儀產(chǎn)生,代表關(guān)于"堿基識別"準(zhǔn)確 性的置信度。Phred分?jǐn)?shù)計算方法為-10 · log1Q(錯誤率)。因此,Phred分?jǐn)?shù)為20表示估計錯 誤率為〇. 01,而Phred分?jǐn)?shù)為30表示估計錯誤率為0.001。
[0026] 如上所述,下一代測序通常產(chǎn)生較短讀段,但是卻有非常高的通量,所以應(yīng)用"深 度測序"方式。也就是說,各區(qū)被重復(fù)多次測序,因此各個位置都被多個讀段覆蓋。我們用L 表示關(guān)注位置的"深度范圍"。我們的做法是,我們將嘗試識別具有深度L的各個位置的SNV (或基因分型),在該深度處,至少1個L讀段表現(xiàn)出與參考序列的堿基不同的堿基。我們的討 論中,這些被稱為"可疑位置"。因為我們不考慮位置涉及3個堿基的情況(如上所述),假定 我們辨認(rèn)出參考序列中特定"可疑位置"的核苷酸身份一一我們將參考序列中的這個核苷 酸稱為R,則這個位置的測序數(shù)據(jù)中最多有一個其它核苷酸一一我們稱之為N。雖然理論上 各個位置有10種可能的二倍體基因型,一旦確定了 R和N,則只可能有3個二倍體基因型:RR、 NN(這兩個為純合子基因型)、RN(這個為雜合子基因型)。
[0027] 某些實施方式結(jié)合基于質(zhì)量分?jǐn)?shù)的統(tǒng)計特征,而質(zhì)量分?jǐn)?shù)與測序機(jī)和測序方式的 深度水平有關(guān)。通過結(jié)合這些統(tǒng)計效應(yīng),這些實施方式使得能夠表征測序讀段中的高置信 度位置,這些測序讀段中的堿基值可用于識別其它位置的堿基。
[0028]圖1示出用于實施例的用于識別如圖2所示的靶序列208的至少一個堿基的方法 100。第一操作102包括獲取參考序列202,所述參考序列202包括限定所述參考序列的多個 堿基值。例如,參考可以是表征為堿基值序列的已知基因組的一部分(如"ACACTG···"),其長 度可以為任意長(如人類基因組的30-40億個堿基值)。圖2中,參考序列202的第一元素204 包括如方塊206所示的堿基值A(chǔ),靶序列208的第一元素210包括二倍體中如方塊212所示的 喊基值A(chǔ)A。
[0029]第二操作104包括獲取多個測序讀段214,各測序讀段214包括靶序列208相應(yīng)部分 的多個堿基值。測序讀段214可表征為一系列堿基值(如"ACACTG…"),其長度可以為50-150 個堿基值或任意范圍。這些序列讀段214可以與基因組測試系統(tǒng)產(chǎn)生的基因組數(shù)據(jù)相一致。 圖2中,測序讀段214之一的第一元素216包括如方塊218所示的堿基值。本領(lǐng)域的技術(shù)人員 易于理解,祀序列208與測序讀段214的相對比對如圖2中的水平軸所示,所以靶序列208的 各個進(jìn)入位點或一個測序讀段214對應(yīng)參考序列202的一個位置。
[0030]第三操作106包括確定測序讀段中的多個高置信度位置,確定與參考序列中的相 應(yīng)位置的高置信度位置,滿足適用所述高置信度位置測序讀段堿基值的高置信度條件,從 而識別靶序列在高置信度位置的一個或多個堿基。例如,如果至少閾值數(shù)目的測序讀段包 含所述高置信度位置,且所述高置信度位置的測序讀段堿基值分布滿足統(tǒng)計置信標(biāo)準(zhǔn),則 所述高置信度位置可以滿足所述高置信度條件。
[0031] 高置信度條件可能與參考序列某位置的測序讀段覆蓋的深度水平有關(guān)。例如,測 序讀段中的各堿基值可能與參考序列中的相應(yīng)位置有關(guān)(通過映射)??梢詫⑺鱿鄳?yīng)位置 的總范圍描述為所述位置的深度水平,所述位置的深度水平可以在一個相對較低的深度水 平L(如L < 50)到一個相對較高的深度水平Η(如H>50)之間變化。
[0032] 根據(jù)如下所述的某些實施方式(如圖3A-3C),可以從測序讀段值中位于較高的深 度水平Η位置提取出位于較低深度水平L位置的測序讀段值。眾所周知,測序數(shù)據(jù)集的深度 范圍因區(qū)域而異。對于較高深度區(qū)域(如Η>50),不管采用什么SNV識別方法,都可以實現(xiàn)高 置信度SNV識別。面臨的挑戰(zhàn)是在較低深度區(qū)域。對于較高深度水平(如Η>50),用一組過濾 器保留以最高置信度確定的基因型所在的位置(例如,如果不到5%的Η讀段支持Ν,則確定 基因型為RR;如果高于95%的Η讀段支持Ν,則確定基因型為ΝΝ,如果45-55%的Η讀段支持Ν, 則確定基因型為RN)。
[0033] 然后對于較低深度水平L位置,可以從較高深度Η的若干數(shù)值中采樣??偟膩碚f,抽 樣順序Μ不需要與深度水平L相一致,但是深度水平可以用作抽樣順序Μ,這樣M=L個數(shù)值被 抽作樣本。為了獲取與測試系統(tǒng)相關(guān)的測定質(zhì)量的影響,可以基于質(zhì)量分?jǐn)?shù)將數(shù)值進(jìn)一步 區(qū)分。
[0034]圖3A-3C為實施例表格,表明利用深度水平和質(zhì)量分?jǐn)?shù)可表征測序讀段中的數(shù)據(jù), 并將數(shù)據(jù)從測序讀段中提取出來。圖3Α中,SNV表302中包括行指標(biāo)304與列指標(biāo)306,所述行 指標(biāo)對應(yīng)四個個體堿基值(A、C、G、T),這些個體堿基值可能出現(xiàn)在參考序列中的某位置,而 所述列指標(biāo)對應(yīng)十個二倍體組合以4、〇:、66、1'1^(^6^1'、06、(:1'、61'),這些二倍體組合可 能出現(xiàn)在一個測序讀段中的所述位置。SNV表302的各個單元307使得與行指標(biāo)304對應(yīng)的特 定參考序列堿基值有可能導(dǎo)致與行指標(biāo)304對應(yīng)的二倍體組合,所述行指標(biāo)304位于測序讀 段214對應(yīng)的靶序列208中。也就是說,源自測序讀段值與參考序列值的SNV表302可用于根 據(jù)某位置的參考序列值預(yù)測相應(yīng)位置的靶序列二倍體值。因此,可以將SNV表302描述為一 個靶序列預(yù)測表。
[0035]最初,可以根據(jù)參考序列中的高置信度位置構(gòu)建SNV表302,這些位置具有足夠高 的深度水平(如H>50),并被測序讀段覆蓋。然后,為了解釋參考序列中某位置較低深度水平 L的有限數(shù)據(jù)(如被測序讀段數(shù)值覆蓋的數(shù)據(jù)),可以通過從較高深度水平(如H>50)對應(yīng)的 高置信度數(shù)值中采樣構(gòu)建以深度水平L索引的對應(yīng)SNV表302。圖4展示了相關(guān)抽樣方法400。 第一操作402包括,從測序讀段采樣Μ個高置信度的堿基值(M為正整數(shù)),其中,Μ個高置信度 的堿基值對應(yīng)至少一個高置信度位置,在所述高置信度位置,參考序列的堿基值等同于參 考序列在給定位置的堿基值。例如,在對深度水平L采樣時,可以取M = L。第二操作402包括 利用Μ個高置信度堿基值估計在靶序列的給定位置存在一個或多個堿基值的可能性。
[0036]圖3B-3C為相關(guān)錯誤表308、310,其中表征了測試預(yù)測及相關(guān)錯誤,其中第一錯誤 表308對應(yīng)測試系統(tǒng)中的高質(zhì)量讀段(如基于Phred分?jǐn)?shù)閾值),而第二錯誤表310對應(yīng)低質(zhì) 量讀段。也就是說,如果數(shù)據(jù)由傳統(tǒng)平臺(如1LLUM1NA平臺)生成,為了評估高置信度條件, 測序讀段可以將測序數(shù)據(jù)分為兩個子群一一第一表308中的高質(zhì)量讀段及第二表310中的 低質(zhì)量讀段。應(yīng)注意的是,本發(fā)明披露的實施方式也適用于其它平臺(如ION TORRENT)產(chǎn)生 的下一代測序數(shù)據(jù),這些平臺沒有明顯的子群質(zhì)量劃分,在此情況下,可以省略這一步。如 果某讀段中各個位置的Phred分?jǐn)?shù)都高于一定水平(默認(rèn)是15級,但也可以采用其它值,比 如20、25等),則可以將該讀段劃分為高質(zhì)量讀段。將所有其它讀段劃分為低質(zhì)量讀段。應(yīng)注 意的是,雖然本實施方式采用Phred分?jǐn)?shù),但也可以基于操作設(shè)置采用其它質(zhì)量特征。
[0037]第一錯誤表308具有列指標(biāo)312與行指標(biāo)314,所述列指標(biāo)對應(yīng)十個二倍體組合 (AA、CC、GG、TT、AC、AG、AT、CG、CT、GT),這些組合可能出現(xiàn)在靶序列的位置,而所述行指標(biāo)對 應(yīng)四個個體堿基值(A、C、G、T),可以由所述位置的測試系統(tǒng)識別這些堿基值。同理,第二錯 誤表310具有列指標(biāo)316與列指標(biāo)318,所述列指標(biāo)對應(yīng)十個二倍體組合(AA、CC、GG、TT、AC、 AG、AT、CG、CT、GT),這些組合可能出現(xiàn)在靶序列的位置,而所述列指標(biāo)對應(yīng)四個個體堿基值 (八、(:、6、1'),可以由所述位置的測試系統(tǒng)識別這些堿基值。錯誤表308、310的每個單元格 315、319使得與列指標(biāo)312、316對應(yīng)的特定二倍體組合有可能導(dǎo)致與行指標(biāo)314、318相對應(yīng) 的測定。
[0038] 就SNV表302而言,首先可以在高深度水平(如H>50)表征錯誤表308、310,然后在較 低深度水平采樣。也就是說,基于最高置信度確定的基因型所在的位置類似地計算各水平L 的錯誤率一一然后在Η讀段之外的L隨機(jī)抽樣。假定任何與基因型一致的堿基都正確(例如, 如果確定Α位置的基因型為ΑΑ或AC或AG或ΑΤ,則認(rèn)為堿基Α正確),任何與基因型不一致的堿 基都指示測序錯誤。對于多質(zhì)量水平的測序數(shù)據(jù)(如ILLUMINA公司數(shù)據(jù)),分別計算高、低質(zhì) 量讀段的錯誤率,并生成兩個錯誤表。對于其它測序平臺,只形成一個錯誤表。
[0039] 也就是說,為了解釋參考序列中某位置的較低深度水平L的有限數(shù)據(jù)(如測序讀段 數(shù)值所覆蓋的數(shù)據(jù)),可以通過從較高深度水平(如H>50)對應(yīng)的高置信度數(shù)值采樣構(gòu)建以 深度水平L索引的相應(yīng)SNV表302。圖5展示了相關(guān)抽樣方法500。第一操作502包括對靶序列 在給定位置的一個或多個堿基值進(jìn)行Μ次(M為正整數(shù))高置信度測試結(jié)果的采樣,Μ次高置 信度測試結(jié)果包括至少一個高置信度位置的堿基值,在所述高置信度位置,相應(yīng)的測序讀 段識別堿基值組合,而所述堿基值組合等同于靶序列在給定位置的一個或多個堿基值。例 如,在對深度水平L采樣時,可以取M = L。第二操作502包括利用對靶序列在給定位置的一個 或多個堿基值進(jìn)行Μ次高置信度測定來估計測序讀段在給定位置存在前述堿基值的可能 性。
[0040] 應(yīng)強(qiáng)調(diào)的是,在專注描述的實施方式中,我們假定是二倍體樣品,但是這個步驟可 以輕而易舉地擴(kuò)展到其它倍性情況(單倍體、四倍體)。對于給定深度水平L,圖3A-3C中的各 個表302、308、310包含從測序數(shù)據(jù)的較高深度區(qū)域(Η)提取的40個參數(shù),該較高深度區(qū)域 (Η)用于計算較低深度(L)區(qū)域。堿基SNV表展示SNVs的發(fā)生率一一也就是說,個體基因型和 參考序列的真實差異。SNV表302中的數(shù)值(或參數(shù))將用于計算如下所述二倍體基因型的先 驗概率。錯誤表308、310是由測序機(jī)造成的測序錯誤的發(fā)生率。兩個錯誤表(一個用于高質(zhì) 量讀段,另一個用于低質(zhì)量讀段)中的數(shù)值或參數(shù)。應(yīng)注意的是,對于不生成兩個質(zhì)量水平 讀段的平臺(如非ILLUMINA平臺),將只有一個錯誤表308用于如下所述的后續(xù)計算。
[0041 ] 簡言之,為各L水平定義圖3A-3C的各個表302、308、310。5附表302中的每一列304 都表示參考序列202中的四個堿基之一,而每一行306都表示測序個體的靶序列208中十個 可能的真實二倍體基因型之一。SNV表302中的每個單元格都代表相應(yīng)的二倍體基因型出現(xiàn) 在指定的參考堿基的某位置的可能性。錯誤表308中的每列312表示十個二倍體基因型之 一,而每行表示測序機(jī)生成的堿基。傳統(tǒng)的具有兩個質(zhì)量水平的儀器(如ILLUMINA公司儀 器)有兩個錯誤表308、310-一一個用于高質(zhì)量讀段,而另一個用于低質(zhì)量讀段。對于其他 測序平臺,只有一個如上所述的錯誤表308。
[0042] 圖1中的第四操作108包括識別靶序列在給定位置的一個或多個堿基,根據(jù)高置信 度位置測序讀段的堿基值、測序讀段給定位置的堿基值及所述參考序列給定位置的堿基值 來識別所述靶序列在給定位置的一個或多個堿基,所述靶序列在給定位置的一個或多個堿 基不滿足高置信度條件,從而識別所述給定位置的靶序列的一個或多個堿基。例如,靶序列 可以與N倍體基因型對應(yīng),可以在所述給定位置識別N個堿基(N為正整數(shù))。
[0043] 可以通過確定至少一個包括測序讀段的給定位置來選擇給定位置,該給定位置表 示相對于參考序列的SNV(如一個相對于參考序列的可疑位置)。此外或可替換地,可以通過 識別給定位置的插入或刪除、給定位置的拷貝數(shù)變異或給定位置的結(jié)構(gòu)變異來選擇給定位 置。
[0044] 可以利用貝葉斯預(yù)測模型來識別靶序列在給定位置的一個或多個堿基。所述貝葉 斯預(yù)測模型提供測序讀段在高置信度位置的堿基值和參考序列在多個位置的堿基值與靶 序列在所述給定位置的一個或多個堿基有關(guān)的概率值。例如,識別靶序列在所述給定位置 的一個或多個堿基可能包括利用測序讀段在高置信度位置的堿基值來評估參考序列在所 述給定位置的堿基值與靶序列在所述給定位置的一個或多個堿基值組合的可能性。而且, 識別靶序列在所述給定位置的一個或多個堿基可包括利用測序讀段高置信度位置的堿基 值來評估所述給定位置的靶序列的一個或多個堿基值與所述給定位置的一個靶序列堿基 組合的概率。
[0045] 如果我們忽略出現(xiàn)雜合子基因型,且兩個堿基都與參考堿基不同的罕見情況(如 參考堿基是'A',但基因型是"GC"),那么我們可以基于R:N組合將每個L水平的所有位置分 割成12個分區(qū),然后基于有關(guān)SNV表302將先驗概率分配給各個二倍體基因型。更一般情況 下,我們考慮各個位置的10個二倍體基因型時,可以基于參考堿基將各個位置分成四類,然 后將先驗概率分配給這四類中各類的10個二倍體基因型中的每一個。
[0046]因此,可以用SNV表302(或其它表格)來表征對于給定參考堿基值R(如行指標(biāo) 304),任何基因型GT(如列指標(biāo)306)的先驗概率P(R|GT)或可能性。然后,可以通過多項分布 使用錯誤表308、310來表征對于給定基因型GT(如列指標(biāo)312、316),實測測序數(shù)據(jù)0(如行指 標(biāo)308、310)的條件概率P(D | GT)或可能性。
[0047]
[0048]上述公式1中,GT是特定的二倍體基因型,D是測序數(shù)據(jù),L是特定位置的測序深度 或覆蓋此位置的讀段總數(shù)(包括高、低質(zhì)量讀段是覆蓋此位置的低質(zhì)量讀段數(shù),所述讀 段支持參考核苷酸t(yī)lN是覆蓋此位置的低質(zhì)量讀段數(shù),所述讀段支持非參考堿基1m是支 持參考堿基R的讀段總數(shù)。表示基因型GT低質(zhì)量讀段數(shù)的錯誤率,此基因型GT用于生 成參考堿基R,所述錯誤率通過查詢錯誤表310獲取。假定只有二倍體基因型GT中的兩個核 苷酸都不是R時,才會出現(xiàn)錯誤。例如,如果GT是"AC",則當(dāng)R是"A"或"C"時,假定不會出現(xiàn)錯 誤。只有當(dāng)R是"G"或"T"時,假定會出現(xiàn)錯誤。類似地,p 1、->N、phlghGT->^phlgV> N分別表示 用于生成N的基因型GT的低質(zhì)量讀段的錯誤率、用于生成R的基因型GT的高質(zhì)量讀段的錯誤 率、用于生成N的基因型GT的高質(zhì)量讀段的錯誤率,這些值分別從相應(yīng)的堿基錯誤表308、 310中查出。
[0049] 在參考序列202的給定位置,借助于堿基值R和測序數(shù)據(jù)D,可以通過最大化(例如 在某近似意義上)似然函數(shù)L(R,D|GT)將似然函數(shù)以1?,0|61')=?(1?|61')仲(0|61')用于識別 基因型GT。這樣識別基因型GT可以提供所期望的堿基。
[0050] 根據(jù)操作設(shè)置的細(xì)節(jié),根據(jù)圖1的方法100的實施方式可以實現(xiàn)某些獨有特征。首 先,對于多個質(zhì)量水平的數(shù)據(jù)(例如ILLUMINA公司數(shù)據(jù)),方法100可以利用與劃分高、低質(zhì) 量讀段有關(guān)的可用知識,分別處理它們。應(yīng)注意的是,按照慣例,人們并不理解現(xiàn)有序列數(shù) 據(jù)中存在多個質(zhì)量水平??梢曰谌缦聝蓚€申請中所述的質(zhì)量水平利用相關(guān)實施方式來劃 分序列數(shù)據(jù):相關(guān)美國臨時專利申請?zhí)?61/898,650,名稱:"劃分序列數(shù)據(jù)的質(zhì)量水平和測 序較長讀段的方法及設(shè)備",申請日:2013年11月1日,在此以引用的方式整體并入本文中; 相關(guān)PCT申請名稱:"劃分序列數(shù)據(jù)的質(zhì)量水平和測序較長讀段的方法及設(shè)備",申請日與本 申請日相同,通過交叉發(fā)明實體的方式提出申請,在此以引用的方式整體并入本文中。
[0051] 其次,在常規(guī)方法中,分配先驗概率時,不考慮新生成的測序數(shù)據(jù)(如根據(jù)關(guān)于特 定類型SNVs出現(xiàn)頻率的常識)。相比常規(guī)方法,方法100可以使用從較高深度區(qū)域估計的SNV 率和錯誤率,采用改進(jìn)的概率計算方法(例如先驗概率和條件概率)。相比之下,方法100可 以將相同測序數(shù)據(jù)集的較高深度區(qū)域用作先驗知識的一部分,并產(chǎn)生更精確的SNV率參數(shù), 而該SNV率參數(shù)可以用于更精確的先驗概率計算。同樣,方法100可以利用相同數(shù)據(jù)集的較 高深度范圍區(qū)域提取堿基出錯率參數(shù),從而得到更精確的似然函數(shù)。
[0052]再次,方法100可以更準(zhǔn)確地計算二倍體基因型的概率,從而導(dǎo)致SNV識別性能的 改進(jìn)。在使用多個數(shù)據(jù)集(如全基因組測序數(shù)據(jù)集和外顯子組數(shù)據(jù)集)進(jìn)行測試的某些實施 方式中,當(dāng)測序深度(L)在10-25之間時,與圖1的方法100相關(guān)的實施方式產(chǎn)生的錯誤較其 它方法少30-100倍,這是典型的常見重測序研究。
[0053] 3、其它實施方式
[0054]其它實施方式與執(zhí)行上述方法的系統(tǒng)及相關(guān)計算機(jī)程序相應(yīng)。
[0055]圖6為一個實施例中的用于識別靶序列208的至少一個堿基的設(shè)備600的示意圖。 這種情況下,設(shè)備600包括至少一個用于執(zhí)行軟件和硬件模塊操作的計算機(jī)系統(tǒng)(如圖中RR 所示),所述模塊執(zhí)行圖1中方法1 〇〇的各個方面。
[0056]根據(jù)示例性實施方式,設(shè)備600包括第一存取模塊602、第二存取模塊604、第一識 別模塊606及第二識別模塊608。第一存取模塊602運行以獲取參考序列,所述參考序列包括 限定所述參考序列的多個堿基值。第二存取模塊604運行以獲取多個測序讀段,各測序讀段 包括靶序列相應(yīng)部分的多個堿基值。
[0057]第一識別模塊606運行以識別測序讀段中的多個高置信度位置,高置信度位置通 過參考序列中的相應(yīng)位置被識別并滿足高置信度條件,從而利用測序讀段該高置信度位置 的堿基值來識別靶序列在該高置信度位置的一個或多個堿基。第二識別模塊608運行,識別 所述靶序列在不滿足所述高置信度條件的給定位置的一個或更多個堿基,以識別所述靶序 列在所述給定位置的一個或更多個堿基,其中,使用所述測序讀段在所述高置信度位置的 堿基值以及所述測序讀段在給定位置的堿基值和所述參考序列在給定位置的堿基值來識 別所述靶序列所述給定位置的一個或更多個堿基。
[0058]可以通過其它相應(yīng)模塊或通過修改上述模塊執(zhí)行與方法100有關(guān)的其它操作。
[0059] 圖7示出以計算機(jī)系統(tǒng)700為實例形式的機(jī)器的示例,所述系統(tǒng)內(nèi)部可以執(zhí)行指 令,這些指令可以使機(jī)器執(zhí)行此處所述的任何一種或多種方法。在可選實施方式中,該機(jī)器 作為獨立設(shè)備運行,或者也可與其它機(jī)器相連接(如聯(lián)網(wǎng))。在聯(lián)網(wǎng)部署中,該機(jī)器可以在服 務(wù)器-客戶端網(wǎng)絡(luò)環(huán)境中以服務(wù)器或客戶機(jī)的容量運行,或在對等(或分布式)網(wǎng)絡(luò)環(huán)境中 以對等機(jī)運行。該機(jī)器可以是個人電腦(PC)、平板電腦、機(jī)頂盒(STB)、個人數(shù)字助理(PDA)、 移動電話、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)路由器、交換機(jī)或橋接器或任何能執(zhí)行指令(連續(xù)或其它)的機(jī) 器,所述指令指定該機(jī)器需要采取的動作。此外,雖然只詳述了單機(jī),但是采用的術(shù)語"機(jī) 器"一詞還應(yīng)包括任何機(jī)器集合,所述集合單獨或共同執(zhí)行一組(或多組)指令,以執(zhí)行此處 提到的任何一種或多種方法。
[0060] 所述示例計算機(jī)系統(tǒng)700包括處理器702(如中央處理單元(CHJ)、圖形處理單元 (GPU)或兩者)、主存儲器704及靜態(tài)存儲器706,這些組成部分通過總線708相互通信。所述 計算機(jī)系統(tǒng)700還可以包括視頻顯示器710(如液晶顯示器(IXD)或陰極射線管(CRT))。計算 機(jī)系統(tǒng)700還包括字母數(shù)字輸入設(shè)備712(如鍵盤)、用戶界面(UI)光標(biāo)控制器714(如鼠標(biāo))、 磁盤驅(qū)動單元716、信號生成設(shè)備718(如揚聲器)及網(wǎng)絡(luò)接口設(shè)備720。
[0061] 某些情況下,可以將計算機(jī)可讀介質(zhì)描述為機(jī)器可讀介質(zhì)。磁盤驅(qū)動器716包括機(jī) 器可讀介質(zhì)722,其上存儲一組或多組數(shù)據(jù)結(jié)構(gòu)及指令724(如軟件),所述結(jié)構(gòu)及指令可以 實施或利用此處所述的任何一種或多種方法或功能。所述計算機(jī)系統(tǒng)700執(zhí)行指令期間,所 述指令724也可以完全或至少部分存儲在靜態(tài)存儲器706、主存儲器704或者處理器702中。 靜態(tài)存儲器706、主存儲器704及處理器704也構(gòu)成機(jī)器可讀介質(zhì)。
[0062] 雖然實施例中所示的機(jī)器可讀介質(zhì)722為單一介質(zhì),但是術(shù)語"機(jī)器可讀介質(zhì)"和 "計算機(jī)可讀介質(zhì)"都可以指單一介質(zhì)或多重介質(zhì)(如集中式或分布式數(shù)據(jù)庫和/或相關(guān)的 緩存及服務(wù)器),所述介質(zhì)存儲一組或多組數(shù)據(jù)結(jié)構(gòu)及指令724。采用的這些術(shù)語還應(yīng)包括 任何有形或非臨時性介質(zhì),所述介質(zhì)能夠存儲、編碼或攜帶由機(jī)器執(zhí)行的指令,使機(jī)器執(zhí)行 此處披露的任何一種或多種方法,或能夠存儲、編碼或攜帶這些指令采用的或與這些指令 相關(guān)的數(shù)據(jù)結(jié)構(gòu)。因此,采用的這些術(shù)語應(yīng)包括但不限于固態(tài)存儲器、光學(xué)介質(zhì)及磁性介 質(zhì)。機(jī)器可讀或計算機(jī)可讀介質(zhì)的具體實例包括非易失性存儲器,例如包括半導(dǎo)體存儲器 設(shè)備,例如可刪除可編程只讀存儲器(EPROM)、電子可刪除可編程只讀存儲器(EEPR0M)及閃 存設(shè)備;內(nèi)置硬盤及可移動磁盤等磁盤;磁光盤;只讀光盤存儲器(CD-ROM)及數(shù)字多功能光 盤只讀存儲器(DVD-ROM)。
[0063] 還可以利用傳輸介質(zhì)在通信網(wǎng)絡(luò)726上傳輸或接收指令724??梢岳镁W(wǎng)絡(luò)接口設(shè) 備720及許多眾所周知的傳輸協(xié)議中的任何一種(如超文本傳輸協(xié)議(HTTP))傳輸指令724。 通信網(wǎng)絡(luò)的實例包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、互聯(lián)網(wǎng)、移動電話網(wǎng)絡(luò)、簡易老式電話 (POTS)網(wǎng)絡(luò)及無線數(shù)據(jù)網(wǎng)絡(luò)(如WiFi和WiMax網(wǎng)絡(luò))。采用的術(shù)語"傳輸介質(zhì)"應(yīng)包括任何無 形介質(zhì),所述無形介質(zhì)能夠存儲、編碼或攜帶由機(jī)器執(zhí)行的指令,并包含數(shù)字或模擬通信信 號或其它無形介質(zhì),以方便此類軟件通信。
[0064] 此處所述的某些實施方式包括邏輯或許多部件、模塊或機(jī)制。模塊可以構(gòu)成軟件 模塊或硬件模塊。硬件模塊是能夠執(zhí)行某些操作的實體設(shè)備,可以配置或設(shè)置成一定形式。 實施例中,可以由軟件(如應(yīng)用程序或應(yīng)用程序部分)配置一個或多個計算機(jī)系統(tǒng)(如單機(jī)、 客戶端或服務(wù)器計算機(jī)系統(tǒng))或一個或多個處理器作為硬件模塊,所述硬件模塊運行時可 以執(zhí)行此處所述的某些操作。
[0065] 不同實施方式中,可以以機(jī)械方式或電子方式執(zhí)行硬件模塊(如電腦模塊)。例如, 硬件模塊可以包括永久配置的專用電路或邏輯(如用作專用處理器,如現(xiàn)場可編程門陣列 (FPGA)或特定用途集成電路(ASIC)),以執(zhí)行某些操作。硬件模塊也可以包括可編程邏輯或 電路(如包含在通用處理器或其它可編程處理器中),所述邏輯或電路由軟件臨時性配置以 執(zhí)行某些操作。為了節(jié)約成本和時間,可以決定以機(jī)械方式通過永久配置專用電路或臨時 性配置電路(如由軟件配置)執(zhí)行硬件模塊。
[0066] 因此,應(yīng)將術(shù)語"硬件模塊"(如"電腦模塊")理解為包括有形的實體,所述模塊應(yīng) 為一種具有物理構(gòu)造、永久配置(如硬連接)或臨時性配置(如程序化)的實體,旨在以特定 方式運行和/或執(zhí)行此處所述的某些操作。考慮到臨時性配置(如程序化)的硬件模塊的實 施方式,任何一種情況下都無需及時配置或者實例化每個硬件模塊。例如,如果硬件模塊包 含利用軟件配置的通用處理器,則可以在不同的時間將通用處理器分別配置為不同的硬件 模塊。因此,軟件可以配置處理器等,以在一種情況下構(gòu)成一種特定的硬件模塊,而在另一 種情況下構(gòu)成另一種硬件模塊。
[0067] 硬件模塊可以向其它硬件模塊提供信息并接收其它硬件模塊的信息。因此,可以 將所述硬件模塊看作通信耦合模塊。同時存在多個這樣的硬件模塊時,可以通過信號傳輸 (如通過適當(dāng)?shù)碾娐芳翱偩€)實現(xiàn)通信,所述電路及總線連接硬件模塊。在不同的時間配置 或?qū)嵗鄠€硬件模塊的實施方式中,可以通過存儲并檢索存儲器結(jié)構(gòu)中的信息等方式實 現(xiàn)這些硬件模塊之間的通信,多個硬件模塊可以存取這些信息。例如,一個硬件模塊可以執(zhí) 行一個操作,并在通信耦合存儲器設(shè)備中存儲該操作的輸出。然后,在稍后的時間,其它硬 件模塊可以訪問該存儲器設(shè)備,以檢索并處理存儲的輸出。硬件模塊也可以發(fā)起與輸入或 輸出設(shè)備的通信,并可以在資源(如許多信息)上運行。
[0068] 至少部分通過一個或多個處理器可以執(zhí)行此處所述示例方法的各種操作,所述處 理器為臨時性配置(如通過軟件)或永久配置,以執(zhí)行相關(guān)操作。無論臨時性或永久配置,所 述處理器都可以構(gòu)成處理器模塊,所述模塊運行時可以執(zhí)行一個或多個操作或功能。一些 實施例中,此處所提到的模塊可以包括處理器模塊。
[0069]同理,此處所述的方法可能至少部分由處理器執(zhí)行。例如,可以由一個或多個處理 器或處理器模塊執(zhí)行某方法的至少部分操作??梢詫⒁欢ú僮餍阅芊峙浣o一個或多個處理 器,不只是分配給單機(jī),而是要分配給多個機(jī)器。一些實施例中,所述一個處理器或多個處 理器可以位于一個位置(如家庭環(huán)境、辦公環(huán)境或服務(wù)器場),但是其它實施方式中,所述多 個處理器可以分布在多個位置。
[0070]所述一個或多個處理器運行時,也可以支持"云計算"環(huán)境中的相關(guān)操作性能或作 為一個"軟件即服務(wù)"(SaaS)。例如,可以由一組電腦(例如包括處理器的機(jī)器)執(zhí)行至少部 分操作,可以通過網(wǎng)絡(luò)(如互聯(lián)網(wǎng))或通過一個或多個適當(dāng)?shù)慕涌冢ㄈ鐟?yīng)用程序接口(APIs)) 獲取這些操作。
[0071] 4、結(jié)論
[0072]盡管上文已經(jīng)詳細(xì)描述了某些實施方式,然而本領(lǐng)域的技術(shù)人員很容易理解,在 沒有實質(zhì)性偏離本發(fā)明披露的新啟示的情況下,可以做出多種修改。例如,可以將以上披露 的實施方式的各方面與其它實施方式組合以形成更多的實施方式。因此,所有這些修改都 意圖落入本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項】
1. 一種識別靶序列的至少一個堿基的方法,所述方法包括: 獲取參考序列,所述參考序列包括限定所述參考序列的多個堿基值; 獲取多個測序讀段,每個測序讀段包括靶序列相應(yīng)部分的多個堿基值; 識別所述測序讀段中的多個高置信度位置,所述高置信度位置通過參考序列中的相應(yīng) 位置被識別并且滿足高置信度條件,所述高置信度條件用于使用所述測序讀段在所述高置 信度位置的堿基值來鑒定所述靶序列在所述高置信度位置的一個或更多個堿基;以及 識別所述靶序列在不滿足所述高置信度條件的給定位置的一個或更多個堿基,以識別 所述靶序列在所述給定位置的一個或更多個堿基,其中,使用所述測序讀段在所述高置信 度位置的堿基值以及所述測序讀段在給定位置的堿基值和所述參考序列在給定位置的堿 基值來識別所述靶序列所述給定位置的一個或更多個堿基。2. 根據(jù)權(quán)利要求1所述的方法,其中,在以下情況下所述高置信度位置滿足所述高置信 度條件: 如果至少閾值數(shù)目的測序讀段包括所述高置信度位置,以及 如果所述高置信度位置的測序讀段堿基值分布滿足統(tǒng)計置信標(biāo)準(zhǔn)。3. 根據(jù)權(quán)利要求1所述的方法,其中,所述識別靶序列在給定位置的一個或多個堿基包 括: 利用測序讀段在高置信度位置的堿基值評估參考序列在所述給定位置的堿基值與靶 序列在所述給定位置的一個或多個堿基值組合的可能性。4. 根據(jù)權(quán)利要求1所述的方法,其中,所述識別靶序列在所述給定位置的一個或多個堿 基包括: 利用測序讀段在高置信度位置的堿基值評估所述靶序列在所述給定位置的一個或多 個堿基值與所述靶序列在所述給定位置的一個堿基組合的可能性。5. 根據(jù)權(quán)利要求1所述的方法,其中,所述靶序列對應(yīng)N倍體基因型,并且在所述給定位 置的N個堿基被識別,N為正整數(shù)。6. 根據(jù)權(quán)利要求1所述的方法,其中,所述測序讀段對應(yīng)基因組數(shù)據(jù)。7. 根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括: 通過確定至少一個包括所述給定位置的測序讀段來選擇所述給定位置,所述給定位置 表示相對于參考序列的單核苷酸變異(SNV)。8. 根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括: 通過識別在給定位置的插入或刪除、給定位置的拷貝數(shù)變異或給定位置的結(jié)構(gòu)變異選 擇所述給定位置。9. 根據(jù)權(quán)利要求1所述的方法,其中,利用貝葉斯預(yù)測模型來識別靶序列在所述給定位 置的一個或多個堿基,所述貝葉斯預(yù)測模型提供所述測序讀段在高置信度位置的堿基值和 參考序列在多個位置的堿基值與靶序列在給定位置的一個或多個堿基有關(guān)的概率值。10. 根據(jù)權(quán)利要求1所述的方法,其中,所述識別靶序列在給定位置的一個或多個堿基 包括: 從測序讀段采樣Μ個高置信度的堿基值,Μ個高置信度的堿基值對應(yīng)至少一個高置信度 位置,在所述高置信度位置,參考序列的堿基值等同于所述參考序列在所述給定位置的堿 基值,Μ為正整數(shù)Μ;及 利用Μ個高置信度堿基值估計靶序列在給定位置存在一個或多個堿基值的可能性。11. 根據(jù)權(quán)利要求1所述的方法,其中,所述識別靶序列在給定位置的一個或多個堿基 包括: 對于某正整數(shù)Μ,對所述靶序列在所述給定位置的所述一個或多個堿基值進(jìn)行Μ次高置 信度測試結(jié)果的采樣,的所述Μ次高置信度測試結(jié)果包括至少一個高置信度位置的堿基值, 在所述高置信度位置,相應(yīng)的測序讀段識別堿基值組合,而所述堿基值等同于所述靶序列 在所述給定位置的的一個或多個堿基值;及 利用對靶序列在給定位置的一個或多個堿基值進(jìn)行Μ次高置信度測定結(jié)果來估計測序 讀段在所述給定位置存在所述堿基值的可能性。12. -種非臨時性計算機(jī)可讀介質(zhì),該介質(zhì)存儲有用于識別靶序列的至少一個堿基的 計算機(jī)程序,所述計算機(jī)程序包括指令,當(dāng)至少一臺計算機(jī)執(zhí)行所述指令時,使所述至少一 臺計算機(jī)執(zhí)行以下操作: 獲取參考序列,所述參考序列包括限定所述參考序列的多個堿基; 獲取多個測序讀段,各測序讀段包括靶序列相應(yīng)部分的多個堿基值; 識別所述測序讀段中的多個高置信度位置,所述高置信度位置通過參考序列中的相應(yīng) 位置被識別,并且滿足高置信度條件,所述高置信度條件用于使用所述測序讀段在所述高 置信度位置的堿基值來鑒定所述靶序列在所述高置信度位置的一個或更多個堿基;以及 識別所述靶序列在不滿足所述高置信度條件的給定位置的一個或更多個堿基,以識別 所述靶序列在所述給定位置的一個或更多個堿基,其中,使用所述測序讀段在所述高置信 度位置的堿基值以及所述測序讀段在給定位置的堿基值和所述參考序列在給定位置的堿 基值來識別所述靶序列所述給定位置的一個或更多個堿基。13. 根據(jù)權(quán)利要求12所述的非臨時性計算機(jī)可讀介質(zhì),其中,在以下情況下所述高置信 度位置滿足所述高置信度條件: 如果至少閾值數(shù)目的測序讀段包括所述高置信度位置,以及 如果所述高置信度位置的測序讀段堿基值分布滿足統(tǒng)計置信標(biāo)準(zhǔn)。14. 根據(jù)權(quán)利要求12所述的非臨時性計算機(jī)可讀介質(zhì),其中,所述識別靶序列在給定位 置的一個或多個堿基包括: 利用所述測序讀段在所述高置信度位置的堿基值評估參考序列在所述給定位置的堿 基值與所述靶序列在所述給定位置的一個或多個堿基值組合的可能性。15. 根據(jù)權(quán)利要求12所述的非臨時性計算機(jī)可讀介質(zhì),其中,所述識別靶序列在給定位 置的一個或多個堿基包括: 利用所述測序讀段在所述高置信度位置的堿基值評估所述靶序列在所述給定位置的 一個或多個堿基值與靶序列在給定位置的堿基組合的可能性。16. 根據(jù)權(quán)利要求12所述的非臨時性計算機(jī)可讀介質(zhì),其中,所述靶序列對應(yīng)Ν倍體基 因型,并且在所述給定位置的Ν個堿基被識別,Ν為正整數(shù)。17. 根據(jù)權(quán)利要求12所述的非臨時性計算機(jī)可讀介質(zhì),其中,所述計算機(jī)程序還包括指 令,當(dāng)至少一臺計算機(jī)執(zhí)行所述指令時,使所述至少一臺計算機(jī)執(zhí)行以下操作: 通過確定至少一個包括所述給定位置的測序讀段來選擇所述給定位置所述給定位置 表示相對于參考序列的單核苷酸變異(SNV)。18. 根據(jù)權(quán)利要求12所述的非臨時性計算機(jī)可讀介質(zhì),其中,所述計算機(jī)程序還包括指 令,當(dāng)至少一臺計算機(jī)執(zhí)行所述指令時,使所述至少一臺計算機(jī)執(zhí)行以下操作: 通過識別在所述給定位置的插入或刪除、給定位置的拷貝數(shù)變異或給定位置的結(jié)構(gòu)變 異選擇所述給定位置。19. 根據(jù)權(quán)利要求12所述的非臨時性計算機(jī)可讀介質(zhì),其中,利用貝葉斯預(yù)測模型來識 別靶序列在所述給定位置的一個或多個堿基,所述貝葉斯預(yù)測模型提供所述測序讀段在所 述高置信度位置的堿基值和參考序列在多個位置的堿基值與靶序列在給定位置的一個或 多個堿基有關(guān)的概率值。20. -種用于識別靶序列的至少一個堿基的設(shè)備,所述設(shè)備包括至少一個計算機(jī),所述 計算機(jī)被配置為執(zhí)行計算機(jī)實現(xiàn)的模塊操作,所述計算機(jī)實現(xiàn)的模塊包括: 第一存取模塊,用于獲取參考序列,所述參考序列包括限定所述參考序列的多個堿基 值; 第二存取模塊,用于獲取多個測序讀段,每個測序讀段包括靶序列相應(yīng)部分的多個堿 基值; 第一識別模塊,用于識別所述測序讀段中的多個高置信度位置,所述高置信度位置通 過參考序列中的相應(yīng)位置被識別并且滿足高置信度條件,所述高置信度條件用于使用所述 測序讀段在所述高置信度位置的堿基值來鑒定所述靶序列在所述高置信度位置的一個或 更多個堿基;以及 第二識別模塊,用于識別所述靶序列在不滿足所述高置信度條件的給定位置的一個或 更多個堿基,以識別所述靶序列在所述給定位置的一個或更多個堿基,其中,使用所述測序 讀段在所述高置信度位置的堿基值以及所述測序讀段在給定位置的堿基值和所述參考序 列給定位置的堿基值來識別所述靶序列所述給定位置的一個或更多個堿基。
【文檔編號】G06F19/22GK105874460SQ201480072012
【公開日】2016年8月17日
【申請日】2014年2月13日
【發(fā)明人】龔午鳴, 饒江, 李彤彬
【申請人】精賽恩公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
海阳市| 闻喜县| 建阳市| 金堂县| 弋阳县| 顺平县| 榕江县| 禄丰县| 沧州市| 余干县| 高要市| 贵州省| 资源县| 察雅县| 东乡族自治县| 临沂市| 新密市| 韶山市| 外汇| 岐山县| 遂昌县| 石屏县| 明水县| 瑞丽市| 洛川县| 永宁县| 迁西县| 舒城县| 盘山县| 长泰县| 永仁县| 盐亭县| 韶关市| 潼南县| 苍梧县| 大港区| 巴东县| 林芝县| 巴马| 江都市| 德格县|