數(shù)據(jù)庫驅(qū)動的原始測序數(shù)據(jù)的初步分析的制作方法
【專利說明】數(shù)據(jù)庫驅(qū)動的原始測序數(shù)據(jù)的初步分析 發(fā)明領(lǐng)域
[0001] 本發(fā)明涉及一種用于識別生物序列的可能來源的方法。在進(jìn)一步的方面,本發(fā)明 涉及一種適合用于此目的的數(shù)據(jù)庫。
[0002] 發(fā)明背景
[0003] DNA測序是識別堿基(A、T、C或G)順序的實驗過程。截至今天,沒有任何技術(shù)能夠 測序超過幾千堿基的DNA的完整分子,大多數(shù)技術(shù)測序100和200個堿基之間。細(xì)菌基因 組可容易地含有以幾百萬計的堿基。在過去幾年中,測序成本顯著降低從而使以諸如人類 健康、食品質(zhì)量控制或微生物群落研宄為目的對樣品中的DNA大規(guī)模測序越來越普遍???以想象的是,全人類基因組測序?qū)⒏l繁地用于治療以盡可能地使治療個性化,并且將執(zhí) 行常規(guī)測序來控制特定活生物體的存在或不存在。無論是作為最終目的本身或作為更復(fù)雜 的數(shù)據(jù)分析或在采取更昂貴的分析之前對測序數(shù)據(jù)的質(zhì)量控制步驟的基石,快速識別可能 的起源DNA都正在迅速成為一種必然。
[0004] 初級分析包括使從測序獲得的相對短的序列(稱為短讀段)有意義,該相對短的 序列或者是通過將它們與參考基因組比對(這需要參考物種的序列是已知的),或者是通 過不使用模型來重構(gòu)拼圖(所謂的測序標(biāo)簽的從頭組裝-識別未知樣品的含量將需要補(bǔ)充 步驟)來獲得的。與參考比對被認(rèn)為是比從頭組裝在計算上更容易的任務(wù)。
[0005] 在可負(fù)擔(dān)非特異性或全基因組測序之前,首先精心地對特定區(qū)域測序和組裝,識 別感興趣的預(yù)測區(qū)域。最簡單的方法是通過找到由RNA翻譯成蛋白質(zhì)的起始密碼子(ATG/ AUG)和一個終止翻譯的終止密碼子(TAG/UAG、TAA/UAA、TGA/UGA)所限定的間隔,尋找開放 閱讀框架(ORF)。該ORF隨后與所有已知基因名單比對。比對方法包括比對算法和程序如 Smith和Waterman算法、BLAST算法和程序、SSAHA和BLAT。它們的目的是要在索引序列的 數(shù)據(jù)庫中找到優(yōu)化比對,并通過對所有比對的得分排名找到最佳匹配以及從而找到查詢序 列的最可能的功能。為了功能注釋的目的,通過建立"最佳-匹配基因的組",或直系同源基 因(COG)簇,越來越多的具有不同生物學(xué)功能的類似匹配導(dǎo)致這一原理的擴(kuò)張。隨著慢慢 地可以利用更多的完整基因組,設(shè)計了 Mummer算法來比對完整基因組對和可視化如何在 遺傳相關(guān)的物種之間比較整體的基因組結(jié)構(gòu)。
[0006] 由于目前在數(shù)據(jù)庫中可用的序列數(shù)目,針對巨大的已知序列池的新序列的比對可 能花費(fèi)相對長的時間,BLAST在這個意義上是個突破,它在找到幾乎最佳結(jié)果的同時加速了 以前的算法。然而,在基于網(wǎng)絡(luò)的搜索引擎可以幾乎立即返回搜索結(jié)果的時代,針對所有已 知序列的搜索仍相對緩慢。
[0007] Ning 等,2001,(Genome: 11:1725-1729),描述了一種算法 SSAHA(通過哈希算法的 序列搜索和比對),對含有幾千兆堿基的DNA的數(shù)據(jù)庫執(zhí)行快速比對。SSAHA是一個比對器; 因此,其任務(wù)是向每個全長查詢序列報告它們在何處以及如何匹配參考序列集合中的每個 條目。該SSAHA方法是在全長查詢序列上尋找盡可能多的匹配。在數(shù)據(jù)庫中的序列通過分 解為k個連續(xù)堿基的連續(xù)k-字被預(yù)處理,然后使用哈希表來存儲每個k-字每次出現(xiàn)的位 置。在數(shù)據(jù)庫中搜索查詢序列是通過從哈希表取得對查詢序列中每個k-字的"命中",然后 對結(jié)果進(jìn)行分選而完成。該SSAHA算法用于高通量單核苷酸多態(tài)性檢測和超大規(guī)模序列組 裝。在SSAHA中,每個k-字的存在和位置被存儲在同一查找結(jié)構(gòu)中,該結(jié)構(gòu)加載到計算機(jī) 系統(tǒng)的存儲設(shè)備中。
[0008] 已知的映射或比對算法和程序包括諸如Erland、Corona、BFAST、Bowtie、BWA、 NovoAlign的方法。它們的目標(biāo)是在已知的參考中找到讀段位置。推而廣之,可以將無法找 到匹配的讀段標(biāo)記為并非來自該序列。這些程序和算法也存在搜索時間長的缺點(diǎn),因為它 們都評估查詢集中的每個序列(即每一測序讀段),并且因為它們試圖找到對于它們所有 的最佳比對(在用短讀段進(jìn)行時往往被稱作比對)。有趣的是,因為上面的程序都使用啟發(fā) 式來以精確性換取速度,因此它們所找到的結(jié)果并不相同。
[0009] US 2006286566公開了使用k-mer檢測突變的方法。該方法涉及通過比較靶核酸 序列的一部分與第二序列節(jié)段,檢測與靶核酸序列部分的匹配來檢測靶核酸序列中的明顯 突變。
[0010] US2012000411中公開了能夠表征樣品內(nèi)的有機(jī)體群體的系統(tǒng)和方法,這是基于對 短序列信息串的匹配以從參考基因組數(shù)據(jù)庫中識別基因組。該專利申請沒有公開這樣的方 法,即其中在一個參考序列中的短串集合中搜索短串的存在和在參考序列中的位置的另一 集合中搜索位置。
[0011] 發(fā)明概述
[0012] 本發(fā)明提供了一種用于識別原始序列來源,例如從測序儀獲得的DNA讀段(或短 讀段)或者從N-或C-端測序或從質(zhì)譜獲得的蛋白質(zhì)序列的新方法。該方法依賴于預(yù)先索 引的參考序列的集合和對傳入的生物序列(如來自測序儀的讀段)的查詢集評分的系統(tǒng), 和依賴于提交部分查詢集的系統(tǒng)。這可以通過使用基于客戶端-服務(wù)器的方法,以服務(wù)器 實體容納參考的集合并在客戶端提交查詢序列的子集同時進(jìn)行評分來完成。
[0013] 由本發(fā)明提供的方法,允許快速確定樣品中發(fā)現(xiàn)的不同DNA來源,并且不依賴于 關(guān)于來源序列的給定基因的完整序列以及參考序列的知識。
[0014] 短讀段,盡管并不代表其起源的完整參考,但帶有該參考的標(biāo)簽性信號。短讀段可 以進(jìn)一步被分解成子序列(稱為k-mer或k-字(k-tuple))并且那些k-mer搜索索引k-mer 的集合,以確定原始測序數(shù)據(jù)的來源。
[0015] 在第一方面,本發(fā)明涉及識別生物序列的可能來源的方法,該方法包括:
[0016] a)從一來源采樣序列或短讀段的子集,
[0017] b)將來自該子集的序列分段成k-mer,
[0018] c)針對包含參考序列的k-mer的數(shù)據(jù)庫,查詢來自所述子集的k-mer,
[0019] d)確定哪個(哪些)參考包含該k-mer,和
[0020] e)返回對可能的來源參考的描述。
[0021] 該方法比傳統(tǒng)的比對和映射算法具有若干優(yōu)點(diǎn),傳統(tǒng)的比對和映射算法關(guān)注于比 對全部的查詢集并因此需要將來自輸入裝置(如客戶端)的全序列傳輸?shù)娇梢詧?zhí)行比對的 數(shù)據(jù)庫和評分單元(如服務(wù)器)。根據(jù)本發(fā)明,只有序列的子集進(jìn)行分段并且查詢從而使數(shù) 據(jù)傳輸?shù)男枰钚』?。傳輸?shù)淖蛹梢允抢纾幌抻冢潭ù笮〉碾S機(jī)子集、過濾子集、 自適應(yīng)采樣、輸入和評分實體之間的迭代同步或異步對話,或者是它們的任意組合。
[0022] 相比于基于測序讀段組裝,或基因組構(gòu)建,隨后搜索的方法或者相比于在參照集 合中映射所有讀段的方法,本方法通過不試圖執(zhí)行全長比對以及通過在數(shù)據(jù)的子集上工作 而對電腦處理能力的需要大大減少,并且因此可以在幾秒鐘內(nèi)獲得結(jié)果。因此,本發(fā)明的方 法可使用客戶端-服務(wù)器的方式運(yùn)行,例如以具有較小的計算機(jī)處理能力(例如移動電話) 的平板或手持裝置作為客戶端。因為可以相對快地獲得對一個數(shù)據(jù)子集的結(jié)果,用于搜索 另外的數(shù)據(jù)子集所需的時間大大減少。這樣,相比于基于整個序列比對的常規(guī)方法,可以顯 著減少的時間段來確定樣品中的不同DNA來源的識別。
[0023] 在其最廣泛的方面,本發(fā)明涉及只查詢在數(shù)據(jù)庫中的存在。然而,在優(yōu)選的實施方 式中,也查詢數(shù)據(jù)庫中k-mer在參考序列中的位置,從而允許計算源k-mer的連續(xù)性并使評 估更加精確。生物體常常彼此遺傳相關(guān),本發(fā)明也能在參考序列的集合中找到近緣親本。
[0024] 在兩個單獨(dú)的數(shù)據(jù)庫或集合中編譯數(shù)據(jù)允許將在參考中搜索k-mer的存在與搜 索位置去關(guān)聯(lián)(decoupling),并考慮優(yōu)化,例如將盡可能多的對存在的搜索緩存到存儲器 中,在存儲器中的搜索可能比在持久性存儲設(shè)備中更快。如果發(fā)現(xiàn)存在k-mer,那么可進(jìn)行 位置搜索,并且如果在給定參考中存在足夠的時間,那么在輔助優(yōu)化步驟中進(jìn)行,。因此本 發(fā)明的一個優(yōu)選實施方式涉及一種識別生物序列的可能來源的方法,該方法包括:
[0025] a)從一來源米樣序列的子集,
[0026] b)將來自該子集的序列分段成k-mer,
[0027] c)針對包括參考序列的k-mer的第一集合,查詢來自所述子集的k-mer,
[0028] d)針對包括k-mer在參考序列中的位置的第二集合,查詢來自所述子集的k-mer,
[0029] e)確定哪個(哪些)參考包含該k-mer,和
[0030] f)返回對可能的來源參考的描述,
[0031] 其中包括參考序列的k-mer的集合與包括k-mer在參考序列中的位置的集合是分 開的。
[0032] 因此本發(fā)明的一個優(yōu)選實施方式涉及一種識別生物序列的可能來源的方法,該方 法包括:
[0033] a)從一來源采樣序列或短讀段的子集,
[0034] b)將來自該子集的序列分段成k-mer,
[0035] c)針對包括參考序列的k-mer的第一集合,查詢來自所述子集的k-mer,
[0036] d)針對包括k-mer在參考序列中的位置的第二集合,查詢來自所述子集的k-mer,
[0037] e)確定哪個(哪些)參考包含該k-mer,和
[0038] f)返回對可能的來源參考的描述,
[0039] 其中包括參考序列的k-mer的集合與包括k-mer在參考序列中的位置的集合是分 離的。
[0040] 本發(fā)明的一個顯著的特點(diǎn)是,一旦識別出可能的參考,那么將關(guān)于該可能的參考 的信息返回給用戶。返回的信息可以例如是關(guān)于可能的物種以及其起源或來源和/或該可 能的物種的全長基因組序列的信息。這允許用戶使用現(xiàn)有技術(shù)的比對或基因組構(gòu)建算法將 來自未知樣品的其余的原始讀段與參考序列進(jìn)行比對,以便識別小的變化,如突變和插入。
[0041] 在進(jìn)一步的方面,本發(fā)明涉及一種包括有參考序列的k-mer的數(shù)據(jù)庫,所述數(shù)據(jù) 庫包括:
[0042] a)來自參考序列的k-mer的第一集合,以及
[0043] b)每一 k-mer在該參考序列中的位置的第二集合。
[0044] 編譯兩個單獨(dú)的數(shù)據(jù)庫或集合中的數(shù)據(jù)允許將搜索k-mer在參考中的存在與搜 索位置去關(guān)聯(lián),并考慮優(yōu)化,例如將對存在的搜索盡可能多地緩存到存儲器中,在存儲器中 搜索可能比在持久性存儲設(shè)備中更快。如果發(fā)現(xiàn)存在k-mer,那么可進(jìn)行位置搜索,并且如 果在給定參考中存在足夠的時間,那么在輔助優(yōu)化步驟中進(jìn)行。
[0045] 在第三個方面,本發(fā)明涉及一種用于識別來源序列的可能來源的數(shù)據(jù)處理系統(tǒng), 該系統(tǒng)優(yōu)選包括:輸入裝置,中央處理單元,存儲器以及輸出裝置,其中所述數(shù)據(jù)處理系統(tǒng) 中存儲有表示當(dāng)執(zhí)行時使得根據(jù)本發(fā)明的方法得以被執(zhí)行的系列指令的數(shù)據(jù),該存儲器還 包括根據(jù)本發(fā)明的數(shù)據(jù)庫。
[0046] 圖3示出本發(fā)明的系統(tǒng)的一個實施方式的要點(diǎn)。要點(diǎn)是采樣是在"客戶端"執(zhí)行, 導(dǎo)致最少量的信息被傳輸。在圖中并未示出對最可能的參考的描述符的應(yīng)用。
[0047] 裝置(輸入、輸出、存儲器、CPU)可以是手持式、臺式、基于云和/或聯(lián)機(jī)的。
[0048] 優(yōu)選地,數(shù)據(jù)庫存儲在服務(wù)器上,并且輸入和輸出裝置是一個或多個客戶端,客戶 端和服務(wù)器經(jīng)由數(shù)據(jù)通信連接相連并且服務(wù)器的共享允許將參考的集合集中并且如果在 單獨(dú)的處理或者甚至是單獨(dú)的機(jī)器上運(yùn)行時,在整個客戶端的服務(wù)器中分配計算能力。在 這樣的實施方式中,客戶端可以包括使客戶端采樣來源序列的子集,將這些分段成k-mer, 并將這些傳輸?shù)椒?wù)器的一系列指令。
[0049] 客戶端可以進(jìn)一步包括一系列指令,所述指令允許客戶端與服務(wù)器對話以適應(yīng)或 中斷采樣程序或基于從服務(wù)器傳送到客戶端的序列,執(zhí)行將來源序列組裝成一個或多個更 大的序列。
[0050] 在一個實施中,系統(tǒng)經(jīng)由數(shù)據(jù)連接與測序設(shè)備相連接。
[0051] 在進(jìn)一步的方面,本發(fā)明涉及一種計算機(jī)軟件產(chǎn)品,含有一系列在執(zhí)行時使得本 發(fā)明的方法得以被執(zhí)行的指令,以及涉及一種集成電路產(chǎn)品,含有系列在執(zhí)行時使得本發(fā) 明的方法得以被執(zhí)行的指令。
【附圖說明】
[0052] 圖1、"存在"和"位置"數(shù)據(jù)庫的構(gòu)建。
[0053] 圖2、評分一組查詢DNA片段,通常是來自測序的原始讀段。
[0054] 圖3、本發(fā)明的系統(tǒng)的構(gòu)架的一般描述。
[0055] 圖4、根據(jù)改變讀段大小(行)和隨機(jī)置換率(列),在數(shù)據(jù)庫中用作查詢的747 個細(xì)菌基因組的平均排名(X軸)和排名的標(biāo)準(zhǔn)偏差(y軸)。
[0056] 圖5、索引和評分程序的具體實例的概述,其也被用于實施例1和2。(A)對參考序 列的集合索引過程中,非重疊的k-mer被索引為兩個不同的鍵值對存儲,一個將k-mer與發(fā) 現(xiàn)有它們('存在')的參考關(guān)聯(lián),一個將k-mer與其在發(fā)現(xiàn)有該k-mer的參考中的位置(' 位置')關(guān)聯(lián)。⑶當(dāng)處理查詢集中的測序讀段時,重疊的k-mer在"存在"存儲中查找。使 用重疊的k-mer允許相對迅速地解決讀段開始和參考序列開始(虛線)之間的錯配。在圖 中,只有k-mer的子集與索引步驟同相,因此僅有它們能在"存在"中找到。(C)對于給定的 讀段,將閾值僅僅施加到潛在足夠匹配該讀段的保留參考。使用例如在參考中的最小區(qū)域 內(nèi)最高集中度的k-mer,在查詢了"位置"存儲的最后步驟中解決了在大量含有不相交的分 散k-mer的參考的情況,例如針對哺乳動物基因組的細(xì)菌讀段。
[0057] 圖6、細(xì)菌讀段。對于在一組747個基因組中的每一個細(xì)菌基因組,模擬了幾個讀 段長度(50個核苷酸(nt)、75nt、100nt、150nt、200nt、250nt)和幾個置換錯誤率(0%、1%、 5%、10% )。將100個隨機(jī)讀段用于每個查詢并記錄列表中的正確參考的排名分布;排名1 意味著正確的參考是在列表的最上方。返回的命中的列表被設(shè)定為最大長度25并且如果 根本不在列表中那么就將該參考算作"未找到"。正確的測試細(xì)菌基因組的百分比表示為嵌 入每個板的右側(cè)的條。該圖表明,正如所料,隨著錯誤率增加,性能下降,同時也表明,長度 為50的讀段似乎具有相對降低的性能。相比于100個核苷酸的讀段,將讀段長度增加至超 過100個核苷酸僅帶來小的改進(jìn),并且對錯誤率的補(bǔ)償效應(yīng)有限。
[0058] 圖7、細(xì)菌讀段(讀段數(shù)目)。對于在一組747個基因組中的每一個細(xì)菌基因組,模 擬了幾個讀段長度(50nt、75nt、100nt、150nt、200nt、250nt)和幾個置換錯誤率(0%、1%、 5%、10% )。將100、200或300個隨機(jī)讀段用于每個查詢并記錄列表中的正確參考的排名 分布;排名1意味著正確的參考是在列表的最上方。曲線表不100、200和300個讀段。由 此可以看出,隨機(jī)樣品中的讀段數(shù)目從100個讀段增加到300個讀段使得性能相對較小的 增加。錯誤率或讀段長度具有更大的作用。
[0059] 圖8、細(xì)菌讀段,對于747個測試細(xì)菌基因組,執(zhí)行5次識別程序的一次迭代時,真 實參考的性能變異性,平均排名(排名,X軸)和排名的標(biāo)準(zhǔn)差(S rank, 7軸)。平均排名越 接近1,越接近完美的性能,并且排名的標(biāo)準(zhǔn)差越小,采樣效果的敏感性越小。為了提高清晰 度,當(dāng)測試的大量細(xì)菌基因組在散點(diǎn)圖上產(chǎn)生等于或接近坐標(biāo)時,使用六邊形分選并相應(yīng) 地著色該區(qū)域。各散點(diǎn)圖的右側(cè)豎條表示沒有前25個匹配內(nèi)的測試基因組的數(shù)目,并且與 六邊形分選以相同分級著色。嘗試了不同的讀段大?。ㄐ校┖湾e誤率(隨機(jī)置換,列),產(chǎn) 生散點(diǎn)圖矩陣。
[0060] 圖9、細(xì)菌讀段,同一物種。給出正確物種,也就是在我們的集合中屬于相同物種的 細(xì)菌的參考,而不