一種基于三代PacBio測(cè)序數(shù)據(jù)的補(bǔ)洞方法
【專利摘要】本發(fā)明提出了一種基于三代PacBio測(cè)序數(shù)據(jù)的補(bǔ)洞方法,大大降低了補(bǔ)洞過(guò)程中的比對(duì)時(shí)間,基因組補(bǔ)洞的速度得到明顯提高。通過(guò)相應(yīng)軟件,將三代PacBio測(cè)序數(shù)據(jù)比對(duì)上基因組中洞的兩端,截取比對(duì)上的三代PacBio測(cè)序數(shù)據(jù)的部分區(qū)域,并依據(jù)該數(shù)據(jù)所屬的洞對(duì)截取的數(shù)據(jù)進(jìn)行聚類(lèi),使用dazcon軟件進(jìn)行糾錯(cuò),用糾錯(cuò)后的數(shù)據(jù)進(jìn)行序列連接。
【專利說(shuō)明】
-種基于H代PacB i O測(cè)序數(shù)據(jù)的補(bǔ)洞方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及生物信息技術(shù)領(lǐng)域,具體設(shè)及DNA組裝的補(bǔ)桐方法,它使用S代化CBio 測(cè)序數(shù)據(jù)來(lái)進(jìn)行基因組數(shù)據(jù)的補(bǔ)桐。
【背景技術(shù)】
[0002] S代化CBiO測(cè)序W長(zhǎng)讀長(zhǎng)著稱,目前測(cè)序使用的P6-C4試劑,可使測(cè)序數(shù)據(jù)的平均 讀長(zhǎng)達(dá)到10-1化,并且測(cè)序沒(méi)有明顯的GC偏向性,理論上能很好地對(duì)基因組進(jìn)行補(bǔ)桐。目前 基于S代化CBio測(cè)序數(shù)據(jù)補(bǔ)桐的軟件,有PBjelly,但它是基于blasr比對(duì)軟件的,由于 blasr軟件比對(duì)速度非常慢,導(dǎo)致整個(gè)構(gòu)建scaffold的時(shí)間也非常漫長(zhǎng)。特別是對(duì)于大于IG 的基因組,測(cè)序深度大于IOX的情況,通常需要耗費(fèi)幾個(gè)月的時(shí)間。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是解決W上提出的問(wèn)題,提出了一種基于S代化CBiO測(cè)序數(shù)據(jù)的補(bǔ) 桐方法,大大降低了補(bǔ)桐過(guò)程中的比對(duì)時(shí)間,基因組補(bǔ)桐的速度得到明顯提高。通過(guò)相應(yīng)軟 件,將S代化CBio測(cè)序數(shù)據(jù)比對(duì)上基因組中桐的兩端,截取比對(duì)上的S代化CBio測(cè)序數(shù)據(jù) 的部分區(qū)域,并依據(jù)該數(shù)據(jù)所屬的桐對(duì)截取的數(shù)據(jù)進(jìn)行聚類(lèi),使用dazcon軟件進(jìn)行糾錯(cuò),用 糾錯(cuò)后的數(shù)據(jù)進(jìn)行序列連接。
[0004] 本發(fā)明是通過(guò)W下技術(shù)方案實(shí)現(xiàn)的:
[0005] 本發(fā)明是一種基于S代化CBio測(cè)序數(shù)據(jù)的補(bǔ)桐方法,所述補(bǔ)桐方法包括W下步 驟:
[0006] (1)從contig 中提取 unique-kmer;
[0007] (2)使用unique-kmer作為seed,進(jìn)行比對(duì),并截取比對(duì)上的區(qū)域;
[000引(3)對(duì)比對(duì)上的區(qū)域進(jìn)行聚類(lèi)和糾錯(cuò);
[0009] (4)使用糾錯(cuò)后的數(shù)據(jù)進(jìn)行連接。
[0010] 作為優(yōu)化,在步驟(1)使用Jell^ish軟件對(duì)二代Illumina測(cè)序數(shù)據(jù)進(jìn)行k-mer統(tǒng) 計(jì),把出現(xiàn)一次的k-mer作為unique-kmer,使用比特文件或GATB開(kāi)源包,對(duì)運(yùn)些unique- kmer 進(jìn)行存儲(chǔ)。
[0011] 作為優(yōu)化,對(duì)于k《17,使用一個(gè)大小為2G的比特文件(*.bit文件)來(lái)存儲(chǔ),而對(duì)于 k> 17的情況,把unique-kmer存入GATB開(kāi)源包中的(*.h5)文件中。
[0012] 作為優(yōu)化,所述步驟(2)包括W下步驟:
[0013] 2.1 使用unique-kmer 作為seed;
[0014] 2.2事先對(duì)seed的比對(duì)關(guān)系進(jìn)行聚類(lèi),算出最優(yōu)的比對(duì)范圍;
[0015] 如果兩條read能比對(duì)得上,那么它們具有共線性,并且運(yùn)些seed之間的斜率為1, 將聚到最多點(diǎn)的直線作為比對(duì)上的區(qū)域。
[0016] 2.3分區(qū)域進(jìn)行比對(duì);
[0017] 首先將比對(duì)的整體區(qū)域劃分成IOObp的小區(qū)域,假設(shè)劃分為n個(gè)區(qū)域,共有a個(gè)堿 基,再對(duì)運(yùn)些小區(qū)域進(jìn)行LCS相似度計(jì)算,假設(shè)相似度大于0.8的區(qū)域有b個(gè),運(yùn)些小區(qū)域總 體的相似堿基為C個(gè),分W下兩個(gè)維度評(píng)價(jià)相似度:
[001引區(qū)域相似度=b/n
[0019] 堿基相似度=c/a
[0020] 最后只保留兩個(gè)評(píng)價(jià)相似度的值都大于0.7的比對(duì)數(shù)據(jù)。
[0021] 作為優(yōu)化,所述步驟(3)和(4)包括W下步驟:
[0022] 3.1將比對(duì)上的區(qū)域前后延伸一定長(zhǎng)度(可W設(shè)定為5(K)bp)進(jìn)行截取,并記錄運(yùn)個(gè) 區(qū)域所對(duì)應(yīng)的桐;
[002引3.2將截取的區(qū)域,按所屬的桐進(jìn)行聚類(lèi);
[0024] 3.3對(duì)每一個(gè)聚類(lèi)的數(shù)據(jù)使用dazcon軟件進(jìn)行糾錯(cuò),再對(duì)數(shù)據(jù)進(jìn)行連接。
[0025] 與現(xiàn)有的軟件相比,本方法的優(yōu)點(diǎn)在于:
[0026] 1、從contig中提取出uni que -kmer,提高準(zhǔn)確率,降低對(duì)比時(shí)間。
[0027] 在基因組中,存在許多重復(fù)序列,有些短重復(fù)序列甚至出現(xiàn)成百上千次,從而會(huì)影 響比對(duì)軟件的準(zhǔn)確度,增加比對(duì)的時(shí)間。為了提高比對(duì)的準(zhǔn)確度,降低比對(duì)時(shí)間,本法提取 在contig中只出現(xiàn)一次的k-mer,作為unique-kmer,在比對(duì)中只用unique-kmer作為比對(duì)使 用的seed。運(yùn)里使用扣11鐘1311軟件來(lái)進(jìn)行4-1]1日1'統(tǒng)計(jì),并篩選出11]11911日-1〇]161'。
[002引2、將S代化CBio測(cè)序數(shù)據(jù)比對(duì)上基因組中桐的兩端,并截取數(shù)據(jù),節(jié)約內(nèi)存,節(jié)約 對(duì)比時(shí)間,提高準(zhǔn)確度。
[0029] 很多比對(duì)方法,都使用了最長(zhǎng)公共子序列化CS)的算法,本法進(jìn)行比對(duì),也是使用 運(yùn)個(gè)算法,但是做了 W下=方面的改進(jìn):
[0030] 1)使用unique-kmer 作為seed
[0031] 2)事先對(duì)seed的比對(duì)關(guān)系進(jìn)行聚類(lèi),算出最優(yōu)的比對(duì)范圍。
[0032] 如果兩條read能比對(duì)得上,那么它們具有共線性,并且運(yùn)些seed之間的斜率為1。 我們將聚到最多點(diǎn)的直線作為比對(duì)上的區(qū)域。
[0033] 3)分區(qū)域進(jìn)行比對(duì)。
[0034] 大多比對(duì)軟件都是直接對(duì)整體區(qū)域進(jìn)行最長(zhǎng)公共子序列化CS)計(jì)算,但對(duì)于較大 的比對(duì)區(qū)域來(lái)說(shuō),例如大于IOOk的比對(duì)區(qū)域,對(duì)整體區(qū)域進(jìn)行計(jì)算,不僅浪費(fèi)內(nèi)存而且會(huì)耗 費(fèi)大量時(shí)間。本法所做的改進(jìn)解決了 W上問(wèn)題,同時(shí)準(zhǔn)確度也得到明顯的提升。
[0035] 對(duì)于進(jìn)行比對(duì)的S代化Cbio測(cè)序數(shù)據(jù),選取比對(duì)上的區(qū)域兩端各自延伸一定長(zhǎng)度 (通常設(shè)定為500bp)的部分進(jìn)行截取,運(yùn)樣就可W保證S代化CBio測(cè)序數(shù)據(jù)與比對(duì)上的桐 兩端的DNA序列有共同的區(qū)域。
[0036] 3、對(duì)比對(duì)上的S代化CBio測(cè)序數(shù)據(jù)進(jìn)行聚類(lèi),糾錯(cuò)并連接,節(jié)約糾錯(cuò)時(shí)間。
[0037] 將上一步驟截取的數(shù)據(jù)依據(jù)各自所屬的桐進(jìn)行聚類(lèi),使用dazcon軟件對(duì)每個(gè)桐的 聚類(lèi)數(shù)據(jù)糾錯(cuò),并依據(jù)糾錯(cuò)后的數(shù)據(jù)和桐兩端的存在的共同序列,進(jìn)行序列連接,完成補(bǔ) 桐。運(yùn)樣做的優(yōu)點(diǎn)是只對(duì)桐的區(qū)域進(jìn)行糾錯(cuò),不必對(duì)整條序列進(jìn)行糾錯(cuò),從而大大地節(jié)約了 糾錯(cuò)時(shí)間。
【附圖說(shuō)明】
[003引圖1:本發(fā)明流程圖。
【具體實(shí)施方式】
[0039] 下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行進(jìn)一步詳細(xì)說(shuō)明:
[0040] 實(shí)施例:
[0041 ] 1、從Cont ig中提取 unique-kmer,在步驟(1)使用 JellWish 軟件對(duì)二代I Ilumina 測(cè)序數(shù)據(jù)進(jìn)行k-mer統(tǒng)計(jì),把出現(xiàn)一次的k-mer作為unique-kmer,對(duì)于k《17,使用一個(gè)大小 為2G的比特文件(*. bit文件)來(lái)存儲(chǔ),而對(duì)于k> 17的情況,把unique-kmer存入GATB開(kāi)源包 中的(*.h5)文件中。其中,將所有的數(shù)據(jù)打斷成長(zhǎng)度為k的片斷稱為k-mer,二代Illumina測(cè) 序數(shù)據(jù)是指通過(guò)111皿ina公司測(cè)序儀獲得的二代測(cè)序數(shù)據(jù)。
[0042] 根據(jù)上述方法編寫(xiě)了程序,用法如下:
[0043]
[0044]
[0049] 因?yàn)檫x取k = 17,將結(jié)果存入比特文件中:kl7.bit
[(K)加]2、使用unique-kmer作為seed,進(jìn)行比對(duì),并截取比對(duì)上的區(qū)域;
[0化1] 2.1 使用unique-kmer 作為seed;
[0052] 2.2事先對(duì)seed的比對(duì)關(guān)系進(jìn)行聚類(lèi),算出最優(yōu)的比對(duì)范圍;
[0053] 如果兩條read能比對(duì)得上,那么它們具有共線性,并且運(yùn)些seed之間的斜率為1, 將聚到最多點(diǎn)的直線作為比對(duì)上的區(qū)域。
[0化4] 2.3分區(qū)域進(jìn)行比對(duì)。
[0055]首先將比對(duì)的整體區(qū)域劃分成IOObp的小區(qū)域,假設(shè)劃分為n個(gè)區(qū)域,共有a個(gè)堿 基,再對(duì)運(yùn)些小區(qū)域進(jìn)行LCS相似度計(jì)算,假設(shè)相似度大于0.8的區(qū)域有b個(gè),運(yùn)些小區(qū)域總 體的相似堿基為C個(gè),分W下兩個(gè)維度評(píng)價(jià)相似度:
[0化6]區(qū)域相似度=b/n [0化7] 堿基相似度=c/a
[005引最后只保留兩個(gè)評(píng)價(jià)相似度的值都大于0.7的比對(duì)數(shù)據(jù)。
[0059] 3、對(duì)比對(duì)上的區(qū)域進(jìn)行聚類(lèi)和糾錯(cuò),使用糾錯(cuò)后的數(shù)據(jù)進(jìn)行連接。
[0060] 3.1將比對(duì)上的區(qū)域前后延伸一定長(zhǎng)度(可W設(shè)定為50化p)進(jìn)行截取,并記錄運(yùn)個(gè) 區(qū)域所對(duì)應(yīng)的桐;
[0061] 3.2將截取的區(qū)域,按所屬的桐進(jìn)行聚類(lèi);
[0062] 3.3對(duì)每一個(gè)聚類(lèi)的數(shù)據(jù)使用dazcon軟件進(jìn)行糾錯(cuò),再對(duì)數(shù)據(jù)進(jìn)行連接。
[0063] 根據(jù)上述比對(duì)和補(bǔ)桐的方法,講比對(duì)和補(bǔ)桐方法寫(xiě)成一個(gè)流程,方便調(diào)用,用法如 下:
[00641
[(
[(
[0067]
[0068] W上所述的僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域中的普通技 術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明核屯、技術(shù)特征的前提下,還可W做出若干改進(jìn)和潤(rùn)飾,運(yùn)些改 進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于三代PacBio測(cè)序數(shù)據(jù)的補(bǔ)洞方法,其特征在于,所述補(bǔ)洞方法包括以下步 驟: (1) 從 contig 中提取 un i que-kmer; (2) 使用unique-kmer作為seed,進(jìn)行比對(duì),并截取比對(duì)上的區(qū)域; (3) 對(duì)比對(duì)上的區(qū)域進(jìn)行聚類(lèi)和糾錯(cuò); (4) 使用糾錯(cuò)后的數(shù)據(jù)進(jìn)行連接。2. 根據(jù)權(quán)利要求書(shū)1所述的基于三代PacBio測(cè)序數(shù)據(jù)的補(bǔ)洞方法,其特征在于,在步驟 ⑴使用Jellyfish軟件對(duì)二代Illumina測(cè)序數(shù)據(jù)進(jìn)行k-mer統(tǒng)計(jì),把出現(xiàn)一次的k-mer作為 unique-kmer,使用比特文件或GATB開(kāi)源包,對(duì)這些unique-kmer進(jìn)行存儲(chǔ)。3. 根據(jù)權(quán)利要求書(shū)2所述的基于三代PacBio測(cè)序數(shù)據(jù)的補(bǔ)洞方法,其特征在于,對(duì)于k 彡17,使用一個(gè)大小為2G的比特文件(*.bit文件)來(lái)存儲(chǔ),而對(duì)于k>17的情況,把unique-kmer存入GATB開(kāi)源包中的(*. h5)文件中。4. 根據(jù)權(quán)利要求書(shū)1所述的基于三代PacBio測(cè)序數(shù)據(jù)的補(bǔ)洞方法,其特征在于,所述步 驟(2)包括以下步驟: 2 · 1使用unique-kmer作為seed; 2.2事先對(duì)seed的比對(duì)關(guān)系進(jìn)行聚類(lèi),算出最優(yōu)的比對(duì)范圍; 如果兩條read能比對(duì)得上,那么它們具有共線性,并且這些seed之間的斜率為1,將聚 到最多點(diǎn)的直線作為比對(duì)上的區(qū)域。 2.3分區(qū)域進(jìn)行比對(duì); 首先將比對(duì)的整體區(qū)域劃分成l〇〇bp的小區(qū)域,假設(shè)劃分為η個(gè)區(qū)域,共有a個(gè)堿基,再 對(duì)這些小區(qū)域進(jìn)行LCS相似度計(jì)算,假設(shè)相似度大于0.8的區(qū)域有b個(gè),這些小區(qū)域總體的相 似堿基為c個(gè),分以下兩個(gè)維度評(píng)價(jià)相似度: 區(qū)域相似度= b/n 堿基相似度= c/a 最后只保留兩個(gè)評(píng)價(jià)相似度的值都大于0.7的比對(duì)數(shù)據(jù)。5. 根據(jù)權(quán)利要求書(shū)1所述的基于三代PacBio測(cè)序數(shù)據(jù)的補(bǔ)洞方法,其特征在于,所述步 驟(3)和(4)包括以下步驟: 3.1將比對(duì)上的區(qū)域前后延伸一定長(zhǎng)度進(jìn)行截取,并記錄這個(gè)區(qū)域所對(duì)應(yīng)的洞; 3.2將截取的區(qū)域,按所屬的洞進(jìn)行聚類(lèi); 3.3對(duì)每一個(gè)聚類(lèi)的數(shù)據(jù)使用dazcon軟件進(jìn)行糾錯(cuò),再對(duì)數(shù)據(jù)進(jìn)行連接。
【文檔編號(hào)】G06F19/24GK106022002SQ201610325767
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月17日
【發(fā)明人】詹東亮, 蔡慶樂(lè), 王兆寶, 羅亞丹, 范崇儀, 王軍, 王軍一, 范玉美
【申請(qǐng)人】杭州和壹基因科技有限公司