欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

超快速檢測人類基因組單堿基突變和微插入缺失的方法

文檔序號:8442353閱讀:1000來源:國知局
超快速檢測人類基因組單堿基突變和微插入缺失的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及生物醫(yī)學(xué)數(shù)據(jù)分析領(lǐng)域,具體涉及一種超快速檢測人類基因組單堿基突變和微插入缺失的方法。
【背景技術(shù)】
[0002]基因是遺傳的物質(zhì)基礎(chǔ),生命體一切生命活動(生老病死),基因都起著重要的基礎(chǔ)作用。隨著人類基因組計劃、國際單體型計劃、千人基因組計劃的順利完成,特別是高通量測序技術(shù)(High Through-put Sequencing)的迅猛發(fā)展、日臻成熟,越來越多的遺傳多態(tài)性位點(主要是單堿基突變和微插入缺失)與疾病健康的關(guān)系被陸續(xù)發(fā)現(xiàn)。目前,人們已經(jīng)可以通過比較低廉的價格來對人類的基因組進行測序、分析,獲得該個體的這些多態(tài)性位點在全基因組水平上的基因型。有了這些遺傳信息,可以輔助醫(yī)生們對可疑病患的確診(某些疾病上),告訴醫(yī)生哪個藥物對該病患的療效最好,甚至告訴人們自己對哪些疾病具有較高的罹患風(fēng)險。這些都是個體化醫(yī)療的明天,而廉價、快速地獲取上訴多態(tài)性的信息則成為了個體化醫(yī)療的關(guān)鍵和基礎(chǔ)所在。
[0003]為了達到上述目的,人們構(gòu)建了相關(guān)的人重測序分析的方法,該系統(tǒng)一般要求對人的全基因組達到起碼30X的覆蓋深度,也就是大概90G堿基的輸入數(shù)據(jù)量(一般以FASTQ格式存儲)。在計算機分析資源充足的情況下,該流程從輸入FASTQ文件到最終得到突變(或說遺傳多態(tài)性)結(jié)果,起碼需要7天的時間,在不考慮基因測序的時間下,這樣較長的數(shù)據(jù)分析時間已經(jīng)遠遠超出了目前大多數(shù)的醫(yī)學(xué)檢測服務(wù)周期,也與個體化醫(yī)療中應(yīng)有的“快速”的特性不符。
[0004]人們?yōu)榱丝s短人重測序的分析周期,有的從最耗費時間的序列比對入手,通過運用基于GPU的CUDA架構(gòu)來進行序列比對,然而這樣做卻無法檢測到微插入與缺失,而且時效提高也沒有太多,最多是讓序列比對這個步驟比之前的快了 3倍。況且其他耗費時間的步驟沒有得到提升,故對整體流程分析時間的縮短比較有限。
[0005]另外一種思路是,對于主要耗費時間的關(guān)鍵步驟,運用基于分布式的存儲架構(gòu),把一個復(fù)雜的任務(wù)切分成多份來分析,從而大幅降低該步驟的分析時間。這個方法是可以實現(xiàn)分析周期的大大縮短,但是該方法限制較大,對計算資源的要求較高。主要表現(xiàn)在:需要搭建分布式的存儲架構(gòu),而且每一個小份任務(wù)對內(nèi)存的要求幾乎與整一個任務(wù)的無異,故需要大量的計算機內(nèi)存資源。

【發(fā)明內(nèi)容】

[0006]為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提出一種超快速檢測人類基因組單堿基突變和微插入缺失的方法,本方法通過對人基因組參考序列科學(xué)巧妙地切分,對人重測序分析的整體目標,從串行或部分并行地在大小為3G的人基因組參考序列中尋找基因組多態(tài)性事件,改為從參考序列的各個可合并小塊中,并行化地進行分析,最后通過去除冗余和失真信息,從而獲得全基因組水平的多態(tài)性信息(主要是單堿基突變和微插入缺失的信息)。
[0007]為了解決上述問題,本發(fā)明的技術(shù)方案為:
[0008]一種超快速檢測人類基因組單堿基突變和微插入缺失的方法,包括:
[0009]獲取人全基因組序列的測序結(jié)果,對人類基因組DNA樣品進行擴增、建庫和測序處理,得到人的全基因組測序結(jié)果;
[0010]對得到的人全基因組測序結(jié)果進行來料質(zhì)控,以確保測序得到的序列,其測序質(zhì)量符合進行信息分析的要求;
[0011]對來料質(zhì)控后的人的全基因組測序結(jié)果進行過濾接頭、低質(zhì)量處理,得到已過濾序列,對已過濾序列進行來料質(zhì)控,以確定這些可用的已過濾序列從質(zhì)與量上符合信息分析的標準;
[0012]將人參考基因組切分成若干小塊的參考基因組塊,且對每一小塊分別建立適用于比對軟件的二進制索引庫;
[0013]將上述待比對序列,序列比對到切分好的某參考基因組塊,對其進行人重測序生物信息分析,得到測序序列在該參考基因組塊中的比對結(jié)果;
[0014]對該比對結(jié)果進行排序、重比對、比對質(zhì)量與比對得分值校正,得到修正后的比對結(jié)果;
[0015]對修正后的比對結(jié)果進行去重,得到能夠用于檢測遺傳多態(tài)性的比對結(jié)果文件;
[0016]基于該結(jié)果文件,檢測該參考基因組塊中的某個小塊的遺傳多態(tài)性SNP和Indel ;然后分別對該參考基因組塊中其他小塊進行同樣的分析;不同參考基因組塊的分析能夠并行處理,且相互不影響;上述所有分析都完成后,得到若干個分別對應(yīng)于參考基因組塊的遺傳多態(tài)性結(jié)果;
[0017]對上述遺傳多態(tài)性的結(jié)果進行合并,得到全基因組的遺傳多態(tài)性結(jié)果;對得到全基因組的遺傳多態(tài)性結(jié)果進行校正、過濾,并對過濾后的多態(tài)性結(jié)果進行結(jié)果質(zhì)控,以確定該結(jié)果是正常無誤的人的遺傳多態(tài)性結(jié)果。
[0018]本發(fā)明要解決的技術(shù)問題,是提供一種能從人基因組DNA測序結(jié)果中快速地檢測出單堿基突變、微插入缺失的可行方法。該方法,通過把人參考基因組序列科學(xué)有效地切分為小的子參考序列塊,把人重測序中的幾乎全部步驟(包括分析時間較長的步驟)都切分為計算復(fù)雜度大大降低的子任務(wù)塊。而各子任務(wù)塊之間相互不影響,最終通過一定規(guī)則和算法,把從各子參考序列塊中得到的遺傳多態(tài)性信息進行去冗余、校正,然后過濾,從而得到原人重測序流程中需要獲取的遺傳多態(tài)性信息。解決了人重測序生物信息分析時間過長的問題,開創(chuàng)了一種新的分析模式。
[0019]優(yōu)選的,所述將人參考基因組切分成若干小塊的參考基因組塊的具體過程為:是根據(jù)人參考基因組各染色體長度、基因組中的N序列區(qū)的分布、基因分布,對參考基因組序列進行切分,得到若干塊各自獨立又互有聯(lián)系的原參考基因組的小塊。繼而分別對這些小塊,根據(jù)后續(xù)所用到的比對軟件建立二進制索引庫。
[0020]優(yōu)選的,所述對得到的人全基因組測序結(jié)果進行來料質(zhì)控,是對不同測序長度的測序結(jié)果分別以下述指標進行質(zhì)控,以保障測序結(jié)果的序列符合人重測序流程分析對于測序數(shù)據(jù)的最低質(zhì)量標準,其指標包括:
[0021]Q20、Q30的百分率,測序錯誤率,AT-GC分離率,每個位置在整體序列中被測出為N的比例。
[0022]優(yōu)選的,所述對來料質(zhì)控后的人的全基因組測序結(jié)果進行過濾接頭、低質(zhì)量處理,得到待比對的序列的具體方式為:是將測序結(jié)果中含有的、由測序建庫過程中引入的接頭序列去除,將平均測序質(zhì)量低的小部分序列予以去除。判斷測序質(zhì)量是否偏低,一般的閾值為平均測序錯誤率>3%,可根據(jù)具體分析項目來靈活變動,建議閾值起碼為5%。
[0023]優(yōu)選的,所述對已過濾序列進行來料質(zhì)控的過程具體是:
[0024]對經(jīng)過過濾得到的可用數(shù)據(jù)量占原數(shù)據(jù)量的比率進行統(tǒng)計及質(zhì)控,用于判定此次測序結(jié)果的可用率是否達到測序服務(wù)的標準;
[0025]若無法達到,且數(shù)據(jù)量經(jīng)過大致推算后,符合至少30X覆蓋度的指標,則仍能夠用該數(shù)據(jù)進行后續(xù)分析處理;否則,則需加測或重測,以達到對數(shù)據(jù)量的最低要求。
[0026]下面所說的步驟,均為把上述所說的經(jīng)過濾后得到的待比對序列,并行化地對于切分好的各參考基因組小塊進行生物信息分析。
[0027]本發(fā)明提供的超快速檢測人類基因組多態(tài)性和微缺失的方法,在人重測序生物信息分析步驟中,包含、但卻不硬性包含以下子步驟:
[0028]對經(jīng)過濾處理后得到的待比對的序列,采用并行的方式對切分好的參考基因組塊進行分析,其具體過程為:
[0029](I)序列比對,把測序結(jié)果比對到某參考基因組的分塊中;該步驟中,還需要根據(jù)具體測序類型、測序序列長度、測序建庫策略及多態(tài)性檢測要求設(shè)置相適宜的比對參數(shù);
[0030](2)排序,將上述步驟(I)得到的比對結(jié)果按照染色體和比對坐標排序,其中比對坐標排序按從小到大排序;
[0031](3)重比對、比對質(zhì)量與比對得分值校正,首先找出比對區(qū)域中多態(tài)性位點出現(xiàn)多的區(qū)域,對該區(qū)域的比對結(jié)果進行優(yōu)化,對比對結(jié)果由于高頻SNP、Indel的存在而比對得分低的情況予以校正;
[0032](4)去重,由同一個DNA分子通過PCR擴增而來的其他分子,相對于原模板分子而言,都是冗余的數(shù)據(jù),故在進行信息分析的時候需要予以區(qū)分并標記,在多態(tài)性檢測的時候與其他非冗余的數(shù)據(jù)予以區(qū)分對待;
[0033](5) SNP檢測,基于上述步驟(4)生成的比對結(jié)果,對該基因組塊區(qū)域進行SNP檢測,得到該參考基因組塊上的SNP檢測結(jié)果;
[0034](6) Indel檢測,基于上述步驟(4)生成的比對結(jié)果,對該基因組塊區(qū)域進行Indel檢測,得到該參考基因組塊上的Indel檢測結(jié)果。
[0035]對于上述步驟,可以根據(jù)具體分析要求和數(shù)據(jù)特點來適當(dāng)修改或增刪,并不僅僅局限于上述所示的步驟。待比對序
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平昌县| 商洛市| 六安市| 兰州市| 城固县| 武安市| 塔河县| 碌曲县| 儋州市| 揭阳市| 潢川县| 深泽县| 措勤县| 苏尼特右旗| 舞阳县| 天镇县| 兴城市| 屯留县| 南漳县| 盐亭县| 桂阳县| 佛山市| 中方县| 渝北区| 西盟| 柘城县| 柳州市| 黄骅市| 抚州市| 老河口市| 赤城县| 新安县| 巴林左旗| 辽阳县| 大悟县| 杭锦后旗| 化州市| 孝义市| 关岭| 涟源市| 沭阳县|