本發(fā)明涉及基因編輯結(jié)果檢測(cè),具體涉及一種用于基因編輯材料檢測(cè)的方法。
背景技術(shù):
1、基因編輯結(jié)果的檢測(cè)主要包括基于sanger測(cè)序的擴(kuò)增子檢測(cè)以及基于二代測(cè)序(next-generation?sequencing,ngs)的擴(kuò)增子檢測(cè)。sanger測(cè)序技術(shù)能檢測(cè)700到1000bp長(zhǎng)度大小的片段,且其準(zhǔn)確率高,因此sanger測(cè)序是目前基因型檢測(cè)的金標(biāo)準(zhǔn)。同時(shí),隨著生物信息學(xué)的發(fā)展,各種基于sanger測(cè)序的突變分析軟件也相繼得到開發(fā),如tide、ice、dsdecode等。但sanger測(cè)序一次只能檢測(cè)一個(gè)樣品,對(duì)于大規(guī)模樣本的基因型鑒定,其效率低,測(cè)序成本較高,且對(duì)于復(fù)雜的突變類型以及多倍體樣品,sanger測(cè)序難以檢測(cè)其結(jié)果,無(wú)法滿足目前各種科學(xué)研究對(duì)編輯材料基因型檢測(cè)的各種需求。2006年,ngs技術(shù)的發(fā)展解決了sanger測(cè)序通量低且無(wú)法檢測(cè)復(fù)雜突變類型的問題。其原理為將dna片段打斷后接上接頭,并固定在芯片上,通過添加含有熒光信號(hào)的dntp進(jìn)行擴(kuò)增,對(duì)熒光信號(hào)進(jìn)行檢測(cè)從而確定目的樣品的基因型。長(zhǎng)片段測(cè)序也稱為第三代測(cè)序技術(shù)(third-generationsequencing,tgs),主要分為單分子熒光測(cè)序技術(shù)以及納米孔單分子測(cè)序技術(shù),可檢測(cè)10kb以上的片段,對(duì)基因組大范圍的片段進(jìn)行覆蓋測(cè)序,因此能對(duì)大片段刪除、平鋪刪除等實(shí)驗(yàn)結(jié)果進(jìn)行檢測(cè)分析。即使長(zhǎng)片段測(cè)序在測(cè)序過程中會(huì)產(chǎn)生各種錯(cuò)誤,但能通過測(cè)序深度進(jìn)行校正,從而使其測(cè)序結(jié)果準(zhǔn)確率達(dá)99%以上。對(duì)于長(zhǎng)片段測(cè)序技術(shù),目前主要用于樣本的基因組組裝、甲基化檢測(cè)、基因組結(jié)構(gòu)變異檢測(cè)等方面,而未充分應(yīng)用到基因編輯變異類型分析中。
2、目前各種測(cè)序技術(shù)已十分成熟,且各種技術(shù)的不足能夠互相彌補(bǔ),成本也越來(lái)越低,這為基因編輯檢測(cè)提供了便利。但目前缺乏一種可以對(duì)大批量樣本進(jìn)行建庫(kù)的方法,使得對(duì)大批量基因編輯樣本的檢測(cè)需要花費(fèi)較高的成本和時(shí)間。同時(shí),分析測(cè)序結(jié)果需要一定的生物信息分析能力以及一定的計(jì)算機(jī)編程能力,而且需要學(xué)習(xí)不同軟件的使用方法等,這將耗費(fèi)大量的時(shí)間。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種用于基因編輯材料檢測(cè)的方法,該方法可快速對(duì)大批量樣本的基因編輯結(jié)果進(jìn)行檢測(cè),全方面檢測(cè)基因編輯材料中所有類型的突變,同時(shí)方便不熟練運(yùn)用各種計(jì)算機(jī)編程語(yǔ)言的科研人員能夠短時(shí)間內(nèi)對(duì)測(cè)序結(jié)果進(jìn)行分析。
2、一種用于基因編輯材料檢測(cè)的方法,包括:
3、構(gòu)建多種特異性識(shí)別序列;
4、根據(jù)所述特異性識(shí)別序列對(duì)基因片段進(jìn)行測(cè)序;
5、采用superdecode軟件對(duì)測(cè)序結(jié)果進(jìn)行突變分析。
6、優(yōu)選地,所述構(gòu)建多種特異性識(shí)別序列包括:
7、對(duì)樣本擴(kuò)增子添加position-barcode、plate-barcode和library-barcode特異性識(shí)別序列庫(kù);
8、position-barcode序列庫(kù)包括192種特異性的position-barcode序列,用于ngs建庫(kù)以及tgs建庫(kù)的特異性識(shí)別序列各96種;
9、plate-barcode序列庫(kù)包括102種特異性的plate-barcode序列,其中96種用于ngs建庫(kù),6種用于tgs建庫(kù);
10、所述library-barcode序列庫(kù)包括20種特異性的library-barcode序列,均用于ngs建庫(kù)。
11、優(yōu)選地,所述根據(jù)所述特異性識(shí)別序列對(duì)基因片段進(jìn)行測(cè)序包括:
12、對(duì)基因片段進(jìn)行sanger測(cè)序、ngs以及tgs。
13、優(yōu)選地,所述采用superdecode軟件對(duì)測(cè)序結(jié)果進(jìn)行突變分析包括對(duì)sanger測(cè)序結(jié)果進(jìn)行突變分析,具體為:
14、根據(jù)用戶輸入的文件和設(shè)置獲取當(dāng)前突變分析的第一項(xiàng)目信息;
15、利用dsd(degenerate?sequence?decoding)的測(cè)序重疊波峰圖解碼原理,讀取sanger測(cè)序結(jié)果中的重疊波峰;
16、基于序列分析軟件在野生型序列中查找對(duì)應(yīng)的序列,對(duì)擴(kuò)增子的sanger測(cè)序結(jié)果進(jìn)行突變分析,讀取目的樣本在靶點(diǎn)序列處的變異類型。
17、優(yōu)選地,所述采用superdecode軟件對(duì)測(cè)序結(jié)果進(jìn)行突變分析包括對(duì)ngs結(jié)果進(jìn)行突變分析,具體為:
18、根據(jù)用戶輸入的文件和設(shè)置獲取當(dāng)前突變分析的第二項(xiàng)目信息;
19、將雙端測(cè)序中成對(duì)的reads合并補(bǔ)全為完整的序列,并基于樣本的特異性識(shí)別序列拆分文庫(kù);
20、將reads對(duì)應(yīng)到特定樣本中,通過序列比對(duì)方法將樣本的reads與參考序列進(jìn)行比對(duì),獲得樣本的變異信息。
21、優(yōu)選地,所述采用superdecode軟件對(duì)測(cè)序結(jié)果進(jìn)行突變分析包括對(duì)tgs結(jié)果進(jìn)行突變分析,具體為:
22、根據(jù)用戶輸入的文件和設(shè)置獲取當(dāng)前突變分析的第三項(xiàng)目信息;
23、基于樣本的特異性識(shí)別序列拆分文庫(kù),將reads對(duì)應(yīng)到特定樣本中;
24、提取特定樣本所有reads中共有的序列,以去除測(cè)序?qū)е碌碾S機(jī)突變,最后利用序列比對(duì)方法將樣本的reads與參考序列進(jìn)行比對(duì),獲得樣本變異信息。
25、優(yōu)選地,所述根據(jù)用戶輸入的文件和設(shè)置獲取當(dāng)前解突變分析的第一項(xiàng)目信息包括:
26、所述第一項(xiàng)目信息包括:擴(kuò)增子野生型序列信息、樣本擴(kuò)增子的sanger測(cè)序結(jié)果文件、可選擇的第一設(shè)置條件。
27、優(yōu)選地,所述根據(jù)用戶輸入的文件和設(shè)置獲取當(dāng)前突變分析的第二項(xiàng)目信息包括:
28、所述第二項(xiàng)目信息包括:擴(kuò)增子野生型序列信息、基因編輯的靶向序列信息、樣本ngs結(jié)果信息、每個(gè)樣本對(duì)應(yīng)的特異性識(shí)別序列信息以及可選擇的第二設(shè)置條件;
29、所述可選擇的第二設(shè)置條件為對(duì)突變分析參數(shù)的設(shè)置,包括:
30、樣本分析模式,選擇包括diploid、polyploid以及l(fā)ow?frequency;
31、輸出閾值,用于設(shè)置結(jié)果輸出的閾值;
32、運(yùn)行線程數(shù),用于設(shè)置程序運(yùn)行所用線程數(shù),調(diào)節(jié)hidecode解碼運(yùn)行速度。
33、優(yōu)選地,所述根據(jù)用戶輸入的文件和設(shè)置獲取當(dāng)前突變分析的第三項(xiàng)目信息包括:
34、所述第三項(xiàng)目信息包括:擴(kuò)增子野生型序列信息、基因編輯的靶向序列信息、樣本tgs結(jié)果信息、每個(gè)樣本對(duì)應(yīng)的特異性識(shí)別序列信息以及可選擇的第三設(shè)置條件;
35、所述可選擇的第三設(shè)置條件為對(duì)突變分析參數(shù)的設(shè)置,包括:
36、樣本分析模式,選擇包括diploid、polyploid以及l(fā)ow?frequency;
37、輸出閾值,用于設(shè)置結(jié)果輸出的閾值;
38、運(yùn)行線程數(shù),用于設(shè)置程序運(yùn)行所用線程數(shù),調(diào)節(jié)ladecode解碼運(yùn)行速度。
39、一種用于基因編輯材料檢測(cè)的系統(tǒng),包括:
40、數(shù)據(jù)獲取模塊,用于構(gòu)建多種特異性識(shí)別序列;
41、測(cè)序模塊,用于根據(jù)所述特異性識(shí)別序列對(duì)基因片段進(jìn)行測(cè)序;
42、分析模塊,用于采用superdecode軟件對(duì)測(cè)序結(jié)果進(jìn)行突變分析。
43、本發(fā)明的有益效果在于:1.本發(fā)明基于pcr擴(kuò)增的方法,對(duì)基因編輯材料進(jìn)行擴(kuò)增子的構(gòu)建,以及特異性識(shí)別序列的引入,快速且低成本的實(shí)現(xiàn)了大批量樣本的ngs以及tgs的建庫(kù);2.本發(fā)明開發(fā)用于基因編輯材料檢測(cè)的軟件superdecode,可對(duì)目前常用的sanger、ngs以及tgs結(jié)果進(jìn)行突變分析,可檢測(cè)樣本中所有類型的突變,包括大片段刪除、序列插入、單堿基突變、嵌合突變等;3.本發(fā)明開發(fā)的superdecode為window平臺(tái)軟件,相對(duì)于網(wǎng)頁(yè)版工具,superdecode可快速讀取大量樣本的測(cè)序結(jié)果文件,并進(jìn)行突變分析。對(duì)于linux系統(tǒng)的工具,superdecode提供了方便簡(jiǎn)潔的操作化界面,方便科研人員的使用,極大提高了基因編輯材料檢測(cè)的效率。