確定混合測序數(shù)據(jù)中讀段的樣本源的方法及裝置制造方法

文檔序號：485737閱讀：305來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>食品,飲料機(jī)械,設(shè)備的制造及其制品加工制作,儲藏技術(shù)

確定混合測序數(shù)據(jù)中讀段的樣本源的方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種確定混合測序數(shù)據(jù)中讀段的樣本源的方法及裝置，混合測序數(shù)據(jù)由多個讀段組成，該方法包括：利用多個標(biāo)簽分別標(biāo)記多個核酸樣本，使得每個核酸樣本至少帶有一條或多條標(biāo)簽以區(qū)分其它核酸樣本，記錄每個核酸樣本與其所帶的標(biāo)簽的對應(yīng)關(guān)系；混合多個核酸樣本，對混合核酸樣本進(jìn)行核酸序列測定，獲得混合測序數(shù)據(jù)；將混合測序數(shù)據(jù)與參考序列比對，獲得比對結(jié)果，從比對結(jié)果中篩選出與參考序列不完全匹配而且不匹配部分的長度不小于比標(biāo)簽小1bp的長度的讀段；依據(jù)篩選出的讀段的信息和標(biāo)簽與樣本的對應(yīng)關(guān)系，確定混合測序數(shù)據(jù)中讀段源自的核酸樣本。
【專利說明】確定混合測序數(shù)據(jù)中讀段的樣本源的方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及混合數(shù)據(jù)處理技術(shù)，特別是混合測序數(shù)據(jù)中數(shù)據(jù)來源的樣本的確定方法和裝置。

【背景技術(shù)】
[0002] Sanger測序是確定基因分型的金標(biāo)準(zhǔn)，飛行時間質(zhì)譜檢測能夠?qū)崿F(xiàn)定點檢測基因分型，比如深圳華大基因推出的一款產(chǎn)品針對四個耳聾常見突變基因的20個位點進(jìn)行質(zhì) 譜檢測，這20個位點在我國耳聾人群的致病因素中占據(jù)主要作用，還有全外顯子組測序，三種方法都具有各自的局限性，比如Sanger和質(zhì)譜法通量低、成本高，而全外顯子組測序則不能有效利用全部測序數(shù)據(jù)。
[0003] 先天性耳聾是一類常見疾病，在我國新生兒中的發(fā)病率高于1%。，其中60%以上是遺傳因素導(dǎo)致的。因此，除了常規(guī)的醫(yī)學(xué)診斷方法，通過測定相關(guān)基因的基因分型、判斷是否發(fā)生基因突變，可以輔助醫(yī)生診斷新生兒是否患有耳聾。
[0004] 根據(jù)國內(nèi)研究人員針對我國人群中耳聾基因突變進(jìn)行分子流行病學(xué)調(diào)查的結(jié)果， GJB2、GJB3、SLC26A4和12sRNA的突變最為常見，在人群中的突變比例高達(dá)40%，在這四個基因上的突變位點是導(dǎo)致遺傳性耳聾發(fā)生的常見突變。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明一方面提供了一種確定混合測序數(shù)據(jù)中讀段的樣本源的方法，混合測序數(shù) 據(jù)由多個讀段組成，該方法包括:A.利用多個標(biāo)簽分別標(biāo)記多個核酸樣本，使得每個核酸樣本至少帶有一條或多條標(biāo)簽以區(qū)分其它核酸樣本，記錄所述每個核酸樣本與其所帶的標(biāo) 簽的對應(yīng)關(guān)系；B.混合所述多個核酸樣本，對混合核酸樣本進(jìn)行核酸序列測定，獲得混合測序數(shù)據(jù)；C.將所述混合測序數(shù)據(jù)與參考序列比對，獲得比對結(jié)果，從所述比對結(jié)果中篩選出與所述參考序列不完全匹配而且不匹配部分的長度不小于比A中的標(biāo)簽小lbp的長度的讀段。
[0006] 本發(fā)明另一方面提供了一種確定混合測序數(shù)據(jù)中讀段的樣本源的裝置，混合測序數(shù)據(jù)由多個讀段組成，該裝置包括：樣本標(biāo)記單元，用以實現(xiàn)利用多個標(biāo)簽分別標(biāo)記多個核酸樣本，使得每個核酸樣本至少帶有一條或多條標(biāo)簽以區(qū)分其它核酸樣本，記錄每個核酸樣本與其所帶的標(biāo)簽的對應(yīng)關(guān)系；混合測序單元，與樣本標(biāo)記單元相連，用以混合獲自樣本標(biāo)記單元的標(biāo)簽標(biāo)記過的多個核酸樣本，以及對混合核酸樣本進(jìn)行核酸序列測定，獲得混合測序數(shù)據(jù)；比對篩選單元，與混合測序單元相連，用以實現(xiàn)將混合測序數(shù)據(jù)與參考序列比對，獲得比對結(jié)果，以及從比對結(jié)果中篩選出與參考序列不完全匹配而且不匹配部分的長度不小于比所述標(biāo)簽小lbp的長度的讀段；歸類單元，與樣本標(biāo)記單元和比對篩選單元相連，用以實現(xiàn)利用從比對篩選單元中篩選出的讀段的信息和所述樣本標(biāo)記單元的對應(yīng)關(guān) 系，確定混合測序數(shù)據(jù)中讀段源于的核酸樣本。
[0007] 利用本發(fā)明一方面提供的確定混合測序數(shù)據(jù)中數(shù)據(jù)的樣本源的方法或裝置，將多個樣本核酸的混合測序后的混合數(shù)據(jù)正確對應(yīng)到樣本源，使得不浪費測序通量，特別是適合于每個樣本數(shù)據(jù)量需求相對低而測序通量相對高的平臺。

【專利附圖】

【附圖說明】
[0008] 本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施方式的描述中將變得明顯和容易理解，其中：
[0009] 圖1是本發(fā)明的一個【具體實施方式】中的文庫構(gòu)建示意圖；
[0010] 圖2是本發(fā)明的一個【具體實施方式】中的確定混合測序數(shù)據(jù)中讀段的樣本源的裝置示意圖。

【具體實施方式】
[0011] 根據(jù)本發(fā)明的一個實施方式，提供了一種確定混合測序數(shù)據(jù)中讀段的樣本源的方法，混合測序數(shù)據(jù)是由多個讀段組成，所說方法包括：
[0012] A.利用多個標(biāo)簽分別標(biāo)記多個核酸樣本，使得每個核酸樣本至少帶有一條或多條標(biāo)簽以區(qū)分其它核酸樣本，記錄所述每個核酸樣本與其所帶的標(biāo)簽的對應(yīng)關(guān)系；
[0013] B.混合所述多個核酸樣本，對混合核酸樣本進(jìn)行核酸序列測定，獲得混合測序數(shù) 據(jù)；
[0014] C.將所述混合測序數(shù)據(jù)與參考序列比對,獲得比對結(jié)果，從所述比對結(jié)果中篩選出與所述參考序列不完全匹配而且不匹配部分的長度不小于比A中的標(biāo)簽小lbp的長度的讀段；
[0015] D.依據(jù)C中篩選出的讀段的信息和A中的對應(yīng)關(guān)系，確定所述混合測序數(shù)據(jù)中讀段源于的核酸樣本。
[0016] 根據(jù)本發(fā)明的一個【具體實施方式】，A中標(biāo)簽長度為5?12bp。A中的標(biāo)簽可以選自SEQ ID N0 :27?124所示的序列。SEQ ID N0 :27?124序列見表1，這組標(biāo)簽，是發(fā)明人考慮序列長度、堿基組成、堿基位置比例、與其它標(biāo)簽堿基的關(guān)系設(shè)計大量序列，多次試驗篩選獲得的，這組標(biāo)簽的部分或者全部可以置于同一反應(yīng)體系中而又相互之間不干擾影響，而且不千擾常規(guī)體系內(nèi)的其它反應(yīng)物或反應(yīng)，比如不影響文庫構(gòu)建中的各反應(yīng)體系及反應(yīng)，測序芯片上的固定序列等。
[0017] 表 1
[0018]

【權(quán)利要求】
1. 確定混合測序數(shù)據(jù)中讀段的樣本源的方法，所述混合測序數(shù)據(jù)由多個讀段組成，所述方法包括： A. 利用多個標(biāo)簽分別標(biāo)記多個核酸樣本，使得每個核酸樣本至少帶有一條或多條標(biāo)簽以區(qū)分其它核酸樣本，記錄所述每個核酸樣本與其所帶的標(biāo)簽的對應(yīng)關(guān)系； B. 混合所述多個核酸樣本，對混合核酸樣本進(jìn)行核酸序列測定，獲得混合測序數(shù)據(jù)； C. 將所述混合測序數(shù)據(jù)與參考序列比對，獲得比對結(jié)果，從所述比對結(jié)果中篩選出與所述參考序列不完全匹配而且不匹配部分的長度不小于比A中的標(biāo)簽小lbp的長度的讀段； D. 依據(jù)C中篩選出的讀段的信息和A中的對應(yīng)關(guān)系，確定所述混合測序數(shù)據(jù)中讀段源于的核酸樣本。
2. 權(quán)利要求1的方法，其特征在于，A中標(biāo)簽長度為5?12bp。
3. 權(quán)利要求2的方法，其特征在于，A中的標(biāo)簽選自SEQ ID NO :27?124所示的序列。
4. 權(quán)利要求1的方法，其特征在于，A中利用標(biāo)簽標(biāo)記核酸樣本是通過標(biāo)簽引物擴(kuò)增所述核酸樣本的至少一部分核酸來實現(xiàn)的。
5. 權(quán)利要求4的方法，其特征在于，所述標(biāo)簽引物由位于5 '端的標(biāo)簽連接引物序列構(gòu) 成。
6. 權(quán)利要求5的方法，其特征在于，所述標(biāo)簽引物中的標(biāo)簽為選自SEQ ID NO :27?124 所示的序列。
7. 權(quán)利要求5的方法，其特征在于，所述標(biāo)簽引物中的引物序列選自SEQ ID NO :1和2， SEQ ID NO :3 和 4, SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO : 11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22, SEQ ID NO :23 和 24 以及 SEQ ID NO :25 和 26 所示的 13 對序列中的至少1對；任選的，所述標(biāo)簽引物中的引物序列選自SEQ ID N0:1和2，SEQ ID N0:3和4，SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13對序列中的至少2對；任選的，所述標(biāo)簽引物中的引物序列選自SEQ ID N0:1和2，SEQ ID N0:3和4，SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13對序列中的至少5對；任選的，所述標(biāo)簽引物中的引物序列選自SEQ ID N0:1和2，SEQ ID N0:3和4，SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13對序列中的至少10對；任選的，所述標(biāo)簽引物中的引物序列為SEQ ID NO :1和2, SEQ ID NO :3和4, SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13對序列。
8. 權(quán)利要求1的方法，其特征在于，在獲得混合測序數(shù)據(jù)之后，去除所述混合測序數(shù)據(jù) 中長度不小于50bp的讀段。
9. 權(quán)利要求1的方法，其特征在于，C進(jìn)一步包括依據(jù)所述不匹配部分在讀段中的位置對所述篩選出的讀段進(jìn)行分類，獲得第一讀段和第二讀段，所述第一讀段中的讀段的兩個末端都與所述參考序列不匹配，所述第二讀段中的讀段的兩個末端中的一個與所述參考序列不匹配。
10. 權(quán)利要求9的方法，其特征在于，比對所述第一讀段中的每個讀段中的與所述參考序列都不匹配的兩個末端，去除所述兩個末端不互相匹配的以及兩個末端互相匹配的長度小于比A中標(biāo)簽小lbp的長度的讀段。
11. 權(quán)利要求1-10任一方法，其特征在于，B中核酸序列測序是在半導(dǎo)體芯片測序平臺上進(jìn)行的。
12. 權(quán)利要求11的方法，其特征在于，B中核酸序列測定包括混合核酸樣本的測序文庫的構(gòu)建。
13. 確定混合測序數(shù)據(jù)中讀段的樣本源的裝置，所述混合測序數(shù)據(jù)由多個讀段組成，所述裝置包括：樣本標(biāo)記單元，用以實現(xiàn)利用多個標(biāo)簽分別標(biāo)記多個核酸樣本，使得每個核酸樣本至少帶有一條或多條標(biāo)簽以區(qū)分其它核酸樣本，記錄所述每個核酸樣本與其所帶的標(biāo)簽的對應(yīng)關(guān)系；混合測序單元，與所述樣本標(biāo)記單元相連，用以混合獲自所述樣本標(biāo)記單元的標(biāo)簽標(biāo) 記過的多個核酸樣本，以及對混合核酸樣本進(jìn)行核酸序列測定，獲得混合測序數(shù)據(jù)；比對篩選單元，與所述混合測序單元相連，用以實現(xiàn)將所述混合測序數(shù)據(jù)與參考序列比對，獲得比對結(jié)果，以及從所述比對結(jié)果中篩選出與所述參考序列不完全匹配而且不匹配部分的長度不小于比所述標(biāo)簽小lbp的長度的讀段；歸類單元，與所述樣本標(biāo)記單元和所述比對篩選單元相連，用以實現(xiàn)利用從所述比對篩選單元中篩選出的讀段的信息和所述樣本標(biāo)記單元的對應(yīng)關(guān)系，確定所述混合測序數(shù)據(jù) 中讀段源于的核酸樣本。
【文檔編號】C12Q1/68GK104232760SQ201410427151
【公開日】2014年12月24日申請日期:2014年8月26日優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】陳祖煜, 馮大飛申請人:深圳華大基因醫(yī)學(xué)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳祖煜;馮大飛
技術(shù)所有人：深圳華大基因醫(yī)學(xué)有限公司
我是此專利的發(fā)明人

上一篇：一種胡蘿卜營養(yǎng)復(fù)合米及其制備方法
上一篇：魔芋仿生食品的制備方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.食品功能因子基因工程菌種的構(gòu)建、智能高通量進(jìn)化篩選 2.發(fā)酵工藝優(yōu)化
2、馬老師：1.酶工程與生物催化 2.釀造技術(shù)與風(fēng)味分析 3.生物質(zhì)資源綜合利用
3、林老師：1.釀造微生物育種及關(guān)鍵釀造工藝開發(fā) 2. 真菌基因功能及調(diào)控網(wǎng)絡(luò)解析 3.精細(xì)化學(xué)品、蛋白真菌細(xì)胞底盤開發(fā)
4、張老師：1.發(fā)酵食品安全：危害物相關(guān)基因的篩選，危害物產(chǎn)生菌的快速檢測，危害物的預(yù)警和發(fā)酵過程控制 2.真菌次級代謝與調(diào)控 3.釀造酒相關(guān)研究
5、郭老師：1.現(xiàn)代釀造技術(shù)與食品安全 2. 酵母生物學(xué) 3.生物基化學(xué)品與合成生物學(xué)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

二代測序數(shù)據(jù)分析流程相關(guān)技術(shù)

二代測序數(shù)據(jù)分析相關(guān)技術(shù)

高通量測序數(shù)據(jù)分析相關(guān)技術(shù)

測序數(shù)據(jù)分析相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

確定混合測序數(shù)據(jù)中讀段的樣本源的方法及裝置制造方法