欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種物種特異性內(nèi)源性條形碼的搜索方法及其在多樣本混合測序中的應(yīng)用

文檔序號(hào):8259278閱讀:610來源:國知局
一種物種特異性內(nèi)源性條形碼的搜索方法及其在多樣本混合測序中的應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基因測序領(lǐng)域,尤其是一種物種特異性內(nèi)源性條形碼的搜索方法及其 在多樣本混合測序中的應(yīng)用。
【背景技術(shù)】
[0002] 近年來高通量測序技術(shù)迅猛發(fā)展,應(yīng)用范圍不斷拓展,經(jīng)常需要進(jìn)行大量樣本中 特定DNA區(qū)域的測序工作。為了提高多樣本的并行測序能力,高通量測序平臺(tái)基本都提供 了物理分割的測序通道,但是并行處理能力受限于通道數(shù)目,仍然無法滿足大量樣本的并 行測序需求,因此多樣本混合測序的實(shí)驗(yàn)方案應(yīng)運(yùn)而生。目前混合測序的主要方法包括DNA 條形碼標(biāo)記和重疊混合測序。
[0003] DNA條形碼(又稱DNA Tag),即一段長約數(shù)個(gè)堿基的人工DNA條形碼序列,通過 測序前的樣本制備過程,利用PCR或連接反應(yīng),插入到對(duì)應(yīng)樣本序列中,并且每個(gè)DNA條形 碼序列唯一對(duì)應(yīng)一個(gè)測序樣本。之后將標(biāo)記過的樣本混合測序,通過獲取的DNA條形碼信 息確定所測DNA片段的樣本歸屬,從而實(shí)現(xiàn)在一次測序過程中同時(shí)對(duì)多個(gè)樣本進(jìn)行并行分 析。
[0004] 目前DNA條形碼應(yīng)用過程中,有兩項(xiàng)操作是比較費(fèi)時(shí)費(fèi)力的:一是DNA條形碼需要 體外合成,并且每個(gè)樣本對(duì)應(yīng)的條形碼要具有唯一性,因此有多少樣本混合,就要體外合成 多少條DNA條形碼;二是在條形碼合成后,需要連接對(duì)應(yīng)的樣本,此過程也是需要逐個(gè)樣本 添加。當(dāng)樣本數(shù)目比較多時(shí),上述兩項(xiàng)操作無疑需要耗費(fèi)大量的人力物力。
[0005]生物內(nèi)源性條形碼是指生物體內(nèi)能夠用于辨識(shí)該物種、物種內(nèi)保守并且物種間保 持足夠變異DNA短片段。類似于"通用產(chǎn)品編碼",即生活中常見的"條形碼"的設(shè)計(jì)理念, 生物條形碼嘗試用一小段DNA序列提供物種的鑒定信息,這種物種特異性的生物條形碼已 成為生物分類學(xué)家的一種重要研宄工具,大量應(yīng)用于物種鑒定、發(fā)現(xiàn)隱藏物種或生物多樣 性研宄。
[0006] 生物條形碼來源于生物體內(nèi)部,不用體外合成,并且具有很好的物種特異性,因此 我們考慮在對(duì)來自不同物種的樣本混合測序時(shí),是否有可能將其作為DNA條形碼標(biāo)記特定 樣本,再進(jìn)行混合測序呢?生物學(xué)分類用的條形碼長度一般為幾百至上千個(gè)堿基,而用于 高通量混合測序的樣本標(biāo)記條形碼受限于有效讀長和測序成本,在能夠有效區(qū)分樣本的前 提下應(yīng)當(dāng)盡可能短。目前已知的各種生物條形碼是否存在短的并仍可以有效區(qū)分來自不同 物種的樣本?即使存在這樣一段區(qū)域,其兩端序列是否足夠保守到易于截取共同的內(nèi)源性 條形碼DNA ?這就要求一種通用有效的搜索方法,只取生物條形碼的部分區(qū)域用于標(biāo)記混 合樣本。
[0007] 找到樣本特異性的短的條形碼序列區(qū)域時(shí),如何簡單的將其與測序目標(biāo)序列進(jìn)行 連接呢?重疊延伸PCR(Overlap Extension PCR)技術(shù),或稱融合PCR(Fusion PCR),利用具 有堿基互補(bǔ)末端的引物,使PCR產(chǎn)物形成重疊鏈,從而在隨后的擴(kuò)增反應(yīng)中通過重疊鏈的 延伸,將不同來源的擴(kuò)增片段拼接起來。利用此技術(shù)可實(shí)現(xiàn)多個(gè)樣本一步反應(yīng)內(nèi)同時(shí)擴(kuò)增 并連接各自條形碼和待測目標(biāo)序列,簡化了先提取測序目標(biāo)序列、再逐個(gè)連接體外合成條 形碼的實(shí)驗(yàn)過程。

【發(fā)明內(nèi)容】

[0008] 發(fā)明目的:針對(duì)目前測序過程中應(yīng)用外源性條形碼,需要逐條合成且逐個(gè)與測序 目標(biāo)序列連接的實(shí)際情況,本發(fā)明提供一種物種特異性內(nèi)源性條形碼的搜索方法及其在多 樣本混合測序中的應(yīng)用,通過搜索生物體內(nèi)部物種特異性的短的序列片段,并在提取測序 目標(biāo)序列時(shí)同時(shí)進(jìn)行連接,實(shí)現(xiàn)多個(gè)樣本的同時(shí)同步處理,優(yōu)化文庫制備過程,提高測序效 率。
[0009] 技術(shù)方案:為實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明提出了一種物種特異性內(nèi)源性條形碼的 搜索方法,包括如下步驟:
[0010] (1)確定內(nèi)源性條形碼所在的候選基因組序列:根據(jù)待測序樣本的特征,選擇分 類學(xué)上廣泛應(yīng)用的相應(yīng)物種的生物條形碼作為搜索范圍,從而確定內(nèi)源性條形碼序列在全 基因組上的一個(gè)大范圍區(qū)域,通過在此范圍內(nèi)搜索,得到盡可能短的基因組序列作為內(nèi)源 性條形碼所對(duì)應(yīng)的區(qū)域。通常,動(dòng)物界可選用線粒體基因編碼的3種細(xì)胞色素氧化酶亞基 之一的COI基因,植物界可選用編碼葉綠體的matK、rbcL等基因,細(xì)菌可選擇編碼16s rRNA 或編碼線粒體功能性蛋白cpn60的基因;
[0011] (2)搜集候選基因組序列:搜集并下載與待測序樣本進(jìn)化關(guān)系較近物種的已測序 候選基因組序列;
[0012] (3)比對(duì)搜集的候選基因組序列:使得所有序列長度一致并對(duì)齊,以便滑動(dòng)窗口 在此范圍內(nèi)逐個(gè)堿基掃描,尋找盡可能短的樣本特異性序列對(duì)應(yīng)的區(qū)域;
[0013] (4)設(shè)定條形碼長度參數(shù):內(nèi)源性條形碼的長度與待測序的樣本數(shù)量、樣本間的 進(jìn)化關(guān)系有關(guān),即樣本數(shù)量越多,則能夠保證每個(gè)樣本特異性的內(nèi)源性條形碼的長度就越 長;樣本間進(jìn)化關(guān)系越近,則各自內(nèi)源性條形碼區(qū)域之間的序列變異度就越小,因此內(nèi)源性 條形碼序列的長度越長。所以在較大數(shù)量或者進(jìn)化關(guān)系較近的樣本混合測序使用本方法 時(shí),有可能找到的區(qū)分不同樣本的內(nèi)源性條形碼太長,而太長的條形碼占用測序空間,增加 測序成本。因此考慮實(shí)際測序長度和目標(biāo)DNA長度,本方法需設(shè)定條形碼長度參數(shù),根據(jù)內(nèi) 源性條形碼對(duì)實(shí)際測序長度所占的比例算得,默認(rèn)值為20%,即條形碼長度上限。若目標(biāo) DNA長度比較短,內(nèi)源性條形碼長度可以適當(dāng)增加;反之則應(yīng)適當(dāng)降低;
[0014] (5)計(jì)算滑動(dòng)窗口內(nèi)序列的變異度和窗口兩側(cè)序列的保守度:初始化窗寬,并以 條形碼長度參數(shù)為最大窗口寬度,進(jìn)行以下循環(huán)計(jì)算,即以固定寬度的滑動(dòng)窗口在對(duì)齊后 的序列區(qū)域逐位滑動(dòng),計(jì)算每個(gè)窗口內(nèi)序列的變異度和窗口兩側(cè)指定長度序列的保守度, 然后逐漸擴(kuò)大窗口寬度,直
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
多伦县| 德清县| 濮阳县| 舒城县| 柘荣县| 治多县| 繁峙县| 灌阳县| 缙云县| 临澧县| 侯马市| 临沧市| 牡丹江市| 东安县| 油尖旺区| 汉寿县| 南汇区| 体育| 夏河县| 密云县| 长治县| 余庆县| 蚌埠市| 香格里拉县| 西吉县| 舟曲县| 汪清县| 平舆县| 吐鲁番市| 西和县| 贡山| 鹤岗市| 麦盖提县| 吕梁市| 深泽县| 天台县| 江北区| 闸北区| 兴隆县| 洪江市| 杭州市|