欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種快速大批量設(shè)計目標基因sgRNA的方法與流程

文檔序號:40454070發(fā)布日期:2024-12-27 09:19閱讀:22來源:國知局
一種快速大批量設(shè)計目標基因sgRNA的方法與流程

本發(fā)明屬于生物信息,尤其涉及一種快速大批量設(shè)計目標基因sgrna的方法。


背景技術(shù):

1、基因編輯(gene?editing)是對生物體遺傳物質(zhì)進行針對性的修飾,其利用高效而精確的基因編輯技術(shù)實現(xiàn)了目標基因的插入、缺失或替換,從而改變生物體遺傳信息和表型特征?;蚓庉嫾夹g(shù)的快速發(fā)展給醫(yī)學(xué)、農(nóng)業(yè)和生物技術(shù)領(lǐng)域帶來了巨大的變革和希望。近年來,鋅指核酸酶(zfn)、類轉(zhuǎn)錄激活因子效應(yīng)核酸酶(talen)、crispr/cas9、is轉(zhuǎn)座子核酸酶(tnpb)和單堿基編輯(be)等技術(shù)的不斷出現(xiàn)和持續(xù)改進,使得基因編輯變得更加準確、高效和可控。這些技術(shù)的不斷演進為疾病治療、分子育種和生物技術(shù)創(chuàng)新等領(lǐng)域提供了新的工具和方法。特別是crispr/cas9技術(shù),憑借其操作便捷、高效、特異性強等特點,成為了基因編輯鄰域的一顆明星。同時tnpb作為crispr-cas9核酸酶的祖先,其rerna骨架更小,可能具有更好的遞送性能。在醫(yī)學(xué)和農(nóng)業(yè)領(lǐng)域,tnpb也許能夠發(fā)揮重要作用,為基因編輯技術(shù)的進一步發(fā)展和應(yīng)用提供思路和方向。

2、作為一種承載物種遺傳信息的載體,基因組序列具有重要意義,可以幫助研究者更好地了解不同物種的遺傳特征、進化歷史和基因功能等重要的信息。此外,基因組序列也為基因編輯技術(shù)提供了基礎(chǔ)模板,使得研究者能夠準確地對基因進行編輯,從而實現(xiàn)精準的基因組改造和研究。自2019年以pacbio?hifi測序為代表的高準確度長度長測序技術(shù)的出現(xiàn)徹底改變了基因組序列組裝領(lǐng)域,科學(xué)家們利用高準度和長度長的特點,首次成功完成了一個完整的人類基因組組裝,使得每條染色體從端粒到端粒都得到了完整的組裝(telomere-to-telomere,t2t)。隨后,越來越多的物種也相繼實現(xiàn)了端粒到端粒的完整基因組組裝。許多科學(xué)家認為,基因組組裝已經(jīng)進入了t2t時代,標志著可以更加準確地了解其中的基因和序列特征,包括等位基因。除了單個物種的基因組研究外,圖泛基因組的概念也逐漸受到關(guān)注。圖泛基因組考慮了一個物種多個個體之間的基因組變異和多樣性,其將多個個體的基因組進行基因分型。通過圖泛基因組組裝,可以更好地捕捉種群內(nèi)部更加豐富的遺傳變異信息。綜上所述,隨著t2t基因組和圖泛基因組組裝的快速發(fā)展,基于物種t2t基因組和圖泛基因組為基礎(chǔ)模板進行基因編輯將會成為一種方法,尤其是在分子育種領(lǐng)域。在這個過程中,設(shè)計特異性較好的sgrna(small?guide?rna)以實現(xiàn)等位基因的純合編輯的目標也將是重要的一環(huán)。

3、sgrna作為基因編輯工具系統(tǒng)的重要組成部分之一,其作用是引導(dǎo)基因編輯核酸酶準確定位到目標基因的特定位置,從而實現(xiàn)基因編輯的目的。因此,確保sgrna的特異性至關(guān)重要,特異性良好的sgrna有助于提高基因編輯的效率和準確性,尤其是針對等位基因,設(shè)計特異性良好的sgrna尤為關(guān)鍵。目前,雖然有一些在線工具可供設(shè)計sgrna,其也具有良好的可視化操作界面。然而,很少有工具專門針對等位基因進行sgrna的設(shè)計。此外,現(xiàn)有的在線工具受限于其數(shù)據(jù)庫中所包含的物種基因組信息,如果研究的物種基因組信息不在其數(shù)據(jù)庫收錄,就無法利用該工具進行sgrna設(shè)計。另外,sgrna的特異性評估也是非常重要的,需要將候選的sgrna與物種的全基因進行比對,以確定其可能的靶向位置,這將需要耗費大量的時間。除此,如果利用基因編輯的方式去構(gòu)建物種突變體庫,這將需要對大量的目標基因進行sgrna設(shè)計,如果能夠利用服務(wù)器進行批量并行操作,將會節(jié)省大量的時間和人力成本。因此,開發(fā)一種具備本地sgrna設(shè)計功能的工具將會非常有益,其不會受限于數(shù)據(jù)庫中物種基因信息的收錄情況。


技術(shù)實現(xiàn)思路

1、鑒于此,本發(fā)明的目的在于提供一種快速大批量設(shè)計目標基因sgrna的方法。

2、為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:

3、本發(fā)明提供了一種快速大批量設(shè)計目標基因sgrna的方法,其特征在于,包括以下步驟:

4、步驟1,輸入必要參數(shù),所述必要參數(shù)為設(shè)計目標基因sgrna的基因id、核酸酶、含pam基序的sgrna長度、物種全基因組序列、物種所有的cds序列、物種所有基因的bed文件、等位基因數(shù)據(jù)庫和sgrna數(shù)據(jù)庫;

5、步驟2,從等位基因數(shù)據(jù)庫中搜索輸入的目標基因是否存在等位基因,如果存在等位基因,則根據(jù)等位基因的bed信息和基因id分別提取等位基因的基因序列和cds序列;如果輸入的目標基因不存在等位基因,則根據(jù)輸入的目標基因的bed信息和基因id分別提取目標基因的基因序列和cds序列;

6、步驟3,如果輸入的目標基因存在等位基因,則利用muscle工具對提取的等位基因序列進行多序列比對,鑒定保守序列,得到muscle比對的輸出結(jié)果,并且將muscle比對的輸出結(jié)果轉(zhuǎn)換為phylip格式的文本,得到phylip格式的比對結(jié)果,然后將保守序列根據(jù)輸入的sgrna長度參數(shù)切割為k-mer片段,同時對k-mer片段進行反向互補操作,并將原始的k-mer片段和反向互補后的k-mer片段作為候選的sgrna;如果輸入的目標基因不存在等位基因,則直接將目標基因序列根據(jù)輸入的sgrna長度參數(shù)切割為k-mer片段,同時對k-mer片段進行反向互補操作,并將原始的k-mer片段和反向互補后的k-mer片段作為候選的sgrna;

7、步驟4,根據(jù)核酸酶的pam基序,對步驟3候選的sgrna進行篩選,以獲取符合核酸酶的篩選后的sgrna;

8、步驟5,利用sgrna數(shù)據(jù)庫對步驟4篩選后的sgrna進行特異性評估,根據(jù)特異性由好到差對sgrna評估結(jié)果進行排序,同時獲取sgrna靶向的基因、外顯子信息以及sgrna中堿基“g”和“c”的百分比含量,得到最終設(shè)計的sgrna;

9、步驟6,將步驟2~步驟5結(jié)果輸出到對應(yīng)的結(jié)果文件中,同時在輸出目錄中創(chuàng)建的readme文件,對各個輸出文件進行詳細說明。

10、優(yōu)選的,在步驟1中,所述核酸酶為cas9核酸酶或tnpb核酸酶;所述含pam基序的sgrna長度為19~25nt。

11、優(yōu)選的,在步驟1中,所述物種所有基因的bed文件的構(gòu)建方法,包括以下步驟:從物種基因組注釋文件中提取染色體編號、基因id、基因在染色體上的起始位置和終止位置以及基因所在的染色體的正負鏈信息,得到物種所有基因的bed文件。

12、優(yōu)選的,在步驟1中,所述等位基因數(shù)據(jù)庫的構(gòu)建方法包括以下步驟:

13、(s1)將物種基因組注釋文件根據(jù)不同的同源染色體進行劃分,得到劃分的同源染色體注釋文件,利用劃分的同源染色體注釋文件和全基因組序列提取cds序列,然后將cds序列翻譯為氨基酸序列;

14、(s2)利用diamond工具對步驟(s1)得到的氨基酸序列進行比對,得到比對結(jié)果,對比對結(jié)果,以氨基酸序列一致性值大于80為閾值進行過濾,得到序列一致性值大于80的氨基酸序列,并保存到后綴為blast的文件中,得到后綴為blast的文件;

15、(s3)從步驟(s1)得到的劃分的同源染色體的注釋文件中提取染色體編號、基因id以及基因在染色體上的起始位置和終止位置信息,得到后綴為gff的文件;

16、(s4)利用mcscanx工具對劃分的同源染色體基因進行等位基因的鑒定,其中步驟(s2)的后綴為blast的文件和步驟(s3)的后綴為gff的文件作為輸入文件,參數(shù)用于調(diào)用共線塊所需的基因數(shù)量設(shè)為10,允許的最大gaps設(shè)為45,輸出結(jié)果文件為html格式,得到html格式文件;

17、(s5)將步驟(s4)得到的html格式文件轉(zhuǎn)換為制表符分隔的文本,并將同源染色體的等位基因進行去冗余和合并,構(gòu)建物種等位基因數(shù)據(jù)庫,其中每一行為一組等位基因,得到等位基因數(shù)據(jù)庫。

18、優(yōu)選的,在步驟1中,所述sgrna數(shù)據(jù)庫的構(gòu)建方法包括以下步驟:

19、(1)基于目標物種全基因組序列和注釋文件提取所有基因的外顯子序列,外顯子序列描述信息為外顯子序列所在的基因id、外顯子編號、染色體編號、外顯子序列在染色體上的起始位置和終止位置以及正負鏈;

20、(2)利用jellyfish工具分別將步驟(1)所有基因的外顯子序列分別切割所需含pam基序的sgrna長度的k-mer片段,并進行去冗余,得到去冗余后的k-mer片段;

21、(3)利用batmap工具將步驟(2)得到的去冗余后的k-mer片段與目標物種全基因組序列進行比對,并統(tǒng)計每條k-mer片段比對到全基因組的位置數(shù)目,其中參數(shù)最大的錯配堿基數(shù)目設(shè)為4,最多比對數(shù)目設(shè)為all,比對時采用并行運行的方法,得到k-mer片段與全基因組比對的統(tǒng)計結(jié)果;

22、(5)利用編寫的python腳本將步驟(1)得到外顯子序列分別切割所需含pam基序的sgrna長度的k-mer片段,得到編寫的python腳本切割的k-mer片段;

23、(6)利用所述k-mer片段與全基因組比對的統(tǒng)計結(jié)果和編寫的python腳本切割的k-mer片段之間的對應(yīng)關(guān)系,比對到物種全基因組的位置數(shù)目和片段描述信息,得到sgrna數(shù)據(jù)庫。

24、優(yōu)選的,在步驟(s2)中,所述比對的參數(shù)e-value閾值設(shè)為1e-10,比對到的最大序列數(shù)設(shè)為5;

25、在步驟(s3)中,所述后綴為gff文件以制表符進行分隔,第一列為染色體編號,第二列為基因id,第三列為基因在染色體上的起始位置信息,第四列為基因在染色體上的終止位置信息;

26、在步驟(2)或步驟(5)中,所述含pam基序的sgrna長度為19~25nt;

27、在步驟(5)中,所述k-mer片段的描述信息為所述k-mer片段所在外顯子序列的基因id、外顯子序列的外顯子編號、外顯子序列的染色體編號、k-mer片段在染色體上的起始位置和終止位置;k-mer片段在染色體上的起始位置等于外顯子序列在染色體起始位置加上窗口滑動的總距離;k-mer片段在染色體上的終止位置為所述起始位置加上含pam基序的sgrna長度;

28、在步驟(5)中,所述編寫的python腳本從步驟(1)中獲得的外顯子序列的第一個堿基開始進行窗口掃描,每次以含pam基序的sgrna長度為窗口單元進行切割,直到覆蓋到序列的最后一個堿基,每次窗口滑動都會生成一個所需含pam基序的sgrna長度的k-mer片段,并根據(jù)步驟(1)中的外顯子序列描述信息創(chuàng)建上述k-mer片段的描述信息;

29、在步驟(6)中,所述sgrna數(shù)據(jù)庫為k-mer片段的位置信息、堿基序列以及與全基因組比對的統(tǒng)計數(shù)目,并對sgrna數(shù)據(jù)庫中的k-mer片段描述信息構(gòu)建索引。

30、本發(fā)明提供了一種計算機可讀存儲介質(zhì),所述計算機存儲介質(zhì)用于存儲計算機指令、程序、代碼集或指令集,當其在計算機上運行時,使得計算機執(zhí)行上述快速大批量設(shè)計目標基因sgrna的方法。

31、本發(fā)明提供了一種電子設(shè)備,包括處理器和存儲器,所述存儲器用于存儲程序;所述處理器用于運行所述存儲程序,以實現(xiàn)上述快速大批量設(shè)計目標基因sgrna的方法。

32、本發(fā)明提供了一種根據(jù)上述方法得到的sgrna。

33、優(yōu)選的,所述sgrna的核苷酸序列如seq?id?no.1所示;所述sgrna為紫花苜?;騧spalm1基因的sgrna。

34、本發(fā)明提供了一種crispr/cas9系統(tǒng),在pylcrispr/cas9p35s-h骨架載體上連接有上述的sgrna。

35、本發(fā)明提供了一種上述的sgrna或crispr/cas9系統(tǒng)在目標基因編輯或研究目標基因功能中的應(yīng)用。

36、相對于現(xiàn)有技術(shù),本發(fā)明具有如下有益效果:

37、本發(fā)明提供了一種快速大批量設(shè)計目標基因sgrna的方法,本發(fā)明所述方法將等位基因進行匹配判斷、提取基因序列和cds序列、使用muscle工具對提取的基因序列進行多序列比對、提取比對結(jié)果中的保守序列、根據(jù)保守序列進行sgrna設(shè)計和特異性評估這五部分流程整合到一起,以適應(yīng)本地化大批量設(shè)計和評估目標基因sgrna的需求。本發(fā)明所述方法能夠有效避免現(xiàn)有在線工具受到其數(shù)據(jù)庫收錄的物種基因組信息的限制,同時也可以廣泛利用圖泛基因組、同源或異源多倍體物種基因組和二倍體物種基因組設(shè)計sgrna和sgrna的特異性評估,還可以對大批量目標基因快速設(shè)計sgrna以及sgrna的特異性評估,該方法利用sgrna編輯目標基因的效率高,編輯效率在72%以上。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
彝良县| 夏河县| 平顺县| 孟津县| 长武县| 沽源县| 徐水县| 甘谷县| 潢川县| 涟源市| 万山特区| 日土县| 新竹县| 垣曲县| 静安区| 呼伦贝尔市| 霸州市| 个旧市| 成安县| 武宣县| 怀来县| 平原县| 乌拉特中旗| 昌宁县| 绥江县| 忻城县| 紫金县| 思茅市| 华容县| 临桂县| 石狮市| 葫芦岛市| 盐源县| 武宁县| 游戏| 根河市| 绥棱县| 丰城市| 闸北区| 江川县| 南澳县|