本發(fā)明涉及生物信息學(xué)、蛋白質(zhì)組學(xué)、轉(zhuǎn)錄組學(xué)及基因工程領(lǐng)域,具體地說,涉及CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法及裝置。
背景技術(shù):
隨著DNA測序技術(shù)的發(fā)展,許多模式生物的基因組序列信息已被公布,隨后科研工作者將研究重點轉(zhuǎn)向?qū)蚬δ苄畔⒌耐诰蛏??;蚯贸齽游锬P鸵恢币詠硎窃诨铙w動物上從事基因功能研究、尋找合適藥物作用靶點的重要工具。但是傳統(tǒng)的基因敲除方法需要通過復(fù)雜的打靶載體構(gòu)建、胚胎干細(xì)胞(ES細(xì)胞)的篩選、嵌合體繁育等一系列步驟,不僅操作流程繁瑣,對實驗人員的技術(shù)要求很高,而且費用昂貴,耗時較長,且成功率也受到多方面因素的影響。即使對于技術(shù)相對成熟的實驗室,利用傳統(tǒng)技術(shù)構(gòu)建基因敲除大、小鼠模型一般也需要很長時間。
2013年,美國兩個實驗室在《Science》雜志發(fā)表了基于CRISPR-Cas9系統(tǒng)在細(xì)胞系中進(jìn)行基因編輯的新方法,該系統(tǒng)的原理是crRNA(CRISPR-derived RNA)通過堿基互補配對與tracrRNA(trans-activating RNA)結(jié)合形成tracrRNA/crRNA的復(fù)合物,該復(fù)合物可以引導(dǎo)核酸內(nèi)切酶Cas9蛋白在與crRNA配對的序列靶位點切割雙鏈DNA。而通過人工設(shè)計這兩種RNA,可以改造形成具有引導(dǎo)作用的sgRNA(short guide RNA),即可引導(dǎo)Cas9對DNA的定點切割,一旦切割完成,細(xì)胞會啟動各種修復(fù)方式來修補被剪掉的部分,其中最常見的是非同源末端連接(NHEJ)的修復(fù)方式,該種修復(fù)方式使得修復(fù)過程很容易出錯,這就很大概率地引入使基因功能喪失的變異 (如插入或者缺失部分堿基序列以造成移碼突變),這使得研究者能通過突變體來了解被編輯的基因的功能。該項技術(shù)已經(jīng)被迅速應(yīng)用到基因敲除斑馬魚、小鼠和大鼠等動物模型的構(gòu)建之中。CRISPR-Cas9技術(shù)是繼鋅指核酸酶(ZFN)和TALEN等技術(shù)之后可用于定點構(gòu)建基因敲除動物的新方法,具有效率高、速度快、生殖系傳遞能力強及簡單經(jīng)濟的特點,在動植物模型構(gòu)建的應(yīng)用前景非常廣闊。
目前在動物研究領(lǐng)域,有很多基于單個功能基因進(jìn)行設(shè)計的Cas9靶點,但還缺乏一套篩查全基因組靶點的成熟方法。本發(fā)明根據(jù)Cas9在基因組中編輯靶點的偏好性,開發(fā)了一套獲取動物全基因組水平Cas9靶點序列的方法。通過此方法設(shè)計出來的靶點文庫,使得CRISPR可以同時針對全基因組水平的基因靶向,獲得高通量的基因突變體庫,該方法在基礎(chǔ)研究中(例如藥物研發(fā)和農(nóng)業(yè))將發(fā)揮巨大作用。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法。
本發(fā)明的另一目的是提供一種篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的裝置。
為了實現(xiàn)本發(fā)明目的,本發(fā)明提供的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法,包括以下步驟:
(1)利用已公布物種的全基因組序列及基因注釋信息,獲取基因組中具有5’-Nx-NGG-3’序列的區(qū)段,作為CRISPR-Cas9系統(tǒng)sgRNA的候選靶點;其中,x為19~22之間的整數(shù),N代表堿基A、T、G或C;
(2)將基因組打斷成22~25bp的片段并篩選以NGG結(jié)尾的,且在基因組上無重復(fù)的序列;
(3)將步驟(1)的候選靶點序列與步驟(2)中篩到的序列進(jìn)行比對,根據(jù)錯配信息及評選公式對相應(yīng)的優(yōu)選序列進(jìn)行篩選及排序,獲取最優(yōu)的全基因組sgRNA作用靶點集合。
前述的方法,步驟(1)中篩選符合條件的候選靶點序列的要求是:①靶點必須落在基因的CDS區(qū)內(nèi),即起始密碼子之后;②盡可能靠近基因的5’端(實驗表明,靠近5’端的外顯子,其功能性更強);③優(yōu)選地,每個基因提取兩個外顯子(選取兩個外顯子是為了保證基因被修飾后其功能盡可能地發(fā)生變化),具體步驟為:以轉(zhuǎn)錄本為單位(若以轉(zhuǎn)錄本為單位,一個基因有可能重復(fù)取到同一個外顯子,下文有去重復(fù)的步驟),從基因組注釋文件中獲取轉(zhuǎn)錄本、基因ID,CDS、外顯子區(qū)的起始和終止位置以及染色體號等相關(guān)信息,以每個轉(zhuǎn)錄本的起始密碼子所在位置為標(biāo)準(zhǔn),提取其后兩個外顯子的始末位置,若起始密碼子后只有一個外顯子,則只取一個,得到候選外顯子的始末位置后,利用bedtools軟件中的fastaFromBed程序獲取這些外顯子的序列信息,保留作為外顯子NGG候選靶點序列(保存為fasta格式文件)。候選外顯子的篩選設(shè)計見圖1。
其中,fastaFromBed程序中的-s參數(shù)的作用是獲取反向互補序列,這樣就得到了所有外顯子的編碼鏈序列信息,便于篩選NGG位點(不用考慮負(fù)鏈,但要注意位置信息)。所有外顯子的編碼鏈序列提取它們的前19~22bp序列保存成fasta格式(注意此時的始末位置信息,正負(fù)鏈的情況有所區(qū)別,另外由于最終在與基因組水平的NGG序列進(jìn)行比對時,需去除自比的比對結(jié)果,因此就需要詳盡了解每一個外顯子上的NGG序列所在的基因組始末位置,正負(fù)鏈信息等。因此要進(jìn)行相應(yīng)的格式調(diào)整)。鑒于上文提到的以轉(zhuǎn)錄本為單位會重復(fù)取得外顯子的情況,進(jìn)一步對獲取的序列進(jìn)行了去重復(fù)處理。最后獲得的基因組中所有基因上的候選靶點5’-Nx-NGG-3’序列,統(tǒng)計其覆蓋的基因數(shù)目,外顯子數(shù)目,以及候選外顯子上獲得的NGG位點個數(shù)。
前述的方法,步驟(2)中篩選中符合條件的序列的具體步驟為:全基因組篩選采用k-mer打斷、再比對找回位置的方法來定位基因組中的NGG序列。首先用jellyfish軟件將基因組打斷成22~25bp的片段, 考慮到正負(fù)鏈不同,分別篩選正鏈以NGG結(jié)尾和負(fù)鏈以CCN開頭的序列,保留作為基因組NGG候選靶點序列(保存為fasta格式文件);由于利用jellyfish軟件將基因組打斷成22~25bp的片段后沒有位置信息,因此需利用bowtie軟件比對找回上述22~25bp片段所在基因組中的位置。正負(fù)鏈分別進(jìn)行比對,比對結(jié)束后,將NGG三個堿基從正鏈中去除,同時將CCN三個堿基從負(fù)鏈中去除,保存為19~22bp的含位置信息的fasta格式文件。
前述的方法,步驟(3)中比對的具體步驟為:
①將步驟(1)的外顯子NGG候選靶點序列與步驟(2)的基因組NGG候選靶點序列進(jìn)行比對,將所有自比結(jié)果過濾掉;
②篩選步驟①過濾后的比對結(jié)果中,外顯子NGG候選靶點在基因組中其它位置上沒有比對結(jié)果的序列,這些外顯子NGG靶點在基因組中是唯一的,將這些靶點序列作為最佳候選靶點序列優(yōu)先被提取出來,標(biāo)注為unique reads;
③篩選步驟①過濾后的比對結(jié)果中,外顯子NGG候選靶點在基因組中其它位置上仍存在比對結(jié)果的序列,若出現(xiàn)錯配0個堿基(即在基因組其它位置完全比對上)或錯配1個堿基(即在基因組其它位置比對上,且只有1個堿基錯配),表明這些序列在基因組中有重復(fù)序列存在,將這些靶點序列全部刪除;
④篩選步驟①過濾后的比對結(jié)果中,外顯子NGG候選靶點在基因組中其它位置上仍存在比對結(jié)果的序列,若出現(xiàn)錯配2個堿基(即在基因組其它位置比對上,但有2個堿基錯配)或錯配3個堿基(即在基因組其它位置比對上,但有3個堿基錯配),將這些靶點序列標(biāo)注為candidate reads,這些reads的所有比對結(jié)果通過公式進(jìn)行打分,打分公式如下:
其中,MS代表錯配罰分,a、b、c分別代表發(fā)生錯配的堿基位置(以該條NGG候選靶點的3’端堿基記為1位,從3’端向5’端依次計數(shù),例如,a為NGG候選靶點3’端上游5bp位置的堿基發(fā)生錯配,則a等于5),S(ab)代表a與b的代數(shù)和,S(bc)代表b與c的代數(shù)和,S(ac)代表a與c的代數(shù)和,D(ab)代表兩個錯配堿基a與b的相對位置之差,D(bc)代表兩個錯配堿基b與c的相對位置之差,D(ac)代表兩個錯配堿基a與c的相對位置之差;
當(dāng)n=3時,若S(ab)×D(ab)<S(bc)×D(bc),公式則變?yōu)椋?/p>
若S(ab)×D(ab)>S(bc)×D(bc),公式則變?yōu)椋?/p>
所有reads按照打分從低到高排序,將分?jǐn)?shù)低的前10萬條左右的reads作為候選序列(根據(jù)下游基因芯片的容量,目前芯片最多容納10萬條序列),即打分通過的candidate reads;
⑤步驟②的unique reads和步驟④打分通過的candidate reads即為最優(yōu)的全基因組sgRNA作用靶點集合,即初步得到全基因組的Cas9sgRNA Oligo Library。
本發(fā)明篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的流程圖見圖2。
本發(fā)明的目的還可以采用以下的技術(shù)措施來進(jìn)一步實現(xiàn)。
(1)利用已公布物種的全基因組序列及基因注釋信息,獲取基因組中具有5’-Nx-NGG-3’序列的區(qū)段,作為CRISPR-Cas9系統(tǒng)sgRNA的候選靶點;其中,x為20,N代表堿基A、T、G或C;
(2)將基因組打斷成20bp的片段并篩選以NGG結(jié)尾的,且在基因組上無重復(fù)的序列;
(3)將步驟(1)的候選靶點序列與步驟(2)中篩到的序列進(jìn) 行比對,根據(jù)錯配信息及評選公式對相應(yīng)的優(yōu)選序列進(jìn)行篩選及排序,獲取最優(yōu)的全基因組sgRNA作用靶點集合。
其中,步驟(1)中篩選符合條件的候選靶點序列的要求是:i.靶點必須落在基因的CDS區(qū)內(nèi),即起始密碼子之后;ii.盡可能靠近基因的5’端;iii.優(yōu)選地,每個基因提取兩個外顯子,具體步驟為:以轉(zhuǎn)錄本為單位,從基因組注釋文件中獲取轉(zhuǎn)錄本、基因ID,CDS、外顯子區(qū)的起始和終止位置以及染色體號相關(guān)信息,以每個轉(zhuǎn)錄本的起始密碼子所在位置為標(biāo)準(zhǔn),提取其后兩個外顯子的始末位置,若起始密碼子后只有一個外顯子,則只取一個,得到候選外顯子的始末位置后,利用bedtools軟件中的fastaFromBed程序獲取這些外顯子的序列信息,保留作為外顯子NGG候選靶點序列。
步驟(2)中篩選中符合條件的序列的具體步驟為:首先用jellyfish軟件將基因組打斷成20bp的片段,考慮到正負(fù)鏈不同,分別篩選正鏈以NGG結(jié)尾和負(fù)鏈以CCN開頭的序列,保留作為基因組NGG候選靶點序列;由于利用jellyfish軟件將基因組打斷成20bp的片段后沒有位置信息,因此需利用bowtie軟件比對找回上述20bp片段所在基因組中的位置。
步驟(3)中比對的具體步驟為:
iv.將步驟(1)的外顯子NGG候選靶點序列與步驟(2)的基因組NGG候選靶點序列進(jìn)行比對,將自比的結(jié)果過濾掉;
v.篩選在步驟①過濾后的比對結(jié)果中,外顯子NGG候選靶點在基因組中沒有比對結(jié)果的序列,這些外顯子NGG靶點在基因組中是唯一的,這些靶點序列作為最佳候選靶點序列優(yōu)先被提取出來,標(biāo)注為unique reads;
vi.篩選在步驟①過濾后的比對結(jié)果中,外顯子NGG候選靶點在基因組中有比對結(jié)果的序列,若出現(xiàn)錯配0個堿基或錯配1個堿基,表明這些序列在基因組中有重復(fù)序列存在,將這些靶點序列全部刪除;
vii.篩選在步驟①過濾后的比對結(jié)果中,外顯子NGG候選靶點在基因組中有比對結(jié)果的序列,若出現(xiàn)錯配2個堿基或錯配3個堿基,將這些靶點序列標(biāo)注為candidate reads,這些reads的所有比對結(jié)果通過公式進(jìn)行打分,打分公式如下:
其中,MS代表錯配罰分,a、b、c分別代表發(fā)生錯配的堿基位置,S(ab)代表a與b的代數(shù)和,S(bc)代表b與c的代數(shù)和,S(ac)代表a與c的代數(shù)和,D(ab)代表兩個錯配堿基a與b的相對位置之差,D(bc)代表兩個錯配堿基b與c的相對位置之差,D(ac)代表兩個錯配堿基a與c的相對位置之差;
當(dāng)n=3時,若S(ab)×D(ab)<S(bc)×D(bc),公式則變?yōu)椋?/p>
若S(ab)×D(ab)>S(bc)×D(bc),公式則變?yōu)椋?/p>
所有reads按照打分從低到高排序,將分?jǐn)?shù)低的前10萬條reads作為候選序列,即打分通過的candidate reads;
viii.步驟v.的unique reads和步驟vii.打分通過的candidate reads即為最優(yōu)的全基因組sgRNA作用靶點集合。
本發(fā)明還提供上述方法獲得的CRISPR-Cas9系統(tǒng)sgRNA作用靶點在構(gòu)建基因敲除突變體文庫或基因敲除動物模型中的應(yīng)用。
本發(fā)明還提供一種基因芯片,所述芯片含有根據(jù)上述方法獲得的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的序列集合。
本發(fā)明進(jìn)一步提供一種篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的裝置,包括以下模塊:
A.全基因組外顯子序列提取模塊:用于上述步驟(1)中提取全基因組的外顯子中具有5’-Nx-NGG-3’序列的區(qū)段;
B.外顯子NGG序列優(yōu)選模塊:用于上述步驟(1)中所有外顯子中具有5’-Nx-NGG-3’序列區(qū)段的優(yōu)選篩查;
C.基因組序列打斷比對模塊:用于上述步驟(2)中將全基因組序列打斷成相應(yīng)大小的片段,并比對進(jìn)行位置錨定;
D.外顯子NGG候選序列與基因組NGG候選序列比對模塊:用于上述步驟(3)中外顯子NGG候選序列與基因組NGG候選序列之間的比對;
E.候選sgRNA靶點序列打分模塊:用于上述步驟(3)中所有候選序列的評估排序。
本發(fā)明提供的方法可應(yīng)用于所有已知基因組及其基因注釋信息的物種當(dāng)中,通過快速高效獲得其全基因組水平的sgRNA序列全集來構(gòu)建基因敲除突變體文庫或基因敲除動物模型。另外,這種高通量的CRISPR-Cas9系統(tǒng)sgRNA作用靶點篩選方法極大降低了成本,克服了單個制備基因敲除細(xì)胞,所導(dǎo)致的時間和勞動成本高的問題。
附圖說明
圖1為本發(fā)明候選外顯子的篩選設(shè)計流程圖。其設(shè)計原理在于:對位于起始密碼子后面的外顯子進(jìn)行設(shè)計,如果起始密碼子后面有兩個以上的外顯子,則將這兩個外顯子全部獲取,若起始密碼子后面只有一個外顯子,則僅取一個外顯子;某些起始密碼子位于外顯子內(nèi)部,若其后面還有外顯子,則從其下一個外顯子開始計數(shù),若其后面沒有外顯子,則從其本身開始計數(shù);負(fù)鏈候選外顯子的設(shè)計規(guī)則同正鏈。
圖2為本發(fā)明篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的流程圖。
具體實施方式
以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。若未特別指明,實施例中所用的技術(shù)手段為本領(lǐng)域技術(shù)人員所熟知的常規(guī) 手段,所用原料均為市售商品。
實施例1針對雞設(shè)計的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法
本實施例以禽類代表動物--雞為例,進(jìn)行全基因組Cas9靶點文庫的設(shè)計。
首先在Ensembl數(shù)據(jù)庫(http://www.ensembl.org/index.html)中下載雞的參考基因組(版本號Galgal4,GCA_000002315.2)及其對應(yīng)的基因注釋文件。利用全基因組序列及基因注釋信息,獲取基因組中所有基因的候選靶點5’-(N20)NGG-3’序列(N代表A/T/C/G),統(tǒng)計可知,雞中的候選靶點序列一共獲得380,459條,覆蓋的基因為16,821個,覆蓋的外顯子數(shù)為28,915個。然后將基因組打斷成23bp的片段并篩選以NGG結(jié)尾的,且在基因組上無重復(fù)的序列,將其與外顯子上的候選靶點序列進(jìn)行比對,根據(jù)錯配信息及評選公式對相應(yīng)的優(yōu)選序列進(jìn)行篩選及排序,根據(jù)下游芯片合成設(shè)計容量,共設(shè)計了96000條靶點序列,最終篩選結(jié)果,覆蓋的基因數(shù)目為16,569個,每個基因上設(shè)計的靶點序列約為7-8個。
實施例2針對豬設(shè)計的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法
本實施例以哺乳動物類代表動物—豬為例,進(jìn)行全基因組Cas9靶點文庫的設(shè)計。
首先在Ensembl數(shù)據(jù)庫中(http://www.ensembl.org/index.html)下載豬的參考基因組(版本號Sscrofa10.2,GCA_000003025.4)及其對應(yīng)的基因注釋文件。利用全基因組序列及基因注釋信息,獲取基因組中所有基因的候選靶點5’-(N20)NGG-3’序列(N代表A/T/C/G),統(tǒng)計可知,豬中的候選靶點序列一共獲得626,236條,覆蓋的基因為24,734個,覆蓋的外顯子數(shù)為43,049個。然后將基因組打斷成23bp的片段并篩選以NGG結(jié)尾的,且在基因組上無重復(fù)的序列,將其與外顯 子上的候選靶點序列進(jìn)行比對,根據(jù)錯配信息及評選公式對相應(yīng)的優(yōu)選序列進(jìn)行篩選及排序,根據(jù)下游芯片合成設(shè)計容量,共設(shè)計了96000條靶點序列,最終篩選過后,覆蓋的基因數(shù)目為22,731個,每個基因上設(shè)計的靶點序列約為4-5個。
雖然,上文中已經(jīng)用一般性說明及具體實施方案對本發(fā)明作了詳盡的描述,但在本發(fā)明基礎(chǔ)上,可以對之作一些修改或改進(jìn),這對本領(lǐng)域技術(shù)人員而言是顯而易見的。因此,在不偏離本發(fā)明精神的基礎(chǔ)上所做的這些修改或改進(jìn),均屬于本發(fā)明要求保護(hù)的范圍。