本發(fā)明涉及基因檢測(cè)領(lǐng)域,尤其涉及一種用于檢測(cè)內(nèi)部串聯(lián)重復(fù)的裝置及方法。
背景技術(shù):
:Fms樣酪氨酸激酶3(Fms-liketyrosinekinase3,FLT3)是III型受體酪氨酸激酶家族成員。內(nèi)部串聯(lián)重復(fù)(internaltandemduplication,ITD)是一類在臨床上非常重要的染色體結(jié)構(gòu)變異。已經(jīng)證實(shí)在相當(dāng)數(shù)量的急性髓細(xì)胞白血病(acutemyeloidleukemia,AML)患者中,F(xiàn)LT3基因的外顯子存在內(nèi)部串聯(lián)重復(fù)(Fms-liketyrosinekinase3-intenaltandemduplication,FLT3-ITD)。FLT3-ITD是AML的重要分子標(biāo)志,精準(zhǔn)的FLT3-ITD檢測(cè)在AML的診斷及預(yù)后分層中起著重要作用。傳統(tǒng)上用于ITD的檢測(cè)技術(shù)主要以實(shí)驗(yàn)室檢查為診斷標(biāo)準(zhǔn),包括從細(xì)胞形態(tài)學(xué)(Morphology,如骨髓涂片、骨髓活檢,血涂片等)、免疫學(xué)(Immunology,如流式細(xì)胞儀)、細(xì)胞遺傳學(xué)(Cytogenetics,如染色體核型)以及分子生物學(xué)(Molecular,如FISH、基因突變檢測(cè)等)四個(gè)方面,即“MICM分型”。然而,相對(duì)較低的分辨率和通量限制了該種方法在復(fù)雜的預(yù)后分層的應(yīng)用。隨著二代測(cè)序技術(shù)的發(fā)展,涌現(xiàn)了大量用于檢測(cè)基因變異檢測(cè)的算法,然而這些算法中能夠用于ITD檢測(cè)卻不多。傳統(tǒng)檢測(cè)ITD的算法來源于INDEL(插入或缺失)的檢測(cè),如果檢測(cè)的測(cè)序片段(read或reads)跨越ITD區(qū)域(存在內(nèi)部串聯(lián)重復(fù)并且其長(zhǎng)度跨越了與參考基因組對(duì)應(yīng)的突變區(qū)域),傳統(tǒng)的ITD檢測(cè)可以準(zhǔn)確檢測(cè)。但是,傳統(tǒng)算法存在五點(diǎn)缺陷:(1)read片段大小的限制;(2)ITD本身序列變長(zhǎng),導(dǎo)致INDEL假陽(yáng)性、ITD假陰性;(3)比對(duì)信息利用太少;(4)斷點(diǎn)附近,易錯(cuò)判為INDEL;(5)檢測(cè)速度慢,資源要求高,需要將比對(duì)到參考基因組附近的多個(gè)read進(jìn)行組裝。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題由于現(xiàn)有算法受到read長(zhǎng)度的限制,比對(duì)過程需要對(duì)read組裝,導(dǎo)致檢測(cè)速度慢、資源要求高、出現(xiàn)假陰性檢測(cè)等不足之處,同時(shí)由于組裝序列均較短,對(duì)于重復(fù)序列的組裝存在一定的不確定性。鑒于上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種用于檢測(cè)ITD(特別是FLT3-ITD)的裝置及方法,其具有檢測(cè)速度快、資源要求低、穩(wěn)定性高的優(yōu)點(diǎn)。與現(xiàn)有技術(shù)相比,本發(fā)明的裝置及方法充分利用了PE測(cè)序下機(jī)reads的信息,由于FLT3-ITD主要發(fā)生在14號(hào)外顯子區(qū)域,F(xiàn)LT3-ITD的長(zhǎng)度一般在12~500bp,故而首先挑選出了14號(hào)外顯子前后500bp的reads,大大減少了需要進(jìn)行比對(duì)分析的reads個(gè)數(shù)及比對(duì)區(qū)域長(zhǎng)度,提高了檢測(cè)速度,減弱了資源要求,其次本發(fā)明的裝置及方法減少了比對(duì)次數(shù),只需要一次常規(guī)比對(duì),而且不需要組裝,提高了檢測(cè)的穩(wěn)定性。即,本發(fā)明包括:一種用于檢測(cè)ITD的裝置,其包括以下模塊:測(cè)序數(shù)據(jù)獲取模塊,用于獲取測(cè)序數(shù)據(jù);優(yōu)選地,所述測(cè)序數(shù)據(jù)是采用雙端測(cè)序(Paired-endSequencing,PE測(cè)序)方法獲得的測(cè)序數(shù)據(jù);比對(duì)模塊:其與所述測(cè)序數(shù)據(jù)獲取模塊相連接,用于將獲取的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段在基因中對(duì)應(yīng)的位置;優(yōu)選地,該模塊可以利用bwa軟件,查找測(cè)序片段在基因中對(duì)應(yīng)的位置,并形成bam格式文件;優(yōu)選地,該bam文件中,包括每條測(cè)序片段的描述信息(qname),序列信息(seq)、比對(duì)位置(POS),位標(biāo)識(shí)(flag),比對(duì)質(zhì)量值(MAPQ),簡(jiǎn)要比對(duì)信息表達(dá)式(Cigar),模板長(zhǎng)度(Tlen);區(qū)分模塊:其與所述比對(duì)模塊相連接,用于區(qū)分可能發(fā)生ITD的測(cè)序片段和不可能發(fā)生ITD的測(cè)序片段;模式比對(duì)模塊,其與所述區(qū)分模塊相連接,用于對(duì)于可能發(fā)生ITD的測(cè)序片段,根據(jù)其soft-clipping的模式,向前或向后進(jìn)行比對(duì);真實(shí)ITD判斷模塊:其與所述模式比對(duì)相連接,用于判斷所述可能發(fā)生ITD的測(cè)序片段是否真實(shí)發(fā)生了ITD;以及輸出模塊:其與所述真實(shí)ITD判斷模塊相連接,用于輸出ITD檢測(cè)結(jié)果,所述檢測(cè)結(jié)果可以包括:染色體(chr)、染色體起始位置(Start)、染色體終止位置(End)、參考基因組序列信息(Ref)、突變r(jià)eads的序列信息(Alt)、功能區(qū)域(Func.refGene)、基因名(Gene.refGene)轉(zhuǎn)錄本號(hào)(GeneDetail.refGene)、氨基酸變異位置信息(AAChange.refGene)、堿基質(zhì)量(QUAL)、插入入片段序列(INS),插入片段長(zhǎng)度(SVLEN)、ITD深度及支持?jǐn)?shù)(DA)。優(yōu)選地,所述用于檢測(cè)ITD的裝置用于檢測(cè)FLT3-ITD。優(yōu)選地,所述區(qū)分模塊例如可以包括以下子模塊:長(zhǎng)度過濾子模塊:其與所述比對(duì)模塊相連接,用于過濾soft-clipping長(zhǎng)度小于設(shè)定值的測(cè)序片段;所述設(shè)定值可以視需要選擇例如為10bp左右;比對(duì)結(jié)果模式判斷子模塊:其與所述長(zhǎng)度過濾模塊相連接,用于根據(jù)所述比對(duì)模塊的比對(duì)結(jié)果,對(duì)于兩個(gè)片段描述信息(qname)相同的測(cè)序片段R1和R2,根據(jù)其cigar信息,分別確定該兩個(gè)測(cè)序片段的比對(duì)信息,若測(cè)序片段左側(cè)發(fā)生soft-clipping,則比對(duì)結(jié)果模式為“TS”,若測(cè)序片段右側(cè)發(fā)生soft-clipping,則比對(duì)結(jié)果模式為“ST”,若測(cè)序片段無soft-clipping,則比對(duì)結(jié)果模式為“SS”,將測(cè)序片段中發(fā)生soft-clipping的部分與正常比對(duì)部分的結(jié)合處作為斷點(diǎn);ITD區(qū)分子模塊:其與所述比對(duì)結(jié)果模式判斷模塊相連接,用于根據(jù)所述測(cè)序片段R1和R2的比對(duì)結(jié)果模式信息和參考序列編號(hào)信息,判斷與上述片段描述信息對(duì)應(yīng)的DNA片段是否可能發(fā)生ITD;優(yōu)選地,對(duì)于判斷為可能發(fā)生ITD的DNA片段,從所述R1和R2分別獲取所述斷點(diǎn)上游的序列信息和所述斷點(diǎn)下游的序列信息,并將獲取的序列信息分別保存至兩個(gè)文件中;優(yōu)選地,所述文件可以是例如fastq文件;具體地,當(dāng)所述R1和R2為下述組合時(shí),可以判定上述片段描述信息對(duì)應(yīng)的DNA片段有可能發(fā)生ITD:若R1比對(duì)結(jié)果TS,R2比較結(jié)果模式為SS,且R1參考序列編號(hào)與read2參考序列編號(hào)相同,則該條DNA片段可能發(fā)生了ITD。優(yōu)選地,所述模式比對(duì)模塊中,如果可能發(fā)生ITD的測(cè)序片段的soft-clipping模式為ST,則利用模式增長(zhǎng)算法將T作為模式,從該測(cè)序片段起始比對(duì)位置向前比對(duì),取最大唯一比對(duì)序列,比對(duì)范圍例如可以為2倍測(cè)序長(zhǎng)度(2×PEsize);如果可能發(fā)生ITD的測(cè)序片段的soft-clipping模式為TS,則利用模式增長(zhǎng)算法將T作為模式,從該測(cè)序片段末端比對(duì)位置向后比對(duì),取最大唯一比對(duì)序列,比對(duì)范圍例如可以為2倍測(cè)序長(zhǎng)度(2×PEsize)。優(yōu)選地,所述真實(shí)ITD判斷模塊可以包括下述子模塊:斷點(diǎn)信息獲取子模塊:其與所述區(qū)分模塊相連接,用于將具體soft-clipping的測(cè)序片段根據(jù)斷點(diǎn)分為左右兩側(cè),獲取ITD斷點(diǎn)信息,所述ITD斷點(diǎn)信息包括:left_pos:斷點(diǎn)左側(cè)位置left_seq:斷點(diǎn)左側(cè)堿基序列,right_pos:斷點(diǎn)右側(cè)位置對(duì)應(yīng)的比對(duì)位置,right_seq:斷點(diǎn)右側(cè)堿基序列,以及sup:斷點(diǎn)支持度,支持該斷點(diǎn)的reads個(gè)數(shù),默認(rèn)為1;斷點(diǎn)篩選子模塊:其與所述斷點(diǎn)信息獲取子模塊相連接,用于篩選真實(shí)ITD斷點(diǎn);斷點(diǎn)初次合并子模塊:其與所述斷點(diǎn)篩選子模塊相連接,用于將具有相同的斷點(diǎn)信息的斷點(diǎn)合并為一個(gè)斷點(diǎn),并將具有相同斷點(diǎn)信息的斷點(diǎn)個(gè)數(shù)作為新合成的斷點(diǎn)的支持度;其中,相同的斷點(diǎn)信息是指left_chr、left_pos、right_chr和right_pos均相同;以及斷點(diǎn)再次合并子模塊:其與所述斷點(diǎn)初次合并子模塊相連接,將left_chr和right_chr相同、但right_pos或left_pos相差一定值以內(nèi)的真實(shí)ITD斷點(diǎn)合并為一個(gè)ITD斷點(diǎn)。優(yōu)選地,所述斷點(diǎn)篩選子模塊按如下規(guī)則篩選真實(shí)ITD斷點(diǎn):a.若存在斷點(diǎn)A和B,A中l(wèi)eft_pos等于B中l(wèi)eft_pos,A中right_pos等于B中right_pos,則只要存在此類斷點(diǎn)A和B,將該斷點(diǎn)A和B判斷為真實(shí)ITD斷點(diǎn)。b.若存在斷點(diǎn)A,A中sup個(gè)數(shù)大于一定值(例如5),且斷點(diǎn)支持度/斷點(diǎn)右側(cè)或左側(cè)位置深度所得的值大于一定值(例如0.1),且該斷點(diǎn)支持度與soft-clipingreads支持參考基因組深度和健康人在該位點(diǎn)的測(cè)序深度做fisher精確檢驗(yàn),差異顯著(例如p<0.05),且因模式增長(zhǎng)算法是無錯(cuò)匹配保證了比對(duì)質(zhì)量,則確定該斷點(diǎn)為ITD陽(yáng)性斷點(diǎn)(即真實(shí)ITD斷點(diǎn));以及c.模式ST發(fā)生soft-clipping的測(cè)序片段的序列位置與斷點(diǎn)位置長(zhǎng)度為ITD的長(zhǎng)度,right_pos與斷點(diǎn)之間的序列信息即為ITD的序列信息。優(yōu)選地,所述斷點(diǎn)再次合并子模塊根據(jù)以上斷點(diǎn)信息,若存在斷點(diǎn)A中l(wèi)eft_pos與斷點(diǎn)B中right_pos距離的絕對(duì)值小于ITD長(zhǎng)度,且斷點(diǎn)A確定的內(nèi)部串聯(lián)重復(fù)序列信息和斷點(diǎn)B確定的內(nèi)部串聯(lián)重復(fù)序列信息一致,則將此斷點(diǎn)A和斷點(diǎn)B合并為同一個(gè)ITD斷點(diǎn)。最終得到ITD檢測(cè)結(jié)果。在另一個(gè)方面中,本發(fā)明還提供一種檢測(cè)ITD的方法,其包括以下步驟:一種用于檢測(cè)ITD的方法,其包括以下步驟:測(cè)序數(shù)據(jù)獲取步驟,獲取測(cè)序數(shù)據(jù);優(yōu)選地,所述測(cè)序數(shù)據(jù)是采用雙端測(cè)序(Paired-endSequencing,PE測(cè)序)方法獲得的測(cè)序數(shù)據(jù);比對(duì)步驟:將獲取的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段在基因中對(duì)應(yīng)的位置;優(yōu)選地,該步驟可以利用bwa軟件,查找測(cè)序片段在基因中對(duì)應(yīng)的位置,并形成bam格式文件;優(yōu)選地,該bam文件中,包括每條測(cè)序片段的描述信息(qname),序列信息(seq)、比對(duì)位置(POS),位標(biāo)識(shí)(flag),比對(duì)質(zhì)量值(MAPQ),簡(jiǎn)要比對(duì)表達(dá)信息(Cigar),模板長(zhǎng)度(Tlen);區(qū)分步驟:區(qū)分可能發(fā)生ITD的測(cè)序片段和不可能發(fā)生ITD的測(cè)序片段;模式比對(duì)步驟,對(duì)于可能發(fā)生ITD的測(cè)序片段,根據(jù)其soft-clipping的模式,向前或向后進(jìn)行比對(duì);真實(shí)ITD判斷步驟:判斷所述可能發(fā)生ITD的測(cè)序片段是否真實(shí)發(fā)生了ITD;以及輸出步驟:輸出ITD檢測(cè)結(jié)果,所述檢測(cè)結(jié)果可以包括:染色體(chr)、染色體起始位置(Start)、染色體終止位置(End)、參考基因組序列信息(Ref)、突變r(jià)eads的序列信息(Alt)、功能區(qū)域(Func.refGene)、基因名(Gene.refGene)轉(zhuǎn)錄本號(hào)(GeneDetail.refGene)、氨基酸變異位置信息(AAChange.refGene)、堿基質(zhì)量(QUAL)、插入入片段序列(INS),插入片段長(zhǎng)度(SVLEN)、ITD深度及支持?jǐn)?shù)(DA)。優(yōu)選地,所述用于檢測(cè)ITD的方法用于檢測(cè)FLT3-ITD。優(yōu)選地,所述區(qū)分步驟例如可以包括以下子步驟:長(zhǎng)度過濾子步驟:過濾soft-clipping(soft-clipping)長(zhǎng)度小于設(shè)定值的測(cè)序片段;所述設(shè)定值可以視需要選擇例如為10bp左右;比對(duì)結(jié)果模式判斷子步驟:根據(jù)所述比對(duì)步驟的比對(duì)結(jié)果,對(duì)于兩個(gè)片段描述信息(qname)相同的測(cè)序片段R1和R2,根據(jù)其cigar信息,分別確定該兩個(gè)測(cè)序片段的比對(duì)信息,若測(cè)序片段左側(cè)發(fā)生soft-clipping,則比對(duì)結(jié)果模式為“TS”,若測(cè)序片段右側(cè)發(fā)生soft-clipping,則比對(duì)結(jié)果模式為“ST”,若測(cè)序片段無soft-clipping,則比對(duì)結(jié)果模式為“SS”,將測(cè)序片段中發(fā)生soft-clipping的部分與正常比對(duì)部分的結(jié)合處作為斷點(diǎn);ITD區(qū)分子步驟:根據(jù)所述測(cè)序片段R1和R2的比對(duì)結(jié)果模式信息和參考序列編號(hào)信息,判斷與上述片段描述信息對(duì)應(yīng)的DNA片段是否可能發(fā)生ITD;優(yōu)選地,對(duì)于判斷為可能發(fā)生ITD的DNA片段,從所述R1和R2分別獲取所述斷點(diǎn)上游的序列信息和所述斷點(diǎn)下游的序列信息,并將獲取的序列信息分別保存至兩個(gè)文件中;優(yōu)選地,所述文件可以是例如fastq文件;具體地,當(dāng)所述R1和R2為下述組合時(shí),可以判定上述片段描述信息對(duì)應(yīng)的DNA片段有可能發(fā)生ITD:若R1比對(duì)結(jié)果TS,R2比較結(jié)果模式為SS,且R1參考序列編號(hào)與read2參考序列編號(hào)相同,則該條DNA片段可能發(fā)生了ITD。優(yōu)選地,所述模式比對(duì)步驟中,如果可能發(fā)生ITD的測(cè)序片段的soft-clipping模式為ST,則利用模式增長(zhǎng)算法將T作為模式,從該測(cè)序片段起始比對(duì)位置向前比對(duì),取最大唯一比對(duì)序列,比對(duì)范圍例如可以為2倍測(cè)序長(zhǎng)度(2×PEsize);如果可能發(fā)生ITD的測(cè)序片段的soft-clipping模式為TS,則利用模式增長(zhǎng)算法將T作為模式,從該測(cè)序片段末端比對(duì)位置向后比對(duì),取最大唯一比對(duì)序列,比對(duì)范圍例如可以為2倍測(cè)序長(zhǎng)度(2×PEsize)。優(yōu)選地,所述真實(shí)ITD判斷步驟可以包括下述子步驟:斷點(diǎn)信息獲取子步驟:將具有soft-clipping的測(cè)序片段根據(jù)斷點(diǎn)分為左右兩側(cè),獲取ITD斷點(diǎn)信息,所述ITD斷點(diǎn)信息包括:left_pos:斷點(diǎn)左側(cè)位置,soft-clippingreads左側(cè)比對(duì)位置加上它所比對(duì)的序列長(zhǎng)度,left_seq:斷點(diǎn)左側(cè)堿基序列,right_pos:斷點(diǎn)右側(cè)位置對(duì)應(yīng)的比對(duì)位置,right_seq:斷點(diǎn)右側(cè)堿基序列,以及sup:斷點(diǎn)支持度,支持該斷點(diǎn)的reads個(gè)數(shù),默認(rèn)為1;斷點(diǎn)篩選子步驟:篩選真實(shí)ITD斷點(diǎn);斷點(diǎn)初次合并子步驟:將具有相同的斷點(diǎn)信息的斷點(diǎn)合并為一個(gè)斷點(diǎn),并將具有相同斷點(diǎn)信息的斷點(diǎn)個(gè)數(shù)作為新合成的斷點(diǎn)的支持度;其中,相同的斷點(diǎn)信息是指left_chr、left_pos、right_chr和right_pos均相同;以及斷點(diǎn)再次合并子步驟:將left_chr和right_chr相同、但right_pos或left_pos相差一定值以內(nèi)的真實(shí)ITD斷點(diǎn)合并為一個(gè)ITD斷點(diǎn)。優(yōu)選地,所述斷點(diǎn)篩選子步驟按如下規(guī)則篩選真實(shí)ITD斷點(diǎn):a.若存在斷點(diǎn)A和B,A中l(wèi)eft_pos等于B中l(wèi)eft_pos,A中right_pos等于B中right_pos,則只要存在此類斷點(diǎn)A和B,將該斷點(diǎn)A和B判斷為真實(shí)ITD斷點(diǎn)。b.若存在斷點(diǎn)A,A中sup個(gè)數(shù)大于一定值(例如5),且斷點(diǎn)支持度/斷點(diǎn)右側(cè)或左側(cè)位置深度所得的值大于一定值(例如0.1),且該斷點(diǎn)支持度與soft-clipingreads支持參考基因組深度和健康人在該位點(diǎn)的測(cè)序深度做fisher精確檢驗(yàn),差異顯著(例如p<0.05),且因模式增長(zhǎng)算法是無錯(cuò)匹配保證了比對(duì)質(zhì)量,則確定該斷點(diǎn)為ITD陽(yáng)性斷點(diǎn)(即真實(shí)ITD斷點(diǎn));以及c.模式ST發(fā)生soft-clipping的測(cè)序片段的序列位置與斷點(diǎn)位置長(zhǎng)度為ITD的長(zhǎng)度,right_pos與斷點(diǎn)之間的序列信息即為ITD的序列信息。優(yōu)選地,所述斷點(diǎn)再次合并子步驟根據(jù)以上斷點(diǎn)信息,若存在斷點(diǎn)A中l(wèi)eft_pos與斷點(diǎn)B中right_pos距離的絕對(duì)值小于ITD長(zhǎng)度,且斷點(diǎn)A確定的內(nèi)部串聯(lián)重復(fù)序列信息和斷點(diǎn)B確定的內(nèi)部串聯(lián)重復(fù)序列信息一致,則將此斷點(diǎn)A和斷點(diǎn)B合并為同一個(gè)ITD斷點(diǎn)。最終得到ITD檢測(cè)結(jié)果。根據(jù)本發(fā)明,能夠提供一種檢測(cè)速度快、資源要求低、穩(wěn)定性高的用于檢測(cè)ITD的裝置及方法。附圖說明圖1是本發(fā)明的用于檢測(cè)ITD的裝置的優(yōu)選實(shí)施方式的一例的示意圖。圖2現(xiàn)有技術(shù)的用于檢測(cè)ITD的裝置的一例的示意圖。發(fā)明的具體實(shí)施方式本說明書中提及的科技術(shù)語(yǔ)具有與本領(lǐng)域技術(shù)人員通常理解的含義相同的含義,如有沖突以本說明書中的定義為準(zhǔn)。一般而言,本說明書中采用的術(shù)語(yǔ)具有如下含義。參考序列(Refseq):物種參考標(biāo)準(zhǔn)基因組序列。內(nèi)部串聯(lián)重復(fù)(InternalTandemDuplication/ITD):序列以各自的核心序列(重復(fù)單元)首尾相連多次重復(fù)。Reads(測(cè)序片段):基因組或轉(zhuǎn)錄組序列片段。PE測(cè)序:雙端測(cè)序,一種測(cè)序方法,本裝置采用PEsize=75bp。read1/2:PE測(cè)序下機(jī)數(shù)據(jù)中,read1是第一輪測(cè)試得到的堿基序列,read2是第二輪測(cè)試得到的堿基序列。bwa:一種比對(duì)方法軟件,用于查找reads所在Refseq中的位置,最終可得到bam格式文件。adapter序列:測(cè)序中DNA片段兩側(cè)的接頭序列。soft-clippingreads:軟剪切片段,在reads進(jìn)行比對(duì)后,若存在部分序列比對(duì)到Refseq某位置,另一部分比對(duì)到Refseq另一位置或不能比對(duì)到Refseq,則該reads被稱為soft-clippingreads。斷點(diǎn)(breakpoint):soft-clippingreads比對(duì)到參考基因組和未比到參考基因組的基因序列相互連接的點(diǎn)。flag:bam格式文件中,用于描述序列比對(duì)模式、方向等信息的一個(gè)值。cigar:簡(jiǎn)要比對(duì)信息表達(dá)式,其以參考序列為基礎(chǔ),使用數(shù)據(jù)加字母表示比對(duì)結(jié)果。unmappedreads:指reads未比對(duì)到Refseq中某一位置。duplication:重復(fù)序列,指由PCR擴(kuò)增的序列。qname:比對(duì)片段的(template)的編號(hào)。錯(cuò)配率:在比對(duì)過程中,可以容許reads與Refseq存在一定的差異,差異值與reads長(zhǎng)度之比為錯(cuò)配率。比對(duì)質(zhì)量值:表示比對(duì)到錯(cuò)誤位置的可能性,值越高表示可能性越低。實(shí)施例以下給出實(shí)施例,對(duì)本發(fā)明進(jìn)行更具體的說明,但本發(fā)明不限于這些實(shí)施例。實(shí)施例1本發(fā)明的用于檢測(cè)ITD的裝置實(shí)施例1的用于檢測(cè)ITD的裝置具備:測(cè)序數(shù)據(jù)獲取模塊,用于獲取測(cè)序數(shù)據(jù);所述測(cè)序數(shù)據(jù)是采用雙端測(cè)序(Paired-endSequencing,PE測(cè)序)方法獲得的測(cè)序數(shù)據(jù);比對(duì)模塊:其與所述測(cè)序數(shù)據(jù)獲取模塊相連接,用于將獲取的測(cè)序數(shù)據(jù)與參考序列進(jìn)行比對(duì),獲取測(cè)序片段在基因中對(duì)應(yīng)的位置;該模塊利用bwa軟件,查找測(cè)序片段在基因中對(duì)應(yīng)的位置,并形成bam格式文件;用bedtools提取exon14上下游500bp的reads信息,生成后續(xù)分析的bam文件;該bam文件中,包括每條測(cè)序片段的描述信息(qname),序列信息(seq)、比對(duì)位置(POS)、位標(biāo)識(shí)(flag)、比對(duì)質(zhì)量值(MAPQ)、簡(jiǎn)要比對(duì)表達(dá)信息(Cigar),模板長(zhǎng)度(Tlen);區(qū)分模塊:其與所述比對(duì)模塊相連接,用于區(qū)分可能發(fā)生ITD的測(cè)序片段和不可能發(fā)生ITD的測(cè)序片段;模式比對(duì)模塊,其與所述區(qū)分模塊相連接,用于對(duì)于可能發(fā)生ITD的測(cè)序片段,根據(jù)其soft-clipping的模式,向前或向后進(jìn)行比對(duì);真實(shí)ITD判斷模塊:其與所述模式比對(duì)相連接,用于判斷所述可能發(fā)生ITD的測(cè)序片段是否真實(shí)發(fā)生了ITD;以及輸出模塊:其與所述真實(shí)ITD判斷模塊相連接,用于輸出ITD檢測(cè)結(jié)果,所述檢測(cè)結(jié)果可以包括:染色體(chr)、染色體起始位置(Start)、染色體終止位置(End)、參考基因組序列信息(Ref)、突變r(jià)eads的序列信息(Alt)、功能區(qū)域(Func.refGene)、基因名(Gene.refGene)轉(zhuǎn)錄本號(hào)(GeneDetail.refGene)、氨基酸變異位置信息(AAChange.refGene)、堿基質(zhì)量(QUAL)、插入入片段序列(INS),插入片段長(zhǎng)度(SVLEN)、ITD深度及支持?jǐn)?shù)(DA)(例如DA=1667,150:1667表示該位置的總深度,150表示支持ITD的reads數(shù)目)。該用于檢測(cè)ITD的裝置可用于檢測(cè)FLT3-ITD。所述區(qū)分模塊包括以下子模塊:長(zhǎng)度過濾子模塊:其與所述比對(duì)模塊相連接,用于過濾soft-clipping(軟剪切)長(zhǎng)度小于10bp的測(cè)序片段;比對(duì)結(jié)果模式判斷子模塊:其與所述長(zhǎng)度過濾模塊相連接,用于根據(jù)所述比對(duì)模塊的比對(duì)結(jié)果,對(duì)于兩個(gè)片段描述信息(qname)相同的測(cè)序片段R1和R2,根據(jù)其cigar信息,分別確定該兩個(gè)測(cè)序片段的比對(duì)信息,若測(cè)序片段左側(cè)發(fā)生soft-clipping,則比對(duì)結(jié)果模式為“TS”,若測(cè)序片段右側(cè)發(fā)生soft-clipping,則比對(duì)結(jié)果模式為“ST”,若測(cè)序片段無soft-clipping,則比對(duì)結(jié)果模式為“SS”,將測(cè)序片段中發(fā)生soft-clipping的部分與正常比對(duì)部分的結(jié)合處作為斷點(diǎn);ITD區(qū)分子模塊:其與所述比對(duì)結(jié)果模式判斷模塊相連接,用于根據(jù)所述測(cè)序片段R1和R2的比對(duì)結(jié)果模式信息和參考序列編號(hào)信息,判斷與上述片段描述信息對(duì)應(yīng)的DNA片段是否可能發(fā)生ITD;對(duì)于判斷為可能發(fā)生ITD的DNA片段,從所述R1和R2分別獲取所述斷點(diǎn)上游的序列信息和所述斷點(diǎn)下游的序列信息,并將獲取的序列信息分別保存至兩個(gè)文件中;所述文件可以是例如fastq文件;具體地,當(dāng)所述R1和R2為下述組合時(shí),可以判定上述片段描述信息對(duì)應(yīng)的DNA片段有可能發(fā)生ITD:若R1比對(duì)結(jié)果TS,R2比較結(jié)果模式為SS,且R1參考序列編號(hào)與read2參考序列編號(hào)相同,則該條DNA片段可能發(fā)生了ITD。所述模式比對(duì)模塊完成下述操作:如果可能發(fā)生ITD的測(cè)序片段的soft-clipping模式為ST,則利用模式增長(zhǎng)算法將T作為模式,從該測(cè)序片段起始比對(duì)位置向前比對(duì),取最大唯一比對(duì)序列,比對(duì)范圍為2倍測(cè)序長(zhǎng)度(2×PEsize);以及如果可能發(fā)生ITD的測(cè)序片段的soft-clipping模式為TS,則利用模式增長(zhǎng)算法將T作為模式,從該測(cè)序片段末端比對(duì)位置向后比對(duì),取最大唯一比對(duì)序列,比對(duì)范圍為2倍測(cè)序長(zhǎng)度(2×PEsize)。所述真實(shí)ITD判斷模塊可以包括下述子模塊:斷點(diǎn)信息獲取子模塊:其與所述區(qū)分模塊相連接,用于將具有soft-clipping的測(cè)序片段根據(jù)斷點(diǎn)分為左右兩側(cè),獲取ITD斷點(diǎn)信息,所述ITD斷點(diǎn)信息包括:left_pos:斷點(diǎn)左側(cè)位置,soft-clippingreads左側(cè)比對(duì)位置加上它所比對(duì)的序列長(zhǎng)度,left_seq:斷點(diǎn)左側(cè)堿基序列,right_pos:斷點(diǎn)右側(cè)位置對(duì)應(yīng)的比對(duì)位置,right_seq:斷點(diǎn)右側(cè)堿基序列,以及sup:斷點(diǎn)支持度,支持該斷點(diǎn)的reads個(gè)數(shù),默認(rèn)為1;斷點(diǎn)篩選子模塊:其與所述斷點(diǎn)信息獲取子模塊相連接,用于篩選真實(shí)ITD斷點(diǎn);斷點(diǎn)初次合并子模塊:其與所述斷點(diǎn)篩選子模塊相連接,用于將具有相同的斷點(diǎn)信息的斷點(diǎn)合并為一個(gè)斷點(diǎn),并將具有相同斷點(diǎn)信息的斷點(diǎn)個(gè)數(shù)作為新合成的斷點(diǎn)的支持度;其中,相同的斷點(diǎn)信息是指left_chr、left_pos、right_chr和right_pos均相同;以及斷點(diǎn)再次合并子模塊:其與所述斷點(diǎn)初次合并子模塊相連接,將left_chr和right_chr相同、但right_pos或left_pos相差一定值(例如小于插入片段長(zhǎng)度(SVLEN))以內(nèi)且斷點(diǎn)A確定的內(nèi)部串聯(lián)重復(fù)序列信息與斷點(diǎn)B確定的內(nèi)部串聯(lián)重復(fù)序列信息一致的真實(shí)ITD斷點(diǎn)合并為同一個(gè)ITD斷點(diǎn)。所述斷點(diǎn)篩選子模塊按如下規(guī)則篩選真實(shí)ITD斷點(diǎn):a.若存在斷點(diǎn)A和B,A中l(wèi)eft_pos等于B中l(wèi)eft_pos,A中right_pos等于B中right_pos,則只要存在此類斷點(diǎn)A和B,將該斷點(diǎn)A和B判斷為真實(shí)ITD斷點(diǎn)。b.若存在斷點(diǎn)A,A中sup個(gè)數(shù)大于5,且斷點(diǎn)支持度/斷點(diǎn)右側(cè)或左側(cè)位置深度所得的值大于0.1,且該斷點(diǎn)支持度與soft-clipingreads支持參考基因組深度和健康人在該位點(diǎn)的測(cè)序深度做fisher精確檢驗(yàn),差異顯著(p<0.05),且因模式增長(zhǎng)算法是無錯(cuò)匹配保證了比對(duì)質(zhì)量,則確定該斷點(diǎn)為ITD陽(yáng)性斷點(diǎn)(真實(shí)ITD斷點(diǎn));以及c.模式ST發(fā)生soft-clipping的測(cè)序片段的序列位置與斷點(diǎn)位置長(zhǎng)度為ITD的長(zhǎng)度,right_pos與斷點(diǎn)之間的序列信息即為ITD的序列信息。所述斷點(diǎn)再次合并子模塊根據(jù)以上斷點(diǎn)信息,若存在斷點(diǎn)A中l(wèi)eft_pos與斷點(diǎn)B中right_pos距離的絕對(duì)值小于ITD長(zhǎng)度,且斷點(diǎn)A確定的內(nèi)部串聯(lián)重復(fù)序列信息和斷點(diǎn)B確定的內(nèi)部串聯(lián)重復(fù)序列信息一致,則將此斷點(diǎn)A和斷點(diǎn)B合并為同一個(gè)ITD斷點(diǎn)。最終得到ITD檢測(cè)結(jié)果。所述輸出模塊輸出ITD檢測(cè)結(jié)果。實(shí)施例2對(duì)一例急性髓細(xì)胞白血病(AML)患者的骨髓樣本進(jìn)行ITD檢測(cè)1.1血液樣本DNA提取使用過膜法提取骨髓樣本基因組DNA,具體步驟參照天根血液/細(xì)胞/組織基因組DNA提取試劑盒操作手冊(cè)。1.2末端修復(fù)(EndRepair)(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個(gè)樣本配制量參見表1。表1(2)末端修復(fù)反應(yīng):加入DNA樣本后將1.5mL離心管置于Thermomixer中20℃溫浴30分鐘。反應(yīng)結(jié)束后使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于32μLEB。1.3末端加“A”(A-Tailing)(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個(gè)樣本配制量參見表2:表2(2)末端加“A”反應(yīng):加入32μL上一步純化回收的DNA后將1.5mL離心管置于Thermomixer中37℃溫浴30分鐘。使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于18μLEB中。1.4接頭的連接(AdapterLigation)(1)預(yù)先從-20℃保存的試劑盒中取出所需試劑,單個(gè)樣本配制量參見表3:表3(2)接頭的連接反應(yīng):加入18μL上一步純化回收的DNA后將樣本管置于Thermomixer中20℃溫浴15分鐘。使用1.8×核酸純化磁珠回收純化反應(yīng)體系中的DNA,溶于30μL的EB中。1.5PCR反應(yīng)(1)從-20℃保存的試劑盒中取出所需試劑,2mL的PCR管中配制PCR反應(yīng)體系:表4(2)設(shè)定PCR程序,PCR反應(yīng)的程序設(shè)定如下:反應(yīng)結(jié)束及時(shí)將樣品取出放入4℃冰箱保存并按要求退出或關(guān)閉儀器。(3)用0.9×核酸純化磁珠回收純化反應(yīng)體系中的DNA,純化后的文庫(kù)溶于20μL的ddH2O中。對(duì)文庫(kù)進(jìn)行Qubit檢測(cè),將文庫(kù)送檢安捷倫2100。1.6血液病目標(biāo)區(qū)域捕獲芯片文庫(kù)雜交(1)本實(shí)驗(yàn)中,用于提供雜交捕獲反應(yīng)的離子環(huán)境的緩沖液、以及用于洗脫物理吸附或非特異性雜交的清洗液、漂洗液均可從商業(yè)途徑獲得。(2)準(zhǔn)備雜交文庫(kù):將待雜交的DNA文庫(kù)在冰上融化,取總質(zhì)量1μg(在后續(xù)操作步驟中將此DNA文庫(kù)稱為樣本文庫(kù))。(3)制備Ann引物Pool:將樣本文庫(kù)Index對(duì)應(yīng)的標(biāo)簽引物In1(100μM)及公共引物(1000μM)各取1000pmol混合,(在后續(xù)操作步驟中將此混合物稱為Ann引物pool)。(4)雜交樣本的制備:向1.5mLEP管中加入5μLCOTDNA(HumanCot-1DNA,Lifetechnologies,1mg/mL)、1μg樣本文庫(kù)、Ann引物pool。用封口膜密封制備好的雜交樣本EP管,將盛有樣本文庫(kù)pool/COTDNA/Ann引物pool的EP管置于真空裝置中直到完全干燥。(5)雜交樣本的溶液:向樣本文庫(kù)pool/COTDNA/Ann引物pool的干粉中加入:7.5μL2×雜交緩沖液3μL雜交組分A(6)充分混勻后將上述混合物置于預(yù)先準(zhǔn)備好的95℃加熱模塊上變性10分鐘。(7)將上述混合物轉(zhuǎn)移至含有4.5μL捕獲芯片的0.2mL平蓋PCR管中。充分渦旋震蕩3秒,將雜交樣品混合物置于47℃加熱模塊上16小時(shí)。加熱模塊的熱蓋溫度需設(shè)定為57℃,雜交后產(chǎn)物需進(jìn)行后續(xù)洗脫回收操作。(8)將10×清洗液(Ⅰ,Ⅱ與Ⅲ)、10×漂洗液和2.5×磁珠清洗液配置成1×工作液。表5(9)將下列試劑在47℃加熱模塊中預(yù)熱:400μL1×漂洗液100μL1×清洗液I1.7制備親和吸附磁珠(1)將鏈霉親和素磁珠(DynabeadsM-280Streptavidin,以下簡(jiǎn)稱磁珠)在室溫下平衡30分鐘后,將磁珠充分渦旋混勻15秒。(2)向1.5mL離心管中分裝100μL磁珠,將盛有100μL磁珠的離心管置于磁力架上,約5分鐘后小心吸棄上清,加兩倍于磁珠初始體積的1×磁珠清洗液,渦旋混勻10秒。將盛有磁珠的離心管放回磁力架,吸附磁珠。待溶液澄清,吸棄上清。重復(fù)次步驟,共洗滌兩次。(3)洗滌完畢后吸棄磁珠清洗液,用磁珠初始體積的1×磁珠清洗液渦旋重懸磁珠轉(zhuǎn)入0.2mL的PCR管中。將PCR管置于磁力架上吸附磁珠澄清后吸棄上清。1.8DNA與親和吸附磁珠的結(jié)合及漂洗(1)將雜交的樣本文庫(kù)轉(zhuǎn)入盛有親和吸附磁珠的0.2mLPCR管中,渦旋振蕩混勻。(2)將0.2mLPCR管置于47℃加熱模塊45分鐘,每隔15分鐘渦旋混勻一次,使DNA與磁珠結(jié)合。(3)45分鐘孵育后,向15μL捕獲的DNA樣本中加入47℃預(yù)熱的1×清洗液I100μL。渦旋混勻10秒。將0.2mLPCR管中的全部組分轉(zhuǎn)入1.5mL離心管中。將1.5mL離心管置于磁力架上吸附磁珠,棄上清。(4)將1.5mL離心管從磁力架上取下,加入200μL預(yù)熱47℃的1×漂洗液。吸打混勻10次(需迅速操作,防止試劑、樣品溫度低于47℃)。混勻后樣本置于47℃加熱模塊上5分鐘。重復(fù)此步驟,用47℃的1×漂洗液共洗滌兩次。將1.5mL的離心管置于磁力架上,吸附磁珠,棄上清。(5)向上述1.5mL離心管中加入200μL室溫的1×清洗液I,渦旋混勻2分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅱ,渦旋混勻1分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅲ,渦旋混勻30秒。將離心管置于磁力架上,吸附磁珠,棄上清。(6)1.5mL離心管從磁力架上取下,加入45μLPCR水,溶解洗脫磁珠捕獲樣本。1.9捕獲DNA的PCR擴(kuò)增(1)按下表制備捕獲后PCRmix,制備好后渦旋震蕩混勻。富集引物F和富集引物R均購(gòu)自英濰捷基公司。(2)磁珠吸附DNAPCR的擴(kuò)增程序設(shè)定如下:(3)雜交捕獲DNAPCR產(chǎn)物的回收純化:用核酸純化磁珠回收純化反應(yīng)體系中的DNA,磁珠使用量為0.9×,純化后的文庫(kù)溶于30μL的ddH2O中。1.10文庫(kù)定量對(duì)文庫(kù)進(jìn)行2100BioAnalyzer(Agilent)/LabChipGX(Caliper)及QPCR檢測(cè),記錄文庫(kù)濃度。1.11文庫(kù)上機(jī)測(cè)序構(gòu)建好的文庫(kù)采用Nextseq550AR進(jìn)行測(cè)序(PE75)。1.12數(shù)據(jù)處理及分析將獲得的測(cè)序數(shù)據(jù)輸入實(shí)施例1的裝置,檢測(cè)ITD。檢測(cè)結(jié)果如下表所示。檢測(cè)結(jié)果表明樣本的FLT3存在ITD:在13號(hào)染色體編碼區(qū)第1802位置上DNA發(fā)生突變,在編碼區(qū)第1802~1803之間插入了長(zhǎng)度為57bp(AGATCATATTCATATTCTCTGAAATCAACGTAGAAGTACTCATTATCTGAGGA)的片段。導(dǎo)致FLT3編碼蛋白第601位亮氨酸(L)缺失,在該位置插入19個(gè)氨基酸(LGSSDNEYFYVDFREYEYDL)。1.13結(jié)果驗(yàn)證采用毛細(xì)管電泳方法對(duì)同一患者骨髓樣本是否發(fā)生上述突變進(jìn)行驗(yàn)證,檢測(cè)結(jié)果表明,該樣本存在FLT3-ITD情況,驗(yàn)證結(jié)果與1.12檢測(cè)結(jié)果一致。本發(fā)明的檢測(cè)裝置能夠成功檢出骨髓樣本中血液病相關(guān)的體細(xì)胞突變。比較例1現(xiàn)有技術(shù)用于檢測(cè)ITD的裝置比較例1的用于檢測(cè)ITD的裝置不具有用于區(qū)分可能發(fā)生ITD的測(cè)序片段和不可能發(fā)生ITD的測(cè)序片段的模塊,且需要對(duì)序列進(jìn)行組裝。對(duì)于一個(gè)ITD陽(yáng)性樣本,利用PE測(cè)序方法,獲取同一批下機(jī)數(shù)據(jù),同時(shí)采用實(shí)施例1和比較例1的裝置檢測(cè)ITD,檢測(cè)結(jié)果如表1所示。表1檢出個(gè)數(shù)陽(yáng)性位點(diǎn)個(gè)數(shù)陽(yáng)性率比較例1的裝置884.14±8.16%實(shí)施例1的裝置1141.15%比較例1檢出ITD位點(diǎn)數(shù)8個(gè),實(shí)際上發(fā)生變異的位置相距在SVLEN內(nèi),且插入片段reads數(shù)均相同,本裝置將這樣的reads合并為同一位置的ITD變異,同時(shí)用fisher精確檢驗(yàn)(P<0.05),確定此位點(diǎn)為陽(yáng)性ITD位點(diǎn)。工業(yè)實(shí)用性根據(jù)本發(fā)明,提供了一種檢測(cè)速度快、資源要求低、穩(wěn)定性高的用于檢測(cè)血液病ITD的裝置及方法。當(dāng)前第1頁(yè)1 2 3