基于種特有序列的檢測或輔助檢測待測菌株的方法
【專利摘要】本發(fā)明公開了一種基于種特有序列的檢測或輔助檢測待測菌株的方法。本發(fā)明提供了一種基于種特有序列的檢測或輔助檢測待測菌株種屬的方法,包括如下步驟:1)建立種特有基因片段數(shù)據(jù)庫和待測菌株的基因片段集合;2)將步驟1)得到所述待測菌株的基因片段集合中的所有片段和所述種特有基因片段數(shù)據(jù)庫中的各個菌株中的種特有基因片段分別進行比對,計算比對比例,選取最大比對比例對應(yīng)的菌株隸屬的種屬為或候選為待測菌株隸屬的種屬;本發(fā)明的實驗證明,本發(fā)明通過建立細菌基因組種特有基因片段數(shù)據(jù)庫,依托細菌基因組初步測序結(jié)果,可實現(xiàn)對多種未知細菌性病原體的快速鑒定和檢測,檢測速度快、靈敏度高、特異性好。
【專利說明】基于種特有序列的檢測或輔助檢測待測菌株的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及生物【技術(shù)領(lǐng)域】,尤其涉及一種基于種特有序列的檢測或輔助檢測待測菌株的方法。
【背景技術(shù)】
[0002]每年病原體感染引發(fā)數(shù)萬人甚至數(shù)十萬人死亡,其中有很多是由病原性細菌引發(fā)的傳染性疾病。及時對病原體進行快速檢測和鑒定對于傳染病的預(yù)防和控制具有積極意義。
[0003]近年來,針對細菌性病原體的快速檢測技術(shù)發(fā)展迅速,主要包括基于微生物學(xué)、化學(xué)、分子生物學(xué)和免疫學(xué)理論的病原體檢驗方法。傳統(tǒng)的病原微生物檢測技術(shù)主要包括生化培養(yǎng)檢測法和血清免疫學(xué)方法等,它們主要對病原微生物進行定性檢測。生化培養(yǎng)檢測法鑒定結(jié)果雖然準確可靠,但這種方法操作繁瑣、耗時長,不能達到快速診斷檢測的目的;此外,一些細菌是不能或很難能夠培養(yǎng)檢測的,例如嗜肺軍團菌屬(Legionella spp.)和分支桿菌屬(Mycobacteria spp.);而且生化培養(yǎng)技術(shù)檢測靈敏度也比較低(30_50%)。免疫學(xué)方法雖然靈敏性高,但易污染,容易導(dǎo)致假陽性結(jié)果,而且免疫學(xué)檢測方法受到抗體和檢測方法的限制,每次只能確定或排除一種病原微生物,往往延誤緊急突發(fā)公共衛(wèi)生事件的處置。另外,這些常用的生化和免疫學(xué)檢驗都不能提供病原微生物的潛在的致病性信息或者相關(guān)毒性信息。
[0004]分子生物學(xué)及分子遺傳學(xué)的發(fā)展,使人們對微生物的認識逐漸從外部結(jié)構(gòu)特征轉(zhuǎn)向內(nèi)部基因結(jié)構(gòu)特征,微生物檢測也相應(yīng)的從生化、免疫方法轉(zhuǎn)向基因水平的檢測。分子生物學(xué)方法主要是以病原體遺傳物質(zhì)核酸為基礎(chǔ)的檢測方法,例如核酸雜交技術(shù)、PCR及其衍生技術(shù)等。當樣本中病原菌含量太低時,可用PCR方法在體外進行DNA擴增,不需進行分離培養(yǎng),其中利用多重PCR方法進行單一或多種致病菌的試驗屢有報道,不足之處在于PCR存在易受污染、假陽性高的缺點。目前,核酸雜交技術(shù)廣泛用于細菌的鑒定,對于那些難以分離培養(yǎng)或不能培養(yǎng)的細菌、生長周期長的細菌,例如生長緩慢的分枝桿菌、布魯氏菌、嗜肺軍團菌、血清學(xué)不易測出的細菌及細菌毒素等,在確定其致病性方面核酸雜交技術(shù)更顯示了其優(yōu)越性。
[0005]生物傳感器技術(shù)主要基于病原體核酸或抗原檢測,是將新興的傳感器技術(shù)和分子診斷技術(shù)相結(jié)合而成的一種新技術(shù),例如光纖傳感器、電化學(xué)傳感器、上轉(zhuǎn)換磷光生物傳感器、納米傳感器等。盡管生物傳感器作為一種新的傳感元件近年來得到了很大的發(fā)展,許多光化學(xué)、電化學(xué)以及壓電晶體都相繼在生物傳感器中得到應(yīng)用,雖然與常規(guī)的核酸和蛋白質(zhì)檢測相比,生物傳感器技術(shù)具有檢測準確、操作簡單等特點,但它同時存在靈敏度不夠、穩(wěn)定性不好,容易受雜質(zhì)干擾等缺點。
[0006]生物芯片技術(shù)是20世紀90年代中期發(fā)展起來的一項新技術(shù),最初是由核酸分子雜交衍生而來,它利用已知序列的核酸探針對未知序列的核酸序列進行雜交檢測。目前,生物芯片不僅可以將寡核苷酸、cDNA、基因組DNA等片段固定在諸如硅片、玻璃片和尼龍膜等固相介質(zhì)上形成生物分子點陣,而且可以將生物大分子,例如肽、抗原以及抗體等固定在這些固相介質(zhì)上形成生物分子點陣,當待測樣品中的生物分子與生物芯片的探針分子發(fā)生雜交或相互作用后,利用激光共聚焦顯微掃描儀對雜交信號進行檢測和分析。根據(jù)生物芯片上探針的分子種類而將之分為DNA芯片(即基因芯片)和蛋白質(zhì)芯片。
[0007]微生物檢測基因芯片是指用來檢測樣品中是否含有微生物目的核酸片段的芯片。基于高通量、微型化和平行分析的特點,微生物檢測基因芯片在微生物病原體檢測、種類鑒定、功能基因檢測、基因分型、突變檢測、基因組監(jiān)測等研究領(lǐng)域中發(fā)揮著越來越重要的作用。但是目前微生物檢測芯片研究中也還存在某些不足,大部分研究只針對一種細菌或一組細菌,檢測的基因探針數(shù)量有限,沒有充分發(fā)揮基因芯片高通量這一主要優(yōu)勢;同時芯片規(guī)模的不足也使制造成本上相對提高,難以規(guī)?;瘧?yīng)用;另外大規(guī)模的特異性探針設(shè)計復(fù)雜,芯片設(shè)計及結(jié)果分析往往缺少一個完整的分析系統(tǒng)。隨著測序技術(shù)的不斷發(fā)展,尤其是新一代測序技術(shù)的出現(xiàn),利用基因組信息對細菌性病原體進行溯源成為可能。在測序過程中,完成原始測序的過程是比較快的,而后期的拼接過程往往需要耗費的時間周期較長。如果等到完成整個基因組的拼接再進行進化溯源分析,往往會耽誤很長時間,影響傳染病的預(yù)防與控制。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的一個目的是提供一種基于種特有序列的檢測或輔助檢測待測菌株種屬的方法。
[0009]本發(fā)明提供的方法,包括如下步驟:
[0010]I)建立菌株的種特有基因片段數(shù)據(jù)庫和待測菌株的基因片段集合;
[0011]所述建立菌株 的種特有基因片段數(shù)據(jù)庫的方法包括如下步驟:
[0012](I)、從NCBI的ftp服務(wù)器下載已完成全基因組測序菌株全基因組序列,生成下載文件,所述下載文件記載每個菌株的基因組序列;
[0013](2)、對所述每個菌株的基因組序列以長度Isubseq為界進行切分,找出基因組中所有的連續(xù)Isubseq個堿基組成的基因片段庫,將每個菌株所述基因片段庫進行去冗余,得到每個菌株基因片段集合,記作Sstrain k, strain_k為第k株菌;所述長應(yīng)/ , =「10§4#"]+2,其中N為下載的所有菌株的基因組序列中最長的基因組序列的長度;
[0014]所述去冗余為將每個菌株的基因片段庫中重復(fù)出現(xiàn)的基因片段只保留一份;
[0015]如:對于一個基因組堿基長度為L的菌株strain_k來說,將會切分出(L-1subsJl)個基因片段。
[0016]K為下載的菌株中的任意一個。
[0017]具體切分方法:每次切分后移I個堿基,即考慮序列中的所有連續(xù)Isubseq個堿基的情況;去冗余:將重復(fù)出現(xiàn)的基因片段只記錄一次,可采用程序中的字典或者集合數(shù)據(jù)結(jié)構(gòu)實現(xiàn)。
[0018](3)、將隸屬于同一個菌種的所述每個菌株基因片段集合進行合并,得到每個菌種基因片段集合,記作Sspe^iei j ;所述合并的計算公式為Ssp-J - (J Sstmi?—k ’其中
-k-l^m
Sstrainji為菌株strain_k的基因片段集合,Sspecie i為菌種specie_i的基因片段集合,且strain_l, strain_2,...,strain_m e specie_i, m 為每個菌種中的菌株數(shù);[0019](4)、將所述每個菌種基因片段集合與所述下載文件中除了該菌種之外其他所有菌種的基因片段集合進行差集比較,選取所述每個菌種基因片段集合中不與任一個其他菌種的基因片段集合重疊的基因片段作為該菌種種特有基因片段集合,記作Smiqm i ;
[0020]所述差集比較的計算公式為S—ieJ = S-“e」—.1 U S,peae_j ’其中n為下載文
件中的菌種總數(shù),Sspecie i為菌種specie」的基因片段集合,Sspecie j為除菌種specie」以外的其他菌種specie」的基因片段集合,Suniquej為菌種specie」的種特有基因片段集合。
[0021](5)、根據(jù)步驟⑷得到的每個菌種種特有基因片段集合和步驟⑵得到的每個菌株基因片段集合,將每個菌株基因片段集合與其隸屬的菌種的種特有基因片段集合進行交集,得到各個菌株中的種特有基因片段集合,記作Sslnuniqlffi k ;所述計算公式為Sslnuniqm k =
Sstrain—k。^unique_i?
其中strain_k e specie_i, Sunique i為菌株strain_k隸屬的菌種的種特有基因片段集合,Sstrainji為菌株strain_k的基因片段集合;
[0022]所述待測菌株的基因片段集合的建立方法包括如下步驟:
[0023]A、提取所述待測菌株的基因組DNA,測序,得到未拼接的基因組DNA序列;
[0024]B、將所述未拼接的基因組DNA序列按照所述(2)的步驟進行切分和去冗余,得到待測菌株的基因片段集合;
[0025]2)將步驟I)得到所述待測菌株的基因片段集合中的所有片段和所述各個菌株中的種特有基因片段分別進行比對,計算比對比例,將所述各個菌株按照比對比例由大到小的順序排列,選取最大比對比例對應(yīng)的菌株隸屬的種屬為或候選為待測菌株隸屬的種屬;
[0026]所述比對比例為E/F,所述E為所述待測菌株的基因片段集合中與各個菌株中的種特有基因片段相同的片段個數(shù),所述F為各個菌株的種特有基因片段個數(shù)。
[0027]上述方法中,所述菌為細菌。
[0028]本發(fā)明的另一個目的是提供一種對待測菌株溯源的方法。
[0029]本發(fā)明提供的方法,包括如下步驟:
[0030]I)根據(jù)上述方法中的待測菌株隸屬的菌種種特有基因片段集合和待測菌株基因片段集合,按照上述方法中的方法計算待測菌株對其隸屬菌種的種特有基因片段集合的貢獻量,得到待測菌株的種特有基因片段集合;
[0031]2)以待測菌株的種特有基因片段集合和所述待測菌株隸屬的各菌株種特有基因片段集合為標記,構(gòu)建系統(tǒng)發(fā)育樹,實現(xiàn)待測菌株溯源。
[0032]本發(fā)明的基本思路是:首先在基因組數(shù)據(jù)庫網(wǎng)站上下載已完成全基因組測序的細菌基因組信息,通過篩選全基因組中的基因片段信息,建立菌種特有片段數(shù)據(jù)庫;然后編寫計算機程序?qū)崿F(xiàn)對待測菌株的序列的切割和比對,從而實現(xiàn)對待測菌株的菌種鑒定;在鑒定待測菌株所屬菌株后,依據(jù)該菌種的特有指紋數(shù)據(jù)在不同菌株及待測菌株中的分布情況,建立系統(tǒng)發(fā)生關(guān)系樹,完成相應(yīng)溯源工作。
[0033]本發(fā)明的實驗證明,與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:1、快速,本發(fā)明中涉及到的種特有基因片段數(shù)據(jù)庫應(yīng)在實施檢測準備就緒,待測菌株完成初步快速測序后無需任何拼接即可直接進行鑒定,檢測時間小于I小時;2、特異性好,由于本發(fā)明基于種特有指紋數(shù)據(jù)庫,具有很好的種特異性。3、全面系統(tǒng),該發(fā)明可以在菌株基因組在未經(jīng)拼接的情況下對其在2000多株細菌基因組中基因片段的分布情況進行分析,全面鑒定其種屬關(guān)系。4、溯源,除以上優(yōu)點外,本發(fā)明還針對待測菌株的原始序列與所鑒定菌種中各菌株的基因片段雜交情況構(gòu)建種內(nèi)進化樹,從而分析出與待測菌株最為接近的進化來源,或待測菌株的重組情況。
[0034]綜上所述,本發(fā)明通過建立細菌基因組種特有基因片段數(shù)據(jù)庫,依托細菌基因組初步測序結(jié)果,可實現(xiàn)對多種未知細菌性病原體的快速鑒定和檢測,檢測速度快、靈敏度高、特異性好,系統(tǒng)全面地分析未知病原體的種屬關(guān)系及其毒力,并對其進化過程進行一定的溯源。該發(fā)明避免了以往芯片技術(shù)往往只針對幾種或者幾十種菌株進行檢測的局限性。利用該技術(shù)優(yōu)勢,將為細菌病原體的疾病預(yù)防控制提供強有力的支撐。
【專利附圖】
【附圖說明】
[0035]圖1為DNA序列切分示意圖。
[0036]圖2為細菌性病原體種特有序列片段數(shù)據(jù)庫示意圖。
[0037]圖3為待測菌株鑒定流程示意圖。
[0038]圖4為包含待測菌株的種內(nèi)系統(tǒng)發(fā)育樹。
【具體實施方式】
[0039]下述實施例中所使用的實驗方法如無特殊說明,均為常規(guī)方法。
[0040]下述實施例中所用的材料、試劑等,如無特殊說明,均可從商業(yè)途徑得到。
[0041]實施例1、基于種特有指紋序列的細菌性病原體檢測方法
[0042]一、菌株的種特有基因片段數(shù)據(jù)庫的獲得
[0043]1、下載NCBI細菌基因組序列數(shù)據(jù)
[0044]登陸NCBI的ftp服務(wù)器(ftp.ncb1.nlm.nih.gov),下載已完成全基因組測序菌株全基因組序列(該服務(wù)器上是都是全基因組測序的,下載的菌均為細菌),生成下載文件,下載文件記載每個菌株的基因組序列;
[0045]本實施例于2013-05-11在NCBI數(shù)據(jù)庫中下載的完成全基因組測序的菌株的全基因組序列,共2349株。
[0046]2)、切分基因組數(shù)據(jù)
[0047]在下載的細菌基因組序列中查找長度最長的基因序列,即查找下載的所有菌株的基因組序列中最長的基因組序列的長度,設(shè)其長度為N,將切分片段長度設(shè)為I t ; =「log4iV~|+2 ο
[0048]如圖1所不,編與python腳本對每個菌株的基因組序列以長度Isubsetl為界進行切分,找出一個基因組中所有的連續(xù)Isubseq個堿基組成的基因片段庫,且利用python中的集合數(shù)據(jù)結(jié)構(gòu)將每個菌株所述基因片段庫去冗余(去冗余為將每個菌株所述基因片段庫中重復(fù)出現(xiàn)的基因片段只保留一份),得到每個菌株基因片段集合SstMin k,strain_k為為第k株菌。k為下載的菌株中的任意一個。
[0049]因此,對于一個基因組堿基長度為L的菌株strain_k來說,將會切分出(L-1subseq+D個基因片段。
[0050]本實施例下載的2349株菌中基因組長度最長的菌株為Sorangium_cellulosum—So_ce_56—uid61629,其基因組長度N=13033779 ;將切分片段長度設(shè)為
【權(quán)利要求】
1.一種基于種特有序列的檢測或輔助檢測待測菌株種屬的方法,包括如下步驟: 1)建立菌株的種特有基因片段數(shù)據(jù)庫和待測菌株的基因片段集合; 所述建立菌株的種特有基因片段數(shù)據(jù)庫的方法包括如下步驟: (1)、從NCBI的ftp服務(wù)器下載已完成全基因組測序菌株全基因組序列,生成下載文件,所述下載文件記載每個菌株的基因組序列; (2)、對所述每個菌株的基因組序列以長度Isubseq為界進行切分,找出基因組中所有的連續(xù)Isubseq個堿基組成的基因片段庫,將每個菌株所述基因片段庫進行去冗余,得到每個菌株基因片段集合,記作Sstrain k,strain_k為第k株菌;所述長度=「log4i\T|+2,其中N為下載的所有菌株的基因組序列中最長的基因組序列的長度; 所述去冗余為將每個菌株的基因片段庫中重復(fù)出現(xiàn)的基因片段只保留一份; (3)、將隸屬于同一個菌種的所述每個菌株基因片段集合進行合并,得到每個菌種基因片段集合,記作Sspecde i ; (4)、將所述每個菌種基因片段集合與所述下載文件中除了該菌種之外其他所有菌種的基因片段集合進行差集比較,選取所述每個菌種基因片段集合中不與任一個其他菌種的基因片段集合重疊的基因片段作為該菌種種特有基因片段集合,記作Smiqm i ; (5)、根據(jù)步驟(4)得到的每個菌種種特有基因片段集合和步驟(2)得到的每個菌株基因片段集合,將每個菌株基因片段集合與其隸屬的菌種的種特有基因片段集合進行交集,得到各個菌株中的種特有基因片段集合,記作Sslnuniqlffi k ; 所述待測菌株的基因片段集合的建立方法包括如下步驟: A、提取所述待測菌株的基因組DNA,測序,得到未拼接的基因組DNA序列; B、將所述未拼接的基因組DNA序列按照所述(2)的步驟進行切分和去冗余,得到待測菌株的基因片段集合; 2)將步驟I)得到所述待測菌株的基因片段集合中的所有片段和所述各個菌株中的種特有基因片段分別進行比對,計算比對比例,將所述各個菌株按照比對比例由大到小的順序排列,選取最大比對比例對應(yīng)的菌株隸屬的種屬為或候選為待測菌株隸屬的種屬; 所述比對比例為E/F,所述E為所述待測菌株的基因片段集合中與各個菌株中的種特有基因片段相同的片段個數(shù),所述F為各個菌株的種特有基因片段個數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述菌為細菌。
3.一種對待測菌株溯源的方法,包括如下步驟: 1)根據(jù)權(quán)利要求1或2所述方法中的待測菌株隸屬的菌種種特有基因片段集合和待測菌株基因片段集合,按照權(quán)利要求1或2所述方法中的方法計算待測菌株對其隸屬菌種的種特有基因片段集合的貢獻量,得到待測菌株的種特有基因片段集合; 2)以待測菌株的種特有基因片段集合和所述待測菌株隸屬的各菌株種特有基因片段集合為標記,構(gòu)建系統(tǒng)發(fā)育樹,實現(xiàn)待測菌株溯源。
【文檔編號】G06F19/22GK103714267SQ201310740901
【公開日】2014年4月9日 申請日期:2013年12月27日 優(yōu)先權(quán)日:2013年12月27日
【發(fā)明者】任洪廣, 梁龍, 岳俊杰, 喻東, 靳遠, 周圍, 李北平, 王寧 申請人:中國人民解放軍軍事醫(yī)學(xué)科學(xué)院生物工程研究所