人基因組重測序數據分析系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種專門針對人基因組重測序數據的分析系統(tǒng)及方法。所述分析系統(tǒng)包括Web交互裝置、基礎服務模塊和數據分析平臺。其中Web交互裝置用于以Web方式接收用戶輸入的人基因組重測序數據和參數,并將結果展示給用戶;基礎服務模塊用于對接收的數據和信息生成分析任務;數據分析平臺用于根據生成的任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對數據進行分析,獲取分析結果。本發(fā)明提供的人基因組重測序數據分析系統(tǒng)及方法,通過調用高效準確的生物信息學軟件和個性化分析模塊,簡化了基因組重測序數據分析流程,提高了分析質量及檢測結果的準確率,節(jié)省了計算機運行時間,同時還能使用戶進行數據的重復分析和查詢,節(jié)省了科研成本。
【專利說明】
人基因組重測序數據分析系統(tǒng)及方法
技術領域
[0001]本發(fā)明屬于生物信息學領域,具體地說,涉及人基因組重測序數據分析系統(tǒng)及方法。
【背景技術】
[0002 ]生物信息學(Bi ο inf ormati c s)是研究生物信息的采集、處理、存儲、傳播、分析和解釋等各方面的學科,也是隨著生命科學和計算機科學的迅猛發(fā)展,由生命科學和計算機科學相結合形成的一門新興學科。它通過綜合利用生物學、計算機科學和信息技術而揭示大量而復雜的生物數據所蘊含的生物學奧秘。
[0003]人全基因組重測序是基于人基因組參考序列對個體或群體進行全基因組測序,并在個體或群體水平進行生物信息分析的方法?;谌蚪M重測序的人類遺傳學和群體進化學的研究,能夠快速篩選出基因組范圍內的遺傳變異,實現(xiàn)基因型多樣性分析、遺傳進化分析以及致病和易感性基因等的篩選。隨著二代測序技術的發(fā)展與普及,全基因組重測序已成為人類遺傳學、轉化醫(yī)學和群體進化領域最為迅速而有效的方法之一,可更全面地挖掘基因序列差異和結構變異,包括單堿基突變、插入缺失變異、拷貝數變異和結構變異,在全基因組水平上掃描并檢測與表型差異、疾病、進化等相關的突變位點,具有重要的科研意義
【發(fā)明內容】
[0004]本發(fā)明的目的是提供一種專門針對人基因組重測序數據的分析系統(tǒng)。
[0005]本發(fā)明的另一目的是提供基于上述分析系統(tǒng)的人基因組重測序數據分析方法。
[0006]本發(fā)明基于以下構思:人全基因組重測序是基于人基因組參考序列對個體或群體進行全基因組測序,并通過序列比對,可以找到大量的單核苷酸多態(tài)性位點SNP(SingleNucleotide Polymorphisms),插入缺失位點 InDe I (Insert1n-De let 1n)、結構變異位點SV(Structure Variat1n)位點,是在個體或群體水平上進行生物信息分析的方法。目前,人重測序數據分析需要用到多款生物信息學軟件,要對每款軟件的使用方法都比較了解,且針對人的基因組重測序分析數據量大,基因組結構復雜。為解決上述問題,本發(fā)明采用專門針對人基因組重測序數據進行分析的系統(tǒng)和過濾方法,并使整個生物信息學分析流程實現(xiàn)自動化。
[0007]為了實現(xiàn)本發(fā)明目的,本發(fā)明提供的人基因組重測序數據分析系統(tǒng),所述分析系統(tǒng)包括:
[0008]Web交互裝置I,以Web方式接收用戶輸入的人基因組重測序數據和必要的參數,并將結果展示給用戶;
[0009]基礎服務模塊2,用于根據Web交互裝置接收的數據和信息生成可進行分析的任務,并對任務進行調度操作;以及
[0010]數據分析平臺3,用于根據基礎服務模塊生成的任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對用戶提供的人基因組重測序數據進行分析,獲取分析結果。
[0011]所述基礎服務模塊包括任務調度模塊,用于根據所述Web交互裝置接收的用戶輸入的數據和參數生成分析任務,并將分析任務發(fā)送至數據分析平臺;在任務運行過程中用于實時監(jiān)測分析任務的運行狀態(tài)及進度。
[0012]所述基礎服務模塊還包括:
[0013]結果推送模塊,用于在分析任務結束時,通過任務調度模塊的調用,將所述數據分析平臺得到的分析結果推送至Web交互裝置并向用戶進行展示;以及
[0014]數據庫交互模塊,用于在分析任務結束時,根據所述任務調度模塊發(fā)送的存儲指令,將所述數據分析平臺得到的分析結果存儲至云端數據庫。
[0015]進一步低,所述基礎服務模塊包括云端數據庫,用于存儲分析結果和分析報告,用于用戶從所述云端數據庫中提取數據進行查詢和二次分析。
[0016]所述數據分析平臺包括數據分析單元和注釋數據庫:
[0017]數據分析單元調用的生物信息學軟件包括SNP檢測、InDel檢測、SV檢測、CNV檢測、基因功能注釋和統(tǒng)計繪圖軟件等;以及第三方軟件81六、3&11^0018、641'1(、?化&^、8作&1^dancer、Contro1-FREEC、Annovar和Blast等。
[0018]注釋數據庫包括突變注釋數據庫和功能注釋數據庫。
[0019]所述數據分析單元包括:
[0020]數據評估模塊,用于對用戶輸入的人基因組重測序數據進行質量檢測,并根據質量檢測結果,判斷數據是否可以進行后續(xù)的分析;其中,所述質量檢測包括堿基質量分布檢測和堿基類型分布檢測;
[0021 ]序列比對模塊,用于將所述數據評估模塊評估后的數據與人參考基因組分別進行比對率統(tǒng)計、測序深度分布統(tǒng)計、插入片段分布統(tǒng)計,從而得到比對率、基因組覆蓋深度、基因組覆蓋度;所述序列比對模塊還用于過濾評估后的數據中的重復序列,得到過濾后的數據;以及
[0022]突變檢測模塊,用于通過調用所述生物信息學軟件和數據庫,對所述過濾后的人基因組重測序數據進行突變檢測分析;其中,所述突變檢測分析包括單核苷酸多態(tài)性檢測、插入缺失檢測、結構變異檢測和拷貝數變異檢測。
[0023]所述突變檢測模塊還能夠在突變檢測分析過程中,根據突變注釋數據庫對突變所在的基因組位置進行注釋,所述基因位置包括基因區(qū)、基因間區(qū)和非翻譯區(qū)。
[0024]注釋需調用注釋數據庫;其中,所述突變注釋數據庫包括hgl9_ref、wgRna、WgEncodeGencodeBasicVl9、genomicSuperDups、esp6500siv2_al1、1000g2014oct_all、1000g2014oct_afr、1000g2014oct_eas、1000g2014oct_eu;r、1000g2014oct_amr、1000g2014oct_sas、Ijb26_al1、avsnpl42,cosmic70、avsift、gwasCatalog、cytoBand、targetScanS、dgvMerged,tfbsConsSites、phastConsElements46way等。
[0025]所述數據分析單元還包括功能注釋模塊,在突變檢測分析過程中,根據功能注釋數據庫對突變基因進行功能注釋。
[0026]注釋需調用注釋數據庫;其中,所述功能注釋數據庫包括G0、C0G\K0G、Pfam、KEGG、NR、SWISS-PROT 等。
[0027]本發(fā)明進一步提供基于上述分析系統(tǒng)的人基因組重測序數據分析方法(非疾病診斷目的),包括以下步驟:
[0028]S1、通過Web交互裝置接收用戶輸入的人基因組重測序數據和必要的參數;
[0029]S2、通過基礎服務模塊,根據Web交互裝置接收的數據和信息生成分析任務,并對任務進行調度操作;
[0030]S3、利用數據分析平臺,根據基礎服務模塊生成的分析任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對用戶提供的人基因組重測序數據進行分析,獲取分析結果;以及
[0031]S4、將分析結果以Web形式展示給用戶。
[0032]本發(fā)明提供的人基因組重測序數據分析系統(tǒng)及方法,通過調用高效準確的生物信息學軟件和個性化分析模塊,簡化了基因組重測序數據分析流程,提高了分析質量及檢測結果的準確率,節(jié)省了計算機運行時間,同時還能使用戶進行數據的重復分析和查詢,節(jié)省了科研成本。
【附圖說明】
[0033]圖1為本發(fā)明實施例中人基因組重測序數據分析系統(tǒng)的結構示意圖。
[0034]圖2為本發(fā)明實施例中人基因組重測序數據分析方法的流程示意圖。
【具體實施方式】
[0035]以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。若未特別指明,實施例中所用的技術手段為本領域技術人員所熟知的常規(guī)手段,所用原料均為市售商品。
[0036]實施例人基因組重測序數據分析系統(tǒng)及方法
[0037]本實施例提供的人基因組重測序數據分析系統(tǒng)的結構示意圖見圖1,該分析系統(tǒng)包括:
[0038]Web交互裝置I (即Web交互層),以Web方式接收用戶輸入的人基因組重測序數據和必要的參數,并將結果展示給用戶;
[0039]基礎服務模塊2(即服務層),用于根據Web交互裝置接收的數據和信息生成可進行分析的任務,并對任務進行調度操作;以及
[0040]數據分析平臺3(即分析層),用于根據基礎服務模塊生成的任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對用戶提供的人基因組重測序數據進行分析,獲取分析結果。
[0041 ]基礎服務模塊2包括:任務調度模塊2.1、結果推送模塊2.2、數據庫交互模塊2.3以及云端數據庫2.4。
[0042]數據分析平臺3包括:數據分析單元3.1和注釋數據庫3.6。其中,數據分析單元3.1包括:數據評估模塊3.2、序列比對模塊3.3、突變檢測模塊3.4以及功能注釋模塊3.5。注釋數據庫3.6包括:突變注釋數據庫3.7和功能注釋數據庫3.8。
[0043]進一步地,基因組重測序數據是用于進行生物信息學分析的原始數據,通過Web交互層以預設格式FastQ(FastQ文件是高通量測序產生的標準測序結果文件,包括堿基序列和對應堿基的質量值)導入分析系統(tǒng)。任務參數是進行生物信息分析的設置參數,包括數據質量值、數據庫種類等??梢岳斫獾氖?,任務參數包含分析過程所需的各項參數,進一步地,分析任務包括進行分析過程的計算資源需求,生物信息學軟件和數據庫等信息。
[0044]服務層2,用于根據所述Web交互層I接收的用戶參數,生成分析任務,并將所述分析任務發(fā)送至分析層3。
[0045]任務調度模塊2.1,用于根據所述Web交互層接收的人基因組重測序數據和參數,生成分析任務,并將所述分析任務發(fā)送至分析層。
[0046]上述任務調度模塊2.1,在分析過程中,還用于實時監(jiān)測分析任務的運行狀態(tài)及進度。
[0047]具體而言,任務調度模塊2.1實時監(jiān)測分析任務的運行狀態(tài)及進度,生成任務日志文件,資源申請、任務投遞、任務監(jiān)控以及與結果推送模塊和數據庫交互模塊通信的操作過程,方便項目運行出錯后的錯誤排查。
[0048]結果推送模塊2.2,用于在分析任務結束時,通過任務調度模塊的調用,將所述分析層得到的分析結果推送至Web交互層并向用戶進行展示。
[0049]具體而言,重測序分析結果能夠以預設格式進行下載或在Web交互層展示,預設格式包括但不限于D0C、roF。分析結果包括項目名稱、關鍵詞、結果概述等內容,實現(xiàn)自動、高效、便捷的數據分析,為科研工作者提供了一種無任何技術門檻的數據分析手段,可以幫助其快速完成數據分析,并全方位的對分析結果進行挖掘,找出更有生物學意義的結果。
[0050]數據庫交互模塊2.3,用于在基因組重測序分析結束時,根據所述任務調度模塊2.1發(fā)送的存儲指令,將所述分析層獲取的基因組重測序分析結果存儲至數據庫。
[0051]具體而言,數據庫交互模塊2.3將項目信息、分析流程運行參數以及分析結果存儲至數據庫中,當Web交互層對結果進行重復查詢時,任務調度模塊2.1再次通過數據庫交互模塊2.3從數據庫中讀取重測序分析結果在Web交互層進行展示。
[0052]分析層3,用于根據服務層生成的任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對用戶提供的人基因組重測序數據進行分析,獲取分析結果。
[0053]分析層包括:數據分析單元3.1和注釋數據庫3.6。
[0054]所述數據分析單元3.1包括:數據評估模塊3.2、序列比對模塊3.3、突變檢測模塊
3.4、功能注釋模塊3.5。
[0055]數據評估模塊3.2,用于對用戶輸入的人基因組重測序數據進行質量檢測,并根據質量檢測結果,判斷數據是否可以進行后續(xù)的分析。
[0056]可以理解的是,所述質量檢測包括堿基質量分布檢測,基于測序數據中包含的堿基質量值,利用Perl腳本對所有堿基的質量值進行統(tǒng)計,當85%以上的堿基質量值高于30分時,此數據才可以繼續(xù)進行后續(xù)分析,否則需要先進行低質量序列過濾方可使用。
[0057]其中,所述質量檢測還包括堿基類型分布檢測,用于檢測有無AT、GC堿基分離現(xiàn)象,高通量測序時,基因組隨機打斷,由于位點在基因組上的分布是近似均勻的,同時,G/C、A/T含量也是近似均勻的,因此,根據大數定理,在每個測序循環(huán)上,GC、AT含量應當分別相等,且等于基因組的GC、AT含量,因此當發(fā)生AT或GC分離的情況時,此數據不能繼續(xù)進行后續(xù)分析。
[0058]序列比對模塊3.3,用于將所述數據評估模塊3.2評估后的基因組重測序數據與參考基因組分別進行比對率統(tǒng)計、測序深度分布統(tǒng)計、插入片段分布統(tǒng)計,分別得到比對率、
基因組覆蓋深度、基因組覆蓋度。
[0059]上述的序列比對模塊3.3,還用于過濾評估后的基因組重測序數據中的重復序列,得到過濾后的基因組重測序數據。
[0060]序列比對模塊3.3還用于過濾比對結果中的重復序列,重復序列主要是由于測序PCR產生的,會影響測序深度等比對評估參數,最終導致突變檢測的假陽性,比對結果一般以BAM格式(二進制的比對結果存儲格式,占用空間小,檢索速度快)進行存儲,使用Picard的Mark Duplicate模塊進行處理去重復,屏蔽PCR-duplicat1n的影響。
[0061 ] 具體而言,用BWA將測序數據比對到參考基因組上,并用Picard去除比對重復,用Samtoo I s統(tǒng)計比對結果。
[0062]突變檢測模塊3.4,用于通過調用所述生物信息學軟件和數據庫,對所述過濾后的人基因組重測序數據進行突變檢測分析。
[0063]其中,所述突變檢測分析包括單核苷酸多態(tài)性檢測、插入缺失檢測、結構變異檢測和拷貝數變異檢測。
[0064]所述突變檢測模塊還用于在突變檢測分析過程中,對突變所在的基因組位置進行注釋,所述基因位置包括基因區(qū)、基因間區(qū)和非翻譯區(qū)。
[0065]具體而言,基于比對結果,用GATK進行SNP和InDel檢測,檢測前要進行InDel附近重新比對,與Human_dbSNP數據庫比對進行堿基校正,以降低檢測的假陽性;使用Breakdancer基于成對reads間的距離關系進行SV檢測;使用Contro 1-FREEC進行CNV檢測;使用Annovar根據突變注釋數據庫3.7對突變區(qū)域進行注釋。
[0066]所述突變注釋數據庫包括:hg19_ref、wgRna、WgEncodeGencodeBasi cVl9、genomi cSuperDups、esp6500s iv2—al1、1000g2014oct_al1、1000g2014oct_afr >1000g2014oct_eas、1000g2014oct—eur、1000g2014oct—amr、1000g2014oct—sas、Ijb26_all、avsnpl42,cosmic70、avsift、gwasCatalog、cytoBand、targetScanS、dgvMerged,tfbsConsSites、phastConsElements46way等。
[0067]功能注釋模塊3.5,在突變檢測分析過程中,用于根據功能注釋數據庫,對突變基因進行功能注釋。
[0068]具體而言,使用Blast與功能注釋數據庫3.8中的序列進行比對并做基因功能注釋。其中,所述功能注釋數據庫3.8包括GO、C0G\K0G、Pfam、KEGG、NR、SWISS-PROT。
[0069]為了進一步保證分析結果的準確性,可設置一些特殊的軟件參數:
[0070](I)在SNP檢測中通過與dbSNP(單核苷酸多態(tài)性數據庫)比較以及采用VQSR(變異位點質量值重新校正)模型的方式保證了結果的準確性。
[0071](2) SNP檢測時參數設置:
[0072]chr number(染色體數)=23,ploidy(倍體)=2
[0073](3)annovar軟件的參數設置:
[0074]-protocol=refGene,wgRna,WgEncodeGencodeBasicVl9,genomicSuperDups,esp6500s i v2_alI,1000g2014oct—all,1000g2014oct_afr,1000g2014oct_eas,1000g2014oct_eur,1000g2014oct_amr,1000g2014oct_sas,Ijb26—alI,avsnpl42,cosmic70,avsift,gwasCatalog,cytoBand,targetScanS,dgvMerged,tfbsConsSites,phastConsElements46way
[0075](4)freec軟件的參數設置:
[0076]minExpectedGC = 0.3681
[0077]maxExpectedGC = 0.4499
[0078]在保證分析結果準確性的前提下,不僅限于對上述軟件的參數設置。
[0079]對本發(fā)明的人基因組重測序數據分析系統(tǒng)進行了不同真實數據集的測試,與預期的結果一致。
[0080]基于上述分析系統(tǒng),本實施例還提供人基因組重測序數據的分析方法(圖2),包括以下步驟:
[0081]S1、通過Web交互裝置接收用戶輸入的人基因組重測序數據和必要的參數;
[0082]S2、通過基礎服務模塊,根據Web交互裝置接收的數據和信息生成分析任務,并對任務進行調度操作;
[0083]S3、利用數據分析平臺,根據基礎服務模塊生成的分析任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對用戶提供的人基因組重測序數據進行分析,獲取分析結果;以及
[0084]S4、將分析結果以Web形式展示給用戶。
[0085]本實施例提供的人基因組重測序數據分析系統(tǒng)及方法,通過調用高效準確的生物信息學軟件和個性化分析模塊,簡化了基因組重測序數據分析流程,提高了分析質量及檢測結果的準確率,節(jié)省了計算機運行時間,同時還能使用戶進行數據的重復分析和查詢,節(jié)省了科研成本。
[0086]雖然,上文中已經用一般性說明及具體實施方案對本發(fā)明作了詳盡的描述,但在本發(fā)明基礎上,可以對之作一些修改或改進,這對本領域技術人員而言是顯而易見的。因此,在不偏離本發(fā)明精神的基礎上所做的這些修改或改進,均屬于本發(fā)明要求保護的范圍。
【主權項】
1.人基因組重測序數據分析系統(tǒng),其特征在于,所述分析系統(tǒng)包括: Web交互裝置,以Web方式接收用戶輸入的人基因組重測序數據和必要的參數,并將結果展不給用戶; 基礎服務模塊,用于根據Web交互裝置接收的數據和信息生成可進行分析的任務,并對任務進行調度操作;以及 數據分析平臺,用于根據基礎服務模塊生成的任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對用戶提供的人基因組重測序數據進行分析,獲取分析結果。2.根據權利要求1所述的分析系統(tǒng),其特征在于,所述基礎服務模塊包括任務調度模塊,用于根據所述Web交互裝置接收的用戶輸入的數據和參數生成分析任務,并將分析任務發(fā)送至數據分析平臺;在任務運行過程中用于實時監(jiān)測分析任務的運行狀態(tài)及進度。3.根據權利要求1或2所述的分析系統(tǒng),其特征在于,所述基礎服務模塊還包括: 結果推送模塊,用于在分析任務結束時,通過任務調度模塊的調用,將所述數據分析平臺得到的分析結果推送至Web交互裝置并向用戶進行展示;以及 數據庫交互模塊,用于在分析任務結束時,根據所述任務調度模塊發(fā)送的存儲指令,將所述數據分析平臺得到的分析結果存儲至云端數據庫。4.根據權利要求1-3任一項所述的分析系統(tǒng),其特征在于,所述基礎服務模塊還包括云端數據庫,用于存儲分析結果和分析報告,用于用戶從所述云端數據庫中提取數據進行查詢和二次分析。5.根據權利要求1-4任一項所述的分析系統(tǒng),其特征在于,所述數據分析平臺包括數據分析單元和注釋數據庫; 數據分析單元調用的生物信息學軟件包括SNP檢測、InDel檢測、SV檢測、CNV檢測、基因功能注釋和統(tǒng)計繪圖軟件;以及第三方軟件BWA、Samtools、GATK、Picard、Break dancer、Control_FREEC、Annovar和Blast; 注釋數據庫包括突變注釋數據庫和功能注釋數據庫。6.根據權利要求5所述的分析系統(tǒng),其特征在于,所述數據分析單元包括: 數據評估模塊,用于對用戶輸入的人基因組重測序數據進行質量檢測,并根據質量檢測結果,判斷數據是否可以進行后續(xù)的分析;其中,所述質量檢測包括堿基質量分布檢測和堿基類型分布檢測; 序列比對模塊,用于將所述數據評估模塊評估后的數據與人參考基因組分別進行比對率統(tǒng)計、測序深度分布統(tǒng)計、插入片段分布統(tǒng)計,從而得到比對率、基因組覆蓋深度、基因組覆蓋度;所述序列比對模塊還用于過濾評估后的數據中的重復序列,得到過濾后的數據;以及 突變檢測模塊,用于通過調用所述生物信息學軟件和數據庫,對所述過濾后的人基因組重測序數據進行突變檢測分析;其中,所述突變檢測分析包括單核苷酸多態(tài)性檢測、插入缺失檢測、結構變異檢測和拷貝數變異檢測。7.根據權利要求6所述的分析系統(tǒng),其特征在于,所述突變檢測模塊還能夠在突變檢測分析過程中,根據突變注釋數據庫對突變所在的基因組位置進行注釋,所述基因位置包括基因區(qū)、基因間區(qū)和非翻譯區(qū); 注釋需調用注釋數據庫;其中,所述突變注釋數據庫包括hgl9_ref、wgRna、WgEncodeGencodeBasicVl9、genomicSuperDups、esp6500siv2_al1、1000g2014oct_all、1000g2014oct—afr、1000g2014oct_eas、1000g2014oct_eur、1000g2014oct_amr、1000g2014oct_sas、Ijb26_al1、avsnpl42,cosmic70、avsift、gwasCatalog、cytoBand、targetScanS、dgvMerged,tfbsConsSites、phastConsElements46wayo8.根據權利要求5-7任一項所述的分析系統(tǒng),其特征在于,所述數據分析單元還包括功能注釋模塊,在突變檢測分析過程中,根據功能注釋數據庫對突變基因進行功能注釋; 注釋需調用注釋數據庫;其中,所述功能注釋數據庫包括GO、C0G\K0G、Pfam、KEGG、NR、SffISS-PROTo9.基于權利要求1-8任一項所述分析系統(tǒng)的人基因組重測序數據分析方法。10.根據權利要求9所述的方法,其特征在于,包括以下步驟: . 51、通過Web交互裝置接收用戶輸入的人基因組重測序數據和必要的參數; .52、通過基礎服務模塊,根據Web交互裝置接收的數據和信息生成分析任務,并對任務進行調度操作;. 53、利用數據分析平臺,根據基礎服務模塊生成的分析任務,讀取基因組數據,并調用生物信息學軟件和數據庫,對用戶提供的人基因組重測序數據進行分析,獲取分析結果;以及 .54、將分析結果以Web形式展示給用戶。
【文檔編號】G06F19/24GK106021979SQ201610317618
【公開日】2016年10月12日
【申請日】2016年5月12日
【發(fā)明人】鄭洪坤, 張增金, 劉威, 塔拉
【申請人】北京百邁客云科技有限公司