癌癥體細胞突變基因測序數(shù)據(jù)分析工作流整合算法
【專利摘要】本發(fā)明涉及一種,癌癥體細胞突變基因測序數(shù)據(jù)分析工作流整合算法,包括如下步驟:(1)測序數(shù)據(jù)比對使用cushaw算法;(2)SNP鑒定使用samtools算法;(3)癌癥體細胞突變鑒定使用VarScan算法。
【專利說明】癌癥體細胞突變基因測序數(shù)據(jù)分析工作流整合算法
【技術領域】
[0001]本發(fā)明涉及生物醫(yī)學數(shù)據(jù)分析領域,具體而言,涉及一種癌癥體細胞突變基因測序數(shù)據(jù)分析工作流整合算法。
【背景技術】
[0002]基因是遺傳的物質(zhì)基礎。生物體的生老病死等一切生命現(xiàn)象都與基因有關。基因測序是解讀生命的一種途徑,隨著第二代及第三代高通量測序技術的發(fā)展,測序結(jié)果往往是丁8級別甚至更大的的序列數(shù)據(jù)。合理分析解讀這些大規(guī)模及高維度的數(shù)據(jù)成為獲取數(shù)據(jù)后一個更大的難點,是當前生物研究的關鍵步驟,具有巨大的現(xiàn)實意義。
[0003]海量高通量測序數(shù)據(jù)的存儲、處理和分析都極大地挑戰(zhàn)著當前的計算機系統(tǒng)和計算模式?,F(xiàn)有的系統(tǒng)面臨運算量不夠,人工干預可靠度較低,云架構對底層硬件控制力較低及用戶隱私擔憂等問題。
[0004]現(xiàn)有的大數(shù)據(jù)測序信息對數(shù)據(jù)分析工具的挑戰(zhàn)需要存儲、管理、傳輸、調(diào)度和計算分析優(yōu)化的全面協(xié)調(diào),需要生物領域、計算機領域、數(shù)據(jù)統(tǒng)計分析等多方密切配合,尤其在分析工具的整合方面,現(xiàn)有的數(shù)據(jù)分析軟件存在整合度低,對不同來源的數(shù)據(jù)匹配較差,準確度和重復性不高,效率低下等多種問題。
[0005]在腫瘤檢測和早期診斷中,癌癥體細胞突變是測序檢測所重點關注的問題,這要求能夠盡量高效而準確的分析測序原始數(shù)據(jù),但是現(xiàn)有的算法往往只關注與測序數(shù)據(jù)分析的單一的環(huán)節(jié),而每個步驟中過于繁雜的分析軟件的選擇范圍,也給由測序原始數(shù)據(jù)得出診斷結(jié)果增加了障礙,
[0006]例如,在測序數(shù)據(jù)比對環(huán)節(jié),常用的算法包括13冊,130被16,0118118^, 13211*1^(311(121,運算速度不同,適配的基礎硬件也不同,其中01181121?為高性能運算卡專門設計,可以達到并行計算進行加速的目的,而冊,130^16,雖然不具備并行計算功能,但能夠適配的底層數(shù)據(jù)和計算硬件則相對較為寬泛。
[0007]而在在3冊鑒定(主要實現(xiàn)將測序結(jié)果比對到基因組上并鑒定出相關突變的功能)環(huán)節(jié),常用軟件主要包括如£111等,這些軟件有的偏重準確性,有的偏重效率。
[0008]在癌癥體細胞突變(主要通過比較同一病人正常和癌癥組織,并由此鑒定出癌癥中發(fā)生的體細胞突變)鑒定過程中,主要軟件包括:
V犯'31等算法,有的偏重于檢測準確度高,有的普適性數(shù)據(jù)兼容性,有的輸入輸出標準相對簡單。
[0009]因此,需要一種癌癥體細胞突變基因測序數(shù)據(jù)分析工作流整合算法,在一定程度上將上述算法優(yōu)化整合,以達到準確而高效的檢測癌癥體細胞突變基因的目的。
【發(fā)明內(nèi)容】
[0010]本發(fā)明的目的是提供一種癌癥體細胞突變基因測序數(shù)據(jù)分析工作流整合算法。
[0011]所述的癌癥體細胞突變基因測序數(shù)據(jù)來源于1111111111121公司的11186(1系列的測序儀,或是公司的及系列測序儀,測序數(shù)據(jù)級別為碰3?(?大小,基礎長度10?1000如,數(shù)據(jù)格式為飩或3??格式。
[0012]所述的癌癥體細胞突變基因測序分析數(shù)據(jù)工作流示意流程如附圖1,
[0013]所述的癌癥體細胞突變基因測序分析數(shù)據(jù)工作流整合算法包括如下步驟:
[0014](1)將測序數(shù)據(jù)比對到參考基因組序列,使用⑶也冊算法,使用科學運算流處理器加速后,數(shù)據(jù)比對速度提高至其他軟件的10-100倍;
[0015](2)?^鑒定,使用8211111:0018算法,兼容多種數(shù)據(jù)格式,準確度高,定位快速;
[0016](3)癌癥體細胞突變鑒定,使用算法,兼容數(shù)據(jù)種類多,準確度高,輸入輸出符合公開標準;
[0017]經(jīng)過上述工作流整合方法,能夠快速的通過比較同一病人正常和癌癥組織測序結(jié)果,從而鑒定出癌癥中發(fā)生的體細胞突變。
[0018]所述的工作流整合算法為算法,利用的高速浮點計算和并行特性,可以大幅提高算法的運算速度,達到硬件加速的效果。
[0019]所述的工作流整合算法中,進一步設計匹配了使用加速的軟件,通過硬件加速提高了工作流效率。
[0020]本發(fā)明的優(yōu)點在于:該算法整合了測序數(shù)據(jù)分析的完整工作流,能夠免去數(shù)據(jù)分析使用者自行篩選并優(yōu)化特定程序/程序集的步驟,同時優(yōu)化整合后的算法在運算效率上大為提高,能夠更為迅速的反饋測序數(shù)據(jù)分析結(jié)果。
【專利附圖】
【附圖說明】
[0021]圖1.癌癥體細胞突變基因測序分析數(shù)據(jù)工作流示意流程圖。
【具體實施方式】
[0022]下面結(jié)合具體實施例對本發(fā)明作進一步說明,但不應以此限制本發(fā)明的保護范圍。
[0023]原始數(shù)據(jù)來源于111111111的11186^ 2000,數(shù)據(jù)格式為1^181:0,讀長為100如。
[0024]通過工作流分析,
[0025](1)測序比對結(jié)果輸出:其中正常組織數(shù)據(jù)總數(shù)為233988條記錄,222290條(95.3% )比對到基因組中,癌癥組織數(shù)據(jù)總數(shù)為200549條,188516條(94% )比對到基因組上,
[0026](2)使用 8肅1:0018 鑒定 ;
[0027](3)通過比較正常組合和腫瘤組織的差異位點,鑒定為腫瘤組織特有的位點12個。
[0028]該工作流整體運算時間為958。
【權利要求】
1.癌癥體細胞突變基因測序分析數(shù)據(jù)工作流整合算法,其特征在于,包括如下步驟: (1)將測序數(shù)據(jù)比對到參考基因組序列,使用bwa算法,使用科學運算流處理器加速后,數(shù)據(jù)比對速度提高至其他軟件的10-100倍; (2)SNP鑒定,使用samtools算法,兼容多種數(shù)據(jù)格式,準確度高,定位快速; (3)癌癥體細胞突變鑒定,使用VarScan算法,兼容數(shù)據(jù)種類多,準確度高,輸入輸出符合公開標準。
2.根據(jù)權利要求1所述癌癥體細胞突變基因測序分析數(shù)據(jù)工作流整合算法,其特征在于,所述的工作流整合算法為GPU算法,利用GPU的高速浮點計算和并行特性達到硬件加速的效果。
3.根據(jù)權利要求1所述癌癥體細胞突變基因測序分析數(shù)據(jù)工作流整合算法,其特征在于,所述的工作流整合算法中,進一步包含使用GPU加速的軟件。
【文檔編號】G06F19/00GK104408284SQ201410571652
【公開日】2015年3月11日 申請日期:2014年10月24日 優(yōu)先權日:2014年10月24日
【發(fā)明者】吳翀, 王瑜, 閆威 申請人:北京微旋基因技術有限公司