欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多核cpu硬件的高通量轉(zhuǎn)錄組測序數(shù)據(jù)質(zhì)量控制方法

文檔序號:9376068閱讀:757來源:國知局
基于多核cpu硬件的高通量轉(zhuǎn)錄組測序數(shù)據(jù)質(zhì)量控制方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明專利涉及生物信息學(xué),具體的說是一種基于多核CPU硬件的高通量轉(zhuǎn)錄組測序數(shù)據(jù)質(zhì)量控制方法,能夠快速的對高通量轉(zhuǎn)錄組測序數(shù)據(jù)進行質(zhì)量控制。
【背景技術(shù)】
[0002]高通量測序技術(shù)又稱“下一代”測序技術(shù),是對傳統(tǒng)測序一次革命性的改變,能夠一次對幾十萬到幾百萬條DNA/RNA分子進行序列測定,已經(jīng)越來越廣泛地應(yīng)用于生物學(xué)相關(guān)研究中。與傳統(tǒng)的Sanger測序技術(shù)相比,新一代測序技術(shù)的通量提高了一到兩個數(shù)量級,數(shù)據(jù)量更多(100MB至數(shù)G)。轉(zhuǎn)錄組測序是基于高通量測序技術(shù)的一項深入應(yīng)用,能夠?qū)σ粋€物種的轉(zhuǎn)錄圖譜進行細致、深入而全面的分析。然而,由于高通量測序技術(shù)本身的限制及轉(zhuǎn)錄組提取等人為實驗的操作誤差,原始生成的轉(zhuǎn)錄組數(shù)據(jù)往往含有部分低質(zhì)量序列,包括低質(zhì)量堿基、污染序列和核RNA序列(rRNA)等。這些低質(zhì)量序列的存在將會極大地影響后續(xù)轉(zhuǎn)錄組數(shù)據(jù)分析的準確性,甚至導(dǎo)致錯誤的結(jié)論。此外,由于后續(xù)的轉(zhuǎn)錄組分析結(jié)果依賴于將序列與參考基因組進行比對(alignment)后得出,因此轉(zhuǎn)錄組序列的比對質(zhì)量也是衡量轉(zhuǎn)錄組測序數(shù)據(jù)整體質(zhì)量的關(guān)鍵因素之一。綜上所述,質(zhì)量控制是進行高通量轉(zhuǎn)錄組測序數(shù)據(jù)分析必須的關(guān)鍵步驟。目前已有的轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量控制方法主要集中于完成序列比對層面的質(zhì)量評價,而無法全面的對于堿基、序列、污染和比對質(zhì)量同時進行質(zhì)量控制。
[0003]由于高通量轉(zhuǎn)錄組測序數(shù)據(jù)一般需要測定不同條件或不同時間點采集的多個樣本,每個樣本一般分別需要三個或以上生物學(xué)重復(fù)和技術(shù)重復(fù),因此測序的樣本量巨大,導(dǎo)致每次測序往往獲得超過二十個樣本和幾十G的數(shù)據(jù)量,所以對應(yīng)于高通量轉(zhuǎn)錄組數(shù)據(jù)的質(zhì)量控制,必須有具有相當運算能力的超級計算機和相應(yīng)的分析軟件來實現(xiàn)。采用目前的普通分析方法利用單一的CPU計算機對幾億條序列進行逐條掃描并分別處理,可能需要數(shù)天甚至一個月的時間,使數(shù)據(jù)分析的效率亦成為了相關(guān)研究中的一大瓶頸。

【發(fā)明內(nèi)容】

[0004]為了解決傳統(tǒng)分析方法和計算系統(tǒng)無法全面、精確而高效地滿足高通量轉(zhuǎn)錄組測序數(shù)據(jù)質(zhì)量控制的要求的問題,本發(fā)明根據(jù)高通量轉(zhuǎn)錄組測序數(shù)據(jù)可并行處理的特點,提出一種基于多核CPU硬件的高通量轉(zhuǎn)錄組測序數(shù)據(jù)質(zhì)量控制方法。
[0005]本發(fā)明為實現(xiàn)上述目的所采用的技術(shù)方案是:一種基于多核CPU硬件的高通量轉(zhuǎn)錄組測序數(shù)據(jù)質(zhì)量控制方法,包括以下步驟:
[0006]利用多核CPU對高通量轉(zhuǎn)錄組測序數(shù)據(jù)進行并行處理,得到去除低測序質(zhì)量序列的數(shù)據(jù);
[0007]利用多核CPU對去除低測序質(zhì)量序列的數(shù)據(jù)中的rRNA序列進行預(yù)測和去除,并進行污染序列的定性鑒定;
[0008]對序列比對結(jié)果進行統(tǒng)計和評價。
[0009]所述利用多核CPU對高通量轉(zhuǎn)錄組測序數(shù)據(jù)進行低測序質(zhì)量序列的去除,包括以下步驟:
[0010]利用Parallel-QC工具將輸入文件分割成若干個小規(guī)模子數(shù)據(jù);
[0011]將各個子數(shù)據(jù)分配到不同的CPU內(nèi)核上;
[0012]同時在多個CPU內(nèi)核上檢測其子數(shù)據(jù)中每個序列的堿基質(zhì)量和接頭序列,并根據(jù)用戶指定的長度依次切除每個序列兩端的低質(zhì)量堿基,過濾含有用戶指定比例的低質(zhì)量堿基的序列,刪除其中的接頭序列;
[0013]將上述處理后的序列合并到一起,從而得到去除低測序質(zhì)量序列的數(shù)據(jù)。
[0014]所述利用多核CPU對去除低測序質(zhì)量序列的數(shù)據(jù)中的rRNA序列進行預(yù)測和去除,并進行污染序列的定性鑒定,包括以下步驟:
[0015]將數(shù)據(jù)庫SILVA中所有的rRNA序列構(gòu)建隱馬爾科夫模型;基于隱馬爾科夫模型搜索對于轉(zhuǎn)錄組序列進行rRNA預(yù)測和提取,并將預(yù)測的rRNA序列從轉(zhuǎn)錄組數(shù)據(jù)中去除;
[0016]將所預(yù)測和提取的16S或18S rRNA,映射到已知rRNA序列數(shù)據(jù)庫SILVA上,獲得所有序列的物種來源信息,分別將16S和18S rRNA特征序列的注釋結(jié)果匯總到一起,生成物種結(jié)構(gòu)組成結(jié)果,從而獲得轉(zhuǎn)錄組測序數(shù)據(jù)中所有可能存在的物種及污染信息;
[0017]所述基于隱馬爾科夫模型搜索對于轉(zhuǎn)錄組序列進行rRNA預(yù)測和提取,并將預(yù)測的rRNA序列從轉(zhuǎn)錄組數(shù)據(jù)中去除,包括以下步驟:
[0018]將經(jīng)過Parallel-QC處理過的去除低質(zhì)量測序序列的數(shù)據(jù)文件分割成小規(guī)模子數(shù)據(jù);
[0019]將不同的子數(shù)據(jù)分配到不同的CPU內(nèi)核上;
[0020]在眾多CPU內(nèi)核上同時預(yù)測子序列的16S、18S、23S或28S rRNA特征序列;
[0021]將各類特征序列預(yù)測結(jié)果合并到一起;
[0022]根據(jù)特征序列預(yù)測結(jié)果多次將大規(guī)模輸入數(shù)據(jù)從外存儲器中載入內(nèi)存并查找提取,最后將搜索結(jié)果合并。
[0023]所述對序列比對到參考基因組上的結(jié)果進行統(tǒng)計和評價,包括統(tǒng)計序列的數(shù)目、計算序列覆蓋度、匯總雙端序列比對信息。
[0024]所述統(tǒng)計序列的數(shù)目包括全部序列、比對成功的序列、比對到某些特定基因組區(qū)域的序列以及上述序列在全部序列中所占的比例。
[0025]所述計算序列覆蓋度包括有序列成功比對的基因的數(shù)目、每個基因的堿基覆蓋度、成功比對的序列在基因組結(jié)構(gòu)上的分布。
[0026]所述包括雙端均成功比對的序列數(shù)目、只有一端成功比對的序列的數(shù)目、雙端比對序列的的插入片段長度。
[0027]本發(fā)明具有以下優(yōu)點及有益效果:
[0028]1.實現(xiàn)了全面、高效的轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量控制,包括對于測序質(zhì)量、rRNA序列、污染序列和比對結(jié)果等多方面的綜合分析和質(zhì)控;
[0029]2.與基于多核CPU計算機相配合,克服了基于單核CPU硬件計算機的計算效率瓶頸,可以使高通量轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量控制效率提高7倍以上;
[0030]3.本發(fā)明的應(yīng)用將會顯著提高高通量轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量控制的準確度和速度,廣泛有助于轉(zhuǎn)錄組測序相關(guān)研究的迅速發(fā)展。
【附圖說明】
[0031]圖1為本發(fā)明的硬件架構(gòu)圖;其中,①為DMI與PCIe2.0總線;②為三通道DDR3內(nèi)存總線?’③為SATA總線;
[0032]圖2為本發(fā)明的軟件流程圖;其中,⑴為低測序質(zhì)量數(shù)據(jù)處理;⑵為rRNA序列和污染序列的定性鑒定;(3)為序列對比結(jié)果的評價和質(zhì)量控制;
[0033]圖3為采用16核CUP應(yīng)用本發(fā)明和應(yīng)用單核CPU對于同一個轉(zhuǎn)錄組測序數(shù)據(jù)的測試結(jié)果圖。
【具體實施方式】
[0034]下面結(jié)合附圖及實施例對本發(fā)明做進一步的詳細說明。
[0035]本發(fā)明采用的技術(shù)方案是多核CPU計算機以及構(gòu)筑于其上的高效、統(tǒng)一的軟件平臺。其特點是(I)高性能并行計算和存儲硬件系統(tǒng);(2)功能全面、高性能、統(tǒng)一、可配置的并行化軟件平臺。
[0036](I)高性能并行計算和存儲硬件
[0037]該硬件系統(tǒng)采用多路多核CPU進行大規(guī)模并行化計算。圖1是計算服務(wù)器的系統(tǒng)結(jié)構(gòu)圖:
[0038]首先,多路多核CPU并行化計算,采用4路處理器,處理器之間采用QPI總線連接。每路處理器具有8個獨立計算核心,配備三通道DDR3 RDIMM內(nèi)存,同時也適應(yīng)于云計算服務(wù)器的計算要求。
[0039]其次,高速緩存和高速總線:適應(yīng)于并發(fā)式的測序數(shù)據(jù)分析任務(wù)的調(diào)配和協(xié)同工作環(huán)境在大規(guī)模任務(wù)分配上的需要。
[0040]最后,RAID磁盤陣列:通過RAID磁盤陣列存儲,不但提高中心服務(wù)器的響應(yīng)速度和穩(wěn)定性,而且有利于不定期的中心服務(wù)器更新。同時可應(yīng)付云計算服務(wù)器的備份和升級需要。
[0041 ] (2)功能全面、高性能、統(tǒng)一、可配置的軟件平臺
[0042]高性能的軟件平臺包括低測序質(zhì)量數(shù)據(jù)處理、污染序列的定性鑒定、rRNA污染序列的定性定量鑒定和序列比對質(zhì)量的檢測等(圖2)。此系統(tǒng)被命名為RNA-QC-Chain軟件系統(tǒng)(http:// www.computat1nalb1energy.0rg/rna-qc-chain.html,自主知識產(chǎn)權(quán)),其數(shù)據(jù)質(zhì)量控制步驟是:
[0043]第一,基于多核CPU并行計算的低測序質(zhì)量數(shù)據(jù)處理。利用Parallel-QC工具(http://www.computat1nalb1energy.0rg/parallel-qc.html,自主知識產(chǎn)權(quán)),將輸入文件分割成小規(guī)模子數(shù)據(jù),將不同的子數(shù)據(jù)分配到不同的CPU內(nèi)核上,然后同時在多個CPU內(nèi)核上預(yù)測每個序列的堿基質(zhì)量和接頭序列,并根據(jù)用戶指定的長度依次切除序列兩端的低質(zhì)量堿基,過濾含有一定比例低質(zhì)量堿基的序列,刪除其中的接頭序列,最后將過濾后的序列合并到一起,從而得到去除低測序質(zhì)量序列的數(shù)據(jù)結(jié)果。
[0044]第二,基于多核CPU并行計算的污染序列的定性鑒定。首先利用rRNA-filter工具去除數(shù)
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
云浮市| 怀集县| 东光县| 子长县| 巴南区| 木兰县| 射阳县| 大洼县| 禹城市| 阿坝县| 巴林右旗| 大田县| 沾化县| 宣武区| 湖南省| 明光市| 五莲县| 寿光市| 辽源市| 颍上县| 南投市| 尼勒克县| 水富县| 嘉鱼县| 綦江县| 宿州市| 西乌珠穆沁旗| 湘乡市| 紫阳县| 台安县| 台湾省| 壶关县| 万全县| 旅游| 昆明市| 双牌县| 浦县| 咸宁市| 韶山市| 岳西县| 吴忠市|