技術(shù)領(lǐng)域
本發(fā)明的領(lǐng)域是傳送并且預(yù)處理基因組測(cè)序數(shù)據(jù)的系統(tǒng)和方法,尤其地,當(dāng)其涉及從一個(gè)或多個(gè)測(cè)序儀(sequencer)到序列分析引擎的基因組測(cè)序文件的注釋、排隊(duì)和批量傳遞時(shí)。
背景技術(shù):
背景描述包括可用于理解本發(fā)明的信息。這并非承認(rèn)本文中提供的信息中的任何信息是現(xiàn)有技術(shù)或與當(dāng)前要求保護(hù)的本發(fā)明相關(guān),或者具體或隱含引用的任何公布文獻(xiàn)是現(xiàn)有技術(shù)。
隨著測(cè)序裝置中的樣本吞吐量增大,基因組數(shù)據(jù)的量和傳輸速度不免變成分析整個(gè)基因組的限制因素。例如,許多現(xiàn)代測(cè)序裝置具有1-20Gb/日的吞吐量并且可合理地預(yù)期新測(cè)序技術(shù)將更進(jìn)一步增大這個(gè)吞吐量。遺憾的是,至少在一些情況下,用于將數(shù)據(jù)傳遞到序列分析引擎的當(dāng)前協(xié)議不再能夠有效操縱此數(shù)據(jù)量并且將最終使處理速度減慢,并且據(jù)此延遲序列分析和潛在的患者護(hù)理。
為了克服與路由生物序列信息關(guān)聯(lián)的困難,一個(gè)或多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)可包括分組生成器,分組生成器生成包括第一報(bào)頭和第二報(bào)頭的數(shù)據(jù)分組,其中第一報(bào)頭包含網(wǎng)絡(luò)路由信息,第二報(bào)頭具有與代表生物序列數(shù)據(jù)的現(xiàn)有知識(shí)的分層數(shù)據(jù)模型關(guān)聯(lián)的屬性,如US 2012/0236861和US 2012/0233201中描述的。在US 2014/0278461中描述了設(shè)施中的高序列信息量的操縱。然而,已知系統(tǒng)和方法都并不特別適于以簡(jiǎn)化后續(xù)分析的方式管理大量的數(shù)據(jù),尤其是當(dāng)這種分析涉及醫(yī)療專業(yè)人員的特定分析需要或要求時(shí)。
顯然,即使本領(lǐng)域已知操縱序列信息的眾多方式,但也需要允許利用測(cè)序技術(shù)的最新進(jìn)展的新數(shù)據(jù)操縱模式。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主題涉及各種系統(tǒng)和方法,在這些系統(tǒng)和方法中,來(lái)自一個(gè)或多個(gè)數(shù)據(jù)源(例如,測(cè)序裝置)的多個(gè)組學(xué)(omic)序列被供給到傳輸服務(wù)器,傳輸服務(wù)器對(duì)序列進(jìn)行預(yù)處理并且將其分組成傳輸組,傳輸組隨后被路由至序列分析引擎。在特別優(yōu)選的方面中,基于組學(xué)序列中的機(jī)器專用注釋和從用戶輸入的注釋,完成預(yù)處理和分組。以這種方式,組學(xué)序列可被實(shí)時(shí)分組,并且被路由至下游序列分析引擎。因?yàn)榻M學(xué)序列被優(yōu)選地分組,使得序列分析所需的所有序列在單個(gè)傳輸組中(即,在一個(gè)邏輯單元)中,與中斷序列分析關(guān)聯(lián)的延遲(例如,由于缺少供分析的一個(gè)或多個(gè)序列或者加載丟失的序列花費(fèi)的時(shí)間)減少,并且更典型地,被完全避免。在使用序列分析引擎處理來(lái)自眾多用戶和/或患者樣本的眾多組學(xué)數(shù)據(jù)的情況下,這種優(yōu)點(diǎn)是特別有益的。從不同的角度來(lái)看,本文中料想到的系統(tǒng)和方法允許序列分析引擎在最大速度下操作,因?yàn)榕c通過(guò)序列分析引擎的分析任務(wù)相關(guān)的所有數(shù)據(jù)被設(shè)置在單個(gè)組或匹配/對(duì)應(yīng)的組中。
在本發(fā)明主題的一個(gè)方面中,發(fā)明人料想到用于傳遞多個(gè)組學(xué)序列的運(yùn)送系統(tǒng),該運(yùn)送系統(tǒng)包括傳輸服務(wù)器,傳輸服務(wù)器包括運(yùn)送引擎和注釋引擎。最優(yōu)選地,傳輸服務(wù)器耦接到一個(gè)或多個(gè)測(cè)序裝置,測(cè)序裝置將多個(gè)組學(xué)輸出文件提供到所述傳輸服務(wù)器,其中,所述組學(xué)輸出文件中的每個(gè)包括序列數(shù)據(jù)和機(jī)器專用注釋,并且所述傳輸服務(wù)器進(jìn)一步耦接到從所述傳輸服務(wù)器接收傳輸組的序列分析引擎(例如,BAM服務(wù)器)。在特別優(yōu)選的方面中,所述注釋引擎使用從用戶輸入的注釋來(lái)注釋組學(xué)輸出文件,從而形成帶注釋的組學(xué)輸出文件,并且所述運(yùn)送引擎基于所述機(jī)器專用注釋和從用戶輸入的所述注釋二者,將所述帶注釋的組學(xué)輸出文件分組成所述傳輸組。所述運(yùn)送引擎隨后將所述傳輸組傳遞到所述序列分析引擎。
雖然不限于本發(fā)明主題,但通常優(yōu)選地是,所述組學(xué)輸出文件是基因組輸出文件(例如,整體基因組或外顯子組)、RNA-組學(xué)輸出文件、或蛋白質(zhì)組輸出文件,并且其中,輸出文件是核苷酸序列,優(yōu)選地是所述基因組輸出文件是SAM格式、BAM格式、VCF格式、FASTQ格式和FASTA格式。另外,料想到,所述系統(tǒng)還將包括暫時(shí)數(shù)據(jù)存儲(chǔ)裝置,所述暫時(shí)數(shù)據(jù)存儲(chǔ)裝置耦接在所述多個(gè)測(cè)序裝置和所述傳輸服務(wù)器之間,并且測(cè)序裝置借助所述暫時(shí)數(shù)據(jù)存儲(chǔ)裝置將所述組學(xué)輸出文件提供到所述傳輸服務(wù)器。需要時(shí),還料想到,測(cè)序裝置中的至少一個(gè)被配置為從傳輸服務(wù)器和/或序列分析引擎接收反饋信號(hào)。
在其它料想的方面中,所述機(jī)器專用注釋包括注釋,所述注釋包括日期和/或時(shí)間標(biāo)識(shí)符、測(cè)序裝置標(biāo)識(shí)符、通道標(biāo)識(shí)符、質(zhì)量分?jǐn)?shù)和/或配對(duì)成員標(biāo)識(shí)符,并且從用戶輸入的注釋通常將包括分析類型注釋(例如,整體基因組分析、外顯子組富集分析、轉(zhuǎn)錄組分析和蛋白質(zhì)組分析)和/或患者專用注釋(例如,患者標(biāo)識(shí)符、組織標(biāo)識(shí)符、組織狀態(tài)標(biāo)識(shí)符和健康記錄標(biāo)識(shí)符)。
更優(yōu)選地,但并不必需地,料想到所述運(yùn)送引擎將把所述帶注釋的組學(xué)輸出文件實(shí)時(shí)分組,和/或所述運(yùn)送引擎將獨(dú)立于所述帶注釋的組學(xué)輸出文件中的實(shí)際序列將所述帶注釋的組學(xué)輸出文件分組。在其它料想的方面中,所述運(yùn)送引擎將在完成形成所述傳輸組時(shí)傳送所述傳輸組,或者可使用用于機(jī)器專用注釋的預(yù)定分組模式。需要時(shí),還料想到,所述運(yùn)送引擎對(duì)所述傳輸組加密,和/或向所述傳輸組提供或添加唯一ID。因此,所述傳輸服務(wù)器可以以加密形式可選地在向所述測(cè)序裝置請(qǐng)求時(shí)從所述測(cè)序裝置接收所述組學(xué)輸出文件。
因此,發(fā)明人還料想到一種傳遞多個(gè)組學(xué)序列的方法,其中,提供具有運(yùn)送引擎和注釋引擎的傳輸服務(wù)器。所述傳輸服務(wù)器隨后從相應(yīng)測(cè)序裝置接收多個(gè)組學(xué)輸出文件,其中,所述組學(xué)輸出文件中的每個(gè)包括序列數(shù)據(jù)和機(jī)器專用注釋。用戶隨后使用所述注釋引擎來(lái)注釋所述組學(xué)輸出文件,以形成帶注釋的組學(xué)輸出文件,并且所述運(yùn)送引擎隨后優(yōu)選地實(shí)時(shí)地將所述帶注釋的組學(xué)輸出文件分組成傳輸組。最優(yōu)選地,分組將基于所述機(jī)器專用注釋和從用戶輸入的所述注釋兩者。最終,所述傳輸服務(wù)器隨后將把所述傳輸組傳遞到序列分析引擎(例如,BAM服務(wù)器)。
如前述闡述的,組學(xué)輸出文件可具有眾多類型的內(nèi)容,但典型地是基因組輸出文件(例如,外顯子組、整體基因組等)、RNA-組學(xué)輸出文件(例如,轉(zhuǎn)錄組組)、或蛋白質(zhì)組輸出文件,這些文件將優(yōu)選地從原始格式轉(zhuǎn)換成SAM格式或BAM格式。需要時(shí),在通過(guò)傳輸服務(wù)器接收所述多個(gè)組學(xué)輸出文件的步驟之前,組學(xué)輸出文件可被暫時(shí)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)裝置中。另外,料想到,傳輸服務(wù)器可向測(cè)序裝置和/或序列分析引擎中的一個(gè)或多個(gè)提供反饋信號(hào)。
通常還優(yōu)選地是,所述機(jī)器專用注釋包括日期和/或時(shí)間標(biāo)識(shí)符、測(cè)序裝置標(biāo)識(shí)符、通道標(biāo)識(shí)符、質(zhì)量分?jǐn)?shù)和/或配對(duì)成員標(biāo)識(shí)符,和/或從用戶輸入的所述注釋包括分析類型注釋(例如,整體基因組分析、外顯子組富集分析、轉(zhuǎn)錄組分析和蛋白質(zhì)組分析)和/或患者專用注釋(例如,患者標(biāo)識(shí)符、組織標(biāo)識(shí)符、組織狀態(tài)標(biāo)識(shí)符和健康記錄標(biāo)識(shí)符)。另外,料想到,在完成形成所述傳輸組時(shí),或者根據(jù)預(yù)定的傳遞時(shí)間表或協(xié)議,傳遞所述傳輸組。需要時(shí),還料想到,所述運(yùn)送引擎將向所述傳輸組提供或添加唯一ID。
因此,從另一個(gè)角度來(lái)看,發(fā)明人還料想到一種傳遞組學(xué)序列的方法,其中,傳輸服務(wù)器接收多個(gè)組學(xué)輸出文件,所述組學(xué)輸出文件均包括序列數(shù)據(jù)和機(jī)器專用注釋。隨后,除了所述機(jī)器專用注釋之外,還使用從用戶輸入的注釋將組學(xué)輸出文件分組成傳輸組。所述傳輸組隨后被從所述傳輸服務(wù)器傳遞到下游分析裝置(例如,BAM服務(wù)器)。
雖然不限于本發(fā)明主題,但優(yōu)選地是,獨(dú)立于所述序列數(shù)據(jù)執(zhí)行分組的步驟,并且甚至更優(yōu)選地是,實(shí)時(shí)地執(zhí)行分組的步驟。此外,料想到,從用戶輸入的所述注釋包括分析類型注釋(例如,整體基因組分析、外顯子組富集分析、轉(zhuǎn)錄組分析和蛋白質(zhì)組分析)和患者專用注釋(例如,患者標(biāo)識(shí)符、組織標(biāo)識(shí)符、組織狀態(tài)標(biāo)識(shí)符和健康記錄標(biāo)識(shí)符)。如以上已經(jīng)闡述的,通常優(yōu)選地是,在完成所述傳輸組時(shí),傳輸組被從所述傳輸服務(wù)器傳遞到所述下游分析裝置。需要時(shí),可通過(guò)存儲(chǔ)組學(xué)輸出文件的數(shù)據(jù)庫(kù)或通過(guò)多個(gè)測(cè)序裝置來(lái)提供組學(xué)輸出文件。
從又一個(gè)方面來(lái)看,發(fā)明人還料想到一種減少序列分析引擎中的基因組分析的處理時(shí)間的方法。在特別優(yōu)選的方法中,傳輸服務(wù)器從多個(gè)組學(xué)輸出文件產(chǎn)生傳輸組,其中,根據(jù)機(jī)器專用注釋和從用戶輸入的注釋將組學(xué)輸出文件分組。所述序列分析引擎(例如,BAM服務(wù)器)隨后接收所述傳輸組并且將所述傳輸組作為邏輯單元進(jìn)行處理。
更通常地,所述傳輸組中的組學(xué)輸出文件將具有SAM格式或BAM格式,并且從用戶輸入的所述注釋包括分析類型注釋(例如,整體基因組分析、外顯子組富集分析、轉(zhuǎn)錄組分析和蛋白質(zhì)組分析)和/或患者專用注釋(例如,患者標(biāo)識(shí)符、組織標(biāo)識(shí)符、組織狀態(tài)標(biāo)識(shí)符和健康記錄標(biāo)識(shí)符)。
根據(jù)下面對(duì)優(yōu)選實(shí)施例的詳細(xì)描述連同附圖,本發(fā)明主題的各種目的、特征、方面和優(yōu)點(diǎn)將變得更加明顯,在附圖中,類似的標(biāo)號(hào)代表類似的組件。
附圖說(shuō)明
圖1是根據(jù)本發(fā)明主題的用于組學(xué)序列的傳送和預(yù)處理系統(tǒng)的示例性圖示。
具體實(shí)施方式
應(yīng)該注意,涉及計(jì)算機(jī)的任何語(yǔ)言應(yīng)該被理解為包括計(jì)算裝置的任何合適組合,計(jì)算裝置包括服務(wù)器、接口、系統(tǒng)、數(shù)據(jù)庫(kù)、代理、對(duì)等點(diǎn)、引擎、控制器、模塊、或獨(dú)立或一齊操作的其它類型的計(jì)算裝置。應(yīng)該理解,計(jì)算裝置包括被配置為執(zhí)行存儲(chǔ)在有形、非暫時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(例如,硬盤驅(qū)動(dòng)器、FPGA、PLA、固態(tài)驅(qū)動(dòng)器、RAM、閃存、ROM等)上的軟件指令的處理器。軟件指令優(yōu)選地對(duì)計(jì)算裝置進(jìn)行配置和編程,以提供如以下相對(duì)于所公開(kāi)設(shè)備討論的作用、責(zé)任或其它功能。另外,公開(kāi)的技術(shù)可被實(shí)施為包括存儲(chǔ)軟件指令的非暫時(shí)計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品,所述軟件指令致使處理器執(zhí)行所公開(kāi)步驟。在一些實(shí)施例中,各種服務(wù)器、系統(tǒng)、數(shù)據(jù)庫(kù)或接口使用標(biāo)準(zhǔn)化協(xié)議或算法有可能基于HTTP、HTTPS、AES、公共-私有密鑰交換、web服務(wù)API、已知金融交易協(xié)議或其它電子信息交換方法來(lái)交換數(shù)據(jù)。可通過(guò)分組交換網(wǎng)絡(luò)、互聯(lián)網(wǎng)、LAN、WAN、VPN、或其它類型的分組交換網(wǎng)絡(luò);電路交換網(wǎng)絡(luò);小區(qū)交換網(wǎng)絡(luò);或其它類型的網(wǎng)絡(luò)進(jìn)行裝置之間的數(shù)據(jù)交換。
如本文中的說(shuō)明書(shū)和后面的整個(gè)權(quán)利要求中所使用的,當(dāng)系統(tǒng)、引擎、服務(wù)器、裝置、模塊或其它計(jì)算元件被描述為配置為對(duì)存儲(chǔ)器中的數(shù)據(jù)執(zhí)行或履行功能時(shí),“被配置為”或“被編程成”的含義被定義為計(jì)算元件的一個(gè)或多個(gè)處理器或核被存儲(chǔ)在計(jì)算元件的存儲(chǔ)器中的一組軟件指令進(jìn)行編程,以對(duì)存儲(chǔ)在存儲(chǔ)器中的目標(biāo)數(shù)據(jù)或數(shù)據(jù)對(duì)象執(zhí)行一組功能。
應(yīng)該理解,所公開(kāi)的技術(shù)提供了許多有利的技術(shù)效果,包括將一個(gè)或多個(gè)計(jì)算裝置配置為通過(guò)將組學(xué)數(shù)據(jù)組織成計(jì)算邏輯單元來(lái)有效處理組學(xué)數(shù)據(jù)。
下面的討論提供了本發(fā)明主題的一些示例實(shí)施例。盡管各實(shí)施例代表本發(fā)明元件的單個(gè)組合,但本發(fā)明主題被視為包括所公開(kāi)元件的所有可能組合。因此,如果一個(gè)實(shí)施例包括元件A、B和C并且第二實(shí)施例包括元件B和D,則本發(fā)明主題還被視為包括A、B、C或D的其它剩余組合,即使沒(méi)有明確地公開(kāi)。
發(fā)明人現(xiàn)在已經(jīng)發(fā)現(xiàn),通過(guò)對(duì)組學(xué)序列進(jìn)行預(yù)處理和/或分組以形成邏輯單元可容易地提高對(duì)由一個(gè)或多個(gè)數(shù)據(jù)源提供并且傳遞到序列分析引擎的眾多組學(xué)序列的序列分析,所述邏輯單元隨后被供給到序列分析引擎并且在不需要檢索為了進(jìn)行相同分析所需的其它序列的情況下被處理。應(yīng)該尤其注意,這種預(yù)處理和/或分組將顯著減少序列分析引擎所需的處理時(shí)間,并且還可顯著減少完成時(shí)間,其中,序列分析因無(wú)效和/或丟失的數(shù)據(jù)而折衷,因?yàn)榭烧?qǐng)求此數(shù)據(jù)并且以有效且協(xié)調(diào)的方式將其傳送到序列分析引擎。
在本發(fā)明主題的特別優(yōu)選方面中,使用機(jī)器專用注釋和用戶注釋(一個(gè)或多個(gè))二者執(zhí)行預(yù)處理和/或分組。從另一個(gè)角度來(lái)看,發(fā)明人料想到在沒(méi)有關(guān)于正在傳送的實(shí)際組學(xué)序列的情況下基于用戶和(測(cè)序)裝置參數(shù)將供分析的多個(gè)組學(xué)序列排列和/或分組的傳輸服務(wù)器。因此,從不同角度來(lái)看,用戶將能夠創(chuàng)建用于序列分析的用戶定義規(guī)則,其中,規(guī)則確定將組學(xué)輸出文件實(shí)時(shí)分組成一個(gè)或多個(gè)傳輸組。
例如,圖1示例性地示出用于將多個(gè)組學(xué)序列從多個(gè)測(cè)序裝置傳遞到序列分析引擎的運(yùn)送系統(tǒng)100。更典型地,組學(xué)序列包括序列數(shù)據(jù)(例如,核酸序列)和機(jī)器專用注釋。這里,系統(tǒng)100包括多個(gè)測(cè)序裝置110a、110b和110c,測(cè)序裝置110a、110b和110c從可來(lái)自相同患者或不同患者(未示出)的多個(gè)患者樣本產(chǎn)生多個(gè)組學(xué)輸出文件112a、112b和112c。在大多數(shù)情況下,測(cè)序裝置110a、110b和110c借助廣域網(wǎng)102與傳輸服務(wù)器120信息耦接,并且所有組學(xué)輸出文件112d被直接或間接(例如,借助暫時(shí)數(shù)據(jù)存儲(chǔ)裝置150)路由至傳輸服務(wù)器120。示例測(cè)序裝置包括Oxford Nanopore MinION、或MiSeq或HiSeq裝置中的任一個(gè)。
更優(yōu)選地,料想的系統(tǒng)包括傳輸服務(wù)器120,傳輸服務(wù)器120包括注釋引擎122和運(yùn)送引擎124,并且傳輸服務(wù)器120借助廣域網(wǎng)102耦接到測(cè)序裝置110a至110c,使得測(cè)序裝置可將相應(yīng)組學(xué)輸出文件提供到傳輸服務(wù)器。傳輸服務(wù)器還借助廣域網(wǎng)102耦接到序列分析引擎140,序列分析引擎140借助廣域網(wǎng)102從傳輸服務(wù)器120接收來(lái)自傳輸服務(wù)器的傳輸組126。注釋引擎122被優(yōu)選地配置為使用從用戶(例如,醫(yī)療專業(yè)人員)的輸入裝置130輸入的注釋來(lái)注釋組學(xué)輸出文件,從而形成帶注釋的組學(xué)輸出文件126。運(yùn)送引擎124(更一般地,借助一個(gè)或多個(gè)預(yù)定規(guī)則)被配置成基于機(jī)器專用注釋和從用戶輸入的注釋將帶注釋的組學(xué)輸出文件分組成傳輸組。一旦分組,運(yùn)送引擎隨后就將傳輸組傳遞到序列分析引擎140(例如,BAM服務(wù)器)。
盡管傳輸服務(wù)器120、序列分析引擎140和輸入裝置130被圖示為個(gè)體計(jì)算裝置,但應(yīng)該理解,每個(gè)裝置均可采取不同形式。在一些實(shí)施例中,裝置的集合可被實(shí)現(xiàn)為基于云的服務(wù);有可能是收費(fèi)服務(wù)。股東(例如,保險(xiǎn)公司、醫(yī)生、腫瘤學(xué)家、制藥公司、患者、其它分析引擎等)可訂購(gòu)該服務(wù)。這些服務(wù)有可能通過(guò)網(wǎng)絡(luò)可訪問(wèn)API借助web服務(wù)接口(例如,WSDL、SOAP、HTTP、REST、BEEP等)來(lái)提供。在其它實(shí)施例中,裝置可以是將一個(gè)或多個(gè)應(yīng)用安裝在計(jì)算裝置上的單個(gè)裝置。另外,在其它實(shí)施例中,裝置可包括為三個(gè)裝置提供所有規(guī)則或責(zé)任的單個(gè)一體裝置。
在本發(fā)明主題的一個(gè)示例性方面中,用戶已經(jīng)為測(cè)序設(shè)施(直接地或間接地)提供了一個(gè)或多個(gè)樣本(例如,來(lái)自相同患者的腫瘤樣本和匹配的正常樣本),以用于整體基因組分析。用戶隨后使用合適的安全措施(例如,優(yōu)選地與序列讀取鏈接的一次性使用密鑰)來(lái)訪問(wèn)測(cè)序設(shè)施進(jìn)行下載,而測(cè)序設(shè)施將通常使用對(duì)應(yīng)的安全措施(例如,相同或匹配密鑰)上傳到用戶。更通常地,將在傳輸?shù)闹辽僖粋€(gè)片段中加密序列信息。例如,可通過(guò)測(cè)序裝置的加密模塊或與測(cè)序裝置信息耦接的加密裝置來(lái)加密序列信息。雖然一般料想到測(cè)序裝置將共同定位在單個(gè)測(cè)序設(shè)施中,但應(yīng)該認(rèn)識(shí)到,共同定位對(duì)本發(fā)明主題不是關(guān)鍵的。
相對(duì)于合適的測(cè)序裝置,應(yīng)該理解測(cè)序裝置的具體類型不限于本發(fā)明的主題,但產(chǎn)生組學(xué)輸出的所有裝置被認(rèn)為適于本文中使用。然而,特別優(yōu)選的裝置包括核酸測(cè)序裝置,核酸測(cè)序裝置提供基因組原始數(shù)據(jù)、被轉(zhuǎn)換成SAM格式、BAM格式、VCF格式、FASTQ格式、或FASTA格式的基因組數(shù)據(jù)。另外,本文中還料想到蛋白質(zhì)組高吞吐量裝置和RNA分析裝置。雖然料想到可在單個(gè)測(cè)序裝置上專門分析患者樣本,但還料想到可使用兩個(gè)或更多個(gè)不同的測(cè)序裝置來(lái)分析樣本。另外,料想到,測(cè)序裝置還可被配置為借助用戶輸入裝置從運(yùn)輸服務(wù)器、序列分析引擎、和/或用戶接收一個(gè)或多個(gè)反饋信號(hào)。例如,在序列分析引擎確定基因組中的某些區(qū)域需要更高的讀取閾值的情況下,序列分析引擎可向傳輸服務(wù)器和/或測(cè)序裝置提供反饋,以對(duì)該區(qū)域執(zhí)行進(jìn)一步分析。另一方面,在傳輸引擎確定特定測(cè)序裝置的裝置參數(shù)無(wú)法滿足特定預(yù)定水平(例如,一個(gè)或多個(gè)通道的數(shù)據(jù)低于預(yù)定質(zhì)量分?jǐn)?shù))的情況下,傳輸引擎可向測(cè)序裝置提供改變操作參數(shù)或離線的指令。因此,不管測(cè)序裝置的特定類型如何,料想到裝置將(優(yōu)選地,自動(dòng)地)將機(jī)器專用注釋附連到組學(xué)輸出文件。例如,合適的機(jī)器專用注釋包括日期和/或時(shí)間標(biāo)識(shí)符、測(cè)序裝置標(biāo)識(shí)符、通道標(biāo)識(shí)符、質(zhì)量分?jǐn)?shù)、和/或配對(duì)成員標(biāo)識(shí)符。
相對(duì)于安全性,可通過(guò)多種技術(shù)來(lái)確保流過(guò)運(yùn)送系統(tǒng)100的數(shù)據(jù)。在一些實(shí)施例中,可有可能借助安全FTP、HTTPS、SSL、或其它協(xié)議通過(guò)安全通信鏈路來(lái)發(fā)送組學(xué)數(shù)據(jù)。通常,密碼協(xié)議或算法的較高強(qiáng)度實(shí)現(xiàn)是更優(yōu)選的。然而,與密碼協(xié)議關(guān)聯(lián)的計(jì)算開(kāi)銷和其它成本可命令使用密碼協(xié)議或算法的較低安全實(shí)現(xiàn)。例如,AES-128對(duì)于大多數(shù)顧客而言會(huì)是充分的,AES-256或更高級(jí)別的AES可用于保證性比計(jì)算成本更重要的情形。另外,組學(xué)數(shù)據(jù)可被存儲(chǔ)在安全的存儲(chǔ)器內(nèi),有可能,附于FIPS-140的一個(gè)或多個(gè)級(jí)的存儲(chǔ)器或存儲(chǔ)模塊。另外其它合適的算法包括3DES、Twofish、Blowfish、XXTEA、PGP、或其它已知算法或仍未發(fā)明的算法。應(yīng)該理解,來(lái)自組學(xué)文件的至少一些數(shù)據(jù)、患者基因組序列可形成相對(duì)于密碼協(xié)議或算法的實(shí)現(xiàn)的憑證或密鑰的基礎(chǔ)。因此,只有有權(quán)訪問(wèn)患者組學(xué)數(shù)據(jù)的實(shí)體才可解鎖數(shù)據(jù)或獲得訪問(wèn)數(shù)據(jù)的權(quán)利。
因此,應(yīng)該認(rèn)識(shí)到,提供組學(xué)數(shù)據(jù)的數(shù)據(jù)源(一個(gè)或多個(gè))在大多數(shù)情況下將自動(dòng)地使用裝置專用參數(shù)來(lái)注釋組學(xué)數(shù)據(jù),并且這種注釋將以預(yù)定義格式。例如,典型的測(cè)序裝置將提供FASTQ或FASTA格式的測(cè)序數(shù)據(jù),并且如此包括儀器名稱、流動(dòng)細(xì)胞ID和/或名稱、多樣本的索引編號(hào)、關(guān)于配對(duì)成員的指示(例如,雙末端或配對(duì)讀?。┑取A硗?,裝置專用參數(shù)還可包括相對(duì)于讀取的質(zhì)量值和需要時(shí)可選的序列注釋(例如,序列標(biāo)識(shí)符和/或描述)。當(dāng)然,應(yīng)該認(rèn)識(shí)到,數(shù)據(jù)源(一個(gè)或多個(gè))可直接以流式形式、或者從中間數(shù)據(jù)儲(chǔ)存器、或甚至從耦接在測(cè)序裝置(一個(gè)或多個(gè))和傳輸服務(wù)器之間的暫時(shí)數(shù)據(jù)存儲(chǔ)裝置提供組學(xué)數(shù)據(jù)。
不管組學(xué)數(shù)據(jù)源的類型和數(shù)據(jù)傳遞的方式如何,通常優(yōu)選地是,原始序列數(shù)據(jù)輸出文件被轉(zhuǎn)換成適于序列分析引擎進(jìn)行分析的文件類型。在本發(fā)明主題的特別優(yōu)選的方面中,用于序列分析引擎的文件類型是SAM或BAM文件。存在本領(lǐng)域已知的眾多文件轉(zhuǎn)換器/對(duì)準(zhǔn)器,并且用于將FASTQ轉(zhuǎn)換成SAM或BAM文件的示例性轉(zhuǎn)換器/對(duì)準(zhǔn)器包括Bowtie、BWA、GAR、Bfast、Maq、Mosaik、Novoalign、或Ssaha2等。在輸出是SAM文件的情況下,應(yīng)該理解,可使用SAM工具將此文件轉(zhuǎn)換成對(duì)應(yīng)的BAM文件。當(dāng)然,還應(yīng)該注意,可在序列分析引擎上游的任何位置完成將測(cè)序裝置原始數(shù)據(jù)轉(zhuǎn)換成SAM或BAM文件。然而,通常優(yōu)選地是,在傳輸服務(wù)器處或在其上游執(zhí)行將原始數(shù)據(jù)轉(zhuǎn)換成SAM或BAM文件,使得傳輸組是SAM或BAM文件的組。
在典型示例中,用戶將借助用戶輸入裝置(例如,與廣域網(wǎng)連接的計(jì)算機(jī)或移動(dòng)裝置)來(lái)操作專用傳輸服務(wù)器,用戶輸入裝置可與用戶共同定位,或者遠(yuǎn)程定位并可由用戶借助終端或其它適當(dāng)接口進(jìn)行訪問(wèn)。不管傳輸服務(wù)器的位置如何,料想到用戶將使用組學(xué)數(shù)據(jù)上傳專用的注釋輸入來(lái)注釋來(lái)自數(shù)據(jù)源(例如,測(cè)序裝置)的組學(xué)輸出文件(例如,序列讀?。T诖蠖鄶?shù)情形下,傳輸服務(wù)器將包括允許用戶執(zhí)行這種注釋的注釋引擎。然而,還可借助隨后耦接到傳輸服務(wù)器的單獨(dú)注釋模塊來(lái)提供注釋。雖然注釋輸入的性質(zhì)不限于本發(fā)明的主題,但應(yīng)該理解,注釋輸入將通常至少具有對(duì)于樣本和/或患者的一些重要性,并且最通常地包括分析類型注釋和患者專用注釋。
例如,分析類型注釋可以是用于樣本準(zhǔn)備、樣本程序等的特定協(xié)議或技術(shù)專用的,并且因此可包括參考整個(gè)基因組分析、外顯子組富集分析、轉(zhuǎn)錄組組分析、蛋白質(zhì)組分析等。同樣地,患者專用注釋將通常涉及至少一定程度與患者關(guān)聯(lián)的一些信息。例如,患者專用注釋將通常包括患者標(biāo)識(shí)符、組織標(biāo)識(shí)符、組織狀態(tài)標(biāo)識(shí)符(例如,匹配的正常、患病、原發(fā)腫瘤、復(fù)發(fā)腫瘤、轉(zhuǎn)移瘤等)、健康記錄標(biāo)識(shí)符(例如,疾病類型、患者狀態(tài))、電子醫(yī)療記錄標(biāo)識(shí)符等。用戶注釋還可包括期望分析的類型(例如,比較腫瘤與匹配的正常、或腫瘤與前述腫瘤樣本或其它參考物的請(qǐng)求)。
因此,應(yīng)該認(rèn)識(shí)到,用戶將把信息的第二層提供到組學(xué)數(shù)據(jù),組學(xué)數(shù)據(jù)將允許組學(xué)信息與和患者、進(jìn)行測(cè)序分析(例如,整個(gè)基因組分析或外顯子組或轉(zhuǎn)錄組分析)的特定類型的患者樣本(例如,患病與對(duì)照物、或與藥品治療前和期間/之后)類型唯一相關(guān)的信息關(guān)聯(lián)。這種雙重信息內(nèi)容(即,機(jī)器專用注釋和從用戶輸入的注釋)是特別有益的,其中,必須協(xié)調(diào)眾多測(cè)序運(yùn)行,以供后續(xù)分析。一旦適當(dāng)分組,就可以以最小中斷執(zhí)行分析,這些中斷否則將是由于丟失或不完整的組學(xué)信息導(dǎo)致的。更通常地,運(yùn)送引擎將被配置為在完成形成用戶(和控制分組功能的適宜規(guī)則)定義的傳輸組時(shí)傳送傳輸組。另一方面,還料想到根據(jù)機(jī)器專用注釋的預(yù)定分組模式分組。
通常,使用運(yùn)送引擎和用戶注釋和機(jī)器專用注釋二者在傳輸服務(wù)器執(zhí)行分組,使得形成一組序列,該一組序列是相對(duì)于序列分析引擎進(jìn)行的特定分析任務(wù)的一組完整序列。因此,在本發(fā)明主題的至少一個(gè)方面中,可通過(guò)匹配正常和患病樣本來(lái)驅(qū)動(dòng)分組,可通過(guò)匹配樣本之間的基因組區(qū)域,或通過(guò)特定患者、或患者歷史、以及通過(guò)使用不同患者樣本的疾病類型來(lái)細(xì)化匹配正常和患病樣本。還可通過(guò)組學(xué)輸出文件和其它機(jī)器專用注釋(例如,排除來(lái)自特定通道或裝置的組學(xué)文件)的質(zhì)量測(cè)量來(lái)驅(qū)動(dòng)匹配。還料想到,可使用基于機(jī)器專用注釋的先驗(yàn)或默認(rèn)分組來(lái)執(zhí)行分組,隨后基于用戶注釋來(lái)修改或調(diào)整分組。因此,應(yīng)該理解,可獨(dú)立于帶注釋的組學(xué)輸出文件中的實(shí)際序列,而根據(jù)用戶的特定要求(例如,根據(jù)期望的分析類型、患者歷史、疾病類型等),執(zhí)行帶注釋的組學(xué)輸出文件的分組。
另外,料想到,可通過(guò)來(lái)自序列分析引擎和/或組學(xué)數(shù)據(jù)源的反饋信號(hào)來(lái)驅(qū)動(dòng)或修改分組。例如,序列分析引擎可向傳輸服務(wù)器提供反饋以包括針對(duì)特定基因組區(qū)域的額外組學(xué)數(shù)據(jù),或者組學(xué)數(shù)據(jù)源可向傳輸服務(wù)器提供沒(méi)有在傳遞其它組學(xué)數(shù)據(jù)的反饋。另一方面,傳輸服務(wù)器還可將反饋提供給組學(xué)數(shù)據(jù)源以重復(fù)特定分析,或提供給序列分析引擎以指示特定數(shù)據(jù)的存在與否。不管信息和/或分組的流動(dòng)如何,應(yīng)該注意,將組學(xué)數(shù)據(jù)分組成傳輸組是獨(dú)立于實(shí)際序列內(nèi)容執(zhí)行的,但僅僅是基于機(jī)器專用注釋和用戶注釋(和SAM或BAM文件中的非序列信息)來(lái)完成的。另外,應(yīng)該注意,分組優(yōu)選地是基本上實(shí)時(shí)(即,當(dāng)傳遞組學(xué)數(shù)據(jù)或使組學(xué)數(shù)據(jù)可用時(shí))執(zhí)行的,隨著分組專用ID將分組發(fā)送到序列分析引擎,并且僅僅在通過(guò)傳輸服務(wù)器完成分組時(shí)發(fā)送分組。應(yīng)該注意,傳輸組優(yōu)選地在傳遞到序列分析引擎之前被加密。
用戶注釋可取決于即將到來(lái)的分析項(xiàng)目的性質(zhì),采取許多不同形式或廣譜信息。另外,用戶注釋的性質(zhì)可取決于相對(duì)于分析生態(tài)系統(tǒng)的用戶的作用或責(zé)任??紤]例如用戶具有傳輸服務(wù)器120或序列分析引擎140的系統(tǒng)管理員的作用。系統(tǒng)管理員可創(chuàng)建指示可用網(wǎng)絡(luò)帶寬或存儲(chǔ)容量的注釋。傳輸服務(wù)器120可封裝組學(xué)數(shù)據(jù),以確保所得的邏輯單元遵守這種限制??晒┻x擇地,用戶可以是醫(yī)生。在這種情況下,醫(yī)生可包括用戶注釋,用戶注釋包括醫(yī)生的唯一標(biāo)識(shí)符(例如,醫(yī)生注冊(cè)標(biāo)識(shí)符、國(guó)家供應(yīng)商標(biāo)識(shí)符(NPI)等)、診斷代碼(例如,ICD-9、ICD-10、DSM等)、程序代碼(例如,CPT等)、或其它醫(yī)生相關(guān)信息。這種信息隨后可被用于將組學(xué)數(shù)據(jù)分組,使得它們具有共同的屬性;醫(yī)生可請(qǐng)求根據(jù)醫(yī)生訂購(gòu)系統(tǒng)100提供的服務(wù)的計(jì)劃,將他們的患者全部一起進(jìn)行批量處理。額外的用戶注釋可包括保險(xiǎn)范圍、緊急性信息、優(yōu)先級(jí)信息、數(shù)據(jù)所有權(quán)信息、或其它屬性。在一些實(shí)施例中,可根據(jù)先驗(yàn)定義的用戶注釋命名空間或本體將用戶注釋歸一化,其中,每種類型的用戶注釋可包括取特定值(即,尺寸的度量)的屬性(即,命名空間中的尺寸)。
與用戶注釋類似地,機(jī)器專用注釋還可采取廣譜值來(lái)反映一個(gè)或多個(gè)特定機(jī)器的性質(zhì)或它們的對(duì)應(yīng)狀態(tài)。因此,機(jī)器專用注釋可屬于生態(tài)系統(tǒng)100內(nèi)的一個(gè)或多個(gè)裝置,包括測(cè)序裝置110a至110c、傳輸服務(wù)器120、輸入裝置130、或甚至測(cè)序分析引擎140。示例機(jī)器專用注釋可包括裝置標(biāo)識(shí)符(例如,IP地址、MAC地址、序列號(hào)、型號(hào)編號(hào)等)、裝置帶寬(例如,Gpb/秒、網(wǎng)絡(luò)帶寬等)、分析度量、可用機(jī)器學(xué)習(xí)或分析算法、裝置位置、處理成本、CPU可用性(例如,MFLOP、可用線程、可用核等)、或其它機(jī)器相關(guān)屬性。正如用戶注釋可附于用戶注釋命名空間或本體,機(jī)器專用注釋可附于機(jī)器屬性命名空間。可根據(jù)作為機(jī)器專用注釋數(shù)據(jù)結(jié)構(gòu)(例如,矢量、元組等)的機(jī)器屬性命名空間來(lái)編譯機(jī)器專用注釋。注釋引擎122因此可將輸出文件用數(shù)據(jù)結(jié)構(gòu)標(biāo)記或者將輸出文件與數(shù)據(jù)結(jié)構(gòu)結(jié)合(bind)在一起,有可能作為XML文件形式的元數(shù)據(jù)。在一些實(shí)施例中,注釋引擎122的作用或責(zé)任可被集成在序列裝置110a至110a中,有可能甚至作為售后市場(chǎng)適配器。
運(yùn)送引擎124被配置為執(zhí)行實(shí)施規(guī)則的一個(gè)或多個(gè)軟件指令,根據(jù)該規(guī)則輸出文件被分組在一起。這些規(guī)則可由用戶借助輸入裝置130來(lái)提供或者可被安裝在傳輸服務(wù)器120內(nèi)。這些規(guī)則可被實(shí)現(xiàn)為基于用戶和機(jī)器專用注釋進(jìn)行操作的腳本或其它代碼。例如,運(yùn)送引擎125可包括基于腳本的運(yùn)行時(shí)間(例如,Python、Ruby、Java、.NET等),其提供能夠訪問(wèn)輸出文件112a至112c及其對(duì)應(yīng)注釋的API。用戶隨后可編寫腳本,或者以其它方式致使借助API執(zhí)行腳本來(lái)處理輸出文件,以便構(gòu)建傳輸組126。有可能基于先驗(yàn)定義的命名空間,規(guī)則可包括取決于注釋或其值的要求、條件、或其它標(biāo)準(zhǔn)。簡(jiǎn)單示例可包括力求結(jié)合對(duì)應(yīng)于特定醫(yī)生的所有輸出文件的規(guī)則。運(yùn)送引擎124根據(jù)基于醫(yī)生的規(guī)則,詢問(wèn)具有醫(yī)生標(biāo)識(shí)符的所有輸出文件。隨后,可將設(shè)置的結(jié)果一起編譯,以形成代表醫(yī)生請(qǐng)求的工作成果的單個(gè)邏輯單元。應(yīng)該理解,這些規(guī)則或腳本可包括十分復(fù)雜的規(guī)則,該規(guī)則控制將輸出文件分組成傳輸組126。
應(yīng)該理解,傳輸組126被視為相對(duì)于處理輸出文件的單個(gè)邏輯單元。這種方式被認(rèn)為是十分有利的,因?yàn)槠涫沟糜?jì)算裝置能夠從全局角度(例如,相對(duì)于所有文件)優(yōu)化計(jì)算資源,同時(shí)還遵守了本地效率(例如,非常特定的請(qǐng)求)。因此,運(yùn)送引擎124操作所遵循的規(guī)則或腳本可被視為相對(duì)于注釋定義的邏輯單元處理的定義。舉例來(lái)說(shuō),考慮系統(tǒng)100包括腫瘤專家可用的付費(fèi)基因組處理服務(wù)的情形。腫瘤專家可向系統(tǒng)提交緊急請(qǐng)求(即,具有緊急程度、高美元價(jià)值請(qǐng)求、時(shí)間期限等),以識(shí)別會(huì)對(duì)患者應(yīng)急車(immediate car)有積極影響的已知藥物。作為響應(yīng),運(yùn)送引擎124可識(shí)別具有患者標(biāo)識(shí)符的所有輸出文件和與和一種或多種已知藥物關(guān)聯(lián)的參考基因組相關(guān)的輸出文件。另外,運(yùn)送引擎124可確定哪些文件會(huì)需要基于額外讀取或數(shù)據(jù)的序列裝置注釋。另外,運(yùn)送引擎124可使用與序列分析引擎140中的一個(gè)或多個(gè)關(guān)聯(lián)并且可包括裝置可用性或容量的裝置屬性。如果充分的容量可用,則運(yùn)送引擎124可將相關(guān)輸出文件分組在一起作為(有可能標(biāo)記有應(yīng)急程度的)邏輯單元,并且向序列分析引擎140提交邏輯單元,以供立即處理。邏輯單元可被作為二元文件、文本文件、或甚至串行文件(例如,XML、YAML、JSON等)或其它格式傳送。
鑒于運(yùn)送引擎124可將輸出文件組合在一起作為邏輯單元以應(yīng)對(duì)系統(tǒng)100或股東的優(yōu)化需要,還應(yīng)該理解,邏輯單元可被配置為應(yīng)對(duì)多種可能的優(yōu)化度量??纱硖幚韨鬏斀M126的目標(biāo)或關(guān)心的示例度量包括金錢成本、帶寬、網(wǎng)絡(luò)或處理延遲、地理限制、安全性或保密性級(jí)別、電力消費(fèi)成本、優(yōu)先級(jí)、緊急度、重要性、患者預(yù)期壽命、或其它度量。
相對(duì)于序列分析引擎,通常料想到,所有已知的序列分析引擎均被視為適于在本文中使用。然而,尤其優(yōu)選地是,序列分析引擎被配置為使用SAM或BAM文件作為輸入文件(例如,BAM服務(wù)器),并且特別優(yōu)選地序列分析引擎包括通過(guò)使用多個(gè)對(duì)應(yīng)子字符串中的至少一個(gè)的已知位置漸增地將第一序列串和第二序列串同步來(lái)產(chǎn)生本地對(duì)準(zhǔn)的引擎,其中,本地對(duì)準(zhǔn)被用于生成本地對(duì)準(zhǔn)內(nèi)的第一序列串和第二序列串之間的本地差異串。此本地差異串隨后被用來(lái)更新差異序列數(shù)據(jù)庫(kù)中的差異基因序列對(duì)象。在US 2012/0066001、WO 2013/074058和WO 2014/058987中描述了這種序列分析引擎的示例,這些都以引用方式并入本文中。
雖然一般優(yōu)選地是本文中提出的系統(tǒng)和方法以連續(xù)或流式方式運(yùn)作,但還明確料想到,運(yùn)送的組學(xué)信息中的至少一些可(通常,瞬態(tài)或暫時(shí)地)被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)裝置中。例如,在患者樣本在不同裝置或甚至不同位置中處理的情況下,或者在一個(gè)或多個(gè)測(cè)序裝置經(jīng)受維修或短時(shí)間內(nèi)不能操作的情況下,暫時(shí)數(shù)據(jù)存儲(chǔ)裝置可耦接在測(cè)序裝置和傳輸服務(wù)器之間,以允許進(jìn)行緩沖。暫時(shí)緩沖器的一個(gè)可能示例可包括具有大容量存儲(chǔ)器(例如,優(yōu)選地,大于200GB、500GB、1TB、2TB、或更大)的個(gè)人基因組數(shù)據(jù)卡和處理器。個(gè)人數(shù)據(jù)卡可存儲(chǔ)擁有該卡的患者的一個(gè)或多個(gè)組學(xué)輸出文件。例如,患者的卡可包括具有信用卡接觸墊的固態(tài)盤驅(qū)動(dòng)器。隨著患者移動(dòng)通過(guò)保健系統(tǒng),他們可授權(quán)傳輸服務(wù)器或其它實(shí)體訪問(wèn)他們?cè)谲嚿系幕蚪M數(shù)據(jù)。另一方面,在相同患者在延長(zhǎng)時(shí)間段內(nèi)經(jīng)受測(cè)試的情況下(例如,在治療之前和在治療/定期復(fù)查(follow-up)之后),可實(shí)現(xiàn)更長(zhǎng)期的存儲(chǔ)。示例的長(zhǎng)期存儲(chǔ)解決方案包括SAN、NAS、RAID、基于云的存儲(chǔ)、臨床操作系統(tǒng)數(shù)據(jù)管理員、或其它類型的存儲(chǔ)器。在一些實(shí)施例中,運(yùn)送系統(tǒng)100可包括被配置為存儲(chǔ)患者樣本序列的一個(gè)或多個(gè)樣本數(shù)據(jù)庫(kù),有可能包括文件系統(tǒng)。
因此,應(yīng)該認(rèn)識(shí)到,發(fā)明人料想到用于傳遞多個(gè)組學(xué)序列(通常,DNA、RNA、或蛋白質(zhì))的運(yùn)送系統(tǒng)將包括具有運(yùn)送引擎和注釋引擎的傳輸服務(wù)器。傳輸服務(wù)器通常(直接地或間接地)耦接到一個(gè)或多個(gè)測(cè)序裝置和序列分析引擎,其中所述一個(gè)或多個(gè)測(cè)序裝置將組學(xué)輸出文件(包括序列數(shù)據(jù)和機(jī)器專用注釋)提供到傳輸服務(wù)器,序列分析引擎從傳輸服務(wù)器接收傳輸組。在特別優(yōu)選的系統(tǒng)中,注釋引擎被配置為使用從用戶輸入的注釋來(lái)注釋多個(gè)組學(xué)輸出文件,從而形成帶注釋的組學(xué)輸出文件,并且運(yùn)送引擎被配置為基于機(jī)器專用注釋和從用戶輸入的注釋將帶注釋的組學(xué)輸出文件分組成傳輸組。運(yùn)送引擎被配置為將傳輸組傳遞到序列分析引擎。
從不同角度來(lái)看,發(fā)明人因此還料想到使用具有運(yùn)送引擎和注釋引擎的傳輸服務(wù)器來(lái)傳遞組學(xué)序列的方法。特別料想到的方法包括通過(guò)傳輸服務(wù)器從測(cè)序裝置接收組學(xué)輸出文件(例如,基因組輸出文件、RNA-組學(xué)輸出文件、或蛋白質(zhì)組輸出文件)的步驟,其中,組學(xué)輸出文件中的每個(gè)包括序列數(shù)據(jù)和機(jī)器專用注釋。在另一個(gè)步驟中,注釋引擎使用從用戶輸入的注釋來(lái)注釋組學(xué)輸出文件,以如此形成帶注釋的組學(xué)輸出文件,并且運(yùn)送引擎將帶注釋的組學(xué)輸出文件分組成傳輸組,其中,分組基于機(jī)器專用注釋和從用戶輸入的注釋。最終,傳輸服務(wù)器將傳輸組傳遞到序列分析引擎。
因此,還應(yīng)該認(rèn)識(shí)到,發(fā)明人料想到傳遞組學(xué)序列的方法,其中,傳輸服務(wù)器接收包括序列數(shù)據(jù)和機(jī)器專用注釋的多個(gè)組學(xué)輸出文件。隨后,使用從用戶輸入的注釋和機(jī)器專用注釋將組學(xué)輸出文件分組成傳輸組,并且隨后將傳輸組從傳輸服務(wù)器傳遞到下游分析裝置。
這種組傳遞將有利地產(chǎn)生減少序列分析引擎中的基因組分析的處理時(shí)間的方法,該方法中傳輸服務(wù)器從多個(gè)組學(xué)輸出文件產(chǎn)生傳輸組,其中,根據(jù)機(jī)器專用注釋和從用戶輸入的注釋將組學(xué)輸出文件分組。序列分析引擎隨后接收傳輸組,其中,序列分析引擎將傳輸組作為邏輯單元進(jìn)行處理。
本領(lǐng)域的技術(shù)人員應(yīng)該清楚,在不脫離本文中的發(fā)明概念的情況下,除了已經(jīng)描述的修改形式之外的更多修改形式是可能的。因此,本發(fā)明的主題并不不受限制,而是限于隨附權(quán)利要求的精神內(nèi)。此外,在解釋說(shuō)明書(shū)和權(quán)利要求二者時(shí),所有術(shù)語(yǔ)應(yīng)該以與上下文一致的最廣的可能方式進(jìn)行解釋。特別地,術(shù)語(yǔ)“包括”和“包含”應(yīng)該被解釋為以非排他性方式提及元件、組件、或步驟,從而指示可存在、或利用參考的元件、組件、或步驟,或者將其與沒(méi)有明確參考的其它元件、組件、或步驟組合。在說(shuō)明書(shū)的權(quán)利要求是指選自由A、B、C…和N組成的組中的至少一個(gè)的情況下,文本應(yīng)該被解釋為只需要組中的一個(gè)元件,而非A+N、或B+N等。