本技術(shù)屬于生物醫(yī)學(xué),尤其涉及一種基于測(cè)序數(shù)據(jù)的cfdna片段分析方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。
背景技術(shù):
1、不同于傳統(tǒng)的侵入性檢測(cè)方法,液體活檢采取非侵入性方式取樣從而得到腫瘤細(xì)胞相關(guān)信息,是最具有代表性的精準(zhǔn)醫(yī)療診斷技術(shù)之一,其原理是檢測(cè)釋放到血液中的原始腫瘤細(xì)胞或dna。其中循環(huán)細(xì)胞游離dna即cfdna包含了釋放到血液的全部dna信息。
2、cfdna片段化模式的研究,也稱(chēng)為“片段組學(xué)”,現(xiàn)在是生物標(biāo)志物研究的一個(gè)積極追求的領(lǐng)域?;赾fdna的片段組學(xué)分析已經(jīng)成為了多種癌癥診斷、預(yù)后和反應(yīng)預(yù)測(cè)的生物標(biāo)志物。但是,現(xiàn)有的片段組學(xué)分析技術(shù)對(duì)cfdna片段的片段特征,特別是片段長(zhǎng)度和末端位點(diǎn)的分析效果并不好,存在一定誤差,分析精準(zhǔn)度較低。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。為此,本技術(shù)提出一種基于測(cè)序數(shù)據(jù)的cfdna片段分析方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,能較準(zhǔn)確地分析出cfdna片段的片段長(zhǎng)度和末端位點(diǎn),分析精準(zhǔn)度較高。
2、第一方面,本技術(shù)提供了一種基于測(cè)序數(shù)據(jù)的cfdna片段分析方法,包括:
3、從比對(duì)數(shù)據(jù)文件中獲取目標(biāo)cfdna片段對(duì)應(yīng)的一對(duì)測(cè)序讀段、所述一對(duì)測(cè)序讀段中每個(gè)測(cè)序讀段比對(duì)到參考基因組上的起始位點(diǎn)和比對(duì)匹配結(jié)果、以及所述目標(biāo)cfdna片段比對(duì)到所述參考基因組上的插入片段長(zhǎng)度,所述一對(duì)測(cè)序讀段是對(duì)所述目標(biāo)cfdna片段進(jìn)行雙末端測(cè)序得到的兩個(gè)測(cè)序讀段;
4、根據(jù)所述起始位點(diǎn)和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段對(duì)應(yīng)的目標(biāo)起始位點(diǎn)和目標(biāo)末端位點(diǎn);
5、根據(jù)所述比對(duì)匹配結(jié)果、所述參考基因組、所述一對(duì)測(cè)序讀段和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度。
6、本技術(shù)提供的基于測(cè)序數(shù)據(jù)的cfdna片段分析方法,通過(guò)從比對(duì)數(shù)據(jù)文件中獲取目標(biāo)cfdna片段對(duì)應(yīng)的一對(duì)測(cè)序讀段、該一對(duì)測(cè)序讀段中每個(gè)測(cè)序讀段比對(duì)到參考基因組上的起始位點(diǎn)和比對(duì)匹配結(jié)果、以及目標(biāo)cfdna片段比對(duì)到參考基因組上的插入片段長(zhǎng)度,該一對(duì)測(cè)序讀段是對(duì)目標(biāo)cfdna片段進(jìn)行雙末端測(cè)序得到的兩個(gè)測(cè)序讀段;根據(jù)起始位點(diǎn)和插入片段長(zhǎng)度,確定目標(biāo)cfdna片段對(duì)應(yīng)的目標(biāo)起始位點(diǎn)和目標(biāo)末端位點(diǎn);根據(jù)比對(duì)匹配結(jié)果、參考基因組、該一對(duì)測(cè)序讀段和插入片段長(zhǎng)度,確定目標(biāo)cfdna片段的片段長(zhǎng)度,從而能利用比對(duì)數(shù)據(jù)文件實(shí)現(xiàn)對(duì)目標(biāo)cfdna片段的片段長(zhǎng)度及末端位點(diǎn)的準(zhǔn)確分析,減小了分析誤差,提高了片段特征的分析效果。
7、根據(jù)本技術(shù)提供的方法,所述根據(jù)所述起始位點(diǎn)和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段對(duì)應(yīng)的目標(biāo)起始位點(diǎn)和目標(biāo)末端位點(diǎn),包括:
8、確定所述目標(biāo)cfdna片段對(duì)應(yīng)的一對(duì)所述測(cè)序讀段中,每個(gè)測(cè)序讀段的所述起始位點(diǎn)和相應(yīng)的所述插入片段長(zhǎng)度之間的和值,每個(gè)所述目標(biāo)cfdna片段對(duì)應(yīng)兩個(gè)所述和值;將數(shù)值較大的所述和值作為相應(yīng)目標(biāo)cfdna片段的目標(biāo)末端位點(diǎn);
9、確定所述目標(biāo)cfdna片段對(duì)應(yīng)的一對(duì)所述測(cè)序讀段的所述起始位點(diǎn)中,數(shù)值較小的所述起始位點(diǎn),并將所述數(shù)值較小的所述起始位點(diǎn)作為相應(yīng)目標(biāo)cfdna片段的目標(biāo)起始位點(diǎn)。
10、根據(jù)本技術(shù)提供的方法,所述根據(jù)所述比對(duì)匹配結(jié)果、所述參考基因組、所述一對(duì)測(cè)序讀段和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度,包括:
11、當(dāng)所述目標(biāo)cfdna片段對(duì)應(yīng)的所述比對(duì)匹配結(jié)果均指示相應(yīng)測(cè)序讀段能匹配到所述參考基因組上且完全匹配時(shí),將所述插入片段長(zhǎng)度作為所述目標(biāo)cfdna片段的片段長(zhǎng)度;
12、當(dāng)所述目標(biāo)cfdna片段對(duì)應(yīng)的所述比對(duì)匹配結(jié)果中,存在指示相應(yīng)測(cè)序讀段能匹配到所述參考基因組上但未完全匹配的所述比對(duì)匹配結(jié)果時(shí),從所述參考基因組或相應(yīng)測(cè)序讀段中提取出至少一個(gè)未完全匹配序列;根據(jù)所述至少一個(gè)未完全匹配序列和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度。
13、根據(jù)本技術(shù)提供的方法,所述根據(jù)所述至少一個(gè)未完全匹配序列和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度,包括:
14、確定每個(gè)所述未完全匹配序列的序列長(zhǎng)度、以及所屬的序列類(lèi)型,所述序列類(lèi)型包括新增序列類(lèi)和缺失序列類(lèi);
15、根據(jù)所述序列長(zhǎng)度、所述插入片段長(zhǎng)度和所述序列類(lèi)型,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度。
16、根據(jù)本技術(shù)提供的方法,所述根據(jù)所述序列長(zhǎng)度、所述插入片段長(zhǎng)度和所述序列類(lèi)型,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度,包括:
17、當(dāng)存在所述序列類(lèi)型為所述缺失序列類(lèi)的所述未完全匹配序列時(shí),對(duì)所述插入片段長(zhǎng)度減去相應(yīng)未完全匹配序列的所述序列長(zhǎng)度,以更新所述插入片段長(zhǎng)度;
18、當(dāng)存在所述序列類(lèi)型為所述新增序列類(lèi)的所述未完全匹配序列時(shí),對(duì)所述插入片段長(zhǎng)度加上相應(yīng)未完全匹配序列的所述序列長(zhǎng)度,以更新所述插入片段長(zhǎng)度;
19、將更新后的所述插入片段長(zhǎng)度作為所述目標(biāo)cfdna片段的片段長(zhǎng)度。
20、根據(jù)本技術(shù)提供的方法,所述方法還包括:
21、生成目標(biāo)文庫(kù)對(duì)應(yīng)的所述比對(duì)數(shù)據(jù)文件,所述目標(biāo)文庫(kù)包括多個(gè)cfdna片段,所述比對(duì)數(shù)據(jù)文件包括每個(gè)所述cfdna片段對(duì)應(yīng)的一對(duì)測(cè)序讀段、以及每個(gè)測(cè)序讀段比對(duì)到所述參考基因組上的比對(duì)匹配結(jié)果;
22、根據(jù)所述比對(duì)匹配結(jié)果,從所述多個(gè)cfdna片段中篩選出目標(biāo)cfdna片段。
23、根據(jù)本技術(shù)提供的方法,所述根據(jù)所述比對(duì)匹配結(jié)果,從所述多個(gè)cfdna片段中篩選出目標(biāo)cfdna片段,包括:
24、獲取每個(gè)所述cfdna片段對(duì)應(yīng)的一對(duì)所述測(cè)序讀段的所述比對(duì)匹配結(jié)果,得到兩個(gè)比對(duì)匹配結(jié)果;
25、當(dāng)所述兩個(gè)比對(duì)匹配結(jié)果均指示相應(yīng)測(cè)序讀段能匹配到所述參考基因組上時(shí),將相應(yīng)的所述cfdna片段作為目標(biāo)cfdna片段。
26、根據(jù)本技術(shù)提供的方法,在生成目標(biāo)文庫(kù)對(duì)應(yīng)的所述比對(duì)數(shù)據(jù)文件之前,還包括:
27、對(duì)來(lái)自檢測(cè)對(duì)象的樣本血液進(jìn)行cfdna提取,得到樣本cfdna;
28、根據(jù)所述樣本cfdna構(gòu)建甲基化文庫(kù);
29、通過(guò)預(yù)設(shè)探針對(duì)所述甲基化文庫(kù)進(jìn)行雜交、擴(kuò)增和純化,得到所述目標(biāo)文庫(kù),所述預(yù)設(shè)探針用于捕獲特定甲基化區(qū)域。
30、第二方面,本技術(shù)提供了一種基于測(cè)序數(shù)據(jù)的cfdna分析裝置,包括:
31、獲取模塊,用于從比對(duì)數(shù)據(jù)文件中獲取目標(biāo)cfdna片段對(duì)應(yīng)的一對(duì)測(cè)序讀段、所述一對(duì)測(cè)序讀段中每個(gè)測(cè)序讀段比對(duì)到參考基因組上的起始位點(diǎn)和比對(duì)匹配結(jié)果、以及所述目標(biāo)cfdna片段比對(duì)到所述參考基因組上的插入片段長(zhǎng)度,所述一對(duì)測(cè)序讀段是對(duì)所述目標(biāo)cfdna片段進(jìn)行雙末端測(cè)序得到的兩個(gè)測(cè)序讀段;
32、第一確定模塊,用于根據(jù)所述起始位點(diǎn)和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段對(duì)應(yīng)的目標(biāo)起始位點(diǎn)和目標(biāo)末端位點(diǎn);
33、第二確定模塊,用于根據(jù)所述比對(duì)匹配結(jié)果、所述參考基因組、所述一對(duì)測(cè)序讀段和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度。
34、根據(jù)本技術(shù)的裝置,所述第一確定模塊具體用于:
35、確定所述目標(biāo)cfdna片段對(duì)應(yīng)的一對(duì)所述測(cè)序讀段中,每個(gè)測(cè)序讀段的所述起始位點(diǎn)和相應(yīng)的所述插入片段長(zhǎng)度之間的和值,每個(gè)所述目標(biāo)cfdna片段對(duì)應(yīng)兩個(gè)所述和值;將數(shù)值較大的所述和值作為相應(yīng)目標(biāo)cfdna片段的目標(biāo)末端位點(diǎn);
36、確定所述目標(biāo)cfdna片段對(duì)應(yīng)的一對(duì)所述測(cè)序讀段的所述起始位點(diǎn)中,數(shù)值較小的所述起始位點(diǎn),并將所述數(shù)值較小的所述起始位點(diǎn)作為相應(yīng)目標(biāo)cfdna片段的目標(biāo)起始位點(diǎn)。
37、根據(jù)本技術(shù)的裝置,所述第二確定模塊具體用于:
38、當(dāng)所述目標(biāo)cfdna片段對(duì)應(yīng)的所述比對(duì)匹配結(jié)果均指示相應(yīng)測(cè)序讀段能匹配到所述參考基因組上且完全匹配時(shí),將所述插入片段長(zhǎng)度作為所述目標(biāo)cfdna片段的片段長(zhǎng)度;
39、當(dāng)所述目標(biāo)cfdna片段對(duì)應(yīng)的所述比對(duì)匹配結(jié)果中,存在指示相應(yīng)測(cè)序讀段能匹配到所述參考基因組上但未完全匹配的所述比對(duì)匹配結(jié)果時(shí),從所述參考基因組或相應(yīng)測(cè)序讀段中提取出至少一個(gè)未完全匹配序列;根據(jù)所述至少一個(gè)未完全匹配序列和所述插入片段長(zhǎng)度,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度。
40、根據(jù)本技術(shù)的裝置,所述第二確定模塊具體用于:
41、確定每個(gè)所述未完全匹配序列的序列長(zhǎng)度、以及所屬的序列類(lèi)型,所述序列類(lèi)型包括新增序列類(lèi)和缺失序列類(lèi);
42、根據(jù)所述序列長(zhǎng)度、所述插入片段長(zhǎng)度和所述序列類(lèi)型,確定所述目標(biāo)cfdna片段的片段長(zhǎng)度。
43、根據(jù)本技術(shù)的裝置,所述第二確定模塊具體用于:
44、當(dāng)存在所述序列類(lèi)型為所述缺失序列類(lèi)的所述未完全匹配序列時(shí),對(duì)所述插入片段長(zhǎng)度減去相應(yīng)未完全匹配序列的所述序列長(zhǎng)度,以更新所述插入片段長(zhǎng)度;
45、當(dāng)存在所述序列類(lèi)型為所述新增序列類(lèi)的所述未完全匹配序列時(shí),對(duì)所述插入片段長(zhǎng)度加上相應(yīng)未完全匹配序列的所述序列長(zhǎng)度,以更新所述插入片段長(zhǎng)度;
46、將更新后的所述插入片段長(zhǎng)度作為所述目標(biāo)cfdna片段的片段長(zhǎng)度。
47、第三方面,本技術(shù)提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的基于測(cè)序數(shù)據(jù)的cfdna片段化分析方法。
48、第四方面,本技術(shù)提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的基于測(cè)序數(shù)據(jù)的cfdna片段化分析方法。