本發(fā)明屬于基因檢測,具體涉及一種用于結(jié)直腸癌早期篩查的血漿多組學(xué)特征整合方法及其應(yīng)用。
背景技術(shù):
1、結(jié)直腸癌(colorectal?cancer,crc)是全球最常見、最致命的癌癥之一。雖然結(jié)直腸癌的發(fā)病率和死亡率較高,但其疾病發(fā)展周期較長,通過早期發(fā)現(xiàn)、早期診斷和早期治療可大幅提高腫瘤患者生存率。目前,腸鏡是結(jié)直腸癌篩查和診斷的金標(biāo)準(zhǔn),可以檢測腸道內(nèi)的異常結(jié)構(gòu)、腫塊和息肉,且可采集組織樣本進(jìn)行病理學(xué)檢查。然而,腸鏡檢查準(zhǔn)備繁瑣、侵入性強(qiáng),導(dǎo)致人群依從性差,整體檢測率低。
2、近些年來,基于細(xì)胞游離dna(cell-free?dna,cfdna)的液態(tài)活檢技術(shù)越來越多地被應(yīng)用于癌癥管理的全周期中,通過分析其中的生物標(biāo)志物來檢測患者體內(nèi)疾病。相比于傳統(tǒng)的組織活檢,液態(tài)活檢無需進(jìn)行手術(shù)或組織切片,因此具有非侵入性、無創(chuàng)傷、易重復(fù)等優(yōu)點(diǎn)。液態(tài)活檢可通過檢測腫瘤相關(guān)的生物標(biāo)志物來預(yù)測和篩查癌癥。目前,許多研究聚焦于使用cfdna的特定生物標(biāo)志物來檢測癌癥,如基因突變、dna甲基化或全基因組特征。這些預(yù)測方法的早期篩查準(zhǔn)確度還仍有提升空間,而提高預(yù)測的準(zhǔn)確度一直以來都是本領(lǐng)域所追求的目標(biāo)。
技術(shù)實(shí)現(xiàn)思路
1、為了提高結(jié)直腸癌早期篩查的準(zhǔn)確度,本發(fā)明提供一種基于血漿多組學(xué)特征整合的方法及其應(yīng)用。該方法涉及使用機(jī)器學(xué)習(xí)模型對各個獨(dú)立的單組學(xué)分類特征建立預(yù)測模型,并計(jì)算出每個單組學(xué)特征模型的樣本預(yù)測分?jǐn)?shù)。接著,應(yīng)用機(jī)器學(xué)習(xí)模型將這些分?jǐn)?shù)進(jìn)行整合,從而形成一個綜合的腫瘤多組學(xué)篩查模型。
2、本發(fā)明提供一種用于結(jié)直腸癌早期篩查的血漿組合標(biāo)志物,所述血漿組合標(biāo)志物為dna甲基化標(biāo)志物、基因突變標(biāo)志物、全基因組測序相關(guān)標(biāo)志物(包括5’端基序標(biāo)志物、拷貝數(shù)變異標(biāo)志物、片段長度標(biāo)志物、核小體印記標(biāo)志物)中的至少兩種的組合。
3、根據(jù)本發(fā)明的一實(shí)施方式,所述血漿組合標(biāo)志物為dna甲基化標(biāo)志物、5’端基序標(biāo)志物、拷貝數(shù)變異標(biāo)志物和基因突變標(biāo)志物的組合。這些指標(biāo)的綜合運(yùn)用能夠提升模型的預(yù)測準(zhǔn)確性。
4、根據(jù)本發(fā)明的一實(shí)施方式,多組學(xué)預(yù)測模型的輸入為各單組學(xué)模型得到的預(yù)測得分。
5、根據(jù)本發(fā)明的一實(shí)施方式,多組學(xué)模型的預(yù)測得分可來源于基于彈性網(wǎng)正則項(xiàng)的邏輯斯蒂回歸模型所輸出的樣本患病分?jǐn)?shù)。
6、根據(jù)本發(fā)明的一實(shí)施方式,可根據(jù)最高約登指數(shù)選擇模型預(yù)測的閾值,從而確定預(yù)測結(jié)果。
7、進(jìn)一步地,還可根據(jù)癌種篩查特點(diǎn)及實(shí)際應(yīng)用需求,固定敏感性或特異性,從而確定模型預(yù)測閾值。
8、根據(jù)本發(fā)明的一實(shí)施方式,各單組學(xué)模型的預(yù)測得分可來源于基于彈性網(wǎng)正則項(xiàng)的邏輯斯蒂回歸模型所輸出的樣本患病概率。
9、進(jìn)一步地,用于構(gòu)建各單組學(xué)模型的邏輯斯蒂回歸算法可選的正則項(xiàng)包含lasso回歸、嶺回歸或彈性網(wǎng)。
10、根據(jù)本發(fā)明的一實(shí)施方式,用于構(gòu)建各單組學(xué)模型的邏輯斯蒂回歸算法的正則項(xiàng)優(yōu)選彈性網(wǎng)正則項(xiàng)。
11、本發(fā)明的構(gòu)建方法還包含了在各單組學(xué)模型及多組學(xué)整合模型的訓(xùn)練階段,采用網(wǎng)格搜索方法或隨機(jī)搜索方法、并結(jié)合交叉驗(yàn)證方法挑選最佳參數(shù)組合,以及利用交叉驗(yàn)證方法對分類模型的性能進(jìn)行評估。
12、本發(fā)明的構(gòu)建方法還包含了在各單組學(xué)模型的訓(xùn)練階段,應(yīng)用降維算法對分類特征進(jìn)行處理,簡化特征數(shù)量并突出關(guān)鍵特征,減少模型過擬合的風(fēng)險(xiǎn),降低計(jì)算復(fù)雜度,增強(qiáng)模型的可解釋性,確定合適的特征組合。
13、根據(jù)本發(fā)明的一實(shí)施方式,降維算法優(yōu)選隨機(jī)森林或lasso回歸算法。
14、根據(jù)本發(fā)明的一實(shí)施方式,使用遞歸特征消除算法進(jìn)行特征降維。
15、本發(fā)明涉及一種用于篩選結(jié)直腸癌中基因突變標(biāo)志物的方法。該方法包括利用tcga和cosmic數(shù)據(jù)庫確定crc中高頻發(fā)生突變的基因及基因組區(qū)域,設(shè)計(jì)靶向?qū)嶒?yàn)以特異性地靶向這些基因的突變位點(diǎn)。通過分析突變特征,包括但不限于突變類型、突變位點(diǎn)、人群頻率、突變等位基因頻率(variant?allele?frequency,vaf),對檢測到的突變進(jìn)行篩選,以識別每個樣本中的有效候選突變。
16、根據(jù)本發(fā)明的一實(shí)施方式,有效突變的篩選方式考慮了crc人群中的突變頻率。例如,針對tp53基因,crc人群中高頻出現(xiàn)的突變位點(diǎn)與crc人群中低頻出現(xiàn)的突變位點(diǎn)選用不同的vaf進(jìn)行過濾。
17、根據(jù)本發(fā)明的一實(shí)施方式,有效突變的篩選方式考慮了突變類型。例如,針對apc基因,僅考慮移碼突變和無義突變。
18、根據(jù)本發(fā)明的一實(shí)施方式,有效突變的篩選方式考慮了具體的突變位點(diǎn)。例如,針對braf基因,僅考慮v600e突變。
19、本發(fā)明中,所述基因突變標(biāo)志物可包含以下所有或其組合:apc、tp53、kras、pik3ca、fbxw7、smad4、tcf7l2、nras、braf、acvr2a。優(yōu)選,所述基因突變標(biāo)志物包括apc、tp53、kras、pik3ca、fbxw7、braf和acvr2a的組合。
20、本發(fā)明涉及一種用于篩選結(jié)直腸癌中甲基化標(biāo)志物的方法。該方法首先利用tcga和geo等公共數(shù)據(jù)庫收集crc相關(guān)的甲基化數(shù)據(jù)。然后,通過預(yù)篩選,包括缺失值處理和甲基化位點(diǎn)的差異性分析,確定用于靶向檢測的目標(biāo)甲基化區(qū)域。最后,基于甲基化水平的統(tǒng)計(jì)分析和隨機(jī)森林算法,篩選出具有結(jié)直腸癌篩查潛力的甲基化標(biāo)志物。
21、本發(fā)明中,樣本中甲基化水平的計(jì)算需首先統(tǒng)計(jì)每個甲基化靶區(qū)域內(nèi)的甲基化分子數(shù)和未甲基化分子數(shù)。甲基化分子數(shù)/(甲基化分子數(shù)+未甲基化分子數(shù))即該區(qū)域的甲基化水平。
22、本發(fā)明中,所述dna甲基化標(biāo)志物可包含以下所有或其組合:adhfe1、bcat1、ccna1、cd6、cmtm3、dock8、ednrb、elmo1、fbn1、fli1、gria4、ikzf1、itga4、linc01140、lingo3、lonrf2、myo1g、ncor2、nkx2-2、npy、nrros、ppp1r16b、rere、sdc2、septin9、sfmbt2、sfrp2、shox2、sla、sorbs3、spn、spock1、tmcc2、trh、trib2、uhrf1、vim、wif1、znf304、znf568、znf582、znf829。優(yōu)選,所述dna甲基化標(biāo)志物包括cd6、elmo1、fli1、linc01140、myo1g、nkx2-2、rere、sdc2、sfrp2、shox2、spn、uhrf1和vim的組合。
23、本發(fā)明涉及一種用于篩選結(jié)直腸癌中拷貝數(shù)變異標(biāo)志物的方法??截悢?shù)變異數(shù)據(jù)通過全基因組測序數(shù)據(jù)計(jì)算??刹捎酶呱疃?、中等深度或低深度測序。
24、根據(jù)本發(fā)明的一實(shí)施方式,采用低深度全基因組測序數(shù)據(jù)計(jì)算拷貝數(shù)變異,原始測序深度為2x。
25、本發(fā)明中,拷貝數(shù)變異的計(jì)算可利用超低深度wgs、低腫瘤分?jǐn)?shù)數(shù)據(jù)中計(jì)算拷貝數(shù)變異的軟件ichorcna、wisecondorx或qdnaseq,優(yōu)選ichorcna。
26、本發(fā)明中,檢測拷貝數(shù)變異的基因組區(qū)域bin的大小可設(shè)置為200kb、500kb、1mb、2mb、5mb,優(yōu)選1mb。
27、本發(fā)明中,基于基因組bin的數(shù)據(jù)進(jìn)一步整合為染色體臂水平的拷貝數(shù)變化。
28、本發(fā)明中,去除測序偏好較大的染色體臂,如19p、19q具有較高的gc含量,影響拷貝數(shù)變異的準(zhǔn)確計(jì)算。
29、本發(fā)明中,所述拷貝數(shù)變異標(biāo)志物可包含以下所有或其組合:1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、20p、20q、21q、22q。優(yōu)選,所述拷貝數(shù)變異標(biāo)志物包括1p、1q、4p、4q、5p、7p、7q、8p、8q、9p、9q、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、20p、20q、21q和22q的組合。
30、本發(fā)明涉及一種用于篩選結(jié)直腸癌中5’端基序標(biāo)志物的方法。5’端基序頻率數(shù)據(jù)通過全基因組測序數(shù)據(jù)計(jì)算??刹捎酶呱疃?、中等深度或低深度測序。
31、根據(jù)本發(fā)明的一實(shí)施方式,采用低深度全基因組測序數(shù)據(jù)計(jì)算5’端基序頻率,原始測序深度為2x。
32、本發(fā)明中,首先在已比對完成的數(shù)據(jù)中統(tǒng)計(jì)每個測序片段5’端的前n?bp序列,所述的n可取3-6之間的任意正數(shù)。
33、根據(jù)本發(fā)明的一實(shí)施方式,n取4,即計(jì)算每種4bp序列出現(xiàn)的頻率,最終得到256(44)種5’端基序的頻率。
34、根據(jù)本發(fā)明的一實(shí)施方式,基于5’端基序頻率的統(tǒng)計(jì)分析和隨機(jī)森林算法,篩選出具有結(jié)直腸癌篩查潛力的5’端基序標(biāo)志物。
35、本發(fā)明中,所述5’端基序標(biāo)志物可包含以下所有或其組合:atca、ccgt、cgac、cgag、cgct、cgga、cggg、cgtc、gatc、gatg、gcaa、gcac、gcag、gcat、gccg、gcgg、gcgt、gcta、gctg、ggcg、gtac、gtca、gtcc、gtgc、taac、tata、tatg、tcca、tcta、tctt、tgac、tgcc、tgct、tgtc。優(yōu)選,所述5’端基序標(biāo)志物包括cgtc、ccgt、gcaa、gcac、gcgt、gtca、gtgc、tata、tctt和tgac的組合。
36、本發(fā)明還提供一種檢測上述用于結(jié)直腸癌早期篩查的血漿組合標(biāo)志物的試劑在制備早篩或者輔助診斷結(jié)直腸癌產(chǎn)品中的應(yīng)用。
37、本發(fā)明對從單次采血中獲得的細(xì)胞游離dna進(jìn)行了多種基因組和表觀基因組特征的檢測和分析,包括dna甲基化、5’端基序、拷貝數(shù)變異和基因突變?;诤Y選得到的多組學(xué)生物標(biāo)志物建立了一個整合模型,該模型在驗(yàn)證集中達(dá)到了0.966的auc,敏感性為93.2%,特異性為91.1%,該性能超過了任何單一基因組特征的表現(xiàn)。這個研究結(jié)果顯示了多組學(xué)液態(tài)活檢方法的臨床潛力,表明了它作為早期結(jié)直腸癌篩查的無創(chuàng)方法的前景。