本發(fā)明涉及數據處理,尤其涉及一種二代測序矯正方法及系統(tǒng)。
背景技術:
1、二代測序技術采用高分辨顯微成像獲取熒光分子的信號,通過解碼圖像信號得到堿基序列。邊合成邊測序是二代測序的核心思想,在邊測序邊合成的過程中,每個cycle都會合成一個堿基。但因為dye的不完全切除,會有一個cycle合成零個或兩個或更多個堿基的情況(又稱lag,runon)。這種情況嚴重影響讀長的長度,因為在任何一個dnb,都有可能受lagrunon影響,導致所發(fā)光的熒光除了本cycle合成堿基發(fā)光,還有上個cycle,或下個cycle堿基發(fā)的光。因此,發(fā)光強度會變弱,且多個通道發(fā)光。lagrunon在散點圖上表現(xiàn)為臂的傾斜或分叉,為了減少臂分離的情況,數據需要進行l(wèi)agrunon矯正。
2、現(xiàn)有的lagrunon矯正方法主要采用illumina的bustard工具。該工具根據測序的前幾個cycle獨立計算lag和runon的系數。以計算出的系數做matrix矯正熒光信號。
3、但是,該工具針對不同的測試平臺存在魯棒性不夠,抗干擾能力不夠的問題。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明實施例提供一種二代測序矯正方法及系統(tǒng),以解決現(xiàn)有矯正算法存在的通用性差、針對不用的測試平臺魯棒性不夠和抗干擾能力不夠的問題。
2、為實現(xiàn)上述目的,本發(fā)明實施例提供如下技術方案:
3、本發(fā)明實施例第一方面公開了一種二代測序矯正方法,所述方法包括:
4、獲取二代測序數據;
5、對所述二代測序數據進行處理,得到按照發(fā)光強度劃分的亮度值;
6、選取發(fā)光強度滿足lag系數矯正要求的第一亮度值組,并基于所述第一亮度值組計算lag系數,得到相應的lag系數;
7、選取發(fā)光強度滿足runon系數矯正要求的第二亮度值組,并基于第二亮度數據組計算runon系數,得到相應的runon系數;
8、針對得到的所有l(wèi)ag系數和runon系數進行線性擬合,將得到的擬合值作為所有cycle的lagrunon值;
9、基于所述lagrunon值對所有cycle的亮度值進行矯正,得到矯正后的二代測序數據。
10、可選的,對所述二代測序數據進行處理,得到按照發(fā)光強度劃分的亮度值,包括:
11、若利用四種熒光試劑進行測序,基于所述二代測序數據得到包含所有cycle每一通道的亮度值的密度分布圖;
12、根據亮度值大小進行初分類,得到按照發(fā)光強度由大至小劃分的亮度值。
13、可選的,對所述二代測序數據進行處理,得到按照發(fā)光強度劃分的亮度值,包括:
14、若利用兩種熒光試劑進行測序,基于所述二代測序數據得到包含所有cycle每一通道的亮度值的密度分布圖;
15、確定所述密度分布圖上的局域最大亮度值和局域最小亮度值確定初聚類參數;
16、以所述初聚類參數為基準劃分亮度值,得到按照發(fā)光強度劃分的亮度值。
17、可選的,以所述初聚類參數為基準劃分亮度值,得到按照發(fā)光強度劃分的亮度值,包括:
18、以所述初聚類參數為基準,選取滿足的亮度值;
19、針對選取的亮度值按照發(fā)光強度進行排序;
20、其中,p(1,1)是指通道1中分位數在1%的數值,p(2,1)是指通道2上分位數是1%的數值;r30為初聚類參數,用于指示通道1和2分位數在98%的數值與在1%的亮度值之間距離的三分之一。
21、可選的,以所述初聚類參數為基準劃分亮度值,得到按照發(fā)光強度劃分的亮度值,包括:
22、以所述初聚類參數為基準劃分亮度值,選取滿足的亮度值;
23、針對選取的亮度值按照發(fā)光強度進行排序;
24、其中,p(1,1)是指通道1中分位數在1%的數值,p(2,1)是指通道2上分位數是1%的數值;r50為初聚類參數,用于指示通道1和2分位數在98%的數值與在1%的亮度值之間距離的二分之一。
25、可選的,選取發(fā)光強度滿足lag系數矯正要求的第一亮度值組,并基于所述第一亮度值組計算lag系數,得到相應的lag系數,包括:
26、針對所有cycle,選取前一cycle發(fā)光的點和當前cycle不發(fā)光的點所對應的亮度值,構成發(fā)光強度滿足lag系數矯正要求的第一亮度值組;
27、基于所述第一亮度值組計算lag系數,得到相應的lag系數。
28、可選的,選取發(fā)光強度滿足runon系數矯正要求的第二亮度值組,并基于第二亮度數據組計算runon系數,包括:
29、針對所有cycle,選取當前cycle和后一cycle所對應的亮度值,構成發(fā)光強度滿足runon系數矯正要求的第二亮度值組;
30、基于所述第二亮度值組計算runon系數,得到相應的runon系數。
31、可選的,基于所述lagrunon值對所有cycle的亮度值進行矯正,得到矯正后的二代測序數據,包括:
32、針對每一cycle的亮度值,利用所述lagrunon值去除所述上一cycle亮度值的lagging部分,以及下一cycle亮度值的runon部分,得到矯正后的二代測序數據。
33、可選的,所述獲取二代測序數據之后,還包括:
34、對所述二代測序數據進歸一化處理,得到歸一化處理后的二代測序數據。
35、本發(fā)明實施例第二方面公開了一種二代測序矯正系統(tǒng),所述系統(tǒng)包括:
36、光學矯正模塊,用于獲取二代測序數據;對所述二代測序數據進行處理,得到按照發(fā)光強度劃分的亮度值;選取發(fā)光強度滿足lag系數矯正要求的第一亮度值組,并基于所述第一亮度值組計算lag系數,得到相應的lag系數;選取發(fā)光強度滿足runon系數矯正要求的第二亮度值組,并基于第二亮度數據組計算runon系數,得到相應的runon系數;針對得到的所有l(wèi)ag系數和runon系數進行線性擬合,將得到的擬合值作為所有cycle的lagrunon值;
37、化學矯正模塊,用于基于所述lagrunon值對所有cycle的亮度值進行矯正,得到矯正后的二代測序數據。
38、基于上述本發(fā)明實施例提供的一種二代測序矯正方法及系統(tǒng),該方法通過獲取二代測序數據;對所述二代測序數據進行處理,得到按照發(fā)光強度劃分的亮度值;選取發(fā)光強度滿足lag系數矯正要求的第一亮度值組,并基于所述第一亮度值組計算lag系數,得到相應的lag系數;選取發(fā)光強度滿足runon系數矯正要求的第二亮度值組,并基于第二亮度數據組計算runon系數,得到相應的runon系數;針對得到的所有l(wèi)ag系數和runon系數進行線性擬合,將得到的擬合值作為所有cycle的lagrunon值;基于所述lagrunon值對所有cycle的亮度值進行矯正,得到矯正后的二代測序數據。在本發(fā)明實施例中,通過對二代測序數據進行光學矯正之后,再進行化學矯正,該過程復雜度小,干擾小、魯棒性高,同時針對不同平臺的化學矯正都能達到較高的矯正效果。進一步的,基于本發(fā)明公開的方法可以更加準確的找出lagrunon系數,從而去除因lagrunon造成的影響。減少錯誤率,提高可用reads數量。