從圖中可以清楚地看到峰形的差別;(B),圖(A)中各樣本中的色譜峰通過平滑后得到圖形。從圖中可以清楚地看到在所有條件都相同的情況下,所得到的實際色譜峰的巨大差異,亦說明了傳統(tǒng)峰識別方法所面臨的巨大挑戰(zhàn);
圖5為一個典型的模擬峰匹配結(jié)果。(A),10個樣本中的10個質(zhì)譜特征數(shù)據(jù)計算得到的距離矩陣;(B),線性規(guī)劃逆向思維模式得到的結(jié)果。從圖中可以清楚地看到,從起始點1到所有結(jié)束點的最短距離結(jié)果。這些結(jié)果亦與圖(A)中的實際數(shù)據(jù)情形完全匹配。
【具體實施方式】
[0015]實施例:
以一個用于煙草代謝組學(xué)研究的數(shù)據(jù)為例,說明本發(fā)明所述的高分辨質(zhì)譜數(shù)據(jù)處理方法及其應(yīng)用。本數(shù)據(jù)包括29個樣本,均為XML數(shù)據(jù)格式,色譜方向的檢測時間為60分鐘,m/z的量測范圍為50-1000道爾頓,采用高分辨的LTQ-orbitrap進行分析檢測。
[0016]從原始數(shù)據(jù)可以清晰看到,該數(shù)據(jù)集比較復(fù)雜,色譜峰密集,有的峰信噪比不高,而且存在非常明顯的基線漂移,特別是不同樣本間的保留時間漂移較大,有的甚至長達2-5分鐘。采用傳統(tǒng)的XCMS方法,初步得到5,000個質(zhì)譜離子,但由于復(fù)雜的峰漂移和背景漂移,導(dǎo)致結(jié)果并不理想。
[0017]圖1為一個典型的提取色譜圖。本發(fā)明所述的高分辨質(zhì)譜數(shù)據(jù)處理,在于實現(xiàn)圖2所示的峰匹配,即同時校正不同樣本間的m/z和保留時間漂移,并進一步實現(xiàn)峰融合,即達到一個被檢測的小分子化合物在最終的融合峰表僅出現(xiàn)一個質(zhì)譜特征。其簡單流程圖示于圖3,其中亦包括與傳統(tǒng)流程的比較。
[0018]采用本發(fā)明所述的方法,具體包括如下幾個步驟:
1)XML文件的讀取與初步峰識別
本發(fā)明的方法已開發(fā)成Matlab程序,系統(tǒng)可自動讀取用戶自定義文件夾路徑下的所有XML文件,并臨時保存在系統(tǒng)中,每讀取一個文件,均獨立與參考樣本數(shù)據(jù)進行峰匹配,并記錄相應(yīng)的結(jié)果到初步峰表中。圖4示意高分辨質(zhì)譜數(shù)據(jù)復(fù)雜噪聲,以及峰平滑和求導(dǎo)等方法往往并不能有效地對復(fù)雜峰進行準確識別。
[0019]本例中峰識別所涉及的質(zhì)譜特征總數(shù)目設(shè)定為10,000,即讀取XML文件并扣除數(shù)據(jù)背景后,選取具有最大響應(yīng)的前10,000個質(zhì)譜特征,用于其后的峰匹配。在計算機可接受的運算能力內(nèi),本步驟中的特征數(shù)目可盡量設(shè)定為一個較大的值,包括最大數(shù)目的質(zhì)譜特征,以保證不丟失潛在的有用信息。對于因此而被選進的噪聲信號,則以質(zhì)譜響應(yīng)閾值和峰融合階段的預(yù)處理予以剔除。
[0020]2)峰匹配
a.將m/z從50-1,000以0.0025為間隔做等距離劃分,選擇被分析樣本數(shù)據(jù)和參考樣本數(shù)據(jù)位于此區(qū)域內(nèi)的質(zhì)譜特征,并將得到的這些特征從色譜方向以5分鐘作為流出窗口,進行新的劃分。以5分鐘作為窗口尺寸可保證具有最大保留時間漂移的樣本,亦可以得到有效校正;
b.將被分析樣本和參考樣本位于上述窗口內(nèi)的特征記錄下來,并計算二類不同樣本中所有特征的倆倆間距離,得到一個距離矩陣。采用線性規(guī)劃的逆向思維模式進行峰匹配,優(yōu)化計算該距離矩陣從起始點到結(jié)束點的最短距離,并記錄經(jīng)過最短距離的路徑,即經(jīng)過該路徑的被分析樣本和參考樣本的質(zhì)譜特征序號。選擇m/z和保留時間一半窗口尺寸內(nèi)的被匹配特征進入初步峰表。選擇一半尺寸窗口,而不是全部被匹配的峰表中的特征,可更進一步保證進入峰表結(jié)果的準確性,減少錯誤的峰匹配。未被選入的特征,則進入下一階段的窗口劃分進行新的匹配;
c.重復(fù)上述過程,以實現(xiàn)所有質(zhì)譜特征的匹配,得到完整的初步峰表。圖5示意基于線性規(guī)劃逆向思維模式的峰匹配的準確性和可靠性;
3)峰融合
根據(jù)峰融合的4個規(guī)則,即同位素峰的剔除,加和離子和中性丟失,以及相關(guān)性分析,融合同一代謝小分子所產(chǎn)生的多個離子特征。在本實施例中,m/z和保留時間的差值分別設(shè)置為0.0025與0.5,相關(guān)性分析的閾值設(shè)為0.9,以融合上述過程得到的初步峰表。經(jīng)過峰融合后的結(jié)果,詳細記錄不同規(guī)則對結(jié)果的貢獻以及主要中間結(jié)果,對不同規(guī)則所產(chǎn)生的共有融合,以及因離子特征融合交叉,即離子A與B融合,而A亦與C融合所產(chǎn)生的A、B和C的總?cè)诤辖Y(jié)果,同樣有詳細的記載,以保證利用這些結(jié)果進行后續(xù)的代謝小分子定性分析和結(jié)構(gòu)鑒定時可以快速追蹤。
[0021]4)峰表結(jié)果的評價與使用
上述得到的最終峰表結(jié)果,需要與原始數(shù)據(jù)的圖形結(jié)果進行可視化的直觀比較,以保證結(jié)果的可靠性。與此同時,將上述結(jié)果用于相關(guān)的研究,包括代謝組學(xué)標志物與關(guān)鍵代謝組份的研究中,輔助實現(xiàn)重要代謝物的結(jié)構(gòu)鑒定和確認。
【主權(quán)項】
1.一種高分辨質(zhì)譜數(shù)據(jù)處理的新方法,其特征在于包括以下步驟: a.用戶預(yù)先定義用于質(zhì)譜數(shù)據(jù)處理的參考數(shù)據(jù)樣本; b.快速讀取質(zhì)譜數(shù)據(jù)的XML文件,單個文件讀取完成后,構(gòu)造二維矩陣并從數(shù)據(jù)色譜方向扣除背景基線; c.背景基線扣除以非固定尺寸移動窗口的方式進行,即沿著色譜的流出方向根據(jù)色譜峰的劃分對數(shù)據(jù)進行自動背景扣除; d.用戶自定義質(zhì)譜響應(yīng)的閾值或總特征峰數(shù)目,將已扣除背景的數(shù)據(jù)響應(yīng)值,按照從大到小的順序排列,篩選符合響應(yīng)閾值或峰數(shù)目條件的質(zhì)譜特征作為與參考樣本比較分析的依據(jù); e.以用戶自定義的窗口尺寸大小,依次從數(shù)據(jù)的質(zhì)譜和色譜二個方向,以固定的窗口大小劃分數(shù)據(jù),獲得被分析樣本與參考樣本在該窗口內(nèi)的質(zhì)譜特征,計算二個不同類型樣本中質(zhì)譜特征倆倆間的距離; f.基于線性規(guī)劃經(jīng)典逆向思維的策略,計算該距離矩陣內(nèi)從起始點到結(jié)束點的最短路徑,并記錄該最短路徑所經(jīng)過的軌跡,獲得被校正樣本數(shù)據(jù)與參考樣本數(shù)據(jù)中各個特征峰的最優(yōu)匹配關(guān)系,同時校正樣本間的保留時間與m/z漂移; g.將校正完成后獲得的峰表進行高分辨質(zhì)譜特征融合,即得到同一代謝小分子中多個特征間的關(guān)聯(lián)關(guān)系與多樣本的匹配峰表; h.將上述獲得的峰表與原始數(shù)據(jù)進行比較,驗證結(jié)果的準確性和可靠性,并將結(jié)果應(yīng)用于代謝組學(xué)標志物的發(fā)現(xiàn)和鑒定中。2.根據(jù)權(quán)利要求書I所述的質(zhì)譜數(shù)據(jù)處理方法,其特征在于先完整讀取整個XML文件數(shù)據(jù),再重排數(shù)據(jù)以完成沿著色譜方向的背景漂移校正。3.根據(jù)權(quán)利要求書I所述的質(zhì)譜數(shù)據(jù)處理方法,其特征在于將高分辨質(zhì)譜數(shù)據(jù)的峰識別分解為二個不同但相互補充和協(xié)作的步驟,即先校正數(shù)據(jù)的噪聲和背景,以用戶自定義的參數(shù)快速獲得數(shù)據(jù)中的主要質(zhì)譜特征,在峰匹配完成后再對峰表進行融合獲得所謂的“一對一”小分子特征,即每個被檢測到的代謝物在峰表中僅以一個質(zhì)譜特征來表征。4.根據(jù)權(quán)利要求書I所述的質(zhì)譜數(shù)據(jù)處理方法,其特征在于被分析的數(shù)據(jù)樣本與參考數(shù)據(jù)樣本間的校正,采用可達致全局最優(yōu)的線性規(guī)劃方法完成,減少計算時間,提高結(jié)果的準確可靠性。5.根據(jù)權(quán)利要求書I所述的質(zhì)譜數(shù)據(jù)處理方法,其特征在于去除傳統(tǒng)的峰識別步驟,僅以用戶可簡便使用和達成的質(zhì)譜響應(yīng)閾值或特征峰數(shù)目方法判別質(zhì)譜特征,并采用高分辨質(zhì)譜數(shù)據(jù)峰融合的方法對大量的質(zhì)譜特征進行刪減、合并和歸類的融合處理。6.根據(jù)權(quán)利要求書4所述的質(zhì)譜峰表數(shù)據(jù)的融合,其特征在于包括以下步驟: 1.對峰表數(shù)據(jù)進行預(yù)處理分析以提高數(shù)據(jù)質(zhì)量,比如80%規(guī)則的應(yīng)用和缺失值的處理; j.去除峰表數(shù)據(jù)中的同位素峰; k.根據(jù)加和離子,中性丟失和相關(guān)性分析的原則,找到不同離子倆倆間的融合關(guān)系,即尋找這些離子可被視為來自同一小分子裂解的規(guī)律和線索; 1.根據(jù)上述結(jié)果,將相同小分子的裂解碎片離子融合在一起; m.人工查看結(jié)果,評價上述融合結(jié)果的準確性,若存在錯誤的融合,則加入去除錯誤融合的規(guī)則,重新進行新的峰表數(shù)據(jù)融合。7.根據(jù)權(quán)利要求書2至6所述的質(zhì)譜數(shù)據(jù)處理方法,其特征在于重復(fù)上述過程,直到所有離子特征均被分析完成為止。8.根據(jù)權(quán)利要求書6所述的質(zhì)譜峰表融合方法,其特征在于融合后的結(jié)果可用于更準確的小分子定性分析和鑒定,即所有該小分子化合物裂解后所得的離子特征均可用于鑒定小分子結(jié)構(gòu)或驗證其結(jié)果。
【專利摘要】本發(fā)明公開了一種高分辨質(zhì)譜數(shù)據(jù)處理的新方法,屬于分析化學(xué)領(lǐng)域。該方法快速讀取原始質(zhì)譜數(shù)據(jù)的XML文件,從數(shù)據(jù)色譜方向分段自動扣除背景,以用戶自定義的二個參數(shù)初步獲得原始數(shù)據(jù)的質(zhì)譜特征,即質(zhì)譜響應(yīng)閾值和總特征峰數(shù)目。在此基礎(chǔ)上,從質(zhì)譜和色譜二個方向以固定的窗口大小劃分數(shù)據(jù),計算該窗口內(nèi)被匹配樣本與參考樣本中所有質(zhì)譜特征倆倆間的距離,采用線性規(guī)劃優(yōu)化的方法獲得該距離矩陣的最短路徑,構(gòu)建特征峰匹配最優(yōu)關(guān)系表,校正樣本間的漂移。基于高分辨質(zhì)譜數(shù)據(jù)峰融合的方法,得到同一代謝小分子中多個特征間的關(guān)聯(lián)關(guān)系與多樣本的匹配峰表,用于代謝組學(xué)標志物鑒定和發(fā)現(xiàn)。該方法適合低信噪比和復(fù)雜背景的高分辨質(zhì)譜數(shù)據(jù)分析。
【IPC分類】G01N30/86
【公開號】CN105334279
【申請?zhí)枴緾N201410398615
【發(fā)明人】曾仲大, 陳愛明
【申請人】大連達碩信息技術(shù)有限公司
【公開日】2016年2月17日
【申請日】2014年8月14日