欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于中藥復(fù)雜成分分析的實時特征提取方法

文檔序號:5867168閱讀:397來源:國知局
專利名稱:一種用于中藥復(fù)雜成分分析的實時特征提取方法
技術(shù)領(lǐng)域
本發(fā)明屬于制藥領(lǐng)域,涉及中藥復(fù)雜成分分析的實時在線特征提取方法。
背景技術(shù)
中藥是中華民族的瑰寶,已有2000多年的臨床實踐,在中華民族的繁衍生息過程 中起到了不可磨滅的作用。隨著國家在中藥科技方面的不斷投入,中藥現(xiàn)代化的進程取得 了可喜進展,一些藥物的療效再次被科學(xué)實驗證明,有的甚至超過化學(xué)藥物。當(dāng)今西方國家 在化藥的研究和開發(fā)方面具有絕對優(yōu)勢,并且很難在短期內(nèi)有所改觀,故大力發(fā)展中藥事 業(yè)對我國的制藥行業(yè)具有極其重要的意義。但中藥成分及其復(fù)雜,且長期以來基礎(chǔ)研究不 夠深入,這雖然有歷史性的原因,但現(xiàn)有技術(shù)的局限,顯得尤其突出。在液相色譜質(zhì)譜聯(lián)用 (LC-MS)技術(shù)成熟之前,對中藥的研究,需先用植物化學(xué)的分離手段從中藥中分離到單體化 合物,然后經(jīng)過四大光譜分析,才能了解其中化合物的結(jié)構(gòu)信息。然而,LC-MS技術(shù)完全改觀 了傳統(tǒng)的中藥物質(zhì)基礎(chǔ)研究模式,在提高結(jié)構(gòu)確證速度的同時,也使以前不能分離提取得 到的微量成分的鑒定成為可能。但是,現(xiàn)有LC-MS數(shù)據(jù)的分析主要靠人工完成,成為當(dāng)前質(zhì) 譜應(yīng)用的一個瓶頸問題,尤其是在需要分析大量的中藥組分庫樣品時。目前,主流的LC-MS 生產(chǎn)商(如熱電集團,應(yīng)用生物公司和Waters公司)提供的工作站,只能在數(shù)據(jù)采集完畢 后,進行簡單的一維數(shù)據(jù)分析,用戶要設(shè)定多個參數(shù),一套參數(shù)也僅能適用于特定的樣本, 不同的樣本需做相應(yīng)調(diào)整,故數(shù)據(jù)的分析成為當(dāng)前大批LC-MS應(yīng)用的限速步驟。
LC-MS采集的信號由時間維和質(zhì)量維構(gòu)成,而一般的液相色譜與紫外檢測器 (LC-UV)連接采集的信號只有一個時間維度。通常人們將從LC-UV中,化合物洗脫的一段 時間內(nèi)強度的變化稱為"色譜峰";而在二維LC-MS中化合物洗脫時,不僅有時間過程,還 有質(zhì)量的分布,我們稱同時含有兩維信息的區(qū)域成為化合物的"特征",那么用于尋找這些 區(qū)域的算法稱為特征提取算法或方法。由于LC-MS所采集數(shù)據(jù)維度的增加,大大增加了從 其中提取信息的難度。在中藥領(lǐng)域,研究LC-MS特征提取的方法很少,而在生物信息學(xué)領(lǐng) 域,卻是一個非常熱門的方向,這得益于蛋白組學(xué)、代謝組學(xué)研究中需要處理大量LC-MS數(shù) 據(jù)的需求推動。比較著名的開源工具包括XCMS, MZmine等;商業(yè)軟件包括AnalyzerPro, ProTrawler等。這些工具僅用于LC-MS采集以后數(shù)據(jù)的離線分析,其算法是建立在整個分 析時間內(nèi)的數(shù)據(jù)的基礎(chǔ)上的,比如XCMS要先對采集完畢以后的數(shù)據(jù)就某個質(zhì)量數(shù)范圍的 信號合并,然后才能從其中進行峰檢測,并且這些軟件都需要設(shè)定多個參數(shù),一些參數(shù)沒有 實際的物理意義,比如小波的尺度、系數(shù)等,難以被一般用戶所理解。

發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的不足和缺陷,提供一種用于中藥復(fù)雜成分分析的實時特征 提取方法。該方法基于LC-MS的時間維和質(zhì)量維的兩維特征信息,通過二維特征鏈檢測,局 部噪音和基線估計,以及特征分辨來實現(xiàn),不僅假陽性低,而且運算速度快,可實現(xiàn)實時分 析。本發(fā)明通過以下步驟實現(xiàn)
1.質(zhì)譜數(shù)據(jù)采集中藥復(fù)雜樣品首先經(jīng)色譜單元進行分離,然后質(zhì)譜儀在一定的 采樣頻率(f)下,順序以全掃描模式分析色譜洗脫的流份,采集的數(shù)據(jù)以centroid(棒狀 圖)格式存儲(這是現(xiàn)有質(zhì)譜儀都支持的格式)。每一時間點(1/f的整數(shù)倍)采集的數(shù)據(jù) 為一張質(zhì)譜圖,對應(yīng)于質(zhì)譜維的數(shù)據(jù);不同的時間點采集的數(shù)據(jù)構(gòu)成色譜維信息,比如每一 時間點采集的質(zhì)譜圖中所有離子的強度相加,得到每一時間點的響應(yīng)強度,那么所有時間 點的響應(yīng)強度就構(gòu)成了總離子流色譜圖。本發(fā)明中色譜包括液相色譜(HPLC)和超高壓液 相色譜(UPLC);質(zhì)譜包括能進行高分辨和低分辯全掃描,并通過大氣壓電離源與前述色譜 聯(lián)用的質(zhì)譜儀,如單重四級桿質(zhì)譜,三重四級桿質(zhì)譜,離子阱質(zhì)譜或飛行時間質(zhì)譜;
2. 二維特征鏈檢測BNN(minWidth, CC) 質(zhì)譜儀每采集到一個時間點的質(zhì)譜圖,即傳給BNN模塊進行分析。首先質(zhì)譜圖中 的質(zhì)荷比和強度信息,分別賦值給質(zhì)荷比數(shù)組MZ和強度數(shù)組INTEN,然后依時間順序用雙 向最近鄰算法檢測含有化合物信息的二維特征鏈,檢測到的二維特征鏈存儲在CC中,可被 其他模塊隨時獲??; 3.局部噪音和局部基線估計De_Noise_Baseline(minWidth) 隨著采集數(shù)據(jù)的增多,若CC中的某個二維特征鏈CCk的長度Nk大于minWidth,則
可對其進行噪音和基線的估計。二維特征鏈包含色譜維和質(zhì)譜維雙重信息,分別由時間與
MZ和INTEN構(gòu)成。將二維特征鏈的響應(yīng)強度信息與高通濾波器進行線性巻積,并應(yīng)用3倍
總體標(biāo)準(zhǔn)差過濾掉脈沖信號,即為色譜維的噪音估計。為了估算色譜維中的基線,本發(fā)明依
據(jù)二維特征鏈質(zhì)譜維中組分區(qū)與零組分區(qū)質(zhì)量波動的差異,設(shè)計以下算法 (l)在二維特征鏈CCk中找到強度最大的時間點,然后計算其臨近區(qū)域的平均質(zhì)量
波動(相鄰質(zhì)荷比的差值)mzMin ; (2)以5倍mzMin為閾值,找到所有質(zhì)量波動大于此閾值的位置,將這些位置和CCk 的第一個點定義為關(guān)鍵點; (3)這些關(guān)鍵點也對應(yīng)于色譜維上的關(guān)鍵點,在色譜維上,將這些關(guān)鍵點用直線連 接,即為基線B(x)的估計,若最后一個關(guān)鍵點不是CCk的最后一點,則該關(guān)鍵點水平延伸到 最后的線即為對應(yīng)區(qū)域的基線估計。 4.特征分辨FeatureReslove(minWidth, minSN, feature_list)
當(dāng)二維特征鏈CCk的局部噪音和基線估計完成后(指當(dāng)前時間,特征鏈在后繼的 時間可能還會延長,相應(yīng)的噪音和基線會被重新估算),即可進行特征分辨。由于特征檢測 的實時性,一般當(dāng)時只有部分特征被洗脫,特征分辨的目的即判斷當(dāng)前時間點處于色譜峰 (特征)洗脫的什么位置起點、終點等。從原始信號強度中減去噪音e (x)和基線B(x) (x 為時間點),得到近似的真實信號估計NS (x)。若是首次對CCk進行特征分辨,則需初始化 特征檢測狀態(tài)s = O,具體算法參看實施例1。檢測到的特征保存在feature—list(特征列 表)中, 定義CCk中任意一點的信噪比為
SiV(x) = ——^——^
丄幼 其中LSD為位置x附近的標(biāo)準(zhǔn)差,CCk中的最后一個點即為當(dāng)前采集的數(shù)據(jù)點,計 算其信噪比SN。
5
5.以上四步,每采集一張質(zhì)譜圖,即為一個運算周期;每周期僅對可進入二維特 征鏈的數(shù)據(jù)進行運算,其他信號被認為是噪音;每一時間點被處理的最大二維特征鏈數(shù)為 上一張質(zhì)譜圖中所有離子的個數(shù),而實際大部分情況下遠遠小于這個數(shù)值,這也是算法運 算快的原因之一。當(dāng)所有質(zhì)譜數(shù)據(jù)采集完畢時,特征檢測也相應(yīng)結(jié)束,從而實現(xiàn)了特征的實 時檢測。 本發(fā)明優(yōu)點如下 (1) 二維特征鏈契合了色譜質(zhì)譜聯(lián)用數(shù)據(jù)的分布特征,一般一個數(shù)據(jù)集中所有二
維特征鏈的數(shù)據(jù)量僅占總數(shù)據(jù)量的一小部分(< 1% ),從本質(zhì)上提高了特征檢測算法的效 率; (2)本發(fā)明設(shè)計的三點高通濾波器,能準(zhǔn)確估算色譜信號中的隨機噪音,具有方差 不變的特性; (3)本發(fā)明的基線估計方法利用了質(zhì)譜維中的質(zhì)量波動信息,克服了單純從色譜 維信息難以準(zhǔn)確估算基線的缺點; (4)本發(fā)明設(shè)計的算法,參數(shù)少且優(yōu)化簡單,具有實際物理意義, 一套參數(shù)可適用 于不同復(fù)雜度的樣本; (5)本發(fā)明設(shè)計的算法,實現(xiàn)了樣品采集與特征提取的同步進行,特別適于數(shù)字化 中藥組分庫大量樣品的分析。


圖1是LC-MS實時特征提取示意圖。 圖2是含有高斯白噪音和不同采樣頻率(d)的模擬信號(A)以及應(yīng)用高通濾波 器以后的信號(綠線)與原始高斯白噪音(藍線)的疊加圖,其中虛線為3倍標(biāo)準(zhǔn)差位置 (B)。 圖3是比較本發(fā)明與Savitzky-Golay平滑算法對噪音的估計A圖為采樣率從1 到20時,不同的算法估算值與實際噪音的標(biāo)準(zhǔn)差比較;B圖和C圖為取樣率在5和15時, 噪音水平從1%到10%時,不同算法的比較;藍線為理論噪音標(biāo)準(zhǔn)差,綠線為本發(fā)明估算的 標(biāo)準(zhǔn)差,紅線為Savitzky-Golay估算的標(biāo)準(zhǔn)差。 圖4是一個二維特征鏈實例,來自胃復(fù)春片A圖為二維特征鏈的時間維,B圖為其 質(zhì)量維,C圖為質(zhì)量波動與時間的關(guān)系(虛線為5倍mzMin);紅色星號為關(guān)鍵點位置,基線 用綠線連接。 圖5是胃復(fù)春片中柚皮蕓香苷和柚皮素的特征檢測A圖為柚皮蕓香苷和柚皮素 的準(zhǔn)分子離子及其同位素峰的選擇離子色譜圖;B圖為柚皮蕓香苷和柚皮素的二維特征區(qū) 域,棕色的線為二維特征鏈,其中檢測到的"特征"用綠色方框指示,頂點用紅色星號指示。
圖6是胃復(fù)春片的總離子流色譜圖(A圖),由檢測到的特征重構(gòu)的色譜圖(B圖) 以及殘留信號和噪音重構(gòu)的色譜圖(C圖)。
圖7是雙丹顆粒的總離子流色譜圖。 圖8是雙丹顆粒中丹酚酸E、丹酚酸B及一未知化合物(m/z 719)特征檢測A圖 為m/z 719的選擇離子色譜圖,B圖為m/z 718的選擇離子色譜圖,C圖為m/z 717的選擇 離子色譜圖,D圖為丹酚酸E和丹酚酸B的二維特征區(qū)域,棕色的線為二維特征鏈,其中檢
6測到的"特征"用綠色方框指示,頂點用紅色星號指示。 圖9是燈盞細辛注射液的總離子流色譜圖(A圖),基峰(base-peak)色譜
圖(B圖)以及由檢測到的特征重構(gòu)的色譜圖(C圖)。
具體實施例方式
本發(fā)明結(jié)合附圖和實施例作進一步的說明。 實施例1本發(fā)明的一種用于中藥復(fù)雜成分分析的實時特征提取方法
1.通訊模塊MS_Communication (acq_mode, cur_ms_data) 該函數(shù)負責(zé)與質(zhì)譜進行通訊,若采集模式(acq_mode)為profile,當(dāng)從質(zhì)譜獲取 到當(dāng)前數(shù)據(jù)后,則將其用分水嶺算法轉(zhuǎn)化為centroid格式后,通過curjiis—data參數(shù)返回; 若采集模式為centroid,則直接返回數(shù)據(jù)。參數(shù)cur_mS_data為包含質(zhì)荷比及其對應(yīng)強度 的二維數(shù)據(jù)。 2. 二維特征鏈檢測BNN(minWidth, CC) 在BNN模塊中通過調(diào)用MS—Communication,可以得到當(dāng)前采集的質(zhì)譜數(shù)據(jù),賦值 給質(zhì)荷比數(shù)組MZ和強度數(shù)組INTEN。順序采集到的數(shù)據(jù),用雙向最近鄰算法(Bilateral Nearest Neighbor,BNN)檢測二維特征鏈。BNN算法的原理是依次取當(dāng)前質(zhì)譜圖中的一個 離子MZi,j(i為掃描數(shù)scan—皿mber,相當(dāng)于當(dāng)前采集的第i張質(zhì)譜圖;j為MZt中的第j個 離子),然后在上一時間點采集的質(zhì)譜圖中尋找與其質(zhì)量最接近的離子MZ卜l j ;若在當(dāng)前質(zhì) 譜圖中與MZi—u最接近的離子也為MZi,j,則連接MZi,j與MZi—u。隨著采集質(zhì)譜數(shù)據(jù)的增多, 有的二維特征鏈會延長,有的會中斷,只有長度len(CCk)大于minWidth的二維特征鏈才會 被認為其中可能含有真實信號,并被存儲在CC中,否則,被認為是噪音。CC為全局變量,可 被其他模塊訪問。 3.局部噪音和局部基線估計De_Noise_Baseline(minWidth)
當(dāng)某個二維特征鏈CCk(k為已檢測到的特征鏈的序號)的長度大于minWidth時, 即可以開始估算局部的噪音和基線。二維特征鏈的時間維相當(dāng)于一張色譜圖,一般認為由 真實信號、高斯白噪音和基線構(gòu)成(F(x) =B(x)+NS(x)+e (x))。其中高斯白噪音e (x)用
原始信號與三點高通濾波器進行線性巻積估計
s(x) = F(x) / 由圖2中的模擬信號可知,當(dāng)真實信號的采樣率小于5時,色譜峰區(qū)域會殘留部分 信號,導(dǎo)致高估此區(qū)域的噪音水平。殘留的信號具有脈沖噪音特性,并且強度比整體的標(biāo)準(zhǔn) 差大的多,故用3倍整體標(biāo)準(zhǔn)差作為閾值,將大于此閾值的信號置零。經(jīng)上面巻積和閾值操 作以后的向量即為高斯白噪音的估計,它可準(zhǔn)確反應(yīng)真實白噪音的局部方差,如圖2所示。 通過比較不同的采樣率和不同的噪音水平,本發(fā)明的噪音估算方法與實際值非常接近,優(yōu) 于常用的平滑濾波方法,相應(yīng)的結(jié)果見圖3。 二維特征鏈的質(zhì)量維反映了相應(yīng)的質(zhì)量波動(圖4),當(dāng)化合物洗脫時,也即檢測 到真實信號時,相應(yīng)的質(zhì)量波動趨向于一個極小值mzMin(此值與質(zhì)譜儀的質(zhì)量精密度有 關(guān)),而在沒有真實信號的區(qū)域,質(zhì)量波動成隨機特征,遠遠大于mzMin ;同時,質(zhì)量波動最小的區(qū)域也是響應(yīng)強度最大的區(qū)域。具體基線估計方法如下 (1)在CCk中找到強度最大的位置,然后其對應(yīng)位置附近(本發(fā)明中的"附近"意義 為以指定位置為中心,寬度為minWidth的區(qū)域,或指定位置前面寬度為minWidth的區(qū)域) 的質(zhì)量質(zhì)量波動為mzMin ; (2)以5倍mzMin為閾值(圖4C),找到所有質(zhì)量波動大于此閾值的位置,將這些 位置和CCk的第一個點定義為關(guān)鍵點; (3)這些關(guān)鍵點也對應(yīng)于色譜維上的關(guān)鍵點,在色譜維上,將這些關(guān)鍵點用直線連 接,即為基線B(x)的估計(圖4A) 。 4.時間維上的特征分辨FeatureReslove(minWidth, minSN, feature—list) 從原始信號中減去第3步估算的e (x)和B (x),得到近似的真實信號估計NS (x), 其中仍含有一些不規(guī)則基線波動殘留的成分。定義CCk中任意一點的信噪比為 5W(x)^"^-^——^~^ 其中LSD為位置x附近的標(biāo)準(zhǔn)差,CCk中的最后一個點即為當(dāng)前采集的數(shù)據(jù)點,計 算其信噪比SN。用線性最小二乘法擬合CCk的最后minWidth個點,定義其斜率slope為最 后一點的斜率,然后進行如下判斷(若是首次對CCk進行特征分辨,則需初始化特征檢測狀 態(tài)s = 0): (1)若slope*minWidth > minSN,且s = O,則此處為一個"特征"的開始,記錄在
feature_list (特征列表)中; (2)若slope < 0,則置s = 1 ; (3)若slope*minWidth > -minSN,且s = 1,則此處為一個"特征"的結(jié)束,記錄在 feature_list中,并置s = 0。 5.本發(fā)明算法具有實時特性,質(zhì)譜采集的數(shù)據(jù),立即被BNN等模塊進行分析,特征 起點的檢測最大可能被延遲minWidth/f (約幾秒鐘),而一般從色譜柱洗脫的色譜峰都比 這個時間長的多,并不影響特征的檢測。本發(fā)明用¥0++6.0實現(xiàn)系統(tǒng)原型,用戶只需提供 minWidth和minSN兩個具有實際物理意義的參數(shù)。
實施例2胃復(fù)春片中復(fù)雜成分分析
A.制備胃復(fù)春片總提物 取胃復(fù)春片20片,除去薄膜衣,研成細粉。精密稱取0. 5g置于50mL具塞錐形瓶 中,準(zhǔn)確加入甲醇10mL,超聲提取45分鐘。提取結(jié)束后將錐形瓶取出,冷卻后用甲醇溶液補 足重量。提取液搖勻后以12000rpm轉(zhuǎn)速離心15min,上清液經(jīng)0. 45 y m濾膜濾過后供HPLC 分析。 B. LC-MS分析的色譜和質(zhì)譜條件 液相為AgilentllOO型高效液相色譜儀(美國Agilent公司),配二元梯度泵、 DAD紫外檢測器、柱溫箱、自動進樣器。色譜柱ZORBAX SB-(^色譜柱(4. 6mmX 250mm, 5 y m, Agilent),前置Agilent (:18預(yù)柱。流動相A相0.05%甲酸水;B相乙腈。線性洗脫梯度 (min/% B) :0/5, 15/20, 30/20, 55/30, 75/50, 90/95。流速0. 5mL/min ;柱溫30。C ;進樣量 為10ii L。質(zhì)譜為Finnigan LCQ-DECA XP Plus離子阱質(zhì)譜儀(美國Thermo公司),配電 噴霧離子源及Xcaliburl. 3控制系統(tǒng),采用ESI負離子模式檢測。掃描范圍100-1500Da ;噴霧電壓4. 5kV ;鞘氣和輔助氣為氮氣,分別為30和10單位。 C.特征檢測參數(shù),最小峰寬(minWidth)為9,最小信噪比(minSN)為4。 D.特征檢測結(jié)果在90分鐘的分析時間內(nèi),總共檢測到1827個特征,其所占方差
為總方差的96. 1%。在圖5柚皮蕓香苷(tK = 38min)和柚皮素(tK = 42. 3min)的特征區(qū)
域,可見本發(fā)明的二維特征鏈涵蓋了所有可能存在化合物特征的區(qū)域,不僅強度高的準(zhǔn)分
子離子[M-H] —(m/z 579)可正確檢測,連豐度極低的同位素峰[M-H+3] —(m/z 582)也可正確
檢測,說明本方法的檢測靈敏度很高。 為了比較直觀的評價本發(fā)明的特征檢測效果,將所有檢測到的特征重構(gòu)成時間維
的色譜圖,與所有信號構(gòu)成的總離子流色譜圖進行比較,同時非特征區(qū)域的信號構(gòu)成的色
譜圖為噪音或殘留色譜圖,如圖6所示。從圖6中可知,幾乎所有的真實信號都被正確檢測,
而在剩余的殘留色譜圖中沒有明顯的特征信號。 實施例3雙丹顆粒復(fù)雜成分分析 A.制備雙丹顆粒樣品 精密稱取0. 05g研細以后的雙丹顆粒(山東孔圣堂制藥有限公司,批號040201, 031001),加娃哈哈純凈水lmL,超聲提取20min,然后10000rpm離心10min,取上清液 0. 5mL,用甲醇-水-甲酸(50 : 50 : 1)稀釋1倍。
B. LC-MS分析的色譜和質(zhì)譜條件 Agilent 1100型液相色譜系統(tǒng),包括二元高壓泵,自動進樣器,柱溫箱和DAD檢測 器。色譜柱:Agilent SB-C18(2. lX250線3.5m)。流動相0. 1%甲酸乙腈(A)-O. 1%甲酸 水(B) , A相在0 5min從10%線性升到20%, 5 7min線性升到40%, 7 20min線性 升到95% ;流速0. 3mL/min,柱溫35°C 。所有分析樣品均進樣IOL。 Finnigan離子阱質(zhì)譜儀(LCQ Deca XP plus, CA),配有ESI電離源;負離子檢測, 鞘氣和輔助氣均為N2,流量分別為30和10arb,噴霧電壓4. 5kV,源內(nèi)裂解電壓15V,加熱毛 細管溫度350°C ,掃描方式為一級全掃描,掃描范圍100-800Da。
C.特征檢測參數(shù)最小峰寬minWidth = 9,最小信噪比minSN = 4。
D.特征檢測結(jié)果 實施例2中的樣本經(jīng)90分鐘的梯度洗脫后,主要成分得到了良好的分離,在這種 情況下,特征檢測相對容易;而在本實施例中,雙丹顆粒的樣品經(jīng)一個20分鐘的快速梯度 洗脫,人為的將多個成分的特征壓縮在一起,大大增加了特征檢測的難度,以此來考察算法 在極端條件下的應(yīng)用情況。從圖7可以看出,雙丹顆粒中的主要成分堆積在保留時間10至 13分鐘的區(qū)域。應(yīng)用與實施例2相同的檢測參數(shù),即可得到良好的特征檢測結(jié)果,共檢測到 510個特征,占所有信號方差的98.5%。下面舉例說明,本發(fā)明對復(fù)雜體系中不完全分離成 分的檢測情況。 當(dāng)復(fù)雜體系中的化合物質(zhì)荷比不同時,即便保留時間相同,它們在LC/MS的二維 投影面上,仍是不同的特征,可被本發(fā)明正確檢測,與成分被完全分離的結(jié)果一樣;若不同 化合物的質(zhì)荷比相同時,就會出現(xiàn)多個特征重疊的現(xiàn)象。圖8為丹酚酸B(11.3min)和丹酚 酸E(IO. 9min)的準(zhǔn)分子離子m/z 717,及其同位素離子m/z 718, 719的特征區(qū)域。由圖8A 可見, 一個未知成分m/z 719插到了丹酚酸B與丹酚酸E的同位素離子之間,使3個特征部分重疊在一起。本發(fā)明仍可正確分辨這類重疊的特征,它們被分辨為3個不同的特征。另
外,丹酚酸B的峰形嚴(yán)重拖尾,信號波動較大,在其峰頂點到完全洗脫之間,出現(xiàn)很多毛剌
類的偽峰,用質(zhì)譜工作站自帶的峰檢測算法(Avalon)分析時,丹酚酸B的色譜峰被分成7
個峰,而本發(fā)明的算法,僅用兩個參數(shù),即可正確檢測這些特征。 實施例4燈盞細辛注射液復(fù)雜成分分析 A.分析樣品制備 精密吸取燈盞細辛注射液0. 5ml,上樣于經(jīng)活化(甲醇lml, 1 %甲酸水lml活化) 的Waters OASIS HLB固相小柱上,用0. 5ml 1 %甲酸水洗,棄去洗液,加0. 5ml甲醇洗,收集 洗脫液,備用。 B. LC-MS分析的色譜和質(zhì)譜條件 Agilent 1100型液相色譜系統(tǒng),包括二元高壓泵,自動進樣器,柱溫箱和DAD檢測 器。色譜柱YMC-(^250mmX4.6mm,5m;流動相A相0. 1%甲酸水;B相0. 1%甲酸乙腈, 線性洗脫梯度為:0min :10% B ;20min :17. 5% B ;40min :17. 5% B ;80min :45% B ;90min : 45% B。分流比l : 3。柱溫35。C。進樣量10L。質(zhì)譜為Finnigan LCQ-DECA XP Plus離子阱質(zhì)譜儀(美國Thermo公司),配電噴霧 離子源及Xcaliburl. 3控制系統(tǒng),采用ESI負離子模式檢測。ESI源電壓4. 5kV ;鞘氣(N2) 流速:30arb ;輔助氣(N2)流速:10arb ;毛細管溫度350。C ;毛細管電壓廣15V(-) , 19V(+); 采用全離子掃描方式,掃描范圍m/z :100 800。
C.特征檢測參數(shù)最小峰寬minWidth = 9,最小信噪比minSN = 4。
D.特征檢測結(jié)果 本實例分析的為中藥注射液,其中主要為水溶性的酚酸類成分。由于流動相 添加劑的緣故,產(chǎn)生大量高背景化學(xué)噪音,使很多強度低的信號被淹沒,即便在基峰 (base-peak)色譜圖中仍不能看到低豐度的信號,如圖9A和9B所示。應(yīng)用與前面實施例 2和實施例3相同的特征檢測參數(shù),共檢測到571個特征,從由這些特征重構(gòu)的色譜圖中可 以發(fā)現(xiàn),已沒有高背景噪音的干擾,不僅強度高的信號被正確檢測,強度低的信號也顯現(xiàn)出 來。這說明本發(fā)明不僅可以濾除隨機分布的白噪音,即便有明顯異方差的有色噪音也可以 自動濾除。
權(quán)利要求
一種用于中藥復(fù)雜成分分析的實時特征提取方法,該方法基于LC-MS的時間維和質(zhì)量維的兩維特征信息,通過二維特征鏈檢測,局部噪音和基線估計,以及特征分辨實現(xiàn),具體步驟為(1)質(zhì)譜數(shù)據(jù)采集中藥復(fù)雜樣品首先經(jīng)色譜單元進行分離,然后質(zhì)譜儀在一定的采樣頻率(f)下,順序以全掃描模式分析色譜洗脫的流份,采集的數(shù)據(jù)以棒狀圖格式存儲,每一時間點(1/f的整數(shù)倍)采集的數(shù)據(jù)為一張質(zhì)譜圖,對應(yīng)于質(zhì)譜維的數(shù)據(jù),不同的時間點采集的數(shù)據(jù)構(gòu)成色譜維信息;(2)二維特征鏈檢測質(zhì)譜儀每采集到一個時間點的質(zhì)譜圖,即傳給BNN模塊進行分析,首先質(zhì)譜圖中的質(zhì)荷比和強度信息,分別賦值給質(zhì)荷比數(shù)組MZ和強度數(shù)組INTEN,然后依時間順序用雙向最近鄰算法檢測含有化合物信息的二維特征鏈,檢測到的二維特征鏈存儲在CC中,可被其他模塊隨時獲??;(3)局部噪音和局部基線估計隨著采集數(shù)據(jù)的增多,若CC中的某個二維特征鏈CCk的長度Nk大于minWidth,則對其進行噪音和基線的估計,二維特征鏈包含色譜維和質(zhì)譜維雙重信息,分別由時間與MZ和INTEN構(gòu)成,將二維特征鏈的響應(yīng)強度信息與高通濾波器進行線性卷積,并應(yīng)用3倍總體標(biāo)準(zhǔn)差過濾掉脈沖信號,即為色譜維的噪音估計,真實信號、高斯白噪音和基線構(gòu)成F(x)=B(x)+NS(x)+ε(x),其中高斯白噪音ε(x)用原始信號與三點高通濾波器進行線性卷積估計 <mrow><mi>&epsiv;</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>=</mo><mi>F</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>&CircleTimes;</mo><mi>f</mi> </mrow> <mrow><mi>f</mi><mo>=</mo><mo>[</mo><mo>-</mo><mn>1</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>,</mo><mn>2</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>,</mo><mo>-</mo><mn>1</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>]</mo><mo>;</mo> </mrow>(4)特征分辨當(dāng)二維特征鏈CCk的局部噪音和基線估計完成后(指當(dāng)前時間,特征鏈在后繼的時間可能還會延長,相應(yīng)的噪音和基線會被重新估算),進行特征分辨,檢測到的特征保存在特征列表,定義CCk中任意一點的信噪比為 <mrow><mi>SN</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><mi>F</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>-</mo><mi>B</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>-</mo><mi>&epsiv;</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow> </mrow> <mi>LSD</mi></mfrac> </mrow>其中LSD為位置x附近的標(biāo)準(zhǔn)差,CCk中的最后一個點即為當(dāng)前采集的數(shù)據(jù)點,計算其信噪比SN;(5)實時檢測以上四步,每采集一張質(zhì)譜圖,即為一個運算周期,每周期僅對可進入二維特征鏈的數(shù)據(jù)進行運算,其他信號被認為是噪音;每一時間點被處理的最大二維特征鏈數(shù)為上一張質(zhì)譜圖中所有離子的個數(shù),當(dāng)所有質(zhì)譜數(shù)據(jù)采集完畢時,特征檢測也相應(yīng)結(jié)束,從而實現(xiàn)了特征的實時檢測。
2.根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實時特征提取方法,其特征在 于,步驟(3)為了估算色譜維中的基線,依據(jù)二維特征鏈質(zhì)譜維中組分區(qū)與零組分區(qū)質(zhì)量 波動的差異,設(shè)計以下算法(a)在二維特征鏈CCk中找到強度最大的時間點,然后計算其臨近區(qū)域的平均質(zhì)量波 動,即相鄰質(zhì)荷比的差值mzMin ;(b) 以5倍mzMin為閾值,找到所有質(zhì)量波動大于此閾值的位置,將這些位置和CCk的 第一個點定義為關(guān)鍵點;(c) 這些關(guān)鍵點也對應(yīng)于色譜維上的關(guān)鍵點,在色譜維上,將這些關(guān)鍵點用直線連接, 即為基線B(x)的估計,若最后一個關(guān)鍵點不是CCk的最后一點,則該關(guān)鍵點水平延伸到最 后的線即為對應(yīng)區(qū)域的基線估計。
3. 根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實時特征提取方法,其特征在 于,步驟(4)由于特征檢測的實時性,一般當(dāng)時只有部分特征被洗脫,特征分辨的目的即判 斷當(dāng)前時間點處于色譜峰洗脫的起點或終點位置。
4. 根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實時特征提取方法,其特征在 于,步驟(3)所述的高通濾波器由三個數(shù)據(jù)點組成,三點的和為O,三點的平方和為1。
5. 根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實時特征提取方法,其特征 在于,所用色譜包括液相色譜和超高壓液相色譜,質(zhì)譜包括單重四級桿質(zhì)譜、三重四級桿質(zhì) 譜、離子阱質(zhì)譜和飛行時間質(zhì)譜。
全文摘要
本發(fā)明提供一種用于中藥復(fù)雜成分分析的實時特征提取方法,由數(shù)據(jù)通訊模塊、二維特征鏈檢測、局部噪音和局部基線校正、以及特征分辨四個模塊構(gòu)成,順序分析質(zhì)譜儀采集的質(zhì)譜數(shù)據(jù),判斷與上一個時間點采集的數(shù)據(jù)是否有連續(xù)特征,從而動態(tài)的完成二維特征鏈的檢測;利用二維特征鏈中所含有的質(zhì)荷比和時間信息,可快速去除時間維中的噪音和基線,克服了以往算法單純利用時間維難以準(zhǔn)確估算基線的缺點;由于所估算的噪音和基線具有局部特征,所以局部的信噪比是特征鏈中是否含有組分的特征,簡化了特征檢測的實現(xiàn)。本發(fā)明方法設(shè)計合理,數(shù)據(jù)處理系統(tǒng)不僅具有實時的特點,而且用戶自定義參數(shù)少,運算速度快,尤其適用于液相色譜質(zhì)譜聯(lián)用儀。
文檔編號G01N30/86GK101776671SQ20101003954
公開日2010年7月14日 申請日期2010年1月5日 優(yōu)先權(quán)日2010年1月5日
發(fā)明者張玉峰, 程翼宇, 范驍輝 申請人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
霍山县| 普宁市| 扎兰屯市| 错那县| 肃南| 库车县| 柳江县| 郁南县| 名山县| 南漳县| 景洪市| 哈密市| 鹤岗市| 渝北区| 新乡县| 临沂市| 南城县| 彭阳县| 黎平县| 吉水县| 阿克苏市| 商丘市| 于田县| 安庆市| 车致| 巨鹿县| 萝北县| 富阳市| 雅安市| 蒲江县| 旌德县| 阿尔山市| 丰都县| 临桂县| 遵义县| 长治县| 长沙市| 汶川县| 白城市| 舒兰市| 新蔡县|