專利名稱::芳基硼酸在蛋白質標記中的應用的制作方法
技術領域:
:本發(fā)明涉及使用質譜法同時分析蛋白質樣品的方法,其允許從斷裂的蛋白質的混合物中選擇性分離肽。本發(fā)明進一步涉及用于純化肽和質譜數(shù)據(jù)的數(shù)據(jù)分析的技術。
背景技術:
:對于通過蛋白質組學方法分析復雜蛋白質樣品(組織樣品或體液如血清,或尿)而言,樣品通常被斷裂成肽,分離肽并通過質譜法分析。在這樣的“鳥槍(shotgun)”法中需要克服的最大問題是降低斷裂的肽的混合物的復雜性。為了提供適合于通過現(xiàn)行質譜儀器(這些機器的最佳分析范圍約為2000-4000m/z)分析的碎片,通過用蛋白酶消化蛋白質,與原始樣品相比,待分析分子的數(shù)目顯著增加。斷裂之后由于混合物中的不同的肽來源于相同親本蛋白質,所以對所有這些肽進行分析有時可能是多余的。另一方面,在親本蛋白質鑒定中,對相應于相同蛋白質的數(shù)種肽進行分析可用作進一步的確認。然而,在某些分析中,并不需要分析所有來源于蛋白質的肽。通常,一種或幾種肽就足以確認樣品中某種蛋白質的存在。為減少斷裂后肽的數(shù)目,已使用氨基酸的不同官能團來選擇性分離或標記特定的肽。已被描述適合于該目的的官能團是半胱氨酸的巰基,天冬氨酸、谷氨酸和羧基端的羧基,賴氨酸和肽自身的氨基端的胺基團。在蛋白質組學中半胱氨酸常用作用于選擇性分離或標記肽的官能團。其在所有蛋白質中的約85%中出現(xiàn),并在多肽中平均以約2-3%的頻率出現(xiàn)。因此,僅分析蛋白質樣品的含半胱氨酸肽被認為就足夠代表整個蛋白質庫。此外,半胱氨酸的巰基不在任何其他氨基酸中出現(xiàn),因此得以進行特異性標簽化或標記。然而,一個缺點在于蛋白質中的半胱氨酸殘基通常形成二硫橋鍵,其有助于蛋白質的三級或四級結構并因此常成對存在。因此,使用半胱氨酸標記肽通常標記來自同一蛋白質的至少兩個肽,導致產生冗余信息。此外,半胱氨酸殘基常位于有助于蛋白質結構的蛋白質結構域內。在具有不同功能的蛋白質之間,這樣的結構域通常是保存的(conserved)。因此,基于其含半胱氨酸肽而明確地鑒定蛋白質可能是困難的。半胱氨酸的另一個缺點是雖然半胱氨酸在蛋白質中的出現(xiàn)率相對高,但其分布有些不均。盡管存在許多富半胱氨酸蛋白質,但并非所有蛋白質都含有半胱氨酸(如核糖體蛋白)。因此,通過半胱氨酸導向的標簽化或標記某些蛋白質會被忽略,與此同時其他蛋白質則會過度表現(xiàn)。最后,在樣品操作期間,半胱氨酸殘基可能被氧化。這樣被氧化的氨基酸不再能被用于巰基特異性標簽化或標記。組氨酸的咪唑基團,另一種蛋白質中的獨特的官能團,基于其針對金屬所固有的親和力,被廣泛用于親和層析,但很少用作用于蛋白質修飾的靶點。通常包含6組氨酸殘基尾部的組氨酸標簽化的生物分子通過固定化金屬離子親和層析(immobilisedmetalionaffinitychromatography,IMAC)被純化。以正確構型存在的具有人工添加或天然存在的包含多個組氨酸、半胱氨酸或色氨酸的序列的蛋白質可結合于含有共價結合的螯合金屬離子的柱基質。最常見的是,Ni螯合物層析在親和層析中用作基質來純化已被表達為在蛋白質的N-或C-端具有一個或多個His6標簽的融合蛋白質的重組蛋白質。通常,鎳離子通過次氮基三乙酸基團連到柱基質并與標簽化的蛋白質中的組氨酸殘基發(fā)生相互作用以交換水。使用增加的咪唑濃度梯度或以步進方式來進行洗脫。除Ni2+之外,其他金屬離子也適用于IMAC,例如Cu2+、Zn2+、Co2+、Fe3+、Hg2+。在Mirzaei&Regnier(2005)J.Chrom.B817,23-34中綜述了使用IMAC從胰蛋白酶消化物中選擇含組氨酸肽。WO2006064451中描述了使用芳基硼酸通過咪唑基團將診斷骨架(diagnosticshells)偶聯(lián)至抗體,其基于Collman等(2001)J.Org.Chem.66,1528-1531中描述的銅催化的反應(參見圖1)。硼酸(boronicacid)已知在醫(yī)藥領域中作為在高于pH8.0下與糖的順式二醇基團共價結合的試劑。硼酸修飾的肽的用途被描述為用于抑制絲氨酸蛋白酶。
發(fā)明內容本發(fā)明提供了在將含組氨酸肽應用于隨后的分析之前,用于共價標簽化和任選地標記含組氨酸肽以及從復雜的蛋白質混合物中選擇性分離含組氨酸肽的工具和方法,所述隨后的分析通過分離技術如液相色譜法繼之以譜質量分析(spectrometricmassanalysis)進行。本發(fā)明的方法和工具所提供的一個優(yōu)點是通過在蛋白質樣品的蛋白水解斷裂(proteolyticcleavage)后分離含組氨酸肽,每種蛋白質都由數(shù)目有限的肽代表,使得待分析樣品的復雜性大大降低,但不丟失與原始蛋白質樣品的蛋白質內容物(proteincontent)相關的重要信息。本發(fā)明的方法和工具的另一個優(yōu)點是對于那些已測序基因組的生物體(例如人和多種模型生物體如小鼠和大鼠),蛋白質組的所有蛋白質的含組氨酸肽都是已知的(或可推出)。可預測這些肽的精確的分子量,其可用于支持在MS中產生信號的肽的鑒定以及任選的親本蛋白質(parentprotein)的鑒定。本發(fā)明特定的和優(yōu)選的方面列于所附的獨立和從屬權利要求中。來自屬權利要求的特征在適當時可與獨立權利要求的特征和與其它從屬權利要求的特征合并,而不僅僅是如權利要求中所明示的那樣。本發(fā)明的第一方面涉及一種共價連接親和標簽至含組氨酸的蛋白質或肽的方法。該方法包括在銅催化劑存在下將蛋白質或肽與標簽化試劑接觸的步驟,所述標簽化試劑是具有結構通式(I)的化合物其中A是親和標簽,B是硼和L是任選的連接體(linker)。根據(jù)該方法的一個實施方案,具有結構通式(I)的化合物在芳環(huán)進一步為鹵素、烷氧基或烷基所取代。在本發(fā)明方法的特定實施方案中,親和標簽A是生物素(biotin)。根據(jù)該方法的一個具體實施方案,標簽化試劑是這樣的化合物,其是具有式(II)的分子根據(jù)該方法的另一個具體實施方案,標簽化試劑是具有式(III)的化合物根據(jù)本發(fā)明方法的又一個具體實施方案,具有通式(I)的標簽化試劑,更具體而言具有相應于(II)或(III)的結構通式的標簽化試劑,進一步包含標記物(label)。根據(jù)一個具體實施方案,存在于標簽化試劑上的標記物由一個或多個重原子同位素組成。本發(fā)明的另一方面涉及一種用于從蛋白質樣品或合并的蛋白質樣品的混合物中分離含組氨酸肽的方法,包括步驟(a)用斷裂劑(cleavingagent)將蛋白質樣品中完整的蛋白質斷裂成肽,(b)在銅催化劑存在下將蛋白質樣品與具有結構通式(I)的芳基硼標簽化試劑(arylboronictaggingreagent)接觸,其中A是親和標簽,B是硼和L是任選的連接體,從而使芳基硼標簽化試劑與存在于肽中的組氨酸(如果存在的話)反應;(c)通過所述親和標簽使標簽化的肽與親和基質(affinitymatrix)結合;和(d)從親和基質上除去結合的標簽化的肽以獲得分離的含組氨酸肽。根據(jù)本發(fā)明該方面的方法的具體實施方案,在步驟(a)之前進行步驟(b),并將芳基硼標簽化試劑與樣品中未斷裂的蛋白質接觸,使存在于蛋白質中的組氨酸(如果存在的話)標簽化。本發(fā)明的另一方面提供了用于同時分析不同樣品中一種或多種含組氨酸蛋白質的出現(xiàn)的方法,其包括步驟a)任選地,用斷裂劑將樣品中的完整的蛋白質斷裂成肽,b)在銅催化劑存在下將每種樣品與一組芳基硼酸標記試劑中的一種接觸,其中芳基硼酸標記試劑具有結構通式(I),其中A是親和標簽,B是硼和L是任選的連接體,以及其中芳基硼酸試劑組中的每種試劑進一步包含標記物,其是同位素或同量異序標記物(isotopicorisobariclabel),使得每種標記試劑的結構基本上相同,c)合并不同的樣品以獲得多肽或肽樣品混合物,d)通過親和標簽從多肽或肽樣品混合物中選擇性分離標記的多肽或肽,和e)通過質譜法分析分離的標記的多肽或肽,從而確定每種標記的多肽的出現(xiàn)。其中標記的多肽的出現(xiàn)代表了樣品中相應蛋白質的出現(xiàn)。本發(fā)明的又一方面提供了用于鑒定蛋白質樣品中蛋白質的存在的方法,包括步驟a)在銅催化劑存在下通過將蛋白質與具有結構通式(I)的標簽化試劑接觸,修飾蛋白質樣品中的蛋白質的組氨酸的胺官能其中A是親和標簽,B是硼和L是任選的連接體,b)用斷裂劑將蛋白質樣品中的蛋白質斷裂成肽,c)通過親和標簽從這些肽中分離含組氨酸肽,d)通過一個或多個肽純化步驟純化分離的含組氨酸肽,從而獲得純化的含組氨酸肽,e)測定或計算純化的含組氨酸肽除質量之外的至少一種物理化學性質,f)在MS上測定分離和純化的含組氨酸肽的質量,和g)對于每種分離和純化的含組氨酸肽,將所述質量和所述至少一種其他物理化學性質與包含通過斷裂劑產生的所有含組氨酸肽的質量和一種或多種物理化學性質的數(shù)據(jù)庫進行比較,從而鑒定純化的含組氨酸肽的相應親本蛋白質,由此鑒定蛋白質樣品中親本蛋白質的存在。根據(jù)該方法的一個實施方案,步驟(g)包括對于每種分離和純化的含組氨酸肽,鑒定數(shù)據(jù)庫中質量相應于該分離和純化的含組氨酸肽的質量的一種或多種含組氨酸肽,以及對于一種分離和純化的含組氨酸肽當鑒定出多于一種的肽時,比較該分離和純化的含組氨酸肽和數(shù)據(jù)庫中被鑒定的多于一種的肽的至少一種其他物理化學參數(shù)。根據(jù)該方法的另一個實施方案,蛋白質樣品來自物種(species)以及數(shù)據(jù)庫包含通過斷裂劑產生的該物種的所有含組氨酸肽的質量和至少一種其他物理化學性質。根據(jù)一個實施方案,上述方法用于在兩種或更多種樣品中同時鑒定蛋白質,并且該方法包括-在步驟(a)中用一組包含差異化標記物組分的標簽化試劑中的一種對每種樣品進行修飾,-在步驟(d)之前合并兩種或多種樣品的附加的步驟,-在步驟(f)之前,鑒定標記物的性質從而鑒定肽所來源的樣品的步驟。根據(jù)上述方法的具體實施方案,在一個或多個肽純化步驟過程中測定至少一種物理化學性質。更具體而言,本發(fā)明提供了上述方法的實施方案,其中所述至少一種物理化學性質選自pI、反相層析過程中的保留時間和在280和214nm處的UV吸收比值。本發(fā)明的又一方面提供了用于標簽化蛋白質或肽中的組氨酸的標簽化試劑,具有結構通式(I)的化合物其中A是親和標簽,選自生物素或生物素衍生的分子、麥芽糖(maltose)、凝集素(lectin)、結合到半抗原特異性抗體的半抗原和谷胱甘肽,B是硼和L是任選的連接體。在標簽化試劑的具體實施方案中,結構(I)的芳環(huán)進一步為鹵素、烷氧基或烷基所取代。在另一個實施方案中,化合物上的親和標簽A是生物素。在一個具體的實施方案中,本發(fā)明的標簽化試劑具有式(II)的結構在另一個具體的實施方案中,本發(fā)明的標簽化試劑具有式(III)的結構本發(fā)明標簽化試劑的具體實施方案進一步包含標記組分,更具體而言,由一個或多個重同位素組成的標記組分。更具體而言,標簽化試劑具有結構通式(I),其中親和標簽和芳基硼基團之間連接體(L)中的一個或多個碳原子和/或一個或多個氫原子分別為13C或氘所取代。在另一個具體的實施方案中,本發(fā)明的標簽化試劑具有結構通式(III),其中生物素基團和芳基硼基團之間連接體中的一個或多個碳原子和/或一個或多個氫原子分別為13C或氘所取代。本發(fā)明的又一方面涉及一組用于多肽質譜分析的標記試劑,其中組中的所有標記試劑都具有所描述的相同的化學結構(I),以及其中組中的每種標記試劑都具有獨特的同位素標記物組分。在本發(fā)明標記試劑組的一個實施方案中,該組的各個標記試劑具有根據(jù)式(III)的結構其中生物素基團和芳基硼基團之間連接體中的一個或多個碳原子和/或一個或多個氫原子分別為13C或氘所取代。本發(fā)明的另一方面涉及上述標簽化試劑和組合的標簽化和標記試劑用于標簽化和(差異化)標記蛋白質的用途。本發(fā)明的另一方面提供了通過斷裂劑以insilico方式斷裂的生物體蛋白質的含組氨酸肽的數(shù)據(jù)庫,其中每種肽以蛋白質標識符(proteinidentifier)、其氨基酸組成和其質量來表征,其中該質量為未修飾的肽的質量或修飾或標記后的肽的質量。在本發(fā)明中提供的數(shù)據(jù)庫的一個實施方案中,具有不同序列和相同質量的數(shù)據(jù)庫中的肽進一步以所述肽除其質量之外的至少一種物理化學參數(shù)來表征。在另一個實施方案中,本發(fā)明的數(shù)據(jù)庫是通過斷裂劑以insilico方式斷裂的生物體蛋白質的含組氨酸肽的數(shù)據(jù)庫,所述斷裂劑是胰蛋白酶。本發(fā)明的又一個方面涉及上述數(shù)據(jù)庫用于鑒定蛋白質的用途。本發(fā)明的又一個方面涉及一種用于蛋白質樣品多路標記(multiplexlabelling)和分析的裝置(100),包含至少一個樣品源(101)、標簽化和標記單元(103)和用于本發(fā)明芳基硼試劑的相應的標簽化/標記試劑源(104),蛋白質斷裂單元(105)、親和分離單元(106)、分離單元(107)、質譜儀單元(109)和與insilico斷裂的含組氨酸肽的注釋的數(shù)據(jù)庫(112)連接的數(shù)據(jù)分析單元(110)。在一個實施方案中,該裝置進一步包含樣品制備單元(102)和/或用于測定在分離單元(107)中純化的肽的一種或多種物理化學性質的分析單元(108)。結合附圖從舉例說明本發(fā)明原理的以下詳細描述,本發(fā)明的上述和其他特點、特征和優(yōu)點將得以顯而易見。所給說明僅為舉例,并不限制本發(fā)明的范圍。以下所引用的參考圖是指附圖。圖1顯示了根據(jù)上述引用的Collman等,在銅催化劑存在下芳基硼酸與咪唑的反應。圖2顯示了根據(jù)本發(fā)明的一個具體實施方案,如實施例2中所舉例說明的芳基硼標簽化試劑與多肽中存在的組氨酸的銅催化的反應。圖3顯示了根據(jù)本發(fā)明一個具體實施方案,一種用于從蛋白質溶液中選擇性分離含組氨酸肽的方法。(1)蛋白質變性;(2)蛋白水解斷裂成N-端(a),內部(b)和C-端(c)肽;(3)與組氨酸反應性標簽化試劑反應;(4)用捕捉試劑(capturereagent)(黑箭頭)通過親和標簽(灰箭頭)將標簽化的肽偶聯(lián)至固體支持體(support)。圖4顯示了根據(jù)本發(fā)明的具體實施方案,使用包含同位素標記物組分的組氨酸反應性標記試劑同時分析多個樣品。圖5顯示了根據(jù)本發(fā)明的一個具體實施方案,一種用于4種蛋白質樣品多路分析的裝置(100),包含至少四個樣品源(101)、樣品制備單元(102)、帶有標記試劑源(104)的標記單元(103)、蛋白質斷裂單元(105)、親和純化單元(106)(如抗生物素蛋白親和層析系統(tǒng))、包含兩個連續(xù)相連的分析系統(tǒng)(1107)和(2107)的分離單元(107)、質譜儀單元(109)以及與讀出系統(tǒng)(112)連接的控制和分析電路和數(shù)據(jù)分析單元(111)。單元(108)是用于測定單元(107)中純化的肽的物理化學性質的分析單元,以及單元(110)包含含組氨酸肽的注釋的數(shù)據(jù)庫(點線表示實驗和insilico數(shù)據(jù)的獲取)。圖6顯示了根據(jù)本發(fā)明一個具體實施方案,基于如實施例1中所舉例說明的NHS官能化生物素與間氨基苯基硼酸的反應的標簽化試劑的合成。圖7顯示了根據(jù)本發(fā)明的一個具體實施方案,在實施例1所述的合成中反應物和反應混合物的IR光譜。圖8在A面顯示了根據(jù)本發(fā)明的一個具體實施方案,EDC介導的生物素與間氨基苯基硼酸的偶聯(lián),以及B面顯示了A面中所示出的一般反應的詳細反應圖解,其中生物素基團被黑圓替換。圖9顯示了根據(jù)本發(fā)明的一個具體實施方案,實施例2中所舉例說明的銅催化的標簽化試劑與含組氨酸肽的反應。具體實施例方式本發(fā)明將關于具體的實施方案以及參考某些附圖進行描述,但本發(fā)明不受限于此而僅為權利要求所限制。權利要求中的任何附圖標記不應視為對范圍的限制。所描述的附圖僅是示意性的,并且是非限制性的。在附圖中,為了說明目的某些元件的尺寸可能是夸大的且沒有按比例繪制。在術語“包含”用于本說明書和權利要求書之處,其不排除其它要素或步驟。在不定冠詞或定冠詞使用之處,當涉及單數(shù)名詞如“a”或“an”、“the”時,除非另有特定說明,否則其包括多個該名詞。此外,說明書和權利要求書中的術語第一、第二、第三等等用于區(qū)分相似要素,但并不一定用于描述序貫順序或時間順序。應當明白在合適的環(huán)境下這樣使用的術語是可交換的,并且在此描述的本發(fā)明的實施方案能以不同于在此描述或說明的其他順序操作。以下術語或定義只提供用于幫助理解本發(fā)明。這些定義不應解釋為具有小于本領域普通技術人員所理解范圍的范圍。當在本文中使用時,術語“多肽”或“蛋白質”指通過肽鍵連接的多個天然或修飾的氨基酸。多肽的長度可在2至幾千個氨基酸范圍內改變(因此該術語還包括通常所稱的寡肽)。包括在該范圍內的是包含一個或多個通過體內翻譯后修飾如糖基化、磷酸化等所修飾的氨基酸,和/或包含一個或多個已在體外用蛋白質修飾劑(如烷化劑)修飾的氨基酸的多肽。當在本文中使用時,術語“多肽片段”或“肽”用于指蛋白質或多肽斷裂后獲得的氨基酸序列。多肽片段或肽大小或性質均不受限。術語“內部”、“氨基端”和“羧基端”當涉及肽時,在本文中用于指肽在蛋白質或多肽中相應的位置。例如,在胰蛋白酶斷裂蛋白質NH2-X1-K-X2-R-X3-K-X4-COOH(其中X1、X2、X3和X4為不含賴氨酸(K)或精氨酸(R)的長度不重要(indifferentlength)的肽序列)中,氨基端肽為NH2-X1-K-COOH,內部肽為NH2-X2-R-COOH和NH2-X3-K-COOH以及羧基端肽為NH2-X4-COOH。當在本文中使用時,術語“蛋白質斷裂”涉及多肽中兩個氨基酸之間肽鍵的水解。其包括化學或酶水解。因此,當在本文中使用時,術語“斷裂劑”指能水解多肽或肽中兩個氨基酸之間的肽鍵的化合物。術語“親本蛋白質”指斷裂的肽所來源的未被斷裂的蛋白質。當在本文中使用時,術語“碎裂”指一個或多個化學鍵破裂并隨后釋放一個或多個分子部分,如例如在串聯(lián)質譜法(MS)或MS/MS分析中通過碰撞誘導解離(CID)所獲得的。在某些實施方案中,所述鍵為肽鍵,但其不限于此。當在本文中使用時,術語“蛋白質/肽反應基團(PRG)”指化合物(如標記試劑)上能與蛋白質或肽的氨基酸上的官能團反應、導致所述化合物結合(非共價或共價)到氨基酸的化學官能。本發(fā)明提供了作為與氨基酸組氨酸的官能團起反應的蛋白質/肽反應基團的根據(jù)下述結構的芳基硼酸分子。當在本文中使用時,術語“標簽”或“親和標簽”指可被共價連接至肽或多肽,以及基于其與另一化學結構的特定相互作用,可用于從混合物中分離其所結合的肽或多肽的化學結構。因此,當在本文中使用時,術語“標簽化試劑”在與蛋白質或肽反應前包含未結合的標簽,和包含用于將標簽共價結合至蛋白質或肽的蛋白質/肽反應基團。在本發(fā)明的標簽化試劑中,蛋白質/肽反應基團(PRG)是與組氨酸起反應的芳基硼酸。當在本文中使用時,術語“標記物”指這樣的化學結構,其共價連接至或可被共價連接至肽或多肽以及其基于其特定性質在質譜儀上或通過光學方法是可檢測的。一般而言,術語“標記物”將用于指存在于多肽或肽上的分子,以及術語“標記試劑”用于指標記物組分和蛋白質/肽反應基團的組合。標記物組分(即產生標記物的標記試劑的部分)可摻入標記試劑的蛋白質/肽反應基團中,或可以是獨立的化學結構,處于蛋白質反應基團中或結合在蛋白質反應基團上。當根據(jù)本發(fā)明的標簽化試劑包含標記物組分時,該試劑可被用作標記試劑并將被稱為標記試劑。在本發(fā)明中,術語“質量”指質荷比(m/z)??s寫m/z用于表示通過將離子的質量數(shù)除以其電荷數(shù)產生的無量綱量?!皢我煌凰刭|量”指僅含有最豐同位素的離子的質量。“平均質量”指對于具有給定經驗式的粒子或分子使用每種元素的原子量計算的質量。當在本文中使用時,術語“同位素標記物”和“同位素標記試劑”指一組標記物和標記試劑,其具有相同化學式但彼此在存在一個或多個原子的同位素的數(shù)量和/或類型方面不同,導致MS上質量的不同。因此,可基于質量差異在MS上就此區(qū)分用不同的同位素標記物標記的相同的肽。在本發(fā)明中,雖然同量異序標記物(參見下文)原則上構成特定類型的同位素標記物,但是術語同位素標記物將用于指這樣的標記物其是非同量異序的,但是可基于它們的分子量無需碎裂而就此被區(qū)分。當在本文中使用時,術語“同量異序標記物”和“同量異序標記試劑”指一組具有相同結構和相同質量的標記物,對于該組所有的同量異序標記物其在碎裂時釋放具有相同結構的特定碎片,其由于同量異序標記物中同位素的差異分布在該組的單獨同量異序標記物之間質量上有差異。同量異序標記物通常包含報告基團(RG)(其是相對小的碎片)以及平衡基團(BG)。一組同量異序標記物的“組合質量”指對于該組同量異序標記報告基團和平衡基團的總質量。當在本文中使用時,術語“官能團”指可用于結合(一般地共價結合)化合物的氨基酸上的化學官能。官能團可存在于氨基酸的側鏈上或多肽或肽的氨基端或羧基端上。該術語包括天然存在于肽或多肽上的官能團以及那些通過例如使用蛋白質修飾劑的化學反應引入的官能團。本發(fā)明的一個方面涉及標簽化試劑,其是包含與組氨酸的咪唑官能團起反應的蛋白質反應基團以及包含親和標簽的化合物。更具體而言,與組氨酸起反應的PRG是取代或未取代的芳基硼酸。本發(fā)明的試劑通常是指具有結構通式(I)的取代的芳基硼酸其中A是親和標簽,B是硼和L是任選的連接體。苯上的A-(L)-基團可相對于B(OH)2處于鄰、間或對位。在本發(fā)明試劑的具體實施方案中,苯基團的其余位置為一個或多個獨立選自烷基(如甲基、乙基、丙基)、鹵素(如F)、烷氧基(如甲氧基)或官能團如羧基、氨基或巰基(thiol)的取代基所取代。根據(jù)用于制備蛋白質標記試劑的有機化學中通常已知的方法實施本發(fā)明的試劑的制備。通常,這通過讓包含附加官能團(如氨基)的芳基硼酸(或烷基芳基硼酸)與攜帶有能與芳基硼酸上的官能團起反應從而產生共價鍵的官能團的親和標簽或連接體反應來確保。在實施例部分中舉例說明了多種化合物的制備。本發(fā)明的標簽化試劑確保將親和標簽(A)結合到蛋白質或肽,該標簽可用于選擇性分離該標簽所結合的蛋白質或肽。本發(fā)明化合物和方法中的親和標簽的性質并不關鍵。眾所周知的親和標簽的典型實例包括d-生物素(或生物素衍生的分子)、麥芽糖和其他糖/糖結合、結合到半抗原特異性抗體的半抗原以及谷胱甘肽。在本發(fā)明中有用的親和標簽的另外實施方案詳述如下。親和標簽可以是大體積的,并可能需要在PRG和該親和標簽之間存在連接體L。連接體L可以是僅服務于該目的(即分隔親和標簽和蛋白質反應基團以避免干擾)的分子結構或可同時包含所有或部分標記物組分(詳述如下)。另外或可選地,連接體可提供親和標簽和化合物剩余部分之間的可斷裂的鍵(也詳述如下)。本發(fā)明的一個具體實施方案提供了如上所述的標簽化試劑,其另外包含標記物組分。更具體而言,提供了一組兩種或更多種的標簽化試劑,該組中每種標簽化試劑包含用于在質譜法中差異標記蛋白質或肽的一組標記物組分中的一種。根據(jù)該實施方案,本發(fā)明的標簽化試劑被稱為標記試劑。根據(jù)一個實施方案,本發(fā)明的標記試劑包含基團作為標記物組分,該基團可通過光學方法如吸收可見光或紫外光或發(fā)熒光或磷光檢測。然而,根據(jù)具體的實施方案,本發(fā)明的標記試劑包含其是同位素標記物組分的標記物組分(即屬于一組同位素標記物組分的標記物組分)。因此,使用這樣的同位素標記試劑使得能鑒定合并的肽混合物中差異標記的肽。根據(jù)一個實施方案,本發(fā)明同位素標記試劑中的同位素標記物組分包含相同的分子結構,其中在每個標記物組分中,一個或多個原子為穩(wěn)定同位素所取代,從而產生兩種或更多種具有相同化學式但基于它們的質量差異是同位素可區(qū)分的化合物。例如,同位素標記物組分中的任何一個或多個氫、氮、氧或硫原子可分別為它們的同位素穩(wěn)定的(isotopicallystable)同位素2H、13C、15N、17O、18O或34S所取代。例如,氫為氘所取代或碳12C為13C所取代。使用一種或多種上述同位素,可產生2、3、4、5、6、7、8種或甚至更多數(shù)量的同位素標記物組分,每種都具有相同的結構但具有不同的Mr。如上所述,一旦每種標記試劑結合到不同樣品中的相同多肽上,這些標記物組分的Mr差異就反映在從其產生的多肽或肽所得到的Mr上。通過差異引入一個或多個同位素從而可起同位素標記物組分作用的基團的實例包括但不限于醚、聚醚、醚二胺、聚醚二胺、二胺、酰胺、聚酰胺、聚硫醚、二硫化物、甲硅烷基醚、烷基或烯基鏈(直鏈、支鏈或具有環(huán)狀部分)、芳基、二芳基或烷基芳基。在具體的實施方案中,存在于本發(fā)明標記試劑的同位素組分中的芳基包含一個或多個雜原子(如N、O或S原子)。根據(jù)一個具體的實施方案,標記試劑的同位素標記物組分是這樣的,其在(MS)n分析過程中不經歷與肽類似的碎裂(peptide-likefragmentation)。為促進離子化(ionization),同位素標記物組分以及更具體而言其中的同位素基團可包含例如以下的基團或部分酸性或堿性基團,如COOH,SO3H,伯、仲或叔氨基,氮-雜環(huán),醚或這些基團的組合。在具體的實施方案中,同位素標記物組分包含具有永久電荷的基團,如鏻基團、季銨基團、锍基團、螯合的金屬離子、四烷基或四芳基硼酸鹽(tetralkyortetrarylborate)或穩(wěn)定的負碳離子(carbanions)。本發(fā)明標記試劑的同位素標記物組分可以是分子的單獨部分或可摻入蛋白質反應基團中或與之結合。根據(jù)后一實施方案,同位素標記物組分的同位素可摻入芳基硼酸的芳基中,摻入在該芳環(huán)上的取代基中,或當連接芳基硼酸和親和標簽的連接體(L)存在時,摻入連接體(L)中。根據(jù)本發(fā)明該實施方案的同位素標記試劑的制備類似于US6,852,544實施例中所披露的同位素標記試劑的制備,其中蛋白質反應基為芳基硼酸(arylboronicacid)。根據(jù)另一個實施方案,本發(fā)明的標記試劑包含同量異序標記物組分作為標記物組分。類似于包含同位素標記物組分的試劑,使用同量異序標記試劑使得能鑒定合并的肽混合物中差異標記的肽。在本發(fā)明中使用的同量異序標記組分在本領域中已有描述。如以上詳述的那樣,同量異序標記物組分包含報告基團(RG)(其是相對小的碎片)以及平衡基團(BG),其中對于組中所有同量異序標記物組分,報告基團和平衡基團的組合質量都相等,而對于組中每種同量異序標記物組分,RG的質量則是不同的并被用于區(qū)分鑒定相同的肽。在其中存在同量異序標記物的那些實施方案中,親和標簽通常置于其不影響碰撞誘導解離(CID)后報告基團釋放的位置。本發(fā)明標記試劑的同量異序標記組分可以是獨立的結構??蛇x地,報告基團和平衡基團通常是連接體的一部分或連接體的取代基。在具體的實施方案中,芳環(huán)及其上的取代基用于摻入同位素并作為平衡基團。在非常具體的實施方案中,可被認為是連接體的連接親和標簽與組氨酸反應基團的結構作為同量異序標記組分,其中該連接體的主結構是平衡基團并且報告基團位于該連接體的側鏈上。在另一個非常具體的實施方案中,通過在連接體的指定(dedicated)區(qū)域中同位素的特定分布并鄰接報告基團提供易于通過CID斷裂用于釋放該報告基團的鍵,使得平衡基團和報告基團都是連接體的一部分。在一個實施方案中,根據(jù)本發(fā)明該方面的同量異序標記試劑的制備相應于WO2004070352的實施例中披露的同量異序標記試劑的制備,其中蛋白質反應基團是(烷基)芳基硼酸。如上所述,在本發(fā)明的標簽化和標記試劑中親和標簽的存在,允許將標簽化的和任選地標記的肽或多肽,共價或非共價地且以高親和性選擇性地結合到捕捉試劑(CR)。通常,親和標簽與捕捉試劑的結合是強的,使得其抗多種溶液的任何一種或組合的大量和/或多次洗滌,其確保非特異性結合到捕捉試劑的肽或多肽被除去。通常,在MS分析過程中親和標簽并不經歷與肽類似的碎裂。如上所述,以及更具體而言對于用在本發(fā)明方法中,親和標簽的性質并不關鍵,只要其允許選擇性結合到捕捉試劑(CR)并任選地從其中除去,而不影響結合到該親和標簽的肽或多肽即可。因此,親和標簽(A)和捕捉試劑(CR)對的非限制實例包括-d-生物素或結構上修飾的基于生物素的試劑,包括d-亞氨基生物素,其結合抗生物素蛋白/鏈霉抗生物素蛋白(streptavidin)(例如鏈霉抗生物素蛋白-瓊脂糖、低聚的抗生物素蛋白-瓊脂糖或單體的抗生物素蛋白-瓊脂糖),-麥芽糖,其結合麥芽糖結合蛋白;或其它糖/糖結合蛋白對,或更一般地說,任何遵從上述親和標簽標準的配體/配體結合蛋白對,-半抗原,例如二硝基苯基基團,其結合相應的抗-半抗原抗體如抗-二硝基苯基-IgG,-谷胱甘肽,其結合谷胱甘肽-S-轉移酶。在本發(fā)明的具體實施方案中,在MS分析之前進行標記的肽或多肽的親和純化。因此,由于結合的肽或多肽需要進一步分析,所以需要從捕捉試劑上除去或從肽上解離親和標簽。這可用不同的方法來得以確保。在具體的實施方案中,親和標簽通過可斷裂的鍵(例如但不限于酸不穩(wěn)定、硫醇不穩(wěn)定、堿不穩(wěn)定、高碘酸鹽不穩(wěn)定或羥胺不穩(wěn)定的鍵)連接于標記試劑。在進一步的具體實施方案中,親和標簽和標記試劑之間的鍵還可以是通過化學、熱或光化學反應可斷裂的。適合的光可斷裂基團為1-(2-硝基苯基)-乙基。熱不穩(wěn)定的鍵為例如在加熱下會離解的雙鏈核酸、核酸與肽核酸的雙鏈或雙鏈肽核酸鏈。可斷裂的基團還包括具有二硫鍵(disulfidebonds)的那些,酸或堿不穩(wěn)定基團,高碘酸鹽不穩(wěn)定的或羥胺不穩(wěn)定的基團,尤其包括二芳基甲基或三甲基芳基甲基基團,甲硅烷基醚,氨基甲酸酯/鹽(carbamates),氧酯(oxyesters),硫酯(thiesters),硫代酯(thionoesters)以及α-氟化酰胺和酯。酶可斷裂的基團是例如蛋白酶敏感的酰胺或酯、β-內酰胺酶敏感的β-內酰胺類似物和核酸酶或糖苷酶可斷裂的鍵。根據(jù)該實施方案,可通過用適當?shù)脑噭┨幚順擞浀牡鞍踪|或肽除去親和標簽。由于其它原因親和標簽的除去可能也是理想的,例如避免肽的分析中如MS中的干擾。通常,在標記的肽或多肽的親和分離之后斷解掉親和標簽??蛇x地,親和標簽可存在于本發(fā)明的標簽化和標記試劑中,通過不可斷裂的鍵連接到蛋白質/肽反應基團。為了確保親和純化的肽能被回收,如果親和標簽不是可除去的,則使用以某種方式可以從捕捉試劑(CR)解離的親和標簽。在具體的實施方案中,使用生物素和基于生物素的親和標簽。尤其感興趣的是結構修飾的生物素,例如d-亞氨基生物素,其在與ESI-MS分析相容的溶劑條件(例如含10-20%有機溶劑的稀酸)下會從抗生物素蛋白或鏈霉抗生物素蛋白柱上洗脫下來。已確認d-亞氨基生物素標簽化的化合物會在低于pH4的溶劑中洗脫。另外地或可選地,置換配體(DL)被用于從捕捉試劑(CR)中置換親和標簽(A)(以及結合在其上的肽或蛋白質)。當用DL洗脫時,至少一小部分該DL會存在于包含目的肽的洗脫液中。在具體的實施方案中,本發(fā)明的方法可包含使用這樣的DL,其是在MS分析過程中不經歷與肽類似的碎裂的分子,以及其在樣品中的存在不明顯抑制標簽化的肽、底物或反應產物綴合物(conjugates)的離子化。特別地,可選擇這樣的置換配體,使得在質譜儀分析過程中其自身被最低程度地離子化并且由DL簇(clusters)組成的離子的形成是最小限度的。合適的置換配體(DL)的性質取決于使用的A和CR的性質。一般而言,選擇以合理的時間尺度從CR置換A的DL,至多在添加它的一周內,但更優(yōu)選在幾分鐘之內或至多1小時。DL對CR的親和力應與含A的標簽化的化合物對CR的親和力相當或更強。此外,DL應可溶于在含親和標簽A的標簽化的化合物從CR上洗脫過程中所使用的溶劑中。在具體的實施方案中,DL相應于游離的親和標簽A或A的衍生物或結構修飾物。因此,置換配體的實例包括d-生物素或d-生物素衍生物。如上所述,在本發(fā)明的某些實施方案中,標簽化或標記試劑包含位于親和標簽和組氨酸反應基團(芳基硼酸)之間的連接體。該連接體可以是(烷基)芳基硼酸和親和標簽之間反應的剩余物(remainder)。所述連接體還可用于將(體積龐大的)親和標簽與蛋白質反應基團物理分離,從而防止該親和標簽干擾試劑與肽的結合。如上所述,在本發(fā)明的標記試劑中,連接體可任選地摻入同位素或作為用于光學標記物組分或用于同量異序標記物組分的報告基團的支架(scaffold)。如上所述,在非常具體的實施方案中,連接體作為平衡基團以及報告基團位于該連接體的側鏈上。在另一個非常具體的實施方案中,通過同位素在連接體的指定區(qū)域中的特異性分布并提供易于通過CID斷裂用于釋放報告基團的鄰接此報告基團的鍵,平衡基團和報告基團都是連接體的一部分。在本發(fā)明的具體實施方案中,存在于標簽化或標記試劑中的親和標簽是生物素。在進一步的具體的實施方案中,芳基硼酸是苯基硼酸。在一個非常具體的實施方案中,本發(fā)明的化合物是具有式(II)的分子其中該一般結構額外包含作為標記組分的一個或多個‘重’同位素。在另一個具體的實施方案中,本發(fā)明的標記試劑是具有式(III)的分子。其中任選地生物素基團和芳基硼基團之間連接體中的一個或多個碳原子和/或一個或多個氫原子分別為13C或氘所取代。上述標簽化和標記試劑通過允許選擇性分離含組氨酸肽可用于降低蛋白質樣品的復雜性。對于標簽化和/或標記試劑,為確保選擇性分離代表性數(shù)目的肽,該試劑理想地靶向樣品中的幾乎每一種蛋白質以獲得樣品中蛋白質組的最大覆蓋。與此同時,當考慮到每一個單獨的蛋白質時,蛋白質中與所述試劑起反應的官能團的數(shù)目理想地是低的,從而降低分析的復雜性(來自樣品中該蛋白質的待分析肽的數(shù)量僅有一個或是有限的數(shù)目)。在本發(fā)明的工具和方法中,組氨酸被用作用于標簽化和/或標記的官能團。組氨酸標記化提供了在最大覆蓋(標記樣品中每一種蛋白質)和最小復雜性(樣品中每一種蛋白質僅標記一次或有限次數(shù))之間的可接受的折衷。在多肽序列中組氨酸以2-3%的頻率出現(xiàn)(每30-50個氨基酸中出現(xiàn)1個)。此外,用組氨酸標記不會修飾蛋白質的其他部分,而標記出現(xiàn)在賴氨酸和氨基端的胺基團或標記出現(xiàn)在天冬氨酸、谷氨酸和羧基端的羧基則通常會這樣。因此,本發(fā)明試劑的應用涉及將芳基硼酸標簽化或標記試劑共價結合至多肽中組氨酸的咪唑(參見圖2-盡管該圖顯示了包含六組氨酸的肽,但根據(jù)本發(fā)明對于通過與芳基硼基團反應進行標簽化,不需要存在多個組氨酸)。在銅催化劑如[Cu(OH)TMEDA]2Cl2存在下,芳基硼酸與咪唑在pH值4.6-9.0之間在水性環(huán)境中的反應披露于Collman等(2001),J.Org.Chem.66,1528-1531中并示意于圖1中。然而,考慮到本發(fā)明的應用,該反應通常在低于8的pH值下進行以避免標簽化或標記試劑與糖基化多肽的反應。在本發(fā)明的方法中,盡管通常在水性環(huán)境中進行芳基硼標簽化或標記試劑與蛋白質樣品的接觸,但是如在Collman等(2001)J.Org.Chem.66,7892-7897中披露的那樣,該反應還可在有機溶劑的存在下進行或甚至完全在有機溶劑如CH2Cl2中進行。因此,本發(fā)明的另一方面涉及具有相應于上述式(I)的通式結構的標簽化試劑用于共價標簽化含組氨酸肽的用途。更具體地說,本發(fā)明提供了用于將親和標簽共價連接至含組氨酸蛋白質的方法,包括步驟在銅催化劑存在下將該蛋白質與具有結構通式(I)的化合物接觸其中A是親和標簽和L是任選的連接體。本發(fā)明的特定實施方案提供了用于從蛋白質樣品中分離含組氨酸肽的方法,包括步驟用斷裂劑將蛋白質樣品中的完整蛋白質斷裂成肽,并在銅催化劑存在下將該蛋白質樣品與具有上述結構通式(I)的芳基硼標簽化試劑接觸,從而使芳基硼標簽化試劑與存在于肽中的組氨酸(如果存在的話)反應。然后,通過親和標簽將標簽化的肽結合至親和基質,并從親和基質上除去結合的標簽化的肽以獲得分離的肽。本發(fā)明方法的特定實施方案涉及使用在此描述的特定標簽化試劑,以及在適當情況下,取決于親和標簽的性質以及是否其用可斷裂的鍵被連接在標簽化試劑中以及連接在肽上,使用合適的方法除去親和方法結合的肽,如以上詳述的那樣。本發(fā)明的又一個方面涉及本發(fā)明標記試劑在不同的蛋白質樣品的同時質譜分析中的用途。同時分析樣品避免了分析方法中的技術變動性(technicalvariability)。因此,本發(fā)明該方面的方法和工具在一種或要求比較分析的一組兩種或更多種樣品的分析中是特別令人感興趣的。這樣的一組樣品可以是但不限于來自患者的在不同時間點采樣的樣品、疾病不同臨床版本的樣品、不同患者的樣品等。因此,本發(fā)明提供了用于鑒定疾病進展標志物、用于鑒別診斷以及此外用于生物化學或生理學測定中多路分析的方法和工具。根據(jù)本發(fā)明的該方面,提供了方法和測定法,其中使用本發(fā)明標記試劑標記兩種或更多種樣品,從而使得可以用MS進行同時分析。根據(jù)本發(fā)明該方面的方法包含標記步驟,其中通過在銅催化劑存在下將蛋白質與上述的包含標記物組分的具有結構通式(I)的化合物接觸,用(一組)標記試劑的一種對每種樣品在組氨酸上進行標記。在本發(fā)明方法中使用的一組標記試劑具有相同或基本上相同的化學結構。更具體而言,它們包含作為標記物組分的同位素或同量異序標記物組分。在根據(jù)本發(fā)明該方面的方法中,除了使用本發(fā)明的標記試劑的標記步驟(其導致每種樣品中蛋白質的差異化標記)之外,將不同的樣品合并。通過合并不同的樣品,獲得多肽樣品混合物。這允許在分析中對不同樣品進行直接比較。在標記之后的步驟中,分離并分析標記的肽。最常見的是在肽分離前合并樣品。然而,可以考慮在一個或多個純化或分離步驟后進行樣品合并。如以下詳述的那樣,通常對單個樣品或合并的樣品混合物進行肽分離步驟,以允許在MS上對單個肽進行分析。因此,在所述方法包含用根據(jù)本發(fā)明的同位素或同量異序標記試劑標記兩種或更多種樣品的步驟的情況下,對于一組標記試劑中的所有試劑而言,所得到的在肽上的同量異序或同位素標記物的化學結構相同或基本上相同,使得在不同標記的相同的肽之間,在(多向)色譜技術中存在于肽上的標記物在性質上不會產生顯著差異。因此,被差異化標記的具有相同氨基酸序列的肽在這些分離方法中會具有相同的行為。在差異化標記的樣品業(yè)已合并的情況下,差異化標記的相同的肽被一起分離。本發(fā)明的方法和工具涉及分析蛋白質樣品。當在本文中使用時,術語‘樣品’并不意在必定包括或排除任何在進行本發(fā)明方法之前的處理步驟。所述樣品可以是粗的未經處理的樣品、提取的蛋白質級分、純化的蛋白質級分等。根據(jù)一個實施方案,通過免疫耗竭豐量蛋白質(immunodepletionofabundantproteins)來預處理蛋白質樣品。適合于用本發(fā)明的標簽化或標記試劑和方法分析的蛋白質樣品包括病毒、原核生物、細菌、真核生物、真菌、酵母、植物、無脊椎動物、脊椎動物、哺乳動物和人類來源的樣品。樣品的制備取決于所研究的生物體、組織或器官而不同,但是標準方法通常是可獲得的并且是本領域技術人員已知的。對于哺乳動物和人蛋白質樣品,它涵蓋培養(yǎng)的細胞、激光微解剖的細胞、身體組織、體液或其他感興趣的相關樣品的分離。對于樣品中蛋白質的分級,細胞溶解(lysis)是細胞分級和蛋白質純化中的第一步驟。許多技術可用于破壞細胞,包括基于物理、酶和洗滌劑的方法。歷史上,物理溶解是所選擇的用于細胞破壞的方法;(勻質化、滲透溶解、超聲細胞破壞)然而,它通常需要昂貴的、笨重的設備,并且由于儀器中的變化性(例如,松散裝配的與緊密裝配的勻質化缽錘的比較)而涉及有時難以重復的方案。近年來,洗滌劑基溶解(使用例如Poppers試劑(PierceChemicals))由于容易使用、低成本和高效的方案變得非常受歡迎。哺乳動物細胞具有質膜,一種形成分隔細胞內含物和細胞外環(huán)境的屏障的蛋白-脂質雙分子層(protein-lipidbilayer)。構成質膜的脂質是兩親性的,具有親水性和疏水性部分,其自發(fā)地締合來形成閉合的雙分子片層。膜蛋白包埋在所述脂質雙分子層中,通過跨越疏水核心的一個或多個結構域(domains)保持就位。此外,外周蛋白(peripheralprotein)通過與整合膜蛋白(integralmembraneprotein)或與極性脂質頭部基團的相互作用來結合雙分子層的內部或外部表面。脂質和蛋白質內容物的性質根據(jù)細胞類型而變化。明顯地,選擇用于破壞細胞的技術,無論是基于物理的還是基于洗滌劑的,都必需考慮被檢查的細胞或組織的來源,以及在破壞它們的外層方面的固有的容易度或難度。此外,所述方法必需與要加工的材料的數(shù)量和預期的下游應用相適合。在特定的實施方式中,蛋白質提取還包括來源于不同區(qū)室的細胞蛋白質(例如,細胞外蛋白、膜蛋白、細胞胞漿蛋白(cytosolicproteins)、核蛋白(nuclearproteins)、線粒體蛋白(mitochondrialproteins))的預分級。其他預分級方法根據(jù)物理性質例如等電點、電荷和分子量來分離蛋白質。根據(jù)一個特定的實施方式,利用合適的試劑(例如,鹽酸胍鹽(guanidiniumchloride)、尿素、酸(例如,0.1%trifluoricacid)、堿(例如,50%吡啶)和離子或非離子洗滌劑)在標簽化/標記或斷解之前預處理所述樣品,以便使蛋白質變性以實現(xiàn)優(yōu)化試劑或蛋白酶接近。用還原劑例如(二硫蘇糖醇(DTT)、2-巰基乙醇和2-巰基乙胺,以及是膦類和它們的衍生物,例如三(羧乙基)膦(TCEP)或三(2-羧乙基)膦鹽酸鹽的那些)還原半胱氨酸殘基。在具體的實施方案中,本發(fā)明的方法可包括一個或多個步驟,其中在本發(fā)明的標簽化或標記方法之前,用蛋白質修飾劑不可逆地或可逆地修飾氨基酸(除組氨酸以外)的一個或多個官能團。實例是用于修飾半胱氨酸的巰基、用甲硅烷基化試劑修飾絲氨酸和蘇氨酸的羥基、乙?;嚢彼岬陌坊鶊F、修飾天冬氨酸和谷氨酸的羧基的步驟。這樣的修飾的具體實例詳述于下-硫醇反應基團與半胱氨酸的側鏈反應。硫醇反應基團包括環(huán)氧化物、α-鹵素?;鶊F、腈、磺化的烷基或芳基硫醇、鹵代烷、芳基酰胺和馬來酰亞胺類。特定的實例是碘乙酰胺(iodoacetamide)或其衍生物。-氨基反應基團與賴氨酸的側鏈的ε胺基團反應,或與在多肽的N-末端處的胺反應。氨基反應基團結合蛋白質中的氨基,包括磺酰鹵、異氰酸酯、異硫氰酸酯、活性酯,包括四氟苯基酯、五氟苯基酯、N-羥基琥珀酰亞胺基酯、N-羥基磺基琥珀酰亞胺基酯、2-硝基苯基酯、4-硝基苯基酯、2,4-二硝基苯基酯和2,4-二鹵代苯基酯、?;u、和酸酐和混合酸酐。此外,氨基反應基團包括醛或酮,在存在或不存在NaBH4或NaCNBH3的情況下。-羧酸反應基團與天冬氨酸和谷氨酸的側鏈反應,或與多肽的C-末端反應。羧酸反應基團包括胺或醇,在存在偶聯(lián)劑例如二環(huán)己基碳二亞胺、或三氟乙酸2,3,5,6-四氟苯基酯的情況下,以及在存在或不存在偶聯(lián)催化劑例如4-二甲基氨基吡啶的情況下;和過渡金屬-二胺絡合物,包括Cu(II)菲咯啉。-酯反應基團包括胺,例如,其與高絲氨酸內酯反應。甲硫氨酸在CNBr斷解期間轉化成高絲氨酸內酯。-磷酸酯反應基團(phosphatereactivegroup)與磷酸化的氨基酸例如磷酸絲氨酸、磷酸蘇氨酸和磷酸酪氨酸反應。磷酸酯反應基團包括螯合的金屬,其中金屬是例如Fe(III)或Ga(III),螯合到例如次氮基三乙酸(nitrilotriacetiacacid)或亞氨基二乙酸。這些試劑與磷酸化的氨基酸反應(例如,磷酸絲氨酸、磷酸蘇氨酸和磷酸酪氨酸)。-醛或酮反應基團包括胺加NaBH4或NaCNBH3,或首先用高碘酸鹽處理碳水化合物之后產生醛或酮的這些試劑。-羥基反應基團與絲氨酸和蘇氨酸反應。羥基反應基團包括三苯甲基鹵化物或甲硅烷基鹵化物反應部分,其是被取代的或未被取代的。根據(jù)具體的實施方案,本發(fā)明的標簽化和標記方法包括斷裂步驟,由此一種或多種蛋白質樣品的蛋白質被加工成肽。該斷裂步驟可發(fā)生在標簽化/標記步驟之前或之后。通常進行該斷裂步驟以使得能夠分析更小的肽而非全長蛋白質。與蛋白質相比,肽易于在高通量系統(tǒng)如LC上分離,并易于在MS/MS中解析來自肽的序列數(shù)據(jù)。可通過不同的斷裂劑實現(xiàn)肽的斷裂。用于蛋白質斷裂的適合的化學物質包括溴化氰(CNBr)、BNPS甲基吲哚(BNPSskatole)(2-(2′-硝基苯基磺?;?-3-甲基-3-溴假吲哚)、甲酸、羥胺、碘苯甲酸、NTCB+Ni(2-硝基-5-氰硫基(thiocyano)苯甲酸)。適合的蛋白水解酶包括Asp-N內肽酶、半胱氨酸蛋白酶(caspase)1、2、3、4、5、6、7、8、9或10、糜蛋白酶;梭菌蛋白酶、腸激酶、因子Xa、谷氨酰內肽酶(glutamylendopeptidase)、GranzymeB、LysC賴氨酰內肽酶、木瓜蛋白酶、胃蛋白酶、脯氨酸內肽酶、蛋白酶K、葡萄球菌的肽酶I、嗜熱菌蛋白酶、凝血酶、胰蛋白酶。取決于蛋白質樣品的類型,聯(lián)合進行化學和酶斷裂或進行雙酶消化。根據(jù)一個具體的實施方案,使用胰蛋白酶進行蛋白質的斷裂,其是具有最高特異性(賴氨酸和精氨酸)和效率的酶。在脊椎動物中,賴氨酸以7.4%的頻率以及精氨酸以4.2%的頻率存在于蛋白質中。因此,胰蛋白酶消化產生平均長度為9個氨基酸的肽??蛇x地,在賴氨酸已被修飾而不再作為胰蛋白酶底物的情況下,通過胰蛋白酶斷裂產生平均長度為25個氨基酸的肽。這樣的肽非常適合于色譜和MS技術。因此,本發(fā)明的一個具體實施方案提供了包含在斷裂步驟之前的標簽化/標記步驟的方法,其中用胰蛋白酶消化標簽化的/標記的蛋白質。根據(jù)一個更具體的實施方案,在消化前,用乙?;瘎┨幚順擞浀牡鞍踪|以在進行胰蛋白酶消化前修飾賴氨酸的側鏈。經修飾的賴氨酸將不再被識別為胰蛋白酶的底物。然而,應當考慮到未被修飾的半胱氨酸殘基,當與乙?;噭┤缫宜狒磻獣r形成高精氨酸,會變成為胰蛋白酶的底物。因此,這些方法更進一步的具體實施方案包括其中在賴氨酸修飾之前半胱氨酸殘基被修飾的步驟。此外,應當注意,由于用乙?;噭┨幚矶嚯模虼硕嚯牡陌被艘矔灰阴;H绻牡陌被吮豢紤]進行例如進一步的標記步驟(如在涉及雙標記的方法中,見下文),則這樣的乙?;赡苁切枰紤]的。在本發(fā)明的方法中,存在于蛋白質樣品中的含組氨酸蛋白質,其在標簽化/標記步驟中被標簽化/標記,但其不包含蛋白質斷裂位點,將就此在分析的剩余過程中和其他肽一樣地被加工。因此,不包含組氨酸的蛋白質或肽在本發(fā)明方法的親和純化步驟中被從樣品除去并在分析中不予考慮。利用了本文描述的標簽化和標記試劑的標簽化和/或標記方法通??捎糜谑褂肕S分析蛋白質樣品的情況中。使用MS進行蛋白質樣品分析通常需要在實際的MS之前通過一種或多種肽分離技術純化單個肽。因此,在待分析蛋白質樣品復雜的情況下,本發(fā)明的方法通常包含一個或多個肽分離步驟,其中對一種樣品或合并的樣品混合物進行一種或多種肽分離技術以從多肽樣品混合物中選擇性分離標簽化的/標記的多肽或肽。能將復雜的蛋白質或肽樣品分離成兩個或更多個、直至眾多級分(在分離標記的或標簽化的肽的情況下)的適合的分離技術為本領域技術人員所熟知,并且包括但不限于等電聚焦(isoelectricfocusing)、SDSPAGE、兩維凝膠電泳、尺寸排阻層析、離子交換層析、反相HPLC、親和層析,...等。當樣品由較大的肽(例如,Mr3000和100,000之間)組成時,可以使用2DGE。對于從例如蛋白水解消化獲得的肽樣品,2DLC方法更適合于分離,并且自動化和處理量顯著更好。已經描述了通過液相層析分離蛋白質/肽消化物的幾種技術,反相(RP)-HPLC,和2-維液相層析。毛細管電泳(CE)也是適合于分離肽的方法。2D-LC一般利用離子交換柱(通常,強陽離子交換,SCX),在線與反相柱連接,以一系列的循環(huán)來運行。在每個循環(huán)中,鹽濃度在離子交換柱中提高,以根據(jù)肽的離子電荷將它們洗脫到反相系統(tǒng)中。在此,肽根據(jù)疏水性被分離,通過例如CH3CN梯度。許多參數(shù)影響分辨能力和隨后的可以被LC-MS顯示的蛋白質數(shù)量。通常,設置第一維分離技術(SCX)和第二維RP-HPLC分離方法之間的“在線”構造用于樣品分級。離子交換層析可以通過利用不斷提高的鹽濃度的分步洗脫進行、或通過鹽梯度進行。一般地,SCX在存在例如最高達30%乙腈的情況下進行,以最小化SCX層析期間的疏水相互作用。在實施在例如C18柱上的反相層析之前,除去有機溶劑例如乙腈,或通過例如蒸發(fā)來強烈地減少。以下通過下述代表性方案說明本發(fā)明的標簽化和標記方法。圖3舉例說明了本發(fā)明方法的一個實施方案,其中例示了使用硼酸標簽化試劑標簽化蛋白質樣品,該硼酸標簽化試劑帶有通過包含二硫(disulfide)的連接體連接的生物素親和標簽。在第一步驟中,細胞溶解產物中的蛋白質被變性,并通過采用碘乙酰胺進行的羧甲基化修飾半胱氨酸。在下一步驟中,用胰蛋白酶將蛋白質斷裂成肽。此后,用組氨酸反應性標簽化試劑標記帶有組氨酸的肽。將標簽化的肽結合至帶有作為捕捉試劑的抗生物素蛋白的基質,組氨酸標簽化的肽結合至該捕捉試劑。在除去未結合的肽之后,用還原劑(如二硫蘇糖醇)將肽從親和基質上除去,該還原劑從結合的親和標簽斷裂所述肽。隨后通過一維或二維層析分離洗脫的肽并通過MS進行分析。圖4中舉例說明了本發(fā)明方法的另一個實施方案。該圖4中舉例說明的標記方案包括使用根據(jù)本發(fā)明的標記試劑標記4種蛋白質樣品,所述根據(jù)本發(fā)明的標記試劑包含蛋白質反應基團(PRG),其是本文中所描述的組氨酸反應基團。在預處理步驟中,樣品被變性、還原,并隨后通過羧甲基化修飾所有半胱氨酸并修飾所有賴氨酸的胺。標記方案的不同步驟包括-各自用根據(jù)本發(fā)明一個實施方案的一組標記試劑中的一種標記試劑標記4種蛋白質樣品,其中每種標記試劑具有不同的同位素標記物組分,以及其中所述標記試劑包含通過含有二硫基團的連接體連接到PRG的生物素親和標簽。-標記后,合并所有樣品并作為一個反應混合物進行處理,其減少了由于單個樣品的操作所產生的變化。-用胰蛋白酶消化如此獲得的組氨酸標記的合并樣品混合物。-為減少進行進一步分析的肽的數(shù)目,通過經標記試劑引入的肽上的生物素親和標簽分離標記的肽。該分離使用(鏈霉)抗生物素蛋白親和技術進行。通過在還原條件中培育它們,將親和標簽從標記的肽上除去。在親和步驟后,每個分離的肽均包含被修飾的組氨酸并攜帶有同位素標記物。因此,在通過MS分析時每個肽都供給信息。該方法進一步包括以下步驟,其中-通過例如液相色譜法分離合并的肽。在此,相同的但來源于不同樣品并因此被差異化標記的肽具有基本上相同的行為方式。盡管來源于不同樣品的相同的肽上存在不同的同位素標記物,但是由于每一標記組中不同的標記物具有相同化學式或基本上相同的化學式,因此這將不會影響它們的洗脫。-通過MS分析每一分離的肽級分,其應當產生四種具有不同質量的信號,相應于“較輕的”或“較重的”同位素標記物組分的存在。以上舉例說明的本發(fā)明方法的具體實施方案使用了具有4種不同同位素標記物的一組標記試劑。當使用其中更多數(shù)量的不同同位素組合可行的一組標記試劑時,可同時分析更多數(shù)量的樣品??蛇x地,可使用同量異序標記試劑。上述示范性的標記方案適合于測定例如不同樣品中單個蛋白質表達水平上的差異。取決于具體應用,考慮了不同的可選方案。本發(fā)明的方法可用于檢測生物標志物,如在疾病的情況下。當比較疾病樣品時(如疾病vs.對照),取決于樣品,存在大數(shù)目的蛋白質并因此不得不通過MS和MS/MS分析大數(shù)目的肽。該量可高達幾百甚至大于一千。然而,對于它們中的許多而言,在不同樣品中的存在和相對量都將是相同的。然而,對于與病況有關的有限數(shù)目的肽,在不同樣品中可觀察到存在和相對量的顯著差異。通過序列分析或如下所述通過與數(shù)據(jù)庫進行比較,分析獲得自這些樣品的含組氨酸肽使得能夠確定所述肽所來源的蛋白質。當對于來自相同蛋白質的不同肽觀察到檢測到相同的表達水平時,該分析將會甚至更可靠。應當理解,本發(fā)明的標記方法可適用于蛋白質組學、蛋白質表達分布分析、生物標志物發(fā)現(xiàn)以及靶點發(fā)現(xiàn)。本發(fā)明的方法的一些實施方案所獲得的高多路性容許在一個單一實驗中分析許多不同的條件。所述方法對于研究獲自不同疾病狀態(tài)的樣品的表達分布是特別有用的。被分析的樣品來自以下的一個或多個健康的人、患有良性病癥(benigndisorder)的人、患有惡性病癥(malignantdisorder)的人(緩和的或侵略性的)、來自響應于或不響應于治療的人、來自患有在身體的不同部分顯現(xiàn)的病癥的人、來自治療之前、期間和之后的人、來自接受不同的治療方法的人、和來自具有一種或多種病癥癥狀不然就健康的人。在本發(fā)明的情境中考慮的病癥包括細菌或病毒感染,免疫學病癥,心血管病癥和癌癥。上述實施方案說明了本發(fā)明提供的標簽化和標記試劑的最直接應用以及使用它們的示范性方法。應當指出,本發(fā)明的標簽化和標記試劑還可用于更復雜的應用中,如與保證通過不同于組氨酸的肽的官能團(更具體而言,斷裂后處于肽的N-或C-端的氨基或羧基)標記的其他標記試劑組合。因此,本發(fā)明還設想這樣的方法,其中使用本發(fā)明的標簽化試劑標簽化蛋白質樣品的肽,以及在可發(fā)生于該標簽化步驟之前或之后的標記步驟中,所述肽與試劑例如反應。本發(fā)明的組氨酸特異性標記試劑還適合于雙標記方法,其中用本發(fā)明的標記試劑在組氨酸上進行第一標記,以及在蛋白質或肽中另一官能團上進行第二標記。根據(jù)一個實施方案,首先對樣品中的蛋白質在組氨酸上進行標記,然后斷裂蛋白質。接著在N-端或C-端(即存在于所有斷裂的肽上的官能團)上標記斷裂的肽??稍诘诙擞洸襟E之前或之后進行含組氨酸肽的分離。根據(jù)另一個實施方案,樣品中的蛋白質首先被斷裂,然后標記N-端或C-端。之后用本發(fā)明的標記試劑對這些標記的肽在組氨酸上進行進一步的標記。此后通過親和純化分離雙標記的肽。在上述雙標記方法中,第二標記試劑的性質將取決于使用的根據(jù)本發(fā)明標記試劑的性質(反之亦然)。通常,使用同量異序和同位素試劑的組合,由此本發(fā)明的組氨酸反應性標記試劑可具有同位素標記物或同量異序標記物組分。在一個非常具體的實施方案中,用包含同量異序標記物的組氨酸反應性標記試劑進行一次標記,而另一次標記則通過蛋白酶(如胰蛋白酶)介導的在斷裂的肽的C-端的一個或兩個18O同位素的摻入來進行。如Heller等(2003)J.Am.Soc.MassSpectrom.14(7),704-718和Schnolzer等(1996)Electrophoresis17,945-953中所描述的那樣進行蛋白酶介導的18O標記。本發(fā)明的另一方面提供了用于鑒定樣品中蛋白質的方法,該方法基于如以上對標簽化試劑所描述的那樣選擇性標簽化和分離含組氨酸肽、標簽化的含組氨酸肽的質量的測定以及分離的含組氨酸肽的鑒定,基于與含組氨酸肽數(shù)據(jù)庫的比較。更具體而言,本發(fā)明的鑒定方法包括將樣品的蛋白質斷裂成肽,使用本發(fā)明的芳基硼酸標簽化試劑選擇性標簽化含組氨酸肽,接著選擇性分離它們,并進一步進行純化,測定分離的含His肽的質量以及將所述分離的含His肽的質量和任選的一種或多種其他物理化學性質與含His肽的數(shù)據(jù)庫進行比較。因此,本發(fā)明的該方面涉及通過MS測定來自混合物的純化的含組氨酸肽的質量以及通過將所鑒定的質量與質量數(shù)據(jù)庫進行比較來鑒定所述肽。本發(fā)明的方法使得能夠以高準確度而不需要在MS/MS上進行從頭序列測定而鑒定含組氨酸肽(因此,以及它們相應的親本蛋白質)。所提出的程序的一個優(yōu)點是對于基因組已測序的生物體(例如人、小鼠和大鼠以及低等生物如果蠅、線蟲和酵母)而言所有蛋白質的含組氨酸肽都是已知的??梢灶A測這些肽的精確分子量,其可用于支持作為測量的質譜信號的基礎的肽的鑒定。對于目前可用的高性能質譜技術如FT-ICR來說尤其是這樣,其可達到大約>500,000的分辨率和<1ppm的質量準確度。此外,由于從基因組序列的insilico分析中已知預期的含組氨酸肽的本性,所以可產生合成肽的庫,并可測定制備過程期間每種肽的精確特性(如在不同色譜材料上的保留時間、在ESI/MALDI-TOF中的行為)并與來自復雜的蛋白質混合物的鑒定的肽進行比較。這明顯改善了正確蛋白質鑒定中的置信度。因此,所述數(shù)據(jù)庫通常是包含所有含組氨酸肽的質量的數(shù)據(jù)庫,所述所有含組氨酸肽是當斷裂特定生物體的蛋白質組時由特定斷裂劑產生的。更具體而言,這樣的數(shù)據(jù)庫包含通過肽標識符鑒定的這些肽的質量并包括關于肽所來源的一種或多種親本蛋白質的信息。將分離的肽的質量與數(shù)據(jù)庫進行比較使得可以鑒定親本蛋白質。注意到在芳基硼酸與肽中的組氨酸反應后,至少苯甲基變得附著于肽上。該基團吸收紫外光并對于每一個被修飾的組氨酸增加至少78的肽質量。因此,在MS分析時以及相應地在與數(shù)據(jù)庫進行比較時,就應當考慮該重量變化(以及可能地其他性質變化)。在不除去親和標簽的情況下,或添加額外的標記組分的情況下,分離和純化的標簽化的肽的質量可能會進一步增加。任選地,對數(shù)據(jù)庫中提供的質量,可以對于其中存在的每一個組氨酸,對具有或不具有標簽或標記物的苯甲基的存在進行校正。根據(jù)本發(fā)明,樣品中蛋白質的鑒定任選地包括考慮含組氨酸肽的一種或多種其它物理化學性質。任選地,在分離的肽的質量相應于數(shù)據(jù)庫中多于一種的肽的情況下,在比較中可考慮所述的一種或多種物理化學性質,以允許進行明確鑒定(positiveidentification)。通常,根據(jù)本發(fā)明該方面的鑒定樣品中蛋白質存在的方法包括步驟在銅催化劑存在下,通過讓蛋白質與具有在此描述的結構通式(I)的標簽化試劑接觸,修飾蛋白質樣品中含組氨酸蛋白質,從而選擇性標簽化蛋白質樣品中所有的組氨酸。之后,該方法進一步包括步驟用斷裂劑將蛋白質樣品中的蛋白質斷裂成肽,并通過親和標簽從這些產生的肽中分離那些含組氨酸的肽。在更進一步的步驟中,通過一個或多個肽純化步驟純化分離的含組氨酸肽,從而獲得純化的含組氨酸肽。此外,或在這些肽純化步驟期間,測定純化的含組氨酸肽的除質量外的至少一種物理化學性質??蛇x地,基于在肽純化步驟過程中獲得的信息可計算所述至少一種額外的物理化學性質。在下一步驟中,在MS上測定分離和純化的含組氨酸肽的質量。最后,對于每種分離和純化的含組氨酸肽,將所述質量和至少一種其他物理化學性質與如上所述包含所有含組氨酸肽的質量和一種或多種物理化學性質的數(shù)據(jù)庫進行比較。為了確保使用數(shù)據(jù)庫準確鑒定肽,樣品的斷裂劑理論斷裂模式應盡可能接近地相應于實驗情況。例如,可能必須考慮對于斷裂甲硫氨酸的C-端使用CNBr還可能導致斷裂色氨酸的C-端。取決于培育時間和樣品中酶的濃度,優(yōu)先斷裂芳香氨基酸C-端的糜蛋白酶還會斷裂其他疏水氨基酸的C-端。同樣,為了允許使用數(shù)據(jù)庫明確鑒定肽(即為了使數(shù)據(jù)庫包括最大數(shù)目的不同的肽以及來源于不同親本蛋白質的最小數(shù)目的相同的肽),所產生的肽的平均大小具有重要意義。肽越短,則來自不同蛋白質的肽具有相同質量和甚至具有相同序列并將在純化和分析方法中表現(xiàn)相同的幾率就越大。因此,取決于樣品的性質和復雜性,可優(yōu)選具有較少?,F(xiàn)斷裂位點的酶。任選地,本發(fā)明的鑒定方法包括在樣品分析過程中(內對照)或在測試運行(testrun)中分析對照肽。在該實施方案中,產生一種或多種直至一個庫的合成含組氨酸肽,并在制備過程中測定每種肽的精確特性(如在不同色譜材料上的保留時間、在ESI/MALDI-TOF中的行為)。在所產生的肽與產生自蛋白質樣品的特定肽相同的情況下,產生自合成肽的信息可用來與天然肽獲得的數(shù)據(jù)進行比較。預計這能明顯改善正確鑒定的置信度。如在上述標簽化和標記方法的情景中所描述的,本發(fā)明鑒定方法的具體實施方案包括鑒于胰蛋白酶的高特異性和效率而使用其的斷裂步驟??蛇x地,當在Lys和Arg兩者處斷裂時產生的肽太短的情況下,可使用其他酶,例如蛋白內切酶(endoproteinase)Arg-C(精氨酸特異性)、蛋白內切酶Lys-C(賴氨酸特異性)、金黃色葡萄球菌(S.aureus)V8蛋白酶(Asp/Glu特異性)??蛇x地,如上所述,通過乙?;揎椯嚢彼岬膫孺溡韵拗茖彼釟埢囊鹊鞍酌笖嗔?以及任選地未修飾的半胱氨酸,其被乙?;癁楦呔彼岵⒆兂梢鹊鞍酌傅牡孜?,參見以上所述)。本發(fā)明的鑒定方法包括鑒定步驟,其基于將關于肽的物理化學性質的數(shù)據(jù)與肽數(shù)據(jù)庫的那些進行比較。因此,對于在本發(fā)明方法的一個或多個分離步驟中獲得的每一肽級分,收集并存儲在分離方法中如層析過程中關于肽的行為的數(shù)據(jù)。這樣的數(shù)據(jù)包括例如純化進行時的pH、肽從反相柱上洗脫時有機溶劑的百分比、在給定pH下肽從離子交換基質上洗脫時的鹽濃度、在給定pH下肽與某種樹脂的結合(或不結合)等。另外地或可選地,對每種肽可收集不是直接獲得自本發(fā)明方法中肽分離和純化步驟的進一步的數(shù)據(jù)。因此,對于每種肽,可存儲分離的肽的級分來實施測量以測定在純化過程中沒被測定的性質。這樣的測量包括例如測定溶解度、在水/有機溶劑體系中的分配系數(shù)、特定氨基酸側基(如-OH、-SH、-NH2)的檢測等。在本發(fā)明鑒定方法的一個進一步的步驟中,通過質譜法分析已按如上所述分離的含組氨酸肽的級分。應當指出,本發(fā)明的鑒定方法可用于鑒定一種樣品中的蛋白質或用于鑒定合并的樣品混合物中的蛋白質。在后一種情況下,除標簽化樣品中含組氨酸的蛋白質之外,還對樣品進行差異化標記以允許鑒定純化的標簽化的肽的來源。根據(jù)一個具體的實施方案,使用允許同時標簽化和標記含組氨酸肽的本發(fā)明的標記試劑確保差異化標記。因此,在兩種或更多種樣品作為合并的樣品混合物被同時分析的情況下,肽級分可能含有被差異化標記的相同的含組氨酸肽。通過高分辨質譜儀的高質量精度,實現(xiàn)了在MS譜中含組氨酸肽質量的精確測定,其使得能夠與insilico數(shù)據(jù)庫進行比較用于鑒定。通過將分析物電離成氣相來進行通過譜方法實現(xiàn)的質量測量。測定離子化分子的質荷比(m/z)并對每一單獨m/z值計數(shù)離子數(shù)目。因此,MS譜中的每一特征通過兩個值來限定—m/z和檢測到的離子數(shù)目的測量值。如上所述,在本發(fā)明鑒定方法的一個進一步的步驟中,將實驗測定的含組氨酸肽的質量與數(shù)據(jù)庫中insilico產生的肽的質量進行比較。肽質量與其氨基酸組成相關。然而,只基于質量,并不總能肯定地鑒定肽。例如,單獨使用質量將無法區(qū)分具有相同氨基酸組成但序列不同的肽(A1-A2-A3-A4-A5對A5-A1-A2-A3-A4)。此外,某些質量可相應于一組具有不同序列的肽。例如,具有帶較長側鏈氨基酸的短肽的質量可與具有帶較短側鏈氨基酸的較長的肽相同。與通過樣品酶消化所產生的肽的總數(shù)相比,利用本發(fā)明中所描述的含組氨酸肽的標簽化和分離,大大減少了由蛋白質樣品所產生的肽的數(shù)目。因此,該供鑒定使用的insilico胰蛋白酶肽數(shù)據(jù)庫也只需包含含組氨酸的肽(所謂的含組氨酸肽數(shù)據(jù)庫)?,F(xiàn)有的蛋白質和序列數(shù)據(jù)庫可用作基礎以產生相應于任意生物體的蛋白質組的含組氨酸肽數(shù)據(jù)庫。對于不斷增加的生物體列表,已知完整基因組以及從其推斷出的蛋白質組(www.ncbi.nlm.nih.gov/genomes)。因此,可產生其中模擬蛋白質斷裂和肽分離的insilico含組氨酸肽數(shù)據(jù)庫。取決于斷裂劑的效率,該數(shù)據(jù)庫可含有其中斷裂不完全的肽。在適合于本發(fā)明該方面情景的含組氨酸肽數(shù)據(jù)庫中,每條記錄均包括親本蛋白質的名稱和相應的含組氨酸肽的質量。對于每條記錄,氨基酸組成同樣是重要的,以計算由以下導致的質量差異天然翻譯后修飾(如絲氨酸、蘇氨酸和酪氨酸上的磷酸化)、樣品處理(如天冬酰胺和谷氨酰胺的脫酰胺)或在蛋白質的修飾/標記和含組氨酸肽分離期間引入的修飾,特別是由于用芳基硼酸標記而通過至少苯環(huán)所引起的質量增加。然而,實驗的含組氨酸肽的質量可相應于相應的含組氨酸肽數(shù)據(jù)庫中的不同的肽。因而,對于特定的樣品,例如幾乎不存在關于蛋白質預期性質的信息的樣品,這樣的數(shù)據(jù)庫僅根據(jù)肽的質量可能無法給出足夠的信息來鑒定含組氨酸肽的親本蛋白質。因此,本發(fā)明鑒定方法的特定實施方案提供了不僅基于m/z比,還通過考慮到一種或多種額外特性如長度(氨基酸數(shù)目)、氨基酸序列、重量、疏水性、等電點等來鑒定含組氨酸肽的相應親本蛋白質。根據(jù)本發(fā)明的一個具體實施方案,含組氨酸肽的數(shù)據(jù)庫相應于特定斷裂劑的蛋白質組,而其對于給定物種則相應于樣品來源。這樣的肽數(shù)據(jù)庫還包括注釋的剪接變體(splicevariant)。用于本發(fā)明方法中的insilico肽數(shù)據(jù)庫包括計算的含組氨酸肽的特性如氨基酸長度、氨基酸序列、分子量、疏水性、等電點等。必須考慮到體內來源的蛋白質通常是翻譯后修飾的,如通過乙酰基、甲酰基或焦谷氨酸殘基修飾,它們都會對質譜中測定的m/z產生影響。因此,在本發(fā)明的一個實施方案中,合成的含組氨酸肽被用作參比標準來驗證insilico計算的肽特性。來自合成肽庫的信息被用于幫助鑒定質譜法肽峰的性質,由此任選地避免了從頭測序。所述鑒定將基于把存儲于insilico肽庫中的可用信息與測量的特性如HPLC保留時間、等電點以及質譜m/z值進行比較。根據(jù)本發(fā)明的方法,考慮不同類型的物理化學數(shù)據(jù),當與數(shù)據(jù)庫比較時,其與含組氨酸肽的m/z數(shù)據(jù)相結合任選地允許進一步明確鑒定親本蛋白質。設想的一種類型的數(shù)據(jù)是這樣的數(shù)據(jù),其從序列信息預測和/或其可在肽純化步驟和MS過程中測量,例如等電點、在不同pH值下的凈電荷、在RPHPLC上的假定(hypothetical)保留時間、在214和280nm處的UV吸收、在給定pH和鹽濃度下從離子交換柱上洗脫的傾向、疏水性、親水性??衫缤ㄟ^Bull和Breese.(1974)Arch.Biochem.Biophys.161,665-670的算法計算疏水性??衫缭趙ww.expasy.ch/tools/pi_tool.html上計算等電點。例如根據(jù)Krohkin等(2004)Mol.Cell.Proteomics3,908-919的方法預測在反相柱上的保留時間。另外地或可選地,在本發(fā)明鑒定方法情景中使用的數(shù)據(jù)庫包含在附加實驗中獲得的且不是直接來源于肽純化的數(shù)據(jù),例如但不限于關于以下的數(shù)據(jù)溶解度、在水/有機溶劑雙相體系中的分配、用于檢測蛋白質反應基團(OH、NH2、SH)的測定結果、電離勢、偶極矩、氫鍵結合能力(hydrogenbondingcapacity)以及氣相中的離子淌度(ionmobility)。因此,本發(fā)明的方法,其提供基于與“注釋的”含組氨酸肽數(shù)據(jù)庫(即包括可用于鑒定目的的額外物理化學性質)進行比較的鑒定,允許以增加的準確度鑒定相應的親本蛋白質。任選地和另外地或可選地,除上述額外物理化學參數(shù)以外,在本發(fā)明情景中使用的含組氨酸肽數(shù)據(jù)庫進一步包含關于親本蛋白質表達模式等的信息,其進一步有助于鑒定親本蛋白質。在親本蛋白質除保守肽序列(conservedpeptidesequence)之外氨基酸序列不同,而所述保守肽序列碰巧是蛋白質中唯一的含組氨酸的序列的情況下,在注釋的含組氨酸肽數(shù)據(jù)庫中這些肽的相應記錄會顯示具有相同的質量和相同的物理化學性質的含組氨酸肽。盡管如此,帶有關于生物體發(fā)育期間親本蛋白質可能的差異表達或組織特異性表達的細節(jié)的這些記錄的進一步注釋可允許將正確的親本蛋白質指認到分離的含組氨酸肽。實際上,取決于蛋白質樣品的來源,有可能從不同的可能親本蛋白質中選擇表達與樣品的表達匹配的親本蛋白質。在本發(fā)明的鑒定方法中,對于每種肽均測定質量并與注釋的含組氨酸肽數(shù)據(jù)庫進行比較。因此,選擇那些計算質量相應于分離的肽的測量質量的數(shù)據(jù)庫記錄。取決于MS裝置以及樣品類型,采用單一同位素質量或平均質量進行比較。當使用單一同位素質量時,通常0.1質量單位的測量誤差被包括在內來從數(shù)據(jù)庫中選擇記錄。當使用平均質量時,通常1Da的測量誤差被包括在內來從數(shù)據(jù)庫中選擇記錄。當測量的質量僅與數(shù)據(jù)庫中的一條記錄相應時,親本蛋白質就立刻得以鑒定。根據(jù)具體的實施方案,當測量的質量相應于數(shù)據(jù)庫中多于一條的記錄時,所有這些記錄都被選擇作為子集?;趯⒎蛛x的肽的物理化學參數(shù)與數(shù)據(jù)庫中記錄子集的那些物理化學參數(shù)進行比較,進行進一步的鑒定。通常,首先考慮那些能直接來源于肽純化步驟的物理化學參數(shù)。根據(jù)一個具體實施方案,考慮至少3種物理化學性質并基于“最佳擬合(bestfit)”分析進行鑒定。當僅考慮一個額外參數(shù)時,該參數(shù)的選擇在很大程度上取決于在具有相同質量的含組氨酸數(shù)據(jù)庫中的肽的組中該參數(shù)的鑒別力。例如,如果質量相應于實驗測定的肽質量的含組氨酸肽數(shù)據(jù)庫中的不同的肽具有不同數(shù)量的芳香氨基酸,則在214和280nm處的UV吸收可用作選擇標準。然而,應當指出通過利用本發(fā)明的芳基硼酸標簽化或標記試劑,芳環(huán)被摻入每個含組氨酸的肽中。在另一實例中,如果數(shù)據(jù)庫中具有相同m/z比的一組3種肽,這些肽全都具有相同的凈電荷,但電荷分布不同(如一種肽不具有帶電荷的氨基酸、另一種肽具有一個Arg和一個Asp以及再一種肽具有兩個Arg和兩個Asp),則離子交換行為可用作標準將所述分離的肽與該數(shù)據(jù)庫子集中一種特定的肽關聯(lián)起來。本發(fā)明的另一方面提供了用于分析單個蛋白質樣品或同時鑒定和/或定量不同樣品中的蛋白質的工具和裝置。如以上詳述的那樣,本發(fā)明方法的具體實施方案涉及通過質譜法分析分離的、標記的多肽或肽的相對出現(xiàn),然后鑒定肽。因此,用于實施本發(fā)明方法的裝置包含一臺或多臺質譜儀。通過將分析物電離成氣相進行譜學質量測量。典型的質譜儀由3個組件組成從目的分子產生離子的離子源,測定離子化分子質荷比(m/z)的質量分析器以及對每一單獨m/z值進行記錄并計數(shù)離子數(shù)目的探測器。MS譜中的每一特征都通過兩個值來限定—m/z和到達儀器探測器的離子數(shù)目的測量值。通常通過電噴霧離子化(ESI)或基質輔助激光解吸/離子化(MALDI)實施用于質譜儀中質量分析的蛋白質或肽的離子化。在ESI過程中,分析物被直接電離出溶液,因此ESI通常直接偶聯(lián)到液相色譜分離工具(如反相HPLC)。MALDI通過激光脈沖汽化與小有機分子混合的干樣品,所述小有機分子如肉桂酸吸收激光能量以使該過程更加有效。質量分析器是質譜儀的關鍵組件;重要的參數(shù)是靈敏度、分辨率和質量準確度。目前有5種基本類型的質量分析器在蛋白質組學中使用。這些包括離子阱、飛行時間(TOF)、四極桿(quadrupole)、Orbitrap和傅里葉變換離子回旋(FTICR-MS)分析器。串聯(lián)MS或MS/MS可在時間上(intime)(離子阱)和空間上(inplace)(所有混合型的儀器如LTQ-FTICR、LTQ-Orbitrap、Q-TOF、TOF-TOF、三重四極桿(triplequad)和混合型三重四極桿/線性離子阱(QTRAP))進行。使用本發(fā)明的標簽化方法進行蛋白質樣品的分析任選地包括通過MS/MS進一步鑒定所產生的肽??蛇x地,可使用基于與數(shù)據(jù)庫進行比較的本發(fā)明的鑒定方法以避免MS/MS分析。在本發(fā)明的方法涉及分析同位素標記的肽的合并混合物的情況下,對于已經從分離的標記的肽混合物分離的一種這樣標記的肽,在質譜儀上產生的譜含有一組峰,所述一組峰具有不同同位素標記物組分之間的特征質量差,其中所述肽已經用所述不同同位素標記物組分差異化標記(如果其中所述多肽所存在的蛋白質根本不在樣品之一中表達,則峰的數(shù)目會更少)??蛇x地,在用于差異化標記的標記物組分是同量異序的情況下,在MS上產生單峰。通過在MS/MS中對該峰進行CID,具有相同質量的相應的肽被進一步分級以釋放出同量異序標記物組分的報告基團用于鑒定相應的差異化標記的肽的存在。基于多肽的Mr、氨基酸組成或氨基酸序列,測定單個肽的身份。適合于實施本發(fā)明方法的裝置任選地包含或連接于一個或多個適合的分離設備,例如電泳設備,色譜設備,例如但不限于毛細管電泳(CE)設備,反相(RP)-HPLC設備和/或兩維液相色譜設備...等。如上詳述,本發(fā)明的方法任選地包含樣品的預處理,其可在包含一種或多種以上列出的樣品制備方法的預處理步驟中進行。因此,適合于本發(fā)明方法的裝置任選地包含樣品制備單元,其包含一個或多個適合于樣品制備的裝置如超聲處理裝置、色譜系統(tǒng)(親和、凝膠過濾)、超濾單元、離心機、帶有用于緩沖液、酶、洗滌劑等的遞送系統(tǒng)的控溫反應瓶。本發(fā)明該方面的一個具體實施方案涉及一種用于蛋白質樣品的單路或多路分析的裝置(100),包含一個或多個樣品源(101)、帶有相應的標簽化/標記物源(104)的標簽化/標記單元(103)、蛋白質斷裂單元(105)、親和分離單元(106)、肽分離單元(107)、質譜儀單元(109)以及控制電路和數(shù)據(jù)分析單元(110)。在具體的實施方案中,分離單元(107)包含兩個連續(xù)相連的分離系統(tǒng)(1107)和(2107),其中第一分離系統(tǒng)(1107)是例如2D凝膠電泳系統(tǒng)或陽離子交換層析系統(tǒng)和分離系統(tǒng),以及第二分離系統(tǒng)(2107)通常是HPLC反相系統(tǒng)。質譜儀元件(109)是分離同位素形式的MS或MS/MS譜儀。從頭使用MS/MS使得能夠從頭測序肽并在使用的情況下使得能差異化檢測同量異序標記物的報告基團??墒褂?種根本上不同的儀器進行MS/MS分析。在第一種類型的儀器中,其中進行MS/MS分析的離子阱是進行MS的同一離子阱,但MS/MS是按時間進行(阱被填充,除目的離子之外的所有離子都被噴射出來并進行CID和掃描碎片離子。其他碎裂肽的適合方法包括CAD(碰撞活化解離)、ETD(電子轉移解離)、ECD(電子俘獲解離)、IRMPD(紅外多光子解離)和BIRD(黑體紅外輻射解離)。第二種類型的儀器—混合型儀器(三重四極桿、q-tof、ltq-ftms、ltq-orbitrap),在空間上分離MS/MS。例如在第一質量分析器中進行母體選擇并在第二質量分析器中掃描碎片。所述裝置可進一步包含多個任選的部件,例如其中例如發(fā)生樣品溶解和免疫耗竭的樣品制備單元(102),或帶有相應的修飾試劑源的額外蛋白質/肽修飾單元。并入本發(fā)明裝置中作為質譜儀單元和分離單元的適合單元描述如上。所述裝置可進一步包含其中測定純化的肽的一種或多種物理化學性質的分析單元(108)。將關于肽的實驗質量和在純化過程中獲得的以及任選地在分析單元中獲得的該肽的物理化學性質的數(shù)據(jù)與C-端肽的注釋數(shù)據(jù)庫(112)進行比較(圖5中由點線表示)。應當理解,本發(fā)明的標簽化和標記試劑以及方法可用于蛋白質組學、蛋白質表達分布分析、生物標志物發(fā)現(xiàn)以及靶點發(fā)現(xiàn)。對于本領域技術人員而言,體現(xiàn)本發(fā)明的系統(tǒng)和方法的其他布置是顯而易見的。應當明白,對于根據(jù)本發(fā)明的裝置,盡管在此業(yè)已討論了優(yōu)選的實施方案、具體的結構和構造以及材料,但是在形式和細節(jié)上可以進行各種改變或變化而不背離本發(fā)明的范圍和精神。實施例實施例1硼酸修飾的生物素的合成asNHS-生物素+m-APBA在室溫下將500μl的10mMsNHS-生物素(磺基-N-羥基琥珀酰亞胺基-生物素)溶液、25μl的10mMm-APBA(間氨基苯基硼酸)溶液、60μl的10xPBS儲液(stocksolution)以及60μl水混合兩小時。反應方案圖解說明于圖6中。圖7顯示了反應物磺基-NHS-生物素(頂部)和間氨基苯基硼酸(中間)以及包含反應產物(即具有式(II)的化合物)的攪拌后未純化的反應混合物(底部)的IR光譜。底部的光譜顯示處于約1685cm-1(圖7中箭頭所示)的額外振動,其可歸因于生物素和間氨基苯基硼酸之間形成的酰胺鍵。bEDC介導的生物素+m-APBA偶聯(lián)通過EDC介導的偶聯(lián)進行生物素與m-APBA的反應,其根據(jù)廠商(PierceChemical,IL,USA)說明書進行。反應方案示于圖8中。實施例2將組氨酸-寡肽偶聯(lián)至硼酸修飾的生物素將500μl的實施例1中獲得的硼酸修飾的生物素10mM溶液與250μl的10mMFITC-Ahx-His6(異硫氰酸熒光素-6-氨基己酸-六組氨酸(Fluoresceinisothiocyanate-6-Aminohexacarboxylicacid-hexahistidine))溶液、25μl的10mM[Cu(OH)TMEDA]2Cl2溶液、90μl的10xPBS儲液以及35μl水混合。在氧氣氛中攪拌混合物過夜。反應方案圖解說明于圖9中。雖然該圖顯示了包含六組氨酸的肽,但根據(jù)本發(fā)明對于通過與芳基硼基團反應進行標簽化,并不需要存在多個組氨酸。權利要求1.共價連接親和標簽至含組氨酸蛋白質的方法,該方法包括在銅催化劑存在下將蛋白質與具有通式結構(I)的化合物接觸的步驟其中A是親和標簽,B是硼和L是任選的連接體。2.根據(jù)權利要求1的方法,其中所述化合物在芳環(huán)進一步被鹵素、烷氧基或烷基取代。3.根據(jù)權利要求1的方法,其中親和標簽A為生物素。4.根據(jù)權利要求1的方法,其中所述化合物相應于具有式(II)的分子5.根據(jù)權利要求1的方法,其中所述化合物進一步包含標記物。6.根據(jù)權利要求5的方法,其中所述標記物由一個或多個重原子同位素組成。7.根據(jù)權利要求1的方法,其中所述化合物相應于具有式(III)的分子8.用于從蛋白質樣品或合并的蛋白質樣品的混合物中分離含組氨酸肽的方法,包括步驟a)用斷裂劑將蛋白質樣品中完整的蛋白質斷裂成肽,b)在銅催化劑存在下將蛋白質樣品與具有結構通式(I)的芳基硼標簽化試劑接觸,其中A是親和標簽,B是硼和L是任選的連接體,從而使芳基硼標簽化試劑與存在于肽中的組氨酸,如果存在的話,得以反應,c)通過所述親和標簽使標簽化的肽與親和基質結合,和d)從親和基質上除去結合的標簽化的肽以獲得分離的含組氨酸肽。9.根據(jù)權利要求8的方法,其中在步驟a)之前進行步驟b),將芳基硼標簽化試劑與樣品中未斷裂的蛋白質接觸,使存在于蛋白質中的組氨酸,如果存在的話,標簽化。10.用于同時分析在不同樣品中一種或多種含組氨酸的蛋白質的出現(xiàn)的方法,其包括步驟a)任選地,用斷裂劑將樣品中的完整的蛋白質斷裂成肽,b)在銅催化劑存在下將每種樣品與一組芳基硼酸標記試劑中的一種接觸,其中硼酸標記試劑具有結構通式(I),其中A是親和標簽,B是硼和L是任選的連接體,并且進一步包含標記物,其是同位素或同量異序標記物,使得每種標記試劑的結構基本上相同,c)合并不同的樣品以獲得多肽或肽樣品混合物,d)通過所述親和標簽從多肽或肽樣品混合物中選擇性分離標記的多肽或肽,和e)通過質譜法分析分離的標記的多肽或肽的出現(xiàn)。11.用于鑒定蛋白質樣品中蛋白質的存在的方法,包括步驟a)在銅催化劑存在下通過將蛋白質與具有通式結構(I)的標簽化試劑接觸,修飾蛋白質樣品中的蛋白質的組氨酸其中A是親和標簽,B是硼和L是任選的連接體,b)用斷裂劑將蛋白質樣品中的蛋白質斷裂成肽,c)通過所述親和標簽從所述肽中分離含組氨酸肽,d)通過一個或多個肽純化步驟純化分離的含組氨酸肽,從而獲得純化的含組氨酸肽,e)測定或計算純化的含組氨酸肽除質量之外的至少一種物理化學性質,f)在MS上測定分離和純化的含組氨酸肽的質量,和g)對于每種分離和純化的含組氨酸肽,將所述質量和所述至少一種其他物理化學性質與包含通過所述斷裂劑產生的所有含組氨酸肽的質量和一種或多種物理化學性質的數(shù)據(jù)庫進行比較,從而鑒定純化的含組氨酸肽的相應親本蛋白質,由此鑒定蛋白質樣品中親本蛋白質的存在。12.權利要求11的方法,其中步驟(g)包括對于每種分離和純化的含組氨酸肽,鑒定質量相應于該分離和純化的含組氨酸肽的質量的數(shù)據(jù)庫中的一種或多種含組氨酸肽,以及當對于一種分離和純化的含組氨酸肽鑒定出多于一種的肽時,將該分離和純化的含組氨酸肽的至少一種其他物理化學參數(shù)和數(shù)據(jù)庫中被鑒定的多于一種的肽的那些進行比較。13.權利要求12的方法,其中蛋白質樣品來自物種以及數(shù)據(jù)庫包含通過所述斷裂劑產生的該物種的所有含組氨酸肽的質量和至少一種其他物理化學性質。14.根據(jù)權利要求11的方法,其中在兩種或更多種樣品中同時鑒定蛋白質,其中該方法包括-在步驟(a)中用一組包含差異化標記物組分的標簽化試劑中的一種對每種樣品進行修飾,-在步驟(d)之前合并兩種或更多種樣品的附加的步驟,和-在步驟(f)之前,鑒定標記物的性質從而鑒定肽所來源的樣品的步驟。15.根據(jù)權利要求11的方法,其中在所述一個或多個肽純化步驟過程中測定所述至少一種物理化學性質。16.根據(jù)權利要求11的方法,其中所述至少一種物理化學性質選自pI、反相色譜過程中的保留時間和在280和214nm處的UV吸收比值。17.用于標簽化蛋白質或肽中的組氨酸的化合物,該化合物具有通式結構(I)其中A是親和標簽,選自生物素或生物素衍生的分子、麥芽糖、凝集素、結合到半抗原特異性抗體的半抗原和谷胱甘肽,B是硼和L是任選的連接體。18.根據(jù)權利要求17的化合物,其中所述芳環(huán)進一步被鹵素、烷氧基或烷基取代。19.根據(jù)權利要求17的化合物,其中所述親和標簽A是生物素。20.根據(jù)權利要求17的化合物,具有式(II)21.根據(jù)權利要求17的化合物,進一步包含標記組分。22.根據(jù)權利要求21的化合物,其中所述標記組分由一個或多個重同位素組成。23.根據(jù)權利要求22的化合物,具有式(III)其中生物素基團和芳基硼基團之間連接體中的一個或多個碳原子和/或一個或多個氫原子分別被13C或氘取代。24.一組用于多肽質譜分析的標記試劑,其中組中的所有標記試劑都具有相同的根據(jù)權利要求17的化學結構,以及其中組中的每種標記試劑都具有獨特的同位素標記物組分。25.一組試劑,其中所述組的各個標記試劑具有根據(jù)式(III)的結構其中生物素基團和芳基硼基團之間連接體中的一個或多個碳原子和/或一個或多個氫原子分別被13C或氘取代。26.權利要求17的化合物或權利要求24的標記試劑組用于蛋白質標記的用途。27.通過斷裂劑以insilico方式斷裂的生物體蛋白質的含組氨酸肽的數(shù)據(jù)庫,其中每種肽以以下來表征-蛋白質標識符,-其氨基酸組成,-其質量,其中所述質量為未修飾的肽的質量或修飾或標記后的肽的質量。28.根據(jù)權利要求27的數(shù)據(jù)庫,其中具有不同序列和相同質量的肽進一步通過所述肽的除其質量之外的至少一種物理化學參數(shù)來表征。29.根據(jù)權利要求27的數(shù)據(jù)庫,其中斷裂劑為胰蛋白酶。30.根據(jù)權利要求27的數(shù)據(jù)庫用于鑒定蛋白質的用途。31.用于蛋白質樣品多路標記和分析的裝置(100),包含至少一個樣品源(101)、標記單元(103)和相應的芳基硼標記試劑源(104)、蛋白質斷裂單元(105)、親和分離單元(106)、分離單元(107)、質譜儀單元(109)和與以insilico方式斷裂的含組氨酸肽的注釋數(shù)據(jù)庫(112)連接的數(shù)據(jù)分析單元(110)。32.根據(jù)權利要求31的裝置,進一步包含樣品制備單元(102)和/或用于測定在分離單元(107)中純化的肽的物理化學性質的分析單元(108)。全文摘要本發(fā)明涉及用芳基硼酸標簽化試劑標簽化多肽中的組氨酸。本發(fā)明進一步描述了通過從一種蛋白質樣品或蛋白質樣品庫中分離和鑒定含組氨酸肽從而鑒定樣品中蛋白質的方法和裝置。本發(fā)明進一步描述了來自insilico斷裂的蛋白質的含組氨酸肽的數(shù)據(jù)庫以及它們在蛋白質鑒定中的用途。文檔編號C07F5/00GK101535316SQ200780041206公開日2009年9月16日申請日期2007年10月26日優(yōu)先權日2006年11月6日發(fā)明者R·霍夫曼,H·休梅爾,V·韋勒申請人:皇家飛利浦電子股份有限公司