專利名稱:涉及乳癌診斷的材料和方法
技術領域:
本發(fā)明涉及與乳癌診斷有關的材料和方法。具體的說,本發(fā)明涉及“低置信度(low confidence)”腫瘤的診斷和/或分類,所述“低置信度”腫瘤與它們的“高置信度”對應物相比,展示顯著更差的總體存活和更短時間的遠程轉(zhuǎn)移。
背景技術:
人們對基因表達數(shù)據(jù)在生物學分類中的用途存在濃厚興趣,特別是腫瘤學和醫(yī)學領域。這種方法的一個令人興奮的方面是它確定癌的臨床相關亞型的能力,而這些亞型先前逃過了比較傳統(tǒng)的光學顯微鏡術方法(15,16)。盡管具有這種潛力,然而在基因表達數(shù)據(jù)用于臨床診斷成為現(xiàn)實之前,還必需解決許多問題。例如,需要提供這樣的算法,它除了能進行正確的分類,還能精確的確定預測的置信度。如果分類影響后續(xù)治療過程的話,那么這將是特別重要的--一旦獲得了這些信息,主治醫(yī)師就能夠用具體干預的潛在發(fā)病率權衡預測的置信度,從而做出明智的臨床選擇。
將乳瘤分類為雌激素受體陽性(ER+)和陰性(ER-)亞型是乳癌治療中一項關鍵的鑒別項目。ER-腫瘤通常比它們的ER+對應物在臨床上更具攻擊性,而ER+腫瘤通常使用抗激素療法進行治療,諸如三苯氧胺(1)。目前,通常使用ER抗體通過免疫組化(IHC)或免疫印跡來確定腫瘤的ER狀態(tài)。然而,這種技術是有缺陷的,例如,它可能不能檢測出在ER中包含基因改變從而使其沒有活性或組成性有活性的腫瘤(2)。因此,至關重要的是要開發(fā)出更加精確的方法學來改進乳瘤的ER亞型分類,從而隨后可以采用恰當?shù)寞煼?。許多小組最近發(fā)表了利用表達譜(expression profile)數(shù)據(jù)將乳癌分為ER+和ER-類別的報告。在一項研究中發(fā)現(xiàn)ER+和ER-腫瘤的表達譜“顯著不同”,支持了先前關于ER+和ER-腫瘤可能源自不同乳房上皮細胞類型的理論(3)。
另一個小組報告了受監(jiān)督學習方法學(supervised learningmethodology)在基于表達數(shù)據(jù)根據(jù)ER亞型將乳瘤分類中的用途(4)。這些研究中的一項共同觀察結(jié)果是,盡管大多數(shù)乳瘤常常能夠高度確信的精確分為ER+和ER-亞型,然而始終存在一些“低置信度”樣品,它們或是被錯誤分類或是預測的統(tǒng)計學“置信度”處于邊緣。盡管有人提出這些“低置信度”樣品可能反映了群體異質(zhì)性的影響(4),但是至今沒有徹底探究關于這些“低置信度”樣品與它們的“高置信度”對應物可能在生物學上有所不同的假說。
發(fā)明概述本發(fā)明人考慮了“低置信度”樣品可能具有不同生物學特征的可能性。為了評估這種可能性,他們使用內(nèi)部生成的乳癌表達數(shù)據(jù)集進行了分類分析,并且確定了與“高置信度”腫瘤相比,“低置信度”腫瘤在對ER亞型鑒別重要的多種基因的表達中展示普遍擾動(widespread perturbation)。盡管“高”和“低”置信度腫瘤之間的區(qū)別最初源自純粹的計算手段,然而其在臨床上意義重大,因為與它們的“高置信度”對應物相比,“低置信度”腫瘤展示顯著更差的總體存活(p=0.0003)和更短時間的遠程轉(zhuǎn)移(p=0.0001)。這種區(qū)別是目前用于檢測ER的常規(guī)免疫組化策略所不能鑒別的。
發(fā)明人還令人驚訝的確定了ERBB2受體的高表達水平與具有“低置信度”預測的乳瘤顯著相關,并且在由不同患者群/陣列技術生成并使用不同計算方法分析的三個獨立起源的乳癌表達數(shù)據(jù)集間確認了這種關聯(lián)。在“低置信度”腫瘤中觀察到的ERBB2表達與ER鑒別基因的普遍擾動之間的關聯(lián)是誘人的,因為已知ERBB2活性在乳瘤和細胞系中都有助于抗激素療法耐受的形成(5,6)且抑制ER的轉(zhuǎn)錄活性(5,7)。
然而,盡管對于鑒別ER亞型是重要的,發(fā)明人發(fā)現(xiàn)這些“擾動(perturbed)”基因中的顯著比例并非已知是雌激素響應性的,而且使用最近描述的生物信息學算法(DEREF)還證明了這些基因在它們的啟動子中不含潛在的雌激素響應元件(ERE)。這些結(jié)果說明,除了目前關于ERBB2主要通過破壞ER轉(zhuǎn)錄活性來發(fā)揮作用的模型以外,ERBB2對乳瘤的作用中的顯著部分可能還牽涉ER不依賴性基因激活機制,它們可能共同促成了“低置信度”腫瘤亞型的臨床攻擊性本質(zhì)。
由此,本發(fā)明人確定了可用于將乳瘤樣品分類為“低置信度”腫瘤或“高置信度”腫瘤的幾組基因(“多基因分類物(multigeneclassifier)”)。發(fā)明人首次確定了“低置信度”腫瘤組在預后和治療方面具有重要的醫(yī)學意義。
對于ER+和ER-中的每一個,發(fā)明人都提供了在“高置信度”和“低置信度”腫瘤之間具有不同表達水平的許多基因。表2中確定了這些基因。這些擾動基因的表達水平可用于鑒別高置信度和低置信度腫瘤。表S4中確定了在低置信度腫瘤與高置信度腫瘤之間具有不同表達水平的另一組基因。不管腫瘤的ER狀態(tài),表A1-A4中確定了在低置信度腫瘤和高置信度腫瘤之間具有不同表達水平的其它幾組基因。下面的描述將利用術語“表達譜(expression profile)”,它指多基因分類物中的一組基因在樣品中的表達水平。
表達水平通常以數(shù)值表示。因此,表達譜通常包括一組數(shù)值,每個數(shù)值代表多基因分類物中一種基因的表達水平。下面的描述將利用術語“多種基因”。該術語指多基因分類物的基因子集。子集可能對應于多基因分類物的一個亞群,例如ER+低置信度乳瘤中的上調(diào)基因。多種基因的內(nèi)容可能隨多基因分類物的不同而變化,而且對于特定的多基因分類物,又隨本發(fā)明的不同方面而變化。它可以指特定多基因分類物的所有基因或其子集。
因此,最一般的說,本發(fā)明提供了使用多基因分類物將乳瘤樣品分類為高或低置信度樣品的新型診斷方法和檢驗方法。本發(fā)明還鑒定了用于乳瘤樣品分類的多基因分類物和包含多基因分類物或其多種基因的裝置。表S4、2、A1、A2、A3和A4顯示了本發(fā)明的各個方面所使用的多基因分類物。
表S4列出了在ER+和ER-腫瘤每一個中在整體規(guī)模進行檢驗時在高置信度和低置信度腫瘤之間展示顯著不同的轉(zhuǎn)錄調(diào)節(jié)的基因。
在第一個方面,本發(fā)明提供了產(chǎn)生對于乳瘤樣品的核酸表達譜的方法,包括下列步驟(a)由所述乳瘤樣品分離表達產(chǎn)物;(b)確定選自表S4的多種基因的表達水平;并(c)由表達水平產(chǎn)生對于所述乳瘤樣品的表達譜。
腫瘤樣品可以是高置信度的和/或低置信度的。腫瘤樣品可以是ER+高置信度乳瘤樣品和/或ER+低置信度乳瘤樣品和/或ER-高置信度乳瘤樣品和/或ER-低置信度乳瘤樣品。優(yōu)選的是,確定了乳瘤樣品的ER狀態(tài)。優(yōu)選在上述方法的步驟(a)之前確定了乳瘤樣品的ER狀態(tài)??梢匀缥覀児餐瑧叶礇Q的申請PCT/GB03/000755中所述通過制作基因表達譜來確定乳瘤樣品的ER狀態(tài)。
表S4分子集顯示基因。子集(a)中是在ER+高置信度樣品和ER+低置信度腫瘤中顯示顯著不同表達的基因。表S4(a)的第一個部分是與ER+高置信度腫瘤相比在ER+低置信度腫瘤中上調(diào)的一組基因(表S4(a)“上調(diào)的”)。表S4(a)的第二個部分顯示了與ER+高置信度腫瘤相比在ER+低置信度腫瘤中下調(diào)的一組基因(表S4(a)“下調(diào)的”)。
表S4的部分(b)中是與ER-高置信度腫瘤相比在ER-低置信度樣品中顯示表達上調(diào)的基因。
多基因分類物中單獨基因的表達譜在獨立樣品之間將有略微差異。然而,發(fā)明人認識到,多基因分類物的基因表達譜提供了在高置信度和低置信度腫瘤之間不同的、可用于鑒別的特征性表達模式。
通過由許多已知的高和低置信度樣品生成許多多基因分類物表達譜,有可能生成高置信度和低置信度這兩類樣品的(表達)譜庫。表達譜的數(shù)目越多,生成在診斷測定法中可用作對照的可靠特征性表達譜標準(即包括統(tǒng)計差異)越容易。由此,標準譜可以是衍生自多個個體表達譜且在統(tǒng)計差異內(nèi)從而代表高置信度或低置信度樣品譜的表達譜。
由此,依照本發(fā)明第一方面的方法可以包括以下步驟(a)由乳瘤樣品分離表達產(chǎn)物;(b)將所述表達產(chǎn)物接觸多種結(jié)合成員,它們能夠與選自表S4的多種基因的表達產(chǎn)物特異且獨立結(jié)合,從而由所述多種基因的表達水平產(chǎn)生腫瘤樣品的第一個表達譜;并(c)將該表達譜與高置信度腫瘤和/或低置信度腫瘤的特征性表達譜進行比較。
為了生成所述表達譜,需要評估多種基因的表達水平。可以絕對評估表達水平,即測量表達產(chǎn)物的數(shù)量。也可以相對評估表達水平,即將表達與一些其它因素進行比較,諸如但不限于樣品中另一種基因的表達,或是一組基因(優(yōu)選所述方法中所使用的多基因分類物未包含的一組基因)的表達平均值/中值/模式,或者在一組樣品間進行比較。例如,可以作為在樣品中多種基因的平均表達的倍數(shù)或分數(shù)來測量基因表達。表達優(yōu)選表示為正數(shù)或負數(shù),以指示表達相對于平均值的升高或降低。
優(yōu)選使用統(tǒng)計和/或概率模型來測量預測強度。所述模型包括加權表決(Weighted Voting,WV)和/或支持矢量系統(tǒng)(Support VectorMachines,SVM)??梢允褂眉訖啾頉Q和排除一項交叉驗證(Leave OneOut Cross Validation,LOOCV)來測定預測強度(見實施例)。在使用雙色cDNA微陣列進行計算時,例如用于評估Stanford數(shù)據(jù)集的微陣列,低置信度可能意味著預測強度值(magnitude)小于或等于0.4。優(yōu)選的是,低置信度腫瘤的預測強度的范圍是≥-0.4且優(yōu)選≤0.4。對于低置信度腫瘤,預測強度可以是≥-0.35且優(yōu)選≤0.35。對于低置信度腫瘤,預測強度可以是≥-0.3且優(yōu)選≤0.3。
優(yōu)選的是,高置信度樣品的預測強度值大于0.4。優(yōu)選的是,高置信度腫瘤的預測強度≥0.4且優(yōu)選≤-0.4。
然而,高/低置信度腫瘤預測強度的截止值可能隨所用數(shù)據(jù)集和/或陣列技術而變化。例如,在使用雙色寡核苷酸微陣列評估的Rosetta數(shù)據(jù)集中,高置信度腫瘤指預測強度值大于0.7的腫瘤。優(yōu)選的是,高置信度樣品的預測強度值大于0.7。因此,對于低置信度腫瘤,預測強度可以是≥-0.7且優(yōu)選≤0.7。對于低置信度腫瘤,預測強度可以是≥-0.6且優(yōu)選≤0.6。對于低置信度腫瘤,預測強度可以是≥-0.5且優(yōu)選≤0.5。更優(yōu)選的是,低置信度腫瘤的預測強度的范圍是≥-0.4且優(yōu)選≤0.4。
在Stanford和Rosetta這兩個數(shù)據(jù)集中比較在乳瘤群中的預測強度時,高和低置信度腫瘤之間的分界線可以確定為這樣的點,即此時數(shù)據(jù)集中的腫瘤預測強度開始在質(zhì)量上小于這群腫瘤的大多數(shù)預測強度。盡管每個數(shù)據(jù)集是獨立分析的,然而獨立的Rosetta和Stanford數(shù)據(jù)集之間低置信度腫瘤的比例是相似的。
因此,低置信度腫瘤可能落入乳瘤群體的ER預測強度的最低的20%內(nèi),更優(yōu)選的是ER預測強度的最低的15-19%內(nèi)。優(yōu)選的是,乳瘤群包含至少25個腫瘤的最小數(shù)據(jù)集,更優(yōu)選至少25-30個腫瘤,更優(yōu)選至少30個腫瘤,更優(yōu)選至少50個腫瘤,更優(yōu)選至少80個腫瘤,最優(yōu)選大約80-100個腫瘤。
表達產(chǎn)物優(yōu)選是mRNA或由所述mRNA制備的cDNA,或是cDNA?;蛘?,表達產(chǎn)物可以是表達的多肽。表達譜的鑒定優(yōu)選使用這樣的結(jié)合成員來進行,即它能夠特異鑒定表S4中確定的多種基因的表達產(chǎn)物。例如,如果表達產(chǎn)物是cDNA,那么結(jié)合成員將是能夠與cDNA特異雜交的核酸探針。
優(yōu)選的是,表達產(chǎn)物或結(jié)合成員二者之一將被標記,從而可以檢測兩種成分的結(jié)合。優(yōu)選選擇這樣的標記物,即能夠檢測表達產(chǎn)物的相對水平/數(shù)量和/或絕對水平/數(shù)量,從而根據(jù)多基因分類物中個體基因的上調(diào)或下調(diào)來確定表達譜。一般而言,結(jié)合成員應當能夠不僅檢測表達產(chǎn)物的存在與否,而且能檢測它的相對豐度(即可利用產(chǎn)物的量)。
然而,最近出現(xiàn)了利用“無標記物”技術來進行定量的許多新技術,例如由Xagros開發(fā)的技術。表達產(chǎn)物和/或結(jié)合成員可以是未經(jīng)標記的。可以通過測量由兩種引物結(jié)合到靶表達產(chǎn)物上并通過聚合酶延伸引起的電阻變化來檢測和/或定量結(jié)合成員的結(jié)合。
核酸表達譜的確定可以在某些先前設定的參數(shù)內(nèi)進行,以避免假陽性和假陰性??梢允褂糜嬎銠C來確定核酸表達譜。
然后,如上所述,計算機能夠提供低置信度或高置信度乳房細胞的特征性表達譜標準。然后,可以將確定的表達譜用于將乳房組織樣品分類,作為診斷的一種方式。
由此,在第二個方面,本發(fā)明提供了包含高置信度和/或低置信度乳瘤樣品的多個基因表達譜的表達譜數(shù)據(jù)庫,其中每個基因表達譜都源自選自表S4的多種基因,且數(shù)據(jù)庫以可獲取的(retrievably)方式保存在數(shù)據(jù)載體上。優(yōu)選的是,構(gòu)成數(shù)據(jù)庫的表達譜是通過第一個方面的方法生成的。
憑借多基因分類物的知識,有可能設計出用于確定特定測試樣品的基因表達模式或譜的許多方法。例如,可以使用標準分子生物學技術由樣品分離所表達的核酸(RNA、mRNA)。然后,可以在PCR中使用對所表達序列特異的核酸引物擴增與來自表S4中給出的基因鑒別物(genetic identifier)的所述多種基因?qū)乃磉_核酸序列。如果分離的所表達核酸是mRNA,那么可以使用標準方法將它轉(zhuǎn)變成cDNA從而用于PCR。
引物可以方便的將標記物導入所擴增的核酸,從而可以對它進行鑒定。理想的是,標記物能夠指示擴增事件后存在的核酸序列的相對數(shù)量或比例,它反映了原始測試樣品中存在的相對數(shù)量或比例。例如,如果標記物是熒光或放射性,那么信號強度將指示所表達序列的相對數(shù)量/比例或甚至絕對數(shù)量。每一種基因鑒別物的表達產(chǎn)物的相對數(shù)量或比例將構(gòu)成測試樣品的特定表達譜。通過將它與已知譜或標準表達譜進行比較,有可能確定測試樣品是來自正常乳房組織還是惡性乳房組織。如上所述,引物和/或擴增核酸可以是未標記的。
或者,可以使用能夠與基因鑒別物的表達產(chǎn)物(例如mRNA、相應的cDNA或表達的多肽)相結(jié)合的結(jié)合成員來確定表達模式或譜。通過標記表達產(chǎn)物或結(jié)合成員,有可能鑒定表達產(chǎn)物的相對數(shù)量或比例,并確定基因鑒別物的表達譜。由此,可以通過將表達譜與已知譜或標準譜進行比較而將樣品分類為高置信度或低置信度。結(jié)合成員可以是互補核酸序列或特異抗體。下文將更加詳細的討論使用這些結(jié)合成員的微陣列檢驗。
在第三個方面,本發(fā)明提供了用于將乳瘤樣品分類為低置信度或高置信度的方法,該方法包括提供所述乳瘤樣品的表達譜,其中表達譜包含來自表S4的多種基因的表達水平,并根據(jù)該表達譜將腫瘤分為高或低置信度腫瘤。
本發(fā)明第三個方面的方法包括步驟(a)獲得取自患者的乳瘤樣品的表達產(chǎn)物;(b)通過將所述表達產(chǎn)物接觸結(jié)合成員來確定表S4中所示的多種基因的表達水平,每個結(jié)合成員能夠與該多種基因的一種表達產(chǎn)物特異結(jié)合;并(c)根據(jù)表達水平確定所述患者中是否存在低置信度乳瘤。
優(yōu)選的是,該方法還包括確定腫瘤的ER狀態(tài)的步驟,優(yōu)選在提供腫瘤的表達譜之前。
確定是否存在低置信度乳瘤的步驟可以使用計算機來進行,它能夠?qū)碜詼y試乳瘤樣品的表達產(chǎn)物的結(jié)合譜與其它先前獲得的譜的數(shù)據(jù)庫和/或先前確定的存在低置信度腫瘤的特征性“標準”譜進行比較??梢詫⒂嬎銠C編程,使之報告測試譜與標準譜之間的統(tǒng)計學相似性,從而可以進行分類。
將乳瘤樣品分類的步驟可以包括使用統(tǒng)計和/或概率技術,諸如加權表決(WV)(13),即一種受監(jiān)督學習技術。在WV中,可以進行二元分類。將乳瘤樣品中多基因分類物的基因表達水平與該基因在不同類型間的表達水平平均值進行比較。例如,可以由已經(jīng)給定了類型的表達譜計算平均值,例如高和/或低置信度樣品的表達譜數(shù)據(jù)庫。優(yōu)選的是,表達譜已經(jīng)給定了ER狀態(tài)。
將表達水平和類型間基因表達平均值之間的差異加權(weight),并對應該基因?qū)υ擃愋偷摹镀薄?。對于特定腫瘤,對于每一種類,將對所有基因的投票加到一起,產(chǎn)生每一類的總票數(shù)。將腫瘤判定為具有最高票數(shù)的類型。然后可以將獲勝類型的勝利幅度表述成預測強度。
表達水平的差異是使用包括兩種類型每一種的基因表達水平的平均值和標準偏差在內(nèi)的公式加權的。一般而言,每一種類型的平均值和標準偏差是由具有或代表特定腫瘤類型(例如高置信度和低置信度)的表達譜計算的。
另外/或者,步驟(c)可以包括使用分級聚類(hierarchicalclustering),特別是在使用與評估具有指定類型的表達譜或與樣品表達譜進行比較的標準譜相比不同的陣列技術來評估腫瘤樣品的時候。步驟(c)的結(jié)果可以使用已經(jīng)建立的排除一項交叉驗證(LOOCV)檢驗法(見實施例)進行驗證。步驟(c)可以使用計算機來進行。
在分級聚類中,可以將每個表達譜表述成由n個基因組成的矢量(vector),其中(g1,g2...gn)代表基因的表達水平。然后,將每個矢量與分析中的每一個其它譜進行比較,并將兩個彼此具有最高相關的矢量配成對,直至盡可能多的將分析中的譜配成對。
本領域知道許多方法可以計算相關性,諸如Pearson的相關系數(shù)(28)。在下一步中,由每一對衍生一個合成矢量(composite vector)(在平均連接聚類(average-linkage clustering)中,這通常是兩個譜的平均值),然后重復配對過程。繼續(xù),直至不可能進行更多的配對。這個過程就是“分級”,因為是由底部(單個譜)開始并向上升。在本發(fā)明中,優(yōu)選由單個譜建成兩個合成矢量,每個矢量代表一種類型(即高置信度和低置信度)。對于來自未知類型的一個新樣品,將樣品與標準譜/樣品進行聚類。根據(jù)樣品在反復配對結(jié)束時所屬的簇/矢量來確定“未知”樣品的類型。
因此,本發(fā)明在一個實施方案中提供了通過例如將所述腫瘤的表達譜與腫瘤類型特征譜進行比較(優(yōu)選通過將腫瘤的表達譜與高置信度和/或低置信度腫瘤的特征譜進行比較)來鑒定患者中的攻擊性乳瘤的方法。該方法還包括對如果腫瘤具有低置信度腫瘤特征性表達譜的患者指出不佳預后的步驟。
預后可能影響患者的治療過程。在鑒定了低置信度腫瘤后,可以使用攻擊性技術來治療患者,以治療低置信度腫瘤。
不佳預后包括與高置信度腫瘤患者相比患者的總體存活率顯著更差和/或遠程轉(zhuǎn)移的時間顯著更短。
如上所述,本發(fā)明人鑒定了在低置信度乳瘤和高置信度乳瘤中具有不同表達模式的幾種關鍵基因,即它們能夠區(qū)別乳瘤的高和低置信度類型。
多基因分類物可包含表S4中列出的基因。通過確定測試樣品的表達譜并將該表達譜與低和/或高置信度乳瘤的特征性表達譜進行比較(和/或使用諸如加權表決等技術分析表達譜),例如它們的表達相對于在高置信度樣品中看到的標準模式或譜的升高或降低,有可能將樣品分為低置信度或高置信度腫瘤。
多種基因可以是表S4(a)和/或表S4(b)的基因,或者是表S4(a)的基因子集和/或表S4(b)的基因子集。
多種基因可以包含表S4(a)的至少10、20、30、40、50、60、70、80種或所有基因。
多種基因可以是表S4(a)的所有或基本上所有上調(diào)和/或下調(diào)基因。多種基因可以包含約30種、或約20種、或約10種、或約5種表S4(a)的上調(diào)基因或由其組成。多種基因可以包含約30種、或約20種、或約10種、或約5種表S4(a)的下調(diào)基因或由其組成。
優(yōu)選的是,多種基因包含約80、或約70、或約60、或約50、或約40、或約30、或約20、或約10種表S4(a)的基因或由其組成。多種基因可以包含約50、或約40、或約30、或約20、或約10、或約5種表S4(a)的上調(diào)基因或由其組成。
來自表S4(a)的基因優(yōu)選選自上調(diào)基因組的上部和/或下調(diào)基因組的上部。上部優(yōu)選表或組的上半部,因為每個組中的基因是根據(jù)顯著性排序的。在高置信度和低置信度腫瘤之間顯示最大差異表達的基因出現(xiàn)在表S4(a)的每組的上部,而表達差異較小的基因出現(xiàn)在下部。
多種基因可以包括不超過80、或70、或60、或50、或40、或30、或20、或10或5種表S4(a)的基因。
多種基因可以包含5-30種表S4(a)的上調(diào)基因和/或表S4(a)的下調(diào)基因或主要由其組成。多種基因可以包含10-30種表S4(a)的上調(diào)基因和/或表S4(a)的下調(diào)基因或主要由其組成。多種基因可以包含10-20種表S4(a)的上調(diào)基因和/或表S4(a)的下調(diào)基因或20-30種表S4(a)的上調(diào)基因和/或表S4(a)的下調(diào)基因或主要由其組成。多種基因可以包含5-40種或5-50種表S4(a)的上調(diào)基因或由基本由其組成。
多種基因(可以是約10種基因)可以選自表S4(a)的前約40、或約30或約20種上調(diào)基因和/或下調(diào)基因。該約10種基因可以選自表S4(a)上調(diào)和/或下調(diào)基因的前約15種。該約10種基因可以選自表S4(a)的前10種上調(diào)基因或下調(diào)基因。多種基因(可以是約10種基因)可以選自表S4(a)的前約50或約40種上調(diào)基因。
優(yōu)選的是,多種基因包含表S4(a)上調(diào)和/或表S4(a)下調(diào)基因前約30種中的約10-20種基因。
多種基因可以包含選自下組的約30或約20或約10種基因或由其組成表S4(a)的前約40、或約30、或約20、或約10種上調(diào)基因和表S4(a)的前約30、或約20、或約10種下調(diào)基因。多種基因可以包含選自下組的約10、約15、或約20種基因或由其組成表S4(a)的前約10或約15種上調(diào)基因和表S4(a)的前約10、約15、或約20種下調(diào)基因。
多種基因可以是表S4(b)的所有或基本上所有基因。多種基因可以是表S4(b)的所有或基本上所有基因。多種基因可以包括表S4(b)的至少10、20、30、40、50或所有基因。
多種基因可以包含約50、或約40、或約30、或約20、或約10、或約5種表S4(b)的基因或由其組成。
來自表S4(b)的基因優(yōu)選選自表的上部。上部優(yōu)選表的上半部,因為每個組中的基因是根據(jù)顯著性排序的。在高置信度和低置信度腫瘤之間顯示最大差異表達的基因出現(xiàn)在表S4(b)組的上部,而表達差異較小的基因出現(xiàn)在下部。
多種基因可以包括不超過50、或40、或30、或20、或10、或5種表S4(b)的基因。
多種基因可以包含5-50種表S4(b)的基因或基本上由其組成。多種基因可以包含10-40種表S4(b)的基因或基本上由其組成。多種基因可以包含10-30種表S4(b)的基因或基本上由其組成。多種基因可以包含10-20種或20-30種表S4(b)的基因或基本上由其組成。
多種基因(優(yōu)選約30、或約20、或約10種基因)可以選自表S4(b)的前約40、或約30或約20種基因。該約10種基因可以選自表S4(b)的前約15或20種基因。該約10種基因可以是表S4(b)的前10種基因。
優(yōu)選的是,多種基因包含表S4(b)前約30種基因中的約10或20種基因。
如上所述,本領域技術人員將領會,與生成特征性表達譜所需要的最不顯著的基因數(shù)目相比,生成特征性表達譜所需要的最顯著的基因數(shù)目較少。
所選擇的所述多種基因的數(shù)目和種類是為了提供能夠鑒別高置信度和低置信度腫瘤的表達特征。
優(yōu)選的是,多種基因包括來自表S4(a)和/或表S4(b)的上調(diào)和下調(diào)基因的混合。
腫瘤分類的步驟可以包括對這樣的基因進行評估,與高置信度腫瘤相比所述基因在低置信度腫瘤中上調(diào)。
另外/或者,步驟(c)可以包括對這樣的基因進行評估,與高置信度腫瘤相比所述基團在低置信度腫瘤中下調(diào)。
表2中顯示了構(gòu)成另一個多基因分類物的基因。本發(fā)明的第一個、第二個和第三個方面加以必要改動后可適用表2,即多種基因可以來自表2。本發(fā)明第一個、第二個和第三個方面的優(yōu)選實施方案和任選特征加以必要改動后可適用表2。
因此,在第四個方面,本發(fā)明提供了生成針對乳瘤樣品的核酸表達譜的方法,包括以下步驟(a)由所述乳瘤樣品分離表達產(chǎn)物;(b)確定表2的多種基因的表達水平;并(c)由表達水平生成表達譜。
乳瘤樣品可以是任何類型的乳瘤,正如本發(fā)明第一個方面所述。優(yōu)選的是,確定了乳瘤樣品的ER狀態(tài),優(yōu)選在步驟(a)之前。
在第五個方面,本發(fā)明提供了包含高置信度和/或低置信度乳房樣品的多個基因表達譜的表達譜數(shù)據(jù)庫,其中每個表達譜來自表2的多種基因,且數(shù)據(jù)庫以可獲取的方式保存在數(shù)據(jù)載體上。優(yōu)選的是,構(gòu)成數(shù)據(jù)庫的表達譜是通過第四個方面的方法生成的。
表2的基因提供了候選的多基因分類物。
在第六個方面,本發(fā)明提供了用于將乳瘤樣品分類為低置信度或高置信度的方法,該方法包括提供所述樣品的表達譜,其中表達譜包含表2的多種基因的表達水平,并根據(jù)表達譜將腫瘤分為高或低置信度腫瘤。
本發(fā)明第六個方面的方法可以包括步驟(a)由取自患者的乳瘤樣品獲得表達產(chǎn)物;(b)通過將所述表達產(chǎn)物接觸結(jié)合成員來測定表2中所示的多種基因的表達水平,每個結(jié)合成員能夠與多種基因的一種表達產(chǎn)物特異結(jié)合;并(c)根據(jù)表達水平確定所述患者中是否存在低置信度乳瘤。
步驟(c)可以包括將結(jié)合譜與低置信度腫瘤的特征譜進行比較。低置信度腫瘤可以是ER+或ER-。步驟(c)可以包括使用統(tǒng)計技術,諸如加權表決和/或支持矢量系統(tǒng)(SVM)。
多種基因可以包含表2的所有或基本上所有基因或表2a或表2b的所有或基本上所有基因或由其組成。
多種基因可以包括表2的至少10、20、30、40、50、60、70、80、90種或所有基因。
優(yōu)選的是,多種基因包含約50、或約40、或約30、或約20、或約10種表2a和/或表2b的基因或由其組成。來自表2的基因優(yōu)選選自上部,優(yōu)選表2a和/或表2b的上半部,因為表2a和表2b每一組中的基因是根據(jù)顯著性排序的。在高置信度和低置信度腫瘤之間顯示最大擾動(perturbation)的基因出現(xiàn)在表2a和表2b每一個的上部,而擾動較小的基因出現(xiàn)在下部。
本領域技術人員將領會,與生成低和/或高置信度乳瘤的特征性表達譜所需要的最不顯著的基因數(shù)目相比,生成所述特征性表達譜所需要的最顯著的基因的數(shù)目較少。例如,與選自表2a下半部的基因相比,需要來自表上半部的基因的數(shù)目較少。
所選擇的所述多種基因的數(shù)目和種類是為了提供能夠鑒別高置信度和低置信度腫瘤的表達特征。
多種基因可以包括不超過50種表2a和/或表2b的基因。多種基因可以包括不超過40種表2a和/或表2b的基因。多種基因可以包括不超過30種表2a和/或表2b的基因。多種基因可以包括不超過20種表2a和/或表2b的基因。多種基因可以包括不超過10種表2a和/或表2b的基因。多種基因可以包括不超過5種表2a和/或表2b的基因。
多種基因可以包含5-50種表2a和/或表2b的基因或基本上由其組成。多種基因可以包含10-40種表2a和/或表2b的基因或基本上由其組成。多種基因可以包含10-30種表2a和/或表2b的基因或基本上由其組成。多種基因可以包含10-20種或20-30種表2a和/或表2b的基因或基本上由其組成。
所述基因(優(yōu)選約10種基因)可以選自表2a的前約40、或約30、或約20種基因。該約10種基因可以選自表2a的前約15種基因。該約10種基因可以是表2a的前10種基因。所述基因(優(yōu)選約10種基因)可以選自表2b的前約40、或約30、或約20種基因。該約10種基因可以選自表2b的前該約15種基因。該約10種基因可以是表2b的前10種基因。
所述基因(優(yōu)選約10-20種基因)優(yōu)選選自表2a和/或表2b的前約30種基因。
多種基因可以包含選自下組的約30、或約20、或約10種基因或由其組成表2a的前約20種基因和表2b的前約20種基因。多種基因可以包含選自下組的約10、或約15或約20種基因或由其組成表2a的前約10種基因和表2b的前約10種基因。
本發(fā)明的方法優(yōu)選還包括確定ER+或ER-狀態(tài)的預分類步驟。ER狀態(tài)可以通過免疫組化(例如使用ER抗體)或通過使用適于評估基因表達譜的概率/統(tǒng)計模型來確定。
為了區(qū)別高和低置信度腫瘤,發(fā)明人還進行了進一步分析并鑒定了其它多基因分類物。這些分析的目的是鑒定可用于不管它們的ER狀態(tài)而對“高”和“低置信度”腫瘤進行分類的最佳基因組(set)。使用了一系列三種獨立的分析方法(微陣列的顯著性分析、基因分級、和Wilcoxon檢驗)來鑒定在兩個組(LC和HC)之間差異表達的基因。分析的結(jié)果就是表A1、A2、A3和A4中顯示的其它多基因分類物。
在表A1中,是可用于區(qū)別高和低置信度腫瘤的88種基因。表A1的基因是使用SAM(微陣列的顯著性分析)鑒定的。其中,86種基因在低置信度腫瘤中上調(diào),而2種基因在高置信度腫瘤中上調(diào)。
在表A2中,是可用于區(qū)別高和低置信度腫瘤的251種基因。表A2的基因是使用GR(基因分級)通過SVM鑒定的。
在表A3中,是可用于區(qū)別高和低置信度腫瘤的38種基因。表A3的基因是使用WT(Wilcoxon檢驗)鑒定的,P值<0.05且變化截止值≥2倍。
在表A4中,是13種共有基因(即表A1、A2、A3中都有的基因)。這13種“共有基因”是強有力的顯著標志物,而且能夠像其它“完整”標志物組一樣獲得相當?shù)挠胁顒e的表現(xiàn)。
因此,在第七個方面,本發(fā)明提供了針對乳瘤樣品生成核酸表達譜的方法,包括步驟(a)由所述乳瘤樣品分離表達產(chǎn)物;(b)鑒定來自表A4和/或表A1和/或表A2和/或表A3的多種基因的表達水平;并(c)由表達水平生成表達譜。
乳瘤樣品可以是任何類型的乳瘤,正如本發(fā)明第一個方面所述。
在第八個方面,本發(fā)明提供了包含高置信度和/或低置信度乳房樣品的多種基因表達譜的表達譜數(shù)據(jù)庫,其中每個表達譜衍生自表A4和/或表A1和/或表A2和/或表A3的多種基因,且其中數(shù)據(jù)庫以可獲取的方式保存在數(shù)據(jù)載體上。優(yōu)選的是,構(gòu)成數(shù)據(jù)庫的表達譜是通過第七個方面的方法生成的。
在第九個方面,本發(fā)明提供了用于將乳瘤樣品分為低置信度或高置信度的方法,該方法包括提供所述樣品的表達譜,其中該表達譜包含來自表A4和/或表A1和/或表A2和/或表A3的多種基因的表達水平,且根據(jù)表達譜將腫瘤分為高或低置信度腫瘤。
本發(fā)明第九個方面的方法可以包括步驟(a)由取自患者的乳瘤樣品獲得表達產(chǎn)物;(b)通過將所述表達產(chǎn)物接觸結(jié)合成員來測定表A4和/或表A1和/或表A2和/或表A3中所示的多種基因的表達水平,每個結(jié)合成員能夠與所述多種基因的表達產(chǎn)物特異結(jié)合;并(c)根據(jù)表達水平確定所述患者中是否存在低置信度乳瘤。
步驟(c)可包括將表達水平與低和/或高置信度腫瘤的特征譜進行比較。低置信度腫瘤可能是ER+或ER-。步驟(c)可包括使用統(tǒng)計技術,諸如加權表決和/或支持矢量系統(tǒng)(SVM)。
所述多種基因優(yōu)選包含表A4的基本上所有基因或基本上由其組成??砂鞟1、A2和A3中每一個的其它基因,盡管是獨立的,該多種基因可來自表A1、A2和A3中的任何一個或多個。該多種基因并非必需包含表A4的基因。
因此,本發(fā)明的第一個、第二個和第三個方面加以必要改動后可適用表A1、A2和A3中的每一個,即在本發(fā)明的每個方面,所述多種基因可以來自表A1和表A2和表A3中的任何一個或多個。本發(fā)明第一個、第二個和第三個方面的實施方案和優(yōu)選/任選特征加以必要改動后可適用表A1、A2、A3和A4。
所述多種基因可包括表A1的至少10、20、30、40、50、60、70、80種或所有基因。
所述多種基因可以是表A1的所用或基本上所有“在低置信度中上調(diào)的”和/或“在高置信度中上調(diào)的基因”。該多種基因可包含約80、或約70、或約60、或約50、或約40、或約30、或約20、或約10或約5種表A1中“在低置信度中上調(diào)的”基因或由其組成。多種基因可包含表A1中“在高置信度中上調(diào)的”基因中的任一種或二者。
來自表A1的基因優(yōu)選選自“在低置信度中上調(diào)的”組基因的上部。上部優(yōu)選表的上半部,因為所述基因是根據(jù)顯著性排序的。在高置信度和低置信度腫瘤之間顯示最大差異表達的基因出現(xiàn)在表A1的上部,而表達差異較小的基因出現(xiàn)在下部。
所述多種基因可包含不超過80、或70、或60、或50、或40、或30、或20、或10或5種表A1的基因。
所述多種基因可包含5-70種表A1的基因或基本上由其組成。所述多種基因可包含10-60種表A1的基因或基本上由其組成。所述多種基因可包含10-50種、或10-40種、或10-30種表A1的基因或基本上由其組成。
所述多種基因(可是約10-15種基因)可選自表A1的前約40、或約30、或約20種基因。優(yōu)選的是,該多種基因包含表A1前約30種基因的約10-20種基因。
所述多種基因可包含表A2的至少10、20、30、40、50、60、70、80、90、100、110、120、130、140、150種或所有基因。
所述多種基因可包含不超過250、或240、或230、或220、或210、或200、或190、或180、或170、或160、或150、或140、或130、或120、或110、或100、或90、或80、或70、或60、或50、或40、或30、或20、或10或5種表A2的基因。
所述多種基因可包含5-200種表A2的基因或基本上由其組成。所述多種基因可包含10-150種表A2的基因或基本上由其組成。所述多種基因可包含10-100種、或10-70種或10-50種表A2的基因或基本上由其組成。
所述多種基因(可是約10-15種基因)可選自表A2的前約50、或約40、或約30、或約20種基因。優(yōu)選的是,所述多種基因包含表A2前約30種基因的約10-20種基因。
所述多種基因可包含表A3的至少10、20、30、35種或所有基因。
所述多種基因可包含不超過35、或30、或20、或10或5種表A3的基因。
所述多種基因可包含5-35種表A3的基因或基本上由其組成。所述多種基因可包含10-30種表A3的基因或基本上由其組成。所述多種基因可包含10-20種或20-30種表A3的基因或基本上由其組成。
所述多種基因(可以是約10-15種基因)可選自表A3的前30或約20種基因。優(yōu)選的是,該多種基因包含表A3前約30種基因中的約10-20種基因。
所述多種基因可包括表A4的至少5、10、15種或所有基因。
所述多種基因可包括不超過10、或8、或6、或5種表A4的基因。
所述多種基因可包含5-13種表A4的基因或基本上由其組成。所述多種基因可包含10-13種表A4的基因或基本上由其組成。
在所述多種基因的內(nèi)容中,術語“約”意味著所述基因數(shù)目加上或減去如下二者中的較大者所述基因數(shù)目的10%或一種基因。
如上,表達產(chǎn)物可以是轉(zhuǎn)錄的核酸序列或表達的多肽。該轉(zhuǎn)錄的核酸序列可以是RNA或mRNA。表達產(chǎn)物還可以是由所述mRNA生成的cDNA。表達產(chǎn)物可以是cRNA。
所述的結(jié)合成員可以是能夠在合適雜交條件下與所述轉(zhuǎn)錄的核酸特異結(jié)合的互補核酸序列。通常使用cDNA或寡核苷酸序列。
當表達產(chǎn)物是表達的蛋白質(zhì)時,所述結(jié)合成員優(yōu)選是對所述表達的多肽特異的抗體或包含抗體結(jié)合結(jié)構(gòu)域的分子。
可以出于檢測目的而使用本領域已知標準流程對所述結(jié)合成員進行標記?;蛘?,可以在由測試樣品中分離出表達產(chǎn)物后進行標記。優(yōu)選的檢測手段是使用能夠通過光度表進行檢測的熒光標記物。其它檢測手段包括電信號。例如,Motorola的e傳感器系統(tǒng)具有兩個探針,一個是自由漂浮的“捕捉探針”,另一個是附著在固體表面上的“信號探針”,所述固體表面同時作為電極表面。兩個探針都作為表達產(chǎn)物的結(jié)合成員而發(fā)揮功能。當發(fā)生結(jié)合時,兩個探針彼此靠攏,產(chǎn)生可以檢測的電信號。
如上所述,所述結(jié)合成員可以是用于在PCR(例如多重PCR)中特異擴增基因鑒別物的表達產(chǎn)物的寡核苷酸引物。然后可以在凝膠上分析所述產(chǎn)物。然而,優(yōu)選的是,所述結(jié)合成員是固定在固體支持物上的單一核酸探針或抗體。然后可以讓表達產(chǎn)物經(jīng)過固體支持物,使得它們與結(jié)合成員接觸。所述固體支持物可以是玻璃表面,例如顯微鏡載玻片;珠(Lynx);或光纖。在珠的情況中,可以將每種結(jié)合成員固定在各個珠上,然后讓它們在溶液中接觸所述表達產(chǎn)物。
本領域存在多種方法可用于確定特定的基因組(set)的表達譜,這些方法都可應用于本發(fā)明。例如,基于珠的方法(Lynx)或分子條形碼(Surromed)就是已知的技術。在這些情況中,將每種結(jié)合成員附著在單個可讀且自由漂浮的珠或“條形碼”上,以便于與表達產(chǎn)物的接觸。所述結(jié)合成員與表達產(chǎn)物(靶)的結(jié)合是在溶液中完成的,然后讓打上標簽的珠或條形碼經(jīng)過某種裝置(例如流式細胞儀)并讀數(shù)。
確定表達譜的另一種已知方法是由Illumina開發(fā)的儀器,即光纖。在這種情況中,將每種結(jié)合成員附著在光纖纜末端的特定“地址”上。表達產(chǎn)物與結(jié)合成員的結(jié)合可以誘導熒光變化,它可以通過光纖纜另一端的裝置讀出。
本發(fā)明人成功的使用了包含固定在固體支持物上的多種核酸序列的核酸微陣列。通過讓代表所表達基因的核酸序列(例如cDNA)經(jīng)過微陣列,它們能夠產(chǎn)生來自腫瘤樣品的表達產(chǎn)物和衍生自乳房組織的正常細胞的特征性結(jié)合譜。
本發(fā)明還提供了用于將乳瘤樣品分類的裝置(優(yōu)選微陣列),包括附著在固體支持物上的多種結(jié)合成員,優(yōu)選核酸序列,每種結(jié)合成員能夠與來自多基因分類物中任何一組或多組的基因的表達產(chǎn)物特異結(jié)合表S4、表2、表A1、表A2、表A3、和表A4。優(yōu)選的是,該裝置包含能夠與多種基因的表達產(chǎn)物結(jié)合的結(jié)合成員或基本上由其組成,正如先前關于所述多基因分類物中每一個的定義(見上文)。該裝置可以包含能夠與來自每一個多基因分類物的多種基因或來自一個或多個多基因分類物的多種基因的表達產(chǎn)物結(jié)合的結(jié)合成員或基本上由其組成。
該裝置可包含能夠與所述多基因分類物或其子集的至少5種基因、更優(yōu)選至少10種基因或至少15種基因的表達產(chǎn)物特異結(jié)合的結(jié)合成員。所述多基因分類物的子集可以是例如表2中的ER+/低對ER+/高基因或表S4(a)中在ER+/低中上調(diào)組的基因。在一個最優(yōu)選的實施方案中,所述固體支持物將容納能夠與表A4中所示的所有基因的表達產(chǎn)物特異且獨立結(jié)合的結(jié)合成員。
該裝置優(yōu)選包含能夠與多基因分類物的表達產(chǎn)物或其多種基因特異結(jié)合的結(jié)合成員,而且可包含能夠與U133A微陣列上不超過14396種基因的表達產(chǎn)物特異結(jié)合的結(jié)合成員。該裝置可包含能夠與U133A微陣列上不超過90%的基因的表達產(chǎn)物特異結(jié)合的結(jié)合成員。該裝置可包含能夠與U133A微陣列上不超過80%、或70%、或50%、或40%、或30%、或20%、或10%、或5%的基因的表達產(chǎn)物特異結(jié)合的結(jié)合成員。
另外/或者,固體支持物可容納不超過14000種、不超過10000種、不超過5000種、不超過3000種、不超過1000種、不超過500種、或不超過400種、或不超過300種、或不超過200種、或不超過100種、或不超過90種、或不超過80種、或不超過70種、或不超過60種、或不超過50種、或不超過40種、或不超過30種、或不超過20種、或不超過10種、或不超過5種不同基因的結(jié)合成員。
通常,將高密度核酸序列(通常是cDNA或寡核苷酸)固定在固體支持物上很小的離散區(qū)域或點上。該固體支持物常常是用某種基質(zhì)包被的顯微鏡載玻片或濾膜(或芯片)。通常通過機器自動化系統(tǒng)將核酸序列投遞(或印制)到經(jīng)過包被的固體支持物上,然后固定在支持物上。
在一個優(yōu)選的實施方案中,將由樣品衍生的表達產(chǎn)物進行標記,通常使用熒光標記物,然后與固定的核酸序列接觸。雜交后,使用檢測儀檢測熒光標記物,諸如高清晰度激光掃描儀。在另一種方法中,可以用非熒光標記物給表達產(chǎn)物打上標簽,例如生物素。雜交后,用與第一種非熒光標記物結(jié)合/鍵合的熒光染料給微陣列“染色”(例如熒光標記的與生物素結(jié)合的鏈霉親和素)。
通過用數(shù)字成像軟件分析每個離散點發(fā)出的信號得到指示基因表達模式的結(jié)合譜(表達模式或譜)。然后,可以將實驗樣品的基因表達模式與對照(即高置信度或低置信度樣品的表達譜)進行比較從而進行差異分析。
如上所述,對照或標準可以是先前判定為正常或惡性細胞的典型的一個或多個表達譜。所述一個或多個表達譜可以以可獲取的方式保存在數(shù)據(jù)載體上,作為數(shù)據(jù)庫的一部分。這在上文中已有討論。然而,還有可能的是,在檢驗流程中導入一個對照。換言之,測試樣品中可以“摻入”一個或多個“人工腫瘤”或“人工正?!北磉_產(chǎn)物,擔當與測試樣品的基因鑒別物表達水平進行比較時的對照。
大多數(shù)微陣利用一種或兩種熒光團。對于雙色陣列,最常用的熒光團是Cy3(綠色通道激發(fā))和Cy5(紅色通道激發(fā))。微陣列圖像分析的目的是由每種表達產(chǎn)物提取雜交信號。對于單色陣列,對指定的靶(基本上是與單一樣品雜交的陣列)測量絕對強度作為信號。對于雙色陣列,測量具有不同熒光標記物的兩份表達產(chǎn)物(例如樣品和對照,對照在其它方面也稱為參照)的比率作為信號。
依照本發(fā)明的裝置(例如微陣列)優(yōu)選包含多個離散點,每個點含有一種或多種寡核苷酸且每個點代表選自所述多基因分類物的基因的表達產(chǎn)物的不同結(jié)合成員。在一個實施方案中,所述微陣列將包含一個或多個多基因分類物中每個基因的點。每個點將包含多個相同寡核苷酸,每個都能夠與它所代表的表S4基因的表達產(chǎn)物(例如mRNA或cDNA)結(jié)合。
在本發(fā)明的還有一個方面,提供了用于將乳瘤樣品分類為高置信度或低置信度的試劑盒,所述試劑盒包含結(jié)合成員和檢測試劑,每種結(jié)合成員能夠與所述多基因分類物中所示的多種基因的表達產(chǎn)物特異結(jié)合。
多基因分類物的基因以它們的Unigene編號列出(對應于Unigene的build 160)。由此可以由Unigene數(shù)據(jù)庫獲取每種基因的序列。另外,為了確認這些基因,Affymetrix(www.affymetrix.com)提供了探針組的實例,包括探針的序列(即寡核苷酸序列形式的結(jié)合成員),它們在固體支持物上使用時能夠檢測基因的表達。探針的詳情可以由Affymetrix網(wǎng)站的U133部分使用靶基因的Unigene ID獲取。
如果在未來,表中所列的一個Unigene ID以新ID出現(xiàn)、或分裂成兩個或多個ID(例如在數(shù)據(jù)庫的新build中)、或完全刪除,那么本發(fā)明人預期的基因序列可以通過訪問Unigene的build 160來獲取。
優(yōu)選的是,將試劑盒中的一種或多種結(jié)合成員(抗體結(jié)合結(jié)構(gòu)域或核酸序列,例如寡核苷酸)固定到一個或多個固體支持物上,例如微陣列或光纖測定法的單一支持物或諸如珠等多個支持物。檢測手段優(yōu)選用于標記測試樣品表達產(chǎn)物的標記物(放射性或染料,例如熒光)。試劑盒還可以包含用于檢測和分析所測試表達產(chǎn)物的結(jié)合譜的手段。
或者,結(jié)合成員可以是能夠在PCR中與表達產(chǎn)物結(jié)合從而能夠擴增它們的核苷酸引物。該引物可以還包含檢測手段,即可用于鑒定擴增序列及其相對于其它擴增序列的豐度的標記物。
所述試劑盒還可包含以可獲取方式保存在數(shù)據(jù)載體上用于與測試樣品的表達譜進行比較的一個或多個標準表達譜。該一個或多個表達譜可以是依照本發(fā)明的第一個方面生成的。
乳房組織樣品可以切除的乳房活檢物或細針吸取物來獲得。
再次,表達產(chǎn)物優(yōu)選mRNA或由其生成的cDNA,或cRNA。結(jié)合成員優(yōu)選固定在一種或多種微陣列或珠形式的固體支持物上的寡核苷酸(見上文)。結(jié)合譜優(yōu)選通過能夠檢測用于標記表達產(chǎn)物的標記物的檢測儀來分析。可以通過將樣品的結(jié)合譜與對照的結(jié)合譜(例如標準表達譜)進行比較來做出是否存在或有風險患上乳癌的判定。
在所有上述方面中,優(yōu)選使用能夠特異結(jié)合(且在核酸引物的情況中擴增)所述多基因分類物的表達產(chǎn)物的結(jié)合成員。這是因為所有基因的表達水平構(gòu)成測試樣品特異的表達譜。測試的基因表達水平的數(shù)目越多,表達譜的分類越可靠。由此,優(yōu)選評估選自一個或多個多基因分類物的超過5種基因的表達水平、更優(yōu)選超過10種、超過20種、超過30種、甚至更優(yōu)選超過40種、且優(yōu)選所述多基因分類物的所有基因。例如,結(jié)合成員可能能夠與表S4所有基因或其多種基因的表達產(chǎn)物結(jié)合,正如先前定義的。
已知的微陣列和基因芯片技術容許利用大量的結(jié)合成員。因此,更優(yōu)選的方法將是使用代表所述多基因分類物所有基因或其多種基因的結(jié)合成員,正如先前關于每一個所述多基因分類物的定義。然而,技術人員將領會,可省略這些基因中的一定比例,而仍然以可靠且統(tǒng)計上精確的方式執(zhí)行該方法。在大多數(shù)情況中,將優(yōu)選使用代表所述多基因分類物至少70%、80%、或90%基因的結(jié)合成員。在本文中,多基因分類物優(yōu)選指表S4的基因或其子集或組。多基因分類物可是表A4的基因。
因此,如上所述,多種可能指多基因分類物的至少50%、更優(yōu)選至少70%、甚至更優(yōu)選至少90%。
提供了基因鑒別物就容許定制診斷工具(例如核酸微陣列)并用于腫瘤的預測、診斷和分型。另外,這些診斷工具可聯(lián)合計算機,將其編程來確定使用該診斷工具(例如微陣列)得到的表達譜并將它與高置信度腫瘤對低置信度腫瘤的特征性“標準”表達譜進行比較。在此過程中,計算機不僅為用戶提供了可用于將患者的腫瘤分類的信息,同時計算機還獲得了另一個表達譜,由此確定“標準”表達譜,從而能夠更新其自身數(shù)據(jù)庫。
由此,本發(fā)明首次制作了包含與所述多基因分類物或其多種基因?qū)奶结樀膶S眯酒?微陣列)。該陣列的實際物理結(jié)構(gòu)可能在附著在二維固體基質(zhì)上的寡核苷酸探針至自由漂浮的用獨特標記物(例如“條形碼”)分別“打上標簽”的探針的范圍內(nèi)變化。
可生成與各種生物學分類(例如高置信度或低置信度ER+/ER-)對應的數(shù)據(jù)庫,它們將由使用專用微陣列測定的各種乳房組織的表達譜組成。然后可以加工和分析該數(shù)據(jù)庫,使之最終包含(i)與數(shù)據(jù)庫中每個表達譜對應的數(shù)值數(shù)據(jù);(ii)作為特定分類的規(guī)范譜發(fā)揮功能的“標準”譜;和(iii)代表各個譜相對于“標準”譜的觀測統(tǒng)計變差的數(shù)據(jù)。
在一個實施方案中,為了評估患者的樣品,首先分離該患者的乳房樣品(通過切除的活檢物或細針吸取物獲得)的表達產(chǎn)物,并使用專用微陣列測定該樣品的表達譜。為了將患者的樣品分類,對上文所述數(shù)據(jù)庫詢問患者樣品的表達譜。詢問可以以直接或間接方式進行?!爸苯印狈绞街笇⒒颊叩谋磉_譜與數(shù)據(jù)庫中的其它各個表達譜直接進行比較,以確定哪個譜(及由此哪個分類)給出最佳匹配?;蛘?,可以更“間接”的進行詢問,例如,可以將患者的表達譜僅僅與數(shù)據(jù)庫中的“標準”譜進行比較。間接法的優(yōu)勢在于“標準”譜(因為它們代表了許多個別譜的集合)的數(shù)據(jù)強度低得多,而且可以保存在較為便宜的計算機系統(tǒng)上,而它可能構(gòu)成依照本發(fā)明的試劑盒的一部分(即與微陣列相關)。在直接法中,有可能的是數(shù)據(jù)載體的規(guī)模將大得多(例如計算機服務器),因為將要保存很多個別譜。
通過將患者的表達譜與標準譜(間接法)和預先測定的群體統(tǒng)計變差進行比較,還將可能給出“置信度數(shù)值”,即患者的表達譜與高或低置信度腫瘤的“標準”規(guī)范譜是多么匹配。該數(shù)值將為臨床醫(yī)師提供關于分類可信度和例如是否應當重復分析的有價值信息。
如上所述還可能將患者的表達譜保存在數(shù)據(jù)庫中,而且它們可在任何時間用于更新數(shù)據(jù)庫。
下面將參照附圖通過實施例說明本發(fā)明的各個方面和實施方案。其它方面和實施方案對于本領域技術人員將是顯而易見的。將本文中提到的所有文件收入本文作為參考。
附圖簡述
圖1具有低預測強度(“低置信度”)的腫瘤的鑒定。
將練習(training)組(a)和測試組(b)中的每份樣品(x軸)對樣品的預測強度(PS,y軸)作圖。練習數(shù)據(jù)集由55個腫瘤組成,而測試數(shù)據(jù)集由41個腫瘤組成。將展示高正數(shù)PS值的樣品歸入ER+,而將展示高負數(shù)PS值的樣品歸于ER-。藍色樣品指得到了正確的分類,而紅色樣品指得到了錯誤的分類。通常會在練習和測試腫瘤中都觀察到一些“低置信度”樣品(灰框)。
圖2比較“高”和“低置信度”腫瘤臨床表現(xiàn)的Kaplan-Meier分析。
(a)和(b)中的總體存活數(shù)據(jù)是由Stanford數(shù)據(jù)集(9)獲得的,而(c)和(d)中的遠程轉(zhuǎn)移時間數(shù)據(jù)是由Rosetta數(shù)據(jù)集(10)獲得的。具有“高置信度”腫瘤的患者以綠色表示,而具有“低置信度”腫瘤的患者以粉色表示。a)具有“高”(60名患者)和“低置信度”(14名患者)腫瘤的患者的總體存活,不管ER狀態(tài);b)具有ER+“高”(48名)和“低置信度”(7名)腫瘤的患者的總體存活;c)在具有“高”(82名)和“低置信度”(15名)腫瘤的患者中由最初診斷出腫瘤至出現(xiàn)遠程轉(zhuǎn)移的時間,不管ER狀態(tài);d)在具有ER+“高”(63名)和“低置信度”(5)腫瘤的患者中由最初診斷出腫瘤至出現(xiàn)遠程轉(zhuǎn)移的時間。
圖3低對高置信度樣品中ER相關基因的廣泛擾動(widespreadperturbation)。
(a)和(b)描繪的是前122種與ER+狀態(tài)正相關的ER區(qū)別基因(由SAM-133基因組(set)獲得,見正文)在(a)ER+/高(黃色)和ER+/低(青綠色)以及(b)ER-/高(深藍色)和ER-/低(粉色)樣品中的相對表達水平。122種基因沿著x軸的順序是由它們的S2N比率決定的(見材料和方法)。特定基因的S2N度量既要考慮兩種類型之間平均表達水平的差異,還要考慮在進行比較的每個類型內(nèi)的該基因表達的標準偏差。注意,這122種基因在(a)和(b)中的具體順序是不同的,這取決于它們的S2N比率(表2)。(c)和(d)描繪的是與ER+狀態(tài)負相關的前54種ER區(qū)別基因(其中11種屬于SAM-133基因組(set),見詳情的補充信息)在(c)ER/高(黃色)和ER+/低(青綠色)以及(d)ER-/高(深藍色)和ER-/低(粉色)樣品中的相對表達水平。它們的擾動要比在(a)和(b)中觀察到的低得多。
圖4ERBB2+與在多個乳癌表達數(shù)據(jù)集間的“低置信度”預測有關。數(shù)據(jù)來自參考文獻3。a)表達高水平的ERBB2和與17q ERBB2染色體基因座物理連鎖的其它基因(MLN64,GRB7)(行)的腫瘤樣品(列)的鑒定。高表達以紅色正方形表示。腫瘤樣品5141、8443、7636、4527、5955、10444、5985、6936展示高表達的ERBB2和ERBB2連鎖基因,而6080和10188展示升高但較弱的表達。b)ER分類的ANN模型的概述(由參考文獻3中的圖1b修改而成)。分類為ER+的腫瘤樣品以藍色顯示,而ER-腫瘤以橙色顯示。預測置信度由每個樣品的標準偏差(SD)表示,其中“低置信度”樣品具有高SD。描述了八份“高度表達”ERBB2陽性(+ve)樣品(ERBB2位于樣品SD的左側(cè)或右側(cè))。注意,具有高SD的腫瘤樣品傾向于ERBB2陽性(+ve)。
圖5主成分分析(PCA),即將復雜的數(shù)據(jù)集投射(projection)到簡化的、易于顯現(xiàn)的空間上的一種數(shù)學方法,為關于根據(jù)SAM-133基因組(set)是如何清楚的區(qū)別樣品的問題提供了有用的形象評估方法。ER+和ER-腫瘤彼此區(qū)別明顯,而ERBB2+樣品位于中間部。彩色編碼方案ER+ERBB2-,黃色;ER+ERBB2-,青綠色;ER-ERBB2+,藍色;和ER-ERBB2+,粉色。彩色編碼方案ER+ERBB2-,黃色;ER+ERBB2+,青綠色;ER-ERBB2-,藍色;和ER-ERBB2+,粉色。X軸是主成分1,而Y軸是成分2。位于紅線左側(cè)的樣品是ER+樣品,除了兩個ER-樣品;而位于右側(cè)的樣品是ER-樣品,除了一個錯誤分類。接近邊界的樣品(正方形中的)都是ERBB2+。
圖6顯示了具有“高置信度”ER陰性腫瘤的患者與攜帶“低置信度”ER陰性腫瘤的患者的臨床預后。分析了兩個獨立的數(shù)據(jù)集,稱為“Rosetta”和“Stanford”數(shù)據(jù)集。圖6(a)顯示了Rosetta腫瘤測量了無復發(fā)存活。11/19(58%)的高置信度患者在5年內(nèi)形成遠程轉(zhuǎn)移;而在低置信度ER-中,這個數(shù)值是8/10(80%)。圖6(b)顯示了Stanford腫瘤測量了總體存活。7/12(58%)的高置信度患者死亡;而在低置信度ER-中,這個數(shù)值是5/7(71%)。
圖7顯示了Stanford和Rosetta數(shù)據(jù)集中具有低預測強度(“低置信度”)的腫瘤的鑒定。
結(jié)果使用中國患者的表達譜通過ER狀態(tài)進行的乳瘤分類揭示了“低置信度”樣品的獨特群體乳癌在高加索和亞洲人群中的總體發(fā)病模式是截然不同的(8),這促使發(fā)明人去調(diào)查在他們的當?shù)鼗颊呷褐惺欠褚材苡^察到先前報告(3,4)中的發(fā)現(xiàn)。他們首先使用基因表達譜數(shù)據(jù)根據(jù)它們的ER狀態(tài)對一組乳瘤進行分類。選擇了一組55個乳瘤的練習組,其中通過IHC預先測定了每個腫瘤的ER狀態(tài)。測試了兩種分類方法加權表決(WV)和支持矢量系統(tǒng)(SVM),并通過排除一項交叉驗證(LOOCV)(補充信息)評估了分類的精確度。除了將樣品分類,還通過定量度量提供了對分類不確定性的評估(材料和方法)。練習組的總體分類精確度是95%(WV)和96%(SVM),其中七份樣品鑒定為“低置信度”或邊緣預測(灰框,圖1a)。為了確定是否能夠在一組獨立的腫瘤中也觀察到這種低置信度樣品,使用第二組41個腫瘤作為獨立的測試組。雖然獨立測試組的總體分類精確度是91%(WV和SVM),但是九份樣品再次展示“低置信度”預測(圖1b)。由此,使用兩種不同的分類方法(WV和SVM),發(fā)現(xiàn)某些乳瘤在根據(jù)它們的基因表達譜根據(jù)ER狀態(tài)進行分類時展示獨特的“低置信度”特征。
與具有“高置信度”腫瘤的患者相比,具有“低置信度”腫瘤的患者展示總體存活降低且遠程轉(zhuǎn)移時間縮短因為將腫瘤區(qū)分成“高”和“低置信度”亞群是通過腫瘤基因表達譜的純粹計算分析而完成的,所以不清楚這種區(qū)別是否具有生物學或臨床意義,以及以這種方式使用基因表達譜是否在確定乳瘤的ER狀態(tài)方面提供優(yōu)于常規(guī)免疫組化技術的任何實質(zhì)性優(yōu)勢。為了解決這個問題,發(fā)明人調(diào)查了“低置信度”腫瘤是否可能展示與它們的“高置信度”對應物截然不同的任何臨床表現(xiàn)。他們使用了兩個公開的乳癌表達數(shù)據(jù)集,由此可以獲得相關但不同類型的臨床信息。第一個數(shù)據(jù)集(9)由78個乳癌和7個非惡性樣品的cDNA微陣列數(shù)據(jù)集以及總體患者存活信息組成(稱為Stanford數(shù)據(jù)集)。第二個數(shù)據(jù)集(10)由使用基于寡核苷酸的微陣列描述的71個ER+和46個ER淋巴結(jié)陰性腫瘤的譜組成,其中97份樣品具有這樣的臨床信息,即由最初診斷出腫瘤至出現(xiàn)新的遠程轉(zhuǎn)移的時間(稱為Rosetta數(shù)據(jù)集)。發(fā)明人使用WV將Stanford和Rosetta數(shù)據(jù)集中的乳瘤根據(jù)它們的ER亞型進行分類。與他們自己的數(shù)據(jù)集一致的是,在Stanford數(shù)據(jù)集的56個ER+和18個ER腫瘤中(由于缺乏ER狀態(tài)信息除去了4個腫瘤),他們觀察到93%的總體LOOCV精確度,且14個腫瘤分為“低置信度”。類似的,WV分析也鑒定出Rosetta數(shù)據(jù)集中的15個腫瘤展示“低置信度”分類,且總體LOOCV精確度為92%。這些數(shù)值與在發(fā)明人自己的患者群中觀察到的相當。
然后,他們使用Kaplan-Meier分析比較了該“高”和“低置信度”腫瘤群的臨床表現(xiàn)。如圖2所示,與它們的“高置信度”對應物相比,具有“低置信度”腫瘤的患者展示顯著更差的總體存活(p=0.0003,對數(shù)排序檢驗(log rank test))更短時間的遠程轉(zhuǎn)移(p=0.0001,對數(shù)-排序檢驗)。這一結(jié)果指示“高”對“低置信度”二元區(qū)別確實富有臨床意義。然后發(fā)明人重復了這種分析,但是首先將腫瘤細分成獨立的ER+和ER-類型。對于ER+腫瘤,他們再次發(fā)現(xiàn),與“高置信度”ER+腫瘤相比,“低置信度”ER+腫瘤與顯著更差的總體存活(p=0.03,對數(shù)-排序檢驗)和較短時間的轉(zhuǎn)移(p=0.004,對數(shù)-排序檢驗)有關(圖2)。對于ER-腫瘤沒有在總體存活和轉(zhuǎn)移時間中觀察到統(tǒng)計學顯著差異。這些結(jié)果指示ER+腫瘤可以根據(jù)“高”和“低置信度”二元分類法細分成截然不同的展示不同臨床表現(xiàn)的疾病組。因為目前不可能通過用于ER檢測的常規(guī)免疫組化方法來區(qū)別這兩個組,這一結(jié)果還顯示了基因表達譜數(shù)據(jù)如何有助于用于乳癌預后和分級(staging)的常規(guī)策略。
“低置信度”腫瘤在對區(qū)別ER亞型重要的基因的表達中展示廣泛擾動這些和其它研究中所使用的分類算法(例如WV、SVM、ANN,見下文)都依賴多種區(qū)別基因的組合輸入,然后將它們各自貢獻組合起來做出具體的分類決定(即腫瘤是ER+或ER-)。在形式上有可能的是,這些乳瘤的“低置信度”預測狀態(tài)是由于少數(shù)關鍵區(qū)別元素的顯著反常(即特異作用),或是由于大量區(qū)別基因的更微妙擾動(即廣泛作用)。為了區(qū)分這兩種可能性,發(fā)明人比較了“高”和“低置信度”腫瘤之間區(qū)別ER亞型的重要基因的表達水平。首先,為了鑒定在ER+和ER-腫瘤之間受到差異調(diào)節(jié)的ER區(qū)別基因,他們采用了稱為微陣列顯著性分析(SAM)(11)的一種統(tǒng)計方法。
采用他們的聯(lián)合數(shù)據(jù)集(總數(shù)=96個腫瘤),以“假發(fā)現(xiàn)率”(FDR)為0%鑒定出總共133種受到差異調(diào)控的基因(SAM-133)(FDR是SAM用于評估假陽性數(shù)目的指數(shù)-對于100種基因而言,F(xiàn)DR為10%指示10種基因有可能是假陽性)。在這個數(shù)據(jù)集中,122種基因在ER+樣品中上調(diào)(即與ER狀態(tài)正相關),而其余11種基因在ER+腫瘤中下調(diào)(即與ER狀態(tài)負相關)。正如預測的,SAM-133基因組(set)包含許多與ER途徑有關的基因,諸如ESR1、LIV1(一種雌激素可誘導的基因)、和TFF1,并且多次鑒定出某些基因(例如GATA-3)。SAM-133表中的許多基因還存在于其他人報告的類似表中(3,4)。
然后,發(fā)明人將ER+和ER-腫瘤各自細分成“高”和“低”置信度類型(即ER+/高、ER+/低、ER-/高、ER-/低),并在各組之間比較了SAM-133基因的表達水平(圖3)。在SAM-133基因組(set)中與ER狀態(tài)正相關的122種基因中,大約62%在ER+/低樣品中展示與ER+/高腫瘤相比顯著更低的平均表達水平(稱為“擾動表達”)(p<0.05,圖3a和表2)。具有“擾動”表達的基因包括ER、GATA3、BCL2、IGF1R、和RARA,而其它ER區(qū)別基因(諸如TFF1、TFF3、和XBP1)不受影響。類似的,在ER-“高”和“低”置信度樣品中,發(fā)明人發(fā)現(xiàn)了一種相反的模式(reciprocal pattern),其中122種基因的大約42%在ER-/低樣品中展示與ER-/高腫瘤相比更高的平均表達水平(p<0.05,圖3b和表2)。有趣的是,雖然某些基因(例如GATA3、BCL2)的表達水平在ER+和ER-兩種亞型中在“低”和“高”置信度樣品之間都發(fā)生擾動,但是其它基因的擾動似乎是亞型特異的。例如,ESR1和IGFR1只在ER+樣品中發(fā)生擾動,而XBP1只在ER-樣品中發(fā)生擾動。最后,與ER+狀態(tài)負相關(即在ER-腫瘤中高度表達)的ER區(qū)別基因的表達水平變化很小(圖3c和d)。這一結(jié)果說明在“低置信度”樣品中觀察到的表達擾動雖然是廣泛的,但是主要是在其表達與ER正相關的基因中觀察到的(補充信息)。
ERBB2原癌基因的表達升高與“低置信度”預測顯著相關在“低置信度”乳瘤中觀察到的表達擾動可以歸于多種原因,從實驗變差(例如樣品品質(zhì)、腫瘤切除、和操作差)、分類方法的選擇、至人群和樣品異質(zhì)性。為了洞察隱藏在這些表達擾動下的可能機制,發(fā)明人試圖確定是否存在可能與“低置信度”狀態(tài)有關的任何特異組織病理學參數(shù)。在腫瘤的“低置信度”狀態(tài)與患者年齡、淋巴結(jié)狀態(tài)、腫瘤分級、p53突變狀態(tài)或孕酮受體狀態(tài)之間沒有觀察到顯著關聯(lián)(表1)。然而,發(fā)明人在腫瘤ERBB2狀態(tài)與“低置信度”預測之間發(fā)現(xiàn)了顯著正相關(p<0.001,補充信息)。然后,對使用練習數(shù)據(jù)集觀察到的這種關聯(lián)又使用獨立的測試樣品集進行評估。在獨立的測試集中的九份“低置信度”樣品中,八個腫瘤也是ERBB2+(8/9),指示這種關聯(lián)不是數(shù)據(jù)集特異的。
發(fā)明人還調(diào)查了是否能夠通過比較“高”和“低”置信度腫瘤的整體表達譜來獨立發(fā)現(xiàn)“低置信度”預測與高ERBB2表達之間的關聯(lián)。首先,他們比較了屬于ER+亞型的“高置信度”和“低置信度”腫瘤??偣?9種基因鑒定為受到顯著調(diào)控(FDR=14%)。在ER+“低置信度”樣品中上調(diào)最顯著的前50種基因中,特別關注3種基因,即PMNT(排序第4位)、GRB7V(排序第8位)、和ERBB2(排序第36位)(補充信息),因為它們都在物理上位于17q區(qū),這是乳癌中DNA擴增的通常目標(12)。還在一項分開的分析中比較了ER-“高置信度”和ER-“低置信度”樣品。在鑒定為受到差異調(diào)控的前50種基因(FDR=4%)中,發(fā)明人再次鑒定出17q基因PMNT(排序第5位)、GRB7V(第10位)、和ERBB2(第28位)展示在“低置信度”樣品中表達升高(補充信息)??傊?,這些結(jié)果說明,對于ER+和ER-兩種亞型,與“高置信度”腫瘤比較,“低置信度”乳瘤與ERBB2表達升高顯著相關,最有可能是由于17q基因座的DNA擴增。然而,請注意,“低置信度”預測與ERBB2+表達之間的關聯(lián)雖然是高度顯著的,但是并不是完美的,因為通過常規(guī)IHC判定為ERBB2+的少數(shù)腫瘤展示“高置信度”預測,并非所有的“低置信度”腫瘤都是ERBB2+的。一種可能是除了ERBB2以外的其它基因可能也促使乳瘤展示“低置信度”狀態(tài)。
為了驗證他們的發(fā)現(xiàn),發(fā)明人分析了其它獨立衍生的乳癌表達數(shù)據(jù)集。首先,在Stanford數(shù)據(jù)集中的九個ERBB2+腫瘤中,所有九個都預測為屬于“低置信度”組(p<0.001,補充信息)。第二,在Rosetta數(shù)據(jù)集中,他們再次發(fā)現(xiàn)了預測的置信度水平與ERBB2表達之間的顯著關聯(lián)(p<0.001,補充信息)。第三,Gruvberger和他的同事采用人工神經(jīng)網(wǎng)絡(ANN)對28個ER+和30個ER-樣品的cDNA微陣列數(shù)據(jù)集預測乳瘤的ER狀態(tài)(3)。他們的結(jié)果顯示于圖4b,描繪了使用ER亞型的前100種區(qū)別基因評估的ANN模型的輸出以及樣品標準偏差(SD)。具有寬SD的樣品與WV和SVM方法學的“低置信度”狀態(tài)類似。由圖4b可以看出,ERBB2+樣品(在圖4a中測定的)趨于與指示高不確定性的大SD相關,特別是ER+腫瘤??傊?,在源自不同實驗室的廣泛數(shù)據(jù)集中觀察到ER預測的置信度水平與ERBB2狀態(tài)之間的關聯(lián),這些數(shù)據(jù)集采用不同的微陣列技術(Affymetrix,eDNA和寡核苷酸),對不同的患者群(亞洲、歐洲/高加索)進行測定,并通過不同的分類算法(WV、SVM、ANN)進行預測。這些結(jié)果在發(fā)明人的數(shù)據(jù)集和公開的數(shù)據(jù)集中的共性說明高ERBB2表達與“低置信度”預測狀態(tài)之間的關聯(lián)可能是乳癌的普遍內(nèi)在特點。
在低置信度樣品中擾動的顯著比例的基因尚未知道受雌激素調(diào)控且在它們的啟動子中缺少潛在的ERE在“低置信度”腫瘤中觀察到的高ERBB2水平和ER-亞型區(qū)別基因的廣泛擾動之間的強關聯(lián)提出了這樣的可能性,即ERBB2可能在功能上有助于這種現(xiàn)象。這能夠發(fā)生的一種可能的機制是通過ERBB2信號途徑,已經(jīng)有人提出它抑制ER的轉(zhuǎn)錄活性(見討論)。在這種設想下,可能預期“高置信度”(ERBB2-)和“低置信度”(ERBB2+)腫瘤之間擾動的顯著比例的基因?qū)⒂墒蹺R調(diào)控的基因組成。發(fā)明人以兩種方法檢驗了這種假說。首先,他們將他們的顯著擾動基因表(表2)與衍生自經(jīng)雌激素(E2)刺激的MCF-7細胞的SAGE表達數(shù)據(jù)(13)進行了比較,以確定二者之間的交疊程度。在SAGE數(shù)據(jù)和“擾動”基因表之間只找到了兩種共有的基因(STC2、TFF1),而且其中之一(TFF1)以與預期相反的方式受到調(diào)控,即在ERBB2+樣品中展示更高表達。這一結(jié)果(在細胞系測定法的限度內(nèi))說明“低置信度”腫瘤中的許多“擾動”基因可能不是直接受雌激素調(diào)控的。第二,因為體外細胞系研究可能不能完全重現(xiàn)雌激素在體內(nèi)的作用,所以發(fā)明人采用了一種生物信息學方法,使用最近描述的算法Dragon雌激素響應元件探測器(DEREF)在擾動基因的啟動子區(qū)域中搜索假定的雌激素響應元件(ERE)(14)。DEREF的預測精確度已經(jīng)在許多體內(nèi)實施例中得到了驗證-它在微陣列實驗中在雌激素響應性基因的啟動子區(qū)域中檢測出ERE模式的頻率比不響應性基因高2.8倍,而且在屬于雌激素誘導的SAGE數(shù)據(jù)集的基因的啟動子中檢測出ERE模式的頻率比在乳癌中的表達與ER負相關的基因高5.4倍(補充信息)。在ER+腫瘤的前50種擾動基因(表2)中,35種可以精確確定轉(zhuǎn)錄起始位點,因而隨后通過DEREF進行分析。在這35種中,只在12個啟動子中以高置信度檢測到ERE(總頻率34%)(表2)。
相反,在ER-腫瘤的前50種擾動基因中,33種通過DEREF進行了分析,而且只在3種中檢測到高置信度ERE(總頻率9%)(表2)。由此,在ER+腫瘤擾動基因的啟動子中檢測到ERE的頻率比ER-腫瘤高3.7倍。這種差異根據(jù)卡方分析(chi-square analysis)是顯著的(p=0.012),說明ERBB2可能經(jīng)由不同機制影響ER+和ER腫瘤中的轉(zhuǎn)錄(見討論)。無論如何,ERE在兩種亞型(ER+和ER-)的擾動基因中都沒有檢測出過度體現(xiàn),說明這些基因可能不是ER的直接轉(zhuǎn)錄靶。這些基因可能代表了ER的間接靶,或者可能經(jīng)由ER不依賴性機制調(diào)控轉(zhuǎn)錄。
用于不管ER型將低和高置信度腫瘤分類的最佳基因組(gene set)的定義這項分析的目的是鑒定在不管它們的ER狀態(tài)的前提下可用于將“高”和“低置信度”腫瘤分類的基因的最佳組。
詳情分析了總共96個腫瘤,其中16個是LC,80個是HC。使用一系列三種獨立分析方法(SAM、GR、和WT,見下文)來鑒定在兩個組之間(LC和HC)受到不同調(diào)控的基因。通過排除一項交叉驗證檢驗法使用支持矢量系統(tǒng)或加權表決作為分類算法評估了這些基因組別用于將腫瘤HC或LC狀態(tài)分類的能力。
結(jié)果SAM(微陣列顯著性分析)在FDR(假發(fā)現(xiàn)率)<15%時,在低置信度腫瘤中鑒定出總共86種上調(diào)基因和2種下調(diào)基因。使用這個基因組(gene set),LOOCV檢驗法得到了84%的分類精確度。表A1顯示了這88種基因。
GR(由SVM進行的基因排序)鑒定出總共251種基因具有將腫瘤HC或LC狀態(tài)分類的能力,且分類精確度為86%。表A2顯示了這251種基因。
WT(Wilcoxon檢驗)在P值<0.05且變化截止值≥2倍時,鑒定出總共38種基因。這38種基因組(set)給出的LOOCV精確度是80%。表A3顯示了這38種基因。
然后鑒定出上述三個基因組別(SAM-88、GR-251、WT-38)的13種“共有”基因。這13個成員基因通過LOOCV實現(xiàn)的分類精確度是84%。本質(zhì)上,這13種“共有基因”是強有力的顯著標志物,而且能夠像其它“完整”標志物組一樣獲得相當?shù)男阅?。因此,它們可以作為“最佳”基因。表A4顯示了這13種基因。
ER陰性“高置信度”與“低置信度”腫瘤的臨床結(jié)果這項分析的目的是比較具有“高置信度”ER陰性腫瘤的患者與攜帶“低置信度”ER陰性腫瘤的患者的臨床預后詳情分析了兩個獨立的數(shù)據(jù)集,稱為“Rosetta”和“Stanford”數(shù)據(jù)集。Rosetta數(shù)據(jù)集包含29個陰性腫瘤,其中19個是“高置信度”,10個是“低置信度”。Stanford數(shù)據(jù)集包含19個ER陰性腫瘤,其中12個是“高置信度”,7個是“低置信度”。分析結(jié)果顯示于圖6(a)和6(b)。
在兩種情況中,具有“低置信度”腫瘤的患者展示比它們的高置信度對應物更差的預后。雖然這種差異不是統(tǒng)計學顯著的,但是這可能是由于這些研究中分析的患者數(shù)目較少。
討論這份報告中的發(fā)現(xiàn)補充并擴充了與根據(jù)ER亞型將乳瘤分類有關的這一領域先前的工作。一般而言,這些研究顯示了,雖然基因表達數(shù)據(jù)可以成功的用于將大多數(shù)腫瘤的ER亞型分類,但是總是存在展示低置信度預測因而不能準確分類的某一群腫瘤(3,4)。發(fā)明人決定通過對這些“低置信度”腫瘤進行深入分析來研究這些“低置信度”樣品。他們得到了許多令人驚訝的發(fā)現(xiàn)。他們發(fā)現(xiàn)與具有“高置信度”腫瘤的患者相比,具有“低置信度”腫瘤的患者展示顯著更差的總體存活和更短時間的遠程轉(zhuǎn)移。通過對基因表達譜進行計算分析得出的“高”對“低置信度”分類還可用于將ER+腫瘤分成展示不同臨床表現(xiàn)的組(圖2)。因為目前不可能使用常規(guī)免疫組織病理學技術區(qū)別這些亞群,所以這些結(jié)果還顯示了通過表達譜和計算分析對乳瘤ER狀態(tài)的分類是如何在醫(yī)學上極其有用的。
發(fā)明人還令人驚訝的發(fā)現(xiàn),“低置信度”狀態(tài)與ERBB2受體表達升高顯著相關。然而,他們強調(diào)ERBB2與“低置信度”預測之間的聯(lián)系仍然是一種聯(lián)想,而且在這點上他們沒有證據(jù)(來自他們自己的數(shù)據(jù))來證明ERBB2在功能上導致引起“低置信度”狀態(tài)。無論如何,考慮到ER和ERBB2是目前在臨床上在乳癌中最有關聯(lián)的兩種分子生物標志物,令人感興趣的是推測這些結(jié)果說明在乳癌中這兩種信號途徑之間可能存在實質(zhì)性串擾(cross-talk),其他人也提出了這種可能性(7)。有趣的是,ERBB2+與“低置信度”預測之間的關聯(lián)雖然是高度顯著的,但是并不是完美的,因為在并非所有的“低置信度”腫瘤都是ERBB2+的同時,也發(fā)現(xiàn)少數(shù)ERBB2+腫瘤展示“高置信度”預測。由此,不可能通過用于檢測ERBB2的常規(guī)組織病理學技術(諸如IHC和FISH)來鑒別“低置信度”乳瘤群。相反發(fā)明人相信,對于通過常規(guī)組織病理學判定為ERBB2+的腫瘤,對這些腫瘤進一步檢查這些特征性“表達擾動”的存在與否可能是一種有希望的方法,可用于區(qū)別有可能是在臨床上更具攻擊性的腫瘤與將沿著相對更為緩慢的過程發(fā)展的腫瘤。
探索這種可能性將是未來研究的一項重要任務。在臨床上,早就將在ER+乳瘤中ERBB2表達升高與對抗激素療法的敏感性降低聯(lián)系起來,而且已經(jīng)報告了許多實驗論文,它們提出了ERBB2活性可能引起這種效果的可能機制。一般而言,在一種最流行的模型中,ERBB2信號的升高引起ER展示降低的轉(zhuǎn)錄活性,或是通過ER基因的轉(zhuǎn)錄下調(diào)(17)、ER的翻譯后修飾(例如磷酸化)(18),或是通過ER結(jié)合共抑制物諸如MTA1的誘導(19)。如果ERBB2的作用主要是通過對ER轉(zhuǎn)錄活性的作用來介導的,那么可以預計其轉(zhuǎn)錄在ERBB2+“低置信度”樣品中顯著擾動的大量的基因應當對應于作為ER直接靶的基因。然而,發(fā)明人發(fā)現(xiàn),在ER+和ER-腫瘤中都顯著擾動的顯著比例的基因先前并未鑒定為受雌激素誘導的基因,而且這些基因在它們的啟動子中似乎還缺少ERE。ER-腫瘤格外如此,其中發(fā)現(xiàn)只有9%的顯著擾動基因在它們的啟動子中含有高置信度的假定ERE。盡管發(fā)明人不能排除這些擾動基因可能是ER的間接靶或者可能經(jīng)非ERE機制由ER激活的可能性,然而這些發(fā)現(xiàn)提出了ERBB2活性可能在乳瘤中以ER不依賴性方式調(diào)控顯著比例的基因的可能性。這可以通過許多途徑發(fā)生。例如,ERBB2可能通過RAS/MAPK的激活或PI3/Akt途徑調(diào)控ER以外的其它轉(zhuǎn)錄因子(18)。
或者,ERBB2活性可能導致染色質(zhì)因子諸如MTA1的誘導,而它們可能發(fā)揮更加多效的作用(19)。
材料和方法乳房組織樣品和患者數(shù)據(jù)在由新加坡國立癌癥中心協(xié)會的組織庫和道德委員會得到相應的批準后,可以由組織庫獲得乳房組織樣品和臨床數(shù)據(jù)。樣品在手術切除后立即在操作室中進行粗略分割,并在液氮中驟凍。組織學信息(ER,ERBB2)是由新加坡綜合醫(yī)院病理科提供的,并且選擇樣品從而為每個數(shù)據(jù)集提供相當數(shù)目的ER+和ER-腫瘤(通過IHC測定)。
根據(jù)冷凍切片的評估,腫瘤樣品含有>50%的腫瘤含量。使用55個腫瘤(35個ER+樣品和20個ER-樣品)作為練習數(shù)據(jù),且將另一單獨組41個腫瘤(21個ER+和20個ER-樣品)用于盲檢。表S1包括了所有樣品和患者臨床數(shù)據(jù)的詳細列表。
樣品制備和微陣列雜交使用Trizol試劑由組織提取RNA,并且為了使用U133A基因芯片進行Affymetrix基因芯片雜交依照制造商的指示進行加工。
數(shù)據(jù)預加工使用Genedate Refiner程序?qū)υ嫉男酒瑨呙杞Y(jié)果進行質(zhì)量控制,并保存在中央數(shù)據(jù)存儲設備中。對表達數(shù)據(jù)進行預加工,即清除其表達在所有樣品中都不存在的基因(即“A”call),將剩余基因進行l(wèi)og2轉(zhuǎn)化,并由樣品介導集中(mediate-centering)。
ER狀態(tài)的預測使用兩種分類算法即加權表決(WV)(20)和支持矢量系統(tǒng)(SVM)(21)將乳瘤根據(jù)ER亞型進行分類。分類精確度定義為正確分類的樣品數(shù)目除以樣品總數(shù)。對于WV分析,分類精確度是使用前50種ER狀態(tài)區(qū)別基因的基因組(set)測定的,而基于SVM的二元分類器采用所有基因。
加權表決(WV)加權表決算法采用信噪比(S2N)度量來進行二元分類。給屬于預測物組的每種基因分派“選票”,表述為待分類樣品基因表達水平與平均類型平均表達水平之間的加權差異。權重是使用如下相關性度量確定的P(g,c)=μ1-μ2σ1+σ2]]>(μ和σ表示基因在兩種類型每一種中的表達水平的平均值和標準偏差)。判定特定類型的最終表決是通過將類型區(qū)別中所使用的每種基因的所有加權選票求和而計算出來的?!邦A測強度”(PS)定義為 其中V勝和V敗分別指獲勝或失敗類型的總票數(shù)。PS反映了獲勝的相對幅度,從而定量反映了預測的確定性。
支持矢量系統(tǒng)(SVM)支持矢量系統(tǒng)是這樣一種分類算法,它在所采用的特征(基因)空間中定義了一個區(qū)別表面,試圖最大程度的將練習數(shù)據(jù)的類型分開(21)。未知測試樣品相對于區(qū)別表面的位置決定其類型。常常計算在n維基因空間中的距離,對應于所考慮基因表達值的總數(shù)。發(fā)明人使用具有線性影響函數(shù)(linear kernel)的SVM-FU(可以由www.ai.mit.edu/projects/cbcl/獲得)來執(zhí)行SVM分析。每個SVM預測的置信度是以測試樣品與區(qū)別表面的距離為基礎的,正如先前所述(22)。
低置信度腫瘤的鑒定由于實現(xiàn)高預測置信度的臨床重要性,發(fā)明人謹慎選擇了高置信度閾值,將潛在的假陽性分類降至最低。根據(jù)排除一項交叉驗證(LOOCV)的結(jié)果,他們使用0.4作為閾值,并鑒定出16份樣品(來自總計96份樣品)是“低置信度”組中的。若腫瘤樣品來自WV的預測強度(PS)低于該閾值,則將它判定為“低置信度”類型。
差異表達基因的選擇和表達擾動的測定微陣列顯著性分析(SAM)是開發(fā)用于鑒定在不同組之間得到差異表達的基因的一種統(tǒng)計方法(11)。根據(jù)基因受到調(diào)控的統(tǒng)計學可能性將它們排序。SAM算法還對表達數(shù)據(jù)進行排列分析以評估隨機鑒定為“受到差異調(diào)控的”(即假陽性)基因的數(shù)目。這個數(shù)值即“假發(fā)現(xiàn)率”(FDR)。根據(jù)期望的嚴謹度,不同報告使用的FDR范圍由<5%至33%(23,24)。
使用Student′st檢驗來比較高”和“低置信度”組之間SAM-133基因組(set)的表達水平。若基因的p值低于0.05,則將它歸入具有顯著的“擾動表達”。
使用DEREF進行的雌激素響應元件(ERE)的計算鑒定使用一種計算算法即Dragon ERE探測器(Dragon ERE Finder)(DEREF)(14)來鑒定假定的雌激素響應元件(ERE),即啟動子中ER的DNA結(jié)合位點(關于DEREF的根本方法學的描述見http://sdmc.lit.org.sg/ERE-V2/index)。在缺省設置,DEREF在人類基因組DNA上平均每13,000nt產(chǎn)生一個ERE模式預測,且靈敏度為83%。為了減少假陽性的數(shù)目,發(fā)明人在這份報告中運用了額外的標準,即預測的17個核苷酸的ERE模式(14)還必須與來自至少一個其它人基因啟動子的類似ERE模式匹配(根據(jù)BLAST(25)匹配且不容許缺口),且條件是后一種模式可以由DEREF以97%靈敏度預測。這份報告中的ERR搜索是使用FIE2程序(26,27)對包含大約11,000種參考人啟動子序列的數(shù)據(jù)庫進行的,這些序列覆蓋相對于基因5′末端的[-3000,+1000]范圍。將要分析的有些基因沒有包含在這個啟動子數(shù)據(jù)庫中,因而沒有對這些基因進行ERE搜索。這些基因在表2中以N/A表示。
Stanford和Rosetta數(shù)據(jù)集中具有低預測強度(“低置信度”)的腫瘤的鑒定對兩個獨立的數(shù)據(jù)集(稱為“Stanford”和“Rosetta”數(shù)據(jù)集)獨立進行加權表決和排除一項交叉驗證。以與圖1相似的方式將結(jié)果制圖,并顯示于圖7。在兩個數(shù)據(jù)集中,低置信度腫瘤可以鑒定為這樣的點,即此處腫瘤開始顯示在質(zhì)量上比腫瘤群主體低的預測強度(“PS”)(“cliff-point”)。盡管每個數(shù)據(jù)集是獨立進行分析的,然而所有數(shù)據(jù)集中“低置信度”腫瘤的比例是高度相當?shù)模秶鸀樗心[瘤的15-19%(圖7(a)中所示Rosetta數(shù)據(jù)集=18/117(15.4%);圖7(b)中所示Stanford數(shù)據(jù)集=14/74(18.9%),我們的數(shù)據(jù)集=16/96(16.7%))。
用于生成圖7數(shù)據(jù)的不同陣列技術的詳情Stanford數(shù)據(jù)集該數(shù)據(jù)是使用雙色cDNA微陣列產(chǎn)生的,其中將通過PCR擴增的cDNA片段(代表不同基因)機器自動地放置到固體基質(zhì)上而形成微陣列。
Rosetta數(shù)據(jù)集該數(shù)據(jù)是使用雙色寡核苷酸微陣產(chǎn)生的,其中將70-80聚物寡核苷酸(代表不同基因)通過化學方法在固體基質(zhì)上原位合成而形成微陣列。
患者群的詳情Stanford數(shù)據(jù)集由78份乳癌(腫瘤)和7份非惡性樣品的cDNA微陣列數(shù)據(jù)以及總體患者存活信息組成。
Rosetta數(shù)據(jù)集由使用基于寡核苷酸的微陣列描繪(profiled)的117個早期(淋巴結(jié)陰性)乳瘤組成。
群體大小如上所示,低置信度腫瘤占據(jù)了每個乳瘤群的約15-19%。為了確信的鑒定這個腫瘤亞群,優(yōu)選需要至少25-30份圖譜的最小數(shù)據(jù)集,優(yōu)選更多圖譜(約80-100個腫瘤,正如上文三個數(shù)據(jù)集)。
樣品數(shù)據(jù)表S7顯示了加權表決算法中使用的SAM-133基因組(geneset)中每種基因的平均值(μ)和標準偏差(σ)參數(shù)。給予SAM-133基因組(geneset)中一組基因的表達水平后,這些數(shù)據(jù)可用于確定未知乳瘤樣品為高或低置信度。表2的基因包括在SAM-133基因組中。該數(shù)據(jù)特異于加權表決技術,這種技術可應用于來自Affymetrix U133基因芯片的表達數(shù)據(jù)。
表S8顯示了高置信度和低置信度樣品間表A4多基因分類物(共有的13種基因)的表達數(shù)據(jù)。該數(shù)據(jù)特異于Affymetrix U133A基因芯片,而且已經(jīng)進行了數(shù)據(jù)預加工。表A4多基因分類物的基因表達譜可以作為練習數(shù)據(jù)用于構(gòu)建預測模型(例如WV和SVM),然后可以確定未知乳瘤的置信度。
數(shù)據(jù)以制表符為界,而且具有如下格式列第1列預后基因組(set)的探針I(yè)D第2列基因名稱第3列和其它列基因表達數(shù)據(jù)行第1行樣品Id(35份樣品)第2行樣品的置信度(高或低)第3行和其它行基因表達數(shù)據(jù)基因表達數(shù)據(jù)是如“樣品制備和微陣列雜交”和“數(shù)據(jù)預加工”(見材料和方法部分)中所述產(chǎn)生的。
表S9顯示了用于表A4基因組(gene set)中每種基因的加權表決算法中所使用的平均值(μ)和標準偏差(σ)參數(shù)。給予表A4基因組中一組基因的表達水平,這些數(shù)據(jù)可用于確定未知乳瘤樣品為高或低置信度,不管腫瘤的ER狀態(tài)。該數(shù)據(jù)特異于加權表決技術,這種技術可應用于來自Affymetrix U133基因芯片的表達數(shù)據(jù)。
參考文獻1.Tavassoli,F(xiàn).A.and Schhitt S.J.(1992)Pathology ofthe Breast.In(Elsevier)2.Biswas,D.K.,Averboukh,L.,Sheng,S.,Martin,K.Ewaniuk,D.S.,Jawde,T.F.,Wang,F(xiàn).,pardee,A.B.(1998)Classification of brsast cancer cells on the basis of afunctional assay for estrogen receptor.Mol Med,4,454-4673.Gruvberger,S.,M.Ringner,Y.Chen,S.panavally,L.H.Saal,A.Borg,M.Ferno,C.Peterson,and P.Meltzer(2001)Estrogen Receptor Status in Breast Cancer is Associated withRemarkably Distinct Gene Expression Patterns.CancerResearch,61,5979-59844.West,M.,Blanchette,C.,Dressman,H.,Huang,E.,Ishida,S.,Spang,R.,Zuzan,H.,Olson,J.A.Jr,Marks,J.R.,Nevins,J.R.(2001)Predicting the clinical status ofhuman breast cancer by using gene expression profiles.ProcNatl Acad Sci USA.98,11462-67.
5.Pietras R.J.,Arboleda,J.,Reese,D.M.,Wongvipat,N.,Pegram,M.D.,Ramos,L.,Gorman,C.M.,Parker,M.G.,Sliwkowski,M.X.,Slamon,D.J.(1995)HER-2tyrosine kinase pathway targets estrogen receptor andpromotes hormone-independent growth in human breast cancercells.Oncogene,10,2435-24466.Kurokawa,H.and Arteaga,C.L.(2001)Inhibition of erbBreceptor(HER)tyrosine kinases as a strategy to abrogateantiestrogen resistance in human breast cancer.ClinicalCancer Research,12,4436s-4442s7.Bange,J.,Zwick,E.,and Ullrich,A.(2001)Moleculartargets for breast cancer therapy and prevention.NatureMedicine,7,548-5528.Chia,K.S.,A.Seow,H.P.Lee,and K.Shanmugaratnam(2000)Cancer Incidence in Singapore,1993-1997.In(Singapore Cancer Registry)9.Sorlie T,Perou CM,Tibshirani R,Aas T,Geisler S,Johnsen H,Hastie T,Eisen MB,van de Rijn M,Jeffrey SS,Thorsen T,Quist H,Matese JC,Brown PO,Botstein D,Eystein Lonning P,Borresen-Dale AL.(2001)Gene expressionpatterns of breast carcinomas distinguish tumour subclasseswith clinical implications.Proc Natl Acad Sci USA.98,10869-74.
10.Van′t Veer LJ,Dai H,van de vijver MJ,He YD,Hart AA,Mao M,Peterse HL,van der Kooy K,Marton MJ,Witteveen AT,Schreiber GJ,Kerkhoven RM,Roberts C,Linsley PS,BernardsR,F(xiàn)riend SH.(2002)Gene expression profiling predictsclinical outcome of breast cancer.Nature,415,530-6.
11.Tusher,V.G.,R.Tibshirani,and G.Chu(2001)Significance Analysis of Microarrays Applied to the IonizingRadiation Response.Proc.Natl.Acad.Sci USA.98,5116-512112.Kallioniemi A,Kallioniemi OP,Piper J,Tanner M,StokkeT,Chen L,Smith HS,Pinkel D,Gray JW,Waldman FM.(1994)Detection and mapping of amplified DNA sequences in breastcancer by comparative genomic hybridization.Proc Natl AcadSci USA.91,2156-60.
13.Charpentier AH,Bednarek AK,Daniel RL ,Hawkins KA,Laflin KJ,Gaddis S,MacLeod MC,Aldaz CM.(2000)Effects ofestrogen on global gene expressionidentification of noveltargets of estrogen action.Cancer Research,60,5977-83.
14.Bajic,V.B.,Tan,S.L.,Chong,A.,Tang,S.,Strom,A.,Gustafsson,J.,Lin,C.Y.,Liu,E.(2002)Dragon ERE Finderver.2A tool for accurate detection and analysis ofestrogen response elements in vertebrate genomes.NucleicAcid Res.,in press
15.Alizadeh,A.A.,M.B.Eisen,R.E.Davis,C.Ma,I.S.Lossos,A.Rosenwald,J.C.Boldrick,H.Sabet,T.Truc,Y.Xin,J.I.powell,L.Yang,G.E.Marti,T.Moore,J.Hudson,L.Lisheng,D.B.Lewis,R.Tibshirani,G.Sherlock,W.C.Chan,T.C.Greiner,D.D.Weisenburger,J.O.Armitage,R.Warnke,R.Levy,W.Wilson,M.R.Grever,J.C.Byrd,D.Botstein,P.O.Brown,and L.M.Staudt(2000)Distinct types of diffuse large B-celllymphoma identified by gene expression profiling.Nature,403,503-51116.Bittner,M.,P.Meltzer,Y.Chen,Y.Jiang,E.Seftor,M.Hendeix,M.Radmacher,R.Simon,Z.Yakhini,A.Ben-Dor,N.Sampas,E.Dougherty,E.Wang,F(xiàn).Marincola,C.Gooden,J.Lueders,A.Glatfelter,P.Pollock,J.Carpten,E.Gillanders,D.Leja,K.Dietrich,C.Beaudry,M.Berens,D.Alberts,V.Sondak,N.Hayward,and J.Trent(2000)Molecular classification of cutaneous malignant melenoma bygene expression profiling.Nature,406,536-54017.Grunt TW,Saceda M,Martin MB,Lupu R,Dittrich E,Krupitza G,Harant H,Huber H,Dittrich C(1995).Bidirectional interactions between the estrogen receptor andthe cerbB-2 signaling pathwaysheregulin inhibitsestrogenic effects in breast cancer cells.Int J Cancer,63,560-56718.Stoica GE,F(xiàn)ranke TF,Wellstein A,Morgan E,Czubayko F,List HJ,Reiter R,Martin MB,Stoica A(2003).Heregulin-betal regulates the estrogen receptor-alpha gene expressionand activity via the ErbB2/PI 3-K/Akt pathway.Oncogene,22,2073-2087.
19.Mazumdar,A.,Wang,R.A.,Mishra,S.K.,Adam,L.,Bagheri-Yarmand,R.,Mandal,M.,Vadlamudi,R.K.,Kumar,R.(2000)Transcriptional repression of oestrogen receptor bymetastasis-associated protein 1 corepressor.Nature CellBiol,3,30-3720.Golub TR,Slonim DK,Tamayo p,Huard C,Gaasenbeek M,Mesirov JP,Coller H,Loh ML,Downing JR,Caligiuri MA,Bloomfield CD,Lander ES.(1999).Molecular classificationof cancerclass discovery and class prediction by geneexpression monitoring.Science,286,531-7.
21.Vapnik V.(1998)Statistical Learning Theory.Wiley,NewYork.
22.Ramaswamy S,Tamayo P,Rifkin R,Mukherjee S,Yeang CH,Angelo M,Ladd C,Reich M,Latulippe E,Mesirov JP,PoggioT,Gerald W,Loda M,Lander ES,Golub TR.(2001)Multiclasscancer diagnosis using tumour gene expression signatures.proc Natl Acad Sci USA.98,15149-54.
23.Mueller,A.,O′Rourke,J.,Grimm,J.,Guillemin,K.,Dixon,M.F.,Lee,A.and Falkow,S.(2003)Distinct geneexpression profiles characterize the histopathologicalstages of disease in Helicobacter-induced mucosa-associatedlymphoid tissue lymphoma.Proc Natl Acad Sci USA,100,1292-1297.
24.Sanoudou,D.,Haslett,J.N.,Kho,A.T.,Guo,S.,Gazda,H.T.,Greenberg,S.A.,Lidov,H.G.V.,Kohane,I.S.,Kunkel,L.M.,and Beggs,A.H.(2003)Expression profiling revealsaltered satellite cell numbers and glycolytic enzymetranscription in nemaline myopathy muscle.proc Natl AcadSci USA,100,4666-4671.
25.Altschul,S.F.,Madden,T.L.,Schaffer,A.A.,Zhang,J.,Zhang,Z.,Miller,W.and Lipman,D.J.(1997)Gapped BLAST andPSI-BLASTa new generation of protein database searchprograms,Nucleic Acids Res.25,3389-3402.
26.Chong,A.,Zhang,G.,Bajic,V.B.(2002)Information andsequence extraction around the 5′-end and translationinitiation site of human genes,In Silico Biology,2,461-465.
27.Chong,A.,Zhang,G.,Bajic,V.B.(2003)FIE2A programfor the extraction of genomic DNA sequences around the startand translation initiation site of human genes,NucleicAcids Research,in press.
28.Eisen MB,Spellman pT,Brown PO,Botstein D.(1998)Cluster analysis and display of genome-wide expressionpatterns.Proc Natl Acad Sci USA.95(25),14863-14868.
表2在ER+/低和ER+/高樣品(a)以及ER-/低和ER-/高樣品(b)之間顯著擾動的前50種基因。在ERE列中,“ERE”指示啟動子含有由DEREF預測的高置信度假定ERE;“無ERE”指示沒有發(fā)現(xiàn)假定ERE,而“低”指示對于該啟動子以中置信度發(fā)現(xiàn)ERE。N/A表示沒有分析該啟動子,因為不可能根據(jù)全長轉(zhuǎn)錄本確定它們的轉(zhuǎn)錄起始位點?;蚋鶕?jù)它們在高和低置信度樣品之間的S2N比率排序。
表2
表S1乳瘤樣品的臨床信息
*ERBB2狀態(tài)的確定在練習組(55份樣品)中,ERBB2狀態(tài)是通過常規(guī)的免疫組化測定的,而且與表達譜一致。21份報告為ERBB2+。對于其它數(shù)據(jù)集,ERBB2狀態(tài)是通過ERBB2和其它17q連鎖基因的表達譜和分析來測定的。
表S2獨立檢驗和外部乳癌數(shù)據(jù)庫的分類結(jié)果排除一項交叉驗證(LOOCV)我們使用標準的排除一項交叉驗證(LOOCV)方法來評估練習組的分類精確度。在LOOCV中,首先將練習組中的一個樣品“省去”,并對剩余樣品進行分類操作(例如基因選擇和分類練習)。然后使用練習后的算法將“省去的”樣品分類,并對練習組中的所有樣品重復這一過程。
對所有四個數(shù)據(jù)集(包括PS)進行WV分析的結(jié)果以及ERBB2表達與預測置信度之間關聯(lián)的相應p值可以由http://www.omnjarray.com/ERClassification.html的Excel文件獲得。
表S3對ER亞型區(qū)別重要的基因的鑒定使用微陣列顯著性分析(SAM)對在ER+和ER-腫瘤之間受到差異調(diào)控(FDR為0%,表達變化≥2倍)的133種基因進行鑒定和排序。其中122種在ER+中上調(diào)(陽性基因),11種在ER+中下調(diào)(陰性基因)。特定基因的S2N比率反映了在低和高置信度樣品間觀察到的表達擾動的程度。
與ER+狀態(tài)負相關的前54種ER區(qū)別基因由于ER陰性基因的數(shù)目有限,因此我們降低了SAM的閾值來衍生FDR為0%的54種基因。這些陰性基因用于圖2c和d中。表S4“高”和“低置信度”腫瘤整體表達譜的比較使用SAM鑒定在a)ER+“高”和“低”置信度腫瘤以及b)ER-“高”和“低”置信度腫瘤之間受到差異調(diào)節(jié)的基因。對于ER+的比較,50種基因鑒定為在ER+/低中與ER+/高腫瘤相比上調(diào),39種下調(diào)。對于ER-的比較,50種基因鑒定為在ER-/低中與ER-/高腫瘤相比上調(diào),沒有基因鑒定為下調(diào)。
DRAGON ERE探測器(DEREF)用于在基因啟動子中鑒定假定ERE的用途使用DEREF算法在屬于多種類型的基因的啟動子中確定潛在的ERE(關于DEREF的根本方法學描述見http://sdmc.lit.org.sg/ERE-V2/index)。參考文獻14的原稿可以經(jīng)由http://www.omniarray.com/ERCLassification.html獲得。雌激素誘導的SAGA數(shù)據(jù)集衍生自http://143.111.133.249/ggep(見參考文獻13),采用閾值3hr,增加倍數(shù)≥2和3hr,p值<0.005。選擇了65種SAGE標簽。這65種SAGE標簽與68種基因匹配,并將它們進一步進行ERE分析。與ER狀態(tài)負相關的前100種基因的基因組(geneset)是使用SAM衍生的。表S6a描述了結(jié)果。
表S6a對多個數(shù)據(jù)集的ERE預測E2誘導的SAGE數(shù)據(jù)集、與ER+負相關的基因和SAM-133基因組(set)
表S6b通過DEREF對正文主體表2所列基因預測的ERE模式
表S7SAM-133基因集表達數(shù)據(jù)的平均值(μ)和標準偏差(σ)的加權表決參數(shù)
表S8表A4的基因(共有的13種基因)的基因表達數(shù)據(jù)UID名稱 2000683T+neg 2000775T+neg 2000804T+neg 980346T+pos 980383T+neg990082T+neg 980177T+neg 980178T+neg980403T+neg 980434T+neg 990075T+neg990113T+neg 990107T+neg 980203T+neg980208T+pos 980220T+pos 980221T+neg990115T+pos 990375T+neg 980404T+neg980409T+neg 990123T+neg 2000422T+neg2000787T-LA 2000818T-LA 20020021T-LA 20020051T-LA 20020056T-LA 980197T+pos980215T+neg 980217T+neg 980261T+neg980391T+neg 2000768T+pos 2000779T+neg2000948T+neg 20020160T-LA 2000401T-LA20020071T-LA 2000215T-正常樣2000220T-LA 980333T-LA980058T-LA 980278T-LA980288T-ERBB2 2000597T-LA2000609T-LA 2000272T-LA 2000274T-正常樣980285T-基礎 2000593T-基礎2000638T-基礎2000641T-ERBB22000675T-ERBB2 2000287T-ERBB22000320T-基礎2000880T-基礎2000731T-基礎 980353T-neg2000829T-pos 980373T-pos 2000500T-neg2000759T-pos 980238T-pos 980395T-pos980396T-pos 980411T-neg 980441T-neg990262T-neg 980216T-neg 980194T-pos980247T-pos 980338T-neg 990174T-neg990299T-neg 2000210T-ERBB2980315T-LA 980335T-ERBB2 980193T-基礎980256T-基礎 980214T+pos 990148T+pos2000209T+pos 990223T+pos2000104T-ERBB2 2000651T-正常樣 2000237T-ERBB2 2000652T-ERBB2 2000376T-ERBB22000399T-ERBB2 20020090T-ERBB2 2000709T-ERBB2 2000813T-pos 980380T-pos 990134T-pos2000171T-ERBB2置信度 高 高 高 高 高 高 高 高 高高 高 高 高 高 高 高 高 高 高 高 高高 高 高 高 高 高 高 高 高 高 高 高高 高 高 高 高 高 高 高 高 高 高 高高 高 高 高 高 高 高 高 高 高 高 高高 高 高 高 高 高 高 高 高 高 高 高高 高 高 高 高 高 高 高 高 高 高 低低 低 低 低 低 低 低 低 低 低 低 低低 低 低201525_at 載脂蛋白D 2.7497.3322.1112.8031.7521.9581.752.7124.5413.0093.6134.2911.4864.2042.8493.3883.2623.6033.0977.4195.4914.8731.4442.9541.2963.3522.8562.2665.1454.6954.0726.9634.8042.8860.7888 3.2260.3389 1.9212.8034.2614.9934.2510.7856.0664.5392.0195.2351.8084.5920.09904 2.77 2.853.0593.3531.2291.6791.8792.77 0.9126 4.2466.9573.7537.1094.31
1.6242.9862.6030.9844.7970.5836 5.4332.7221.66 3.1612.940.3395 1.0084.0232.4174.21 4.8335.1180.7322 7.8935.4435.3691.1046.1982.8193.7731.5361.6736.5624.9736.7966.121202991_at 含START結(jié)構(gòu)域3 0.1623 0.7959 -0.3925 3.0140.45130.2522 0.3208 -0.2599 0.5714 -0.5644 0.5246 0.8061 0.6035 -0.3416 2.8860.8943-0.6905 2.9910.6204 0.4511 -0.4408 -0.2534 0.07863 1.5170.6792 0.6636 0.2455-0.1443 2.871-0.3209 -0.05486 1.6050.1314 2.2520.002929 0.99720.08306 2.6230.4914 0.4794 -0.02506 0.1142 0.3137 0.5399 3.0050.20012.7580.1815 0.1945 -0.05305 0.6643 0.5267 2.0020.4623.0140.28850.1389 -0.05295 -1.923 1.8820.5175 0.09324 1.6673.3282.3843.6511.2990.1444 0.1581.2342.21 0.1798 -0.1465 0.4110.5087 3.4571.7453.551-0.2846 0.1582.62 3.53 3.7283.1490.2238 -0.9861 -0.3033 3.286-0.07757 2.7363.5792.4661.4952.5233.7033.77203628_at 人胰島素樣生長因子1受體mRNA,3′序列,mRNA序列2.7952.3815.7731.45 3.5683.2882.6312.0622.5154.69322.9843.0984.6672.5132.2322.4420.5148 2.4523.6754.1112.553.7051.1151.5381.7312.76 3.5592.2591.8550.6405 3.6574.9282.6646.7326.7520.5081 2.53 1.5031.8724.1241.4663.48 2.9030.2213 3.5561.22 1.1933.206-0.1502 0.07299 0.3962 0.5347 0.7098 0.066930.09198 0.3905 -0.02844 -0.009415 1.0250.7389 2.1940.4784 1.7230.2220.05793 0.5733.0541.3380.6058 1.4261.54 0.9868 0.84 0.12640.2324 -0.258 1.21 -0.8171 1.9981.449-0.1467 0.3772 1.21 -0.4615 1.4510.1205 -0.1947 -0.9146 1.441-0.8475 0.04923 0.4557 -2.688 0.2235 0.5537205307_s_at 犬尿氨酸3-單加氧酶(犬尿氨酸3-羥化酶) -0.117 -1.011-2.489 -0.9037 -1.085 -1.12-1.219 -1.735 -1.829 -1.721 -1.433 -0.020381.167-1.694 -1.571 1.055-2.743 0.03987 0.01731 0.1225 0.1203 -1.484 -0.591-1.35-0.2275 0.7435 -1.218 -0.4883 -0.8609 -0.7848 -0.2848 -1.499 -0.3403 -1.388-0.9036 -0.3888 -0.4186 -1.082 -1.261 -1.201 -0.1329 -1.222 -1.679 -0.2855 0.5551-1.587 -0.1132 -1.485 -1.130.7033 -0.7773 0.7705 0.008025 -0.2992 0.06924-0.3291 -2.038 -1.017 -3.967 -0.4769 0.8039 -1.589 -0.7423 -0.4919 -1.328 0.2971-1.549 -0.7277 1.643-1.604 0.5154 -0.09918 -0.6515 -0.8327 -0.986 -0.04337-0.95-0.273 -0.3601 -2.266 1.1820.7985 -0.8065 1.0632.302-0.6945 -1.2190.9502 -0.894 0.7855 -1.668 0.1515 -0.3956 -1.677 0.22 1.595
210761_s_at 生長因子受體結(jié)合蛋白70.4452 1.2051.4122.8581.4931.5080.3961 0.7703 1.0330.9220.4947 1.0161.6681.6692.9061.5680.8893.42 1.3350.6151 0.7453 0.6185 1.2481.7482.2380.65570.7697 1.2964.5880.7527 0.5559 0.7794 0.9863 1.9811.5030.3864 0.54893.7040.7039 1.5610.9271 0.6039 0.9461 1.4713.6991.3341.9810.60540.5662 1.0511.6771.5073.0421.3074.4721.1890.7615 0.2280.62533.2141.9660.6688 2.2633.0932.8391.9881.7211.6840.6625 1.1592.941.0630.1599 1.04 0.2849 3.6972.31 3.8870.6321 0.7463 3.7285.2683.9123.6661.9840.7088 0.5511 3.9825.0424.3214.3394.2482.1743.3174.0324.736210930_s_at v-erb-b2成紅細胞性白血病病毒癌基因同系物2,成神經(jīng)細胞/膠質(zhì)細胞瘤衍生癌基因同系物(禽類) -0.8461 -2.708 -0.9694 0.3187-1.475 -1.568 0.3559 -1.343 -2.559 -0.9886 -1.727 -1.466 -0.1998 -0.8977 0.3377-0.374 8-1.943 1.36 -1.455 -1.361 -1.218 -1.374 -0.4494 1.16 0.7238 -0.4209-2.201 -0.4352 1.833-1.829 -0.6478 -4.138 -0.5983 0.6215 -1.066 -1.07-0.3321.556-0.5345 -0.8175 -0.2384 -1.649 -0.837 0.4871.322-0.7451 0.7285 -0.9136-1.812 -3.225 -0.1626 -1.191.542-0.4326 1.7050.2116 -0.2503 -1.408 -1.2921.544-0.8231 -1.735 0.4762 0.09548 -0.7243 -0.7869 -1.927 -1.524 -2.637 -4.457-0.278 -2.773 -2.013 -1.611 -2.056 1.5320.08922 2.774-0.2269 -1.081.0782.71.3971.554-1.5 -0.9627 -0.8952 2.0691.7283.2123.1213.1491.108-0.7891 0.9288 2.864211657_at 癌胚抗原相關細胞粘附分子6(非特異性交叉反應性抗原)3.8871.1275.0691.1624.2562.3720.06854 2.4960.5341.8050.6949 4.2373.755-0.05911 1.4711.3881.5481.0324.1760.4073.7423.6384.0063.88 5.9881.4330.1368 2.1793.5370.7946 0.4718 3.327-0.02141 1.8420.3149 5.0840.3826 1.889-0.98342.4160.3955 0.08346 1.6032.92 3.1580.7611 5.397-0.485 0.3396 0.19820.2382 1.3764.4940.6605 4.6744.38 -0.2242 0.2056 -0.3151 3.8630.9830.8939 1.4740.5326 3.265-0.034 -0.8774 -0.5614 2.6875.2574.6830.73890.7168 0.8051 4.1894.8944.9051.1340.4310.5341 3.92 5.6434.5364.8693.96 0.6223 5.2754.33 3.6874.6730.2819 1.2242.1265.623.8710.6072
213557_at EST,與普遍轉(zhuǎn)錄的tetratricopeptide重復基因微弱相似,Y染色體;Y染色體上的普遍轉(zhuǎn)錄的TPR基因(人類)[H.sapiens] 1.2521.1840.5043 3.1531.3871.8680.5293 -0.2155 0.32750.5276 1.3951.8511.5430.5434 2.3971.5910.1861 1.6231.7230.75960.5377 0.3335 1.5962.1541.5131.6030.1632 1.1813.9690.5737 1.1362.6450.6143 2.3390.2645 0.7221 0.6219 3.4990.5513 1.0990.9166 1.3780.6302 0.9299 3.5920.9732 3.4270.7249 0.7654 0.5861.397-1.583.0880.7145 4.6630.5107 1.3681.2510.8759 1.8622.0721.0480.8533 3.8362.6934.0551.1260.4930.3712 1.4621.2110.6211.5160.4326 1.09 2.632.4190.6670.5337 0.3296 3.7493.4943.8343.9561.295-0.3071 0.53770.8307 1.0862.5343.7333.3212.1270.05067 3.98 4.461214451_at轉(zhuǎn)錄因子AP-2β(激活增強子結(jié)合蛋白2β)-3.097 2.467-3.372 3.4390.1365 -1.298 2.39 1.4412.8392.516-1.258-2.597 -0.5943 1.978-0.9813 -1.202 1.4963.43 3.001-1.562 2.541-4.5192.8890.6659 1.661-2.472 1.6233.059-2.935 3.5751.469-4.593.6033.517-3.813 -0.1878 4.003-0.4031 0.88 2.51 -4.282.7531.234-4.5883.173-4.705 1.066-1.809 1.967-2.498 1.1530.2792.1173.623-0.0053831.745-4.141 -1.479 -1.257 1.7984.45 -1.547 2.5063.646-3.226 -0.913-3.058 -3.123 3.658-1.289 3.548-0.2634 -1.531 -4.923 2.2471.723-2.0253.197-2.015 -0.7008 4.0683.333-1.154 4.0283.88 0.3311 3.34 2.4442.6313.6823.38 3.92 3.6184.3053.96 4.973215465_at ATP結(jié)合盒,亞家族A(ABC1),成員12 -5.53-0.2993-2.982 -1.196 -1.515 -1.129 1.018-2.386 -0.3181 -1.932 -1.838 0.7215 -1.211-1.273 -1.483 -0.995 -1.928 -1.288 -1.39-0.7415 -0.23-2.464 -1.478 -0.2715-1.114 -2.064 1.22 -2.498 -0.9399 -2.507 -0.4786 -2.321 -0.5358 -2.004 -2.388-2.234 0.078-1.043 1.185-1.93-1.992 -2.169 -2.156 -2.180.381-4.8891.702-1.345 -1.946 -1.149 -0.7878 -0.6671 -1.429 -0.559 -1.242 -2.897 -2.329-1.631 -2.476 -0.6065 0.4199 -2.905 -0.8082 -1.942 -1.804 -1.404 -1.384 -3.4710.2961 -0.6596 -0.5091 -2.246 -2.386 -2.697 -1.245 0.4357 -0.7417 -0.01172-1.168 -2.224 -0.5227 1.617-0.04832 0.4729 -0.4882 -2.002 -0.5482 1.449-1.664 0.7275 0.8683 -2.091 0.14 0.4634 1.9160.7919219429_at 脂肪酸羥化酶 -1.539 -0.2486 -0.06329 -0.606 -1.426-1.273 0.05695 0.4841 0.3636 -0.7702 -1.403 -0.7 -1.611 -0.5367 0.6557 -0.5048
-0.9159 0.8194 -1.687 -1.037 -0.6167 -0.1531 -1.306 0.1918 -0.531 0.2454 0.7654-1.344 0.7986 0.2327 -0.9519 -0.8758 -1.052 -0.6758 0.8207 -0.1432 -0.4994 -0.0002446-0.2944 -1.152 -0.2746 -1.314 0.3005 -0.5842 0.218-0.5254 -0.7197 -0.6967 -0.2-0.8899 -0.2978 0.2625 1.562-1.044 1.383-0.5091 -0.3997 -0.8286 -3.217 -0.24820.5994 0.06282 0.06886 0.1471 0.9134 0.1739 0.6888 -1.575 0.3812 -0.6085 0.7442-0.7528 -0.5949 -0.4236 -0.7073 1.218-0.4363 1.2090.3444 -0.969 0.2863 0.95320.7178 1.2960.6456 -0.4466 1.1520.4512 1.9331.497-0.3116 0.1834 0.1421.2281.8761.35220149_at 假定蛋白FLJ22671-0.585 -1.416 -0.7662 2.221-0.3646-0.8895 -0.6838 -0.5557 -0.4347 -0.4597 -0.07175 -0.09613 -0.4148 -0.781-1.112 -0.482 -1.328 -0.6111 -2.445 -1.028 -0.6113 -0.08989 -1.397 -0.5025-0.3443 -1.424 -0.3695 -0.8427 0.4616 -1.052 -1.163 -0.9368 -0.3882 0.7431 -0.04467-0.4188 -0.7193 2.204-1.393 -0.7435 -1.423 -0.5707 -0.4196 -0.6552 2.686-0.69054.914-0.3156 -0.9062 -0.1168 0.2261 0.1723 0.3861.1912.885 -0.7671 -2.42-0.2398 -1.799 2.0440.8819 -0.3224 3.6041.0233.7362.807 -0.5473 -1.3570.3665 -0.2828 -0.246 -0.01971 0.4476 -0.5921 -0.2366 1.906 -0.3266 2.0790.2249 -0.5295 0.08667 2.6911.6361.349-0.3243 -1.536 1.435 4.099 -0.81611.7342.6411.3011.355-1.242 1.7083.09639248_at aquaporin 3 0.4769 -0.2623 -0.7927 1.9480.03186 2.194 0.60442.335-0.1663 0.4244 1.4763.0250.6734 2.1023.241-0.5173 0.82673.7892.556-0.07496 2.8041.786-1.024 0.4586 2.7950.6762 0.07351 0.33960.4198 0.7147 1.6772.114-0.1301 0.06363 3.3363.3140.1946 1.919 -0.16130.8785 -0.1946 -0.1926 -1.876 3.8810.3148 -1.082 -0.852 0.0508 0.3455-0.92680.2052 0.2611 0.8294 2.1 1.9873.6960.8302 1.104-1.175 3.041 0.075213.4343.5430.13 1.3050.1424 2.2711.8410.7022 4.044 4.959 0.28980.4821 1.6420.9258 1.169-0.382 -0.8969 0.8155 1.1563.712 2.333 1.7221.4663.2471.1281.1673.68 4.0884.324-0.5153 2.505 5.002 0.058945.2920.9251注neg-陰性;pos-陽性表S9表A4(共有的13種)基因組(geneset)表達數(shù)據(jù)的平均值(μ)和標準偏差(σ)的加權表決參數(shù)
表A1SAM(微陣列顯著性分析)在FDR(假發(fā)現(xiàn)率)<15%,鑒定了總共86種在低置信度腫瘤中上調(diào)的基因和2種下調(diào)的基因。使用這個基因組(gene set),LOOCV檢驗得到84%的分類精確度。
表A2GR(由SVM進行的基因排序)鑒定出總共251種基因具有將腫瘤HC或LC狀態(tài)分類的能力,且分類精確度為86%。根據(jù)基因的區(qū)別性強度將它們排序,這是通過基因特異錯誤分類率計算的。基因排序SVM軟件包由GeneDataTM(巴塞爾,瑞士)提供。
表A3WT(Wilcoxon檢驗)在P值<0.05且截止值≥2倍變化時,鑒定出總共38種基因。這38種基因的組給出的LOOCV精確度是80%。根據(jù)基因的顯著性(P值)將它們排序。
表A4然后鑒定出三個基因組(SAM-88、GR-251、WT-38)的13種“共有”基因。這13種成員基因通過LOOCV實現(xiàn)的分類精確度是84%。本質(zhì)上,這13種“共有基因”是強有力的顯著標志物,而且能夠像其它“完整”標志物集一樣獲得類似的性能。
表LISAM-133基因的查閱ID表SAM-133順序探針_ID Unlgene GenBank1 205225_atHs.1657 NM_000125.12 209603_atHs.169946 AI7961693 204508_s_at Hs.279916 BC001012.14 209604_s_at Hs.169946 BC003070.15 209602_s at Hs.169946 AI7961696 206754_s_at Hs.1360 NM_000767.27 203963_atHs.5338 NM_001218.28 214164_x_at Hs.5344 BF7522779 212956_atHs.90419AI34809410 215867_x_at Hs.5344 AL050025.111 210735_s_at Hs.5338 BC000278.112 214440_atHs.155956 NM_000662.113 202089_s_at Hs.79136NM_012319.214 210085_s_at Hs.279928 AF230929.115 205862_atHs.193914 NM_014668.116 202088_atHs.79136AI63544917 211712_s_at BC005830.118 206401_s_at Hs.101174 J03778.119 215304_atHs.159264 U79293.120 218195_atHs.15929NM_024573.121 212195_atHs.71968AL049265.122 203928_x_at Hs.101174 AI87074923 209460_atHs.283675 AF237813.124 212960_atHs.90419BE64655425 209443_atHs.76353J02639.126 209173_atHs.91011AF088867.127 203071_atHs.82222NM_004636.128 203571_s_at Hs.74120NM_006829.129 205354_atHs.81131NM_000156.330 213712_atHs.30504BF50863931 41660_at32 220744_s_at Hs.70202NM_018262.133 204798_atHs.1334 NM_005375.134 215552_s_at Hs.272288 AI07354935 209339_atHs.20191U76248.136 210272_atHs.330780 M29873.137 205186_atHs.33846NM_003462.238 207414_s_at Hs.170414 NM_002570.1
39 205009_atHs.1406 NM_003225.140 203628_atHs.239176 H0581241 211323_s_at Hs.198443 L38019.142 201825_s_at Hs.238126 AL57254243 211234_x_at Hs.1657 AF258449.144 209459_s_at Hs.283675 AF237813.145 212196_atHs.71968AW24291646 203438_atHs.155223 AI43582847 217838_s_at Hs.241471 NM_016337.148 204041_atHs.82163NM_000898.149 203929_s_at Hs.101174 AI05635950 200670_atHs.149923 NM_005080.151 219414_atHs.12079NM_022131.152 203627_atHs.239176 AI83069853 208451_s_at Hs.278625 NM_000592.254 213419_atHs.324125 U62325.155 205768_s_at Hs.11729NM_003645.156 204862_s_at Hs.81687NM_002513.157 210480_s_at Hs.22564U90236.258 205696_s_at Hs.105445 NM_005264.159 203685_atHs.79241NM_000633.160 218976_atHs.260720 NM_021800.161 219197_s_at Hs.222399 AI42424362 202996_atHs.82520NM_021173163 205734_s_at Hs.38070AI99046564 21123_s_at Hs.1657 AF258450.165 211000_s_at Hs.82065AB015706.166 217190_x_at Hs.247976 S6777767 202752_x_at Hs.22891NM_012244168 201754_atHs.74649NM_004374169 204623_atHs.82961NM_003226170 207038_atHs.114924 NM_004694.171 212637_s_at Hs.324275 AU15518772 208682_s_at Hs.4943 AF126181.173 218502_s_at Hs.26102NM_014112.174 202376_atHs.234726 NM_001085.275 215616_s_at Hs.301011 AB020683.176 211233_x_at Hs.1657 M12674.177 205081_atHs.17409NM_001311.178 214429__at Hs.170250 K02403.179 209696_atHs.574 D26054.1
80 219682_s_at Hs.332150 NM_016569.181 212496_s_at Hs.301011 BE25690082 203108_atHs.194691 NM_003979.283 206107_atHs.65756NM_003834.184 218806_s_at Hs.267659 AF118887.185 209581_atHs.37189BC001387.186 213412_atHs.25527NM_014428.187 212638_s_at Hs.324275 BF13179188 206469_x_at Hs.284236 NM_012067.189 210652_s_at Hs.125783 BC004399.190 216381_x_at Hs.284236 AL03541391 216092_s_at Hs.22891AL365347.192 208788_atHs.250175 AL136939.193 204792_s_at Hs.111862 NM_014714.194 207847_s_at Hs.89603NM_002456.195 213201_s_at Hs.73980AJ01171296 204497_atHs.20196AB011092.197 222314_x_at Hs.205660 AW97088198 222212_s_at Hs.285976 AK001105.199 219919_s_at Hs.279808 NM_018276.1100 214053_atHs.7888 AW772192101 204934_s_at Hs.823 NM_0021511102 216109_atHs.306803 AK025348.1103 203749_s_at Hs.250505 AI806984104 220329_s_at Hs.238270 NM_017909.1105 204881_s_at Hs.152601 NM_003358.1106 208305_atHs.2905 NM_000926.1107 209623_atHs.167531 AW439494108 218450_atHs.108675 NM 015987.1109 204343_atHs.26630NM_001089.1110 219051_x_at Hs.124915 NM_024042.1111 205471_s_at Hs.63931AW772082112 203439_s_at Hs.155223 BC000658.1113 204863_s_at Hs.82065BE856546114 203289_s_at Hs.19699BE791629115 221765_atHs.23703AI378044116 219001_s_at Hs.317589 NM_024345.1117 220581_atHs.287738 NM_025059.1118 211596_s_at AB050468.1119 205645_atHs.80667NM_004726.1120 219663_s_at Hs.157527 NM_025268.1
121 205380_atHs.15456NM_002614.1122 201508_atHs.1516 NM_001552.11 215729_s_at Hs.9030 BE5423232 201983_s_at Hs.77432AW1570703 204914_s_at Hs.32964AW1572024 204913_s_at Hs.32964AI3608755 205646_s_at Hs.89506NM_000280.16 207030_s_at Hs.10526NM_001321.17 204915_s_at Hs 32964AB028641.18 203021_atHs.251754 NM_00306419 209800_atHs.115947 AF061812.110 203234_atHs.77573NM_003364.111 201984_s_at Hs.77432NM_005228.1
表L2表2基因的查閱表表2探針_ID Unigene GenBank205225_atHs.1657 NM_000125.1205186_atHs.406050NM_003462.2201754_atHs.351875NM_004374.1210085_s_at Hs.279928AF230929.1214440_atHs.155956NM_000662.1206754_s_at Hs.1360 NM_000767.2_ 203749_s_at Hs.361071AI806984215552_s_at Hs.239176AI073549209443_atHs.76353 J02639.1216109_atHs.306803AK025348.1203685_atHs.79241 NM_000633.1205862_atHs.193914NM_014668.1217838_s_at Hs.241471NM_016337.1209603_atHs.169946AI796169212195_atHs.71968 AL049265.1212637_s_at Hs.355977AU155187205696_s_at Hs.105445NM_005264.1210652_s_at Hs.125783BC004399.1205734_s_at Hs.38070 AI990465211000_s_at Hs.82065 AB015706.1206107_atHs.65756 NM_003834.1203628_atHs.405998H05812204934_s_at Hs.823. NM_002151.1203071_atHs.82222 NM_004636.1204881_s_at Hs.432605NM_0033581210272_atHs.330780M29873.1213201_s_at Hs.73980 AJ011712206401_s_at Hs.101174J03778.1209339_atHs.20191 U76248.1208305_atHs.2905 NM_000926.1212956_atHs.90419 AI348094214164_x_at Hs.279916BF752277204343_atHs.26630 NM_001089.1203963_atHs.5338 NM_001218.2207038_atHs.114924NM_004694.1218195_atHs.15929 NM_024573.1220329_s_at Hs.238270NM_017909.1218502_s_at Hs.26102 NM_014112.1219414_atHs.12079 NM_022131.1202376_atHs.234726NM_001085.2218806_s_at Hs.267659AF118887.1202089_s_at Hs.79136 NM_012319.2213712_atHs.432587BF508639204497_atHs.20196 AB011092.1215616_s_at Hs.301011AB020683.1218450_atHs.294133NM_015987.1
203438_atHs.155223AI435828208451_s_at Hs.433721NM_000592.2205768_s_at Hs.11729 NM_003645.1219682_s_at Hs.267182NM_016569.1204508_s_at Hs.279916BC001012.1203963_atHs.5338 NM_001218.2209603_atHs.169946AI796169208788_atHs.250175AL136939.1212637_s_at Hs.355977AU_155187200670_atHs.149923NM_005080.1203571_s_at Hs.74120 NM_006829.1208682_s_at Hs.4943 AF126181.1209173_atHs.91011 AF088867.1201754_atHs.351875NM_004374.1206469_x_at Hs.284236NM_012067.1213412_atHs.25527 NM_014428.1222212_s_at Hs.285976AK001105.1211323_s_at Hs.198443L38019.1209696_atHs.574 D26054.1212956_atHs.90419 AI348094218195_atHs.15929 NM_024573.1202089_s_at Hs.79136 NM_012319.2209623_atHs.167531AW439494210272_atHs.330780M29873.1204623_atHs.82961 NM_003226.1215304_atHs.159264U79293.1214440_atHs.155956NM_000662.1205862_atHs.193914NM_014668.1203108_atHs.194691NM_003979.2207038_atHs.114924NM_004694.1205186_atHs.406050NM_003462.2202752_x_at Hs.22891 NM_012244.1220744_s_at Hs.70202 NM_018262.1219414_atHs.12079 NM_022131.1204798_atHs.1334 NM_005375.1205009_atHs.350470NM_003225.1219051_x_at Hs.124915NM_024042.1205471_s_at Hs.63931 AW772082207847_s_at Hs.89603 NM_002456.1208451_s_at Hs.433721NM_000592.2205081_atHs.423190NM_001311.1209459_s_at Hs.283675AF237813.1203071_atHs.82222 NM_004636.1209581_atHs.37189 BC001387.1204343_atHs.26630 NM_001089.1206401_s_at Hs.101174J03778.1210480_s_at Hs.385834U90236.2201825_s_at Hs.238126AL572542
203749_s_at Hs.361071AI806984218806_s_at Hs.267659AF118887.1210652_s_at Hs.125783BC004399.1205225_atHs.1657 NM_000125.1205768_s_at Hs.11729 NM_003645.1219682_s_at Hs.332150NM_016569.1
表L3表S4基因的查閱表Unigene GenBankHs.106642BF589529Hs.25960 AF320053.1Hs.1892 NM_002686.1Hs.289104NM_014274.1Hs.165950NM_002011.2Hs.173035AF338650.1Hs.86859 AB008790.1Hs.272207NM_017533.1Hs.103707AW192795Hs.274550AA074145Hs.100000AW238654Hs.54609 NM_014291.1Hs.85050 NM_002667.1Hs.239934AL022316Hs.194236NM_000230.1Hs.103395NM_024709.1Hs.107318NM_003679.1Hs.1735 NM_002193.1Hs.155109NM_002153.1Hs.26770 NM_001446.1Hs.278388NM_000608.1Hs.251754NM_003064.1Hs.378774NM_001615.2Hs.51515 AA053967Hs.149195NM_016233.1Hs.78344 AI889739Hs.112405NM_002965.2Hs.417091AF052117.1Hs.57664 NM_000888.3Hs.154078NM_004139.1Hs.100014NM_007325.1Hs.193606AA343027Hs.202949AK027231.1Hs.84072 NM_004616.1Hs.323910AF177761.2Hs.76780 NM_006741.1Hs.225962NM_014354.1Hs.165619NM_017717.2Hs.127428AI246769Hs.2899 NM_002150.1Hs.105938NM_002343.1Hs.193143AK022610.1Hs.1915 NM_004476.1Hs.160786NM_000050.1
Hs.23881 AI920979Hs.3110 NM_000686.2Hs.180142NM_017422.2Hs.169919NM_000126.1Hs.112408NM_002963.2Hs.96NM_021127.1Hs.33846 NM_003462.2Hs.1360 NM_000767.2Hs.1657 NM_000125.1Hs.194689AF120274.1Hs.50964 NM_001712.1Hs.23703 BF970427Hs.193914NM_014668.1Hs.250505AI806984Hs.279928AF230929.1Hs.156637NM_012116.1Hs.169946AI796169Hs.4243 NM_024522.1Hs.111801NM_015908.1Hs.155485NM_005339.2Hs.99603 NM_024701.1Hs.55481 NM003447.1Hs.306803AK025348.1Hs.239176NM_000875.2Hs.823 NM_002151.1Hs.203845NM_022358.1Hs.432605NM_003358.1Hs.330780M29873.1Hs.32981 U38276Hs.101174NM_016835.1Hs.17752 NM_015900.1Hs.406646Data not foundHs.351875NM_004374.1Hs.20196 AB011092.1Hs.331584AF326966.1Hs.272288AI073549Hs.12079 NM_022131.1Hs.82065 NM_002184.1Hs.372446NM_007202.1Hs.155956NM_000662.1Hs.278850NM_024935.1Hs.247955NM_001322.1Hs.76067 NM_001540.2Hs.61289 AL157424.1UniGeneHs.334514NM_032794
Hs.4943 NM_177433Hs.1892 NM_002686Hs.321576NM_006458Hs.91668 BF033007Hs.274260NM_001171Hs.14368 NM_003022Hs.86859 NM_005310Hs.59889 NM_005518Hs.165950NM_002011Hs.83190 NM_004104Hs.89603 NM_002456Hs.29724 NM_024813.1Hs.12068 NM_000755Hs.279916NM_017689Hs.169946NM_002051Hs.355977NM_007013Hs.33102 NM_003221Hs.90419 XM_093895Hs.38972 NM_005727Hs.31034 NM_003847Hs.132136NM_004858Hs.91668 BF033007Hs.70604 NM_004496Hs.234642NM_004925Hs.323910NM_004448Hs.198443NM_002222Hs.197922NM_018584.1Hs.87539 NM_000695Hs.381412Dala not foundHs.180383NM_001946Hs.5338 NM_001218Hs.406515NM_000903Hs.8910 NM_020379Hs.6168 NM_014861Hs.119597NM_005063Hs.574 NM_000507Hs.326525NM_009589Hs.149923NM_005080Hs.167531NM_022132Hs.184376NM_003825Hs.301947NM_014509Hs.91011 NM_006408Hs.114556NM_017699Hs.432970NM_006431Hs.300697AK090461Hs.84072 NM_004616Hs.878 NM_00310權利要求
1.用于將乳瘤樣品分類為“低置信度”或“高置信度”的方法,該方法包括提供所述乳瘤樣品的表達譜,其中該表達譜包含多基因分類物的表達水平,所述多基因分類物至少包含表S4的5種基因,并根據(jù)該表達譜將腫瘤分類為高或低置信度腫瘤。
2.依照權利要求1的方法,包括確定樣品的雌激素受體(ER)狀態(tài)。
3.依照權利要求1或2的方法,包括步驟(a)由取自患者的乳瘤樣品獲得表達產(chǎn)物;(b)通過將所述表達產(chǎn)物接觸結(jié)合成員來測定多基因分類物的表達水平,所述多基因分類物至少包含表S4的5種基因,每個結(jié)合成員能夠與多基因分類物的表達產(chǎn)物特異結(jié)合;并(c)根據(jù)該表達水平鑒定所述患者中低置信度乳瘤的存在。
4.依照權利要求3的方法,其中表達產(chǎn)物是cDNA且結(jié)合成員是能夠與該cDNA特異雜交的核酸探針。
5.依照權利要求3的方法,其中表達產(chǎn)物是RNA或mRNA且結(jié)合成員是能夠與RNA或mRNA特異雜交并在PCR中擴增它們的核酸引物。
6.依照權利要求3的方法,其中表達產(chǎn)物是多肽且結(jié)合成員是能夠與該多肽特異結(jié)合的抗體結(jié)合結(jié)構(gòu)域。
7.依照權利要求3至6任一項的方法,包括將來自測試乳瘤樣品的表達產(chǎn)物的結(jié)合譜與其它先前獲得的結(jié)合譜的數(shù)據(jù)庫和/或先前確定的存在低置信度腫瘤的特征性“標準”譜進行比較。
8.依照權利要求7的方法,其中比較是通過計算機進行的,它被編程報告測試譜與標準譜之間的統(tǒng)計學相似性,從而可以進行分類。
9.依照權利要求1至8任一項的方法,其中將乳瘤樣品分類的步驟包括使用加權表決、支持矢量系統(tǒng)和/或分級聚類。
10.依照權利要求1至9任一項的方法,其中多基因分類物包含表S4(a)的基因、表S4(b)的基因或二者之一的子集。
11.依照權利要求10的方法,其中基因的子集來自表S4(a)或表S4(b)的上半部。
12.依照權利要求10或11的方法,其中多基因分類物包含表S4(a)和/或表S4(b)的上調(diào)和下調(diào)基因的混合。
13.用于將乳瘤樣品分類為“低置信度”或“高置信度”的方法,包括提供所述乳瘤樣品的表達譜,其中該表達譜包含多基因分類物的表達水平,所述多基因分類物至少包含表2的5種基因,并根據(jù)該表達譜將腫瘤分類為高或低置信度腫瘤。
14.依照權利要求13的方法,包括確定樣品的雌激素受體(ER)狀態(tài)。
15.依照權利要求13或14的方法,包括步驟(a)由取自患者的乳瘤樣品獲得表達產(chǎn)物;(b)通過將所述表達產(chǎn)物接觸結(jié)合成員來確定多基因分類物的表達水平,所述多基因分類物至少包含表2的5種基因,每個結(jié)合成員能夠與多基因分類物的表達產(chǎn)物特異結(jié)合;并(c)根據(jù)表達水平鑒定所述患者中低置信度乳瘤的存在。
16.依照權利要求15的方法,其中表達產(chǎn)物是cDNA且結(jié)合成員是能夠與該cDNA特異雜交的核酸探針。
17.依照權利要求15的方法,其中表達產(chǎn)物是RNA或mRNA且結(jié)合成員是能夠與該RNA或mRNA特異雜交并在PCR中擴增它們的核酸引物。
18.依照權利要求15的方法,其中表達產(chǎn)物是多肽且結(jié)合成員是能夠與該多肽特異結(jié)合的抗體結(jié)合結(jié)構(gòu)域。
19.依照權利要求15至18任一項的方法,包括將來自測試乳瘤樣品的表達產(chǎn)物的結(jié)合譜與其它先前獲得的結(jié)合譜的數(shù)據(jù)庫和/或先前測定的存在低置信度腫瘤的特征性“標準”譜進行比較。
20.依照權利要求19的方法,其中比較是通過計算機進行的,它被編程報告測試譜與標準譜之間的統(tǒng)計學相似性,從而可以進行分類。
21.依照權利要求13至20任一項的方法,其中將乳瘤樣品分類的步驟包括使用加權表決、支持矢量系統(tǒng)和/或分級聚類。
22.依照權利要求13至21任一項的方法,其中多基因分類物包含表2(a)的基因、表2(b)的基因或二者之一的子集。
23.依照權利要求22的方法,其中基因的子集來自表2(a)或表2(b)的上半部。
24.依照權利要求22或23的方法,其中多基因分類物包含表2(a)和/或表2(b)的上調(diào)和下調(diào)基因的混合。
25.用于將乳瘤樣品分類為“低置信度”或“高置信度”的方法,該方法包括提供所述乳瘤樣品的表達譜,其中該表達譜包含多基因分類物的表達水平,所述多基因分類物包含表A1和/或表A2和/或表A3和/或表A4的至少5種基因,并根據(jù)表達譜將所述腫瘤分類為高或低置信度腫瘤。
26.依照權利要求25的方法,包括步驟(a)由取自患者的乳瘤樣品獲得表達產(chǎn)物;(b)通過將所述表達產(chǎn)物接觸結(jié)合成員來確定多基因分類物的表達水平,所述多基因分類物包含表A1和/或表A2和/或表A3和/或表A4的至少5種基因,每個結(jié)合成員能夠與多基因分類物的表達產(chǎn)物特異結(jié)合;并(c)根據(jù)表達水平鑒定所述患者中低置信度乳瘤的存在。
27.依照權利要求26的方法,其中表達產(chǎn)物是cDNA且結(jié)合成員是能夠與該cDNA特異雜交的核酸探針。
28.依照權利要求26的方法,其中表達產(chǎn)物是RNA或mRNA且結(jié)合成員是能夠與該RNA或mRNA特異雜交并在PCR中擴增它們的核酸引物。
29.依照權利要求26的方法,其中表達產(chǎn)物是多肽且結(jié)合成員是能夠與該多肽特異結(jié)合的抗體結(jié)合結(jié)構(gòu)域。
30.依照權利要求26至29任一項的方法,包括將來自測試乳瘤樣品的表達產(chǎn)物的結(jié)合譜與其它先前獲得的結(jié)合譜的數(shù)據(jù)庫和/或先前確定的存在低置信度腫瘤的特征性“標準”譜進行比較。
31.依照權利要求30的方法,其中比較是通過計算機進行的,它被編程報告測試譜與標準譜之間的統(tǒng)計學相似性,從而可以進行分類。
32.依照權利要求25至31任一項的方法,其中將乳瘤樣品分類的步驟包括使用加權表決、支持矢量系統(tǒng)和/或分級聚類。
33.依照權利要求25至32任一項的方法,其中多基因分類物包含表A4的基因或其子集。
34.生成乳瘤樣品的核酸表達譜的方法,包括步驟(a)由所述乳瘤樣品分離表達產(chǎn)物;(b)確定多基因分類物的表達水平,所述多基因分類物包含選自表S4、表2、表A1、表A2、表A3和表A4任一項的至少5種基因;并(c)由表達水平生成所述乳瘤樣品的表達譜。
35.依照權利要求34的方法,包括步驟(a)由乳瘤樣品分離表達產(chǎn)物;(b)將所述表達產(chǎn)物接觸多基因分類物,所述多基因分類物包含至少5種能夠與選自表S4或表2或者獨立選自表A1和/或表A2和/或表A3和/或表A4的多種基因的表達產(chǎn)物特異且獨立結(jié)合的結(jié)合成員,從而由所述多基因分類物的表達水平產(chǎn)生腫瘤樣品的第一表達譜;(c)將該表達譜與高置信度腫瘤和/或低置信度腫瘤的特征性表達譜進行比較。
36.包含高置信度和/或低置信度乳瘤樣品的多種基因表達譜的表達譜數(shù)據(jù)庫,其中每個基因表達譜都源自多基因分類物,后者包含選自表S4或表2或者獨立選自表A1和/或表A2和/或表A3和/或表A4的至少5種基因,且其中數(shù)據(jù)庫以可獲取方式保存在數(shù)據(jù)載體上。
37.依照權利要求36的表達譜數(shù)據(jù)庫,其中構(gòu)成該數(shù)據(jù)庫的表達譜是通過權利要求34或35的方法生成的。
38.用于將乳瘤樣品分類為“高置信度”或“低置信度”的裝置,包括附著在固體支持物上的多種結(jié)合成員,每種結(jié)合成員能夠與多基因分類物的表達產(chǎn)物特異結(jié)合,所述多基因分類物包含表S4、表2、表A1、表A2、表A3和表A4一個或多個中的至少5種基因。
39.依照權利要求38的裝置,包括能夠與所述每一個表的多種基因的表達產(chǎn)物結(jié)合的結(jié)合成員。
40.依照權利要求38或39的裝置,包括能夠與表A4中的所有基因的表達產(chǎn)物特異且獨立結(jié)合的結(jié)合成員。
41.依照權利要求38至40任一項的裝置,包括微陣列,其中結(jié)合成員是能夠與RNA或mRNA表達產(chǎn)物或由其衍生的cDNA特異雜交的核酸序列。
42.用于將乳瘤樣品分類為“高置信度”或“低置信度”的試劑盒,所述試劑盒包含多種結(jié)合成員和檢測劑,每種結(jié)合成員能夠與多基因分類物之一的表達產(chǎn)物特異結(jié)合,所述多基因分類物包含表S4、表2、表A1、表A2、表A3和表A4任一項或多項中的至少5種基因。
43.依照權利要求42的試劑盒,其中結(jié)合成員是固定在一個或多個固體支持物上的抗體結(jié)合結(jié)構(gòu)域或核酸序列。
44.依照權利要求43的試劑盒,包括微陣列。
45.依照權利要求42的試劑盒,其中結(jié)合成員是能夠與表達產(chǎn)物結(jié)合從而能夠在PCR中擴增它們的核酸引物。
46.依照權利要求42至45任一項的試劑盒,還包含用于與測試樣品的表達譜進行比較、以可獲取方式保存在數(shù)據(jù)載體上的一個或多個標準表達譜。
47.依照權利要求46的試劑盒,其中一個或多個標準表達譜是通過權利要求34或35的方法生成的。
全文摘要
將乳瘤分類為雌激素受體陽性和陰性(ER+和ER-)亞型是乳癌治療中進行的一項重要的鑒別項目。通常根據(jù)已知其表達受ER活性影響的基因的表達譜來進行ER分型。有些腫瘤不能根據(jù)這些表達數(shù)據(jù)確信的歸入特定ER類型。本發(fā)明人發(fā)現(xiàn),這些“低置信度”腫瘤構(gòu)成了乳瘤的一類獨特生物學亞型,它的總體存活比高置信度腫瘤顯著更差。本發(fā)明提供了能夠鑒別低置信度腫瘤與高置信度腫瘤的幾組基因,以及用于對乳瘤進行恰當分類的方法和裝置。
文檔編號C12Q1/68GK1910292SQ200480031554
公開日2007年2月7日 申請日期2004年10月1日 優(yōu)先權日2003年10月3日
發(fā)明者K·余, P·譚 申請人:Ncc技術投資私人有限公司