專利名稱:外周血液白細(xì)胞轉(zhuǎn)錄模式的模塊水平分析的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及細(xì)胞的轉(zhuǎn)錄模式,并且更加特別地,涉及通過白細(xì)胞的轉(zhuǎn)錄表達(dá)模式對疾病進行診斷和預(yù)測。
長表格 本發(fā)明包括長表格,其所有內(nèi)容在此并入作為參考。在此一并附上包含Landscape orientation格式的所述文件的CD的兩個拷貝。
背景技術(shù):
基因表達(dá)微陣列的廣泛應(yīng)用為生物醫(yī)學(xué)研究帶來巨大的希望。該項技術(shù)已經(jīng)導(dǎo)致在癌癥患者中建立起預(yù)測標(biāo)志1-4,以及確認(rèn)與發(fā)病機制有關(guān)的基因或途徑(例如,發(fā)現(xiàn)白細(xì)胞介素-1(IL-I)在全身性幼年先天性關(guān)節(jié)炎發(fā)病機制中的作用)5。然而,盡管取得了這些重大進展,基因表達(dá)微陣列技術(shù)仍然沒有實現(xiàn)其出現(xiàn)初期給人們所帶來的希望,并且結(jié)果導(dǎo)致微陣列技術(shù)平臺的使用近期遭到了嚴(yán)厲批評6。主要焦點在于以下事實微陣列數(shù)據(jù)特別容易產(chǎn)生噪聲,并且當(dāng)過度解釋時會導(dǎo)致欺騙性結(jié)果的產(chǎn)生7。此外,對微陣列數(shù)據(jù)的懷疑還在于不同試驗室和交叉平臺獲得的數(shù)據(jù)重復(fù)性低8-12。最后,在基因組范圍下對實驗結(jié)果的解釋能力有限,構(gòu)成了限制微陣列研究的另一個瓶頸13。
發(fā)明概述 基因組研究正面臨著分析轉(zhuǎn)錄數(shù)據(jù)的重大挑戰(zhàn)極高噪聲、難解釋以及實驗室和平臺的交叉可比性差。本發(fā)明提供了一種分析策略,在該分析的早期著重于生物相關(guān)基因的選擇,所述分析合并于分析模塊中,以克服微陣列平臺之間的不一致性。所開發(fā)的轉(zhuǎn)錄模塊可用于分析大型基因的表達(dá)數(shù)據(jù)組。通過在交叉商業(yè)化微陣列平臺中觀察到高度的可重復(fù)性證實,來源于該分析的結(jié)果易于解釋,而且特別健全。
通過挖掘大量的PBMC轉(zhuǎn)錄模式來闡明所述分析方法的應(yīng)用。鑒定了重組4742個基因形成的28個轉(zhuǎn)錄模塊。使用本發(fā)明證實,通過在例如血液白細(xì)胞中的轉(zhuǎn)錄變化的組合來獨特表征的疾病,在模塊水平測量疾病成為可能。實際上,血液白細(xì)胞轉(zhuǎn)錄水平在模塊水平的變化構(gòu)成了疾病或樣本的分子指紋。
本發(fā)明具有廣泛的應(yīng)用。其可用于表征任意生物系統(tǒng)(如外周血單核細(xì)胞(PBMCs)、血細(xì)胞、胎兒細(xì)胞、腹膜細(xì)胞、實體器官活檢物、切除的腫瘤、原代細(xì)胞、細(xì)胞系、細(xì)胞克隆等)的模塊轉(zhuǎn)錄成分。通過該方法產(chǎn)生的模塊化PBMC轉(zhuǎn)錄數(shù)據(jù)能夠應(yīng)用于分子診斷、預(yù)測、疾病嚴(yán)重程度的評估、對藥物治療的反應(yīng)、藥物毒性等。使用本發(fā)明方法處理其他數(shù)據(jù),能夠應(yīng)用于如機理研究或藥物化合物篩選。事實上,數(shù)據(jù)分析策略和挖掘算法能夠在普通基因表達(dá)數(shù)據(jù)分析軟件中執(zhí)行,甚至可以用于發(fā)現(xiàn)、開發(fā)及測試新的疾病或病癥特異性模塊。本發(fā)明還可與藥物基因組學(xué)、分子診斷、生物信息學(xué)等結(jié)合,其中可使用深入表達(dá)數(shù)據(jù)來完善在臨床試驗中獲得的結(jié)果(如通過完善或從樣本群體中作亞選擇)。
更具體地說,本發(fā)明包括通過獲得患者的轉(zhuǎn)錄組來診斷疾病或病癥的陣列、設(shè)備、系統(tǒng)和方法;基于指示疾病或病癥的一個或更多轉(zhuǎn)錄模塊來分析所述轉(zhuǎn)錄組;以及基于所述轉(zhuǎn)錄組中的基因在一個或更多轉(zhuǎn)錄模塊的存在、缺失或表達(dá)水平來確定患者的疾病或病癥。所述轉(zhuǎn)錄模塊可以通過以下方式獲得迭代選擇一個或更多轉(zhuǎn)錄模塊的基因表達(dá)值,所述迭代選擇是通過從與各種疾病或病癥相匹配的各集群中選擇基因模塊,分析排除選擇的基因,以及對集群于所述疾病或病癥的亞部分的基因重復(fù)基因表達(dá)值選擇的過程;以及對每一集群迭代重復(fù)所述模塊的生成,直到用完所有的基因簇。
被選擇用于本發(fā)明的集群(cluster)的實例包括但不限于表達(dá)值集群、關(guān)鍵詞集群、代謝集群、疾病集群、感染集群、移植集群、信號集群、轉(zhuǎn)錄集群、復(fù)制集群、細(xì)胞周期集群、siRNA集群、miRNA集群、線粒體集群、T細(xì)胞集群、B細(xì)胞集群、細(xì)胞因子集群、淋巴因子集群、熱休克集群及其組合。使用本發(fā)明來分析的疾病或病癥的實例包括例如自身免疫疾病、病毒感染細(xì)菌感染、癌癥以及移植排斥反應(yīng)。更特別地,用于分析的疾病可以選自以下的一種或更多種病癥全身性幼年特發(fā)性關(guān)節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植受者、黑色素瘤患者和患者細(xì)菌如大腸桿菌、金黃色葡萄球菌感染、患者病毒如流感病毒A感染及其組合。甚至還可以制造出檢測與生物恐怖試劑(bioterror agent)相關(guān)的特定疾病或病癥的特異性陣列。
可以使用本發(fā)明分析的細(xì)胞包括例如外周血單核細(xì)胞(PBMCs)、血細(xì)胞、胎兒細(xì)胞、腹膜細(xì)胞、實體器官活檢物、切除的腫瘤,原代細(xì)胞、細(xì)胞系、細(xì)胞克隆及其組合。細(xì)胞可以為單個細(xì)胞、細(xì)胞的集合、組織、細(xì)胞培養(yǎng)物、體液如血液中的細(xì)胞。細(xì)胞可以獲得自組織活檢物、一種或更多種細(xì)胞群體、細(xì)胞培養(yǎng)物、細(xì)胞克隆、轉(zhuǎn)化的細(xì)胞、活檢物或單個細(xì)胞。細(xì)胞類型可以是例如腦、肝臟、心臟、腎、肺、脾、視網(wǎng)膜、骨、神經(jīng)元(neural)、淋巴結(jié)、內(nèi)分泌腺、生殖器官、血液、神經(jīng)(nerve)、血管組織以及嗅上皮的細(xì)胞。將細(xì)胞分離后,獲得來自于這些細(xì)胞的這些mRNA并進行個體基因表達(dá)水平的分析,所述分析使用例如探針陣列、PCR、定量PCR、微珠試驗(bead-based assays)及其組合。甚至可以使用在固體支持物上的核酸雜交來進行個體基因表達(dá)水平的分析,所述雜交使用從所述細(xì)胞中收集的mRNA作為逆轉(zhuǎn)錄酶的模板,逆轉(zhuǎn)錄制得的cDNA。
在另一個實施方案中,本發(fā)明包括一種用于鑒定轉(zhuǎn)錄模塊的方法,所述方法通過以下方式進行鑒定獲得來自一名或更多名患有疾病或病癥的患者的細(xì)胞的個體基因表達(dá)水平;在劃分為集群的表格中記錄各個基因的表達(dá)值;迭代選擇一個或更多轉(zhuǎn)錄模塊的基因表達(dá)值,所述迭代選擇是通過從匹配于每種疾病或病癥的各個集群中選擇用于所述模塊的基因,從所述分析中排除所選擇的基因;并且對集群于所述疾病或病癥亞部分的基因重復(fù)基因表達(dá)值的選擇過程;以及迭代重復(fù)對于每一集群的模塊形成過程,直到用完所有的基因簇。使用本發(fā)明的轉(zhuǎn)錄模塊的實例可以選自 及其組合,其中將所述樣本中基因的表達(dá)水平繪制在所述模塊中,從而來確定疾病或病癥。
本發(fā)明還包括疾病的分析工具,所述分析工具包括選自以下的一個或更多個基因模塊,例如 所述的一個或更多個基因模塊足以用于區(qū)分自身免疫疾病、病毒感染、細(xì)菌感染、癌癥以及移植排斥反應(yīng)。將所述模塊用于區(qū)分系統(tǒng)性紅斑狼瘡、流感病毒感染、黑色素瘤及移植排斥反應(yīng)。
在一個實施方案中,所選擇的模塊可以選自 漿細(xì)胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和 血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B),以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因; 并且通過在所述兩個模塊中含有陽性載體,將所述模塊用于鑒定系統(tǒng)性紅斑狼瘡。
在另一個實施方案中,所選擇的模塊可以選自 漿細(xì)胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD),以及漿細(xì)胞標(biāo)記物CD38的基因;和 血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因; 并且通過在這兩個模塊中既不具有陽性也不具有陰性載體,將所述模塊用于鑒定流感病毒感染。
在另一個實施方案中,所選擇的模塊可以選自 漿細(xì)胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和 血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因; 并且通過具有漿細(xì)胞標(biāo)記物的陰性載體和血小板標(biāo)記物的陽性載體,將所述模塊用于鑒定黑色素瘤。
在另一個實施方案中,所選擇的模塊可以選自 漿細(xì)胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和 血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)及PF4(血小板因子4)的基因; 并且通過在這兩個模塊中具有陰性載體,將所述模塊用于鑒定移植排斥反應(yīng)。
在另一個實施方案中,所選擇的模塊可以選自 漿細(xì)胞包括編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和 血小板包括編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因; 并且通過在這兩個模塊中具有陰性載體,將所述模塊用于鑒定流感病毒感染。
本發(fā)明的另一種實施方式為預(yù)測基因陣列,包括定制的基因陣列,所述定制基因陣列具有代表一個或更多轉(zhuǎn)錄模塊的基因的組合,其中與所述定制基因陣列相接觸的患者的轉(zhuǎn)錄組為與所述轉(zhuǎn)錄模塊相匹配的一種或更多種疾病或病癥的預(yù)測。在一個實施例中,所述患者對所述疾病或病癥的免疫反應(yīng),是由基于所述轉(zhuǎn)錄模塊中轉(zhuǎn)錄組基因的出現(xiàn)、缺失或表達(dá)水平?jīng)Q定,與某種特定疾病或病癥相關(guān)的。所述陣列能夠鑒定自身免疫疾病、病毒感染細(xì)菌感染、癌癥以及移植排斥反應(yīng)。所述陣列還可以組織成兩個或兩個以上轉(zhuǎn)錄模塊,例如,可以組織成3個轉(zhuǎn)錄模塊,包括選自下列的一個或更多子模 其中來自于每一模塊的一個或更多個探針特異性地結(jié)合所述模塊中的一個或更多個基因。
另外一個發(fā)明包括一種基因分析工具,所述基因分析工具包括一個或更多個基因模塊,所述基因模塊選自下列左欄中的一組和右欄中的一組的組合 及其組合,其中將樣本中的基因表達(dá)水平繪制在所述模塊中來確定疾病或病癥。
通過以下方式,甚至可以將本發(fā)明的陣列、方法及系統(tǒng)用于選擇臨床試驗中的患者獲得潛在患者的轉(zhuǎn)錄組;將所述轉(zhuǎn)錄組與指示將在臨床試驗中治療的疾病或病癥的一個或更多個轉(zhuǎn)錄模塊進行比較;和基于在患者轉(zhuǎn)錄組中表達(dá)的一個或更多個基因的存在、缺失或水平來確認(rèn)患者成為用于臨床試驗的好的候選者的可能性,所述的一個或更多個模塊是與臨床試驗的成功相關(guān)聯(lián)。通常,對于每一模塊而言,可以使用與樣本中轉(zhuǎn)錄體比例相關(guān)的載體,例如,當(dāng)每一模塊均包括載體并且其中的一種或更多種疾病和病癥與所述的一個或更多個載體相關(guān)。因此,每個模塊可以包括與每個模塊中的一個或更多個基因的表達(dá)水平相關(guān)的載體。
本發(fā)明還包括陣列,如定制微陣列,所述陣列包括固定于固體支持物上的核酸探針,所述固體支持物包括來自于一個或更多個模塊中的足夠的探針,以提供用于區(qū)分一種或多種疾病的足夠比例的差異表達(dá)的基因,所述探針選自表3。例如,固定于固體支持物上的核酸探針陣列,其中所述陣列包括至少兩組選自如下的探針模塊 其中在第一探針組中的探針具有分別對應(yīng)于一種或多種疾病的一個或更多個詢問位點(interrogation position)。所述陣列可以具有100到100,000個探針,并且每個探針的長度可以為9-21個核苷。分別組織成探針組時,能夠單獨詢問。
本發(fā)明還包括一種或更多種核酸探針,所述核酸探針固定于固體支持物以形成模塊陣列,所述模塊陣列包括第一和第二探針組的至少一對探針,每組有一個或更多個如表3所定義的探針。選擇的探針組用于提供復(fù)合轉(zhuǎn)錄標(biāo)記物載體,其在微陣列交叉平臺中保持一致。事實上,所述探針組甚至可以用于提供一種復(fù)合轉(zhuǎn)錄標(biāo)記物載體,其在微陣列交叉平臺中保持一致并且總體顯示為滿足監(jiān)管部門要求。本領(lǐng)域技術(shù)人員將會認(rèn)識到,使用本發(fā)明的模塊,對于迅速開發(fā)出一種或多種疾病的特異性陣列是可能的,所述特異性陣列可以用于迅速診斷或區(qū)分不同的疾病和/或病癥。
附圖的簡要說明 為了更加全面地理解本發(fā)明的特征及優(yōu)點,現(xiàn)在參照所附的附圖,來詳細(xì)描述本發(fā)明,并且其中
圖1A至圖1C顯示基本微陣列數(shù)據(jù)挖掘策略步驟,所述數(shù)據(jù)挖掘策略步驟涉及公認(rèn)的基因水平的微陣列數(shù)據(jù)分析(圖1A)、本發(fā)明的模塊挖掘策略圖1b以及模塊化提取算法的完全大小表示圖1C。圖1C提供模塊化提取算法的更詳細(xì)示意,其中步驟(a)表示在本文所定義的實驗系統(tǒng)(如離體PBMCs)中產(chǎn)生的數(shù)據(jù)的例子;步驟(b)表示幾個實驗組(如G1-8)所獲得的轉(zhuǎn)錄分布型;步驟(c)表示在各組中,基因基于表達(dá)分布型的相似性而分成x個集群(如x=30)(使用K-均值聚類算法);步驟(d)表示貫穿不同實驗組中各個基因的集群分類,所述集群分類記錄于表格中且分配模式相匹配;并且步驟(e)表示通過迭代程序選擇模塊,從貫穿所有實驗組中相同集群的最大一組基因系(set of gene)開始(在相同集群中建立8個8組)。選擇從所述核心參考模式擴展到包括具有7/8,6/8及5/8匹配的基因。一旦模塊已經(jīng)形成,所述基因就從選擇池(selection pool)里撤回。然后重復(fù)此過程,從第二大組基因開始,逐步降低嚴(yán)格性水平。
圖2貫穿獨立樣本組的模塊化基因表達(dá)分布型。通過獲得自21名健康志愿者一組樣本說明模塊間的轉(zhuǎn)錄行為差異。所述樣本模塊在所述選擇過程中不使用。圖示為轉(zhuǎn)錄分布型,各個線條表示在多重條件(樣本,x-軸)下,單個轉(zhuǎn)錄體的表達(dá)水平(y-軸)。所示為模塊1.2、1.7、2.1以及2.11的轉(zhuǎn)錄分布型。將各基因的表達(dá)歸一化到所有樣本獲得的測量中間值。
圖3文獻中出現(xiàn)的獲得四組協(xié)同表達(dá)的基因的關(guān)鍵詞分類。計算M3.1、M1.5、M1.3以及M1.2中的所有基因在與至少10種出版物有關(guān)的摘要中(涉及超過26,000篇摘要)的術(shù)語出現(xiàn)水平。從各模塊提取關(guān)鍵詞分布型(keyword profiles),并使用選擇形成該圖。關(guān)鍵詞在摘要中的出現(xiàn)水平通過顏色范圍顯示,黃色代表高出現(xiàn)率。M3.1與干擾素有關(guān),M1.5與病原體識別分子/髓系細(xì)胞有關(guān),M1.3與B-細(xì)胞有關(guān)并且M1.2與血小板有關(guān)。
圖4分子微陣列分析策略。所建議的微陣列數(shù)據(jù)分析策略包括兩個基本步驟1.轉(zhuǎn)錄系統(tǒng)的表征通過一種無監(jiān)督的“聚類整合分析”(clusteringmeta-analysis)提取轉(zhuǎn)錄組分(圖1)。形成各個模塊(由唯一的ID如M1.1來確定)的基因在一個定義的實驗系統(tǒng)中的所有條件下的轉(zhuǎn)錄行為具有一致性。將轉(zhuǎn)錄模塊用兩位數(shù)字標(biāo)識(如1.1)來確認(rèn)。圖中顯示多重條件下(樣本)形成模塊的基因的表達(dá)分布型。將各模塊依次進行功能表征(如通過文獻分布型的分析)。結(jié)果收集到具有生物學(xué)意義的轉(zhuǎn)錄決定因素。2.系統(tǒng)微擾(perturbations)的研究獨立地對各個模塊進行研究組間比較。該分析能夠允許確認(rèn)不同條件下表達(dá)水平的變化(如比較來自患者的樣本和來自健康志愿者的對照樣本)。各模塊獲得的結(jié)果如圖所示。滿足顯著性標(biāo)準(zhǔn)的基因比例(分類比較)在圈中示出,其中紅色為顯著的過表達(dá)基因的比例,藍(lán)色表示顯著的低表達(dá)(under-expressed)基因的比例。在該理論實例中,圖示出3/4(75%)的基因具有p<0.05。有兩種基因過表達(dá)(50%-紅色)以及一種基因低表達(dá)(25%-藍(lán)色)。
圖5為患者血液白細(xì)胞轉(zhuǎn)錄分布型的分析。a)基因水平分析。頂欄顯示確認(rèn)SLE患者或急性流感病毒感染者及其相應(yīng)對照的差異表達(dá)轉(zhuǎn)錄體的統(tǒng)計學(xué)比較(p<0.001,曼-惠特尼U檢驗(Mann Whitney U test,即秩和檢驗),Benjamini and Hochberg錯誤發(fā)現(xiàn)率SLE=733個轉(zhuǎn)錄體,F(xiàn)LU=234個轉(zhuǎn)錄體)?;诒磉_(dá)模式對分組基因進行聚類分析,并且結(jié)果用熱點圖(heatmap)表示。底欄為模塊水平分析。各模塊對從患者(SLE或FLU)及相應(yīng)健康志愿者PBMCs獲得的基因表達(dá)水平進行比較(p<0.05,曼-惠特尼秩和檢驗)。餅形圖說明發(fā)生顯著性變化的基因比例。圖示表明發(fā)生顯著變化的基因轉(zhuǎn)錄分布型,各線條顯示在多重條件(樣本,x-軸)下,單個轉(zhuǎn)錄體的表達(dá)水平(y-軸)。將各基因的表達(dá)歸一化到所有樣本獲得的測量值的中位數(shù)。將所得到的28個PBMC轉(zhuǎn)錄模塊結(jié)果顯示在網(wǎng)格上。用坐標(biāo)來表示模塊ID(例如M2.8是指第8列第M2行)。點表示各模塊中發(fā)生顯著變化的基因比例。紅點過表達(dá)基因的比例,藍(lán)點低表達(dá)基因的比例。將功能性的解釋在網(wǎng)格上用顏色代碼示出。
圖6由疾病導(dǎo)致的轉(zhuǎn)錄變化模塊圖。對于各個模塊比較分離自患者及其相應(yīng)健康志愿者對照的PBMCs經(jīng)測量的表達(dá)水平(曼-惠特尼秩和檢驗,在18名SLE患者和11名健康志愿者之間、16名急性流感病毒感染者和10名志愿者之間、16名轉(zhuǎn)移性黑色素瘤患者和10名志愿者之間以及16名肝移植受者和10名志愿者之間,p<0.05)。點表示各個模塊中發(fā)生顯著變化的基因比例。紅點過表達(dá)基因的比例,藍(lán)點低表達(dá)基因的比例。獲得的28個PBMC轉(zhuǎn)錄模塊的結(jié)果在網(wǎng)格上示出。用坐標(biāo)來表示模塊的ID(如M2.8指示出第8列第M2行)。
圖7第三方數(shù)據(jù)組的分析。對公開發(fā)表的PBMC基因表達(dá)數(shù)據(jù)組進行分子微陣列數(shù)據(jù)分析。本研究調(diào)查運動對基因表達(dá)的影響。在運動前(Pre)、運動后(End)及運動結(jié)束后60分鐘(Re),對15個受試者中獲得血樣。形成對3個受試者各自5個池的轉(zhuǎn)錄分布型。顯示三個轉(zhuǎn)錄模塊的表達(dá)分布型。將各個基因的表達(dá)歸一化到所有樣本獲得測量值的中位數(shù)。從所述文獻中提取的關(guān)鍵詞用綠色標(biāo)示。
圖8交叉平臺有效性。在兩個不同的微陣列平臺(Affymetrix U133A&B基因芯片和Illumina Sentrix Human Ref8微珠芯片)上對來自健康捐獻者以及肝移植受者的PBMC樣本進行分析。使用同樣的總RNA池獨立地制備出生物素標(biāo)記的cRNA靶點。結(jié)果所示為在兩個平臺中(Affymetrix頂欄;Illumina中間欄)共有的轉(zhuǎn)錄體小組。將各基因的表達(dá)歸一化為所有樣本獲得的測量值中位數(shù)。底欄所示為Affymetrix和Illumina平臺測得的形成各個轉(zhuǎn)錄模塊的所有基因的平均表達(dá)值。
圖9包括三幅微陣列交叉平臺的模塊級表達(dá)數(shù)據(jù)重復(fù)圖。在兩個不同的微陣列平臺(Affymetrix U133A&B基因芯片和Illumina Sentrix HumanRef8微粒芯片)上對來自健康捐贈者及肝移植受者的PBMC樣本進行分析。使用相同來源的總RNA獨立地制備出生物素標(biāo)記的cRNA靶點。通過形成各個模塊的基因的平均表達(dá)值來獲得各個樣本的標(biāo)準(zhǔn)化“模塊表達(dá)水平”。由Affymetrix和Illumina平臺生成的數(shù)據(jù)衍生的模塊表達(dá)水平是高度可比的M1.2、M3.1和M3.2的Pearson相關(guān)系數(shù)分別為R2=0.83、0.98和0.93(p<0.0001)。
發(fā)明詳述 以下將詳細(xì)討論本發(fā)明的各種實施方式的制造和使用,應(yīng)當(dāng)理解本發(fā)明提供了多種可實施的發(fā)明構(gòu)思,上述發(fā)明構(gòu)思可以納入到各種具體的背景中。本文所討論的具體實施方式
僅僅是對制造和使用本發(fā)明的具體說明,并不限制本發(fā)明的范圍。
為了幫助本發(fā)明的理解,以下對若干術(shù)語進行了定義。本文所限定的術(shù)語的含義與本發(fā)明相關(guān)領(lǐng)域內(nèi)的普通技術(shù)人員的理解一致。術(shù)語如“一個”、“一種”及“所述”并不是僅指單個的特定實體,而是包括了用于說明的一類某種特定實例。本發(fā)明中所使用的描述具體實施例的術(shù)語除了權(quán)利要求中出現(xiàn)的外,并不限制本發(fā)明的保護范圍。以下文獻中涉及的術(shù)語定義適用于本發(fā)明Singleton等編的Dictionary of Microbiology and MolecularBiology(第二版,1994);THE CAMBRIDGE DICTIONARY OF SCIENCEAND TECHNOLOGY(Walker編輯,1988);THE GLOSSARY OFGENETICS,第五版,R.Rieger等人(編輯),Springer Verlag(1991);以及Hale和Marham,THE HARPER COLLINS DICTIONARY OF BIOLOGY(1991)。
各種生化和分子生物學(xué)方法都為現(xiàn)有技術(shù),例如詳細(xì)描述于以下文獻中的核酸的分離和純化方法WO 97/10365、WO 97/27317、LaboratoryTechniques in Biochemistry and Molecular Biology的第3章核酸探針雜交,第1部分。Theory and Nucleic Acid Preparation,(P.Tijssen編輯)Elsevier,N.Y.(1993);以及Sambrook等編的Molecular CloningA LaboratoryManual,Cold Spring Harbor Press,N.Y.,(1989);和Current Protocols inMolecular Biology,(Ausubel,F(xiàn).M.等人編輯),John Wiley & Sons,Inc.,New York(1987-1999),包括增刊部分,如增刊46(1999年4月)。
生物信息學(xué)定義 本文所使用的“對象”,涉及任何項目或有意義的信息(全文通用,包括名詞、動詞、形容詞、副詞、短語、句子、符號、數(shù)字字符等)。因此,“對象”一詞是可以形成特定關(guān)系的任意事物以及可從來源獲得、確認(rèn)和/或檢索到的任何事物?!皩ο蟆卑ǖ幌抻谟幸饬x的實體例如基因、蛋白、疾病、顯型、機制、藥物等。在某些方面,“對象”表示的是數(shù)據(jù),如下文進一步所描述的。
本文所使用的“關(guān)系”,是指在同樣的單元內(nèi)同時出現(xiàn)的對象(如短語、句子、兩個或兩個以上文本行、段落、網(wǎng)頁部分、頁、雜志、論文、書籍等)。可以是文本、符號、數(shù)字及其組合。
本文所使用的“元數(shù)據(jù)內(nèi)容”,是指在數(shù)據(jù)源中作為文本組織的信息。元數(shù)據(jù)可以包括標(biāo)準(zhǔn)元數(shù)據(jù)如都柏林核心元數(shù)據(jù)(Dublin Core metadata)或可以特異性收集的數(shù)據(jù)。元數(shù)據(jù)格式的實例包括但不限于用于圖書館目錄的機器可讀目錄(Machine Readable Catalog,MARC)記錄、資源描述格式(Resource Description Format,RDF)以及可擴展標(biāo)記語言(Extensible MarkupLanguage,XML)??梢允謩由苫蚴峭ㄟ^自動化信息提取算法能夠產(chǎn)生元對象。
本文所使用的“引擎”,是指執(zhí)行用于其他程序的核心功能或必要功能的程序。例如,引擎可以是操作系統(tǒng)的核心程序(central program)或是與其他操作程序的整體操作相互協(xié)調(diào)的應(yīng)用程序。術(shù)語“引擎”還可以指包含可改變的算法的程序,例如,可以設(shè)計一種知識搜索引擎,從而其方法通過確認(rèn)可變化的關(guān)系來反映識別和排序關(guān)系的新規(guī)則。
例如通過后綴去除或詞干或利用詞表,本文所使用的“語義分析”,是指確定代表相似概念的詞之間的關(guān)系。“統(tǒng)計學(xué)分析”是指基于計算各術(shù)語(詞、詞根、詞干、n-元文法、短語等)出現(xiàn)數(shù)量的技術(shù)。收集不限于主題,用于不同背景的相同短語可以代表不同的概念。同時出現(xiàn)短語的統(tǒng)計分析能夠幫助解決詞義的歧義?!罢Z義分析”可用于進一步通過詞類分析來減少歧義。本文所使用的一個或更多個這樣的分析分析,是指通常所說的“詞法分析”?!叭斯ぶ悄?AI)”,是指通過非人力的設(shè)備如計算機,來執(zhí)行人類認(rèn)為值得注意的或是“智能”的任務(wù)的方法。實例包括鑒定圖像、理解口頭語語或書面語言以及解決問題。
本文所使用的術(shù)語“數(shù)據(jù)庫”是指原始數(shù)據(jù)或編輯數(shù)據(jù)的儲存庫,即使在數(shù)據(jù)字段中可以發(fā)現(xiàn)不同的信息面(informational facet)。通常對數(shù)據(jù)庫進行組織,使其內(nèi)容能夠被訪問、管理和更新(例如,數(shù)據(jù)是動態(tài)的)。術(shù)語“數(shù)據(jù)庫”和“源”在本發(fā)明中也可以互換使用,因為數(shù)據(jù)和信息的基本來源是數(shù)據(jù)庫。然而,“源數(shù)據(jù)庫”和“源數(shù)據(jù)”通常是指數(shù)據(jù),例如非結(jié)構(gòu)化文本和/或結(jié)構(gòu)化數(shù)據(jù),它們被輸入識別對象和確定關(guān)系的系統(tǒng)中。源數(shù)據(jù)庫可以是或不是關(guān)系數(shù)據(jù)庫。
然而,系統(tǒng)數(shù)據(jù)庫通常包括關(guān)系數(shù)據(jù)庫或者儲存涉及對象間關(guān)系的數(shù)值的一些等同類型數(shù)據(jù)庫。
本文所使用的“系統(tǒng)數(shù)據(jù)庫”和“關(guān)系數(shù)據(jù)庫”可以互換使用,是指一種或多種被組織成表格集合的數(shù)據(jù)集合,這些表格包含適合于預(yù)定義分類的數(shù)據(jù)。例如,數(shù)據(jù)庫表格可以包括一種或多種由列定義的分類(例如屬性),而數(shù)據(jù)庫的行可以包含對應(yīng)于由列定義的分類的唯一對象。這樣,如基因的同一性的對象可能具有對應(yīng)于基因的存在、缺失和/或表達(dá)水平的列。關(guān)系數(shù)據(jù)庫的行也可以被稱之為“集合”,并通常由其所在列的數(shù)值定義。關(guān)系數(shù)據(jù)庫上下文中的“域(domain)”是字段(field),如列可以包括的有效值的范圍。
本文所使用的“知識域”,是指研究所述系統(tǒng)的操作范圍,如,所有的生物醫(yī)學(xué)數(shù)據(jù)。應(yīng)當(dāng)指出的是,合并來自于若干領(lǐng)域的數(shù)據(jù),如生物醫(yī)學(xué)數(shù)據(jù)和工程數(shù)據(jù),對于一個僅熟悉某范圍或研究/學(xué)科(一個領(lǐng)域)的普通人員來說,其優(yōu)點在于,多樣化的數(shù)據(jù)有時能夠?qū)⒉荒芊旁谝黄鸬氖挛锫?lián)系起來。“分布的數(shù)據(jù)庫”,是指可以在網(wǎng)絡(luò)中的不同點分散或復(fù)制的數(shù)據(jù)庫。
術(shù)語例如“數(shù)據(jù)”和“信息”經(jīng)?;Q使用,就像“信息”和“知識”。本文所使用的“數(shù)據(jù)”,是指最基本的單元,一種經(jīng)證實的測量值或一組測量值。將數(shù)據(jù)匯編成信息,但數(shù)據(jù)基本上又是獨立于信息的。相反地,源于感興趣的信息,例如,為實現(xiàn)發(fā)現(xiàn)與心血管疾病風(fēng)險相關(guān)變量的目的,可以匯集關(guān)于種族、性別、身高、體重及飲食的數(shù)據(jù)(單元)。因而,能用相同數(shù)據(jù)制定出公式或創(chuàng)作關(guān)于飲食偏好的“信息”,如超市中的某種產(chǎn)品是否有較高售出的可能性。
本文所使用的“信息”,是指可以包括數(shù)字、文字、數(shù)字組、文字組的數(shù)據(jù)組或源于數(shù)據(jù)組或其結(jié)論性結(jié)果。然后“數(shù)據(jù)”是測量值或統(tǒng)計值以及信息的基本單元?!靶畔ⅰ边€可以包括其他類型的數(shù)據(jù),如詞語、符號、文本,例如非結(jié)構(gòu)化自由文本、代碼等。將“知識”寬松地定義為對于模型的原因及效果的給出充分系統(tǒng)理解的信息組。為擴充原先的實例,人口統(tǒng)計學(xué)數(shù)據(jù)、性別以及優(yōu)先購買的信息可以用于開發(fā)區(qū)域性的食品銷售市場策略,而購買者可利用民族信息作為產(chǎn)品進口的指南。重要的是要注意到,在數(shù)據(jù)、信息及知識之間沒有嚴(yán)格的界限;有時這三個術(shù)語可以看作是等價的。通常地,數(shù)據(jù)來自于調(diào)查可獲得,信息來自于相關(guān)性,并且知識來自于建模。
本文所使用的“程序”或“計算機程序”,通常是指符合特定程序語言規(guī)則的句法單元,其由聲明和陳述或指示組成,為解決或執(zhí)行特定功能、任務(wù)或問題,可分為”代碼段”。程序語言一般是一種表達(dá)程序的人工語言。
本文所使用的“系統(tǒng)”或“計算機系統(tǒng)”,通常是指一臺或更多臺計算機、周邊設(shè)備以及執(zhí)行數(shù)據(jù)處理的軟件?!笆褂谜摺被颉跋到y(tǒng)操作者”通常包括為達(dá)到數(shù)據(jù)處理和信息交換的目的,通過“用戶設(shè)備”(如計算機、無線設(shè)備等)使用計算機網(wǎng)絡(luò)來進行存取的人?!坝嬎銠C”通常具有能夠執(zhí)行基本運算的功能單元,包括在無人干涉的情況下,進行大量計算操作和邏輯操作。
本文所使用的“應(yīng)用軟件”或“應(yīng)用程序”,通常指專門用于解決應(yīng)用問題的軟件或程序。“應(yīng)用問題”通常是指由終端使用者提出的問題,并且其解決需要進行信息處理。
本文所使用的“自然語言”,是指其規(guī)則是基于目前的使用而不作特別規(guī)定的語言,如英語、西班牙語或漢語。本文所使用的“人工語言”,是指在使用前就已經(jīng)明確制定了其規(guī)則的語言,例如,計算機程序語言,如C、C++、Java、BASIC、FORTRAN或COBOL。
本文所使用的“統(tǒng)計相關(guān)性”,是指一個或更多個排序方案(O/E比、強度等),如果某個關(guān)系的發(fā)生頻率顯著高于預(yù)期的隨機頻率,該關(guān)系被確定為統(tǒng)計學(xué)相關(guān)性的。
本文所使用的術(shù)語“協(xié)同調(diào)節(jié)基因”(coordinately regulated genes)或“轉(zhuǎn)錄模塊”可以互換使用,是指分組的、特定基因的基因表達(dá)分布型(如與某種基因序列相關(guān)的信號值)中。每一轉(zhuǎn)錄模塊與兩個關(guān)鍵組的數(shù)據(jù)有關(guān),所述兩個關(guān)鍵組的數(shù)據(jù)為文獻檢索部分和從基因微陣列獲得的實證基因表達(dá)值數(shù)據(jù)?;诨虮磉_(dá)數(shù)據(jù)(上述的模塊提取算法)的分析,將該基因小組選擇到轉(zhuǎn)錄模塊中。其他步驟由以下文獻教導(dǎo)Chaussabel,D.和Sher,A.,Mining microarray expression data by literature profiling,Genome Biol 3,RESEARCH0055(2002),(http://genomebiology,eom/2002/3/10/research/0055),其相關(guān)部分引入本文作為參考,并且從感興趣的疾病或病癥(如系統(tǒng)性紅斑性狼瘡、關(guān)節(jié)炎、淋巴瘤、癌、黑色素瘤、急性感染、自身免疫性疾病、自體炎性障礙等)獲得表達(dá)數(shù)據(jù)。
下表列出了被用于開發(fā)文獻檢索部分或轉(zhuǎn)錄模塊構(gòu)建的關(guān)鍵詞的實例。本領(lǐng)域技術(shù)人員將會認(rèn)識到,可以將其他術(shù)語容易的選擇用于其他病癥,例如,具體的腫瘤、具體的傳染病、移植等。例如,將與T-細(xì)胞活化有關(guān)的基因和信號在下文中描述為模塊ID“M2.8”,其中某些關(guān)鍵詞(例如,淋巴瘤、T-細(xì)胞、CD4、CD8、TCR、胸腺、淋巴、IL2)用于識別關(guān)鍵的T-細(xì)胞相關(guān)基因,例如,T-細(xì)胞表面標(biāo)記物(CD5、CD6、CD7、CD26、CD28、CD96);由淋巴系細(xì)胞表達(dá)的分子(淋巴毒素-β、IL-2可誘導(dǎo)的T細(xì)胞激酶、TCF7;以及T-細(xì)胞分化蛋白mal、GATA3、STAT5B)。接下來,通過來自于患者群的相關(guān)數(shù)據(jù)將這些基因產(chǎn)生所述轉(zhuǎn)錄模塊,從而開發(fā)出完整的模塊(不考慮平臺、存在/缺失和/或是上調(diào)或下調(diào))。在某些情況下,基因分布型(在此時)與所述疾病病癥及數(shù)據(jù)的任意特定基因簇并不相匹配,但是,在“不確定組”模塊中包括有某些生理途徑(如cAMP信號、鋅指蛋白、細(xì)胞表面標(biāo)記物等)。事實上,基因表達(dá)數(shù)據(jù)小組可用于提取協(xié)同表達(dá)的基因,優(yōu)先于提取與關(guān)鍵詞檢索匹配的基因,即,每一數(shù)據(jù)小組可以在交叉參考前與第二數(shù)據(jù)小組相關(guān)聯(lián)。
表1.轉(zhuǎn)錄模塊的實例 生物學(xué)定義 本文所使用的術(shù)語“陣列”,是指具有連接結(jié)合到所述支持物上的一個或更多個肽或者核酸探針的固體支持物或基質(zhì)。陣列通常具有一個或更多個可以與不同基質(zhì)表面(一般稱為位點)結(jié)合的不同核酸或肽探針。所述的陣列,又稱為“微陣列”或“基因芯片”,可以具有10,000、20,000、30,000或40,000個基于已知基因組的可識別的不同基因,如人類基因組。將所述的平板陣列(pan-arrays)用于檢測整個“轉(zhuǎn)錄組”或在樣本中表達(dá)或發(fā)現(xiàn)的基因轉(zhuǎn)錄池(pool),例如,表達(dá)為RNA、mRNA等的核酸可以通過RT和/或RT-PCR技術(shù)來制備互補的DNA復(fù)制子組。可以使用機械合成法、光導(dǎo)化學(xué)合成法等結(jié)合非平版印刷和/或照相平版印刷法和固相合成法制造陣列。
已經(jīng)描述有合成這些核酸陣列的各種技術(shù),如在任意表面形狀或甚至是在多重表面上制備核酸陣列。陣列可以為在珠粒、凝膠、聚合物表面、纖維(如光學(xué)纖維)、玻璃或其它合適基質(zhì)上的肽或核酸。陣列依照一定的方式包覆以便于診斷或其他所涉及設(shè)備的操縱,如專利號為6,955,788的美國專利,其相關(guān)部分納入本文作為參考。
本文所使用的術(shù)語“疾病”,是指有機體的生理學(xué)狀態(tài),其細(xì)胞的生物學(xué)狀態(tài)處于非正常的狀態(tài)。疾病包括但不限于細(xì)胞、組織、身體機能、系統(tǒng)或器官的中斷、停止或紊亂,所述中斷、停止或紊亂可以是內(nèi)在的、遺傳的、由于感染引起的、由于細(xì)胞功能異常、異常的細(xì)胞分裂等引起的。疾病導(dǎo)致通常對于生物系統(tǒng)(疾病患者)來說是有害的“病情”。對于本發(fā)明來說,任何生物學(xué)狀態(tài),如感染(例如病毒、細(xì)菌、真菌、蠕蟲等的感染)、炎癥、自發(fā)炎癥、自身免疫性、過敏性反應(yīng)、敏感癥、癌前病變、惡性腫瘤、外科手術(shù)、移植、生理學(xué)等與疾病或紊亂有關(guān)的生物學(xué)狀態(tài),都被看作是病情。病理狀態(tài)通常等同于病情。
還可按照病情的不同水平來對其進行分類。本文所使用的疾病或病情水平,是在治療期間或之后,反映疾病發(fā)展或病情及生理應(yīng)答的任意度量。一般。通常地,疾病或病情將是隨水平或階段發(fā)展的,疾病的影響會變得越來越嚴(yán)重。病情水平受樣本細(xì)胞病癥的影響。
本文所使用的術(shù)語“治療”或“治療方案”,是指那些用于減輕或改變病情的醫(yī)療步驟,例如意在減少或消除疾病的影響或癥狀而采取的藥理的、手術(shù)的、飲食的或其他技術(shù)的治療過程。治療方案,可以包括處方劑量的一種或多種藥物或外科手術(shù)。治療大多有益并且減輕病情,但是很多情況下,治療效果將是不期望的或是產(chǎn)生副作用的。治療效果也將受到該宿主的生理狀態(tài)如年齡、性別、遺傳、體重及其他疾病癥狀等的影響,。
本文所使用的術(shù)語“藥理學(xué)狀態(tài)”或“藥理學(xué)狀況”,是指那些將要,或正在和/或已經(jīng)接受了一種或多種藥物、外科手術(shù)等治療的樣本,可能會影響到樣本中一種或更多種核酸的藥理學(xué)狀態(tài),例如,由于藥理學(xué)干預(yù)而導(dǎo)致核酸的新轉(zhuǎn)錄、穩(wěn)定和/或不穩(wěn)定。樣本的藥理學(xué)狀態(tài),涉及在藥物治療前、治療中和/治療后的生物學(xué)狀態(tài)變化,可以用于診斷或預(yù)后,如本文所示。藥物治療或手術(shù)后帶來的某些變化,可能與病情有關(guān)和/或產(chǎn)生與治療無關(guān)的副作用。藥理學(xué)狀態(tài)的變化,有可能是治療持續(xù)、類型和處方藥物劑量、依照特定治療過程的程度和/或服用非處方藥的結(jié)果。
本文所使用的術(shù)語“生物學(xué)狀態(tài)”,是指為了分析表達(dá)變化而分離和純化的細(xì)胞樣本轉(zhuǎn)錄組(即收集的全部RNA轉(zhuǎn)錄體)的狀態(tài)。生物學(xué)狀態(tài)反映的是樣本中細(xì)胞的生理狀態(tài),根據(jù)形態(tài)學(xué)顯型特征或結(jié)合檢測轉(zhuǎn)錄體的方法來測量豐度和/或細(xì)胞組成活性。
本文所使用的術(shù)語“表達(dá)分布型”,是指RNA的相對豐度、DNA或蛋白質(zhì)的豐度或活性水平。表達(dá)分布型可用于表示測量例如轉(zhuǎn)錄或翻譯的狀態(tài),可以通過任意一種測量方法,使用任意一種基因芯片、基因陣列、珠粒、多重PCR、定量PCR、run-on陣列、Northern雜交分析、Western雜交分析、蛋白表達(dá)、免疫熒光激活細(xì)胞分選術(shù)(FACS)、酶聯(lián)免疫吸附測定法(ELISA)、化學(xué)發(fā)光研究、酶法、增殖研究或其他任何商業(yè)上可利用的測定和/或分析基因表達(dá)的方法、設(shè)備和系統(tǒng)。
本文所使用的術(shù)語樣本的“轉(zhuǎn)錄狀態(tài)”,包括確認(rèn)樣本中出現(xiàn)的RNA及其相對豐度,尤其是mRNAs。樣本的整體轉(zhuǎn)錄,即確認(rèn)RNA及其相對豐度相結(jié)合,在本文中還被稱為轉(zhuǎn)錄組。通常地,所測量的是樣本中全部RNA的所有相關(guān)組分中的重要部分。
本文所使用的術(shù)語“模塊化轉(zhuǎn)錄載體”,是指反映“差異表達(dá)基因比例”的轉(zhuǎn)錄表達(dá)數(shù)據(jù),如每個模塊為至少兩組(健康個體與患者)的轉(zhuǎn)錄差異表達(dá)比例。所述的載體來自于進行比較的兩組樣本。分析步驟的第一步是選擇每個模塊中的特定疾病的轉(zhuǎn)錄體組,接著是“表達(dá)水平”,某種特定疾病的組間比較,提供了各個模塊的差異表達(dá)的轉(zhuǎn)錄列表,不同的疾病產(chǎn)生不同的模塊化轉(zhuǎn)錄體子集。在表達(dá)水平上,可以通過特定疾病的已確定的差異表達(dá)基因的平均表達(dá)值,估計各單個樣本的各模塊的載體。所述方法會產(chǎn)生單個樣本的模塊化表達(dá)載體圖,例如,本文所揭露的模塊圖。所述載體模塊圖表示出來自每個樣本的各個模塊的平均表達(dá)水平(代替差異表達(dá)基因比例)。
采用本發(fā)明的方法確認(rèn)和區(qū)分疾病,不僅可以在模塊級,還可以在基因水平,例如,具有相同載體的兩種疾病(轉(zhuǎn)錄體差異表達(dá)比例相同,“極性”相同),載體的基因組成仍是疾病特異性的?;蛩降谋磉_(dá)明顯有利于提高分析的分辨率。
更進一步地,本發(fā)明利用復(fù)合轉(zhuǎn)錄標(biāo)記物。本發(fā)明所使用的術(shù)語“復(fù)合轉(zhuǎn)錄標(biāo)記物”,是指相對于使用個體基因作為標(biāo)記物來說,多種基因(模塊子集)的平均表達(dá)值(且所述的標(biāo)記物是疾病特異性的)。由于使用者能使用多元微陣列值,如SLE或本文所揭露的表達(dá)載體,來對患者疾病的嚴(yán)重程度進行評估,復(fù)合轉(zhuǎn)錄標(biāo)記物具有唯一性。最重要的是,使用本發(fā)明所提出的復(fù)合模塊轉(zhuǎn)錄標(biāo)記物,其結(jié)果在微陣列交叉平臺中,具有可重復(fù)性。因而為滿足監(jiān)管部門要求提供了更大的可靠性。
本發(fā)明中使用的基因表達(dá)檢測系統(tǒng),包括定制基因陣列,其具有針對一種或多種目標(biāo)疾病的特異的和/或定制的有限的和/或基本數(shù)量的基因。與通常使用的普通平板基因組陣列(pan-genome arrays)不同,本發(fā)明所提供的方法,不僅無需建立特定平臺,便可使用所述的普通平板陣列對基因和基因組進行回顧性分析,更重要地是,本發(fā)明能夠改進定制陣列,使其能夠提供用于分析的優(yōu)化基因小組,不含其他數(shù)千的無關(guān)基因。與現(xiàn)有技術(shù)相比,本發(fā)明提供的優(yōu)化陣列和模塊的最顯著優(yōu)勢在于,節(jié)約了經(jīng)濟開支(如各個陣列、材料、設(shè)備、時間、人員、培訓(xùn)等方面的費用),更重要地是,避免了制造用于獲得大量無關(guān)數(shù)據(jù)的平板陣列對環(huán)境的影響。本發(fā)明的模塊,首次使得定制陣列設(shè)計簡單化,使其在最大化信號到噪聲比(noiseratio)時,能夠提供含有最少量探針的優(yōu)化數(shù)據(jù)。通過減少用于分析的基因總量,可以,如減少為制造獲得大量無關(guān)數(shù)據(jù)的平板基因芯片而生產(chǎn)的數(shù)千用于這些平版工藝的昂貴鉑面具。探針有限的本發(fā)明與下述方法結(jié)合使用,可以完全避免使用微陣列,例如,數(shù)字光化學(xué)陣列、球珠粒陣列、珠粒(如Luminex)、多重PCR、定量PCR、run-on陣列、Northern雜交分析、甚至蛋白表達(dá),如Western雜交分析、2-D和3-D凝膠蛋白表達(dá)、MALDI、MALDI-TOF、免疫熒光激活細(xì)胞分選術(shù)(FACS,細(xì)胞表面或細(xì)胞內(nèi))、酶聯(lián)免疫吸附測定法(ELISA)、化學(xué)發(fā)光研究、酶法、增殖研究或其他任何商業(yè)上可利用的測定和/或分析基因表達(dá)的方法、設(shè)備和系統(tǒng)。
本發(fā)明所使用的術(shù)語“分子指紋系統(tǒng)”,是指在不同的細(xì)胞或組織、相同細(xì)胞或組織的不同亞群體、相同細(xì)胞或組織的不同病癥、相同細(xì)胞和組織的不同發(fā)育階段、或相同組織的不同細(xì)胞群體與其他疾病和/或正常細(xì)胞對照之間促進和實施表達(dá)的比較分析。有時,可以對來自樣本的正?;蛞吧偷谋磉_(dá)數(shù)據(jù)同時或基本同時進行分析,或從已存在的基因陣列表達(dá)數(shù)據(jù)庫,如公共數(shù)據(jù)庫(NCBI Gene Expression Omnibus database,NCBI基因表達(dá)綜合數(shù)據(jù)庫)中,獲得或選取表達(dá)數(shù)據(jù)。
本文所使用的術(shù)語“差異表達(dá)”,是指測量兩個或多個的樣本(如患病樣本和正常樣本)的細(xì)胞組分(如核酸、蛋白、酶活性等)變化。與對照樣相比,細(xì)胞組分可能是存在或缺失,上調(diào)或下降。使用基因芯片或基因陣列,使核酸的差異基因得到表達(dá),如mRNA或其他RNAs(miRNA、siRNA、hnRNA、rRNA、tRNA等),可用于區(qū)別細(xì)胞類型或核酸。最常見地是,細(xì)胞轉(zhuǎn)錄狀態(tài)的測量是通過以下方法完成的定量逆轉(zhuǎn)錄(RT)和/或定量逆轉(zhuǎn)錄多聚酶鏈?zhǔn)椒磻?yīng)(RT-PCR)、基因組表達(dá)分析、翻譯后分析、基因組DNA修飾、易位、原位雜交技術(shù)等。
有些病情可以通過細(xì)胞或形態(tài)差別進行確認(rèn),尤其是在病情早期。本發(fā)明無需通過檢查細(xì)胞自身基因模塊,對特定突變體或者一個或更多基因進行識別,或更重要地是,無需識別在正常生理環(huán)境中(免疫激活、免疫耐受或甚至是免疫無能時)起作用的免疫效應(yīng)細(xì)胞RNA的基因表達(dá)?;蛲蛔兛赡軙?dǎo)致基因組表達(dá)水平的急劇變化,生物系統(tǒng)通常會通過改變其他基因的表達(dá)來補償變化。這些內(nèi)在補償反應(yīng)的結(jié)果是,許多微擾對可觀察的系統(tǒng)顯型影響不明顯,但是對細(xì)胞組分的組成會產(chǎn)生深刻影響。同樣地,基因轉(zhuǎn)錄體的實際拷貝數(shù)不會增加或減少,但是可能會影響轉(zhuǎn)錄體的壽命或半衰期,極大提高蛋白產(chǎn)量。本發(fā)明無需檢測實際信息,在一個具體實施例中,檢測的是效應(yīng)細(xì)胞(如白細(xì)胞、淋巴細(xì)胞和/或其中的亞群體),而不是單個信息和/或突變體。
本領(lǐng)域的技術(shù)人員可以意識到,樣本可以有各種來源,包括單細(xì)胞、收集細(xì)胞、組織、培養(yǎng)細(xì)胞等。在具體的實例中,甚至可能是從尿、血液、唾液、組織或組織活檢樣本等細(xì)胞分離到的足量RNA。在特定環(huán)境下,可以從以下來源獲得足量細(xì)胞和/或RNA黏膜分泌物、糞便、淚水、血漿、腹水、組織液、硬膜下積液、腦脊液、汗液、或其他體液。核酸的來源,如組織或細(xì)胞,可包括組織活檢樣本、一種或更多種細(xì)胞群體、培養(yǎng)細(xì)胞、細(xì)胞克隆、轉(zhuǎn)化細(xì)胞、活組織切片或單細(xì)胞。組織來源,包括大腦、肝臟、心臟、腎臟、肺、脾、視網(wǎng)膜、骨、神經(jīng)中樞、淋巴結(jié)、內(nèi)分泌腺、生殖器官、血液、神經(jīng)、血管組織、嗅上皮。
本發(fā)明包括以下基本組成,可單獨或組合使用,即一個或更多數(shù)據(jù)挖掘算法;一個或更多模塊水平分析步驟;表征血液白血細(xì)胞的轉(zhuǎn)錄模塊;使用匯總模塊化數(shù)據(jù)對人類疾病進行分子診斷/預(yù)后的多元分析;和/或可視化模塊級數(shù)據(jù)和結(jié)果。使用本發(fā)明,可以開發(fā)和分析復(fù)合轉(zhuǎn)錄標(biāo)記物,所述復(fù)合轉(zhuǎn)錄標(biāo)記物可更進一步匯總為單一多元評分(multivariate score)。
數(shù)據(jù)采集速率的迅速提高,促進了利用微陣列數(shù)據(jù)和生物醫(yī)學(xué)知識的挖掘工具和算法的發(fā)展。以揭露模塊化組織和轉(zhuǎn)錄系統(tǒng)功能為目的的方法,組成了識別疾病分子信號的有潛力的方法14-16,17。事實上,所述分析能夠通過將個體基因或基因列表水平的微陣列數(shù)據(jù)概念化而轉(zhuǎn)變對大規(guī)模轉(zhuǎn)錄研究的理解。
本發(fā)明的發(fā)明人還意識到,當(dāng)前基于微陣列的研究,分析數(shù)據(jù)時面臨著“臭名昭著的噪聲”的重大挑戰(zhàn),也就是說,很難解釋數(shù)據(jù),交叉實驗室或?qū)嶒炂脚_的數(shù)據(jù)不能很好的進行比較。普遍接受的分析微陣列數(shù)據(jù)的方法,始于對不同研究小組的基因差異表達(dá)子集的鑒定。其次,使用者試圖使用模式發(fā)現(xiàn)算法和已有科學(xué)知識接著將基因列表的結(jié)果解釋清楚。
沒有處理交叉平臺的較大變異,本發(fā)明揭露了一種在分析早期著重選擇生物相關(guān)基因的方法。簡而言之,所述方法包括確認(rèn)表征某個特定生物系統(tǒng)的轉(zhuǎn)錄組分,為此開發(fā)出改進的數(shù)據(jù)挖掘算法,用于分析和選取來自大量收集數(shù)據(jù)中的等同表達(dá)基因或轉(zhuǎn)錄模塊。
在一個實例中,從239個血液白細(xì)胞轉(zhuǎn)錄分布型中獲得了28個轉(zhuǎn)錄模塊,含有4742個重組探針集。通過文獻分布型證明形成所述模塊的基因的函數(shù)收斂性(Functional convergence)。第二步是基于模塊研究轉(zhuǎn)錄系統(tǒng)微擾。為闡明此概念,分別獲得健康志愿者和患者的白細(xì)胞轉(zhuǎn)錄分布型,并對其進行比較和分析。通過分析公開發(fā)表的微陣列數(shù)據(jù)集,獲得確認(rèn)的基因指紋策略。值得注意地是,本發(fā)明的模塊轉(zhuǎn)錄設(shè)備、系統(tǒng)和方法采用現(xiàn)已存在的數(shù)據(jù)進行驗證時,在兩個交叉商業(yè)微陣列平臺間,顯示出較高的重復(fù)性。
本發(fā)明包括為進行轉(zhuǎn)錄系統(tǒng)的模塊化分析而執(zhí)行廣泛適用的兩步微陣列數(shù)據(jù)挖掘策略。本新方法用于表征血液白細(xì)胞的轉(zhuǎn)錄信號,組成臨床相關(guān)資料最方便的來源。
在此,有可能基于兩種載體而確認(rèn)、區(qū)別和/或鑒定兩種疾病,甚至是基于相同載體(+/+)的兩種疾病,如M1.3=53%,都低于SLE和FLU,由于各載體的組成都可用于區(qū)別所述的兩種疾病。例如,兩種M1.3疾病,雖然轉(zhuǎn)錄體差異表達(dá)的比例和極性都是一致的,但是基因組成仍然是疾病特異性的。結(jié)合基因水平和模塊水平分析,顯著提高了分辨率。更進一步地,可以使用2、3、4、5、10、15、20、25、28或更多的模塊來區(qū)別疾病。
材料和方法。處理血樣。將血樣收集于酸式檸檬酸鹽葡萄糖管中(BD動脈血氣針,BD Vacutainer),立即轉(zhuǎn)送到Baylor Institute for ImmunologyResearch,Dallas,TX進行處理。通過Ficoll密度梯度離心法從3-4ml血液中分離出外周血單核細(xì)胞(PBMCs),立即在含有β-巰基乙醇(BME)的RLT試劑(Qiagen公司)中溶解細(xì)胞,在提取RNA步驟之前儲存于-80℃。
微陣列分析。使用RNeasy試劑盒(Qiagen公司),根據(jù)產(chǎn)品說明書分離出總RNA,并使用Agilent 2100生物分析儀(Agilent 2100 Bioanalyzer,Agilent公司)來評估RNA完整性。
Affymetrix基因芯片所述微陣列包括在石英晶片上原位合成的短鏈寡核苷酸探針集。根據(jù)制造商(Affymetrix公司)的標(biāo)準(zhǔn)方案進行目標(biāo)物標(biāo)記。純化生物素化的cRNA靶序列,并將其與Affymetrix HG-U133A& U133B基因芯片(>44,000探針集)進行雜交。使用Affymetrix共聚焦激光掃描儀(Affymetrix confocal laser scanner)掃描陣列。采用微陣列套件,5.0版分析軟件(MAS 5.0;Affymetrix公司)評估熒光雜交信號,標(biāo)準(zhǔn)化信號,評價檢測信號。使用MAS5.0整體方法統(tǒng)一各基因芯片的目標(biāo)密度值為500。采用基因表達(dá)分析軟件程序GeneSpring 7.1(Agilent公司)進行統(tǒng)計學(xué)分析和分層聚類。
Illumina微珠芯片所述微陣列包括固定于3μm珠粒的50mer寡核苷酸探針,且位于玻片表面的微孔內(nèi)。基于Illumina公司的服務(wù)合同處理樣本使其符合要求。使用Illumina RNA擴增試劑盒(Ambion,Austin,TX)制備靶序列。cRNA靶序列與Sentrix HumanRef8微珠芯片(>25,000探針)進行雜交。使用Illumina BeadStation 500進行掃描。采用IlluminaBeadstudio軟件評估雜交熒光信號。
文獻分布型。本研究所采用一種流行的文獻分布型的算法之前已進行過詳細(xì)描述18。該方法將有相似關(guān)鍵詞的基因聯(lián)系起來。采用非監(jiān)督模式發(fā)現(xiàn)算法——分層聚類,來分析文獻摘要中術(shù)語出現(xiàn)的模式。步驟1基因文獻索引,確認(rèn)相關(guān)出版物中的各個基因。步驟2使用文本處理器計算出術(shù)語出現(xiàn)頻率。步驟3通過嚴(yán)格篩選標(biāo)準(zhǔn),選擇出相關(guān)關(guān)鍵詞(如排除所有基因中頻率高或低的術(shù)語,僅保留表征少數(shù)基因高出現(xiàn)模式的較少鑒定術(shù)語)。步驟4基于出現(xiàn)模式,雙向分層聚類基因及相關(guān)關(guān)鍵詞,形象表示出存在于基因群體中的函數(shù)關(guān)系。
模塊化數(shù)據(jù)挖掘算法。首先,確認(rèn)超越個體基因水平,有可能表征生物系統(tǒng)的一個或更多轉(zhuǎn)錄組分。使用新的挖掘算法,提取協(xié)同調(diào)節(jié)基因小組,或轉(zhuǎn)錄模塊,應(yīng)用于血液白細(xì)胞微陣列圖譜(圖1)。使用AffymetrixU133A&B基因芯片(>44,000探針集)做出來自總共239個外周血單核細(xì)胞(PBMCs)樣本的基因表達(dá)分布型。獲得的轉(zhuǎn)錄數(shù)據(jù)分成八個試驗組(全身型幼年特發(fā)性關(guān)節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植、黑色素瘤和急性感染,包括大腸桿菌、金黃色葡萄球菌、流感病毒A)。排除各組中在所有條件下缺乏標(biāo)記的轉(zhuǎn)錄體。剩余基因通過分層聚類分成30個組(從集群C1到集群C30)。將各基因的集群分配記錄于表格中,比較所有基因的分配模式。使用迭代程序來選擇模塊,從所有研究組中屬于相同集群的最大的基因小組開始(如,在8個試驗組中發(fā)現(xiàn)8個相同集群的基因)。從核心對照模式中進行擴增選擇,包括7/8,6/8和5/8相匹配的基因。選擇基因小組的結(jié)果形成了轉(zhuǎn)錄模塊,并從選擇庫中撤回。重復(fù)開始選擇第二大組基因,逐漸降低嚴(yán)格水平。通過所述分析確認(rèn)了5348個分配于28個模塊的轉(zhuǎn)錄體(提供完整列表作為輔助材料)。分別給各模塊指定一個唯一標(biāo)識符,以表明輪數(shù)和選擇順序(如M3.1是在第三輪選擇種確認(rèn)的第一個模塊)。
模塊清楚的顯示出“轉(zhuǎn)錄行為”。一般都假定共表達(dá)基因在功能上是相互聯(lián)系的?!盃窟B犯罪”的概念,特指在許多樣本中,基因強制性服從某種復(fù)雜表達(dá)模式。本發(fā)明人發(fā)現(xiàn)了轉(zhuǎn)錄模塊形式一致的生物單位,因此預(yù)測在獨立樣本組中將會保存初始數(shù)據(jù)集中確認(rèn)的共表達(dá)特性。從21名健康志愿者血液中分離PBMCs獲得數(shù)據(jù)。所述樣本并不用于上述的模塊選擇過程。
圖2所示為4個不同模塊的基因表達(dá)分布型(圖2M1.2、M1.7、M2.11及M2.1)。如圖2所示,每條線代表多個樣本(在x-軸上有21個樣本)中的個體基因表達(dá)水平(y-軸)。在此例中,基因表達(dá)的差異表現(xiàn)出“健康”個體間的個體變異。各個模塊中基因的“轉(zhuǎn)錄行為”顯示一致。事實上,在所有的樣本中,基因表達(dá)的變化都表現(xiàn)為連續(xù)的(對某些樣本來說,所有基因的表達(dá)都提高而形成一個高峰,而其他所有基因的水平都較低形成傾角)。重要地是,個體間的差異隨著形成的高峰和傾角在不同樣本(M1.2,M2.11及M2.1)中表現(xiàn)為模塊特異性。更進一步地,各模塊的變化幅度也表征出,M1.2和M2.11的表達(dá)水平變化比M2.1,尤其是M1.7更大。因而,我們發(fā)現(xiàn)轉(zhuǎn)錄模塊組成獨立于生物學(xué)變量。
轉(zhuǎn)錄模塊的功能表征。接著,在功能水平表征模塊。利用文本挖掘的方法從收集各基因的生物醫(yī)學(xué)文獻中提取關(guān)鍵詞(參見文獻18)。與4個分析的模塊有關(guān)的關(guān)鍵詞的分類明顯不同(圖3)。以下為可能與特定模塊有關(guān)的關(guān)鍵詞列表。
對M1.2具有高度特異性的關(guān)鍵詞,包括血小板、聚集或血栓癥,與其有關(guān)的基因如ITGA2B(整合素α2b、血小板糖蛋白IIb),PF4(血小板因子4),SELP(選擇素P)和GP6(血小板糖蛋白6)。
對M1.3具有高度特異性的關(guān)鍵詞,包括B-細(xì)胞、免疫球蛋白或IgG,與其有關(guān)的基因如CD19、CD22、CD72A、BLNK(B細(xì)胞接頭)、BLK(BB淋巴細(xì)胞酪氨酸激酶)和PAX5(配對的盒裝基因,paired box gene 5,一種B-細(xì)胞譜系特異性激活劑)。
對M1.5具有高度特異性的關(guān)鍵詞,包括單核細(xì)胞、樹突狀、CD14或Toll樣、與其有關(guān)的基因如MYD88(髓樣分化因子初次應(yīng)答基因88)、CD86、TLR2(Toll樣受體2)、LILRB2(白細(xì)胞免疫球蛋白樣受體B2)和CD163。
對M3.1具有高度特異性的關(guān)鍵詞,包括干擾素(IFN)、IFN-α、抗病毒或ISRE及其有關(guān)的基因如STAT1(信號轉(zhuǎn)導(dǎo)和轉(zhuǎn)錄激活因子1)、CXCL10(CXC趨化因子配體10、IP-10)、OAS2(寡腺苷酸合成酶2)以及MX2(粘病毒抗性2)。
術(shù)語出現(xiàn)的對照模式,指示各模塊功能顯著一致。從文獻中提取出的所有已確定的模塊信息,允許在轉(zhuǎn)錄水平對PBMC系統(tǒng)進行全面的功能表征。已確認(rèn)的28個樣本PBMC各轉(zhuǎn)錄模塊的相關(guān)功能描述,如表2所示。
表228個轉(zhuǎn)錄模塊的完整功能評估 基于模塊的微陣列數(shù)據(jù)挖掘策略。來自于“傳統(tǒng)的”微陣列分析的結(jié)果有著“聲明狼籍的噪聲”并且很難解釋。普遍接受的微陣列數(shù)據(jù)分析方法,包括三個基本步驟1)使用統(tǒng)計檢驗在研究組間選擇差異表達(dá)的基因;2)應(yīng)用模式發(fā)現(xiàn)算法在結(jié)果基因列表中識別信號;以及3)使用從文獻或本體數(shù)據(jù)庫中獲取的知識來解釋數(shù)據(jù)。
本發(fā)明所使用的新的微陣列數(shù)據(jù)挖掘策略,強調(diào)在分析初期就選擇與生物相關(guān)的轉(zhuǎn)錄體。第一步實施的是使用以上所述的模塊挖掘算法結(jié)合深入表征各轉(zhuǎn)錄模塊的功能挖掘工具(圖4頂欄,步驟1)。分析并沒有考慮各組間的基因表達(dá)水平的差異,而是將重點放在由于生物學(xué)變異而產(chǎn)生的復(fù)雜基因表達(dá)模式(如患者群體中的個體間差異)。在定義與特定生物學(xué)系統(tǒng)相關(guān)的轉(zhuǎn)錄組分后,分析的第二步,包括通過比較不同的研究組來分析基因表達(dá)變化(圖4底欄,步驟2)。獨立進行各模塊的組間比較分析。基因表達(dá)的模塊級變化比例滿足顯著性標(biāo)準(zhǔn)(如圖5中的餅圖或圖6中的點所示)。特別地,在進行數(shù)以千計的試驗時,在模塊級上的比較可以避免“隨機”收集基因產(chǎn)生的“噪聲”。
在人類疾病中,模塊化PBMC轉(zhuǎn)錄分布型的微擾。為闡明上述微陣列數(shù)據(jù)挖掘策略的第二步(圖4),從兩個小兒科病人群體(18名患系統(tǒng)性紅斑狼瘡(SLE)的兒童和16名急性流感病毒A感染的兒童中)獲得PBMC樣本基因表達(dá)數(shù)據(jù),并進行比較和分析。各患者群都與各自的對照組(健康志愿者,分別取11份作為SLE組的對照,10份作為流感組的對照)進行比較。如圖4所示的分析圖解,在患者組和健康組間進行各個體模塊的統(tǒng)計學(xué)組間比較,并測量各模塊中發(fā)生顯著變化的基因比例(圖5)。統(tǒng)計學(xué)組間比較方法允許使用者集中分析清楚界定的含有最少量“噪聲”的基因組,從而鑒定其生物學(xué)意義。圖4為表示所述結(jié)果的關(guān)鍵圖。
所述結(jié)果表明(1)在M3.1(“干擾素相關(guān)”)中,較大比例的基因在Flu組和SLE組中都達(dá)到了顯著水平(分別為84%和94%)。觀察證實了對SLE患者的早期治療19,并確定了在急性流感感染者中存在干擾素信號。(2)在M1.3(“B-細(xì)胞相關(guān)”)中,相當(dāng)比例的基因在兩組中都有顯著變化(53%),兩個列表中有50%是重疊的。此時,與健康組相比,患者的基因一致低表達(dá)。(3)還發(fā)現(xiàn)兩種疾病的模塊差異。在模塊1.1中,發(fā)生顯著變化的基因比例在SLE患者中達(dá)到了39%,而在FIu患者中僅為7%,在0.05的顯著性水平,與預(yù)期僅偶然發(fā)生差異表達(dá)的基因比例相接近。有趣地是,所述模塊基本上專有地由編碼與漿細(xì)胞有關(guān)的免疫球蛋白鏈的基因組成。然而,所述模塊在基因表達(dá)水平和模式(未示出)上,都與B-細(xì)胞相關(guān)的模塊(M1.3)明顯不同。(4)如模塊M1.5所示,單個模塊的基因水平分析能夠用于進一步區(qū)別兩種疾病。對于M1.3來說也一樣,盡管在模塊級沒有差異(圖453%的轉(zhuǎn)錄體低表達(dá)),在Flu組與SLE組間存在的差異能夠在基因水平識別(在M1.3中,僅有51%的轉(zhuǎn)錄本低表達(dá),在兩個疾病組中普遍存在)。所述實例表明使用模塊結(jié)構(gòu)對微陣列結(jié)果進行流線型分析及解釋。
基因表達(dá)的圖在模塊級的變化。數(shù)據(jù)可視化對于解釋復(fù)雜的數(shù)據(jù)集來說,極為重要,我們正在探索提供一種對發(fā)生在模塊級變化的全面圖解。28個PBMC轉(zhuǎn)錄模塊表示的由不同疾病導(dǎo)致的基因表達(dá)水平的變化(圖6)。每個疾病組與其各自的由相配年齡和性別的健康志愿者組成的對照組進行比較(18名SLE患者、16名急性流感感染者、16名轉(zhuǎn)移性黑色素瘤患者和16名接受免疫抑制藥物治療的肝移植受者與由10到11名健康個體組成的對照組相比較)。模塊級數(shù)據(jù)通過排列于網(wǎng)格中的點示出,每個位置與不同的模塊相對應(yīng)(見表1對各模塊功能的注釋)。
點的亮度表明各模塊中發(fā)生顯著變化的基因比例。點的顏色表明變化的極性(紅色為過表達(dá)的基因比例;藍(lán)色為低表達(dá)的基因比例;紫色為模塊中顯著上調(diào)和低表達(dá)的基因比例,但是尚未觀察到紫色)。所述表示允許對PBMC轉(zhuǎn)錄系統(tǒng)的微擾進行快速評估。每種疾病都會生成所述的“模塊圖”。比較4幅圖,可發(fā)現(xiàn)疾病由唯一的模塊組合表征。實際上,單獨用M1.1和M1.2的結(jié)果,就足夠鑒定所有四種疾病(M1.1/M1.2SLE=+/+;FLU=0/O;黑色素瘤=-/+;移植=-/-)。M3.2中的大量基因(“炎癥”)在所有疾病中都過表達(dá)(尤其是在移植組中),而M3.1中的基因(干擾素)在SLE患者、流感感染者、還有部分移植受者中為過表達(dá)?!昂颂求w蛋白”模塊基因(M1.7和M2.4)在SLE和Flu組中都低表達(dá)。最近發(fā)現(xiàn),在SLE患者中,所述基因的表達(dá)水平與疾病活動為負(fù)相關(guān)(Bennett等人,已提交)。在SLE患者和接受針對T-細(xì)胞免疫抑制藥物治療的移植受者的淋巴細(xì)胞中,M2.8包括T-細(xì)胞轉(zhuǎn)錄體低表達(dá)。
有趣地是,各模塊的差異表達(dá)基因主要都是低表達(dá)或是過表達(dá)的(圖5和圖6)。然而,模塊的選擇完全基于基因表達(dá)分布型的相似性,而不是組間的表達(dá)水平變化。在各表示模塊化數(shù)據(jù)功能相關(guān)性的模塊中,基因表達(dá)的變化出現(xiàn)高極化現(xiàn)象。因此,本發(fā)明通過對患者血液白細(xì)胞轉(zhuǎn)錄分布型的模塊化分析就可進行疾病指紋識別。
在公開的數(shù)據(jù)集中確認(rèn)PBMC模塊。其次,以“第三方”數(shù)據(jù)來測試上述的PBMC轉(zhuǎn)錄模塊的有效性。用Connolly等研究的運動對人PBMCs中基因表達(dá)的效應(yīng)20進行測試。
簡而言之,從15名健康人體中分三次取樣(在運動前、恒定負(fù)荷循環(huán)測力運動30分鐘后及運動結(jié)束后約1小時)。使用Affymetrix U133A基因芯片,測出3類受試者各5個RNA庫的轉(zhuǎn)錄分布型。從基因表達(dá)綜合數(shù)據(jù)庫網(wǎng)站上21下載原始數(shù)據(jù),并以模塊為基礎(chǔ),對基因表達(dá)的變化進行分析。圖7為模塊M1.1(“漿細(xì)胞”)、M1.7(“核糖體蛋白質(zhì)”)及M2.1(“細(xì)胞毒性細(xì)胞”)的轉(zhuǎn)錄分布型。所述各模塊的基因轉(zhuǎn)錄行為明顯不同。有趣地是,發(fā)現(xiàn)受試者庫(M1.1)、實驗條件(M2.1)或無差異(M1.7)之間的差別。這些數(shù)據(jù)清楚顯示,運動后細(xì)胞毒性細(xì)胞(cytotoxic cell)相關(guān)基因(M2.1)的表達(dá)量立刻增加,休息后,又接著降低到基線水平。該發(fā)現(xiàn)與在慣于久坐的受試者運動后觀察到的自然殺傷細(xì)胞循環(huán)提高現(xiàn)象一致22,23。Connolly等已將包括在M2.1中的某些基因列入“炎癥反應(yīng)”列,但是并未將其與細(xì)胞組分可能發(fā)生的變化相聯(lián)系。在運動后,發(fā)現(xiàn)屬于“炎癥”模塊(M3.2,M3.3)的基因很少發(fā)生變化,盡管在很多疾病中,組成所述模塊的基因表達(dá)水平都有所提高(Chaussabel等人,已提交)。然而,有趣地是,在IV期黑色素瘤患者和移植受者中,免疫抑制分子特定過表達(dá)(Chaussabel等人,已提交)的現(xiàn)象,僅是在運動后的瞬時增加(未示出,M1.4;如TCF8、CREM、RGS1、TNFAIP3)。
綜合分析結(jié)果表明,所提出的模塊挖掘策略在其他獨立研究小組獲得的數(shù)據(jù)中具有效性。使用本發(fā)明,模塊化轉(zhuǎn)錄數(shù)據(jù)在微陣列交叉平臺中具有重復(fù)性。
首先,將使用兩個商業(yè)化微陣列平臺獲得的模塊化轉(zhuǎn)錄分布型作比較。從4名健康志愿者和10名肝移植受者提供的14份樣本,分離得到PBMCs。起始于相同來源的總RNA,獨立地生成靶點,并使用Affymetrix LJ133基因芯片(Baylor免疫研究所)和Illumina Human Ref8微珠芯片(于Illumina服務(wù)中心)進行分析。在兩種微陣列技術(shù)之間存在著根本的區(qū)別(參見詳細(xì)描述的方法)。將各制造商提供的探針I(yè)Ds轉(zhuǎn)化為一種唯一ID(NCBIEntrez檢索系統(tǒng)基因ID),用于與基因表達(dá)分布型相匹配。共享獲得的基因小組數(shù)據(jù),如圖8所示,為模塊M1.2(“血小板”),M3.1(“干擾素”)和M3.2(“炎癥”)。由Illumina微珠芯片獲得的數(shù)據(jù)做出的圖譜表明,各模塊內(nèi)的基因都有較高水平的共表達(dá)。所述觀察有重大意義,因為使用Affymetrix基因芯片獲得的基于基因表達(dá)的數(shù)據(jù),對轉(zhuǎn)錄模塊的選擇是專有的。更進一步地,在微陣列交叉平臺中,各模塊的平均基因表達(dá)值具有高度重復(fù)性(圖8)。
所述結(jié)果表明,模塊轉(zhuǎn)錄信號穩(wěn)定,并清楚顯示,模塊級的分析,對在不同位點和不同平臺獲得的微陣列數(shù)據(jù),具有可重復(fù)性。
對于生物系統(tǒng)來說,微陣列基因表達(dá)數(shù)據(jù)形成了一幅全面但是卻紊亂的畫面?;谖㈥嚵械难芯?,面臨著三重挑戰(zhàn)(1)噪聲,(2)數(shù)據(jù)解釋,以及(3)重復(fù)性。對于噪聲來說,本發(fā)明已成功的比較了采用現(xiàn)有技術(shù)的方法得到的恒定結(jié)果中所涉及的成千上萬的基因,包括很大比例的噪聲24。對于數(shù)據(jù)解釋來說,本發(fā)明克服了信息過載的問題。實際上,解釋微陣列數(shù)據(jù)時,通常要求研究人員檢查實驗數(shù)據(jù),在已有的生物醫(yī)學(xué)知識中的基因組范圍內(nèi)13。更擾人地是,由于對噪聲數(shù)據(jù)的過度解釋而產(chǎn)生欺騙性結(jié)果的可能性7。最后,對于重復(fù)性,在資料中詳細(xì)記載的已有技術(shù)中存在的關(guān)鍵問題是,在不同試驗室和交叉平臺中獲得的微陣列結(jié)果重復(fù)性較差,至今仍然是一個主要擾人的主要難題6,7,10-12。
由于一些原因,主流微陣列分析策略在解決該三重問題上,僅取得了有限的成功。首先,由于普遍認(rèn)為統(tǒng)計檢驗是分析初始步驟的先決條件,其結(jié)果是,僅在產(chǎn)生的差異表達(dá)基因列表中進行一次生物學(xué)考慮。然而,從成千上萬的變量測試中得到數(shù)據(jù)子集,將總是含有噪聲,因此非常難解釋。本發(fā)明提供的系統(tǒng)和方法,在確定模塊特征時,就從細(xì)胞和分子生物學(xué)的角度考慮其中的細(xì)胞。本發(fā)明的第一步,考慮的是在進行真正的第一步分析時,系統(tǒng)的生物學(xué)特性,因而選擇在數(shù)百個樣本中協(xié)同表達(dá)的功能相關(guān)的基因小組。在含有極富生物學(xué)意義的基因的模塊化數(shù)據(jù)集中應(yīng)用統(tǒng)計檢驗。該方法的另一個有益之處在于,通過使用轉(zhuǎn)錄模塊作為基本單位,超越了基因水平分析。轉(zhuǎn)錄模塊組成分析發(fā)生在定義的生物系統(tǒng)中的微擾的框架。所述模塊化數(shù)據(jù)格式有利于簡單化解釋模塊研究。然而,要在廣泛的生物學(xué)變異條件下初步表征各實驗系統(tǒng),如不同的實驗條件、個體差異、以及生物材料的成本或獲取途徑,都可能成為限制。
有趣的是,已證明經(jīng)模塊水平分析的數(shù)據(jù)極其穩(wěn)定,正如在兩種商業(yè)化微陣列平臺中表現(xiàn)出的良好重現(xiàn)性。
更進一步地,對PBMC轉(zhuǎn)錄模塊的多元分析,導(dǎo)致“基因組評分”(genomic score)的建立,可對系統(tǒng)性紅斑狼瘡患者的疾病嚴(yán)重程度進行準(zhǔn)確評估(Bennett等,已提交)。確定可靠的血液白細(xì)胞轉(zhuǎn)錄標(biāo)記物,組成了微陣列在臨床設(shè)置中應(yīng)用的重要步驟。
處理由多種類型的細(xì)胞形成的樣本,增加了分析微陣列基因表達(dá)數(shù)據(jù)的復(fù)雜水平。實際上,對轉(zhuǎn)錄差異基因表達(dá)水平的解釋,不僅可以從轉(zhuǎn)錄活性變化的角度,而且還能從細(xì)胞組分變化的角度。獲得的分析PBMC樣本的模塊化信號所反映的事實,允許我們從與活化作用有關(guān)的組分(包括與干擾素相關(guān)的基因(M3.1),與炎癥相關(guān)的基因(M3.2),或與發(fā)信號相關(guān)的基因(M2.11))中鑒定細(xì)胞組分(包括與血小板相關(guān)的基因M1.2,與紅血球相關(guān)的基因M2.3或與T-細(xì)胞相關(guān)的基因M2.8)。此類考慮與基于患者的研究有關(guān),因為大量微陣列分析是在涉及多細(xì)胞的樣本中進行。
通過Affymetrix和Illumina平臺獲得的模塊化表達(dá)數(shù)據(jù),具有高度可比性(圖9;移植組M1.2,M3.1及M3.2的皮爾森相關(guān)系數(shù),分別為R2=0.83、0.98及0.93,p<0.0001)。綜合考慮結(jié)果表明,模塊化轉(zhuǎn)錄數(shù)據(jù)在微陣列交叉平臺中能夠重復(fù)。該發(fā)現(xiàn)具有重要意義,因為其表明了“模塊化微陣列評分”(modular microarray scores)能夠用于評估使用獨立的微陣列平臺的患者的疾病嚴(yán)重程度。
本發(fā)明所描述的模塊級挖掘策略,可以廣泛應(yīng)用于生物系統(tǒng)領(lǐng)域,尤其是適用于分析其他臨床相關(guān)樣本,如瘤或?qū)嶓w器官活檢。
從表3中所提供的一個或更多個模塊和/或一個或更多個基因中可以獲得載體的表達(dá)水平。此外,對于本領(lǐng)域的普通技術(shù)人員來說,依靠疾病表達(dá)分布型和使用本發(fā)明的方法,可以開發(fā)模塊并進一步提煉出模塊及模塊中的基因,是顯而易見的。例如,依靠要求的特異性水平、數(shù)據(jù)集數(shù)量、患者數(shù)量等,在某種特定疾病中,包括不同差異表達(dá)基因比例的一個或更多不同的新模塊,可以應(yīng)用于基于新的數(shù)據(jù)開發(fā)新模塊,形成和組織基于新轉(zhuǎn)錄體子集的陣列,從而定義代表平均表達(dá)水平的新載體。
表1、表2及表3為長表格。本專利申請中包括長表格部分。所述表格副本可以自美國專利商標(biāo)局網(wǎng)站以電子形式獲得。所述表格的電子副本還可以美國專利商標(biāo)局網(wǎng)站在37CFR1.19(b)(3)所闡述的請求和付費后就可以獲得,該電子副本在該EFS遞交時附帶,并且表1、表2和表3均以其全文引入作為參考。
應(yīng)當(dāng)理解本文所描述的特定實施例顯示為說明的方式且不作為對本發(fā)明的限制。在不偏離本發(fā)明范圍的情況下,本發(fā)明的主要特征可以應(yīng)用于各種實施方式中。本領(lǐng)域內(nèi)的技術(shù)人員將會認(rèn)識到或能夠確認(rèn),僅僅使用常規(guī)實驗,眾多的等同物都能應(yīng)用于本文所描述的具體方法中。這樣的等同物被認(rèn)為是在本發(fā)明的范圍內(nèi),并且被權(quán)利要求所覆蓋。
本說明書中所提到的所有出版物或?qū)@暾埗贾甘玖吮景l(fā)明適合的本領(lǐng)域技術(shù)人員的技術(shù)水平。所有出版物或?qū)@暾埗荚诖硕技{入?yún)⒖?,其引入程度如同各個單獨的出版物或?qū)@暾埍痪唧w地和獨立地引入作為參考。
在權(quán)利要求中,將所有連接短語,如“包含”、“包括”、“負(fù)有”、“具有”、“含有”、“涉及”等均理解為開放式,即,意味著包括但不限于。只有連接短語“由......組成”及“基本由......組成”分別為封閉或半封閉式的連接短語。
根據(jù)本發(fā)明公開的內(nèi)容,本文所公開和要求保護的全部組合物和/或方法無需過度實驗即可制備和實施。由于本發(fā)明的所述組合物和方法已經(jīng)已優(yōu)選實施方式進行了描述,可以應(yīng)用于所述組合物和/或方法的各種變化,以及在不偏離本發(fā)明的構(gòu)思、精神和范圍的情況下所述方法在步驟上或步驟的順序上的各種變化,對于所述領(lǐng)域技術(shù)人員來說將是顯然的。更加具體地,在能產(chǎn)生相同或類似的結(jié)果時,化學(xué)上和生理上相關(guān)的某些試劑可以代替本文所描述的試劑,這是顯然的。所有對于所屬領(lǐng)域技術(shù)人員是顯然的這樣的類似的替代物和修飾,均被認(rèn)為是在如所附權(quán)利要求所定義的本發(fā)明的精神、范圍和構(gòu)思之內(nèi)。
參考文獻
1.Golub,T.R.et al.Molecular classification of cancerclass discovery andclass prediction by gene expression monitoring.Science 286,531-7(1999).
2.Alizadeh,A.A.et al.Distincttypes of diffuse large B-celllymphomaidentified by gene expression profiling.Nature 403,503-11(2000).
3.Garber,K.Genomic medicine.Gene expression tests foretell breastcancer′s future.Science 303,1754-5(2004).
4.van de Vij ver,MJ.et al.A gene-expression signature as a predictor ofsurvivalin breast cancer.N Engl J Med 347,1999-2009(2002).
5.Pascual,V.,Allantaz,F(xiàn).,Arce,E.,Punaro,M.& Banchereau,J.Role ofnterleukin-1(IL-I)in the pathogenesis of systemic onset juvenile idiopathicarthritis and clinical response to IL-I blockade.J Exp Med 201,1479-86(2005).
6.Michiels,S.,Koscielny,S.& Hill,C.Prediction of cancer outcome withmicroarraysa multiple random validation strategy.Lancet 365,488-92(2005).
7.Ioannidis,J.P.Microarrays and molecular researchnoise discovery?Lancet 365,454-5(2005).
8.Jarvinen,A.K.et al.Are datafrom different gene expression microarrayplatforms comparable?Genomics 83,1164-8(2004).
9.Tan,P.K.et al.Evaluation of gene expression measurements fromcommercial microarray platforms.Nucleic Acids Res 31,5676-84(2003).
10.Bammler,T.et al.Standardizing global gene expression analysisbetween laboratories and across platforms.Nat Methods 2,351-6(2005).
11.Irizarry,R.A.et al.Multiple-laboratory comparison of microarrayplatforms.Nat Me/hods 2,345-50(2005).
12.Larkin,J.E.,F(xiàn)rank,B.C.,Gavras,H.,Sultana,R.& Quackenbush,J.Independence and reproducibility across microarray platforms.NatMethods 2,337-44(2005).
13.Chaussabel,D.Biomedical literature miningchallenges and solutions inthe′omics′era.Am J Pharmacogenomics 4,383-93(2004).
14.Rhodes,D.R.et al.Mining for regulatory programs in the cancertranscriptome.Nat Genet 37,579-83(2005).
15.Segal,E.,F(xiàn)riedman,N.,Koller,D.& Regev,A.A module map showingconditional activity of expression modules in cancer.Nat Genet 36,1090-8(2004).
16.Mootha,V.K.et al.PGC-I alpha-responsive genes involved in oxidativephosphorylation are coordinately downregulated in human diabetes.NatGenet 34,267-73(2003).
17.Segal,E.,F(xiàn)riedman,N.,Kaminski,N.,Regev,A.& Koller,D.Fromsignatures to modelsunderstanding cancer using microarrays.Nat Genet37 Suppl,S38-45(2005).
18.Chaussabel,D.& Sher,A.Mining microarray expression data byliterature profiling.Genome Biol 3,RESEARCH0055(2002).
19.Bennett,L.et al.Interferon and granulopoiesis signatures in systemiclupus erythematosus blood.J Exp Med 197,711-23(2003).
20.Connolly,P.H.et al.Effects of exercise on gene expression in humanperipheral blood mononuclear cells.JAppl Physiol 91,1461-9(2004).
21.Barrett,T.et al.NCBI GEOmining millions of expression profiles—database and tools.Nlcleic Acids Res 33,D562-6(2005).
22.Ogawa,K.,Oka,J.,Yama kawa,J.& Hignchi,M.A single bout ofexercise influences natural killer cells in elderly women,especially thosewho are habitually active.J Strength Cond Res 19,45-50(2005).
23.Woods,J.A.,Evans,J.K.,Wolters,B.W.,Ceddia,M.A.& McAuley,E.Effects of maximal exercise on natural killer(NK)cell cytotoxicity andresponsiveness to interferon-alpha in the young and old.J Gerontol A BiolSci Med Sci 53,B430-7(1998).
24.Tuma,R.S.Efforts aimed at reducing noise,data overload inmicroarrays.J Natl Cancer Inst 97,1173-5(2005).
權(quán)利要求
1.一種用于診斷疾病或病癥的方法,所述方法包括以下步驟
獲得來自患者的轉(zhuǎn)錄組;
基于指示某種疾病或病癥的一個或更多轉(zhuǎn)錄模塊,分析轉(zhuǎn)錄組;以及
基于轉(zhuǎn)錄組中的基因在一個或更多轉(zhuǎn)錄模塊中的存在、缺失或表達(dá)水平,確認(rèn)患者的疾病或病癥。
2.權(quán)利要求1的方法,其中所述的轉(zhuǎn)錄模塊是通過以下方法獲得的
通過以下方式迭代地選擇用于一個或更多轉(zhuǎn)錄模塊的基因表達(dá)值
從與每一種疾病或病癥相匹配的每一集群中選擇用于所述模塊的基因;
從所述分析中排除所選擇的基因;和
重復(fù)所述基因表達(dá)值的選擇過程,所述選擇是用于集群于所述疾病或病癥的子部分的基因;和
迭代地重復(fù)用于每一集群模塊的形成,直到用完所有的基因集群。
3.權(quán)利要求1的方法,其中所述的集群選自表達(dá)值集群、關(guān)鍵詞集群、代謝集群、疾病集群、感染集群、移植集群、信號集群、轉(zhuǎn)錄集群、復(fù)制集群、細(xì)胞周期集群、siRNA集群、miRNA集群、線粒體集群、T細(xì)胞集群、B細(xì)胞集群、細(xì)胞因子集群、淋巴因子集群、熱休克集群及其組合。
4.權(quán)利要求1的方法,其中所述的一種或多種疾病或病癥選自以下的一種或多種病癥系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植受者、黑色素瘤患者、細(xì)菌性感染患者如大腸桿菌、金黃色葡萄球菌感染患者,病毒感染如流感病毒A感染,及其組合。
5.權(quán)利要求1的方法,其中所述的一種或多種疾病或病癥選自生物恐怖試劑的感染。
6.權(quán)利要求1的方法,其中所述的細(xì)胞包括外周血單核細(xì)胞(PBMCs)、血細(xì)胞、胎兒細(xì)胞、腹膜細(xì)胞、實體器官活檢物、切除的腫瘤、初級細(xì)胞、細(xì)胞系、細(xì)胞克隆及其組合。
7.權(quán)利要求1的方法,其中所述的細(xì)胞包括單個細(xì)胞、細(xì)胞的集合、組織、細(xì)胞培養(yǎng)物、尿液和血液。
8.權(quán)利要求1的方法,其中所述的細(xì)胞包括組織活檢物、一種或多種分選的細(xì)胞群體、細(xì)胞培養(yǎng)物、細(xì)胞克隆、轉(zhuǎn)化細(xì)胞、活檢組織或單細(xì)胞。
9.權(quán)利要求1的方法,其中所述的細(xì)胞包括腦、肝臟、心臟、腎、肺、脾、視網(wǎng)膜、骨、神經(jīng)元(neural)、淋巴結(jié)、內(nèi)分泌腺、生殖器官、血液、神經(jīng)、血管組織以及嗅覺上皮細(xì)胞。
10.權(quán)利要求1的方法,其中所述的獲得個體基因表達(dá)水平的步驟是使用探針陣列、PCR、定量PCR、珠粒陣列及其組合來進行的。
11.權(quán)利要求1的方法,其中所述的獲得個體基因表達(dá)水平的步驟是使用核酸在固體支持物上的雜交來進行的。
12.權(quán)利要求1的方法,其中所述的獲得個體基因表達(dá)水平的步驟是使用以從細(xì)胞中提取mRNA作為模板的cDNA來進行的。
13.權(quán)利要求1的方法,其中所述的模塊能夠區(qū)分自身免疫疾病、病毒感染細(xì)菌感染、癌癥和移植排斥。
14.一種用于鑒定轉(zhuǎn)錄模塊的方法,所述方法包括以下步驟
獲得細(xì)胞的個體基因表達(dá)水平,所述細(xì)胞是從患有疾病或病癥的一名或多名患者獲得的;
記錄劃分為集群的表格中的每一基因的表達(dá)值;
通過以下方式迭代選擇一個或更多轉(zhuǎn)錄模塊的基因表達(dá)值
從與每一疾病或病癥相匹配的每一集群中為所述模塊選擇基因;
從所述分析中排除所選擇的基因;和
重復(fù)所述基因表達(dá)值的選擇過程,所述選擇是用于集群于所述疾病或病癥的子部分的基因;以及
迭代地重復(fù)用于每一集群模塊的形成,直到用完所有的基因集群。
15.權(quán)利要求14的方法,其中所述的集群選自表達(dá)值集群、關(guān)鍵詞集群、代謝集群、疾病集群、感染集群、移植集群、信號集群、轉(zhuǎn)錄集群、復(fù)制集群、細(xì)胞周期集群、siRNA集群、miRNA集群、線粒體集群、T細(xì)胞集群、B細(xì)胞集群、細(xì)胞因子集群、淋巴因子集群、熱休克集群及其組合。
16.權(quán)利要求14的方法,其中所述的一種或多種疾病或病癥是選自以下的一種或多種病癥系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎、系統(tǒng)性紅斑狼瘡、I型糖尿病、肝移植受者、黑色素瘤患者、細(xì)菌性感染患者如大腸桿菌、金黃色葡萄球菌感染患者,病毒感染如流感病毒A感染,及其組合。
17.權(quán)利要求14的方法,其中所述的一種或多種疾病或病癥選自生物恐怖試劑的感染。
18.權(quán)利要求14的方法,其中所述的細(xì)胞包括外周血單核細(xì)胞(PBMCs)、血細(xì)胞、胎兒細(xì)胞、腹膜細(xì)胞、實體器官活檢物、切除的腫瘤,初級細(xì)胞、細(xì)胞系、細(xì)胞克隆及其組合。
19.權(quán)利要求14的方法,其中所述的細(xì)胞包括單個細(xì)胞、細(xì)胞的集合、組織、細(xì)胞培養(yǎng)物、尿液和血液。
20.權(quán)利要求14的方法,其中所述的細(xì)胞包括組織活檢物、一種或多種分選的細(xì)胞群體、細(xì)胞培養(yǎng)物、細(xì)胞克隆、轉(zhuǎn)化細(xì)胞、活檢組織或單細(xì)胞。
21.權(quán)利要求14的方法,其中所述的細(xì)胞包括腦、肝臟、心臟、腎、肺、脾、視網(wǎng)膜、骨、神經(jīng)元(neural)、淋巴結(jié)、內(nèi)分泌腺、生殖器官、血液、神經(jīng)、血管組織以及嗅覺上皮細(xì)胞。
22.權(quán)利要求14的方法,其中所述的獲得個體基因表達(dá)水平的步驟是使用寡核苷酸陣列來進行的。
23.權(quán)利要求14的方法,其中所述的獲得個體基因表達(dá)水平的步驟是使用在固體支持物上的核酸的雜交來進行的。
24.權(quán)利要求14的方法,其中所述的獲得個體基因表達(dá)水平的步驟是使用以從細(xì)胞中提取的mRNA作為模板的cDNA來進行的。
25.權(quán)利要求14的方法,其中所述的一種或多種轉(zhuǎn)錄模塊選自
及其組合,其中將樣本中的基因表達(dá)水平繪制在所述模塊中,以確定疾病或病癥。
26.一種疾病分析工具,所述疾病分析工具包括一種或多種選自如下的基因模塊:
并且所述的基因模塊足以區(qū)分自身免疫疾病、病毒感染細(xì)菌感染、癌癥以及移植排斥。
27.權(quán)利要求26的方法,其中所述的模塊用于區(qū)分系統(tǒng)性紅斑狼瘡、流感病毒感染、黑色素瘤以及移植排斥。
28.權(quán)利要求26的方法,其中所述被選擇的模塊是選自
漿細(xì)胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因;
并且所述模塊通過在這兩個模塊中具有陽性載體來用于鑒定系統(tǒng)性紅斑狼瘡。
29.權(quán)利要求26的方法,其中所述被選擇的模塊選自
漿細(xì)胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因;
并且所述模塊通過在這兩個模塊中既不具有陽性載體也不具有陰性載體來用于鑒定流感病毒感染。
30.權(quán)利要求26的方法,其中所述被選擇的模塊選自
漿細(xì)胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體如PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因;
并且所述模塊通過具有漿細(xì)胞標(biāo)記物的陰性載體和血小板標(biāo)記物的陽性載體來用于鑒定黑色素瘤。
31.權(quán)利要求26的方法,其中所述被選擇的模塊是選自
漿細(xì)胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因;
并且所述模塊是通過在這兩個模塊中具有陰性載體來用于鑒定移植排斥。
32.權(quán)利要求26的方法,其中所述被選擇的模塊是選自
漿細(xì)胞編碼免疫球蛋白鏈(IGHM、IGJ、IGLL1、IGKC、IGHD)以及漿細(xì)胞標(biāo)記物CD38的基因;和
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)以及血小板衍生的免疫介體PPBP(前血小板堿性蛋白)和PF4(血小板因子4)的基因;
并且所述模塊是通過在這兩個模塊中具有陰性載體來用于鑒定流感病毒感染。
33.一種預(yù)測基因陣列,所述基因陣列包括
定制的基因陣列,所述的定制基因陣列包含代表一個或更多轉(zhuǎn)錄模塊的基因組合,其中與所述定制的基因陣列相接觸的患者轉(zhuǎn)錄組,是與所述轉(zhuǎn)錄模塊相匹配的一種或多種疾病或病癥的預(yù)測。
34.權(quán)利要求33的陣列,其中所述患者對所述疾病或病癥的免疫反應(yīng)是基于轉(zhuǎn)錄組基因的存在、缺失或表達(dá)水平來確定的,且該轉(zhuǎn)錄組是基于與特定疾病或病癥相關(guān)的轉(zhuǎn)錄模塊。
35.權(quán)利要求33的陣列,其中所述的陣列能夠區(qū)分自身免疫疾病、病毒感染、細(xì)菌感染、癌癥以及移植排斥。
36.權(quán)利要求33的陣列,其中將所述陣列組織成兩個或更多的轉(zhuǎn)錄模塊。
37.權(quán)利要求33的陣列,其中將所述陣列組織成三個轉(zhuǎn)錄模塊,所述的轉(zhuǎn)錄模塊含有一個或更多選自如下的子模
并且包含特異性地結(jié)合所述模塊中的一個或更多基因的探針。
38.一種基因分析工具,所述工具包括一個或更多基因模塊,所述基因模塊選自下列左欄中的一組和右欄中的一組的組合
及其組合,其中將模塊中樣本的基因的表達(dá)水平顯示從而診斷疾病或病癥。
39.一種用于選擇臨床試驗的患者的方法,所述方法包括以下步驟
獲得預(yù)期患者的轉(zhuǎn)錄組;
將所述轉(zhuǎn)錄組與指示在所述臨床試驗中被治療的疾病或病癥的一個或更多轉(zhuǎn)錄模塊相比較;以及
基于在所述患者的轉(zhuǎn)錄組中表達(dá)的一個或更多基因的存在、缺失或水平,來確定患者是用于所述臨床試驗的好的候選者的可能性,所述患者的轉(zhuǎn)錄組是在與臨床試驗的成功相關(guān)的一個或更多轉(zhuǎn)錄模塊中。
40.權(quán)利要求39的方法,其中每一模塊包含與樣本中轉(zhuǎn)錄體比例總和相關(guān)的載體。
41.權(quán)利要求39的方法,其中每一模塊均包含載體,并且其中一種或多種疾病或病癥與所述的一種或多種載體相聯(lián)系。
42.權(quán)利要求39的方法,其中每一模塊均包含與每一模塊中的一個或更多基因表達(dá)水平相關(guān)的載體。
43.權(quán)利要求39的方法,其中每一模塊均包含載體并且所述模塊選自
漿細(xì)胞編碼免疫球蛋白鏈(如IGHM、IGJ、IGLL1、IGKC、IGHD),以及漿細(xì)胞標(biāo)記物CD38的基因;以及
血小板編碼血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B),以及衍生血小板免疫介體如PPBP(前血小板堿性蛋白)及PF4(血小板因子4)的基因;
并且所述模塊是用于區(qū)分系統(tǒng)性紅斑狼瘡,通過在這兩個模塊中具有陽性載體;流感病毒感染,通過在這兩個模塊中既不具有陽性載體也不具有陰性載體;黑色素瘤,通過具有用于漿細(xì)胞標(biāo)記物的陰性載體和用于血小板標(biāo)記物的陽性載體;通過在這兩個模塊中具有陰性載體來識別移植排斥。
44.一種固定于固體支持物的核酸探針陣列,所述核酸探針陣列包括來自于一個或更多模塊的足夠的探針,以提供足夠比例的差異表達(dá)的基因,從而區(qū)分一種或多種疾病,所述探針選自表1、2、3或其組合。
45.權(quán)利要求44的核酸探針陣列,其中數(shù)據(jù)獲得自與固定于固體支持物的核酸探針相接觸的樣本,該數(shù)據(jù)由選自如下的模塊來分類
其中在所述第一探針組中的探針具有分別對應(yīng)于一種或多種疾病的一個或更多詢問位點。
46.權(quán)利要求44的陣列,其中所述的陣列具有100-100,000個探針。
47.權(quán)利要求44的陣列,其中每一探針為9-21個核苷酸。
48.權(quán)利要求44的陣列,其中在所述第二、三、四探針組中的探針設(shè)置有詢問位點。
49.一種固定于固體支持物上的核酸探針陣列,所述的陣列包括至少一對來自于第一探針組和第二探針組的探針,每組均包含有一個或更多個表1、2、3或其組合所定義的探針。
50.權(quán)利要求49的陣列,其中所述的探針組提供在微陣列交叉平臺中保持一致的復(fù)合轉(zhuǎn)錄標(biāo)記物載體。
51.權(quán)利要求49的陣列,其中所述的探針組提供在微陣列交叉平臺中保持一致的復(fù)合轉(zhuǎn)錄標(biāo)記物載體并且總體顯示為滿足監(jiān)管部門批準(zhǔn)的要求。
全文摘要
本發(fā)明包括一種開發(fā)和使用轉(zhuǎn)錄模塊的設(shè)備、系統(tǒng)及方法,通過以下步驟實現(xiàn)獲得來自一名或多名某種疾病或病癥患者細(xì)胞的個體基因表達(dá)水平;在已分集群的表格中記錄各基因的表達(dá)值;從與各疾病或病癥相匹配的各集群中選擇基因模塊,迭代選擇一個或更多轉(zhuǎn)錄模塊的基因表達(dá)值;通過分析排除選擇的基因;重復(fù)基因表達(dá)值選擇集群于疾病或病癥亞組分的基因的過程;重復(fù)迭代程序形成模塊。
文檔編號C12Q1/68GK101374964SQ200680052633
公開日2009年2月25日 申請日期2006年12月9日 優(yōu)先權(quán)日2005年12月9日
發(fā)明者D·喬薩貝爾, J·F·班切里奧 申請人:貝勒研究院