本申請要求于2014年5月9日提交的美國臨時申請系列號61/991,005和于2014年7月21日提交的美國臨時申請系列號62/027,045的優(yōu)先權(quán),這些申請通過引用整體并入本申請。
關(guān)于聯(lián)邦資助的研究的聲明
本發(fā)明是借助政府支持在由美國國立衛(wèi)生研究院(NIH)授予的資助號U01 CA 164184、U01 HL 111566和U54 CA 121852資助下完成的。政府對本發(fā)明具有一定的權(quán)利。
發(fā)明背景
化合物的作用機制(MoA)可被定義為化合物籍以產(chǎn)生其藥理作用的生物化學(xué)相互作用物和效應(yīng)物的集合,所述作用機制通常是細胞環(huán)境特異性的。MoA可用于新藥的開發(fā),了解新藥的副作用,以及藥物重新定位。然而,這樣的鑒定可能具有挑戰(zhàn)性,是昂貴的,并且需要大的實驗設(shè)置。
通過某些實驗和計算策略僅部分解決這些挑戰(zhàn)。許多實驗方法依賴于直接結(jié)合測定,諸如親和純化或親和層析測定。這些方法通??杀痪窒抻阼b定高親和力結(jié)合靶標,而不是負責化合物在組織中活性的全蛋白庫。因此,這些方法可能錯過某些間接效應(yīng)物,以及可具有期望的藥理學(xué)性質(zhì)或驅(qū)動不期望的副作用的低親和力結(jié)合靶標。例如,可以針對所有激酶篩選蛋白激酶抑制劑,但是可錯過其他相關(guān)靶標,如通過MET酪氨酸受體激酶抑制劑tivantinib作為微管抑制劑的重新分類所顯示的。另外,某些方法僅適合于體外研究,并且可錯過由旁分泌、內(nèi)分泌體內(nèi)和接觸信號產(chǎn)生的以及特定組織環(huán)境中的復(fù)雜效應(yīng)。
雖然也已開發(fā)了化學(xué)信息學(xué)方法,但是某些技術(shù)通過利用結(jié)構(gòu)和基因組信息的整合、文本挖掘算法或用于數(shù)據(jù)挖掘的機器學(xué)習方法來評估MoA相似性或特異性小分子/靶標相互作用。因此,它們可以依賴于藥物分子和靶蛋白質(zhì)二者的詳細三維結(jié)構(gòu)或者依賴于相關(guān)MoA化合物的現(xiàn)有知識(來源于文獻或數(shù)據(jù)庫)。
還已經(jīng)結(jié)合用于MoA分析的計算方法開發(fā)了基于在化合物于細胞系中的擾動后系統(tǒng)基因表達譜(GEP)的技術(shù)。這些技術(shù)的范圍可以為基于差異表達分析以比較未知MoA的新化合物的簡單功能基因表征到擾動GEP的大參考匯編。后者可使用多種相似性度量來評估代表疾病相關(guān)細胞系對具有確定的MoA的化合物的擾動或RNAi介導(dǎo)的基因沉默測定的響應(yīng)的GEP的相似性。然而,某些方法本質(zhì)上大多是比較性的,因此不太適合MoA的從頭闡明或識別微妙的MoA差異,從而導(dǎo)致例如不希望的毒性。
另一個選擇是基于網(wǎng)絡(luò)的方法,所述方法不是集中于個體基因的特征,而是通過整合其相互作用伴侶或途徑的表達來估算基因產(chǎn)物活性的變化。這可以允許使用環(huán)境特異性知識和分子相互作用數(shù)據(jù),同時還通過整合多個基因的信號來提供穩(wěn)健性。然而,某些方法或者依賴于介導(dǎo)化合物活性的途徑的事先知識,使得它們不適合于全基因組分析,或者需要非常大的樣本大小(n>100),因此使得它們即使對于小的化合物文庫也是不切實際的。
因此,需要開發(fā)用于鑒定化合物作用機制的改進方法。
發(fā)明概述
本發(fā)明公開的主題提供了用于鑒定化合物的作用機制的方法和系統(tǒng)。
根據(jù)公開的主題的一個方面,提供了用于使用網(wǎng)絡(luò)失調(diào)來鑒定化合物的作用機制的方法。在示例性實施方案中,所述方法可包括選擇涉及至少第一基因的至少第一相互作用,并且例如使用處理裝置測定第一基因和處于對照狀態(tài)中的一個或多個基因的基因表達水平的第一n維概率密度。在一些實施方案中,n可以等于2;一個或多個基因可以是一個基因。所述方法還可以包括測定在使用至少一種化合物處理后第一基因和一個或多個基因的基因表達水平的第二n維概率密度,并估算第一概率密度與第二概率密度之間的變化。在一些實施方案中,估算可以包括使用Kullback-Leibler散度。
所述方法還可包括確定所估算的變化是否是統(tǒng)計上顯著的。在一些實施方案中,該特征可包括通過從隨機基因?qū)?無論基因是否共享網(wǎng)絡(luò)邊緣)估算的105個Kullback-Leibler散度值產(chǎn)生的零分布,提供網(wǎng)絡(luò)中每個邊緣失調(diào)的P值。在一些實施方案中,估算包括基于一個相互作用接著一個相互作用的估算。
在一些實施方案中,選擇第一相互作用可以包括選擇m個相互作用,以及針對m個相互作用中的每一個重復(fù)該過程。例如,m個相互作用可以是在調(diào)控網(wǎng)絡(luò)中以第一基因結(jié)束的每個相互作用。所述方法可包括如果所估算的變化是統(tǒng)計上顯著的,則確定每個相互作用是否失調(diào)。所述方法可包括至少部分地基于每個相互作用的顯著性來確定第一基因是否失調(diào)。在一些實施方案中,確定第一基因是否失調(diào)可以至少部分地基于對每個相互作用的顯著性進行積分。在一些實施方案中,對顯著性進行積分可包括估算對第一基因的線性擬合的殘差,和使用所得殘差的協(xié)方差矩陣作為對Brown方法的輸入。
第一基因可以包括多個基因,并且所述方法可以包括針對多個基因重復(fù)該過程。在一些實施方案中,所述方法可包括通過選擇被確定為顯著的基因來鑒定化合物的作用機制。化合物可包括多種化合物,并且所述方法可包括針對多種化合物中的每一種進行重復(fù)處理,以及鑒定具有類似藥理學(xué)作用的兩種或更多種化合物。
在公開主題的另一個示例性實施方案中,提供了鑒定具有類似藥理作用的化合物的方法。示例性方法可包括選擇涉及至少第一基因的第一相互作用。所述方法還可包括例如使用處理裝置測定第一基因和處于對照狀態(tài)中的一個或多個基因的基因表達水平的第一n維概率密度。在一些實施方案中,n可以等于2;一個或多個基因可以是一個基因。
所述方法可包括測定在使用第一化合物的第一化合物處理之后第一基因和一個或多個基因的基因表達水平的第二n維概率密度,并且估算第一概率密度與第二概率密度之間的變化。所述方法還可包括確定所估算的變化是否是統(tǒng)計上顯著的,以及如果所估算的變化是統(tǒng)計上顯著的,則確定相互作用是否失調(diào)的。
可針對m個相互作用中的每次重復(fù)所述方法,其中m個相互作用包括在調(diào)控網(wǎng)絡(luò)中以第一基因結(jié)束的每個相互作用。所述方法可包括至少部分地基于每個相互作用的顯著性來確定第一基因是否失調(diào)。在一些實施方案中,確定第一基因是否失調(diào)可以至少部分基于對每個相互作用的顯著性進行積分。在一些實施方案中,對顯著性進行積分可包括估算對第一基因的線性擬合的殘差,并使用所得殘差的協(xié)方差矩陣作為對Brown方法的輸入。
可以針對多個基因和通過選擇失調(diào)的基因鑒定第一化合物的作用機制重復(fù)所述方法。對于使用多種化合物的多種化合物處理,也可以重復(fù)所述方法。另外,所述方法可包括鑒定具有類似藥理作用的兩種或更多種化合物。在一些實施方案中,鑒定具有類似藥理作用的兩種或更多種化合物可包括至少部分地基于它們的預(yù)測的作用機制之間的相似性的顯著性來預(yù)測兩種或更多種化合物享有相似的藥理作用。在一些實施方案中,估算可包括使用Kullback-Leibler散度。在一些實施方案中,估算包括基于一個相互作用接著一個相互作用的估算。
本文的描述僅示出所公開的主題的原理。鑒于本文的教導(dǎo),對所描述的實施方案的各種修改和改變對于本領(lǐng)域技術(shù)人員將是顯而易見的。因此,本文的公開內(nèi)容旨在說明而非限制所公開的主題的范圍。
附圖簡述
圖1舉例說明使用網(wǎng)絡(luò)失調(diào)來鑒定化合物的作用機制的方法。
圖2舉例說明鑒定具有類似藥理作用的化合物的方法。
圖3舉例說明根據(jù)所公開主題的示例性算法的示意圖。
圖4舉例說明所公開的實施方案與t檢驗之間的比較和生物表現(xiàn)預(yù)測。
圖5舉例說明DP14數(shù)據(jù)集的示例結(jié)果。
圖6舉例說明預(yù)測由長春花新堿和絲裂霉素C產(chǎn)生的失調(diào)的實驗驗證。
圖7舉例說明鑒定運行所公開的實施方案的最低要求。
圖8舉例說明來自GEO數(shù)據(jù)集的示例結(jié)果。
圖9舉例說明檢測化合物相似性的示例性預(yù)測。
圖10舉例說明化合物相似性的性能分析。
圖11舉例說明所公開的實施方案鑒定六甲蜜胺的MoA。
圖12舉例說明估算相互作用與p值的Brown方法校正之間的相關(guān)性。
發(fā)明詳述
本文提供的方法和系統(tǒng)可用于鑒定化合物的作用機制和鑒定具有類似藥理作用的化合物。所公開的主題可通過使用調(diào)控網(wǎng)絡(luò)評估化合物擾動之后它們的分子相互作用庫的所有組分的全局失調(diào)來鑒定相關(guān)的MoA蛋白。將結(jié)合本文中稱為通過網(wǎng)絡(luò)失調(diào)檢測作用機制(下文中稱為“DeMAND”)的示例方法來解釋所公開的主題,以通過使用小型基因表達譜(GEP)數(shù)據(jù)集(例如,n≥6個樣品)來詢問組織特異性調(diào)控網(wǎng)絡(luò)來闡明化合物MoA,所述數(shù)據(jù)集代表體外或體內(nèi)化合物特異性擾動。
為了說明而非限制的目的,圖1顯示了用于使用網(wǎng)絡(luò)失調(diào)來鑒定化合物的作用機制的方法(100)。所述方法可包括選擇涉及至少第一基因的至少第一相互作用(101)。在(102)處,所述方法包括使用處理裝置測定第一基因和處于對照狀態(tài)中的一個或多個基因的基因表達水平的第一n維概率密度。在一些實施方案中,n可以是2,并且一個或多個基因可以是一個基因。在(103)處,所述方法包括使用處理裝置測定在使用至少一種化合物處理后第一基因和一個或多個基因的基因表達水平的第二n維概率密度。在(104)處,所述方法可包括估算第一概率密度與第二概率密度之間的變化。在一些實施方案中,估算可以基于一個相互作用接著一個相互作用進行估算。估算可使用Kullback-Leibler散度(在下面更詳細地描述)。在(105)處,所述方法可包括確定所估算的變化是否是統(tǒng)計上顯著的。例如,可如下更詳細地描述的那樣確定所估算的變化是否是統(tǒng)計上顯著的。在一些實施方案中,所述方法可包括使用通過從隨機基因?qū)浪愕?05個Kullback-Leibler值產(chǎn)生的零分布,和提供網(wǎng)絡(luò)中每個邊緣失調(diào)的P值。
為了說明而非限制的目的,圖2顯示了鑒定具有類似藥理作用的化合物的方法。在(201)處,所述方法可包括選擇涉及至少第一基因的至少第一相互作用。在(202)處,所述方法可包括使用處理裝置測定第一基因和處于對照狀態(tài)中的一個或多個基因的基因表達水平的第一n維概率密度。在(203)處,所述方法可包括使用處理裝置測定在使用至少一種化合物處理后第一基因和一個或多個基因的基因表達水平的第二n維概率密度。在(204)處,所述方法可包括估算第一概率密度與第二概率密度之間的變化。例如,估算可以基于一個相互作用接著一個相互作用進行估算,并且可以使用Kullback-Leibler散度。在(205)處,所述方法可包括確定估算的變化是否是統(tǒng)計上顯著的。在(206)處,所述方法可包括如果所估算的變化是統(tǒng)計上顯著的,則確定相互作用是否失調(diào)。在(207)處,可針對m個相互作用中的每一個重復(fù)所述方法。m個相互作用可包括在調(diào)控網(wǎng)絡(luò)中以第一基因結(jié)束的每個相互作用。在(208)處,所述方法可包括至少部分地基于每個相互作用的顯著性來確定第一基因是否失調(diào)。在(209)處,可針對多個基因重復(fù)所述方法。在(210)處,所述方法可包括通過選擇失調(diào)的基因來鑒定第一化合物的作用機制。在(211)處,可針對使用多種化合物的多種化合物處理重復(fù)所述方法。在(212)處,所述方法可包括鑒定具有類似藥理作用的兩種或更多種化合物。
實施例:DeMAND
給定包括轉(zhuǎn)錄、信號傳導(dǎo)和蛋白質(zhì)-復(fù)合物相關(guān)相互作用的候選基因產(chǎn)物G(即,其調(diào)節(jié)子)的潛在相互作用,如果G屬于化合物的MoA,則可假定化合物的活性將使其調(diào)節(jié)子失調(diào)。因此,可通過測量成對調(diào)節(jié)子相互作用之間的基因表達的聯(lián)合概率密度p(G,G')的變化來評估此類失調(diào)。這可通過直接或間接調(diào)控機制(例如,反饋回路)捕獲化合物對候選MoA基因表達和相互作用伴侶表達的調(diào)節(jié)的直接效應(yīng)。
例如,考慮調(diào)控一組轉(zhuǎn)錄靶標的候選MoA基因產(chǎn)物G。靶向抑制劑將顯著改變G及其靶標的聯(lián)合表達概率密度,因為后者的表達將受到影響,而G的表達通常不受影響。因此,在化合物擾動之后,可以觀察到相互作用概率密度p(G,Gi)的顯著變化,如圖3中和下面的實驗程序討論中的3個失調(diào)相互作用的概率密度所示。
Kullback-Leibler散度(KLD)可提供確定的且有效的度量來定量評估一個或多個變量的概率密度的變化。當一個概率密度用作另一個概率密度的近似時,KLD可評估信息的損失,因此可在信息理論的背景中進行解釋。因此,對于每個候選失調(diào)相互作用可在化合物擾動之前和之后估算在其調(diào)節(jié)子中每個G'基因的概率密度p(G,G')的KLD的統(tǒng)計顯著性。然后可跨調(diào)節(jié)子相互作用整合單個KLD分析的統(tǒng)計顯著性,產(chǎn)生化合物介導(dǎo)的G失調(diào)的全局統(tǒng)計評估。為了避免因相互作用依賴性而高估這樣的整合顯著性,可使用補償相關(guān)證據(jù)的整合的改良Brown方法。然后基于候選MoA基因的全局統(tǒng)計數(shù)據(jù)對其進行分級(rank)。
為了鑒定每種目標基因產(chǎn)物的調(diào)節(jié)子,可使用下面描述的一組確定的網(wǎng)絡(luò)逆向工程算法。然而,本發(fā)明所公開的主題不需要這樣的算法,而是可以使用由替代技術(shù)(計算和實驗技術(shù))產(chǎn)生的網(wǎng)絡(luò)。
評價了在針對14種選定的化合物的擾動數(shù)據(jù)集(DP14)中DeMAND推斷的MoA基因的準確度。這包括在以兩個濃度和三個時間點一式三份地利用14種不同化合物(其中11種已建立主要靶標,參見實驗程序)并以DMSO作為對照介質(zhì)進行擾動之后彌漫性大B細胞淋巴瘤細胞(OCI-LY3)的276個GEP。使用代表正常和腫瘤相關(guān)的人B細胞二者的226個U133p2 GEP的數(shù)據(jù)集產(chǎn)生用于這些分析的網(wǎng)絡(luò)(參見實驗程序)。盡管DeMAND可預(yù)測化合物靶標(即,高親和力結(jié)合蛋白)和效應(yīng)物/調(diào)節(jié)劑二者,但它的性能被證明是系統(tǒng)地以前者為基準的。
在該分析中,DeMAND將11種測試化合物中7種的主要靶標鑒定為統(tǒng)計上顯著的(其假發(fā)現(xiàn)率FDR≤0.1)(見下文和圖4A)。由于在該分析中使用的GEP在多個時間點(6、12和24小時)獲得,因此評估了在個體時間點的分析是否可以比跨多個(例如,所有)時間點的整合更具信息性。僅在這些時間點中的某些時間點可以高度特異性地預(yù)測幾個已確定的靶標(圖4B),這與化合物活性可在不同時間尺度上被介導(dǎo)的預(yù)期相一致。又,除2種化合物(monastrol和多柔比星)外的所有化合物在多個(例如,所有)時間點上的整合分析表現(xiàn)與其個體時間點的分析一樣好或者更好。對于這些,僅當使用在特定時間點的GEP時,直接靶才是顯著的??偟膩碚f,11種化合物中9種化合物的主要靶標是從多點分析或從單點分析闡明的。
將DeMAND在主要靶標推斷上的性能與差異表達分析(通過t檢驗統(tǒng)計)的性能相比較。除blebbistatin外,DeMAND的預(yù)測均系統(tǒng)地超越t檢驗分析;對于blebbistatin,兩種方法都未將主要靶標(肌球蛋白II)鑒定為統(tǒng)計上顯著的(圖4A)。當如圖5A所示比較通過兩種方法在其最高預(yù)測(靈敏度)中所鑒定的直接靶標的分數(shù)時,在排在前面的100個預(yù)測當中,在預(yù)測已確定的化合物靶標中DeMAND相較于t檢驗分析其靈敏度幾乎是5倍(15%對3%),這是高度統(tǒng)計上顯著的(分別為p=5x10-4,和p=0.06,通過χ2檢驗)。此外,通過差異表達分析鑒定的顯著性靶標通過DeMAND分析也是顯著的,但不是相反的??傮w上,考慮到接受者操作特征(ROC)曲線下完整面積(AUC),所述面積是被設(shè)計用于獲得方法在預(yù)測直接靶標中的靈敏度與特異性之間的折衷的閾值自由度量,DeMAND始終優(yōu)于t檢驗,分別是AUC=0.70(p值≤2×10-16,通過每種化合物的個體Mann-Whitney p值的費希爾積分)對AUC=0.60(p值=3.5x10-7),反映其顯著更高的靈敏度和特異性(圖4C)。
為了進一步評估DeMAND對不是高親和性化合物靶標的MoA蛋白質(zhì)的性能,進一步分析集中于四種化合物中的兩種:喜樹堿和多柔比星,它們的直接靶標被分析錯過了。盡管缺少它們的主要靶標,但DeMAND有效地鑒定了這兩種化合物的關(guān)鍵MoA蛋白。具體來說,喜樹堿(TOP1抑制劑)和多柔比星(TOP2A抑制劑)嚴重破壞DNA修復(fù)和有絲分裂。DeMAND鑒定了這些化合物的最有統(tǒng)計學(xué)意義的基因中的作為TOP1和TOP2A抑制的下游效應(yīng)物的GADD45A、CDKN1A、PCNA、AURKA、PLK1和CCNB1(圖5B),對于兩種化合物它們的大多數(shù)在前20個中。
更具體地,GADD45A(生長阻滯和DNA損傷誘導(dǎo)型基因45A)(一種確定的DAN損傷反應(yīng)的效應(yīng)物)通過與CDKN1A(細胞周期蛋白依賴性激酶抑制劑1A)和PCNA(增殖細胞核抗原)形成蛋白質(zhì)復(fù)合物(一種高保真DNA復(fù)制和切除修復(fù)所需的DNA聚合酶δ的持續(xù)性因子)起作用。進而,如果檢測到DNA損傷,則CDKN1A、PCNA和GADD45A在RNA或蛋白質(zhì)水平上調(diào)控CCNB1(細胞周期蛋白B1,G2/M細胞周期檢查點的關(guān)鍵效應(yīng)物)、PLK1(polo樣激酶1)和AURKA(Aurora激酶A,有絲分裂調(diào)節(jié)劑)的活性。在這6個基因中,在這些化合物擾動后,只有GADD45A和CDKN1A差異表達,雖然程度低得多。因此,DeMAND鑒定出通過差異表達檢測不到或分級較低的關(guān)鍵MoA蛋白。
經(jīng)DeMAND推斷的蛋白質(zhì)的詳細評估成功地突出了在具有在基因表達水平不可檢測的類似主要靶標的化合物的MoA中的關(guān)鍵差異和共性。例如,喜樹堿(TOP1)、多柔比星(TOP2A)和依托泊苷(TOP2A)是拓撲異構(gòu)酶(TOP)抑制劑,導(dǎo)致TOP-DNA可切割復(fù)合物的共價捕獲和單鏈或雙鏈斷裂的誘導(dǎo)。一致地,DeMAND在其推斷的MoA中鑒定了共同的足跡,如上所示。然而,它還鑒定了多柔比星的特異性效應(yīng)物,例如KAT5/TIP60(分級為第4位),表明與另外兩種TOP抑制劑的潛在相關(guān)差異,如圖5B所示。事實上,與依托泊苷和喜樹堿相反,多柔比星也是一種強DNA嵌入劑,其在大規(guī)模KAT5依賴性組蛋白乙?;?,誘導(dǎo)組蛋白從開放染色體位點釋放(組蛋白回收),導(dǎo)致細胞周期阻滯。再次,差異表達沒有鑒定出(甚至在前1000個基因中)多柔比星的潛在效應(yīng)物諸如KAT5和PCNA。該算法還將SIK1鑒定為多柔比星的特定效應(yīng)物(分級為第36位)。SIK1用于維持心臟祖細胞(CPC),從而精確定位化合物的最突出的治療限制性不良事件,即伴有充血性心力衰竭的心肌病。
DeMAND還可基于它們共同的預(yù)測的MoA基因?qū)衔锍晒Ψ謱樱瑥娬{(diào)它在預(yù)測化合物的MoA中的特異性。例如,14種測試化合物中的5種化合物是DNA損傷劑(即,喜樹堿、多柔比星、依托泊苷、絲裂霉素C和長春花新堿)。DeMAND預(yù)測所有這些化合物的最具統(tǒng)計學(xué)顯著的MoA推斷基因中的GADD45A(規(guī)范的DNA損傷誘導(dǎo)型基因),以及其眾所周知的相互作用基因,諸如CDKN1、CCNB1PCNA和AURKA[32-35](圖5C)。又,相同的基因?qū)τ诓徽T導(dǎo)DNA損傷的化合物是不顯著的(圖5C),表明DeMAND可以推斷高度特異性的化合物MoA蛋白。相反,差異表達表現(xiàn)差,無法將這些基因中的大多數(shù)鑒定為統(tǒng)計上顯著的。因此,DeMAND可提供關(guān)鍵信息,以鑒定小分子化合物的“命中目標(on-target)”以及潛在有害的“偏離目標(off-target)”效應(yīng)。
為了說明DeMAND對于闡明新型MoA蛋白是有效的,經(jīng)DeMAND推斷的MoA蛋白可以是針對長春花新堿(一種有絲分裂紡錘體中微管形成的抑制劑)和絲裂霉素C(一種抗腫瘤抗生素)。DeMAND在其前5個預(yù)測的基因中成功鑒定了長春花新堿(TUBB)的已知的高親和力靶標以及CCNB1(一種已知的微管活性標志物)。前5個中的其他3個基因包括VHL、RPS3A和NFKBIA。盡管已知這些基因中的兩個(RPS3A和VHL)影響人細胞系中的有絲分裂紡錘體組裝,但是它們在介導(dǎo)/調(diào)節(jié)長春花新堿活性中的功能是未知的。
在沉默這些基因后,用抗微管蛋白抗體探測微管網(wǎng)絡(luò),證實了RPS3A(但不是VHL、CCNB1或NFKBIA)的沉默破壞了貼壁U-2-OS細胞中的微管(圖6A)。因此,為了進一步驗證這些基因在介導(dǎo)長春花新堿活性中的作用,在siRNA介導(dǎo)的每個基因的沉默之后,進行U-2-OS細胞中的劑量-反應(yīng)曲線測定(參見實驗程序)。這些測定證實所有這些基因,除了NFKBIA,是關(guān)鍵的長春花新堿活性效應(yīng)物和介體。VHL沉默使長春花新堿靈敏度增加超過兩倍(圖3B),而RPS3A和CCNB1沉默具有相反的作用。因此,5個DeMAND推斷的基因中的3個基因被實驗驗證為長春花新堿活性調(diào)節(jié)劑,而第四個(TUBB)代表其主要靶標。相反,這些基因沒有一個顯著差異表達,因此不能通過更常規(guī)的方法檢測。這表明,對于一些化合物,算法的假陽性率可以低至20%。
DeMAND還推斷JAK2激酶是唯一的絲裂霉素C MoA蛋白(即,通過DeMAND分析,JAK2對于其它化合物是不顯著的)。這可能是重要的,因為JAK2的組成型活性可引起淋巴細胞的化學(xué)抗性,并且此外,最近的研究表明組成型JAK2活性可以控制DNA損傷、修復(fù)和重組事件的結(jié)果。因此,通過測量用不同量的充分表征的JAK2抑制劑TG101348處理后該化合物的劑量-反應(yīng)曲線,測試JAK2抑制對絲裂霉素C活性的影響(圖6C,參見實驗程序)。該實驗揭示了JAK2抑制與絲裂霉素C活性之間的顯著的劑量依賴性拮抗作用,因此證實JAK2是絲裂霉素C活性的關(guān)鍵效應(yīng)物。
最后,分析了DeMAND對抗腫瘤和免疫調(diào)節(jié)劑雷帕霉素進行推斷的結(jié)果。雖然DeMAND不能預(yù)測最高親和力靶標MTOR和FKBP1A,但MTOR途徑下游的許多基因高度富集于排在前面的DeMAND推斷的基因中(圖4E,參見實驗程序),包括許多核糖體基因。這不是多效性結(jié)果,因為對于核糖體基因具有顯著富集的唯一其它化合物是放線酮,也已知放線酮抑制核糖體活性,因此再次突出DeMAND預(yù)測的特異性。
為了評估所述方法的廣泛利用潛力,對其穩(wěn)健性和其數(shù)據(jù)要求進行了基準測試。對作為網(wǎng)絡(luò)準確度和大小以及擾動數(shù)據(jù)集大小的函數(shù)的DeMAND的性能進行了評估。首先,使用從254個Affymetrix U95av2 GEP的不同數(shù)據(jù)集重建的獨立的B細胞基因調(diào)控網(wǎng)絡(luò)比較所獲得的結(jié)果,如下所述。對于該比較,使用U95av2網(wǎng)絡(luò),通過基因集富集分析(GSEA),針對使用U133p2網(wǎng)絡(luò)推斷的那些基因,測試了統(tǒng)計上顯著的DeMAND推斷的基因(FDR≤0.1)的富集。分析證實DeMAND的預(yù)測幾乎相同,與網(wǎng)絡(luò)模型無關(guān)(GSEA,p<1x10-9,圖7A),證實DeMAND的性能在很大程度上獨立于特定的分析平臺和用于網(wǎng)絡(luò)組裝的數(shù)據(jù)集。進一步的分析表明,當至多60%的網(wǎng)絡(luò)相互作用被隨機去除時,DeMAND預(yù)測幾乎不受影響(參見圖7B)。類似地,當使用代表化合物擾動的6個或更多個樣品時,對GEP的二次取樣顯示DeMAND預(yù)測實際上是相同的(圖7C)。總之,這些數(shù)據(jù)表明,DeMAND對于網(wǎng)絡(luò)噪聲和尤其是假陰性相互作用是高度穩(wěn)健的,并且其可以成功地應(yīng)用于小至6個處理樣品和6個未處理對照的數(shù)據(jù)集。
一旦客觀地評估了對穩(wěn)健算法性能的要求,就可選擇在基因表達綜合(GEO)數(shù)據(jù)庫中所選擇的13個額外數(shù)據(jù)集(GEO13),代表在化合物擾動后的細胞系GEP(表1)。這些數(shù)據(jù)集被限制于具有已確定的主要靶標的化合物,其中至少6種譜(對于化合物處理的和對照樣品二者)是可用的,并且其中可以組裝背景特異性調(diào)控網(wǎng)絡(luò)。這包括7個人乳腺癌和6個人B細胞淋巴瘤擾動數(shù)據(jù)集。類似于PD14數(shù)據(jù)集,DeMAND將一個或多個確立的直接靶標鑒定為對于62%的這些化合物擾動(FDR≤0.1,圖8A)是統(tǒng)計上顯著的,同時顯著優(yōu)于基于t檢驗的方法(AUC分別為0.82對0.74,通過每種化合物的個體Mann-Whitney p值的費希爾積分,p值=2.2x10-16對p值=5.9x10-8)(圖8B)。再次,這些差異在排在前面的預(yù)測的化合物中尤其相關(guān),其中DeMAND再次實現(xiàn)比差異表達分析好大約5倍的性能(圖8C)。
表1
表1.來自GEO數(shù)據(jù)庫的13個化合物擾動數(shù)據(jù)集
在建立DeMAND在預(yù)測參照化合物的MoA基因中的性能時,檢查預(yù)測其藥理學(xué)相似性的不同化合物的推斷的MoA重疊。首先,計算DP14化合物對的顯著的經(jīng)DeMAND推斷的MoA的重疊的統(tǒng)計顯著性(FDR≤0.1,通過費希爾精確檢驗)(參見圖9A)。在91個潛在的化合物對中,6個最相似的化合物對僅包括拓撲異構(gòu)酶抑制劑和其它DNA損傷劑(依托泊苷、多柔比星、喜樹堿和絲裂霉素C)。因此,DeMAND成功評估了拓撲異構(gòu)酶抑制劑與其他DNA損傷劑之間的化合物的MoA高度相似性,即使它不能在推斷的MoA基因中鑒定出TOP1或TOP2A。因此,效應(yīng)蛋白可具有與闡明化合物相似性中的直接靶標相同的信息性。
為了進一步評價該假設(shè),將所述方法應(yīng)用于更大的化合物擾動數(shù)據(jù)集(PD92),其代表3種不同B細胞淋巴瘤細胞系(OCI-LY3、OCI-LY7和U-2932)在用92種獨特的FDA批準的后期實驗的工具性化合物的擾動后的基因表達譜(見實驗程序)。因為在該數(shù)據(jù)集中每個化合物和細胞系僅有3種GEP可用,所以該數(shù)據(jù)集僅用于基于預(yù)測的MoA評估化合物對相似性,而不用于預(yù)測主要化合物靶標(參見實驗程序)。
通過使用以下3個獨立的數(shù)據(jù)源比較DeMAND推斷的相似性與客觀相似性評估來客觀地評價DeMAND性能:(a)共享確定的靶標的化合物;(b)根據(jù)解剖治療化學(xué)分類系統(tǒng)(ATC)的共享治療和化學(xué)特征的化合物和(c)由癌癥靶標發(fā)現(xiàn)和發(fā)展(CTD2)聯(lián)盟評估的具有相關(guān)藥物反應(yīng)譜的化合物(參見實驗程序)。后一數(shù)據(jù)集概括了代表針對代表多種腫瘤類型的257種不同的細胞系表征的338個獨特化合物的劑量反應(yīng)曲線載體。基于3個證據(jù)數(shù)據(jù)集中的每一個,作為顯著對的數(shù)量(精密度曲線,圖9B)的函數(shù),評估驗證的相似對的分數(shù)(精密度)。經(jīng)DeMAND推斷的對在來自3個證據(jù)數(shù)據(jù)集的對中高度富集,如由個別的(即,對于共享相同ATC類別、共同確定的靶標和在CTD2數(shù)據(jù)集中的高劑量-反應(yīng)載體相關(guān)性的對,GSEA的p值分別=2×10-8、1.4×10-5和9×10-4,圖10A)以及當一起時的(GSEA p值=7.6×10-7)證據(jù)評估的。例如,經(jīng)DeMAND推斷的對相似性中前10個中的8個和前100個中的43個被3個數(shù)據(jù)集里的至少一個數(shù)據(jù)集驗證了(通過費希爾精確檢驗,p值<2.2×10-16)。
DeMAND通過在各種精密度值一致地實現(xiàn)更高的靈敏度,優(yōu)于使用通過重疊統(tǒng)計上顯著的差異表達的基因獲得的相似性(例如,通過t檢驗統(tǒng)計)(圖10B)。DeMAND也勝過另一種方法MANTRA,所述MANTRA使用相互基因集富集分析來計算相似性,同樣通過在各種期望的精密度值下實現(xiàn)更高的靈敏度(圖10B)。值得注意的是,雖然MANTRA可以評估化合物MoA相似性,但其并非旨在闡明特定的MoA基因。因此,DeMAND優(yōu)于MANTRA,即使其僅使用少數(shù)預(yù)測為化合物MoA的一部分的基因而不是全基因表達特征進行MoA相似性分析。這進一步表明由DeMAND推斷的MoA在生物學(xué)和機械學(xué)上是相關(guān)的。
最后,評估了由所述方法預(yù)測的化合物對相似性與其基于CTD2的相似性之間的相關(guān)性。DeMAND預(yù)測實現(xiàn)了顯著的斯皮爾曼相關(guān)(ρ=0.59,p值=7.8×10-5,圖10C),而t檢驗和MANTRA方法二者均未獲得統(tǒng)計上顯著的相關(guān)性(圖10D,10E)。因此,DeMAND可在單個細胞系中處理后,僅使用GEP預(yù)測具有相似藥理作用和活性譜的化合物。
為了測試具有統(tǒng)計上顯著的經(jīng)DeMAND推斷的MoA相似性的兩種化合物是否可能具有共同的靶標和效應(yīng)物,將六甲蜜胺和柳氮磺胺吡啶鑒定為其中至少一種化合物的MoA是未知的對中的具有最高的經(jīng)DeMAND推斷的MoA相似性(p值=9.91×10-81)的兩種化合物。六甲蜜胺是FDA批準的抗腫瘤藥物,沒有已知的靶或效應(yīng)物支持其藥理作用。另一方面,柳氮磺吡啶可以抑制系統(tǒng)xc-,胱氨酸-谷氨酸反向轉(zhuǎn)運蛋白,從而防止胱氨酸進入細胞質(zhì)并還原為半胱氨酸。因為半胱氨酸是谷胱甘肽生物合成中必需的代謝物,所以柳氮磺吡啶耗盡細胞谷胱甘肽,從而使依賴還原型谷胱甘肽(GSH)作為輔因子的酶失活,包括谷胱甘肽過氧化物酶4(GPX4)。這導(dǎo)致脂質(zhì)活性氧(ROS)的毒性積累。
基于推斷的MoA相似性,測試了六甲蜜胺是否也可以調(diào)節(jié)系統(tǒng)xc--GPX4途徑。U-2932細胞用六甲蜜胺處理,并且使用Ellman試劑評估其GSH水平(圖11A)。柳氮磺吡啶用作U-2932細胞中GSH耗盡的陽性對照,證實化合物處理后GSH水平的耗盡。相反,六甲蜜胺即使在24小時濃度下其IC50加倍后也不耗盡GSH水平,這表明該化合物在該途徑中可以靶向GSH下游的機制。因此,U-2932細胞用六甲蜜胺處理,并制備細胞裂解物用于基于LC-MS的GPX4測定。將磷酸膽堿過氧化物(PC-OOH)(GPX4的特異性底物)添加至細胞裂解物中,通過[PC-OOH+H+]離子(m/z=790.5)的質(zhì)量色譜圖評估PC-OOH至PC-OH的還原。如圖11B所示,未處理細胞的裂解物完全降低PC-OOH水平,不留下[PC-OOH+H+]離子(m/z=790.5)的殘留信號。形成鮮明對比的是,來自六甲蜜胺處理的細胞的裂解物顯示顯著的[PC-OOH+H+]信號,表明PC-OOH還原的消除由GPX4抑制介導(dǎo)(實驗程序)。實際上,由于GPX4是唯一已知的能夠還原脂質(zhì)氫過氧化物的酶,因此GPX4抑制是增加脂質(zhì)-ROS水平所必需的。如所預(yù)期的,如通過BODIPY-C11染色和流式細胞術(shù)所評估的,柳氮磺吡啶和六甲蜜胺二者均被證實在U-2932細胞中誘導(dǎo)脂質(zhì)-ROS積累(參見圖11C和實驗程序)。因此,DeMAND正確預(yù)測了兩種以前不相關(guān)的藥物柳氮磺胺吡啶與六甲蜜胺之間出乎意料的和引人注目的MoA相似性(參見圖11D)。此外,這些結(jié)果表明六甲蜜胺為GPX4活性的新的抑制劑,并表明六甲蜜胺在患者中的抗腫瘤活性可能部分由于其酶活性的抑制。
DeMAND通過僅使用基因表達數(shù)據(jù),基于全基因組范圍評估化合物介導(dǎo)的蛋白調(diào)節(jié)子的失調(diào)來闡明化合物MoA。DeMAND可以可靠地鑒定MoA相關(guān)蛋白,后者可有效地用于評估任意化合物對的MoA和總體藥理效應(yīng)相似性。事實上,通過使用這種方法,人們可鑒定和實驗驗證以前未知的參與長春花新堿、絲裂霉素C和六甲蜜胺的MoA的幾個基因。對于六甲蜜胺,人們還可鑒定和驗證藥物的新的藥理作用(導(dǎo)致細胞死亡的增強的反應(yīng)性氧化應(yīng)激)。
DeMAND的穩(wěn)健性分析證實,其預(yù)測在基因表達和網(wǎng)絡(luò)變異性方面是穩(wěn)健的,在至多60%的網(wǎng)絡(luò)相互作用被去除時仍保持幾乎不變。這可表明對網(wǎng)絡(luò)中的假陰性相互作用的彈性。最后,與先前的方法不同,DeMAND可以可靠地用于非常小的擾動GEP集合(即,包含少至6個對照和6個擾動樣品)。這可允許應(yīng)用所述方法來闡明相對大的化合物組的MoA,例如以顯示潛在的毒性偏離目標以及新型命中目標效應(yīng)物和活性調(diào)節(jié)劑。這可支持將所述方法應(yīng)用于若干由效應(yīng)物產(chǎn)生的大規(guī)模庫諸如基于集成網(wǎng)絡(luò)的蜂窩簽名的庫(LINCS)數(shù)據(jù)集(代表在約4000種化合物擾動后的GEP)。另一個有利方面是算法的背景特異性性質(zhì),其允許探索特定的目標細胞環(huán)境(包括體內(nèi))中的化合物活性。
DeMAND利用在多個時間點和多種化合物濃度下獲得的GEP的整合,從而簡化實驗設(shè)計,特別是當可以揭示MoA的精確濃度或時間點未知時。實際上,在沒有具體知識的情況下,通過在多個時間點整合化合物反應(yīng),除了兩種所測試的化合物之外,最佳地鑒定化合物靶標。又,當可獲得時,對特定化合物活性時間尺度的了解也是有幫助的,如通過整合分析不能闡明的兩種藥物的直接靶標的鑒定所示(圖4B)??傮w上,如果化合物的時間依賴性響應(yīng)是未知的,則可以選擇多點分析。然而,多點和單點分析的比較可用于提供對化合物MoA的進一步了解。例如,與多點結(jié)果最相似的時間點的鑒定可以闡明化合物活性時間尺度。類似地,在兩個連續(xù)時間點的分析的強一致性可表明可被整合分析所錯過的MoA蛋白。本文所述的測定法已使用亞致死化合物濃度來避免利用與下游細胞死亡機制相關(guān)的機制污染化合物的MoA。
DeMAND預(yù)測是高度特異性的,允許將化合物分類為功能類似的組和鑒定與化合物MoA相關(guān)的途徑。例如,對于DNA損傷化合物(喜樹堿、多柔比星、依托泊苷、長春花新堿和絲裂霉素C),DeMAND正確預(yù)測了幾個參與DNA損傷誘導(dǎo)反應(yīng)的標志基因。特異性由以下事實證明:相關(guān)的MoA蛋白被推斷用于DNA損傷誘導(dǎo)化合物,而不是其它化合物(包括表現(xiàn)出顯著的多藥理學(xué)的化合物,如H-7二鹽酸鹽或放線酮)。
在其他實施例中,可以顯示多柔比星的高化合物-MoA特異性,其中DeMAND將KAT5(與最近的多柔比星特異性KAT5介導(dǎo)的組蛋白回收的發(fā)現(xiàn)一致)以及SIK1(心臟祖細胞(CPC)維持所需的基因)鑒定為關(guān)鍵的MoA-蛋白,提供了多柔比星與其已知的心臟毒性之間的潛在機械聯(lián)系。在其他DNA損傷劑的MoA中也檢測到SIK1(雖然分級/顯著性比多柔比星低得多的),表明也應(yīng)當被監(jiān)測這些化合物的心臟毒性。在組合中,這些發(fā)現(xiàn)證實DeMAND不僅在預(yù)測直接化合物靶標方面有效,而且在預(yù)測關(guān)鍵的間接效應(yīng)物蛋白方面也有效,因此允許MoA推斷和鑒定可幫助闡明命中目標的藥理學(xué)和偏離目標的毒性的潛在效應(yīng)物??傮w而言,DeMAND成功地鑒定了超過70%的測試化合物的直接靶標和間接MoA蛋白。盡管長春花新堿特異性新型MoA蛋白的實驗驗證表明實際的假發(fā)現(xiàn)率(FDR)可以低至20%,但是系統(tǒng)的FDR估算可能是困難的,因為化合物MoA被闡明得非常不足,導(dǎo)致顯著的FDR高估。例如,在實驗驗證之前,發(fā)現(xiàn)長春花新堿推斷的MoA蛋白的FDR為80%,只有TUBB是已確立的化合物靶/效應(yīng)物。然而,前5個推斷的MoA蛋白的系統(tǒng)驗證顯示FDR不超過20%。
DeMAND依賴于高質(zhì)量背景特異性基因調(diào)控網(wǎng)絡(luò)的存在,所述網(wǎng)絡(luò)可代表對特定細胞背景的限制。然而,考慮到諸如癌癥基因組圖譜(TCGA)和其他相關(guān)聯(lián)盟的大規(guī)模項目產(chǎn)生的豐富的數(shù)據(jù),以及用于背景特異性網(wǎng)絡(luò)逆向工程的越來越準確和全面的方法的可用性,這種限制至多是臨時的。然而,細胞背景特異性調(diào)控網(wǎng)絡(luò)的可用性不能保證在網(wǎng)絡(luò)中被很少表示的MoA蛋白的鑒定。這可能發(fā)生,例如,因為個體基因的表達可以通過特定平臺或由于通過逆向工程方法引入的假陽性而被很差地評估。例如,對于blebbistatin(肌球蛋白II抑制劑),通過使用U95av2網(wǎng)絡(luò),DeMAND鑒定了PTK2B、GRB2和FYN,其均為肌球蛋白II磷酸化的直接調(diào)節(jié)劑和肌球蛋白II擾動的響應(yīng)者(參見圖4D)。然而,由于在U133p2網(wǎng)絡(luò)中缺乏GRB2表示,當使用U133p2網(wǎng)絡(luò)時,不能推斷該基因。同樣重要的是,強調(diào)使用來自STRING數(shù)據(jù)庫的高質(zhì)量無關(guān)背景的網(wǎng)絡(luò)對DP14和DP92數(shù)據(jù)集的DeMAND分析仍然能夠鑒定遍在靶和效應(yīng)物(例如,參與細胞周期和DNA損傷修復(fù)機制的那些靶和效應(yīng)物),但在化合物相似性分析和具有背景特異性功能/表達的基因的鑒定中表現(xiàn)出較低的性能。這表明非背景特異性網(wǎng)絡(luò)仍然可以用于DeMAND分析,雖然假陽性和陰性預(yù)測增加。這可能包括代表化合物特異性差異和潛在毒性相關(guān)效應(yīng)物的基因,其只有在使用背景特異性網(wǎng)絡(luò)時才被最佳地突顯。
實驗程序
DP14數(shù)據(jù)集:該數(shù)據(jù)集含有用14種不同的個體化合物處理的OCI-LY3細胞系(人彌漫性大B細胞淋巴瘤細胞系)的GEP,并且在化合物處理后6hrs、12hrs和24hrs進行分析(全部一式三份)。對于處理,使用兩種不同濃度的化合物,對應(yīng)于在24hrs時的IC20和在48hrs時的IC20。將在3個不同時間點以一式八份分析的DMSO處理的樣品的GEP作為對照,得到來自該數(shù)據(jù)集的總共276個GEP(圖5A)。
GEODB:該數(shù)據(jù)集包含13種不同化合物的GEP,獲自從基因表達綜合數(shù)據(jù)(GEO)獲得的9個獨立表達組(表1)。每個表達組具有至少6個DMSO對照和6個用于化合物處理的樣品。3個表達組是針對MCF7乳腺癌細胞系(GSE9936-3化合物、GSE5149和GSE28662-2化合物)分析的,兩組是針對MDA-MB-231轉(zhuǎn)移性乳腺癌系(GSE33552-2化合物)分析的。其余的表達組是在B細胞淋巴瘤細胞系中分析,所述B細胞淋巴瘤細胞系是慢性淋巴細胞白血病患者來源的細胞系(GSE14973)、K422非霍奇金淋巴瘤細胞系(GSE7292)、裂解容許類淋巴母細胞系(GSE31447)、彌漫性大B細胞淋巴瘤患者衍生的細胞系(GSE40003)和套細胞淋巴瘤細胞系(GSE34602)。
DP92:該數(shù)據(jù)集含有在化合物處理后6、12和24hrs于3種不同B細胞淋巴瘤細胞系(OCI-LY3,OCI-LY7和U-2932)中分析的92種不同的FDA批準的晚期實驗的工具性化合物的GEP。使用IC20以24hrs濃度處理化合物。在3個時間點中的每一個時間點使用DMSO作為對照介質(zhì),得到總共857個GEP。
為了運行DeMAND,產(chǎn)生了包括蛋白質(zhì)-DNA相互作用和蛋白質(zhì)-蛋白質(zhì)相互作用的背景特異性基因調(diào)控網(wǎng)絡(luò)(參見表2)。這些網(wǎng)絡(luò)的背景特定信息是從源自相同背景的GEP獲得的,而與背景無關(guān)的信息從大量的實驗和計算證據(jù)獲得。最后,樸素貝葉斯分類器被用來整合各種證據(jù)的相互作用,以獲得最終的相互作用組(interactome)。下面提供關(guān)于如何產(chǎn)生相互作用組的詳細描述。為了產(chǎn)生U133p2人B細胞相互作用組,使用了226個GEP,而對于U95av2人B細胞相互作用組,使用了254個GEP。為了產(chǎn)生乳腺癌相互作用組(BCI),使用從CMAP2數(shù)據(jù)集獲得GEP。該數(shù)據(jù)集含有3,115個MCF7細胞系的特征譜。該數(shù)據(jù)集里的這些特征譜中有許多顯示對處理沒有反應(yīng),因此導(dǎo)致高冗余。為了減少這種冗余,通過隨機比較2個對照(DMSO)樣品產(chǎn)生具有大于2倍變化的基因的數(shù)目的背景變異分布。然后對于每次處理,如果與來自相同批次的相應(yīng)對照樣品相比顯示出至少2倍的變化差異的基因數(shù)量小于根據(jù)背景分布確定的閾值,則濾出樣品。這導(dǎo)致選擇最終用于生成BCI的448個樣本。
表2
表2:網(wǎng)絡(luò);*PDI:轉(zhuǎn)錄因子(蛋白質(zhì))-靶(NDA)相互作用;**PPI:蛋白質(zhì)-蛋白質(zhì)相互作用
對于通過網(wǎng)絡(luò)中的相互作用連接的基因?qū)Γ瑢⑵湓诮o定條件(處理或?qū)φ?中的表達轉(zhuǎn)化為二維概率密度。為了允許非線性,通過將化合物擾動和對照樣品一起采用,對基因的表達數(shù)據(jù)進行等級轉(zhuǎn)換。使用高斯核平滑,通過使用Silverman方法用以該點為中心的二維高斯概率密度替換點來估算概率密度。來自對應(yīng)于化合物擾動的點的高斯概率密度的總和提供了擾動概率密度P,而來自對應(yīng)于對照樣品的點的高斯分布的總和提供了對照概率分布Q。在由樣品數(shù)量定義的秩空間中的每個整數(shù)網(wǎng)格點處評估分布,并將其針對1的總和進行標準化,以創(chuàng)建有效的離散概率分布。
使用如下定義的Kullback-Leibler散度(KLD)來評估兩個離散概率分布之間的距離:
KLD通過計算KLD(P|Q)和KLD(Q|P)來進行系統(tǒng)化,并對它們?nèi)∑骄?/p>
KLD值的統(tǒng)計顯著性使用由從隨機基因?qū)?無論它們是否共享網(wǎng)絡(luò)邊緣)估算的105個KLD值產(chǎn)生的零分布來確定,提供網(wǎng)絡(luò)邊緣的失調(diào)的p值。
通過使用網(wǎng)絡(luò)中的相互作用的失調(diào)評分,評價了由基因施加的調(diào)控變化。這可通過使用費希爾方法組合從該基因周圍的相互作用的KL-發(fā)散獲得的p值來完成,所述費希爾方法將從給定的基因周圍的k個相互作用獲得的一組k個p值,pvi(i=1..k),轉(zhuǎn)換成卡方統(tǒng)計
然后使用具有2k個自由度的卡方分布來計算組合的p值。使用費希爾方法組合p值的基本假設(shè)之一是獨立性,即,假定圍繞基因的相互作用是獨立的,因此,在化合物擾動之后是失調(diào)的這些相互作用的p值也是獨立的。由于給定基因a周圍的相互作用共同具有該基因,因此這些相互作用之間的依賴性不能排除。因此,Brown方法被應(yīng)用于p值依賴性的校正,其利用來自原始數(shù)據(jù)的協(xié)方差矩陣來校正從卡方統(tǒng)計獲得p值所需的方差和自由度。因為人們必須校正相互作用之間的依賴性,而不是基因之間的依賴性,因此使用來自對共同基因a的線性擬合的殘差之間的協(xié)方差(參見圖12A)。這種校正消除了與網(wǎng)絡(luò)中大量相互作用相關(guān)的基因失調(diào)的p值估算中的偏差(參見圖12B)。具體來說,卡方的方差可以重新定義為
其中ρij是基因i與基因j的殘差之間的相關(guān)性,以及
通過使用該方差,可將自由度重新定義為
并且人們可使用其來獲得校正的p值,所述p值被使用Benjamini-Hochberg程序針對多個假設(shè)測試進行了校正。
化合物的直接靶標的知識從DrugBank數(shù)據(jù)庫、MATADOR數(shù)據(jù)庫和文獻獲得。從MATADOR數(shù)據(jù)庫,注釋為“直接”或“直接-間接”的基因被認為是化合物的已知靶標,而標記為“間接”的基因被丟棄。有關(guān)本研究中使用的化合物的靶標的列表。
進行子采樣分析以用不同數(shù)量的GEP評估DeMAND的性能。這通過首先從DP14數(shù)據(jù)集里的每種化合物的18個化合物處理的樣品和來自24個對照樣品的相同數(shù)目的i個樣品隨機取樣i(i=3...18)個樣品,并對這i個樣品進行DeMAND來完成。對于每種化合物和每個i,將其重復(fù)10次,并且將從子采樣數(shù)據(jù)獲得的10個結(jié)果與使用McNemar檢驗利用樣品獲得的結(jié)果進行比較。McNemar檢驗檢查兩個結(jié)果之間的同質(zhì)性,同時考慮到所考慮的兩個結(jié)果獲自重疊樣本的事實。
為了測試通過DeMAND預(yù)測為相似的化合物對是否也享有類似的治療類別,使用來自解剖治療化學(xué)(ATC)分類系統(tǒng)的每種化合物的藥理學(xué)/治療信息。具體來說,使用描述每種化合物的藥理學(xué)/治療亞組信息的第二級ATC分類。如果給定的化合物對共享相同的代碼,則認為它們共享相似的治療類別。
在DP92數(shù)據(jù)集里的92種化合物中,其中10種也在CTD2中進行了分析。在這10種化合物之間的所有潛在的化合物組合對中,5個化合物對沒有相同細胞系的靈敏度曲線,因此不能獲得它們之間的相似性。對于剩余的40個化合物對,使用至少23個共同細胞系至最多237個細胞系從靈敏度曲線獲取相似性。通過靈敏度譜的Pearson相關(guān)性測量化合物之間的相似性,并且其顯著性通過t-分布來估算,自由度等于共同細胞系的數(shù)目-2。
為了評價兩種化合物的DeMAND預(yù)測之間的相似性,選擇每種化合物的DeMAND結(jié)果中顯著的DPG(FDR≤0.1)。然后使用這些選擇的基因應(yīng)用費希爾精確檢驗以計算它們之間的重疊的顯著性。發(fā)現(xiàn)大量的常見基因在化合物之間沒有顯著的p值,這導(dǎo)致在費希爾精確檢驗中化合物對之間陰性基因組的高重疊,從而導(dǎo)致相似性估算中的偏差。為了校正該偏差,從背景組中扣除在整個化合物小組中從未顯示為MoA的一部分的顯著評分的基因,并重新計算費希爾精確檢驗。該校正對從最相似至最不相似的化合物對的分級沒有影響,而是僅通過提供經(jīng)校正的p值對相似性估算有影響。
為了獲得DP92數(shù)據(jù)集中的每個化合物對的相似性的p值,獨立地計算3個細胞系的相似性的p值,并且使用費希爾方法來組合這些p值。
為了評估內(nèi)在網(wǎng)絡(luò)靈敏度的變化是否對DeMAND的性能有影響,進行了梯度分析。為此,從網(wǎng)絡(luò)中隨機地逐漸去除相互作用,并且使用費希爾精確檢驗將DeMAND的輸出與使用網(wǎng)絡(luò)獲得的輸出進行比較。獨立地對來自DP14數(shù)據(jù)集的14種化合物進行這種檢驗。由于計算約束,以逐步方式去除相互作用,首先通過去除10%的相互作用,隨后去除另外10%的相互作用,并繼續(xù)直至在網(wǎng)絡(luò)中僅剩下10%的相互作用。
對于每種化合物和每種方法(DeMAND或t檢驗),將真陽性和假陽性率計算為排在前面的基因的分數(shù)的函數(shù)。對于具有d個直接靶標的化合物,通過方法考慮具有最顯著的p值的前n個基因,真陽性率(TPR,也稱為靈敏度)被定義為通過所述方法預(yù)測的該化合物的已知直接靶標的分數(shù),并且假陽性率(FPR)被定義為在相同n個基因中為未知的直接靶標的基因的分數(shù)。
其中p是通過所述方法在前n個預(yù)測中預(yù)測的化合物的直接靶標的數(shù)目,N是在給定GEP數(shù)據(jù)集里分析的基因數(shù)目的總數(shù)。由于DeMAND為網(wǎng)絡(luò)中的基因提供p值,因此當達到網(wǎng)絡(luò)大小時,終止兩個率的計算,并且假設(shè)曲線繼續(xù)使用隨機秩分配至其中兩個率均等于1的終點。這在ROC曲線中描繪為連接達到網(wǎng)絡(luò)大小時的點的直線,其中理論最大TPR和FPR值為1。
注意,在GEODB中,不同的表達集從不同的平臺獲得,因此可以預(yù)測的基因的總數(shù)和網(wǎng)絡(luò)中的基因的數(shù)量二者均可變化。為了獲得平均靈敏度曲線(在兩個數(shù)據(jù)集里),我們因此根據(jù)該平臺中總的可用基因中的排在前面的基因的分數(shù)(而不是使用排在前面的基因的數(shù)量)對真陽性和假陽性率求平均值。
彌漫性大B細胞淋巴瘤(DLBCL)細胞系OCI-LY3和OCI-LY7獲自University Health Network(Toronto,Canada);U-2932DLBCL細胞系購自Leibniz-Institute DSMZ German Collection of Microorganisms and Cell Cultures;U-2-OS骨肉瘤細胞系獲自ATCC(Cat#ATCC HTB-96)。將OCI-LY3、OCI-LY7、U-2932細胞系在37℃于補充有10%胎牛血清的Iscove改良的Dulbecco培養(yǎng)基(IMDM)中在5%CO2氣氛中培養(yǎng),而將U-2-OS細胞在補充有10%胎牛血清的McCoy's 5A培養(yǎng)基中進行培養(yǎng)。
基于它們在FDA批準的后期實驗的和工具性化合物的初步篩選中的活性選擇化合物。將OCI-LY3、OCI-LY7和U-2932細胞以100μL總體積以5×104個細胞/孔的密度接種在白色的組織培養(yǎng)物處理的96孔板中,使用Janus自動化液體處理系統(tǒng)(Perkin Elmer Inc.)。在37℃下培養(yǎng)12小時后,使板冷卻至室溫,然后通過Janus加入化合物。將化合物作為1μL的DMSO儲液轉(zhuǎn)移至測定板(基于板的一式三次重復(fù))中,隨后將其置于定軌振蕩器上5分鐘,然后放回培養(yǎng)箱中。24小時后,從培養(yǎng)箱中取出板并平衡至室溫,然后每孔添加50μL CellTiter-Glo發(fā)光細胞活力測定(Promega Corp.)。將板在定軌振蕩器上振蕩5分鐘,之后在Envision(PerkinElmer Inc.)中數(shù)據(jù)采集(0.5秒讀取時間,增強發(fā)光)。使用IDBS Activity Base,利用四參數(shù)擬合模型測定IC20值。
對于每種化合物,通過在DMSO中稀釋產(chǎn)生24hrs時的IC20的儲液濃度。使用Janus自動化液體處理系統(tǒng)(Perkin Elmer,Inc.)將細胞以5×104個細胞/孔的密度接種在組織培養(yǎng)物處理的96孔板中,并用每種化合物的24小時的IC20在37℃,5%CO2下于加濕條件下處理6、12和24小時。對于每種化合物/條件組合,分析一個單一數(shù)據(jù)點,并將0.2%DMSO媒介物處理的樣品用作對照。平行進行活力測定以監(jiān)測化合物的效力。
在Janus自動液體處理系統(tǒng)(Perkin Elmer Inc.)上用RNAqueous-96Automated試劑盒(Ambion)分離總RNA,通過NanoDrop 6000分光光度計定量,并通過Agilent Bioanalyzer檢查質(zhì)量。使用基于標準T7的擴增操作方案,使用Illumina TotalPrep-96RNA擴增試劑盒(Ambion)將300ng RIN值>7的樣品的每一種轉(zhuǎn)化為生物素化的cRNA,并在人類基因組U219 96-陣列板(Affymetrix)上雜交。根據(jù)制造商的操作方案在GeneTitan儀(Affymetrix)上進行陣列板的雜交、洗滌、染色和掃描。
靶向每個指定基因的小干擾RNA(siRNA)和siControl SMARTpools獲自Dharmacon Technologies(參見表3)。通過制備1mL Opti-MEM(Invitrogen),6μL Lipofectamine-RNAiMAX試劑(Invitrogen)和1.25μL的10μM RNAi溶液(最終工作濃度為6.4nM)的溶液,并將混合物(1mL/孔)在6孔皿中于37℃下溫育20分鐘來進行反向轉(zhuǎn)染。將U-2-OS細胞從培養(yǎng)瓶中分離,并以4×105個細胞/mL的密度重懸浮于2X含血清的培養(yǎng)基中。將1mL細胞懸浮液轉(zhuǎn)移至含有轉(zhuǎn)染混合物的每個孔中,并將6孔板放回培養(yǎng)箱中。48小時后,分離細胞,并使用相同的程序再次反向轉(zhuǎn)染。48小時后,將細胞進行胰蛋白酶化并重新接種至384孔板中以測定對長春花新堿的靈敏度。在長春花新堿處理48小時后,將10μL的在U-2-OS生長培養(yǎng)基中的50%阿爾瑪藍(Life Technologies)溶液轉(zhuǎn)移至384孔板中,得到10%終濃度的阿爾瑪藍。將板再溫育16小時以允許還原阿爾瑪藍,這導(dǎo)致紅色熒光的產(chǎn)生。使用Victor 3板閱讀器(Perkin Elmer,Inc.)測定熒光強度,并將其用于計算生長抑制百分比。
表3
表3;用于長春花新堿MoA的siRNA
將細胞在蓋玻片上生長至~50%匯合,并用化合物處理24小時。用3.7%甲醛的PBS溶液將細胞固定15-30分鐘,然后用PBS洗滌5次。細胞膜用0.2%Triton-X的PBS溶液透化10分鐘,并用TBS(10mM Tris[pH7.5],150mM NaCl)漂洗一次。將透化的樣品用10%山羊血清的TTBS(0.1%Tween-20的TBS溶液)溶液封閉30-60分鐘,并用TTBS洗滌一次。在室溫下用在1%山羊血清的TTBS溶液中的抗微管蛋白抗體(Santa Cruz cat#sc-32293)探測微管網(wǎng)絡(luò)30-60分鐘,然后在TTBS中洗滌10分鐘。使用Alexa Fluor抗小鼠抗體(Invitrogen,目錄號A-11005)作為二抗,以使用共聚焦顯微鏡的60x透鏡使微管網(wǎng)絡(luò)可視化。
如下進行GPX4酶活性測定。簡言之,將1×106個細胞重懸于細胞裂解緩沖液中。使用超聲處理制備細胞裂解物,然后以14,000rpm離心10分鐘。使用Bradford蛋白質(zhì)測定(Bio-Rad)來測定澄清的細胞裂解物的蛋白質(zhì)濃度。將200微克細胞蛋白質(zhì)與磷脂酰膽堿氫過氧化物(PC-OOH)(GPX4特異性底物)和還原型谷胱甘肽(GPX4輔因子)混合。將混合物在37℃下溫育30分鐘,然后使用氯仿:甲醇(2:1)溶液進行脂質(zhì)提取。使用旋轉(zhuǎn)蒸發(fā)器蒸發(fā)脂質(zhì)提取物,并重新溶解于100%乙醇中,然后注射入LC-MS儀以用于PC-OOH定量。
將U-2932細胞接種在10cm培養(yǎng)皿(2×106/皿)中,并在37℃下生長16小時。用媒介物(0.4%DMSO),1mM柳氮磺吡啶(24小時IC50)或1mM六甲蜜胺(24小時IC50的雙倍)處理細胞,并溫育24小時。然后收獲細胞,沉淀,用含有1mM EDTA的400μl冰冷的PBS洗滌一次并超聲處理。在沉淀并除去碎片后,使用QuantiChrome谷胱甘肽測定試劑盒(BioAssay Sytems)在技術(shù)上一式三份定量120μL樣品中的氧化和還原型谷胱甘肽。將谷胱甘肽量相針對用Bradford測定法(Bio-Rad)測量的蛋白質(zhì)濃度標準化。
將U2932細胞(2x105)接種在6孔板中,并在37℃下培養(yǎng)16小時。將細胞用測試化合物處理指定的時間,然后收獲,沉淀并用PBS洗滌一次。對于脂質(zhì)ROS檢測,將細胞用含有C11-BODIPY(581/591)(2μM)(Life Technologies)的Hanks平衡鹽溶液(HBSS,Life Technologies)重懸,并在37℃溫育10分鐘。然后將細胞沉淀,重懸于500μL HBSS中,通過40μM細胞過濾器(BD Falcon)過濾,并使用BD Accuri C6流式細胞儀(BD Biosciences)分析。使用FL1通道測量C11-BODIPY信號。以生物學(xué)一式三份重復(fù)進行實驗,并且顯示了代表性結(jié)果。
JAK2選擇性抑制劑TG101348和絲裂霉素C分別購自Selleckchem和Tocris Bioscience,將其溶解于DMSO中。在96孔板中用所示化合物處理OCI-LY3細胞,并使用CellTiter-Glo發(fā)光細胞活力測定(Promega Corp)測定生長。通常,在所期望的化合物存在或不存在(僅DMSO)的情況下,將200μL生長培養(yǎng)基中每孔30,000個OCI-Ly3細胞生長48小時,然后根據(jù)制造商的說明書使用CellTiter Glo進行測定。
出于說明而非限制的目的,參考圖3,DeMAND可接受與來自對照樣品和擾動樣品的基因表達譜相組合作為調(diào)控網(wǎng)絡(luò)的輸入。通過使用該輸入,網(wǎng)絡(luò)中的每個相互作用被單獨地測試失調(diào)。這通過首先使用高斯核方法對參與相互作用的兩個基因的共表達散布圖進行平滑(即用圍繞該值的二維高斯代替二維圖中的每個表達值),從而獲得內(nèi)在概率密度的估算來進行。使用KL散度評價對照和擾動樣品的概率分布之間的差異,并且通過將該值與隨機基因?qū)Φ腒L散度值進行比較來測定該差異的統(tǒng)計顯著性。接下來,通過整合其相互作用的p值,同時考慮它們之間的依賴性來測定網(wǎng)絡(luò)中每個基因的失調(diào)(也參見圖12),從而提供反映基因失調(diào)的顯著性的單一評分。作為輸出,DeMAND提供輸入數(shù)據(jù)中的基因和與其失調(diào)相關(guān)的p值的列表。
為了說明而不是限制的目的,圖4A顯示了通過DeMAND(左)和通過t檢驗(右)預(yù)測的DP14數(shù)據(jù)集里的每種化合物的已知的直接靶的最佳等級。DeMAND在11種化合物中的10種中鑒定了處于更好等級的已知靶。
為了說明而不是限制的目的,參考圖4B,如使用來自每個時間點一起的(例如,所有數(shù)據(jù))GEP或使用單獨的每個時間點(6小時、12小時或24小時)的GEP通過DeMAND預(yù)測的DP14數(shù)據(jù)集里的每種化合物的已知的直接靶的標準化的最佳等級。通過取四個預(yù)測(所有數(shù)據(jù),6小時、12小時或24小時)中的最小秩的比率和四個預(yù)測中的每一個的秩,對每種單獨的化合物進行標準化。每個圓的尺寸/顏色表示標準化的秩,其中較大或較暗的圓代表較低等級或較好的預(yù)測。該圖顯示了僅針對具有FDR≤0.1的預(yù)測的標準化的秩。
為了說明而不是限制的目的,圖4C顯示了作為假陽性率的函數(shù)的平均真陽性率(靈敏度),其用于使用DeMAND預(yù)測(401)和使用t檢驗分析(402)來鑒定DP14數(shù)據(jù)集中的化合物的已知的直接靶。對于所示的每個假陽性率值,DeMAND獲得比t檢驗更高的真陽性率。DeMAND預(yù)測的右上方的直線表示不在調(diào)控網(wǎng)絡(luò)中的基因的隨機秩分配。
為了說明而非限制的目的,參考圖4D,blebbistatin是參與整聯(lián)蛋白信號傳導(dǎo)的肌球蛋白II的特異性抑制劑,其是非肌肉肌球蛋白。在B細胞中,肌球蛋白II對于B細胞受體信號傳導(dǎo)和免疫突觸穩(wěn)定性、細胞與細胞接觸、趨化性、細胞周期和細胞分裂至關(guān)重要。Pyk2/PTK2B是調(diào)節(jié)肌球蛋白II磷酸化的關(guān)鍵激酶,并且被整聯(lián)蛋白或趨化因子介導(dǎo)的Ca+2信號傳導(dǎo)以及應(yīng)激中的活性氧(ROS)生成所激活,導(dǎo)致通過GRB2銜接蛋白基因的Src家族激酶締合(FYN)。雖然DEMAND不將肌球蛋白II預(yù)測為blebbistatin的MoA,但其將PTK2B、FYN和GRB2預(yù)測為MoA基因。
為了說明而非限制的目的,圖4E顯示了GSEA圖,其顯示了已知影響MTOR的化合物(即雷帕霉素(左上和左下)和放線菌(右上和右下))的雷帕霉素響應(yīng)基因集合的富集。當根據(jù)DeMAND預(yù)測(上)對基因進行分級時,兩種化合物的富集是統(tǒng)計上顯著的。當使用t檢驗預(yù)測進行分類時,對于雷帕霉素(左下)沒有觀察到顯著性,而對于放線酮(右下)統(tǒng)計上顯著性仍然存在。
為了說明而不是限制的目的,圖5A顯示了使用DeMAND(501和502)和使用t檢驗分析(503和502)鑒定DP14數(shù)據(jù)集中的所有化合物的已知直接靶的平均靈敏度(真陽性率),其為排在前面的預(yù)測的數(shù)量的函數(shù)。對于許多排在前面的基因,DeMAND優(yōu)于t檢驗分析。例如,DeMAND在前100個預(yù)測中實現(xiàn)了近15%的靈敏度,而t檢驗只實現(xiàn)了3%的靈敏度。此外,通過t檢驗分析鑒定的大多數(shù)直接靶標也被DeMAND鑒定,如通過缺乏紅色(直至選擇超過400個排在前面的基因)所證明的。相反的情況是不真實的,DeMAND鑒定許多未被t檢驗鑒定的直接靶標,如由大的藍色區(qū)域所示。
為了說明而不是限制的目的,圖5B顯示了比較三種拓撲異構(gòu)酶抑制劑-喜樹堿、多柔比星和依托泊苷的MoA的示意圖,其聚焦于通過DeMAND預(yù)測參與每種化合物的MoA的基因。對于多柔比星是獨特的基因在具有橙色背景的區(qū)域(509)中,而對于喜樹堿和依托泊苷是獨特的基因在具有紫色背景的區(qū)域(510)中。所述化合物共享主要的DNA損傷修復(fù)MoA,包括GADD45A、PCNA和CDNK1A。多柔比星MoA包括參與組蛋白回收的KAT5和參與維持心臟祖細胞的SIK1,并因此將多柔比星與其最顯著的心肌病的治療限制性副作用聯(lián)系起來。
為了說明而不是限制的目的,圖5C顯示了DeMAND預(yù)測的參與DNA損傷應(yīng)答的基因的分級。DeMAND預(yù)測GADD45A(504)(規(guī)范的DNA損傷誘導(dǎo)基因)及其眾所周知的相互作用基因CDKN1A(503)、PCNA(505)、CCNB1(508)、AURKA(507)和PLK1(506),具體而言,DNA損傷劑中的5種(即喜樹堿、多柔比星、依托泊苷、絲裂霉素C和長春花新堿)的統(tǒng)計上顯著的MoA推斷基因。
為了說明而不是限制的目的,圖6A顯示了用DMSO、長春花新堿、非特異性siRNA和靶向RPS3A的siRNA處理的細胞的通過免疫組織化學(xué)進行的微管網(wǎng)絡(luò)的可視化。與DMSO對照相比,非特異性siRNA對微管網(wǎng)絡(luò)沒有影響。長春花新堿和siRPS3A都顯著改變微管網(wǎng)絡(luò)。U-2-OS細胞用4nM長春花新堿處理24小時。
為了說明而非限制的目的,圖6B顯示了對于用非特異性siRNA(602)、靶向CCNB1(604)、VHL(601)、NFKBIA(603)和RPS3A(605)的siRNA處理的U-2-OS細胞,作為長春花新堿濃度的函數(shù)的相較于未經(jīng)長春花新堿處理的siRNA轉(zhuǎn)染的細胞的細胞抑制百分比。RPS3A和CCNB1的抑制降低細胞對長春花新堿治療的靈敏度,而VHL的抑制使靈敏度增加至兩倍。
為了說明而不是限制的目的,圖6C顯示了對于單獨用絲裂霉素C(空心圓圈)或用與JAK2抑制劑(使用0.2uM(實心圓圈)、0.4uM(倒三角形)和0.6uM(正方形))組合的絲裂霉素C處理的OCI-LY3細胞,作為絲裂霉素C濃度的函數(shù)的相較于DMSO處理的細胞的細胞抑制百分比。JAK2抑制劑水平與細胞對絲裂霉素C處理的靈敏度降低相關(guān)。
為了說明而不是限制的目的,圖7A顯示了當使用U95av2調(diào)控網(wǎng)絡(luò)時,DP14數(shù)據(jù)集中的每種化合物的顯著的DeMAND結(jié)果的GSEA曲線,其中分級根據(jù)使用U133p2調(diào)控網(wǎng)絡(luò)的結(jié)果?;衔镲@示出統(tǒng)計顯著性(p值≤10-9),例證了DeMAND結(jié)果對輸入網(wǎng)絡(luò)不敏感。
為了說明而不是限制的目的,參考圖7B,在從網(wǎng)絡(luò)中隨機除去相互作用之后,將DeMAND應(yīng)用于DP14數(shù)據(jù)集,并且使用費希爾精確檢驗將顯著結(jié)果與原始結(jié)果進行比較。該圖顯示了作為除去的邊緣的百分比的函數(shù)的費希爾精確檢驗的log 10的p值。在除去超過60%的相互作用之后,重疊的p值低于統(tǒng)計顯著性(在多個假設(shè)校正之后)。
為了說明而不是限制的目的,參考圖7C,使用對照和擾動數(shù)據(jù)的自舉子集將DeMAND應(yīng)用于DP14數(shù)據(jù)集,并且使用18個樣品和18個對照樣品的結(jié)果的差異的顯著性使用McNemar檢驗(其中大的差異提供顯著的p值)來評估。該圖顯示作為樣本大小的函數(shù)的log 10的p值。對于6個和以上的樣本大小,p值在使用18個樣品的結(jié)果的單一標準偏差內(nèi)。
為了說明而不是限制的目的,圖8A顯示了通過DeMAND(左)和通過t檢驗(右)預(yù)測的GEODB數(shù)據(jù)集里的每種化合物的已知直接靶的最佳等級。
為了說明而非限制的目的,圖8B顯示了作為假陽性率的函數(shù)的平均真陽性率(靈敏度),其用于使用DeMAND預(yù)測(801)和使用t檢驗分析(802)鑒定GEODB數(shù)據(jù)集里的化合物的已知直接靶。對于假陽性率的大多數(shù)值,DeMAND實現(xiàn)比t檢驗更高的真陽性率。DeMAND預(yù)測的右上方的直線表示不在調(diào)控網(wǎng)絡(luò)中的基因的隨機秩分配。
為了說明而非限制的目的,圖8C顯示了使用DeMAND(803)和使用t檢驗分析(804)的GEODB數(shù)據(jù)集中的所有化合物的已知直接靶的平均真陽性率(靈敏度),其為排在前面的預(yù)測的數(shù)量的函數(shù)。對于許多排在前面的基因,DeMAND優(yōu)于t檢驗分析,在前100個預(yù)測中達到幾乎15%的靈敏度,而t檢驗只達到2%的靈敏度。
為了說明而不是限制的目的,參考圖9A,以檢測化合物之間的相似性,DeMAND首先推斷每種化合物的MoA。使用費希爾精確檢驗的列表之間的重疊的顯著性來評價化合物對之間的相似性。
為了說明而不是限制的目的,參考圖9B,通過共享已知直接靶標的每對化合物的精密度(903)來評估DP92數(shù)據(jù)集中的92種化合物之間的預(yù)測的相似性的排名,根據(jù)CTD2數(shù)據(jù)(904)產(chǎn)生類似的靈敏度分布,根據(jù)解剖治療化學(xué)(ATC)分類(902)或上述證據(jù)(901)共享相同的分類。結(jié)果表明,預(yù)測的相似性在區(qū)分具有相似MoA的化合物中是成功的。
為了說明而不是限制的目的,參考圖10A,DeMAND預(yù)測的化合物對相似性用具有支持性外部證據(jù)的化合物對來進行富集。根據(jù)其顯著的DeMAND預(yù)測的重疊的顯著性(通過費希爾精確檢驗)對化合物對進行分類,并且具有外部證據(jù)的一組配對由共享相同ATC類別或共享確定的直接靶標的化合物對組成,或者使用CTD2數(shù)據(jù)顯示顯著相關(guān)性。
為了說明而不是限制的目的,圖10B顯示了作為靈敏度的函數(shù)的精度(真陽性率),其中陽性由共享相同直接靶標,或者共享相同的ATC分類,或者共享根據(jù)CTD2數(shù)據(jù)集跨多個細胞系的相似的靈敏度曲線的對確定。所述曲線是針對通過顯著的DeMAND預(yù)測的重疊(1001)、通過t檢驗分析的重要基因的重疊(1003)預(yù)測的化合物相似性和通過MANTRA算法(1002)計算的相似性的。T檢驗分析實現(xiàn)較差的精密度,并且DeMAND對于大多數(shù)靈敏度值達到最佳精密度。注意,t檢驗線結(jié)束短(靈敏度為0.14),因為許多化合物對顯著差異表達的基因的沒有重疊。
為了說明而不是限制的目的,圖10C顯示了CTD2數(shù)據(jù)集中的化合物相似性與通過顯著的DeMAND預(yù)測的重疊估算的化合物相似性之間的比較。DeMAND相似性預(yù)測提供0.59(p值=7.8×10-5)的與CTD2結(jié)果的顯著Spearman相關(guān)性。
為了說明而不是限制的目的,圖10D顯示了CTD2數(shù)據(jù)集中的化合物相似性與通過MANTRA算法估算的化合物相似性之間的比較。MANTRA相似性預(yù)測提供0.26(p值=0.11)的與CTD2結(jié)果的非顯著Spearman相關(guān)性。
為了說明而非限制的目的,圖10E顯示了CTD2數(shù)據(jù)集中的化合物相似性與通過由t檢驗顯著差異表達的重疊估算的化合物相似性之間的比較。T檢驗相似性預(yù)測提供0.39(p值=0.013)的與CTD2結(jié)果的邊際顯著的Spearman相關(guān)性。應(yīng)當注意,多種化合物沒有重疊,因此全部等級相同。
為了說明而不是限制的目的,圖11A顯示在陰性對照(DMSO,1101)、陽性對照、柳氮磺吡啶(1102)和六甲蜜胺(1103)處理細胞后的GSH濃度顯示,柳氮磺吡啶處理降低活性GSH的水平(相較于對照),而六甲蜜胺處理導(dǎo)致與對照無法區(qū)分的活性GSH的水平。
為了說明而不是限制的目的,圖11B顯示如通過無細胞裂解物(1104)、利用未處理的細胞裂解物(1105)和來自用六甲蜜胺(1106)處理的細胞的細胞裂解物的質(zhì)譜法測量的GPX4-特異性底物PC-OOH的水平。當細胞用六甲蜜胺處理時,PC-OOH的水平類似于無裂解物,并且與未處理的裂解物顯著不同,表明六甲蜜胺處理降低了GPX4的活性。
為了說明而非限制的目的,圖11C顯示通過對照DMSO處理的細胞(1107)或化合物處理后的細胞(1108)的流式細胞術(shù)測量的脂質(zhì)反應(yīng)性氧化物質(zhì)(ROS)的水平。兩種化合物的處理顯著升高脂質(zhì)-ROS的水平,例示了六甲蜜胺處理的功能效應(yīng)類似于柳氮磺吡啶的功能效應(yīng)。
為了說明而非限制的目的,參考圖11D,已知柳氮磺胺吡啶通過系統(tǒng)xc-胱氨酸/谷氨酸反向轉(zhuǎn)運體起作用,對谷胱甘肽(GSH)和GPX4產(chǎn)生下游作用,并導(dǎo)致脂質(zhì)反應(yīng)性氧化物質(zhì)的積累。DeMAND預(yù)測柳氮磺吡啶與六甲蜜胺之間的顯著相似性,但并不預(yù)測六甲蜜胺對GSH的失調(diào),而是預(yù)測GPX4的失調(diào)。該預(yù)測通過圖(A)-(C)中的實驗結(jié)果得到驗證。
為了說明而非限制的目的,參考圖12A,組合p值的Brown方法需要估算導(dǎo)致p值的結(jié)果之間的相關(guān)性。為了估算涉及相同基因(A)的兩個相互作用之間的相關(guān)性,計算來自與A(基因B和C)相互作用的每個基因的線性擬合的殘差,并且接下來計算殘差之間的相關(guān)性。
為了說明而不是限制的目的,參考圖12B,對于DP14數(shù)據(jù)集里的化合物,將基因失調(diào)的p值的log10的概率密度作為所述基因所參與的相互作用數(shù)(程度)的函數(shù)作圖。校正前(左框)的概率分布取決于基因的程度,但在校正后(右框),這種偏差被去除。
實驗程序。
DeMAND可在網(wǎng)絡(luò)ε和基因表達集GEP中用作輸入,將其分為對照集GEPc和擾動集GEPp。每組含有N個基因以及分別地Mc和Mp個樣品的測量,給出總共M個樣品。
該算法通過網(wǎng)絡(luò)中的每個相互作用(其中1≤i,j≤N)運行,并估算分別獲得基因Gi和Gj的表達值Ei和Ej的聯(lián)合概率分布。為此,首先對表達值進行秩變換,接著進行高斯核平滑,其中,對于樣品1≤m≤M的每個表達點(Eim,Ejm)用圍繞該點的2維高斯取代。高斯的標準偏差σi和σj通過Silverman經(jīng)驗法則獲得,給出其中是數(shù)據(jù)的標準偏差。然后通過對它們相應(yīng)樣品的高斯進行求和,創(chuàng)建兩個概率分布,一個用于對照樣品,一個用于擾動樣品。然后在每個整數(shù)點(k,l)對分布進行采樣,其中1≤(k,l)≤M,給出
將這些離散概率分布標準化以確保超過k和l的和等于1。
給定兩個概率分布,一個用于對照樣品,一個用于擾動樣品,計算它們之間的Kullback-Leibler散度(KLD)以評價兩個分布之間的差異。當嘗試使用一個概率分布來近似另一個概率分布時,這可以被解釋為信息的丟失。在這種情況下的KLD采取形式:
為了確保距離的對稱性,計算以下等式
這可以提供網(wǎng)絡(luò)中每個邊緣的失調(diào)的測量。
零假設(shè)是邊緣包括其相互作用不受擾動影響的兩個基因。因此,為了創(chuàng)建保持這種假設(shè)(也稱為零分布)的期望值的分布,隨機選擇兩個基因并計算它們的KLD。注意,這兩個基因通常不共享網(wǎng)絡(luò)邊緣,因此它們的表達水平之間沒有關(guān)系。因此,觀察到的使用對照與擾動樣品之間的這種關(guān)聯(lián)性的變化(通過其概率分布的變化來測量的),因此應(yīng)該是偶然的。
重復(fù)該過程105次,從而創(chuàng)建零模型,然后將其用于估算獲得給定KLD值(或更高)的概率。這通過計算在零分布中獲得這樣的值或更高值的次數(shù)并將其除以所述零分布中的值的總數(shù)目來進行。這被稱為KLD的p值,表示為Pvij。
為了評估每個基因Gi的失調(diào),對其中其所涉及的所有相互作用的p值進行積分。這是使用費希爾方法對p值積分來完成的,以使得p值被對數(shù)變換和求和以得到卡方統(tǒng)計
經(jīng)過積分的p值從具有2k自由度的卡方分布獲得,其中k是被積分的相互作用的數(shù)量。
對多個p值進行積分的費希爾方法需要從獨立實驗獲得這些p值。然而,在網(wǎng)絡(luò)的情況下,這不是正確的,并且與共同基因的多種相互作用可以是相關(guān)的。為了校正該偏差,使用了改良的Brown方法。具體來說,卡方的方差被定義為
其中ρij是基因i和基因j的殘差之間的相關(guān)性,以及
使用該方差,將自由度重新定義為
注意,此處,需要的是相互作用之間而非基因之間的相關(guān)性的估算。為了估算相互作用與之間的相關(guān)性,估算來自作為基因Gi的函數(shù)的基因Gj和Gk的獨立線性擬合的殘差,并使用這些殘差之間的相關(guān)性作為相互作用之間的相關(guān)性的替代。這是假設(shè)如果兩個相互作用是獨立的,則殘差不應(yīng)該相關(guān),并且殘差之間的相關(guān)性是由于這兩個相互作用具有共同基因的事實。所得p值用作基因Gi失調(diào)的顯著性的估算。
為了建立組織特異性相互作用組,可使用貝葉斯證據(jù)積分方法(BEIA)。樸素貝葉斯分類建立了特定相互作用的概率可使用該類相互作用的先驗概率和支持其的每條線索的似然比(LR)的乘積來計算。該方法需要蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)和蛋白質(zhì)-DNA相互作用(PDI)的陽性和陰性實例的大的數(shù)據(jù)集(稱為金標準陽性和陰性集(分別為GSP和GSN))來訓(xùn)練每條線索。根據(jù)樸素貝葉斯分類器的要求,這些證據(jù)源中的每一個可以事先被評估為獨立于其余的。
為了預(yù)測PPI,可以整合以下證據(jù)來源。
四個真核生物的數(shù)據(jù)庫IntAct、BIND和MIPS的分子相互作用
人高通量篩選
GeneWays文獻數(shù)據(jù)挖掘算法
基因本體論7(GO)生物過程注釋和Interpro蛋白質(zhì)結(jié)構(gòu)域注釋
同樣,來自相關(guān)組織類型的GEP集合的共表達數(shù)據(jù)可在每個相互作用組中引入背景特異性。
PPI的GSP是來自HPRD、BIND和IntAct數(shù)據(jù)庫的概要,其包含一組包含9,839個基因的48,648個獨特PPI(在去除同源二聚體后)。陰性相互作用GSN的組定義為來自存在于不同細胞區(qū)室中的GSP編碼蛋白質(zhì)中的基因的基因?qū)?,其代表一組5,362,594個陰性基因?qū)?。先前估算在基因組中的≈22,000個基因之間存在≈300,000個PPI相互作用,這意味著在800個潛在相互作用中有1個發(fā)生。因此,具有似然比大于800的相互作用表明其為真陽性的概率為50%。
為了預(yù)測PDI,可以收集以下證據(jù)來源:
來自TRANSFAC的小鼠相互作用
BIND數(shù)據(jù)庫
在靶基因的啟動子中鑒定的TF結(jié)合位點(TFBS)
GeneWays文獻數(shù)據(jù)挖掘算法
通過ARACNe算法從每種組織類型中的GEP推斷的PDI可以引入背景特定性信息。
為了產(chǎn)生PDI的GSP,從Professional(TRANSFAC)、BIND和Myc(MycDB)數(shù)據(jù)庫提取人的相互作用。這導(dǎo)致包括585個TF和2034個靶標的4500個相互作用的GSP PDI集。隨機產(chǎn)生GSN,其含有由TF和靶標組成的100,000個基因?qū)Γ懦似渲袃蓚€基因參與GSP相互作用或由基因本體(Gene Ontology)定義的相同生物過程的對。
基于ARACNe網(wǎng)絡(luò)中TF的靶標數(shù)目,為每個TF定義PDI的閾值。例如,在≈22,000個潛在靶標中由ARACNe預(yù)測的具有100個靶標的TF的先驗將是100/22000,這將指示LR>220。然而,如果產(chǎn)生的截斷值小于5(意味著該TF調(diào)節(jié)超過基因中的第5個),則無論如何使用LR>5。
此外,報告的相互作用組還引入來自涉及在每種細胞背景中表達的基因的兩個GSP的相互作用對。
前述內(nèi)容僅僅舉例說明所公開的主題的原理。鑒于本文的教導(dǎo),對所描述的實施方案的各種修改和改變對于本領(lǐng)域技術(shù)人員將是顯而易見的。因此,應(yīng)當理解,本領(lǐng)域技術(shù)人員將能夠設(shè)計出許多技術(shù),雖然這里沒有明確地描述,但是這些技術(shù)體現(xiàn)了所公開主題的原理,因此在精神和范圍內(nèi)。