本發(fā)明屬于生物
技術(shù)領(lǐng)域:
:,具體地說,本發(fā)明涉及建立克服基因功能冗余的全基因組功能缺失篩選方法及其應(yīng)用。
背景技術(shù):
::探索基因及其表達(dá)蛋白質(zhì)在各種生理和病理過程中的作用是生命科學(xué)領(lǐng)域中永恒的研究主題,而高通量的功能缺失篩選成為了最強(qiáng)有力的研究工具之一。隨著科學(xué)技術(shù)的發(fā)展,功能缺失篩選從早期的基于誘導(dǎo)dna突變的篩選進(jìn)入到最近10幾年來興起的大規(guī)模全基因組rna干擾篩選時(shí)代。rna干擾技術(shù)原理是利用小rna片段靶向目的基因序列而沉默基因表達(dá)的[1]。目前rna干擾(rnainterference,rnai)文庫被廣泛應(yīng)用于功能缺失型基因篩選[2-4]。這種文庫主要分為sirna和shrna兩類,二者的原理都是通過rna干擾降低目的基因的表達(dá)來引起表型改變。sirna為人工合成的短rna片段,能在微孔培養(yǎng)板中進(jìn)行彼此獨(dú)立的表型篩選,配合高通量液體工作站等自動(dòng)化機(jī)器,能穩(wěn)定快速簡便地獲取目標(biāo)信號(hào)或者圖像等表型信息,因而被廣泛應(yīng)用。shrna則是通過構(gòu)建到慢病毒等表達(dá)載體上,通過病毒侵染方式進(jìn)行混合型文庫篩選,再通過微陣列芯片或者深度測(cè)序技術(shù)對(duì)篩選后富集的shrna進(jìn)行分析。混合型shrna文庫篩選具有簡便、經(jīng)濟(jì)等特點(diǎn),但是觀察表型僅局限于細(xì)胞生長。最近,規(guī)律間隔成簇短回文重復(fù)序列(clusteredregularlyinterspacedpalindromicrepeats,crispr-cas9)這一強(qiáng)大的基因編輯工具,如風(fēng)暴一般席卷了整個(gè)基因組工程領(lǐng)域,它是利用特異靶向目的基因的grna指導(dǎo)cas9蛋白切割特定的目的dna序列,從而起到基因編輯的作用[5,6]。并且,和shrna相似的混合型grna文庫篩選也已經(jīng)應(yīng)用于生物研究[7-10]。相信隨著科學(xué)技術(shù)的進(jìn)步,在不久的將來,shrna和grna文庫也能結(jié)合高通量自動(dòng)化儀器進(jìn)行多樣化的表型篩選。綜上所述的功能缺失篩選都面臨一個(gè)共同問題,即基因功能冗余所導(dǎo)致的假陰性表型。而事實(shí)上,基因功能冗余在基因組中又是一個(gè)非常普遍的現(xiàn)象。因?yàn)樵谶M(jìn)化過程中,功能冗余是生物體為了克服突變等功能缺失而衍生出的一種保護(hù)機(jī)制[11-13]。但是在功能缺失篩選中,功能冗余卻會(huì)帶來很大的干擾。因?yàn)榛蜷g存在的代償效應(yīng),往往使得沉默單個(gè)基因觀察不到表型的變化。因此本領(lǐng)域中致力于開發(fā)能夠克服基因功能冗余所導(dǎo)致的假陰性問題,高效、準(zhǔn)確的鑒定基因功能的方法。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提供建立克服基因功能冗余的全基因組功能缺失篩選方法。本發(fā)明的第一方面,提供了一種構(gòu)建靶向基因家族的組合sirna文庫的方法,所述方法包括步驟:(1)提供一蛋白組群;(2)根據(jù)所述蛋白組群中的各蛋白序列信息,進(jìn)行基于結(jié)構(gòu)域的多序列比對(duì),把具有相同結(jié)構(gòu)域的蛋白歸為一類,形成蛋白超家族;(3)對(duì)所述蛋白超家族中蛋白種類>n的蛋白超家族進(jìn)行拆分獲得蛋白家族;對(duì)所述蛋白超家族中蛋白種類≤n的蛋白超家族不進(jìn)行拆分,直接歸類為蛋白家族;從而實(shí)現(xiàn)各蛋白家族中家族成員數(shù)均≤n;(4)提供針對(duì)各蛋白家族中各成員的sirna,將針對(duì)同一蛋白家族中各成員的sirna組成sirna集,針對(duì)不同蛋白家族的sirna集構(gòu)成了所述靶向基因家族的組合sirna文庫;其中n為2、3、4、或5。在另一優(yōu)選例中,n為2、或3。在另一優(yōu)選例中,所述蛋白組群包括≥200種蛋白,優(yōu)選地≥500種蛋白,優(yōu)選地≥1000種蛋白,優(yōu)選地≥2000種蛋白,優(yōu)選地≥5000種蛋白。在另一優(yōu)選例中,所述蛋白組群包括同一物種的70%~100%的蛋白種類。在另一優(yōu)選例中,所述物種為哺乳動(dòng)物,優(yōu)選地為鼠、或人。在另一優(yōu)選例中,所述步驟(1)中,所述蛋白組群中的各蛋白均具有對(duì)應(yīng)的天然或非天然sirna(優(yōu)選地,所述天然或非天然sirna為已經(jīng)報(bào)道的)。在另一優(yōu)選例中,所述步驟(2)中,對(duì)于包含多個(gè)結(jié)構(gòu)域的蛋白,經(jīng)基于結(jié)構(gòu)域的多序列比對(duì)后,根據(jù)比對(duì)結(jié)果的統(tǒng)計(jì)顯著性(e-value),留取統(tǒng)計(jì)顯著性最小的結(jié)構(gòu)域,把具有相同的所述統(tǒng)計(jì)顯著性最小的結(jié)構(gòu)域的蛋白歸類到一起,形成所述蛋白超家族。在另一優(yōu)選例中,所述步驟(3)中,對(duì)所述蛋白超家族中蛋白種類>n的蛋白 超家族進(jìn)行拆分獲得蛋白家族的具體步驟包括:(a)對(duì)蛋白質(zhì)超家族中的各個(gè)蛋白進(jìn)行多重序列比對(duì);(b)根據(jù)步驟(a)的比對(duì)結(jié)果構(gòu)建系統(tǒng)發(fā)育樹;(c)基于所述系統(tǒng)發(fā)育樹反應(yīng)出的序列遠(yuǎn)近關(guān)系,將系統(tǒng)樹拆分為蛋白家族,每個(gè)蛋白家族的成員數(shù)≤n。在另一優(yōu)選例中,所述步驟(c)中,使用標(biāo)號(hào)算法將系統(tǒng)樹拆分為較小的蛋白家族,具體步驟包括:1)初始化標(biāo)號(hào):對(duì)系統(tǒng)樹的每個(gè)節(jié)點(diǎn),用group標(biāo)號(hào)標(biāo)記該節(jié)點(diǎn)已歸類入的蛋白家族號(hào);將初始所有節(jié)點(diǎn)的group標(biāo)號(hào)均設(shè)為0;2)葉節(jié)點(diǎn)標(biāo)號(hào):遍歷每個(gè)葉節(jié)點(diǎn),如果該葉節(jié)點(diǎn)已經(jīng)歸類,則跳過;如果該葉節(jié)點(diǎn)還未歸類,則取得該葉節(jié)點(diǎn)的直接祖先節(jié)點(diǎn);根據(jù)直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)是否是葉節(jié)點(diǎn),又分為兩種情況:2.1)如果該直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)也是一個(gè)葉節(jié)點(diǎn),則將這兩個(gè)葉節(jié)點(diǎn)歸到一個(gè)蛋白家族(首先歸類的兩個(gè)成員),將他們和直接祖先的group設(shè)置為同一個(gè)家族號(hào),例如為a;同時(shí),如果該直接祖先不是根節(jié)點(diǎn)則取得它的更上一級(jí)祖先節(jié)點(diǎn),如果該祖先節(jié)點(diǎn)還有一個(gè)直接葉節(jié)點(diǎn),則將該葉節(jié)點(diǎn)作為第三個(gè)成員歸入,將它和二級(jí)祖先節(jié)點(diǎn)的group也設(shè)置為a。2.2)如果該直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)是一個(gè)中間節(jié)點(diǎn)且該中間節(jié)點(diǎn)還未歸類,則跳過;如果該直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)是一個(gè)中間節(jié)點(diǎn)且該中間節(jié)點(diǎn)已經(jīng)歸類,則只將這一個(gè)葉節(jié)點(diǎn)作為第一個(gè)成員,把它和直接祖先節(jié)點(diǎn)的group設(shè)置為同一個(gè)家族號(hào),例如為b;同時(shí)如果該祖先節(jié)點(diǎn)不是根節(jié)點(diǎn),則再取得該祖先節(jié)點(diǎn)的更上一級(jí)祖先節(jié)點(diǎn);如果更上一級(jí)結(jié)點(diǎn)還有一個(gè)直接葉節(jié)點(diǎn),就將這個(gè)葉節(jié)點(diǎn)作為第二個(gè)成員,把它和二級(jí)祖先節(jié)點(diǎn)的group設(shè)為b;以同樣的方法找更高一級(jí)祖先節(jié)點(diǎn)的直接葉節(jié)點(diǎn)作為第三個(gè)成員,把它和三級(jí)祖先節(jié)點(diǎn)的group也設(shè)為b;3)中間節(jié)點(diǎn)標(biāo)號(hào):檢查經(jīng)過步驟2)后group還未標(biāo)號(hào)的中間節(jié)點(diǎn),如果該節(jié)點(diǎn)存在一個(gè)group為0的子節(jié)點(diǎn),則跳過;如果該節(jié)點(diǎn)的兩個(gè)子節(jié)點(diǎn)的group均不為0,該節(jié)點(diǎn)的group設(shè)置為任意子節(jié)點(diǎn)的group號(hào),表示該節(jié)點(diǎn)的所有下級(jí)節(jié)點(diǎn)均已歸類。4)循環(huán)2)和3)步驟直至所有葉節(jié)點(diǎn)均已歸類。在另一優(yōu)選例中,所述方法還包括步驟(5),將所述sirna文庫作用于生物樣本(包括:微生物、植物或動(dòng)物細(xì)胞、植物或動(dòng)物組織、植物體或動(dòng)物體等),然后檢測(cè)所述生物樣本的表型變化。本發(fā)明的第二方面,提供了一種靶向基因家族的組合sirna文庫,其中,所述組合sirna文庫包括t個(gè)sirna集,所述各sirna集分別包括針對(duì)一蛋白家族的sirna,所述蛋白家族包括m個(gè)蛋白成員,其中m為≤n的正整數(shù),且n為2-5的正整數(shù);其中,所述sirna文庫中sirna集的數(shù)量t≥20;優(yōu)選地≥50;更優(yōu)選地≥100;最優(yōu)選地≥500;如≥1000、≥2000、≥5000;并且所述sirna文庫中至少30%(優(yōu)選地至少40%,更優(yōu)選地至少50%)的sirna集的各自m值為2或3或4。在另一優(yōu)選例中,所述sirna文庫中60-100%,較佳地70-99%,更佳地80-90%的sirna集的各自m值為2或3。在另一優(yōu)選例中,所述蛋白家族通過以下方法歸類:(1)提供一蛋白組群;(2)根據(jù)所述蛋白組群中的各蛋白序列信息,進(jìn)行基于結(jié)構(gòu)域的多序列比對(duì),把具有相同結(jié)構(gòu)域的蛋白歸為一類,形成蛋白超家族;(3)對(duì)所述蛋白超家族中蛋白種類>n的蛋白超家族進(jìn)行拆分獲得蛋白家族;對(duì)所述蛋白超家族中蛋白種類≤n的蛋白超家族不進(jìn)行拆分,直接歸類為蛋白家族;從而實(shí)現(xiàn)各蛋白家族中家族成員數(shù)均≤n。在另一優(yōu)選例中,所述的sirna文庫包括選自下組的一個(gè)或多個(gè)sirna集:(1)針對(duì)vps4a基因的sirna,針對(duì)vps4b基因的sirna,和針對(duì)spg4基因的sirna;(2)針對(duì)bbs4基因的sirna,和針對(duì)st13基因的sirna;(3)針對(duì)dvl3基因的sirna,針對(duì)dvl1基因的sirna,和針對(duì)dvl2基因的sirna;(4)針對(duì)gsk3a基因的sirna,和針對(duì)gsk3b基因的sirna;和(5)針對(duì)fbxw11基因的sirna,和針對(duì)btrc基因的sirna。應(yīng)理解,在本發(fā)明范圍內(nèi)中,本發(fā)明的上述各技術(shù)特征和在下文(如實(shí)施例)中具體描述的各技術(shù)特征之間都可以互相組合,從而構(gòu)成新的或優(yōu)選的技術(shù)方案。限于篇幅,在此不再一一累述。附圖說明圖1顯示了本發(fā)明篩選系統(tǒng)的建立過程。圖2顯示了全基因組sirna文庫的篩選。圖3顯示了根據(jù)本發(fā)明的對(duì)基因進(jìn)行家族分類的流程。圖4顯示了單基因和基因家族篩選結(jié)果。圖5顯示了沉默bbs4/st13家族,vps4a/vps4b/spg4家族影響wnt3a誘導(dǎo)的β-catenin累積。具體實(shí)施方式本發(fā)明人通過廣泛而深入的研究,獲得一種建立克服基因功能冗余的全基因組功能缺失篩選方法,實(shí)驗(yàn)結(jié)果表明,所述方法能夠克服基因功能冗余所導(dǎo)致的假陰性問題,高效、準(zhǔn)確的鑒定出功能基因簇。在描述本發(fā)明之前,應(yīng)當(dāng)理解本發(fā)明不限于所述的具體方法和實(shí)驗(yàn)條件,因?yàn)檫@類方法和條件可以變動(dòng)。還應(yīng)當(dāng)理解本文所用的術(shù)語其目的僅在于描述具體實(shí)施方案,并且不意圖是限制性的,本發(fā)明的范圍將僅由所附的權(quán)利要求書限制。除非另外定義,否則本文中所用的全部技術(shù)與科學(xué)術(shù)語均具有如本發(fā)明所屬領(lǐng)域的普通技術(shù)人員通常理解的相同含義。如本文所用,在提到具體列舉的數(shù)值中使用時(shí),術(shù)語“約”意指該值可以從列舉的值變動(dòng)不多于1%。例如,如本文所用,表述“約100”包括99和101和之間的全部值(例如,99.1、99.2、99.3、99.4等)。雖然在本發(fā)明的實(shí)施或測(cè)試中可以使用與本發(fā)明中所述相似或等價(jià)的任何方法和材料,本文在此處例舉優(yōu)選的方法和材料。具體地,本發(fā)明人根據(jù)基因序列和蛋白質(zhì)功能的相似性建立了一個(gè)全基因組基因家族的sirna組合文庫,借助opera高內(nèi)涵分析系統(tǒng)(該系統(tǒng)購自perkinelmer公司)直觀地對(duì)細(xì)胞核和細(xì)胞質(zhì)中β-catenin進(jìn)行定量分析,對(duì)小鼠全基因組sirna文庫和基于功能基因簇sirna文庫進(jìn)行了高通量篩選。對(duì)比兩個(gè)篩選,本發(fā)明人發(fā)現(xiàn)基于基因家族的sirna組合文庫能排除基因功能冗余所導(dǎo)致假陰性實(shí)驗(yàn)結(jié)果這一干擾,找到了一些影響β-catenin穩(wěn)定性的候選因子。這種新的功能缺失篩選策略同樣適用于其他的功能缺失篩選。功能基因簇沉默基因的功能可能會(huì)被另外功能相似的基因補(bǔ)償,而這些基因往往屬于同一家族,具有類似的功能,本文中將這些基因稱為一個(gè)功能基因簇(基因家族)。針對(duì)功能基因簇的基因沉默,有助于消除基因之間代償效應(yīng),更可能觀察到表型的變化,從而發(fā)現(xiàn)基因(或基因家族)的新功能。本發(fā)明中,將功能基因簇中各個(gè)基因所編碼的蛋白的集合稱為蛋白(超)家族。rna干擾如本文所用,術(shù)語“rnai”(rnainterference,rna干擾)是指在進(jìn)化過程中高度保守的、由雙鏈rna(dsrna)誘發(fā)的、高效特異性降解具有互補(bǔ)配對(duì)序列的rna的現(xiàn)象。由于使用rnai技術(shù)可以特異性關(guān)閉特定基因的表達(dá),所以該技術(shù)已被廣泛用于探索基因功能和傳染性疾病及腫瘤的基因治療等領(lǐng)域。dsrna介導(dǎo)的rnai現(xiàn)象在真菌、果蠅、擬南芥、錐蟲、水螅、渦蟲、斑馬魚等多種真核生物中均有發(fā)現(xiàn),而且在植物中的轉(zhuǎn)錄后基因沉默(posttranscriptionalgenesilencing,ptgs)、共抑制(cosuppression)及rna介導(dǎo)的病毒抗性、真菌的抑制(quelling)現(xiàn)象也均屬于rnai在不同物種的表現(xiàn)形式。如本文所用,術(shù)語“sirna”(smallinterferingrna,sirna)是指一種小rna分子(約21-25個(gè)核苷酸),可由dicer(rna酶ⅲ家族中對(duì)雙鏈rna具有特異性的酶)從其前體(比如dsrna、shrna等)加工而成,也可由化學(xué)方法合成或由其它蛋白加工產(chǎn)生。sirna是sirisc的主要成員,激發(fā)與之序列互補(bǔ)的目標(biāo)rna被迅速切割降解,導(dǎo)致目標(biāo)基因的沉默,因此成為rnai中的關(guān)鍵功能分子。如本文所用,術(shù)語“sirna前體”是指可以在哺乳動(dòng)物細(xì)胞中被加工產(chǎn)生sirna的rna分子,具體地說,是由dicer或其它類似蛋白選擇性加工從而產(chǎn)生成熟的sirna,進(jìn)而實(shí)施rnai。類似地,如本文所用,術(shù)語“表達(dá)盒”是指包含本發(fā)明核酶增強(qiáng)型shrna的編碼序列以及與所述編碼序列操作性相連的啟動(dòng)子和終止信號(hào)的表達(dá)盒,所述表達(dá)盒在轉(zhuǎn)錄后產(chǎn)生本發(fā)明的核酶增強(qiáng)型shrna;而如本文所用,術(shù)語“構(gòu)建物”是包含所述表達(dá)盒的構(gòu)建物。如本文所用,術(shù)語“shrna”是shorthairpinrna的縮寫,即,“短發(fā)夾rna”。shrna包括兩個(gè)短反向互補(bǔ)序列,中間由一頂端環(huán)(loop)序列分隔的,組成發(fā)夾結(jié)構(gòu),通常由細(xì)胞內(nèi)源的rna聚合酶iii(rnapolymeraseiii)啟動(dòng)子控制轉(zhuǎn)錄,shrna序列的末端連接5-6個(gè)t作為rna聚合酶ⅲ的轉(zhuǎn)錄終止子。shrna也可以由其它rna 聚合酶的啟動(dòng)子轉(zhuǎn)錄產(chǎn)生。在活體中產(chǎn)生“小干擾rna”(sirna)的一種辦法是,將sirna序列作為“短發(fā)夾”的一部分克隆進(jìn)質(zhì)粒載體中。當(dāng)送入動(dòng)物體內(nèi)時(shí),該發(fā)夾序列被表達(dá)出來,形成一個(gè)帶有頂端環(huán)結(jié)構(gòu)的“雙鏈rna”(shrna),被細(xì)胞內(nèi)的dicer蛋白所識(shí)別和加工,產(chǎn)生有功能的sirna。rnai篩選策略和wnt/β-catenin信號(hào)通路rnai篩選已經(jīng)被應(yīng)用于經(jīng)典的wnt/β-catenin信號(hào)通路的研究中[14-17]。wnt/β-catenin信號(hào)通路調(diào)控了許多生命過程,包括生物體的生長、發(fā)育、疾病、衰老與死亡等;也包括細(xì)胞形態(tài)與功能的分化與維持、免疫、應(yīng)激、細(xì)胞癌變與細(xì)胞凋亡等[18,19]。在沒有wnt信號(hào)刺激時(shí),以axin和apc為骨架,gsk3,ck1,以及β-trcp等蛋白質(zhì)形成降解復(fù)合物,識(shí)別細(xì)胞質(zhì)中游離的β-catenin。隨后,在ck1和gsk3作用下,對(duì)β-catenin進(jìn)行磷酸化修飾,進(jìn)而在β-trcp介導(dǎo)下進(jìn)行泛素化修飾、降解。在發(fā)育的特定時(shí)間段,某些組織或細(xì)胞群體分泌的wnt蛋白質(zhì),結(jié)合受體frizzled家族成員,和共受體低密度脂蛋白質(zhì)lrp5/6,將信號(hào)傳遞至細(xì)胞內(nèi),降解復(fù)合物的功能被抑制,促使β-catenin在細(xì)胞質(zhì)中大量累積。部分累積的β-catenin進(jìn)入細(xì)胞核,與核內(nèi)的tcf4/lef1家族相互作用,啟動(dòng)下游靶基因的表達(dá)。像其他的生物過程一樣,功能冗余現(xiàn)象也出現(xiàn)于wnt/β-catenin信號(hào)通路中[20-23]。比如說,人類基因組中受體fz家族有10個(gè)成員(fz1-10),受體lrp有2個(gè)成員(lrp5/6),3個(gè)dvl(dvl1-3),2個(gè)gsk3(gsk3α/β),2個(gè)axin(axin1/2)和2個(gè)β-trcp(β-trcp1/2)。材料和方法1.高內(nèi)涵篩選l細(xì)胞(atcc:crl-2648)使用含有10%胎牛血清(gibco)的dmem(invitrogen)培養(yǎng),37℃,co2濃度為5%。小鼠全基因組sirna文庫(dharmacon)用液體工作站(beckmancoulterbiomekfx)取10μl(濃度為100nm)預(yù)先加入到384孔板。實(shí)驗(yàn)時(shí)用multidrop微孔板分液器(thermofisher)加入10μl1:100稀釋于opti-mem的轉(zhuǎn)染試劑rnaimax,室溫放置20分鐘,加入l細(xì)胞懸液30μl,在細(xì)胞培養(yǎng)箱培養(yǎng)48-72小時(shí)后取出,加入純化的wnt3a(純化流程參照http://web.stanford.edu/group/nusselab/cgi-bin/wnt/purification)刺激2小時(shí)后加入16%的多聚甲醛固定15分鐘(多聚甲醛終濃度為4%,alfaaesar,30525894))。固定好的細(xì)胞用微孔板洗板機(jī)(bioteckelx405),pbst(pbsand0.1%triton-x100)清洗,并通透20分鐘,再用β-catenin的抗體(bd,610154)1:10004℃過夜孵育。微孔板洗板機(jī)(bioteckelx405)清洗后加入cy3熒光標(biāo)記的二抗(jackson,115-165-062)和dapi(sigma,d9542),1小時(shí)后用微孔板洗板機(jī)清洗后,利用operalx的20x–air-lucplfln物鏡(na=0.45,perkinelmer)對(duì)β-catenin免疫染色共聚焦成像并用acapella軟件分析圖像并進(jìn)行定量。ctrlsirna和lrp6、apc、bbs4,、st13、vps4a、vps4b和spg4sirna都購買于dharmacon(d-001220、m-040651、m-043292、m-054691、m-056945、m-046156、m-044487、m-058588),靶向5’-accaugcagaauacaaaugau-3’(seqidno.15)的β-cateninsirna合成于genepharma。2.生物信息學(xué)分析篩選數(shù)據(jù)實(shí)驗(yàn)產(chǎn)生的高內(nèi)涵篩選數(shù)據(jù)基于bioconductor的r軟件包operamate[24],完成標(biāo)準(zhǔn)的處理流程,包含b-分?jǐn)?shù)正規(guī)化(bscorenormalization)[25]和質(zhì)量控制兩部分。其中質(zhì)量控制采用自助抽樣法(bootstrappingmethod)構(gòu)建β-catenin水平在重復(fù)實(shí)驗(yàn)中的平均值和標(biāo)準(zhǔn)差比值的經(jīng)驗(yàn)分布,并以此剔除標(biāo)準(zhǔn)差相對(duì)均值顯著偏大的實(shí)驗(yàn)(p-value<0.05)。而后,基于多重t檢驗(yàn)和t分?jǐn)?shù)法篩選顯著變化的候選因子。多重t檢驗(yàn)主要對(duì)照β-catenin水平在處理組和對(duì)照組的區(qū)別,其產(chǎn)生的p值通過錯(cuò)誤發(fā)現(xiàn)率(falsediscoveryrate)方法[26]進(jìn)行校正。t分?jǐn)?shù)法則僅考慮處理組β-catenin水平,用偏態(tài)t分布(skewtdistribution)模擬該水平特征,從而建立t分?jǐn)?shù)指標(biāo)(t-score)。選用偏態(tài)t分布的主要原因是蛋白質(zhì)數(shù)據(jù)多為不對(duì)稱并具有較重尾部的數(shù)據(jù),而這正符合該分布的特征[27]。同時(shí),qq圖顯示,本發(fā)明人的數(shù)據(jù)的確可以通過偏態(tài)t分布進(jìn)行很好的擬合[28]。t分?jǐn)?shù)指標(biāo)定義為2*(1-cdf(|ts-1|+1)),其中ts是檢驗(yàn)統(tǒng)計(jì)量,cdf是擬合的偏態(tài)t分布的累積分布函數(shù)。在實(shí)驗(yàn)中,本發(fā)明人選取t-core<0.1作為顯著變化候選因子的篩選標(biāo)準(zhǔn)。3.westernblot,rt-pcr和定量實(shí)時(shí)pcr(quantitativereal-timepcr)對(duì)于westernblot實(shí)驗(yàn),2×sdsloadingbuffer裂解l細(xì)胞并100℃煮10分鐘。β-catenin和β-tubulin抗體分別來源于bdtransduction laboratories,610154,和cellsignalingtechnology,2146。對(duì)于反轉(zhuǎn)錄實(shí)驗(yàn),l細(xì)胞直接用trizol(invitrogen)裂解,總rna用酚氯仿抽提后以oligo(dt)為引物,用superscripttmiiifirststrandsythesissystem(invitrogen)試劑盒反轉(zhuǎn)錄制備cdna文庫。cdna適當(dāng)稀釋后,使用quantitativesybrgreenpcrkit(takarasybrpremixextaq)試劑盒配制實(shí)時(shí)定量pcr反應(yīng)體系。實(shí)時(shí)定量pcr反應(yīng)使用的儀器是abi7500fastreal-timepcrsystem(appliedbiosystems)。實(shí)驗(yàn)中使用的定量pcr引物序列如下:gapdh引物為5'-gcctgcttcaccaccttc-3'(seqidno.1)和5'-caaggtcatccatgacaact-3'(seqidno.2);ctnnb1引物為5'-tgcagttcgccttcactatg-3'(seqidno.3)和5'-actagtcgtggaatggcacc-3'(seqidno.4);bbs4引物為5'-tgaaaactcaggttcctgcatc-3'(seqidno.5)和5'-ccttccaggcgaaaaatcagtg-3'(seqidno.6);st13引物為5'-tcgggccttcgtgaagatg-3'(seqidno.7)和5'-gtagcaggtggtactttcccc-3'(seqidno.8);vps4a引物為5'-acggtggaatgatgtagctgg-3'(seqidno.9)和5'-ccaaagaggagtatgcctcgc-3'(seqidno.10);vps4b引物為5'-cacaaggtgataaagccaagca-3'(seqidno.11)和5'-ggtcgctctataacaatggcac-3'(seqidno.12);spast引物為5'-aacctgacatgccgcaatg-3'(seqidno.13)和5'-ggacagtttttgatcgaggcaat-3'(seqidno.14)。本發(fā)明的主要優(yōu)點(diǎn)在于:(1)本發(fā)明提供的全基因組功能缺失篩選方法,能夠克服基因功能冗余所導(dǎo)致的假陰性問題;(2)本發(fā)明提供的全基因組功能缺失篩選方法,能夠高效、準(zhǔn)確的鑒定出功能基因簇;(3)本發(fā)明提供的全基因組功能缺失篩選方法,能夠減少全基因組基因沉默功能篩選的工作量。下面結(jié)合具體實(shí)施例,進(jìn)一步詳陳本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說 明本發(fā)明而不用于限制本發(fā)明的范圍。下列實(shí)施例中未注明詳細(xì)條件的實(shí)驗(yàn)方法,通常按照常規(guī)條件如美國sambrook.j等著《分子克隆實(shí)驗(yàn)室指南》(黃培堂等譯,北京:科學(xué)出版社,2002年)中所述的條件,或按照制造廠商所建議的條件。除非另外說明,否則百分比和份數(shù)按重量計(jì)算。以下實(shí)施例中所用的實(shí)驗(yàn)材料和試劑如無特別說明均可從市售渠道獲得。本文中所涉及的計(jì)算機(jī)程序,如無特別說明,均為開源程序或者本領(lǐng)域技術(shù)人員可以從公開的渠道獲得該程序。實(shí)施例1.篩選系統(tǒng)的建立opera高內(nèi)涵篩選系統(tǒng)能精確直觀地檢測(cè)免疫染色的樣品,因而本發(fā)明人利用這個(gè)系統(tǒng)來檢測(cè)細(xì)胞核和細(xì)胞質(zhì)中β-catenin的分布并進(jìn)行定量。根據(jù)細(xì)胞的貼壁性,形態(tài),對(duì)wnt3a信號(hào)的響應(yīng)情況,本發(fā)明人在測(cè)試的多種細(xì)胞中選了小鼠的l細(xì)胞用于篩選。在本發(fā)明的實(shí)驗(yàn)系統(tǒng)中,小鼠l細(xì)胞在wnt3a刺激下,β-catenin在細(xì)胞質(zhì)中累積,并進(jìn)入細(xì)胞核中,如(圖1,a)所示。細(xì)胞核區(qū)域根據(jù)dapi染色由機(jī)器進(jìn)行識(shí)別,胞漿區(qū)域定義為細(xì)胞核周圍依照核的形狀圈定的帶狀區(qū)域,如(圖1,b)所示。這樣,細(xì)胞核與細(xì)胞質(zhì)中的β-catenin水平就能根據(jù)相應(yīng)的區(qū)域定量出的平均熒光強(qiáng)度得到,每個(gè)孔核質(zhì)的定量是隨機(jī)取的4個(gè)視野中所有細(xì)胞核質(zhì)的平均熒光強(qiáng)度。本發(fā)明中把β-catenin水平定義為細(xì)胞核和細(xì)胞質(zhì)的平均熒光值。本發(fā)明的實(shí)驗(yàn)結(jié)果顯示,敲低β-catenin觀察到了染色強(qiáng)度極大地減少,這驗(yàn)證了熒光信號(hào)是特異性地來源于β-catenin蛋白質(zhì)。同時(shí),敲低apc可以極大地穩(wěn)定β-catenin,而當(dāng)敲低lrp6時(shí),wnt3a穩(wěn)定的β-catenin則減少,以此也很好地驗(yàn)證了本發(fā)明系統(tǒng)中穩(wěn)定的β-catenin是由wnt3a刺激引起的,如(圖1,c)所示。在進(jìn)行sirna文庫篩選前,進(jìn)行了384孔板整板均一性驗(yàn)證,利用sirnabuffer代替sirna,按照篩庫的標(biāo)準(zhǔn)實(shí)驗(yàn)流程進(jìn)行實(shí)驗(yàn),觀察相同處理的各孔間是否有很好的均一性,同時(shí)計(jì)算整塊板的z值。實(shí)驗(yàn)結(jié)果如(圖1,d)所示。根據(jù)zhang等[29]的報(bào)道,z值介于0-1之間符合篩庫的條件,而本發(fā)明人實(shí)驗(yàn)的細(xì)胞核和細(xì)胞質(zhì)的z值分別為0.61和0.63,均大于0.5,很好地達(dá)到了篩庫的要求。圖1顯示了本發(fā)明篩選系統(tǒng)的建立過程。a:免疫染色檢測(cè)β-catenin水平。l細(xì)胞在wnt3a刺激2小時(shí)或不刺激條件下,β-catenin和dapi染色結(jié)果圖,圖像由operalxsystem捕捉。b:細(xì)胞核和細(xì)胞質(zhì)定量區(qū)域的界定。細(xì)胞核區(qū)域根據(jù)dapi染色由機(jī)器acapella軟件進(jìn)行識(shí)別,核區(qū)域?yàn)?至infnity(即核的邊界到核中心);胞漿區(qū)域定義為細(xì)胞核周圍依照核的形狀圈定的帶狀區(qū)域,胞漿區(qū)域?yàn)?3至-8(即核外第三個(gè)像素至第八個(gè)像素)。c:敲低apc,lrp6和β-catenin,在wnt3a刺激或不刺激條件下,觀察到β-catenin水平相應(yīng)的變化。d:整板篩選均一性驗(yàn)證,利用sirnabuffer代替sirna按照標(biāo)準(zhǔn)篩選流程進(jìn)行實(shí)驗(yàn),用每個(gè)孔的編號(hào)(橫坐標(biāo))和細(xì)胞核或細(xì)胞質(zhì)的β-catenin平均熒光強(qiáng)度(縱坐標(biāo))進(jìn)行作圖,觀察整板均一性,同時(shí)計(jì)算整塊板的z值。實(shí)施例2.全基因組單基因sirna文庫篩選接下來,本發(fā)明人利用建立好的opera高內(nèi)涵篩選系統(tǒng)進(jìn)行篩選。分別敲低小鼠全基因組19059個(gè)基因,免疫染色檢測(cè)wnt3a誘導(dǎo)細(xì)胞核和細(xì)胞質(zhì)中β-catenin的變化,獨(dú)立進(jìn)行了三次生物學(xué)重復(fù)篩選。并對(duì)篩選后得到的數(shù)據(jù)利用bioconductorbioinformaticspackage,operamate[24]進(jìn)行均一化處理及分析,篩選流程及數(shù)據(jù)處理示意圖如(圖2,a)所示。篩選大數(shù)據(jù)β-catenin水平的分布呈t分布,本發(fā)明人根據(jù)t分布的規(guī)律,以及處理組與對(duì)照組兩組數(shù)據(jù)間p-value設(shè)定了具有變化顯著的閾值:t-score<0.1和p-value<0.05,詳細(xì)見實(shí)驗(yàn)方法。本發(fā)明人在這批篩選數(shù)據(jù)中,確實(shí)發(fā)現(xiàn)了很多已經(jīng)報(bào)道的wnt信號(hào)通路的調(diào)控子,部分列于表1,然而,與此同時(shí)本發(fā)明人也發(fā)現(xiàn),敲低wnt信號(hào)通路關(guān)鍵的成員dvl,β-trcp,和gsk3等并沒有看到相應(yīng)的β-catenin變化。根據(jù)已有的報(bào)道,發(fā)現(xiàn)wnt信號(hào)通路中存在很多基因功能冗余的現(xiàn)象,因而,本發(fā)明人推斷本發(fā)明人篩選數(shù)據(jù)中出現(xiàn)的這些陰性結(jié)果是由于基因功能冗余導(dǎo)致的。事實(shí)上,當(dāng)本發(fā)明人同時(shí)敲低dvl1/2/3這個(gè)家族時(shí),才能觀察到wnt3a誘導(dǎo)的細(xì)胞核和胞漿中β-catenin水平的下降,而單獨(dú)敲低任何一個(gè),都看不到明顯的變化,如(圖2,b)所示,類似的現(xiàn)象同時(shí)也在β-trcp1/2這個(gè)家族中呈現(xiàn),如(圖2,c)所示。所以,對(duì)功能基因簇的基因進(jìn)行沉默,有助于消除基因之間代償效應(yīng),更可能觀察到表型的變化。圖2顯示了全基因組sirna文庫的篩選。a:篩選流程及數(shù)據(jù)處理示意圖。b,c:功能基因簇sirna組合敲低效應(yīng)驗(yàn)證。b,dvl家族的敲低能抑制wnt3a誘導(dǎo)的β-catenin水平,但是單獨(dú)敲低任何一個(gè)dvl1/2/3觀察不到明顯的變化。c,β-trcp1/2家族敲低能累積β-catenin,但是單基因的敲低觀察不到明顯的變化。表1全基因組單基因sirna文庫篩選實(shí)施例3.基因家族組合sirna文庫的建立為了解決功能缺失篩選中基因功能冗余所造成的假陰性這個(gè)問題,本發(fā)明人決定建立一個(gè)靶向基因家族的sirna文庫。本發(fā)明人所購買的來自于dharmacon的小鼠全基因組sirna文庫中,每個(gè)基因都是針對(duì)目的基因不同靶序列的4條sirna的組合(購買的文庫中4條sirna都是針對(duì)一個(gè)基因的,只是針對(duì)這個(gè)基因上不同靶向序列,以確保敲低效率,而本發(fā)明的文庫是針對(duì)不同靶基因的),因而當(dāng)本發(fā)明人要進(jìn)行功能基因簇sirna組合敲低一個(gè)基因家族表達(dá)水平的時(shí)候,是多條混合的sirna。比如像dvl這樣的基因家族由dvl1、dvl2和dvl3組成,β-trcp家族由β-trcp1和β-trcp2組成。在本發(fā)明人的系統(tǒng)中,這樣的sirna組合并不會(huì)影響單個(gè)基因的敲低效率,于是本發(fā)明人設(shè)定一個(gè)基因家族最多含有3個(gè)基因成員(在本發(fā)明的系統(tǒng)中,通過dvl基因家族驗(yàn)證3個(gè)基因的sirna組合并不會(huì)影響單個(gè)基因的敲低效率,所以設(shè)定一個(gè)基因家族最多含有3個(gè)基因成員)。由于當(dāng)前并沒有本發(fā)明人所定義的這種基因家族數(shù)據(jù)庫,于是,本發(fā)明人根據(jù)蛋白質(zhì)功能和基因序列的相似性開發(fā)了一個(gè)計(jì)算分析流程對(duì)基因進(jìn)行家族分類。這個(gè)流程的大概思路如(圖3,a)所示。首先,利用pfam[30]對(duì)來自genbank[31]的蛋白質(zhì)序列進(jìn)行解析,根據(jù)功能相 關(guān)性等因素對(duì)基因進(jìn)行家族分類,把基因歸類為超家族,每個(gè)超家族都有共同的結(jié)構(gòu)域。然后,再分別對(duì)每一個(gè)超家族根據(jù)蛋白質(zhì)序列的相似性進(jìn)行序列聯(lián)配和構(gòu)建進(jìn)化樹[32]。最后,利用進(jìn)化樹反映出的序列相似性關(guān)系,將大的超家族劃分為小的家族,每個(gè)家族的成員數(shù)至多為3個(gè)。(圖3,b)所示就是一個(gè)基于激酶超家族的進(jìn)化樹,將其拆分為成員數(shù)至多為3的的家族的例子。這個(gè)流程的步驟可詳述如下:第一步,獲取dharmaconmousegenomesirnalibrary中每條sirna對(duì)應(yīng)的靶基因的蛋白序列。方法是,對(duì)于給定的靶基因gi號(hào),通過ncbi的e-utilities接口(http://www.ncbi.nlm.nih.gov/books/nbk25500)下載相應(yīng)的基因信息(xml格式)。e-utilities允許以http協(xié)議批量查詢和下載數(shù)據(jù)。然后,解析得到的xml文件,從其中的<iupacaa>字段中提取相應(yīng)的蛋白質(zhì)序列。第二步,將蛋白質(zhì)序列批量提交到pfam網(wǎng)站(http://pfam.xfam.org/search)上進(jìn)行結(jié)構(gòu)域的注釋。pfam數(shù)據(jù)庫是一個(gè)蛋白質(zhì)家族大集合,基于結(jié)構(gòu)域的多序列比對(duì)和隱馬爾可夫模型來構(gòu)建。pfam網(wǎng)站返回的結(jié)果包括蛋白質(zhì)上比對(duì)到的所有結(jié)構(gòu)域的列表和其統(tǒng)計(jì)顯著性(e-value)。采用閾值(1e-4)對(duì)列表進(jìn)行過濾,只保留具有統(tǒng)計(jì)顯著性的結(jié)構(gòu)域。對(duì)于包含多個(gè)結(jié)構(gòu)域的蛋白質(zhì),本發(fā)明人只取e-value最小的的結(jié)構(gòu)域,因?yàn)樵摻Y(jié)構(gòu)域的特征最為顯著。最后,把具有相同結(jié)構(gòu)域的蛋白質(zhì)序列歸類到一起,形成蛋白質(zhì)超家族(fasta格式)。第三步,一個(gè)蛋白質(zhì)超家族的成員數(shù)往往大于3,所以需要對(duì)這些大的家族進(jìn)行拆分。為此,本發(fā)明人先調(diào)用clustalw程序(http://www.clustal.org/)對(duì)每一個(gè)蛋白質(zhì)超家族進(jìn)行多重序列比對(duì)(參數(shù)默認(rèn))。clustalw是一種漸進(jìn)的多序列比對(duì)方法,先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對(duì)關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止。比對(duì)好的蛋白質(zhì)序列以clustal格式保存。第四步,對(duì)成員數(shù)大于3的蛋白質(zhì)超家族,利用bioperl軟件包(http://www.bioperl.org/wiki/main_page)中的相關(guān)模塊構(gòu)建系統(tǒng)發(fā)育樹。首先,用bio::alignio模塊讀入clustal格式的序列比對(duì)。其次,用 bio::align::proteinstatistics模塊計(jì)算兩兩序列間的距離,采用kimura方法來近似pam距離。在一些情況下,兩個(gè)分歧較遠(yuǎn)的蛋白質(zhì)可能沒有公共區(qū)域能比對(duì)上,本發(fā)明人將他們之間的距離設(shè)置為1。最后,基于距離矩陣用bio::tree::distancefactory模塊構(gòu)建系統(tǒng)發(fā)育樹,構(gòu)樹方法選擇為非加權(quán)組平均法(upgma)。upgma是一種較常用的聚類分析方法,可以得到有根樹。得到的樹用bio::treeio模塊保存為newick格式。第五步,基于系統(tǒng)發(fā)育樹反應(yīng)出的序列遠(yuǎn)近關(guān)系,將整個(gè)系統(tǒng)樹拆分為較小的家族,每個(gè)家族的成員數(shù)不超過3。本發(fā)明人構(gòu)建了一種標(biāo)號(hào)算法來實(shí)現(xiàn)這一目的,該算法的輸入為結(jié)點(diǎn)數(shù)大于3的有根樹,輸出為每一個(gè)家族的基因成員列表。算法調(diào)用了bio::tree::node模塊的相關(guān)函數(shù)對(duì)樹進(jìn)行操作,步驟祥述如下:1)初始化標(biāo)號(hào):對(duì)每個(gè)節(jié)點(diǎn),用group標(biāo)號(hào)標(biāo)記該節(jié)點(diǎn)已歸類入的家族號(hào)。由于初始所有節(jié)點(diǎn)都未歸類,group均設(shè)為0。2)葉節(jié)點(diǎn)標(biāo)號(hào):遍歷每個(gè)葉節(jié)點(diǎn),如果該葉節(jié)點(diǎn)已經(jīng)歸類(grouped?。?),則跳過。如果該葉節(jié)點(diǎn)還未歸類(grouped=0),則取得該葉節(jié)點(diǎn)的直接祖先節(jié)點(diǎn)。根據(jù)直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)是否是葉節(jié)點(diǎn),又分為兩種情況:2.1)如果該直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)也是一個(gè)葉節(jié)點(diǎn),則將這兩個(gè)葉節(jié)點(diǎn)歸到一個(gè)家族(首先歸類的兩個(gè)成員),將他們和直接祖先的group設(shè)置為同一個(gè)家族號(hào)(例如為a);同時(shí),如果該直接祖先不是根節(jié)點(diǎn)則取得它的更上一級(jí)祖先節(jié)點(diǎn),如果該祖先節(jié)點(diǎn)還有一個(gè)直接葉節(jié)點(diǎn),則將該葉節(jié)點(diǎn)作為第三個(gè)成員歸入,將它和二級(jí)祖先節(jié)點(diǎn)的group也設(shè)置為a。2.2)如果該直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)是一個(gè)中間節(jié)點(diǎn)且該中間節(jié)點(diǎn)還未歸類,跳過。如果該直接祖先節(jié)點(diǎn)的另一個(gè)子節(jié)點(diǎn)是一個(gè)中間節(jié)點(diǎn)且該中間節(jié)點(diǎn)已經(jīng)歸類,則只將這一個(gè)葉節(jié)點(diǎn)作為第一個(gè)成員,把它和直接祖先節(jié)點(diǎn)的group設(shè)置為同一個(gè)家族號(hào)(例如為b);同時(shí)如果該祖先節(jié)點(diǎn)不是根節(jié)點(diǎn),則再取得該祖先節(jié)點(diǎn)的更上一級(jí)祖先節(jié)點(diǎn);如果更上一級(jí)結(jié)點(diǎn)還有一個(gè)直接葉節(jié)點(diǎn),就將這個(gè)葉節(jié)點(diǎn)作為第二個(gè)成員,把它和二級(jí)祖先節(jié)點(diǎn)的group設(shè)為b;以同樣的方法可以找更高一級(jí)祖先節(jié)點(diǎn)的 直接葉節(jié)點(diǎn)作為第三個(gè)成員,把它和三級(jí)祖先節(jié)點(diǎn)的group也設(shè)為b。3)中間節(jié)點(diǎn)標(biāo)號(hào):檢查經(jīng)過步驟2)后group還未標(biāo)號(hào)的中間節(jié)點(diǎn),如果該節(jié)點(diǎn)存在一個(gè)group為0的子節(jié)點(diǎn),跳過。如果該節(jié)點(diǎn)的兩個(gè)子節(jié)點(diǎn)的group均不為0,該節(jié)點(diǎn)的group設(shè)置為任意子節(jié)點(diǎn)的group號(hào),表示該節(jié)點(diǎn)的所有下級(jí)節(jié)點(diǎn)均已歸類。4)循環(huán)2)和3)步驟直至所有葉節(jié)點(diǎn)均已歸類。本發(fā)明人通過這些分析計(jì)算,建立了一個(gè)較全面的功能基因簇圖譜,如(圖3,c)統(tǒng)計(jì)了超家族包含的家族的基因數(shù)。總體上,本發(fā)明人把小鼠全基因組19059個(gè)基因分成了5850個(gè)基因家族和4779個(gè)單基因。其中,三個(gè)基因和兩個(gè)基因組成的基因家族分別占41%和34%。本發(fā)明人的基因家族sirna文庫是由beckman液體工作站在無菌的條件下,利用cherry-picking和pooling等程序?qū)harmaconmousegenomesirnalibrary進(jìn)行組合,耗時(shí)三個(gè)星期完成的。圖3,基因家族sirna組合文庫的建立a:基因家族分類流程示意圖,首先,根據(jù)蛋白質(zhì)的注釋將基因分成超家族,紅、綠、黃表示不同的結(jié)構(gòu)域,再分別對(duì)每一個(gè)超家族進(jìn)行序列聯(lián)配和構(gòu)建進(jìn)化樹進(jìn)行進(jìn)一步的細(xì)化分類。b:gsk3α/β所在的激酶家族分類舉例。c:小鼠全基因組基因家族分類統(tǒng)計(jì)圖。實(shí)施例4.基因家族sirna文庫篩選本發(fā)明人利用基因家族sirna文庫進(jìn)行了篩選,同樣進(jìn)行了獨(dú)立的三次生物學(xué)重復(fù),篩選結(jié)果處理和單基因篩選一樣。并且,本發(fā)明人使用和單基因篩選一樣的閾值t-score<0.1和p-value<0.05,即符合β-catenin變化強(qiáng)度和統(tǒng)計(jì)學(xué)上顯著這兩個(gè)標(biāo)準(zhǔn)找到了一些陽性候選因子,如圖4,a單基因和基因家族篩選散點(diǎn)火山圖紅色標(biāo)記點(diǎn)所示。從圖上可以看出,敲低wnt/β-catenin信號(hào)通路關(guān)鍵成員的家族,β-trcp1/2、dvl1/2/3、gsk3α/β,在基因家族篩選中都能顯著影響β-catenin水平,而在單基因篩選中并未呈現(xiàn)出明顯的變化。本發(fā)明人對(duì)單基因和基因家族篩選數(shù)據(jù)進(jìn)行了整合分析,如(圖4,b)所示,具體來說,是把基因家族篩選數(shù)據(jù)中具有統(tǒng)計(jì)學(xué)意義變化的 候選家族與單基因篩選的結(jié)果進(jìn)行比較,并把這些家族歸為三大類:至少有一個(gè)單基因具有顯著變化;至少有一個(gè)單基因變化,但變化程度弱;單基因成員不變。從(圖4,b)中可以看出,大部分基因家族的變化都是由家族中至少有一個(gè)單基因成員的變化所引起的,這也暗示兩次篩選數(shù)據(jù)的一致性很高。其中,本發(fā)明人對(duì)后兩類數(shù)據(jù)更感興趣,因?yàn)?,這類候選因子很有可能是單基因篩選中的假陰性因子。本發(fā)明人分別把單基因篩選和基因家族篩選中β-catenin水平變化顯著的基因進(jìn)行功能分析,發(fā)現(xiàn)基因家族篩選更能富集wnt信號(hào)通路以及腫瘤相關(guān)的信號(hào)通路因子,如(圖4,c)所示。以上對(duì)這些數(shù)據(jù)的分析都很好地顯現(xiàn)了本發(fā)明人基因家族篩選策略的優(yōu)勢(shì)。圖4,單基因和基因家族sirna文庫篩選對(duì)比分析a:單基因和基因家族篩選結(jié)果散點(diǎn)火山圖。以log2(β-cateninintensity)為橫坐標(biāo),-log10(p-value)為縱坐標(biāo),其中p-value是根據(jù)處理組和對(duì)照組的三次實(shí)驗(yàn)計(jì)算出,紅色標(biāo)記是符合變化強(qiáng)度(t-score<0.1)和統(tǒng)計(jì)學(xué)上顯著(p-value<0.05)這兩個(gè)標(biāo)準(zhǔn)的候選因子。一些wnt信號(hào)通路中關(guān)鍵的成員用黃色背景標(biāo)記出。b:單基因和基因家族篩選整合分析餅圖。第一組:至少有一個(gè)單基因具有顯著變化(inhibitiont-score<0.1,promotiont-score<0.2);第二組:至少有一個(gè)單基因變化,但變化程度弱(inhibitiont-score<0.2,promotiont-score<0.3);第三組:單基因成員不變。c:信號(hào)通路富集分析。利用david功能注釋軟件[33]對(duì)單基因篩選及基因家族篩選候選因子進(jìn)行kegg和biocarta信號(hào)通路分析。下表2中列出了部分通過上述的基因家族sirna文庫篩選獲得的基因家族sirna文庫。表2基因家族sirna文庫篩選經(jīng)過進(jìn)一步地驗(yàn)證,針對(duì)上述各蛋白家族(基因家族)中每個(gè)成員的單一sirna抑制均無法觀察到功能的變化,而在同時(shí)抑制該蛋白家族則可以觀察到 明顯的功能變化。實(shí)施例5.進(jìn)一步驗(yàn)證基因家族篩選中的兩個(gè)候選家族本發(fā)明人挑選了兩個(gè)家族,bbs4/st13家族和vps4a/vps4b/spg4家族進(jìn)一步驗(yàn)證,這兩個(gè)家族均屬于單基因成員不變而基因家族變化(即,敲低家族中的單基因并不影響該基因家族的該功能,而只有同時(shí)敲除整個(gè)基因家族成員,才能觀察到功能上的變化)的這一類候選家族因子。本發(fā)明人利用opera重現(xiàn)了兩次篩選的現(xiàn)象,如圖(圖5,ab)所示,并用westernblot實(shí)驗(yàn)驗(yàn)證了opera實(shí)驗(yàn)系統(tǒng)如圖(圖5,cd)所示,確實(shí)這兩個(gè)家族必須要同時(shí)敲低家族成員,才能看到相應(yīng)的β-catenin水平的變化,單個(gè)無顯著變化。另外,本發(fā)明人對(duì)這兩個(gè)家族的sirna進(jìn)行了敲低效率驗(yàn)證,同時(shí)發(fā)現(xiàn)它們不影響β-catenin的mrna水平,如(圖5,e)所示。圖5,沉默bbs4/st13家族,vps4a/vps4b/spg4家族影響wnt3a誘導(dǎo)的β-catenin累積l細(xì)胞分別轉(zhuǎn)染圖示中各單基因sirna或者基因家族sirna,利用免疫染色opera實(shí)驗(yàn)系統(tǒng)(a,b)或者westernblot實(shí)驗(yàn)(c,d)檢測(cè)在wnt3a刺激2小時(shí)或不刺激的條件下,β-catenin的水平。各處理組sirna的敲低效率及β-catenin的mrna水平如圖e所示??偨Y(jié)與討論(1)在本發(fā)明中,本發(fā)明人建立了一個(gè)克服基因功能冗余的全基因組功能缺失篩選方法,以檢測(cè)wnt3a誘導(dǎo)的β-catenin蛋白質(zhì)的穩(wěn)定性為出發(fā)點(diǎn),通過對(duì)比分析小鼠全基因組單基因sirna文庫和基因家族sirna文庫的篩選結(jié)果,證明了相比于常規(guī)的單基因sirna文庫,基于基因家族sirna組合文庫的篩選能排除同一家族基因間的代償效應(yīng)所導(dǎo)致的假陰性實(shí)驗(yàn)結(jié)果這一干擾。這種新的功能缺失篩選策略同樣適用于其他的功能缺失篩選。(2)對(duì)單基因和基因家族篩選數(shù)據(jù)進(jìn)行整合分析,本發(fā)明人對(duì)常規(guī)單基因sirna文庫篩選可能忽略的,單基因成員都不變而基因家族變化的這一類候選基因較感興趣。本發(fā)明人對(duì)這類數(shù)據(jù)中的bbs4/st13和vps4a/vps4b/spg4這兩個(gè)家族進(jìn)行了進(jìn)一步驗(yàn)證。bbs4主要功能是參與纖毛的形成,和它具有類似序列和功能的bbs6/10/12[34-36]被報(bào)道可以發(fā)揮分子伴侶的功能影響蛋白質(zhì)的 折疊,而bbs4目前為止,無相關(guān)功能報(bào)道。有趣的是,st13是一個(gè)已報(bào)道的分子伴侶[37],所以本發(fā)明人的篩選結(jié)果就提示bbs4也可能具有分子伴侶功能,但是他的分子伴侶功能和st13功能是冗余的,所以單獨(dú)敲低bbs4,并不能顯現(xiàn)它的分子伴侶功能。對(duì)于vps4這個(gè)家族來說,它們是一個(gè)atpase,是escrt復(fù)合物的關(guān)鍵組成成分[38],并且escrt這個(gè)復(fù)合物影響細(xì)胞自體吞噬(autophagy)過程[39],而gao等工作發(fā)現(xiàn)自體吞噬會(huì)通過促進(jìn)dvl蛋白質(zhì)的降解抑制wnt信號(hào)通路[40]。所以,這些工作解釋了本發(fā)明人敲低vps4a/vps4b/spg4這個(gè)家族,觀察到β-catenin水平上升這個(gè)現(xiàn)象。(3)對(duì)于全基因組范圍內(nèi)篩選wnt信號(hào)通路調(diào)控因子的相關(guān)工作已經(jīng)有很多報(bào)道了,但是這類工作都是檢測(cè)wnt信號(hào)通路下游報(bào)告基因的轉(zhuǎn)錄水平,而本發(fā)明人檢測(cè)的信號(hào)是wnt3a誘導(dǎo)的內(nèi)源β-catenin水平,相對(duì)來說可以排除一些非特異轉(zhuǎn)錄的干擾。同時(shí)本發(fā)明人對(duì)細(xì)胞核和細(xì)胞質(zhì)中的β-catenin定量,可以進(jìn)一步分析調(diào)控β-catenin核質(zhì)分布的因子。當(dāng)然,本發(fā)明人的篩選陽性結(jié)果中還包含了很多間接的影響因子以及脫靶的假陽性因子,確實(shí),這里面出現(xiàn)了很多house-keeping功能的因子,包括,轉(zhuǎn)錄、翻譯、蛋白酶體以及代謝相關(guān)的分子這些都是大規(guī)模篩選不可避免的。雖然本發(fā)明人的基因家族sirna文庫的篩選能消除基因功能冗余的假陰性現(xiàn)象,但是同時(shí)本發(fā)明人也發(fā)現(xiàn)了一個(gè)不足之處。比如說,對(duì)于fzd家族來說,在l細(xì)胞中高表達(dá)的fzd7(數(shù)據(jù)未展示),在單基因篩選結(jié)果中是陽性結(jié)果,但是包含fzd7這一基因家族在基因家族篩選中卻沒有變化。本發(fā)明人推測(cè)這可能是由于脫靶效應(yīng)或者是家族中其他成員相反效應(yīng)的中和(fzd1單基因篩選結(jié)果和fzd7相反)所造成的。所以綜合分析單基因,基因家族以及其他類型,比如說過表達(dá)等篩選結(jié)果,再進(jìn)行第二次篩選得到陽性的概率會(huì)大大增加。在本發(fā)明提及的所有文獻(xiàn)都在本申請(qǐng)中引用作為參考,就如同每一篇文獻(xiàn)被單獨(dú)引用作為參考那樣。此外應(yīng)理解,在閱讀了本發(fā)明的上述講授內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等價(jià)形式同樣落于本申請(qǐng)所附權(quán)利要求書所限定的范圍。參考文獻(xiàn)1.fire,a.,etal.,potentandspecificgeneticinterferencebydouble-strandedrnaincaenorhabditiselegans.nature,1998.391(6669):p.806-11.2.diehl,p.,d.tedesco,anda.chenchik,useofrnaiscreenstouncoverresistancemechanismsincancercellsandidentifysyntheticlethalinteractions.drugdiscovtodaytechnol,2014.11:p.11-8.3.gao,s.,etal.,applicationsofrnainterferencehigh-throughputscreeningtechnologyincancerbiologyandvirology.proteincell,2014.5(11):p.805-15.4.karlsson,c.,j.rak,andj.larsson,rnainterferencescreeningtodetecttargetablemoleculesinhematopoieticstemcells.curropinhematol,2014.21(4):p.283-8.5.cong,l.,etal.,multiplexgenomeengineeringusingcrispr/cassystems.science,2013.339(6121):p.819-23.6.mali,p.,etal.,rna-guidedhumangenomeengineeringviacas9.science,2013.339(6121):p.823-6.7.koike-yusa,h.,etal.,genome-widerecessivegeneticscreeninginmammaliancellswithalentiviralcrispr-guidernalibrary.natbiotechnol,2014.32(3):p.267-73.8.zhou,y.,etal.,high-throughputscreeningofacrispr/cas9libraryforfunctionalgenomicsinhumancells.nature,2014.509(7501):p.487-91.9.konermann,s.,etal.,genome-scaletranscriptionalactivationbyanengineeredcrispr-cas9complex.nature,2015.517(7536):p.583-8.10.parnas,o.,etal.,agenome-widecrisprscreeninprimaryimmunecellstodissectregulatorynetworks.cell,2015.11.brookfield,j.f.,geneticredundancy.advgenet,1997.36:p.137-55.12.nowak,m.a.,etal.,evolutionofgeneticredundancy.nature,1997.388(6638):p.167-71.13.wagner,a.,selectionandgeneduplication:aviewfromthegenome.genomebiol,2002.3(5):p.reviews1012.14.major,m.b.,etal.,newregulatorsofwnt/beta-cateninsignalingrevealedbyintegrativemolecularscreening.scisignal,2008.1(45):p.ra12.15.tang,w.,etal.,agenome-widernaiscreenforwnt/beta-cateninpathwaycomponentsidentifiesunexpectedrolesfortcftranscriptionfactorsincancer.procnatlacadsciusa,2008.105(28):p.9697-702.16.simons,m.,etal.,electrochemicalcuesregulateassemblyofthefrizzled/dishevelledcomplexattheplasmamembraneduringplanarepithelialpolarization.natcellbiol,2009.11(3):p.286-94.17.conrad,w.,etal.,fam129bisanovelregulatorofwnt/beta-cateninsignaltransductioninmelanomacells.f1000res,2013.2:p.134.18.wang,j.,t.sinha,anda.wynshaw-boris,wntsignalinginmammaliandevelopment:lessonsfrommousegenetics.coldspringharbperspectbiol,2012.4(5).19.clevers,h.andr.nusse,wnt/beta-cateninsignalinganddisease.cell,2012.149(6):p.1192-205.20.doble,b.w.,etal.,functionalredundancyofgsk-3alphaandgsk-3betainwnt/beta-cateninsignalingshownbyusinganallelicseriesofembryonicstemcelllines.devcell,2007.12(6):p.957-71.21.schwab,k.r.,etal.,pygo1andpygo2rolesinwntsignalinginmammaliankidneydevelopment.bmcbiol,2007.5:p.15.22.etheridge,s.l.,etal.,murinedishevelled3functionsinredundantpathwayswithdishevelled1and2innormalcardiacoutflowtract,cochlea,andneuraltubedevelopment.plosgenet,2008.4(11):p.e1000259.23.satoh,w.,etal.,sfrp1,sfrp2,andsfrp5regulatethewnt/beta-cateninandtheplanarcellpolaritypathwaysduringearlytrunkformationinmouse.genesis,2008.46(2):p.92-103.24.gentleman,r.c.,etal.,bioconductor:opensoftwaredevelopmentforcomputationalbiologyandbioinformatics.genomebiol,2004.5(10):p.r80.25.brideau,c.,etal.,improvedstatisticalmethodsforhitselectioninhigh-throughputscreening.jbiomolscreen,2003.8(6):p.634-47.26.benjamini,y.andy.hochberg,controllingthefalsediscoveryrate-apracticalandpowerfulapproachtomultipletesting.journaloftheroyalstatisticalsocietyseriesb-methodological,1995.57(1):p.289-300.27.shahrezaei,v.andp.s.swain,analyticaldistributionsforstochasticgeneexpression.procnatlacadsciusa,2008.105(45):p.17256-61.28.hansen,b.e.,autoregressiveconditionaldensityestimation.internationaleconomicreview,1994.35(3):p.705-730.29.zhang,j.h.,t.d.chung,andk.r.oldenburg,asimplestatisticalparameterforuseinevaluationandvalidationofhighthroughputscreeningassays.jbiomolscreen,1999.4(2):p.67-73.30.finn,r.d.,etal.,pfam:theproteinfamiliesdatabase.nucleicacidsres,2014.42(databaseissue):p.d222-30.31.coordinators,n.r.,databaseresourcesofthenationalcenterforbiotechnologyinformation.nucleicacidsres,2014.42(databaseissue):p.d7-17.32.holder,m.andp.o.lewis,phylogenyestimation:traditionalandbayesianapproaches.natrevgenet,2003.4(4):p.275-84.33.huangda,w.,b.t.sherman,andr.a.lempicki,bioinformaticsenrichmenttools:pathstowardthecomprehensivefunctionalanalysisoflargegenelists.nucleicacidsres,2009.37(1):p.1-13.34.kim,j.c.,etal.,mkks/bbs6,adivergentchaperonin-likeproteinlinkedtotheobesitydisorderbardet-biedlsyndrome,isanovelcentrosomalcomponentrequiredforcytokinesis.jcellsci,2005.118(pt5):p.1007-20.35.stoetzel,c.,etal.,bbs10encodesavertebrate-specificchaperonin-likeproteinandisamajorbbslocus.natgenet,2006.38(5):p.521-4.36.stoetzel,c.,etal.,identificationofanovelbbsgene(bbs12)highlightsthemajorroleofavertebrate-specificbranchofchaperonin-relatedproteinsinbardet-biedlsyndrome.amjhumgenet,2007.80(1):p.1-11.37.johnson,b.d.,etal.,hopmodulateshsp70/hsp90interactionsinproteinfolding.jbiolchem,1998.273(6):p.3679-86.38.wollert,t.,etal.,theescrtmachineryataglance.jcellsci,2009.122(pt13):p.2163-6.39.rusten,t.e.andh.stenmark,howdoescrtproteinscontrolautophagy?jcellsci,2009.122(pt13):p.2179-83.40.gao,c.,etal.,autophagynegativelyregulateswntsignallingbypromotingdishevelleddegradation.natcellbiol,2010.12(8):p.781-90.當(dāng)前第1頁12當(dāng)前第1頁12