本發(fā)明屬于生物信息學(xué)領(lǐng)域,特別涉及一種大規(guī)模標(biāo)注lncRNA功能的方法。
背景技術(shù):
長鏈非編碼RNA(long non-coding RNA,lncRNA)是一種重要的非編碼RNA,它在真核生物中被廣泛轉(zhuǎn)錄。一般,lncRNA具有低的表達(dá)水平,中等的序列保守性,和高的組織特異性。越來越多的生物實(shí)驗(yàn)已經(jīng)證實(shí)lncRNA能在細(xì)胞中發(fā)揮廣泛而又重要的作用,比如基因調(diào)控、剪接控制、以及X染色體劑量補(bǔ)償?shù)?。lncRNA還和人類疾病的發(fā)生、發(fā)展和防治都有著密切聯(lián)系。因此,確定lncRNA的功能對(duì)于揭示其在生理及病理過程中的作用機(jī)制、疾病診斷和防治都有重要的意義,但是,目前人們僅僅對(duì)很少量的lncRNA的功能了解比較充分。最近,預(yù)測和識(shí)別lncRNA功能的研究引起了越來越多研究者的興趣。
確定lncRNA的功能,在生物學(xué)領(lǐng)域,一般采取非編碼RNA沉默和定位分析、RNA結(jié)合蛋白免疫沉淀技術(shù)、紫外交聯(lián)免疫沉淀、環(huán)狀染色質(zhì)構(gòu)象捕獲、RNA反義純化、RNA純化的染色質(zhì)分離和捕獲雜交分析RNA靶點(diǎn)等,盡管這些技術(shù)能在一定程度上識(shí)別lncRNA的部分功能,但是由于實(shí)驗(yàn)設(shè)計(jì)復(fù)雜、代價(jià)高昂,而lncRNA的功能具有多樣化和特異性強(qiáng)的特點(diǎn),難以大規(guī)模應(yīng)用于lncRNA功能識(shí)別。隨著微陣列和新一代測序等高通量技術(shù)的發(fā)展,獲得了大量與lncRNA有關(guān)的生物數(shù)據(jù)(lncRNA序列、表達(dá)譜、與蛋白質(zhì)的相互作用等),這為從計(jì)算上預(yù)測lncRNA的功能提供了條件。
近年來,已有一些研究者利用這些生物數(shù)據(jù)預(yù)測lncRNA的功能,比如,Guttman等人在4種小鼠細(xì)胞種通過基因組范圍染色質(zhì)狀態(tài)譜發(fā)現(xiàn)了大約1600種lncRNA,并開發(fā)了一種方法進(jìn)行l(wèi)ncRNA功能預(yù)測;Liao等人根據(jù)公開的微陣列表達(dá)譜數(shù)據(jù),通過構(gòu)造編碼-非編碼基因共表達(dá)網(wǎng)絡(luò)標(biāo)注了340個(gè)lncRNA的可能功能;Cabili與他的合作者編制了一個(gè)包含8000多種人類lincRNA的參考目錄,并通過編碼基因和非編碼基因的共表達(dá)信息對(duì)它們進(jìn)行了功能標(biāo)注。這些方法基本上都是基于基因表達(dá)譜和一些局部信息,所以僅僅少量的lncRNA的功能可以被推斷出來。近幾年來,也出現(xiàn)了結(jié)合其它信息進(jìn)行l(wèi)ncRNA功能標(biāo)注的方法,例如,lncRNA2Function等。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種大規(guī)模標(biāo)注lncRNA功能的方法,其可以一次對(duì)大量lncRNA的功能進(jìn)行標(biāo)注,大大降低lncRNA功能標(biāo)注的成本,降低費(fèi)用。
本發(fā)明的技術(shù)方案如下:
1)根據(jù)lncRNA與蛋白質(zhì)的共表達(dá)數(shù)據(jù)、相互作用數(shù)據(jù)計(jì)算lncRNA和蛋白質(zhì)的皮爾遜相關(guān)系數(shù),并根據(jù)相關(guān)系數(shù)構(gòu)造lncRNA-蛋白質(zhì)關(guān)系網(wǎng)絡(luò)。2)根據(jù)lncRNA在人類24個(gè)組織或者細(xì)胞類型中的表達(dá)譜計(jì)算lncRNA之間的皮爾遜相關(guān)系數(shù),據(jù)此構(gòu)造lncRNA相似性網(wǎng)絡(luò)。3)根據(jù)蛋白質(zhì)相互作用數(shù)據(jù)構(gòu)造蛋白質(zhì)相互作用網(wǎng)絡(luò),并結(jié)合lncRNA-蛋白質(zhì)和lncRNA相似性網(wǎng)絡(luò)構(gòu)建全局網(wǎng)絡(luò)。4)利用上述構(gòu)建的全局網(wǎng)絡(luò),根據(jù)公式(1)計(jì)算lncRNA節(jié)點(diǎn)和蛋白質(zhì)節(jié)點(diǎn)的Katz度量,此Katz度量代表lncRNA節(jié)點(diǎn)和蛋白質(zhì)節(jié)點(diǎn)的相似性度量,Katz度量值越大,說明這個(gè)蛋白質(zhì)與lncRNA越相似。5)對(duì)上述步驟得到的lncRNA和蛋白質(zhì)相似矩陣進(jìn)行降序排列,按照分值選擇其中前N個(gè)蛋白質(zhì),分別找出前N個(gè)蛋白質(zhì)中每個(gè)蛋白質(zhì)所對(duì)應(yīng)的功能注釋,對(duì)每個(gè)功能注釋,根據(jù)公式(2)計(jì)算此lncRNA具有該功能的概率。
本發(fā)明與現(xiàn)有標(biāo)注lncRNA功能的方法相比,現(xiàn)有的大部分方法都是基于基因的表達(dá)譜和基因的一些局部信息,因此一次僅能對(duì)少量的lncRNA進(jìn)行功能注釋,而本發(fā)明是根據(jù)全局網(wǎng)絡(luò)進(jìn)行計(jì)算推斷的,所以一次可以對(duì)全基因組的lncRNA進(jìn)行功能注釋。此外,本發(fā)明不但考慮了基因表達(dá)譜信息,也結(jié)合了lncRNA與蛋白質(zhì)的相互作用信息以及蛋白質(zhì)之間的相互作用信息。與現(xiàn)有的方法相比,本發(fā)明利用了更多的生物數(shù)據(jù),可以顯著地提高lncRNA功能預(yù)測的準(zhǔn)確度,同時(shí),本發(fā)明可以一次對(duì)大量lncRNA進(jìn)行功能預(yù)測,有效的解決了現(xiàn)有計(jì)算方法的問題,也為生物實(shí)驗(yàn)進(jìn)行l(wèi)ncRNA功能注釋提供了有價(jià)值的參考。
附圖說明
圖1是本發(fā)明實(shí)施例整個(gè)過程的處理流程示意圖。
圖2為本發(fā)明實(shí)施例N取不同值時(shí)的性能變化曲線圖,當(dāng)N選擇不同的值時(shí),F(xiàn)max的值波動(dòng)較大,最好的性能(Fmax最大)出現(xiàn)在N近似是40時(shí)。
圖3本發(fā)明實(shí)施例網(wǎng)絡(luò)中包含或去掉PPI時(shí)的準(zhǔn)確率-召回率曲線圖。
圖4在手工標(biāo)注的55個(gè)lncRNA上,本發(fā)明實(shí)施例和LncRNA2Function分別正確注釋的lncRNA的個(gè)數(shù)比較示意圖。
圖5在全基因組上,本發(fā)明實(shí)施例和LncRNA2Function分別正確注釋的lncRNA的個(gè)數(shù)比較示意圖。
圖6在不同GO深度下,本發(fā)明實(shí)施例和LncRNA2Function分別注釋lncRNA的個(gè)數(shù)比較示意圖。
具體實(shí)施方式
下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。
本發(fā)明的原理是:根據(jù)lncRNA-蛋白質(zhì)的共表達(dá)數(shù)據(jù)及相互作用數(shù)據(jù)、lncRNA的表達(dá)譜 數(shù)據(jù)和蛋白質(zhì)的相互作用數(shù)據(jù),構(gòu)建一個(gè)全局的異構(gòu)無向圖,通過Katz度量計(jì)算lncRNA頂點(diǎn)和蛋白質(zhì)頂點(diǎn)的相似性,從而依據(jù)相似蛋白質(zhì)的功能標(biāo)注信息對(duì)未知的lncRNA進(jìn)行功能標(biāo)注。
如圖1所示,本實(shí)施例從GENCODE數(shù)據(jù)庫中共下載了15941個(gè)lncRNA基因和20284個(gè)編碼基因。為了獲得全基因組范圍內(nèi)的lncRNA和編碼基因的聯(lián)系,分別從COXPRESdb、ArrayExpress等數(shù)據(jù)庫下載了共表達(dá)數(shù)據(jù),從NPInter數(shù)據(jù)庫下載了lncRNA-蛋白質(zhì)作用數(shù)據(jù)。根據(jù)這些lncRNA-蛋白質(zhì)的共表達(dá)數(shù)據(jù)和相互作用數(shù)據(jù),采用樸素貝葉斯方法計(jì)算lncRNA和蛋白質(zhì)的相關(guān)性:
其中,C(l,p)是基因d(lncRNA)和編碼基因p之間的整體相關(guān)系數(shù),Cd(l,p)代表l和p在數(shù)據(jù)集d上的相關(guān)分?jǐn)?shù),D是基因?qū)?l和p)的個(gè)數(shù)。然后結(jié)合計(jì)算出的lncRNA和蛋白質(zhì)的相關(guān)性構(gòu)造lncRNA-蛋白質(zhì)的關(guān)系網(wǎng)絡(luò),此網(wǎng)絡(luò)共包含15941個(gè)lncRNA基因和20284個(gè)編碼基因,并用鄰接矩陣LP表示。
從NONCODE2016中下載了lncRNA在人類24個(gè)組織中的表達(dá)譜數(shù)據(jù),根據(jù)這些表達(dá)譜數(shù)據(jù)計(jì)算lncRNA之間的表達(dá)相關(guān)性,具體采用皮爾遜相關(guān)系數(shù)公式計(jì)算每對(duì)lncRNA之間的表達(dá)相關(guān)性,然后根據(jù)這些表達(dá)相關(guān)性構(gòu)造lncRNA相似性網(wǎng)絡(luò),此網(wǎng)絡(luò)共包含15941個(gè)lncRNA基因,用鄰接矩陣L表示。
根據(jù)從STRING數(shù)據(jù)庫下載的蛋白質(zhì)相互作用數(shù)據(jù),構(gòu)造蛋白質(zhì)相互作用網(wǎng)絡(luò),記作P,共包含20284個(gè)蛋白質(zhì),結(jié)合步驟1、步驟2計(jì)算出的矩陣LP、L,構(gòu)造全局異構(gòu)網(wǎng)絡(luò),用鄰接矩陣表示。
Katz度量通過計(jì)算兩個(gè)節(jié)點(diǎn)間的距離來衡量兩個(gè)節(jié)點(diǎn)的相似性,基于此,本發(fā)明提出通過計(jì)算lncRNA節(jié)點(diǎn)和蛋白質(zhì)節(jié)點(diǎn)的Katz度量來測量lncRNA基因和蛋白質(zhì)的相似性,即,利用上述步驟構(gòu)造的全局網(wǎng)絡(luò)的鄰接矩陣A,計(jì)算15941個(gè)lncRNA節(jié)點(diǎn)和20284個(gè)蛋白質(zhì)節(jié)點(diǎn)的Katz度量,計(jì)算公式為:
SLP=βLP+β2(L*LP+LP*P)+β3(LP*LPT*LP+L2*LP+L*LP*P+LP*P2) (1)
其中,β是不同長度路徑的權(quán)重系數(shù),滿足β<1/||A||2。計(jì)算結(jié)果為分?jǐn)?shù)矩陣,分值越大,表示越相似。
對(duì)于給定的lncRNA l,從Slp中降序排列的分值中選擇前N個(gè)蛋白質(zhì),并找出前N個(gè)蛋白質(zhì)所對(duì)應(yīng)的注釋信息,然后對(duì)于每一個(gè)GO術(shù)語,計(jì)算它被指定給lncRNA的概率Pl(Ti),計(jì)算公式為:
其中,Slp是lncRNA l和它的鄰近編碼基因的Kazt相似性分?jǐn)?shù),Ind(Ti)是一個(gè)指示函數(shù),定義如下:
Pl(Ti)越大,則lncRNA l越可能具有該功能。
本發(fā)明實(shí)施例進(jìn)行了有效性驗(yàn)證如下。
本發(fā)明實(shí)施例方法可稱之為KATZLGO,需要根據(jù)Slp中前N個(gè)蛋白質(zhì)的GO信息來注釋RNA,但是,目前沒有有效的計(jì)算方法確定N的值。在本方法中,通過在手工構(gòu)建的lncRNA注釋數(shù)據(jù)集lncRNA2GO-55上進(jìn)行性能評(píng)估,根據(jù)性能評(píng)估的結(jié)果選擇合適的值,如圖2所示。從圖2中可以看出,當(dāng)N取不同的值時(shí),本發(fā)明的性能會(huì)發(fā)生劇烈的波動(dòng),當(dāng)N取值約35至50之間時(shí)性能較好,而為40時(shí),性能最好。
本發(fā)明實(shí)施例比其它預(yù)測方法集成了更多生物信息,比如蛋白質(zhì)相互作用數(shù)據(jù)。為了評(píng)估蛋白質(zhì)相互作用信息的影響,本發(fā)明在825個(gè)蛋白質(zhì)的數(shù)據(jù)集Protein2GO-825上進(jìn)行性能評(píng)估,如圖3所示。顯然,含有蛋白質(zhì)相互作用數(shù)據(jù)的性能(紅色曲線)優(yōu)于不包含蛋白質(zhì)相互作用數(shù)據(jù)的性能(綠線)。
本發(fā)明實(shí)施例KATZLGO與目前最好的方法LncRNA2Function進(jìn)行了比較:在數(shù)據(jù)集lncRNA2GO-55上進(jìn)行生物過程預(yù)測,兩種方法的準(zhǔn)確率、召回率和F值,如表1所示。在手工注釋的55個(gè)lncRNA的數(shù)據(jù)集上,KATZLGO每個(gè)性能指標(biāo)均好于方法LncRNA2Function。
表1
同時(shí),圖4示出了在手工標(biāo)注的55個(gè)lncRNA上,本發(fā)明實(shí)施例和LncRNA2Function分別正確注釋的lncRNA的個(gè)數(shù)比較。圖5示出了在全基因組上,本發(fā)明實(shí)施例和LncRNA2Function分別正確注釋的lncRNA的個(gè)數(shù)比較。圖6示出了在不同GO深度下,本發(fā) 明實(shí)施例和LncRNA2Function分別注釋lncRNA的個(gè)數(shù)比較。