1.一種大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,包括如下步驟:
步驟1、根據(jù)lncRNA與蛋白質(zhì)的共表達(dá)數(shù)據(jù)、相互作用數(shù)據(jù)計(jì)算lncRNA和蛋白質(zhì)的皮爾遜相關(guān)系數(shù),并根據(jù)相關(guān)系數(shù)構(gòu)造lncRNA-蛋白質(zhì)關(guān)系網(wǎng)絡(luò);
步驟2、根據(jù)lncRNA在人類24個(gè)組織或者細(xì)胞類型中的表達(dá)譜計(jì)算lncRNA之間的皮爾遜相關(guān)系數(shù),據(jù)此構(gòu)造lncRNA相似性網(wǎng)絡(luò);
步驟3、根據(jù)蛋白質(zhì)相互作用數(shù)據(jù)構(gòu)造蛋白質(zhì)相互作用網(wǎng)絡(luò),并結(jié)合lncRNA-蛋白質(zhì)和lncRNA相似性網(wǎng)絡(luò)構(gòu)建全局網(wǎng)絡(luò);
步驟4、利用上述構(gòu)建的全局網(wǎng)絡(luò),根據(jù)公式(1)計(jì)算lncRNA節(jié)點(diǎn)和蛋白質(zhì)節(jié)點(diǎn)的Katz度量,此Katz度量代表lncRNA節(jié)點(diǎn)和蛋白質(zhì)節(jié)點(diǎn)的相似性度量,Katz度量值越大,說(shuō)明這個(gè)蛋白質(zhì)與lncRNA越相似;
步驟5、對(duì)上述步驟得到的lncRNA和蛋白質(zhì)相似矩陣進(jìn)行降序排列,按照分值選擇其中前N個(gè)蛋白質(zhì),分別找出前N個(gè)蛋白質(zhì)中每個(gè)蛋白質(zhì)所對(duì)應(yīng)的功能注釋,對(duì)每個(gè)功能注釋,根據(jù)公式(2)計(jì)算此lncRNA具有該功能的概率。
2.根據(jù)權(quán)利要求1所述的大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,步驟1具體為:根據(jù)lncRNA-蛋白質(zhì)的共表達(dá)數(shù)據(jù)及相互作用數(shù)據(jù),采用樸素貝葉斯方法計(jì)算lncRNA和蛋白質(zhì)的相關(guān)性:
其中,C(l,p)是lncRNA基因d和編碼基因p之間的整體相關(guān)系數(shù),Cd(l,p)代表l和p在數(shù)據(jù)集d上的相關(guān)分?jǐn)?shù),D是基因?qū)和p的個(gè)數(shù),然后結(jié)合計(jì)算出的lncRNA和蛋白質(zhì)的相關(guān)性構(gòu)造lncRNA-蛋白質(zhì)的關(guān)系網(wǎng)絡(luò),并用鄰接矩陣LP表示。
3.根據(jù)權(quán)利要求2所述的大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,所述lncRNA-蛋白質(zhì)的共表達(dá)數(shù)據(jù)及相互作用數(shù)據(jù)包括從GENCODE數(shù)據(jù)庫(kù)中下載的lncRNA基因和編碼基因,從COXPRESdb、ArrayExpress數(shù)據(jù)庫(kù)下載的共表達(dá)數(shù)據(jù),從NPInter數(shù)據(jù)庫(kù)下載的lncRNA-蛋白質(zhì)作用數(shù)據(jù)。
4.根據(jù)權(quán)利要求2或3所述的大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,步驟2具體為:根據(jù)lncRNA在人類24種組織或者細(xì)胞類型中的表達(dá)譜數(shù)據(jù)計(jì)算lncRNA之間的表達(dá)相關(guān)性,具體采用皮爾遜相關(guān)系數(shù)公式計(jì)算每對(duì)lncRNA之間的表達(dá)相關(guān)性,然后根據(jù)這些表達(dá)相關(guān)性構(gòu)造lncRNA相似性網(wǎng)絡(luò),用鄰接矩陣L表示。
5.根據(jù)權(quán)利要求4所述的大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,步驟3:根據(jù)蛋 白質(zhì)相互作用數(shù)據(jù),構(gòu)造蛋白質(zhì)相互作用網(wǎng)絡(luò),記作P,結(jié)合步驟1、步驟2計(jì)算出的矩陣LP、L,構(gòu)造全局異構(gòu)網(wǎng)絡(luò),用鄰接矩陣表示。
6.根據(jù)權(quán)利要求5所述的大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,步驟4具體為:利用步驟3構(gòu)造的全局網(wǎng)絡(luò)的鄰接矩陣A,計(jì)算lncRNA節(jié)點(diǎn)和蛋白質(zhì)節(jié)點(diǎn)的Katz度量,計(jì)算公式為:
SLP=βLP+β2(L*LP+LP*P)+β3(LP*LPT*LP+L2*LP+L*LP*P+LP*P2) (1)
其中,β是不同長(zhǎng)度路徑的權(quán)重系數(shù),滿足β<1/||A||2。
7.根據(jù)權(quán)利要求6所述的大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,步驟5具體為:對(duì)于給定的lncRNA l,從Slp中降序排列的分值中選擇前N個(gè)蛋白質(zhì),然后對(duì)于每一個(gè)GO術(shù)語(yǔ),計(jì)算它被指定給lncRNA的概率Pl(Ti),計(jì)算公式為:
其中,Slp是lncRNA l和它的鄰近編碼基因的Kazt相似性分?jǐn)?shù),Ind(Ti)是一個(gè)指示函數(shù),定義如下:
Pl(Ti)越大,則lncRNA l越可能具有該功能。
8.根據(jù)權(quán)利要求7所述的大規(guī)模標(biāo)注lncRNA功能的方法,其特征在于,N在35至50之間取值。