欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)的miRNA?環(huán)境因子關(guān)系預(yù)測(cè)方法與流程

文檔序號(hào):12177765閱讀:680來源:國(guó)知局
基于雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)的miRNA?環(huán)境因子關(guān)系預(yù)測(cè)方法與流程

本發(fā)明屬于系統(tǒng)生物學(xué)領(lǐng)域,涉及一種基于雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)的miRNA-環(huán)境因子關(guān)系預(yù)測(cè)方法。



背景技術(shù):

眾所周知,疾病和遺傳因子和環(huán)境因子有著密切關(guān)系。一些疾病的產(chǎn)生可視為遺傳因子和環(huán)境因子之間的擾動(dòng)造成的。因此,識(shí)別遺傳因子和環(huán)境因子之間關(guān)系有助于我們解析疾病復(fù)雜的機(jī)制,且進(jìn)一步有助于疾病診斷,預(yù)防及其治療。

MicroRNA(miRNA)是一類新發(fā)現(xiàn)的、重要的遺傳因子。一般來說,miRNA可以通過和信使RNA的3’端非編碼區(qū)域的完全配對(duì)或者5’端非編碼區(qū)域的不完全配對(duì),抑制信使RNA的表達(dá),從而達(dá)到調(diào)控基因表達(dá)的目的。miRNA產(chǎn)生過程包括以下幾個(gè)過程:1)通過核糖核酸聚合酶II(RNA polymerase II)對(duì)基因的內(nèi)含子特定位點(diǎn)的剪切,形成初始miRNA(primary miRNA)。這種初始miRNA的長(zhǎng)度一般為100-1000nt核苷酸。并且在5’端末尾有一個(gè)cap結(jié)構(gòu),在3’端末尾包含ploy(A)特征。2)初始miRNA經(jīng)過RNase III酶Drosha的剪切形成前體miRNA(precursor miRNA)。前體miRNA的長(zhǎng)度一般為70nt核苷酸長(zhǎng)度,有發(fā)夾結(jié)構(gòu),且在3’端末尾有2個(gè)突出的核苷酸。3)前體miRNA經(jīng)過RNase III酶Dicer剪切最終形成成熟體miRNA。成熟體miRNA的長(zhǎng)度一般為19-22nt,且具有高度保守型。許多研究表明:miRNA在人類的很多重要的生命過程中起著舉足輕重的作用,包括細(xì)胞的生長(zhǎng)、發(fā)育、增殖、分化、凋亡等。

近年來,研究發(fā)現(xiàn):許多環(huán)境因子(EF)和miRNA的表達(dá)有著密切關(guān)系,環(huán)境因子能夠調(diào)控miRNA的表達(dá)。例如,在HepG2細(xì)胞系中,鞣花單寧(日本蛇菰屬植物提煉出來的多酚化合物)能夠調(diào)節(jié)25個(gè)miRNA表達(dá)。其中,17個(gè)miRNA為上調(diào),8個(gè)miRNA為下調(diào)。這些環(huán)境因子和miRNA關(guān)系的擾動(dòng)經(jīng)常和疾病的產(chǎn)生有著密切關(guān)系。在前列腺癌細(xì)胞中,研究人員發(fā)現(xiàn)染料木黃酮能夠促進(jìn)miR-34a的表達(dá),進(jìn)而影響基因HOTAIR的表達(dá)。而該基因和癌細(xì)胞的增殖有著密切關(guān)系。因此,研究環(huán)境因子和miRNA之間的關(guān)系能夠有助于人類了解疾病產(chǎn)生機(jī)理,進(jìn)而幫助人類設(shè)計(jì)有效的疾病治療方案。

隨著高通量技術(shù)不斷發(fā)展,產(chǎn)生了大量的miRNA相關(guān)數(shù)據(jù)。一些miRNA相關(guān)的數(shù)據(jù)庫也建立來存儲(chǔ)這些miRNA數(shù)據(jù)。miRbase數(shù)據(jù)庫是目前最權(quán)威的miRNA序列數(shù)據(jù)庫,該數(shù)據(jù)主要存儲(chǔ)miRNA的序列、前體結(jié)構(gòu)及其miRNA對(duì)應(yīng)的靶基因數(shù)據(jù)。為了保證數(shù)據(jù)的準(zhǔn)確性,該數(shù)據(jù)庫只收集已經(jīng)被驗(yàn)證過的miRNA相關(guān)的數(shù)據(jù)。miRecord數(shù)據(jù)庫為動(dòng)物的miRNA靶基因數(shù)據(jù)庫,包括生物實(shí)驗(yàn)驗(yàn)證的靶基因和計(jì)算方法預(yù)測(cè)的靶基因。DbDEMC是一個(gè)專門存儲(chǔ)人類癌癥差異表達(dá)的miRNA數(shù)據(jù),該數(shù)據(jù)收錄14種癌癥中607個(gè)差異表達(dá)的miRNA。miREnvironment數(shù)據(jù)是專門收錄miRNA和環(huán)境因子之間的關(guān)系的數(shù)據(jù)庫。該數(shù)據(jù)庫手動(dòng)收集了24個(gè)物種,1242個(gè)miRNA,394個(gè)環(huán)境因子,3857條關(guān)系。

目前,在生物學(xué)中,傳統(tǒng)的預(yù)測(cè)miRNA和環(huán)境因子之間的關(guān)系的實(shí)驗(yàn)方法主要包括PCR和微陣列方法。生物學(xué)家在特定組織細(xì)胞中,加入特定環(huán)境因子,進(jìn)而觀測(cè)miRNA表達(dá)的差異。根據(jù)這些方法能夠準(zhǔn)確有效的發(fā)現(xiàn)miRNA和環(huán)境因子之間關(guān)系。但是,這些方法非常費(fèi)時(shí)且成本很高,尤其是在大量的生物數(shù)據(jù)面前,更顯得捉襟見肘。大規(guī)模預(yù)測(cè)miRNA和環(huán)境因子之間的關(guān)系的計(jì)算方法應(yīng)運(yùn)而生,利用計(jì)算方法能夠有效降低經(jīng)濟(jì)花費(fèi),提高實(shí)驗(yàn)效率。利用計(jì)算方法來預(yù)測(cè)miRNA和環(huán)境因子之間的關(guān)系可以簡(jiǎn)單分為以下幾類:

1)基于機(jī)器學(xué)習(xí)的方法

由于miRNA和環(huán)境因子的數(shù)據(jù)種類越來越多,基于機(jī)器學(xué)習(xí)模型可以利用這些數(shù)據(jù),研究miRNA-EF關(guān)聯(lián)預(yù)測(cè)方法?;谧钚《朔?,Chen等提出一種新的miRNA和環(huán)境因子之間的關(guān)系預(yù)測(cè)方法。在該方法中,采用兩個(gè)分類器分別對(duì)miRNA和環(huán)境因子進(jìn)行最優(yōu)化。最終,通過線性加權(quán)方法得到每對(duì)miRNA和環(huán)境因子的打分值。

2)基于網(wǎng)絡(luò)的方法

網(wǎng)絡(luò)的方法都是基于相同的假設(shè):相似的miRNA往往和相似的環(huán)境因子有關(guān)系。Chen等人基于隨機(jī)游走方法提出一種新的miRNA和環(huán)境因子之間的關(guān)系預(yù)測(cè)方法;該方法融合了miRNA功能相似性,miRNA拓?fù)湎嗨菩裕珽F結(jié)構(gòu)相似性以及EF拓?fù)湎嗨菩浴A硗?,Li等提出一種基于網(wǎng)絡(luò)推斷方法來預(yù)測(cè)miRNA-環(huán)境因子的關(guān)聯(lián)關(guān)系,該方法利用已知的miRNA和環(huán)境因子之間的關(guān)系數(shù)據(jù),構(gòu)建miRNA-環(huán)境因子二分圖。在構(gòu)建的二分圖上,采用網(wǎng)絡(luò)推斷方法來預(yù)測(cè)新的miRNA和環(huán)境因子之間的關(guān)系。該方法所基于的假設(shè)為:如果兩個(gè)miRNA共享多個(gè)環(huán)境因子,那么和其中一個(gè)miRNA有關(guān)系的環(huán)境因子也很有可能和另外一個(gè)miRNA有關(guān)系。

3)基于統(tǒng)計(jì)的方法

Qiu等人提出一種miRNA-環(huán)境因子關(guān)系預(yù)測(cè)方法。該方法融合miRNA組織差異表達(dá)數(shù)據(jù)和miRNA-疾病關(guān)系數(shù)據(jù)。采用富集分析方法來識(shí)別潛在的miRNA-環(huán)境因子之間關(guān)系。

上述各類方法從不同的角度來預(yù)測(cè)潛在的miRNA-環(huán)境因子關(guān)聯(lián)。雖然上述方法取得不少成就,但是也存在一些缺陷。首先,計(jì)算miRNA和環(huán)境因子的相似性上,有的方法采用網(wǎng)絡(luò)的拓?fù)涮卣鱽碛?jì)算miRNA和環(huán)境因子的相似性。忽略了miRNA和環(huán)境因子的生物屬性。其次,在融合不同miRNA和環(huán)境因子數(shù)據(jù)上,有的方法采用算術(shù)均值方法來融合不同的miRNA和環(huán)境因子相似性。這可能會(huì)引入其他的噪聲。另外,有的方法無法對(duì)一個(gè)新的miRNA和環(huán)境因子之間的關(guān)系進(jìn)行預(yù)測(cè)。因此,有必要設(shè)計(jì)一種新的預(yù)測(cè)miRNA-環(huán)境因子關(guān)系預(yù)測(cè)方法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問題是,針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)的miRNA-環(huán)境因子關(guān)系預(yù)測(cè)方法(MEI-BRWMLL),該方法易于實(shí)施,預(yù)測(cè)準(zhǔn)確率高。

本發(fā)明為解決技術(shù)問題所采用的技術(shù)方案如下:

一種基于雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)的miRNA-環(huán)境因子關(guān)系預(yù)測(cè)方法,包括以下步驟:

1)首先基于已知的miRNA-環(huán)境因子關(guān)系,構(gòu)建miRNA-環(huán)境因子矩陣ME;然后計(jì)算miRNA相似性和環(huán)境因子相似性,構(gòu)建miRNA相似性矩陣和環(huán)境因子相似性矩陣;

2)根據(jù)miRNA相似性矩陣和環(huán)境因子相似性矩陣分別構(gòu)建miRNA相似性網(wǎng)絡(luò)和環(huán)境因子相似性網(wǎng)絡(luò);再基于miRNA相似性網(wǎng)絡(luò)、環(huán)境因子相似性網(wǎng)絡(luò)和miRNA-環(huán)境因子矩陣,構(gòu)建miRNA-環(huán)境因子關(guān)系網(wǎng)絡(luò);

3)采用雙向隨機(jī)游走(Bi-random walk,BiRW)和多標(biāo)簽學(xué)習(xí)方法(Multi-label learning,MLL)來預(yù)測(cè)潛在的miRNA-環(huán)境因子關(guān)系:

a)對(duì)于miRNA和環(huán)境因子都是已知的情況,采用雙向隨機(jī)游走方法,分別在miRNA相似性網(wǎng)絡(luò)和環(huán)境因子相似網(wǎng)絡(luò)上進(jìn)行不同步數(shù)游走,得到miRNA-環(huán)境因子得分矩陣,分值越大表明對(duì)應(yīng)的miRNA和環(huán)境因子存在關(guān)系的可能性越大;

b)對(duì)于新的miRNA,基于miRNA的相似性網(wǎng)絡(luò)和環(huán)境因子的相似性網(wǎng)絡(luò),采用多標(biāo)簽學(xué)習(xí)方法,得到新的miRNA與環(huán)境因子之間存在關(guān)系的概率值,概率值越大,兩者存在關(guān)系的可能性越大;

c)對(duì)于新的環(huán)境因子,基于miRNA的相似性網(wǎng)絡(luò)和環(huán)境因子的相似性網(wǎng)絡(luò),采用多標(biāo)簽學(xué)習(xí)方法,得到新的環(huán)境因子與miRNA之間存在關(guān)系的概率值,概率值越大,兩者存在關(guān)系的可能性越大。

所述步驟1)中,構(gòu)建miRNA-環(huán)境因子矩陣ME,miRNA-環(huán)境因子矩陣每一行對(duì)應(yīng)一個(gè)miRNA,每一列對(duì)應(yīng)一個(gè)環(huán)境因子;若已知miRNA mi和環(huán)境因子ej存在關(guān)系,則ME(i,j)等于1;否則,ME(i,j)等于0;其中i=1,2,…,m;j=1,2,…,e;m和e分別為已知的miRNA和環(huán)境因子個(gè)數(shù)。

所述步驟1)中,構(gòu)建miRNA相似性矩陣的方法為:

首先,基于miRNA序列信息和miRNA-環(huán)境因子矩陣ME,分別計(jì)算miRNA序列相似性和miRNA交互譜相似性;

然后,基于miRNA序列相似性和miRNA交互譜相似性,構(gòu)建兩個(gè)的miRNA相似性矩陣;

最后,采用相似性矩陣融合方法分別將不同的miRNA相似性矩陣融合為一個(gè)miRNA相似性矩陣。

所述步驟1)中,構(gòu)建環(huán)境因子相似性矩陣的方法為:

首先,基于環(huán)境因子的化學(xué)結(jié)構(gòu)、化學(xué)分類系統(tǒng)信息和miRNA-環(huán)境因子矩陣ME,分別計(jì)算環(huán)境因子化學(xué)結(jié)構(gòu)相似性、化學(xué)分類系統(tǒng)相似性和環(huán)境因子交互譜相似性;

然后,基于環(huán)境因子化學(xué)結(jié)構(gòu)相似性、化學(xué)分類系統(tǒng)相似性和環(huán)境因子交互譜相似性構(gòu)建三個(gè)環(huán)境因子相似性矩陣;

最后,采用相似性矩陣融合方法分別將不同的環(huán)境因子相似性矩陣融合為一個(gè)環(huán)境因子相似性矩陣。

所述步驟2)包括以下步驟:

首先,基于步驟1)中融合得到的miRNA相似性矩陣和環(huán)境因子相似性矩陣,分別構(gòu)建miRNA相似性網(wǎng)絡(luò)和環(huán)境因子相似性網(wǎng)絡(luò);在miRNA相似網(wǎng)絡(luò)中,節(jié)點(diǎn)為miRNA,邊的權(quán)值為miRNA-miRNA相似性值;在環(huán)境因子相似性網(wǎng)絡(luò)中,節(jié)點(diǎn)為環(huán)境因子,邊的權(quán)值為環(huán)境因子-環(huán)境因子相似性值;

然后,根據(jù)已知的miRNA-環(huán)境因子關(guān)系,構(gòu)建miRNA-環(huán)境因子關(guān)聯(lián)二分圖;在miRNA-環(huán)境因子關(guān)聯(lián)二分圖中,節(jié)點(diǎn)分別為miRNA和環(huán)境因子,若miRNA mi和環(huán)境因子ej存在關(guān)系,則miRNA mi和環(huán)境因子ej之間存在一條邊,否則沒有邊;

最后,融合miRNA相似性網(wǎng)絡(luò)、環(huán)境因子相似性網(wǎng)絡(luò)和miRNA-環(huán)境因子關(guān)聯(lián)二分圖,構(gòu)成miRNA-環(huán)境因子關(guān)系網(wǎng)絡(luò)。

所述步驟a)具體為:

a1)對(duì)融合后的miRNA相似性矩陣和融合后的環(huán)境因子相似性矩陣進(jìn)行標(biāo)準(zhǔn)化,公式為:

RM=DM-1/2*FM*DM-1/2

RE=DE-1/2*FE*DE-1/2

其中,RM表示標(biāo)準(zhǔn)化的miRNA相似性矩陣,DM表示融合后的miRNA相似性矩陣的對(duì)角矩陣,DM對(duì)角線的值為對(duì)應(yīng)的FM中一行的值的和;

RE表示標(biāo)準(zhǔn)化的環(huán)境因子相似性矩陣,DE表示融合后的環(huán)境因子相似性矩陣的對(duì)角矩陣,DE對(duì)角線的值為對(duì)應(yīng)的FE中一行的值的和;

對(duì)miRNA-環(huán)境因子矩陣ME進(jìn)行標(biāo)準(zhǔn)化,公式為:

A(i,j)=ME(i,j)/sum(ME)

其中,A(i,j)表示標(biāo)準(zhǔn)化的miRNA-環(huán)境因子矩陣A中第i行j列的元素;ME(i,j)代表miRNA-環(huán)境因子矩陣ME中第i行j列的元素,sum(ME)為ME中所有元素之和;

a2)進(jìn)行以下迭代:

在miRNA相似性網(wǎng)絡(luò)游走:

RDL(t)=a×RM×RD(t-1)+(1-a)A

其中,a為固定參數(shù)【a的取值通過交叉驗(yàn)證確定,本發(fā)明實(shí)施例中,a的取值通過交叉驗(yàn)證最終確定為0.8】,RD(t-1)為游走t-1步后預(yù)測(cè)的miRNA-環(huán)境因子得分矩陣,RDL(t)為在miRNA相似性網(wǎng)絡(luò)上游走t步后預(yù)測(cè)的miRNA-環(huán)境因子得分矩陣;RD(0)=A;

在環(huán)境因子相似性網(wǎng)絡(luò)游走:

RDR(t)=a×RD(t-1)×RE+(1-a)A

其中,RDR(t)為在環(huán)境因子相似性網(wǎng)絡(luò)上游走t步后預(yù)測(cè)的miRNA-環(huán)境因子的得分矩陣;

最終輸出游走t步后預(yù)測(cè)的miRNA-環(huán)境因子得分矩陣RD(t):

設(shè)定隨機(jī)游走在miRNA相似性網(wǎng)絡(luò)和環(huán)境因子相似性網(wǎng)絡(luò)中的最大迭代步數(shù)分別為l和r;【l和r的取值通過交叉驗(yàn)證確定,本發(fā)明實(shí)施例中,l和r的取值通過交叉驗(yàn)證最終確定分別為4和2】當(dāng)隨機(jī)游走在兩個(gè)網(wǎng)絡(luò)中的步數(shù)超過最大迭代參數(shù)l或r時(shí),迭代過程終止;

a3)對(duì)于任意兩個(gè)已知的miRNA和環(huán)境因子,根據(jù)RD(t)的值判斷兩者存在關(guān)系的可能性。

所述步驟b)具體為:

b1)按如下方法計(jì)算新的miRNA mc與已知的環(huán)境因子ej存在關(guān)系的概率P(mc,ej):

其中,和表示兩個(gè)先驗(yàn)概率;和表示兩個(gè)后驗(yàn)概率;

其中,e(i)表示miRNA mc的K個(gè)最近鄰居中,本身和ej有關(guān)系,且其對(duì)應(yīng)的K個(gè)最近鄰居中,有i個(gè)miRNA和環(huán)境因子ej有關(guān)系的miRNA的個(gè)數(shù);

e′(i)表示miRNA mc的K個(gè)最近鄰居中,本身和ej有關(guān)系,且其對(duì)應(yīng)的K個(gè)最近鄰居中,有i個(gè)miRNA和環(huán)境因子ej沒有關(guān)系的miRNA的個(gè)數(shù);

s的取值采用交叉驗(yàn)證得到;

b2)根據(jù)P(mc,ej)的值判斷新的miRNA mc與已知的環(huán)境因子ej存在關(guān)系的可能性。

所述步驟c)具體為:

c1)按如下方法計(jì)算新的環(huán)境因子ec與已知的miRNA mi存在關(guān)系的概率P(ec,mi):

其中,和表示兩個(gè)先驗(yàn)概率;和表示兩個(gè)后驗(yàn)概率;

其中,m(j)表示環(huán)境因子ec的K個(gè)最近鄰居中,本身和mi有關(guān)系,且其對(duì)應(yīng)的K個(gè)最近鄰居中,有j個(gè)環(huán)境因子和miRNA mi有關(guān)系的環(huán)境因子的個(gè)數(shù);

m′(j)表示環(huán)境因子ec的K個(gè)最近鄰居中,本身和mj有關(guān)系,且其對(duì)應(yīng)的K個(gè)最近鄰居中,有j個(gè)環(huán)境因子和miRNA mi沒有關(guān)系的環(huán)境因子的個(gè)數(shù);

r的取值采用交叉驗(yàn)證得到;

c2)根據(jù)P(ec,mi)的值判斷新的環(huán)境因子ec與已知的miRNA mi存在關(guān)系的可能性。

所述s的取值為10,r的取值為5。

有益效果:

本發(fā)明通過集成雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)算法,來預(yù)測(cè)環(huán)境因子潛在的miRNA。首先,利用已知的不同生物數(shù)據(jù)信息,計(jì)算得到不同的miRNA相似性矩陣和環(huán)境因子相似性矩陣。然后,基于計(jì)算得到不同的miRNA相似性和環(huán)境因子相似性,分別創(chuàng)建不同的miRNA相似性矩陣和不同的環(huán)境因子相似性矩陣,再用相似性矩陣融合方法分別對(duì)不同的miRNA相似性矩陣和不同的環(huán)境因子相似性矩陣進(jìn)行融合,減低單個(gè)數(shù)據(jù)源的得到的相似性噪聲,提高最終miRNA和環(huán)境因子相似性的可靠性。最后對(duì)不同情況下miRNA和環(huán)境因子,分別采用雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)來預(yù)測(cè)潛在的miRNA-環(huán)境因子關(guān)系,該方法能有效地挖掘環(huán)境因子潛在的miRNA。

附圖說明

圖1:本發(fā)明MEI-BRWMLL流程圖;

圖2:環(huán)境因子的度分布圖;

圖3:ClusterViz在已知數(shù)據(jù)集上識(shí)別出來的三個(gè)模塊;

圖4:在數(shù)據(jù)集上的十倍交叉驗(yàn)證。

具體實(shí)施方式

以下將結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明:

如圖1所示,本發(fā)明具體實(shí)現(xiàn)過程如下:

一.miRNA相似性計(jì)算和環(huán)境因子相似性計(jì)算

1.miRNA-環(huán)境因子矩陣構(gòu)建

基于已知的miRNA-環(huán)境因子關(guān)系,本發(fā)明首先構(gòu)建miRNA-環(huán)境因子矩陣ME。其中,miRNA-環(huán)境因子矩陣每一行對(duì)應(yīng)一個(gè)miRNA,每一列對(duì)應(yīng)一個(gè)環(huán)境因子。若miRNA mi和環(huán)境因子ej存在關(guān)聯(lián)關(guān)系,ME(i,j)等于1;否則,ME(i,j)等于0。

2.miRNA相似性計(jì)算

本發(fā)明miRNA相似性計(jì)算包括兩個(gè)部分:miRNA序列相似性計(jì)算和miRNA交互譜相似性計(jì)算。本發(fā)明采用Emboss-Needle工具來計(jì)算兩條成熟體miRNA序列的相似性。Emboss-Needle參數(shù)則是按照指定的參數(shù)(Matrix=EDNAfull,Gap open=10,Gap extend=0.5)。

miRNA交互譜相似性計(jì)算是基于假設(shè):相似miRNA一般都會(huì)有相似的交互模式,本發(fā)明定義兩個(gè)miRNA mi和mj之間的交互譜相似性為:

miR_Gip(mi,mj)=exp(-γm||IP(mi)-IP(mj)||2)

其中,mi和mj分別代表第i個(gè)miRNA和第j個(gè)miRNA;i,j=1,2,…,m;m表示已知的miRNA的總個(gè)數(shù);IP(mi)代表miRNA-環(huán)境因子矩陣中的第i行。

3.環(huán)境因子相似性計(jì)算

環(huán)境因子可以分為兩種:化學(xué)分子環(huán)境因子和非化學(xué)分子環(huán)境因子。對(duì)于化學(xué)分子環(huán)境因子,本發(fā)明采用化學(xué)結(jié)構(gòu)相似性、化學(xué)分類系統(tǒng)信息相似性和交互譜相似性來計(jì)算其相似性。對(duì)于非化學(xué)分子環(huán)境因子,只采用交互譜相似性來計(jì)算相似性?;瘜W(xué)結(jié)構(gòu)相似性計(jì)算是利用SIMCOMP工具來實(shí)現(xiàn)的,該工具是通過比對(duì)兩個(gè)化學(xué)分子的共同子結(jié)構(gòu)大小來比較兩個(gè)化學(xué)分子的化學(xué)結(jié)構(gòu)相似性,即共同的子結(jié)構(gòu)越大,兩個(gè)化學(xué)分子的化學(xué)結(jié)構(gòu)相似性越高?;瘜W(xué)分類系統(tǒng)信息(ATC:anatomical therapeutic chemical)是基于其在各個(gè)組織中化學(xué),藥理及其作用等屬性,其提供為非結(jié)構(gòu)信息。本發(fā)明采用Lin相似性計(jì)算方法來計(jì)算兩個(gè)化學(xué)分子之間的化學(xué)分類系統(tǒng)信息相似性,該方法基于節(jié)點(diǎn)的層次結(jié)構(gòu),化學(xué)分子的注釋信息重疊越多,相似性越高。

對(duì)于所有的環(huán)境因子(包括化學(xué)分子環(huán)境因子和非化學(xué)分子環(huán)境因子),本發(fā)明采用以下公式計(jì)算兩個(gè)環(huán)境因子ei和ej之間的交互譜相似性:

EF_Gip(ei,ej)=exp(-γe||IP(ei)-IP(ej)||2)

其中,ei和ej分別代表第i個(gè)環(huán)境因子和第j個(gè)環(huán)境因子;i,j=1,2,…,e;e表示已知的環(huán)境因子的總個(gè)數(shù),IP(ei)代表miRNA-環(huán)境因子矩陣中的第i列。

二.相似性矩陣融合

從上面部分可知,本發(fā)明已經(jīng)計(jì)算得到2種miRNA的相似性數(shù)據(jù)和3種環(huán)境因子相似性數(shù)據(jù)。以miRNA為例子,首先,本發(fā)明對(duì)miRNA的兩種相似性矩陣按照下面方式分別進(jìn)行標(biāo)準(zhǔn)化:

其中,W表示miRNA相似性矩陣,W(i,j)為其第i行第j列的元素;NMv0(i,j)表示經(jīng)過標(biāo)準(zhǔn)化后的miRNA相似性矩陣NMv0第i行第j列的元素。

為了度量相似性矩陣的局部一致性,本發(fā)明基于前面計(jì)算得到的miRNA相似性,對(duì)每個(gè)miRNA選擇相似性最大的前K個(gè)miRNA作為其最近鄰居集合,從而構(gòu)建局部相似性矩陣:

其中,Ni表示第i個(gè)miRNA的最近鄰居集合。

對(duì)于miRNA每種數(shù)據(jù)類型,相似性矩陣融合過程是通過迭代更新相似性矩陣:

其中,SMv表示數(shù)據(jù)類型為v的miRNA的局部相似性網(wǎng)絡(luò);本發(fā)明中v=1,2分別表示miRNA序列局部相似性矩陣和miRNA交互譜局部相似性矩陣;n代表是數(shù)據(jù)類型的總的個(gè)數(shù),在這里,n為2;NMvu表示第u(u=1,2,3…)次迭代更新的相似性矩陣;本發(fā)明中k=1,2分別指代miRNA序列相似性矩陣和miRNA交互譜相似性矩陣;迭代計(jì)算NMvu,直到兩次迭代之間的差值NMvu-NMvu-1<ε,結(jié)束迭代。本發(fā)明設(shè)定ε=10e-6

對(duì)于每一種數(shù)據(jù)類型的miRNA相似性矩陣,都可以得到一個(gè)融合后的相似性矩陣。本發(fā)明通過算術(shù)平均值計(jì)算所有數(shù)據(jù)類型融合后的miRNA相似性矩陣FM,其定義如下:

對(duì)于環(huán)境因子的三種相似性矩陣,利用相同的相似性矩陣融合方法也可以得到一個(gè)融合后的環(huán)境因子相似性矩陣FE。

三.基于雙向隨機(jī)游走和多標(biāo)簽學(xué)習(xí)方法預(yù)測(cè)miRNA-環(huán)境因子相互關(guān)系

本發(fā)明采用兩種方法來預(yù)測(cè)miRNA-環(huán)境因子之間關(guān)聯(lián)關(guān)系:雙向隨機(jī)游走來預(yù)測(cè)已知的miRNA和環(huán)境因子之間潛在的關(guān)聯(lián)關(guān)系和多標(biāo)簽學(xué)習(xí)方法來預(yù)測(cè)新的miRNA(環(huán)境因子)和環(huán)境因子(miRNA)之間的關(guān)聯(lián)關(guān)系。本發(fā)明采用這兩種方法的理由包括以下幾點(diǎn):首先,以前的研究表明雙向隨機(jī)游走在預(yù)測(cè)已知的樣本之間相互作用關(guān)系中取得很好的效果。但是其對(duì)于新的樣本之間關(guān)聯(lián)關(guān)系效果不是特別突出。然而,多標(biāo)簽學(xué)習(xí)方法在新的樣本之間關(guān)系預(yù)測(cè)上優(yōu)勢(shì)很大。因此,本發(fā)明通過融合兩種方法優(yōu)勢(shì)來提高miRNA-環(huán)境因子之間關(guān)系。

(1)基于雙向隨機(jī)游走方法預(yù)測(cè)已知的miRNA-環(huán)境因子之間潛在相互關(guān)系

本發(fā)明預(yù)測(cè)miRNA-環(huán)境因子之間相互關(guān)聯(lián)關(guān)系基于的假設(shè)為:相似的miRNA一般都會(huì)和相似的環(huán)境因子之間有關(guān)系。其具體的實(shí)施步驟如下:

首先,本發(fā)明采用拉普拉斯標(biāo)準(zhǔn)化方法分別對(duì)上部分計(jì)算得到的融合后的miRNA相似性矩陣和融合后的環(huán)境因子相似性矩陣進(jìn)行標(biāo)準(zhǔn)化。以miRNA為例,其標(biāo)準(zhǔn)化的定義如下:

RM=DM-1/2*FM*DM-1/2

其中,DM表示融合后的miRNA相似性矩陣的對(duì)角矩陣。DM對(duì)角線的值為對(duì)應(yīng)的FM中一行的值的和。通過類似的過程也可以得到標(biāo)準(zhǔn)化的環(huán)境因子相似性矩陣。

對(duì)于miRNA-環(huán)境因子矩陣ME,其標(biāo)準(zhǔn)化矩陣A定義為:

A(i,j)=ME(i,j)/sum(ME)

其中,ME(i,j)代表miRNA-環(huán)境因子矩陣ME中第i行j列的元素,sum(ME)為ME中所有元素之和。

至此,本發(fā)明得到標(biāo)準(zhǔn)化的miRNA相似性矩陣(RM),環(huán)境因子相似性矩陣(RE)和miRNA-環(huán)境因子關(guān)聯(lián)矩陣(A)。然后,本次采用雙向隨機(jī)游走方法來預(yù)測(cè)已知的miRNA和環(huán)境因子之間潛在的關(guān)聯(lián)關(guān)系?;趍iRNA相似性矩陣和環(huán)境因子相似性矩陣,構(gòu)建miRNA相似性網(wǎng)絡(luò)和環(huán)境因子相似性網(wǎng)絡(luò)。其中,兩個(gè)網(wǎng)絡(luò)中,節(jié)點(diǎn)分別為miRNA和環(huán)境因子,邊的權(quán)重分別為miRNA-miRNA相似性值和環(huán)境因子-環(huán)境因子相似性值??紤]到miRNA相似性矩陣和環(huán)境因子相似性矩陣可能有不同的結(jié)構(gòu)和拓?fù)涮卣鳎S機(jī)游走在兩個(gè)網(wǎng)絡(luò)中的最優(yōu)的迭代步數(shù)可能不一致。因此,本發(fā)明設(shè)定兩個(gè)參數(shù)l和r分別來表示隨機(jī)游走在miRNA相似性網(wǎng)絡(luò)和EF相似性網(wǎng)絡(luò)中最大迭代步數(shù);l和r的取值通過交叉驗(yàn)證確定,本發(fā)明實(shí)施例中,l和r的取值通過交叉驗(yàn)證最終確定分別為4和2。其迭代過程可表示為:

在miRNA相似性網(wǎng)絡(luò)游走:

RDL(t)=a×RM×RD(t-1)+(1-a)A

其中,a為固定參數(shù)【a的取值通過交叉驗(yàn)證確定,本發(fā)明實(shí)施例中,a的取值通過交叉驗(yàn)證最終確定為0.8】,RD(t-1)為游走t-1步后預(yù)測(cè)的miRNA-環(huán)境因子得分矩陣,RDL(t)為在miRNA相似性網(wǎng)絡(luò)上游走t步后預(yù)測(cè)的miRNA-環(huán)境因子得分矩陣;RD(0)=A;

在環(huán)境因子相似性網(wǎng)絡(luò)游走:

RDR(t)=a×RD(t-1)×RE+(1-a)A

其中,RDR(t)為在環(huán)境因子相似性網(wǎng)絡(luò)上游走t步后預(yù)測(cè)的miRNA-環(huán)境因子的得分矩陣;

最終的輸出游走t步后預(yù)測(cè)的miRNA-環(huán)境因子得分矩陣RD(t):

當(dāng)隨機(jī)游走在兩個(gè)網(wǎng)絡(luò)中的步數(shù)超過最大迭代參數(shù)l或r時(shí),迭代過程終止。

對(duì)于任意兩個(gè)已知的miRNA和環(huán)境因子,RD(t)的值代表兩者存在關(guān)系的可能性,表示已知的miRNA和環(huán)境因子之間潛在的關(guān)聯(lián)關(guān)系。

(2)基于多標(biāo)簽學(xué)習(xí)方法預(yù)測(cè)新的miRNA-環(huán)境因子之間潛在相互關(guān)系

本發(fā)明將miRNA-環(huán)境因子之間關(guān)系預(yù)測(cè)問題轉(zhuǎn)化為概率事件。假設(shè)需要預(yù)測(cè)miRNA mi和環(huán)境因子ej之間關(guān)系。若在已知的miRNA中,與某個(gè)miRNA最相似的K個(gè)miRNA中有10個(gè)miRNA和環(huán)境因子ej有關(guān)系,則認(rèn)定這個(gè)miRNA有70%概率和環(huán)境因子ej存在關(guān)聯(lián)關(guān)系。并且,在與miRNA mi最相似的K個(gè)miRNA中有10個(gè)miRNA和環(huán)境因子ej存在關(guān)聯(lián)關(guān)系,那么miRNA mi也有70%概率和環(huán)境因子ej有關(guān)系。

假定有m個(gè)已知的miRNA和e個(gè)環(huán)境因子,則miRNA-環(huán)境因子矩陣ME的維度為m行和e列。miRNA mi和環(huán)境因子ej之間存在關(guān)系的概率定義為Pij,代表miRNA mi和環(huán)境因子ej之間存在關(guān)系的可信程度。當(dāng)已知miRNA mi和環(huán)境因子ej之間存在關(guān)系時(shí),Pij=ME(i,j)=1;否則,當(dāng)已知miRNA mi和環(huán)境因子ej之間不存在關(guān)系時(shí),Pij=ME(i,j)=0。給定一個(gè)新的miRNA mc,其與環(huán)境因子ej存在關(guān)系的概率記為P(mc,ej)?;趍iRNA相似性,選取與miRNA mc相似性最大的K個(gè)miRNA,即選擇miRNA mc的K個(gè)最近鄰居,Nc表示miRNA mc的K個(gè)最近鄰居。根據(jù)訓(xùn)練樣本的統(tǒng)計(jì)信息,應(yīng)用條件概率和貝葉斯決策理論來預(yù)測(cè)測(cè)試樣本。本發(fā)明按如下方法計(jì)算P(mc,ej):

其先驗(yàn)概率可利用已知的m個(gè)miRNA來估計(jì):

表示和環(huán)境因子ej有關(guān)的miRNA的先驗(yàn)概率,m表示已知的miRNA的個(gè)數(shù);

后驗(yàn)概率可以按照以下方法計(jì)算:

其中,s的取值通過交叉驗(yàn)證得到,本實(shí)施例最后s取值為10;e(i)表示miRNA mc的K個(gè)最近鄰居中,本身和ej有關(guān)系,且其對(duì)應(yīng)的K個(gè)最近鄰居中,有i個(gè)miRNA和環(huán)境因子ej有關(guān)系的miRNA的個(gè)數(shù);

e′(i)表示miRNA mc的K個(gè)最近鄰居中,本身和ej有關(guān)系,且其對(duì)應(yīng)的K個(gè)最近鄰居中,有i個(gè)miRNA和環(huán)境因子ej沒有關(guān)系的miRNA的個(gè)數(shù)。

四、實(shí)驗(yàn)驗(yàn)證

1.網(wǎng)絡(luò)分析

miRNA-環(huán)境因子網(wǎng)絡(luò)包含224個(gè)miRNA,124個(gè)環(huán)境因子和729條miRNA-環(huán)境因子關(guān)系。圖2表示miRNA-環(huán)境因子關(guān)系中環(huán)境因子的度的分布。行坐標(biāo)代表度,縱坐標(biāo)代表miRNA的個(gè)數(shù)。從圖2中可以發(fā)現(xiàn)大多數(shù)的環(huán)境因子的度都為1。也就是只有1個(gè)miRNA和這些環(huán)境因子有關(guān)系。其中,吉西他濱的度最高,有56個(gè)miRNA與其有關(guān)系。

本發(fā)明利用Cytoscape的ClusterViz插件對(duì)miRNA-環(huán)境因子關(guān)系網(wǎng)絡(luò)進(jìn)行聚類分析。圖3表示利用ClusterViz聚類得到的3個(gè)模塊。三角形表示環(huán)境因子,矩形表示miRNA。從這些模塊可以發(fā)現(xiàn):環(huán)境因子可以調(diào)控功能相似的miRNA。例如,模塊3中4個(gè)環(huán)境因子(DDT,E2,BPA和電離輻射)和let-7家族都有關(guān)系。

2.評(píng)價(jià)指標(biāo)

為了驗(yàn)證本發(fā)明的有效性,本發(fā)明采用十倍交叉驗(yàn)證來測(cè)試MEI-BRWMLL的預(yù)測(cè)性能。將已知的miRNA-環(huán)境因子已知的關(guān)系隨機(jī)分為十份,隨機(jī)選取一份作為測(cè)試集,剩下額九份作為訓(xùn)練集。在每次交叉驗(yàn)證實(shí)驗(yàn)中,將測(cè)試集里的關(guān)系數(shù)據(jù)集中關(guān)系刪除,利用剩下的九份訓(xùn)練集中的已知信息來預(yù)測(cè)測(cè)試集中關(guān)系。若刪除后,某個(gè)環(huán)境因子沒有一個(gè)miRNA與其關(guān)聯(lián),則采用多標(biāo)簽學(xué)習(xí)方法來進(jìn)行預(yù)測(cè);否則,采用雙向隨機(jī)游走方法進(jìn)行預(yù)測(cè)。從而,可以獲得刪除的miRNA-環(huán)境因子得分/存在關(guān)系的概率。

針對(duì)測(cè)試集中每對(duì)被刪除關(guān)系的miRNA-環(huán)境因子【即實(shí)際存在關(guān)系的miRNA-環(huán)境因子】,對(duì)預(yù)測(cè)得到的miRNA-環(huán)境因子得分/存在關(guān)系的概率設(shè)定閾值,如果得分/概率大于這個(gè)閾值,則被認(rèn)為是一個(gè)true positive(TP,表示miRNA-環(huán)境因子實(shí)際存在關(guān)系,預(yù)測(cè)也存在關(guān)系);否則為false negative(FN,表示miRNA-環(huán)境因子實(shí)際存在關(guān)系,而預(yù)測(cè)不存在關(guān)系)。另外,對(duì)于已知沒有關(guān)系的miRNA-環(huán)境因子【即實(shí)際不存在關(guān)系的miRNA-環(huán)境因子】,若得分/概率大于這個(gè)閾值,被認(rèn)為是一個(gè)false positive(FP,表示miRNA-環(huán)境因子實(shí)際不存在關(guān)系,而預(yù)測(cè)存在關(guān)系);否則為true negative(TN,表示miRNA-環(huán)境因子實(shí)際不存在關(guān)系,而預(yù)測(cè)也不存在關(guān)系)。從而進(jìn)一步計(jì)算出True-positive rate(TPR)和False-positive rate(FPR)。TPR和FPR的計(jì)算公式如下:

通過改變閾值,可以計(jì)算得到不同的TPR和FPR,進(jìn)而畫出ROC曲線,并且計(jì)算該曲線下方的面積可以得到AUC值,AUC值被用來表示全局預(yù)測(cè)性能。本發(fā)明將MEI-BRWMLL和另外兩個(gè)miRNA-環(huán)境因子關(guān)系預(yù)測(cè)方法(miREFScan和miREFRWR)比較。圖4表示三種方法在miRNA-環(huán)境因子關(guān)系預(yù)測(cè)性能。從圖4可以發(fā)現(xiàn),MEI-BRWMLL的AUC值為0.8208。另外兩種方法miREFScan和miREFRWR的AUC值分別為0.7963和0.7905。實(shí)驗(yàn)結(jié)果表明:本發(fā)明要優(yōu)于現(xiàn)在的兩種方法。

3.案例分析

3,3-二吲哚基甲烷(DIM)來源于吲哚-3-甲醇消化產(chǎn)物,是一種存在于十字花科植物如西蘭花,抱子甘藍(lán),卷心菜和甘藍(lán)菜的化合物。越來越多的研究表明:3,3-二吲哚基甲烷和許多癌癥有著密切關(guān)系。例如,3,3-二吲哚基甲烷能夠抑制結(jié)腸癌細(xì)胞中基因HDAC1,HDAC2和HDAC3的表達(dá)。表1為MEI-BRWMLL預(yù)測(cè)的和3,3-二吲哚基甲烷有關(guān)系的前15個(gè)預(yù)測(cè)的miRNA。在這預(yù)測(cè)的15個(gè)miRNA中,9個(gè)miRNA在最近的文獻(xiàn)被驗(yàn)證和3,3-二吲哚基甲烷有關(guān)系。排名第1的為hsa-mir-146a,根據(jù)文獻(xiàn)表明3,3-二吲哚基甲烷能夠誘導(dǎo)hsa-mir-164a表達(dá),且hsa-mir-164a能夠抑制基因MTA-2,IRAK-1和NFKB的表達(dá),進(jìn)而減少胰腺癌細(xì)胞轉(zhuǎn)移。排名第2的為hsa-mir-16。有文獻(xiàn)表明在腦CD4+T細(xì)胞中,3,3-二吲哚基甲烷促進(jìn)hsa-mir-16的表達(dá),從而抑制靶基因EAE的表達(dá)。最近的研究表明3,3-二吲哚基甲烷和排名6,8,12的hsa-mir-181a,hsa-mir-125b,hsa-mir-34a有關(guān)系。3,3-二吲哚基甲烷抑制這些miRNA表達(dá),從而可以誘導(dǎo)肝臟中caspase-2基因表達(dá)。排名第9的為hsa-mir-200b。研究表明3,3-二吲哚基甲烷可以上調(diào)乳腺癌的SKBR3細(xì)胞系中的hsa-mir-200b。排名第11為hsa-mir-221,研究表明在胰腺癌總,3,3-二吲哚基甲烷可以改變hsa-mir-221的表達(dá),從而改變PTEN,p27,p57和PUMA基因表達(dá)。最近研究發(fā)現(xiàn),在前列腺癌中,3,3-二吲哚基甲烷可以上調(diào)hsa-let-7e的表達(dá),從而抑制基因EZH2的表達(dá)。根據(jù)文獻(xiàn)表明在乳腺癌中,3,3-二吲哚基甲烷和赫賽汀共同作用來促進(jìn)hsa-mir-200c的表達(dá),從而抑制其靶基因的表達(dá)。另外,本發(fā)明也發(fā)現(xiàn)了一些新的miRNA,如hsa-mir-24,hsa-mir-155,hsa-mir-233,hsa-mir-181b,hsa-mir-126和hsa-mir-222。雖然這些miRNA分子機(jī)制仍然未知,這可以留給生物學(xué)家通過生物實(shí)驗(yàn)方法來驗(yàn)證期生物功能。

表1預(yù)測(cè)的miRNA

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宜丰县| 昭通市| 柳河县| 呼图壁县| 九龙县| 曲阜市| 攀枝花市| 宁安市| 大埔县| 阳江市| 唐河县| 基隆市| 台东市| 恭城| 会昌县| 新密市| 洛宁县| 襄垣县| 民乐县| 蕉岭县| 类乌齐县| 彰化县| 青川县| 鄱阳县| 丹江口市| 晴隆县| 康保县| 安庆市| 合阳县| 青川县| 延川县| 鹤峰县| 明光市| 望都县| 定西市| 舒兰市| 丰顺县| 礼泉县| 独山县| 新化县| 韩城市|