一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法

文檔序號：6518055閱讀：319來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法
【專利摘要】本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，公開了一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法。首先，量化多個數(shù)據(jù)源對蛋白質(zhì)相互作用的強弱描述，形成多視圖數(shù)據(jù)；進(jìn)而，利用本發(fā)明提出的聚合非負(fù)矩陣算法對多視圖數(shù)據(jù)進(jìn)行一致矩陣分解，通過得到對多視圖信息的最優(yōu)近似，確定蛋白質(zhì)的功能模塊。本發(fā)明提出一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法，著眼于同時分析多生物數(shù)據(jù)，包括基因共表達(dá)、GO注釋和PPIN，從多視圖中提取聚合特征最為一致的蛋白質(zhì)功能模塊。本發(fā)明尤其適用于蛋白質(zhì)相互作用網(wǎng)絡(luò)和生物數(shù)據(jù)，同時可應(yīng)用于社交復(fù)雜網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)的社區(qū)挖掘問題。
【專利說明】一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，涉及一種融合多種生物數(shù)據(jù)源和蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein-protein interaction network, PPIN)的蛋白質(zhì)功能模塊檢測方法。
【背景技術(shù)】
[0002]基于蛋白質(zhì)相互作用網(wǎng)絡(luò)分析蛋白質(zhì)的具體功能是目前生物信息學(xué)研究中的一大熱點。蛋白質(zhì)相互作用(Protein-protein interaction, PPI)描述的是兩個蛋白質(zhì)間的物理直接連接，或者具有一致功能的兩個蛋白質(zhì)的間接連系。PPIN以每個蛋白質(zhì)為結(jié)點，兩個蛋白質(zhì)間的相互關(guān)系作為兩結(jié)點的邊，形成一無向圖。在生物體內(nèi)，多數(shù)蛋白質(zhì)通過相互作用形成功能意義上緊密聯(lián)系的集合，也就是功能模塊，從而共同執(zhí)行相應(yīng)的一種或多種生命活動，因此分析PPI功能意義是了解和掌握生命活動的分子機制的基礎(chǔ)。至今，學(xué)術(shù)各界已提出多種聚類方法用來檢測PPIN中的功能模塊，其中基于非監(jiān)督學(xué)習(xí)的聚類方法是最常用的PPI模塊挖掘方法。然而，由于PPI數(shù)據(jù)的高噪聲和不完整性，聚類結(jié)果大多不能令人滿意。有學(xué)者證實酵母雙雜交實驗(Yeast Two-Hybrid)所檢測到的PPI的誤報率(False Positive)可達(dá)50%。基于如此大噪聲比例的數(shù)據(jù)，單純依據(jù)PPIN的拓?fù)涮卣鞑荒鼙ＷC得到可靠的功能模塊檢測結(jié)果。。這也是之前一些傳統(tǒng)功能模塊挖掘方法，如MC0DE, CFinder,馬爾科夫聚類(Markov Clustering, MCL)等方法的一大掣肘。
[0003]近年來生物數(shù)據(jù)收集方法日新月異，結(jié)合多種數(shù)據(jù)對PPI進(jìn)行研究成為可能。首先，基因表達(dá)數(shù)據(jù)被用于尋找共表達(dá)的基因和基因產(chǎn)物。這一方法的基本假設(shè)是，在一段生命過程中表達(dá)模式相似的基因(或基因產(chǎn)物)傾向具有相同的功能，同時在PPIN中也更傾向于相互聯(lián)系形成密集功能模塊。Segal等人依據(jù)基因共表達(dá)的模式特征來提取功能模塊；Li和Wu將基因共表達(dá)作為PPIN權(quán)重進(jìn)行網(wǎng)絡(luò)分析。另一方面，Cho等人利用基因本體注釋信息(Gene Ontology, GO)計算蛋白質(zhì)相似度,并據(jù)此構(gòu)建了蛋白質(zhì)功能流在網(wǎng)絡(luò)中的傳輸模型，功能流所到之處被劃分為同一功能模塊。這一方法體現(xiàn)了蛋白質(zhì)功能在網(wǎng)絡(luò)中的動態(tài)傳遞概念，并解決了多功能蛋白質(zhì)的多功能模塊從屬，即功能模塊的重疊問題。
[0004]這些方法均達(dá)到一定程度的成功。然而不同的數(shù)據(jù)各有傾向:基因共表達(dá)傾向于檢測細(xì)胞生命過程中表達(dá)模式一致的蛋白質(zhì)群，而GO則是靜態(tài)描述的功能信息。同時，二者各有弊端:首先，基因表達(dá)數(shù)據(jù)在收集過程中，實驗本身引入的噪聲不可避免；其次，由于人類技術(shù)所限，還有豐富的基因功能特質(zhì)依然未知，GO注釋信息也仍在不斷完善。將每個角度所獲得的數(shù)據(jù)看做一個視圖。如何從多視圖中提取出最準(zhǔn)確的信息是生物信息學(xué)及數(shù)據(jù)挖掘界一直面臨的難題。

【發(fā)明內(nèi)容】

[0005]針對蛋白質(zhì)相互作用數(shù)據(jù)的高噪聲問題，提出一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法。本方法著眼于同時分析多生物數(shù)據(jù)，包括基因共表達(dá)、GO注釋和PPIN，從多視圖中提取聚合特征最為一致的蛋白質(zhì)功能模塊。該方法尤其適用于蛋白質(zhì)相互作用網(wǎng)絡(luò)和多生物數(shù)據(jù)的融合分析，同時可應(yīng)用于社交復(fù)雜網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)的社區(qū)挖掘問題。
[0006]本發(fā)明所采取的技術(shù)方案是:首先，量化多個數(shù)據(jù)源對蛋白質(zhì)相互作用的強弱描述，形成多視圖數(shù)據(jù)；進(jìn)而，利用本發(fā)明提出的聚合非負(fù)矩陣算法對多視圖數(shù)據(jù)進(jìn)行一致矩陣分解，通過得到對多視圖信息的最優(yōu)近似，確定蛋白質(zhì)的功能模塊。
[0007]—種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法，包括以下步驟:
[0008]步驟1:構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的鄰接矩陣A。 [0009]每個結(jié)點順序編號并標(biāo)記為(1，2，…，N) ,N為結(jié)點總數(shù)。結(jié)點1、j間的邊記為eg,且0〈1〈隊0〈」^;忽略自相關(guān)關(guān)系，4的對角線元素全部設(shè)定為0。由于相互作用無方向指向，因此A為對稱矩陣。 [0010]步驟2:計算基因表達(dá)模式的相似程度。
[0011]采用Pearson相關(guān)系數(shù)計算基因表達(dá)模式的相似程度，并歸一化至[0，I]。
[0012]步驟3:計算基因表達(dá)譜上的相似矩陣。
[0013]將基因共表達(dá)相關(guān)系數(shù)作為eij的權(quán)重，與PPIN結(jié)合，獲得基因表達(dá)譜上的相似矩陣 wCO:
[0014]WCOij = CoExpijXAij
[0015]其中，CoExp為基因共表達(dá)相關(guān)系數(shù)；X代表元素相乘。
[0016]步驟4:提取蛋白質(zhì)所對應(yīng)的基因本體標(biāo)注。
[0017]選擇GO的三個不同知識體系當(dāng)中的生物過程(Biological Process, BP)體系,并選擇在BP標(biāo)注體系中每個蛋白質(zhì)的GO注釋條目，用以計算步驟5、6中基因及基因生成物的相似度。
[0018]步驟5:計算兩注釋條目的功能相似度。
[0019]采用基于信息量(Information Content, IC)的方法，即測量比較任意兩條目間共同的信息量大小，計算兩注釋條目的功能相似度，方法如下:
[0020]給定BP注釋體系中任一個條目(:，Φ為BP中從屬于c的所有子條目的集合，p(C)表示一個基因被Φ中任一條目所注釋的概率，并以負(fù)對數(shù)形式表示該條目所包含的信息量，即-log (p (c))。計算兩個條目的功能相似度，即二者最低層的共有父條目結(jié)點的信息量大小，公式如下:
【權(quán)利要求】
1.一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法，其特征在于包括以下步驟: 步驟1:構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)PPIN的鄰接矩陣A ；每個結(jié)點順序編號并標(biāo)記為(1，2，…，N)，N為結(jié)點總數(shù)；結(jié)點1、j間的邊記為，且.0〈i〈N，0〈j〈N ;忽略自相關(guān)關(guān)系，A的對角線元素全部設(shè)定為O ;相互作用無方向指向，A為對稱矩陣；步驟2:計算基因表達(dá)模式的相似程度；采用Pearson相關(guān)系數(shù)計算基因表達(dá)模式的相似程度，并歸一化至[0，I]；步驟3:計算基因表達(dá)譜上的相似矩陣；將基因共表達(dá)相關(guān)系數(shù)作為的權(quán)重，與PPIN數(shù)據(jù)結(jié)合，獲得基因表達(dá)譜上的相似矩陣 wCO:
WCOij = CoExpij X Aij 其中，CoExp為基因共表達(dá)相關(guān)系數(shù)；X代表兀素相乘；步驟4:提取蛋白質(zhì)所對應(yīng)的基因本體標(biāo)注；選擇基因本體注釋信息GO的三個不同知識體系當(dāng)中的生物過程體系，并選擇在生物過程標(biāo)注體系中每個蛋白質(zhì)的GO注釋條目，用以計算步驟5、6中基因及基因生成物的相似度；步驟5:計算兩注釋條目的功能相似度；給定生物過程BP注釋體系中任一個條目C，Φ為BP中從屬于c的所有子條目的集合，P(c)表示一個基因被Φ中任一條目所注釋的概率，并以負(fù)對數(shù)形式表示該條目所包含的信息量，即_log(p(C));計算兩個條目的功能相似度，即二者最低層的共有父條目結(jié)點的信息量大小，公式如下:
【文檔編號】G06F19/24GK103559426SQ201310545984
【公開日】2014年2月5日申請日期:2013年11月6日優(yōu)先權(quán)日:2013年11月6日
【發(fā)明者】賈克斌, 張媛申請人:北京工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈克斌;張媛
技術(shù)所有人：北京工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于共享數(shù)據(jù)平臺的數(shù)據(jù)處理方法
上一篇：顯示方法和使用顯示方法的電子裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

大數(shù)據(jù)平臺功能模塊相關(guān)技術(shù)

數(shù)據(jù)庫功能模塊結(jié)構(gòu)圖相關(guān)技術(shù)

數(shù)據(jù)庫視圖相關(guān)技術(shù)

數(shù)據(jù)庫視圖的作用相關(guān)技術(shù)

數(shù)據(jù)庫創(chuàng)建視圖相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法