一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法
【專利摘要】本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,公開了一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法。首先,量化多個數(shù)據(jù)源對蛋白質(zhì)相互作用的強弱描述,形成多視圖數(shù)據(jù);進(jìn)而,利用本發(fā)明提出的聚合非負(fù)矩陣算法對多視圖數(shù)據(jù)進(jìn)行一致矩陣分解,通過得到對多視圖信息的最優(yōu)近似,確定蛋白質(zhì)的功能模塊。本發(fā)明提出一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法,著眼于同時分析多生物數(shù)據(jù),包括基因共表達(dá)、GO注釋和PPIN,從多視圖中提取聚合特征最為一致的蛋白質(zhì)功能模塊。本發(fā)明尤其適用于蛋白質(zhì)相互作用網(wǎng)絡(luò)和生物數(shù)據(jù),同時可應(yīng)用于社交復(fù)雜網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)的社區(qū)挖掘問題。
【專利說明】一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及一種融合多種生物數(shù)據(jù)源和蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein-protein interaction network, PPIN)的蛋白質(zhì)功能模塊檢測方法。
【背景技術(shù)】
[0002]基于蛋白質(zhì)相互作用網(wǎng)絡(luò)分析蛋白質(zhì)的具體功能是目前生物信息學(xué)研究中的一大熱點。蛋白質(zhì)相互作用(Protein-protein interaction, PPI)描述的是兩個蛋白質(zhì)間的物理直接連接,或者具有一致功能的兩個蛋白質(zhì)的間接連系。PPIN以每個蛋白質(zhì)為結(jié)點,兩個蛋白質(zhì)間的相互關(guān)系作為兩結(jié)點的邊,形成一無向圖。在生物體內(nèi),多數(shù)蛋白質(zhì)通過相互作用形成功能意義上緊密聯(lián)系的集合,也就是功能模塊,從而共同執(zhí)行相應(yīng)的一種或多種生命活動,因此分析PPI功能意義是了解和掌握生命活動的分子機制的基礎(chǔ)。至今,學(xué)術(shù)各界已提出多種聚類方法用來檢測PPIN中的功能模塊,其中基于非監(jiān)督學(xué)習(xí)的聚類方法是最常用的PPI模塊挖掘方法。然而,由于PPI數(shù)據(jù)的高噪聲和不完整性,聚類結(jié)果大多不能令人滿意。有學(xué)者證實酵母雙雜交實驗(Yeast Two-Hybrid)所檢測到的PPI的誤報率(False Positive)可達(dá)50%。基于如此大噪聲比例的數(shù)據(jù),單純依據(jù)PPIN的拓?fù)涮卣鞑荒鼙WC得到可靠的功能模塊檢測結(jié)果。。這也是之前一些傳統(tǒng)功能模塊挖掘方法,如MC0DE, CFinder,馬爾科夫聚類(Markov Clustering, MCL)等方法的一大掣肘。
[0003]近年來生物數(shù)據(jù)收集方法日新月異,結(jié)合多種數(shù)據(jù)對PPI進(jìn)行研究成為可能。首先,基因表達(dá)數(shù)據(jù)被用于尋找共表達(dá)的基因和基因產(chǎn)物。這一方法的基本假設(shè)是,在一段生命過程中表達(dá)模式相似的基因(或基因產(chǎn)物)傾向具有相同的功能,同時在PPIN中也更傾向于相互聯(lián)系形成密集功能模塊。Segal等人依據(jù)基因共表達(dá)的模式特征來提取功能模塊;Li和Wu將基因共表達(dá)作為PPIN權(quán)重進(jìn)行網(wǎng)絡(luò)分析。另一方面,Cho等人利用基因本體注釋信息(Gene Ontology, GO)計算蛋白質(zhì)相似度,并據(jù)此構(gòu)建了蛋白質(zhì)功能流在網(wǎng)絡(luò)中的傳輸模型,功能流所到之處被劃分為同一功能模塊。這一方法體現(xiàn)了蛋白質(zhì)功能在網(wǎng)絡(luò)中的動態(tài)傳遞概念,并解決了多功能蛋白質(zhì)的多功能模塊從屬,即功能模塊的重疊問題。
[0004]這些方法均達(dá)到一定程度的成功。然而不同的數(shù)據(jù)各有傾向:基因共表達(dá)傾向于檢測細(xì)胞生命過程中表達(dá)模式一致的蛋白質(zhì)群,而GO則是靜態(tài)描述的功能信息。同時,二者各有弊端:首先,基因表達(dá)數(shù)據(jù)在收集過程中,實驗本身引入的噪聲不可避免;其次,由于人類技術(shù)所限,還有豐富的基因功能特質(zhì)依然未知,GO注釋信息也仍在不斷完善。將每個角度所獲得的數(shù)據(jù)看做一個視圖。如何從多視圖中提取出最準(zhǔn)確的信息是生物信息學(xué)及數(shù)據(jù)挖掘界一直面臨的難題。
【發(fā)明內(nèi)容】
[0005]針對蛋白質(zhì)相互作用數(shù)據(jù)的高噪聲問題,提出一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法。本方法著眼于同時分析多生物數(shù)據(jù),包括基因共表達(dá)、GO注釋和PPIN,從多視圖中提取聚合特征最為一致的蛋白質(zhì)功能模塊。該方法尤其適用于蛋白質(zhì)相互作用網(wǎng)絡(luò)和多生物數(shù)據(jù)的融合分析,同時可應(yīng)用于社交復(fù)雜網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)的社區(qū)挖掘問題。
[0006]本發(fā)明所采取的技術(shù)方案是:首先,量化多個數(shù)據(jù)源對蛋白質(zhì)相互作用的強弱描述,形成多視圖數(shù)據(jù);進(jìn)而,利用本發(fā)明提出的聚合非負(fù)矩陣算法對多視圖數(shù)據(jù)進(jìn)行一致矩陣分解,通過得到對多視圖信息的最優(yōu)近似,確定蛋白質(zhì)的功能模塊。
[0007]—種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法,包括以下步驟:
[0008]步驟1:構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的鄰接矩陣A。 [0009]每個結(jié)點順序編號并標(biāo)記為(1,2,…,N) ,N為結(jié)點總數(shù)。結(jié)點1、j間的邊記為eg,且0〈1〈隊0〈」^;忽略自相關(guān)關(guān)系,4的對角線元素全部設(shè)定為0。由于相互作用無方向指向,因此A為對稱矩陣。 [0010]步驟2:計算基因表達(dá)模式的相似程度。
[0011]采用Pearson相關(guān)系數(shù)計算基因表達(dá)模式的相似程度,并歸一化至[0,I]。
[0012]步驟3:計算基因表達(dá)譜上的相似矩陣。
[0013]將基因共表達(dá)相關(guān)系數(shù)作為eij的權(quán)重,與PPIN結(jié)合,獲得基因表達(dá)譜上的相似矩陣 wCO:
[0014]WCOij = CoExpijXAij
[0015]其中,CoExp為基因共表達(dá)相關(guān)系數(shù);X代表元素相乘。
[0016]步驟4:提取蛋白質(zhì)所對應(yīng)的基因本體標(biāo)注。
[0017]選擇GO的三個不同知識體系當(dāng)中的生物過程(Biological Process, BP)體系,并選擇在BP標(biāo)注體系中每個蛋白質(zhì)的GO注釋條目,用以計算步驟5、6中基因及基因生成物的相似度。
[0018]步驟5:計算兩注釋條目的功能相似度。
[0019]采用基于信息量(Information Content, IC)的方法,即測量比較任意兩條目間共同的信息量大小,計算兩注釋條目的功能相似度,方法如下:
[0020]給定BP注釋體系中任一個條目(:,Φ為BP中從屬于c的所有子條目的集合,p(C)表示一個基因被Φ中任一條目所注釋的概率,并以負(fù)對數(shù)形式表示該條目所包含的信息量,即-log (p (c))。計算兩個條目的功能相似度,即二者最低層的共有父條目結(jié)點的信息量大小,公式如下:
【權(quán)利要求】
1.一種針對多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法,其特征在于包括以下步驟: 步驟1:構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)PPIN的鄰接矩陣A ; 每個結(jié)點順序編號并標(biāo)記為(1,2,…,N),N為結(jié)點總數(shù);結(jié)點1、j間的邊記為,且.0〈i〈N,0〈j〈N ;忽略自相關(guān)關(guān)系,A的對角線元素全部設(shè)定為O ;相互作用無方向指向,A為對稱矩陣; 步驟2:計算基因表達(dá)模式的相似程度; 采用Pearson相關(guān)系數(shù)計算基因表達(dá)模式的相似程度,并歸一化至[0,I]; 步驟3:計算基因表達(dá)譜上的相似矩陣; 將基因共表達(dá)相關(guān)系數(shù)作為的權(quán)重,與PPIN數(shù)據(jù)結(jié)合,獲得基因表達(dá)譜上的相似矩陣 wCO:
WCOij = CoExpij X Aij 其中,CoExp為基因共表達(dá)相關(guān)系數(shù);X代表兀素相乘; 步驟4:提取蛋白質(zhì)所對應(yīng)的基因本體標(biāo)注; 選擇基因本體注釋信息GO的三個不同知識體系當(dāng)中的生物過程體系,并選擇在生物過程標(biāo)注體系中每個蛋白質(zhì)的GO注釋條目,用以計算步驟5、6中基因及基因生成物的相似度; 步驟5:計算兩注釋條目的功能相似度; 給定生物過程BP注釋體系中任一個條目C,Φ為BP中從屬于c的所有子條目的集合,P(c)表示一個基因被Φ中任一條目所注釋的概率,并以負(fù)對數(shù)形式表示該條目所包含的信息量,即_log(p(C));計算兩個條目的功能相似度,即二者最低層的共有父條目結(jié)點的信息量大小,公式如下:
【文檔編號】G06F19/24GK103559426SQ201310545984
【公開日】2014年2月5日 申請日期:2013年11月6日 優(yōu)先權(quán)日:2013年11月6日
【發(fā)明者】賈克斌, 張媛 申請人:北京工業(yè)大學(xué)