本發(fā)明涉及醫(yī)學(xué)基因組學(xué)和計算生物學(xué)領(lǐng)域,具體涉及一種長鏈非編碼RNA的高通量芯片數(shù)據(jù)處理及分析流程控制方法。
背景技術(shù):
長鏈非編碼RNA(long non-coding RNA,lncRNA)是一類轉(zhuǎn)錄本長度超過200nt、不編碼蛋白的RNA。長鏈非編碼RNA起初被認(rèn)為是基因組轉(zhuǎn)錄的“噪音”,不具有生物學(xué)功能。然而,近年來的研究表明長鏈非編碼RNA能在表觀遺傳、轉(zhuǎn)錄及轉(zhuǎn)錄后水平上調(diào)控基因表達(dá),參與了X染色體沉默、基因組印記以及染色質(zhì)修飾、轉(zhuǎn)錄激活、轉(zhuǎn)錄干擾、核內(nèi)運(yùn)輸?shù)榷喾N重要的調(diào)控過程,與人類疾病的發(fā)生、發(fā)展和防治都有著密切聯(lián)系。長鏈非編碼RNA通常較長,具有mRNA樣結(jié)構(gòu),有些具有poly(A)尾巴,有些沒有poly(A)尾巴,分化過程中有動態(tài)的表達(dá)與不同的剪接方式,與編碼基因相比,長鏈非編碼RNA表達(dá)量更低。且具有組織特異性即不同組織之間的長鏈非編碼RNA表達(dá)量不同和時空特異性即同一組織或器官的不同生長階段,其中的長鏈非編碼RNA表達(dá)量也會變化。長鏈非編碼RNA可從染色質(zhì)重塑、轉(zhuǎn)錄調(diào)控及轉(zhuǎn)錄后加工等多種層面實現(xiàn)對基因表達(dá)的調(diào)控,然而長鏈非編碼RNA的功能太過多種多樣,其作用機(jī)制又了解的太少,給科研工作者帶來了挑戰(zhàn)和困難,尤其是面對高通量大數(shù)據(jù)的時候。如何分析長鏈非編碼RNA大數(shù)據(jù),研究其潛在功能成為該領(lǐng)域目前急需解決的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種長鏈非編碼RNA高通量芯片數(shù)據(jù)處理及分析流程控制方法,以解決現(xiàn)有的技術(shù)對長鏈非編碼RNA高通量芯片數(shù)據(jù)處理中的不準(zhǔn)確性、以及不懂如何分析長鏈非編碼RNA等問題。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種長鏈非編碼RNA的高通量芯片處理及分析流程控制方法,包括如下步驟:
步驟1,自定義參數(shù)配置文件的生成:導(dǎo)入長鏈非編碼RNA高通量原始芯片數(shù)據(jù),經(jīng)過信號值篩選和標(biāo)準(zhǔn)化得到理論上有效的長鏈非編碼RNA,在此基礎(chǔ)上進(jìn)行生物信息學(xué)參數(shù)分析;
步驟2,輸入步驟:用戶根據(jù)需要,輸入設(shè)定的各參數(shù)配置文件;
步驟3,分析步驟:根據(jù)上述步驟輸入設(shè)定的參數(shù)配置文件,通過長鏈非編碼RNA高通量數(shù)據(jù)處理流程模塊生成對應(yīng)的自動化分析流程;
步驟4,執(zhí)行及輸出步驟:執(zhí)行上述步驟所生成的自動化分析流程,獲得并輸出長鏈非編碼RNA分析結(jié)果報告。
優(yōu)選的,所述的步驟1具體包括如下步驟:
步驟1.1,導(dǎo)入長鏈非編碼RNA高通量芯片原始信號值文件;
步驟1.2,對上述步驟導(dǎo)入的長鏈非編碼RNA高通量芯片原始信號文件進(jìn)行質(zhì)量分析并剔除低質(zhì)量信號數(shù)據(jù),獲得經(jīng)過篩選的信號數(shù)據(jù);
步驟1.3,將上述步驟獲得的經(jīng)過篩選的數(shù)據(jù)進(jìn)行前景值和背景值校正,得到消除噪音污染的長鏈非編碼RNA信號數(shù)據(jù);
步驟1.4,將上述步驟得到的信號數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,并去除極值,得到理論上有效的長鏈非編碼RNA表達(dá)值。
優(yōu)選的,所述的步驟1.2中,所述低質(zhì)量信號數(shù)據(jù)是指掃描微陣列芯片熒光強(qiáng)度作為RNA表達(dá)信號值且熒光強(qiáng)度小于30的數(shù)據(jù),同一探針的重復(fù)信號數(shù)據(jù)采用中位數(shù)計算法取中位值作為該探針的表達(dá)值。
優(yōu)選的,所述的步驟1.3中,使用針對Affymetrix芯片原理設(shè)計的Affy軟件包中的MAS5或者RMA方法根據(jù)不同的芯片類型進(jìn)行芯片數(shù)據(jù)預(yù)處理,不同的芯片類型是指單、雙色通道;MAS5得到的數(shù)據(jù)是原始信號強(qiáng)度,RMA得到的是經(jīng)過對數(shù)變換的信號值。
優(yōu)選的,所述的步驟1.4中,使用limma軟件包進(jìn)行芯片間歸一化,得到標(biāo)準(zhǔn)化的長鏈非編碼RNA表達(dá)譜數(shù)據(jù)。
優(yōu)選的,所述的步驟1中,生物信息學(xué)參數(shù)分析包括差異表達(dá)長鏈非編碼RNA的篩選,長鏈非編碼RNA的功能性分析和對長鏈非編碼RNA的調(diào)控機(jī)制分析。
優(yōu)選的,所述的差異表達(dá)長鏈非編碼RNA的篩選包括輸入指令選取1.5倍或者2倍的差異倍數(shù),選用三個標(biāo)準(zhǔn)Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差異表達(dá)的長鏈非編碼RNA。
優(yōu)選的,所述的對長鏈非編碼RNA的功能性分析包括長鏈非編碼RNA和基因數(shù)據(jù)的共表達(dá)分析,基因本體分析,代謝通路分析,化學(xué)反應(yīng)分析和調(diào)控網(wǎng)絡(luò)的構(gòu)建;
其中,所述的長鏈非編碼RNA和基因數(shù)據(jù)的共表達(dá)分析采用Pearson相關(guān)系數(shù)法或Spearman相關(guān)系數(shù)法,相關(guān)系數(shù)>=0.9,Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value;
所述的基因本體分析采用g:Profiler法從生物過程、分子功能和細(xì)胞組分三個成分進(jìn)行注釋和富集分析;
所述的代謝通路分析和化學(xué)反應(yīng)分析采用g:Profiler法通過KEGG和Reactive數(shù)據(jù)庫信息進(jìn)行分析;
優(yōu)選的,對長鏈非編碼RNA的調(diào)控機(jī)制分析包括intergenic類型的長鏈非編碼RNA的篩選,長鏈非編碼RNA的microRNA結(jié)合位點(diǎn)預(yù)測,microRNA靶基因預(yù)測和競爭性內(nèi)源RNA調(diào)控網(wǎng)絡(luò)的構(gòu)建;
其中,所述的intergenic類型的長鏈非編碼RNA的篩選整合國際權(quán)威數(shù)據(jù)庫RefSeq、UCSC、GENCODE、RNAdb、NRED和UCR數(shù)據(jù)庫信息;
所述的長鏈非編碼RNA的microRNA結(jié)合位點(diǎn)預(yù)測采用miRWalk和DIANA-lncbase數(shù)據(jù)庫信息;
所述的microRNA靶基因預(yù)測采用miRWalk和TargetScan數(shù)據(jù)庫信息。
有益效果:利用本發(fā)明,將長鏈非編碼RNA各分析步驟模塊分和流程分,能夠單獨(dú)運(yùn)行一個模塊或流程中的局部分析模塊,并進(jìn)行模塊內(nèi)規(guī)定數(shù)據(jù)分析流程的快速執(zhí)行。從而通過不同模塊的選取,幫助科研人員迅速完成一套高通量數(shù)據(jù)的前期數(shù)據(jù)質(zhì)控、功能分析和結(jié)果報告。該工具能夠優(yōu)化生物信息分析人員和科研人員的工作時間,顯著提高工作效率,降低科研成本。本發(fā)明的分析流程思路清晰,其實現(xiàn)方法簡單,可廣泛應(yīng)用于生物學(xué)研究工作中,也可用于臨床相關(guān)應(yīng)用。
本發(fā)明的方法首先由系統(tǒng)生成自定義參數(shù)配置文件,再根據(jù)用戶設(shè)定參數(shù)后的自定義參數(shù)文件和高通量數(shù)據(jù)處理流程模塊生成與數(shù)據(jù)流程對應(yīng)的批處理可執(zhí)行文件;由系統(tǒng)執(zhí)行批處理可執(zhí)行文件,實現(xiàn)數(shù)據(jù)流程自動化,最終生成結(jié)果報告文件。從而能高效的幫助生物信息分析人員完成一套標(biāo)準(zhǔn)化的高通量數(shù)據(jù)分析流程,甚至可以讓非生物信息專業(yè)的科研人員獨(dú)立完成高通量數(shù)據(jù)分析。達(dá)到優(yōu)化科研人員的工作效率,降低科研成本的目的。本發(fā)明提出了一種新穎且可靠的長鏈非編碼RNA高通量數(shù)據(jù)分析方法,在任何物種中通用,其實現(xiàn)方法簡單,應(yīng)用范圍廣泛。
附圖說明
圖1是長鏈非編碼RNA自動化分析流程;
圖2是長鏈非編碼RNA生物信息學(xué)分析步驟;
圖3是長鏈非編碼RNA-共表達(dá)基因網(wǎng)絡(luò)示意圖;
圖4是長鏈非編碼RNA生物通路富集調(diào)控示意圖;
圖5是長鏈非編碼RNA作為競爭性內(nèi)源RNA的調(diào)控示意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明作更進(jìn)一步的說明。
如圖1所示,本發(fā)明的一種長鏈非編碼RNA的高通量芯片處理及分析流程控制方法,包括如下步驟:
步驟1,自定義參數(shù)配置文件的生成:導(dǎo)入長鏈非編碼RNA高通量原始芯片數(shù)據(jù),經(jīng)過信號值篩選和標(biāo)準(zhǔn)化得到理論上有效的長鏈非編碼RNA,在此基礎(chǔ)上進(jìn)行生物信息學(xué)參數(shù)分析;
步驟2,輸入步驟:用戶根據(jù)需要,輸入設(shè)定的各參數(shù)配置文件;
步驟3,分析步驟:根據(jù)上述步驟輸入設(shè)定的參數(shù)配置文件,通過長鏈非編碼RNA高通量數(shù)據(jù)處理流程模塊生成對應(yīng)的自動化分析流程;
步驟4,執(zhí)行及輸出步驟:執(zhí)行上述步驟所生成的自動化分析流程,獲得并輸出長鏈非編碼RNA分析結(jié)果報告。
其中,步驟1具體包括如下步驟:
步驟1.1,導(dǎo)入長鏈非編碼RNA高通量芯片原始信號值文件;
步驟1.2,對上述步驟導(dǎo)入的長鏈非編碼RNA高通量芯片原始信號文件進(jìn)行質(zhì)量分析并剔除低質(zhì)量信號數(shù)據(jù),獲得經(jīng)過篩選的信號數(shù)據(jù);其中,低質(zhì)量信號數(shù)據(jù)是指掃描微陣列芯片熒光強(qiáng)度作為RNA表達(dá)信號值且熒光強(qiáng)度小于30的數(shù)據(jù),同一探針的重復(fù)信號數(shù)據(jù)采用中位數(shù)計算法取中位值作為該探針的表達(dá)值;
步驟1.3,將上述步驟獲得的經(jīng)過篩選的數(shù)據(jù)進(jìn)行前景值和背景值校正,得到消除噪音污染的長鏈非編碼RNA信號數(shù)據(jù);其中,使用針對全球銷量第一的Affymetrix芯片原理設(shè)計的Affy軟件包中的MAS5或者RMA方法根據(jù)不同的芯片類型進(jìn)行芯片數(shù)據(jù)預(yù)處理,不同的芯片類型是指單、雙色通道;MAS5得到的數(shù)據(jù)是原始信號強(qiáng)度,RMA得到的是經(jīng)過對數(shù)變換的信號值;
步驟1.4,將上述步驟得到的信號數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,并去除極值,得到理論上有效的長鏈非編碼RNA表達(dá)值;其中,使用目前芯片處理最通用的limma軟件包進(jìn)行芯片間歸一化,得到標(biāo)準(zhǔn)化的長鏈非編碼RNA表達(dá)譜數(shù)據(jù)。
如圖2所示,步驟1中,生物信息學(xué)參數(shù)分析包括差異表達(dá)長鏈非編碼RNA的篩選,長鏈非編碼RNA的功能性分析和對長鏈非編碼RNA的調(diào)控機(jī)制分析。
其中,差異表達(dá)長鏈非編碼RNA的篩選包括輸入指令選取1.5倍或者2倍的差異倍數(shù)(Fold change),選用國際最通用的三個標(biāo)準(zhǔn)Benjamini–Hochberg方法、FDR方法或者Bonforroni方法校正P-value得到差異表達(dá)的長鏈非編碼RNA。
長鏈非編碼RNA的功能性分析包括長鏈非編碼RNA和基因數(shù)據(jù)的共表達(dá)分析,基因本體分析,代謝通路分析,化學(xué)反應(yīng)分析和調(diào)控網(wǎng)絡(luò)的構(gòu)建。
對長鏈非編碼RNA的調(diào)控機(jī)制分析包括intergenic類型的長鏈非編碼RNA的篩選,長鏈非編碼RNA的microRNA結(jié)合位點(diǎn)預(yù)測,microRNA靶基因預(yù)測和競爭性內(nèi)源RNA調(diào)控網(wǎng)絡(luò)的構(gòu)建。
在本發(fā)明的一個實施方案中,在R平臺,使用limma軟件包的linear model線性擬合數(shù)據(jù),通過經(jīng)驗Bayes t test得到差異表達(dá)的長鏈非編碼RNA結(jié)果。
linear model是limma軟件的線性模型算法,用來分析實驗以及評估差異表達(dá)。
E[yj]=Xαj
上式中,Yj表示gene J的表達(dá)值;X是實驗設(shè)計矩陣;Αj是系數(shù)向量。
經(jīng)驗Bayes t test檢驗是檢驗樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計量。
上式中,為樣本平均數(shù);μ為總體平均數(shù);N為樣本容量;σx為樣本標(biāo)準(zhǔn)差。
在本發(fā)明的一個實施方案中,在R平臺,對差異長鏈非編碼RNA的結(jié)果進(jìn)行錯誤發(fā)現(xiàn)率矯正??梢圆捎肂enjamini–Hochberg,F(xiàn)DR和Bonferroni方法。
Benjamini–Hochberg方法
上式中,α是給定的顯著性閥值;K代表樣本容量;M代表從小到大的排列順序。
FDR方法
上式中,M0代表零假設(shè)是真的時候的樣本總數(shù);M代表樣本容量;Q為顯著性閥值。
Bonferroni方法
P=α/k
上式中,α是給定的顯著性閥值;K是樣本容量。
在本發(fā)明的一個實施方案中,在R平臺,對長鏈非編碼RNA的表達(dá)譜數(shù)據(jù)和基因表達(dá)譜數(shù)據(jù)進(jìn)行共表達(dá)分析,可以使用Pearson和Spearman兩種算法進(jìn)行計算。相關(guān)系數(shù)>=0.9,選用Benjamini–Hochberg方法、FDR或者Bonforroni方法校正P-value。
Pearson相關(guān)系數(shù)是用來衡量兩個數(shù)據(jù)集合是否在一條線上面,它用來衡量定距變量間的線性關(guān)系。
上式中,Z:代表正態(tài)分布中,數(shù)據(jù)偏離中心點(diǎn)的距離;等于變量減掉平均數(shù)再除以標(biāo)準(zhǔn)差;N為樣本容量。
Spearman相關(guān)系數(shù)對原始變量分布不作要求,屬于非參數(shù)統(tǒng)計方法。
rs=1-6∑(Xi-Yi)2/n(n2-1)
上式中,Xi和Yi分別為兩個變量按大小排位的等級;n為樣本容量。
在本發(fā)明的一個實施方案中,在R平臺,與長鏈非編碼RNA顯著共表達(dá)的基因采用g:Profiler法從生物過程、分子功能和細(xì)胞組分三個成分進(jìn)行基因本體注釋和富集分析,差異顯著可以用Benjamini–Hochberg和Bonferroni。
在本發(fā)明的一個實施方案中,在R平臺,采用g:Profiler法整合KEGG和Reactive數(shù)據(jù)庫信息對與長鏈非編碼RNA顯著共表達(dá)的基因進(jìn)行代謝通路和化學(xué)反應(yīng)分析,差異顯著可以用Benjamini–Hochberg和Bonferroni方法。
在本發(fā)明的一個實施方案中,因為長鏈非編碼RNA和共表達(dá)的基因具有相近的功能,在得到基因的基因本體、代謝或者反應(yīng)信息確定其功能后,將兩者結(jié)合,生成含有這些信息的網(wǎng)絡(luò)文件??梢杂肅ytoscape軟件打開,圖形化展示長鏈非編碼RNA潛在功能調(diào)控網(wǎng)絡(luò)。
在本發(fā)明的一個實施方案中,對intergenic類型的長鏈非編碼RNA的篩選整合了國際權(quán)威數(shù)據(jù)庫NCBI的RefSeq、UCSC、GENCODE和NRED等數(shù)據(jù)庫信息。
RefSeq數(shù)據(jù)庫
RefSeq數(shù)據(jù)庫,即RefSeq參考序列數(shù)據(jù)庫,美國國家生物信息技術(shù)中心(NCBI)提供的具有生物意義上的非冗余的基因和蛋白質(zhì)序列。
UCSC數(shù)據(jù)庫
UCSC Genome Browser是由University of California Santa Cruz(UCSC)創(chuàng)立和維護(hù)的,該站點(diǎn)包含有人類、小鼠和大鼠等多個物種的基因組草圖,并提供一系列的網(wǎng)頁分析工具。站點(diǎn)用戶可以通過它可靠和迅速地瀏覽基因組的任何一部分,并且同時可以得到與該部分有關(guān)的基因組注釋信息,如已知基因,預(yù)測基因,表達(dá)序列標(biāo)簽,信使RNA,CpG島,克隆組裝間隙和重疊,染色體帶型,小鼠同源性等。用戶也可以因為教育或科研目的加上他們自己的注釋信息。UCSC Genome Browser目前應(yīng)用相當(dāng)廣泛,比如Ensembl就是使用它的人類基因組序列草圖為基礎(chǔ)的。
GENCODE數(shù)據(jù)庫
國家人類基因組研究所(NHGRI)發(fā)起了一項公眾研究ENCODE——the Encyclopedia Of DNA Elements,DNA元素百科全書。自2003九月起,開展識別所有在人類基因組序列的功能元素的項目。Wellcome Trust Sanger研究所進(jìn)行基因注釋功能集成放大的GENCODE項目。
NRED數(shù)據(jù)庫
NRED數(shù)據(jù)庫提供人和小鼠的長鏈非編碼RNA在芯片數(shù)據(jù)的表達(dá)信息。
在本發(fā)明的一個實施方案中,對長鏈非編碼RNA序列的miRNA結(jié)合位點(diǎn)預(yù)測采用miRWalk和DIANA-LncBase數(shù)據(jù)庫信息進(jìn)行預(yù)測,并取其交集。
miRWalk數(shù)據(jù)庫
miRWalk是一個綜合性數(shù)據(jù)庫,不僅提供來自人類、小鼠和大鼠的長鏈非編碼RNA的預(yù)測信息和經(jīng)過驗證的位于其靶基因上的結(jié)位點(diǎn),也提供mRNA的預(yù)測信息和驗證信息,共整合了13個公共數(shù)據(jù)庫資源。
DIANA-LncBase數(shù)據(jù)庫
DIANA-LncBase保存了全轉(zhuǎn)錄組實驗驗證的和計算預(yù)測的人類和小鼠lncRNAs上的miRNA識別元件(miRNA recognition elements,MREs)。其分析包括了大量的lncRNA資源的整合,相關(guān)高通量HITS-CLIP和PAR-CLIP實驗數(shù)據(jù),以及最新的計算靶預(yù)測。其中有效的實驗支持條目超過了5000對相互作用,計算預(yù)測的相互作用超過1000萬對。DIANA-LncBase保存了每個miRNA-lncRNA對的詳細(xì)信息,例如外部鏈接,轉(zhuǎn)錄本基因組位置的圖形繪制,結(jié)合位點(diǎn)的表征,lncRNA組織表達(dá)以及MREs的保守性得分和預(yù)測得分。
在本發(fā)明的一個實施方案中,對microRNA靶基因預(yù)測采用miRWalk和TargetScan數(shù)據(jù)庫信息進(jìn)行預(yù)測,并取其交集。
TargetScan數(shù)據(jù)庫
TargetScan是由長鏈非編碼RNA領(lǐng)域大牛Bartel實驗室開發(fā)的數(shù)據(jù)庫?;诎衜RNA序列的進(jìn)化保守等特征搜尋動物的長鏈非編碼RNA靶基因。是預(yù)測長鏈非編碼RNA靶標(biāo)假陽性率較低的數(shù)據(jù)庫。
在本發(fā)明的一個實施方案中,得到的intergenic類型長鏈非編碼RNA、長鏈非編碼RNA通過結(jié)合位點(diǎn)吸附的microRNA以及microRNA調(diào)控的靶基因數(shù)據(jù),構(gòu)建長鏈非編碼RNA作為競爭性內(nèi)源RNA的調(diào)控網(wǎng)絡(luò),生成含有所有信息的文件??梢杂肅ytoscape軟件打開,圖形化展示長鏈非編碼RNA的競爭性內(nèi)源RNA調(diào)控網(wǎng)絡(luò)。
以下結(jié)合具體實施例對上述方案做進(jìn)一步說明。應(yīng)理解,這些實施例是用于說明本發(fā)明而不是限制本發(fā)明的范圍。實施例中采用的實施條件可以根據(jù)具體應(yīng)用要求的條件做進(jìn)一步調(diào)整,未注明的實施條件通常為常規(guī)實驗中的條件。
實施例
首先對原始數(shù)據(jù)進(jìn)行過濾處理,然后去除低質(zhì)量信號和噪音污染的數(shù)據(jù),經(jīng)過標(biāo)準(zhǔn)化后得到有效的長鏈非編碼RNA表達(dá)值?;陂L鏈非編碼RNA分析結(jié)果,可以基于其序列特征,進(jìn)行靶基因預(yù)測;也可以結(jié)合共表達(dá)的基因表達(dá)譜對其進(jìn)行功能預(yù)測。長鏈非編碼RNA-共表達(dá)基因網(wǎng)絡(luò)如圖3所示。在上述分析的基礎(chǔ)上,可進(jìn)行一系列的統(tǒng)計學(xué)和可視化分析。
1.長鏈非編碼RNA原始信號文件如表1所示
分析平臺:R平臺
分析軟件:Affy,limma
表1
列名解釋:
2.長鏈非編碼RNA芯片表達(dá)結(jié)果如表2所示
分析平臺:R平臺
分析軟件:limma,sva
表2
列名解釋:
3.差異表達(dá)的長鏈非編碼RNA結(jié)果如表3所示
分析平臺:R平臺
分析軟件:limma,openxlsx
表3
列名解釋:
4.長鏈非編碼RNA和基因的相關(guān)系數(shù)如表4所示
分析平臺:R平臺
分析方法:Pearson,Spearman
表4
列名解釋:
5.基因功能分析
為了得到與長鏈非編碼RNA顯著共表達(dá)的基因的功能,通過g:Profiler對其從生物過程、分子功能和細(xì)胞組成進(jìn)行基因本體分析,代謝通路分析和化學(xué)反應(yīng)分析。
分析平臺:R平臺
分析軟件:g:Profiler
結(jié)果如表5-9所示,生物通路富集調(diào)控示意圖如圖4所示。
表5生物通路富集分析
列名解釋
表6分子功能富集分析
列名解釋:
表7細(xì)胞組分富集分析
列名解釋:
表8 KEGG代謝通路富集分析
列名解釋:
表9 Reactive化學(xué)反應(yīng)富集分析
列名解釋:
6.長鏈非編碼RNA潛在功能調(diào)控網(wǎng)絡(luò)的構(gòu)建
分析平臺:R平臺
圖形化軟件:Cytoscape
7.長鏈非編碼RNA類型篩選
通過整合多個國際權(quán)威數(shù)據(jù)庫NCBI的RefSeq、UCSC、GENCODE和NRE等對長鏈非編碼RNA的注釋信息,篩選出intergenic類型的長鏈非編碼RNA。
結(jié)果如表10所示:
表10多數(shù)據(jù)庫長鏈非編碼RNA注釋信息
列名解釋
8.長鏈非編碼RNA結(jié)合的microRNA靶基因預(yù)測
對長鏈非編碼RNA結(jié)合的miRNA靶基因預(yù)測采用miRWalk和TargetScan數(shù)據(jù)庫信息進(jìn)行預(yù)測,并取其交集。
結(jié)果如表11-13所示:
表11 miRWalk預(yù)測結(jié)果
列名解釋:
表12 miRWalk驗證結(jié)果
列名解釋:
表13 TargetScan結(jié)果
列名解釋:
9.長鏈非編碼RNA作為競爭性內(nèi)源RNA的調(diào)控網(wǎng)絡(luò)構(gòu)建
將得到的intergenic類型長鏈非編碼RNA、長鏈非編碼RNA通過結(jié)合位點(diǎn)吸附的microRNA以及microRNA調(diào)控的靶基因數(shù)據(jù),構(gòu)建長鏈非編碼RNA作為競爭性內(nèi)源RNA的調(diào)控網(wǎng)絡(luò),生成含有所有信息的文件。
圖形化軟件:Cytoscape,長鏈非編碼RNA作為競爭性內(nèi)源RNA的調(diào)控示意圖如圖5所示。
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實例的限制,上述實例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等同物界定。