置。
[0051] 下文所述的實施方式的配置和方法可以有限制地應用于上文所述的計算裝置 100,并且可以對計算裝置100應用相應實施方式的整體或部分的選擇性組合,從而使所述 實施方式的各種變化形式是可能的。
[0052] 將利用計算裝置100來詳細描述提取胰腺癌診斷用生物標志物的方法。
[0053] 本文所述的用于提取生物標志物的集成分析算法包括差異表達基因分析算法和 微RNA靶基因分析算法的組合。
[0054] 首先,將描述差異表達基因分析算法。差異表達基因分析算法的目的是利用線性 模型以統(tǒng)計學顯著的程度發(fā)現(xiàn)胰腺癌患者中與正常人不同的過表達或欠表達的基因,由此 發(fā)現(xiàn)能區(qū)分正常人組與患者組的基因,該算法為考慮多種因素的高級統(tǒng)計學方法(參考文 南犬:Statistical Applications in Genetics and Molecular Biology,第 3 卷,第 I 期, 第3篇文章)。
[0055] 差異表達基因分析算法可以寬泛地劃分為數(shù)據(jù)歸一化和統(tǒng)計分析。在數(shù)據(jù)歸一 化中,將獲自正常人組和患者組的整個人基因組的微陣列數(shù)據(jù)整合并校正??梢允褂敏?棒多芯片平均(RMA)算法進行數(shù)據(jù)歸一化(參考文獻:Biostatistics,第4卷,第2期, 249-264)〇
[0056] 在統(tǒng)計學分析中,利用線性模型,基于歸一化數(shù)據(jù)選出在兩組(即,正常人組和患 者組)之間表達量具有統(tǒng)計學顯著性差異的基因。可以選擇q值(統(tǒng)計學顯著性概率) 為0.01以下的基因,所述q值是利用參考文獻[(Journal of the Royal Statistical Society, Series B(Methodological),第 57 卷,第 I 期,289-300)]中描述的錯誤發(fā)現(xiàn)率 (FDR)方法校正了的p值。
[0057] 利用用于提取胰腺癌診斷生物標志物的差異表達基因分析算法,本發(fā)明的計算裝 置100可以使用在胰腺癌患者中異常表達(過表達或欠表達)的基因列表。利用差異表達 基因分析算法發(fā)現(xiàn)胰腺癌患者中異常表達的基因列表是本領域公知的,因此略去對其的詳 細解釋。
[0058] 下面將描述微RNA靶基因分析算法。本文所述的微RNA靶基因分析算法提供了一 種統(tǒng)計學等式,該等式能夠利用獲自常規(guī)微RNA數(shù)據(jù)庫的微RNA靶基因預測評分、獲自微陣 列測試的微RNA與基因之間的表達模式相關系數(shù)以及根據(jù)生物學機理計算出的權重中的 至少一種來準確找到微RNA的靶基因。
[0059] 下文將詳細描述微RNA靶基因預測評分(或相互作用評分)、相關系數(shù)和權重的計 算方法。為便于描述,本文所用的表述『miRNA』是指微RNA。
[0060] 微RNA靶基閔預測評分的計筧
[0061] 本發(fā)明的計算裝置100可以計算相互作用評分,相互作用評分以數(shù)字形式表示了 微RNA和其靶基因之間的互補結合水平。相互作用評分表明了微RNA和其靶基因之間的互 補結合潛力的水平。將參照下文所述的附圖更詳細地描述該相互作用評分的計算方法。
[0062] 圖2是說明計算miRNA和基因之間的相互作用評分的實例的概念圖。圖3是說明 計算相互作用評分的方法的流程圖。
[0063] 參見圖2和3,首先,計算裝置100利用至少一個miRNA靶預測工具獲取從miRNA 與基因之間的預測評分以統(tǒng)計學方式獲得的數(shù)據(jù)庫(S310)。
[0064] miRNA靶預測工具可以是以數(shù)字形式表示靶基因和miRNA對的結合水平的軟 件工具,所述miRNA與靶基因互補結合并由此抑制從所述靶基因合成蛋白。用于獲取基 因-miRNA對的預測評分的 miRNA革E預測工具包括 Targetscan、miRDB、DIANA_microT、PITA、 miRanda、MicroCosm、RNAhybrid、PicTar 和 RNA22 等。下表 1 中不出 了對各 miRNA 革巴預測 工具的簡略說明。
[0065] [表 1]
[0067] 使用靶預測工具,能夠獲得miRNA和可以與其互補結合的基因之間的預測評分。 隨著預測評分降低,miRNA和基因之間的互補結合可能性也降低。
[0068] 靶預測工具可以由本發(fā)明的計算裝置100驅動,而且,可通過控制單元140的計算 而獲取以統(tǒng)計學方式從miRNA-基因對的預測評分獲得的數(shù)據(jù)庫,但本發(fā)明不限于此。本發(fā) 明的計算裝置100可以利用靶預測工具從遠程服務器獲取以統(tǒng)計學方式從miRNA-基因對 的預測評分獲得的數(shù)據(jù)庫。
[0069] 為了增加miRNA-基因對的預測評分的可靠性,優(yōu)選利用多種靶預測工具而非一 種靶預測工具來獲取多個數(shù)據(jù)庫。圖2顯示了其中使用PITA、DIANA-microT、TargetScan、 MicroCosm、miRDB和miRanda作為革E預測工具的實例。
[0070] 在使用靶預測工具獲取以統(tǒng)計學方式從miRNA-基因對的預測評分獲得的數(shù)據(jù)庫 的情形中,為了對數(shù)據(jù)庫進行歸一化,控制單元140可以基于miRNA-基因對的預測評分的 排位來計算歸一化評分(S320)。
[0071] 從表1所示的實例可見,用于miRNA靶預測工具的信息可以不同,且在各個數(shù)據(jù)庫 之間用于評出預測評分的單元可以不同。因此,為使用多個數(shù)據(jù)庫,可能需要對這些數(shù)據(jù)庫 進行歸一化。為將mi RNA-基因對的預測評分歸一化,控制單元140基于mi RNA-基因對的預 測評分來確定各數(shù)據(jù)庫的排位,將預測評分轉化為標準評分,并將各數(shù)據(jù)庫中的miRNA-基 因對的標準評分相加以獲取歸一化評分。等式1提供了用于獲取每一個歸一化評分的等式 的實例。
[0072] [等式 1]
[0074] 其中,i代表第i個數(shù)據(jù)庫,n代表數(shù)據(jù)庫的數(shù)目(例如,在圖2中,由于利用6個 預測工具獲取了 6個數(shù)據(jù)庫,因此將n設定為6),1\代表在第i個數(shù)據(jù)庫中的miRNA-基因 對的總數(shù),且Rli j代表第j對miRNA-基因對在第i個數(shù)據(jù)庫中的排位。
[0075] 例如,在包括100對miRNA-基因對的第一數(shù)據(jù)庫中,當在這100對miRNA 1-基因 1對中miRNA 1-基因1對的預測評分排位為第20,則第一數(shù)據(jù)庫中的miRNA 1-基因1對的 標準評分可以為(100+1-20)/100 = 0. 81。控制單元140將第2至第n數(shù)據(jù)庫中的miRNA 1-基因1對的標準評分相加,以計算出miRNA 1-基因1對的歸一化評分。
[0076] 然后,控制單元140可以基于歸一化評分來確定miRNA相對于特定基因的排位和 基因相對于特定miRNA的排位(S330)。
[0077] 例如,假設存在miRNAl、miRNA3和miRNA4,它們是與基因1互補結合的miRNA,基 于基因1-miRNAl、基因l-miRNA3和基因l-miRNA4各自的歸一化評分,控制單元140可以根 據(jù)對基因1的互補結合能力(即,根據(jù)歸一化評分的排位)來確定miRNA的排位。如圖2 所示,由于miRNAl-基因1之間的歸一化評分被定為0. 4且miRNA3-基因1之間的歸一化 評分被定為〇. 6,因此對于基因1而言,miRNAl的排位為第2,而miRNA3的排位為第3。
[0078] 基因相對于特定miRNA的排位可以通過上文所述的方法確定。例如,當能與 miRNAl互補結合的基因是基因1和基因3時,基于miRNAl-基因1和miRNAl-基因3各自 的歸一化評分,控制單元140可以根據(jù)對miRNAl的互補結合力(水平)(即,根據(jù)歸一化評 分的排位)來確定基因的排位。如圖2所示,由于miRNAl-基因1之間的歸一化評分被定 為0.4而miRNAl-基因3之間的歸一化評分被定為0.5,因此對于miRNAl而言,基因1的排 位為第2,而基因3的排位為第1。
[0079] 然后,控制單元140可以基于基因和miRNA的排位來計算基因-miRNA之間的相互 作用評分(S340)。等式2提供了用于計算該相互作用評分的等式的實例。
[0080][等式 2]
[0082] 其中,U代表第i個miRNA與各基因之間配對的數(shù)目("miRNAr基因"的數(shù)目), t g]代表第j個基因與各miRNA之間配對的數(shù)目("基因,-miRNA"的數(shù)目),&代表第i個 miRNA相對于第j個基因的歸一化評分排位,且r gj代表第j個基因相對于第i個miRNA的 歸一化評分排位。
[0083] 相關件計筧
[0084] 上文所述的靶miRNA預測工具不具有與所有的人miRNA和基因相關的數(shù)據(jù)庫。在 本發(fā)明中,無法用靶miRNA預測工具預測的各種miRNA和基因的相互作用評分可以利用 miRNA之間的相似性、miRNA之間的相互影響以及基因的轉錄因子來獲取。
[0085] 實施例1.基于相關件的權重的計筧
[0086] 本發(fā)明的計算裝置100可以獲取與通過微陣列測試獲得的特定miRNA和特定基因 的表達模式有關的相關系數(shù),并可以預測與特定miRNA相似的相似miRNA和特定基因之間 的相關系數(shù)。將參照后文所述的附圖來詳細描述相似miRNA和特定基因之間的相關系數(shù)的 計算。
[0087] 圖4是說明利用相似性數(shù)據(jù)庫計算相似miRNA和特定基因之間的相關系數(shù)的方法 的概念圖,圖5是說明利用相似性數(shù)據(jù)庫計算相似miRNA和特定基因之間的相關系數(shù)的方 法的流程圖。
[0088] 首先,在輸入通過微陣列測試獲得的包括基因表達譜和miRNA表達譜的實驗數(shù)據(jù) (S510)之后,控制單元140基于所輸入的實驗數(shù)據(jù)來計算特定miRNA和特定基因之間的相 關性(S520)。
[0089] 關于所述微陣列測試,基因微陣列是用來測定生物體中的所有或部分基因的表達 水平的工具,其稱為『DNA微陣列』?;蛭㈥嚵袑虻挠^測從基因級別擴展至整個生 物體,因此使得能夠將生物體作為單一體系來對其進行研究。另外,基因微陣列基本上通過 并行進行常規(guī)基因檢測技術而在大規(guī)模上進行,而且在數(shù)據(jù)處理和分析方面帶來了重大改 變?;蛭㈥嚵型ǔH缦逻M行。首先,將數(shù)千至數(shù)十萬個基因序列固定在尺寸為約Icm 2的 載玻片表面上,從在各種實驗條件下收集的細胞中提取出RNA,將其逆轉錄為DNA并用熒光 物質進行標記。隨后,使標記的DNA與微陣列雜交并掃描以獲得圖像,利用圖像分析程序測 量熒光物質在基因部位中的熒光強度,確定基因是否表達,并利用例如數(shù)學、統(tǒng)計學和計算 機工程等信息學通過與定量的基因表達水平進行比較來分析基因的表達水平。
[0090] 通過上述微陣列測試,可以以數(shù)字形式表示出特定miRNA和特定基因的表達水 平。特定miRNA和特定基因的相關性是Pearson相關性,其可以表明相對于特定基因的表 達水平增加的特定