欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于生成生物標志物簽名的系統(tǒng)和方法

文檔序號:6534638閱讀:620來源:國知局
用于生成生物標志物簽名的系統(tǒng)和方法
【專利摘要】在此描述的系統(tǒng)和方法包括用于生成既可重現(xiàn)又可解釋的基因簽名的技術。該技術涉及對數(shù)據(jù)集進行重新采樣并且選擇具有高出現(xiàn)頻率的基因。具體而言,在此描述的系統(tǒng)和方法包括對數(shù)據(jù)集的重復采樣、基于通過重復采樣處理生成的基因簽名的發(fā)生頻率對基因進行排名,以及迭代地選擇最佳基因簽名。
【專利說明】用于生成生物標志物簽名的系統(tǒng)和方法
[0001] 相關申請的引用
[0002] 本發(fā)明根據(jù)35U.S.α§ 119要求在2012年6月21日提交的題為"Systemsand MethodsforGeneratingBiomarkerSignatures" 的美國臨時專利申請第 61/662, 658 號 的優(yōu)先權。

【技術領域】
[0003] 在生物醫(yī)學領域,識別指示特定生物狀態(tài)的物質(zhì)(即生物標志物(biomarker))是 重要的。隨著基因組和蛋白質(zhì)組的新技術出現(xiàn),生物標志物在生物發(fā)現(xiàn)、藥物開發(fā)和衛(wèi)生保 健中正變得愈發(fā)重要。生物標志物不僅對許多疾病的診斷和預后有用,而且對理解療法開 發(fā)的基礎有用。生物標志物的成功和有效識別可以加速新藥物開發(fā)過程。隨著療法與診斷 和預后的結(jié)合,生物標志物識別也將增強當前醫(yī)療治療的質(zhì)量,從而在藥物遺傳學、藥物基 因組學和藥物蛋白質(zhì)組學的用途中發(fā)揮重要作用。
[0004] 包括高吞吐量篩選在內(nèi)的基因組和蛋白質(zhì)組分析提供了關于以細胞表達的蛋白 質(zhì)的數(shù)目和形式的大量信息并且提供了針對每一個細胞來識別特定細胞狀態(tài)的表達蛋白 質(zhì)特性的簡檔的可能。在某些情況下,該細胞狀態(tài)可能是以與疾病相關聯(lián)的異常生理反應 為特征。結(jié)果,識別并且比較來自具有疾病的患者的細胞狀態(tài)和來自正?;颊叩膶毎?的細胞狀態(tài)可以提供診斷和治療疾病的機會。
[0005] 這些高吞吐量篩選技術提供了基因表達信息的大數(shù)據(jù)集。研宄者已經(jīng)嘗試開發(fā)用 于將這些數(shù)據(jù)集組織為對個體的多樣人群是可重現(xiàn)診斷性的模式的方法。一種方法是聚集 來自多個源的數(shù)據(jù)以形成組合數(shù)據(jù)集然后將該數(shù)據(jù)集分為發(fā)現(xiàn)/訓練集和測試/驗證集。 然而,轉(zhuǎn)錄分析數(shù)據(jù)(profilingdata)和蛋白質(zhì)表達分析數(shù)據(jù)經(jīng)常以與樣本的可用數(shù)目有 關的大量變量為特點。
[0006] 來自患者群組或者控制群組的標本的表達譜(expressionprofile)之間的觀察 差異通常被若干因素遮蔽,這些因素包括疾病或者控制人群內(nèi)的生物變化性或者未知子表 型、由研宄方案的差異引起的特定于部位的偏差、標本處理、由儀器條件的差異(例如,芯 片批次等)引起的偏差以及由測量誤差引起的變化。
[0007] 若干基于計算機的方法已被開發(fā)以尋找最好說明疾病和控制樣本之間的差異的 一組特征(標志物)。一些早期方法包括諸如UMM之類的統(tǒng)計測試、用于識別與乳腺癌有 關的生物標志物的FDA批準的ma_aprint技術、邏輯回歸技術以及諸如支持向量機(SVM) 之類機器學習方法。一般而言,從機器學習的角度,生物標志物的選擇通常是分類任務的特 征選擇問題。然而,這些早期解決方案面臨若干缺點。通過這些技術生成的簽名不是可重 現(xiàn)的,這是因為對象的包括和排除可以導致不同的簽名。這些早期解決方案也不是魯棒性 的,這是因為它們對具有小樣本尺寸和高維度的數(shù)據(jù)集進行操作。此外,通過這些技術生成 的簽名包括許多假陽性并且難以以生物方式解釋,這是因為技術和基因簽名本身都不闡明 底層生物機制。結(jié)果,因為它們不是可重現(xiàn)的并且難以解釋,因此它們對臨床診斷可能不是 特別有用。
[0008] 較新的技術涉及將關于正則通路(canonicalpathway)和蛋白質(zhì)-蛋白質(zhì)交互作 用的知識集成到基因選擇算法中。另外,若干特征選擇技術已被開發(fā),并且這些技術包括過 濾方法、包裝方法和嵌入方法。過濾方法獨立于分類器設計而工作并且通過考慮數(shù)據(jù)的內(nèi) 在屬性來執(zhí)行特征選擇。包裝和嵌入方法通過利用特定分類模型來執(zhí)行特征選擇。包裝方 法在分類模型的預測性能的引導下在可能特征子集的空間中使用搜索策略。嵌入式方法利 用分類模型內(nèi)部參數(shù)來執(zhí)行特征選擇。然而,這些技術也面臨若干缺點。
[0009] 因此,存在對為了臨床診斷、預后或者這兩者而識別生物標志物的改進技術的需 要。


【發(fā)明內(nèi)容】

[0010] 如上面提到的,早期的解決方案以及更新的嵌入和包裝方法面臨若干缺點。具體 而言, 申請人:已經(jīng)認識到這些方法依賴于所使用的具體類型的分類方法。換言之,如果分類 方法不適合用戶數(shù)據(jù)的類型,那么這些方法通常傾向于失敗或者不佳地執(zhí)行。 申請人:已經(jīng) 進一步認識到多個方法的整體傾向于做得比單獨方法更好。在此描述的計算機系統(tǒng)和計算 機程序產(chǎn)品實現(xiàn)了包括一個或多個這種整體技術并且包括用于生成可重現(xiàn)且可解釋的基 因簽名的方法。該技術涉及對數(shù)據(jù)集進行重新采樣并且選擇具有高出現(xiàn)頻率的基因。具體 而言,在此描述的計算機實現(xiàn)的方法包括對數(shù)據(jù)集的重復采樣、基于通過重復采樣處理生 成的基因簽名的發(fā)生頻率對基因進行排名,以及迭代地選擇最佳基因簽名。
[0011] 在某些方面,在此描述的系統(tǒng)和方法包括用于識別疾病情況的生物簽名或者一組 生物標志物的裝置和方法。這些方法可以包括接收多個數(shù)據(jù)集,每一個數(shù)據(jù)集包括生物系 統(tǒng)中的多個生物實體中的每一個生物實體的活動或者表達水平數(shù)據(jù)。生物系統(tǒng)可以處于若 干個狀態(tài)中的一個。例如,生物系統(tǒng)可以處于由暴露于物質(zhì)而引起的擾動狀態(tài)。在另一個 示例中,生物系統(tǒng)可以處于疾病情況的狀態(tài),或者處于控制情況或者正常情況的狀態(tài)。這些 方法還可以包括多次迭代,針對每一次迭代,將多個數(shù)據(jù)集分為訓練部分和測試部分。這多 個數(shù)據(jù)集中的訓練部分可以被用來通過比較對應于生物系統(tǒng)的兩種不同狀態(tài)(例如,疾病 狀態(tài)和正常狀態(tài))的表達水平來確定每一個生物實體的差異表達。另外,訓練部分可以被 用來將訓練部分中具有高于閾值的差異表達的預定數(shù)目的生物實體存儲作為子候選簽名。 訓練部分還可以被用來生成基于數(shù)據(jù)集內(nèi)的識別出的生物實體的表達水平將數(shù)據(jù)集中的 每一個指派給疾病類和正?;蚩刂祁愔械囊粋€的分類規(guī)則。
[0012] 針對多次迭代中的每一次,這些方法還可以包括使用多個數(shù)據(jù)集中的測試部分來 應用分類規(guī)則以將每一個數(shù)據(jù)集指派給疾病類和正常/控制類中的一個,并且通過將每一 個數(shù)據(jù)集的指派與和該數(shù)據(jù)集相關聯(lián)的生物系統(tǒng)的狀態(tài)相比較來生成子候選簽名的性能 子測量結(jié)果。在某些實施例中,這些方法包括通過從子候選簽名的聚合中選擇頻繁排名高 的生物實體來生成具有預定數(shù)目生物實體的候選簽名,以及基于性能子測量結(jié)果來生成與 候選簽名相關聯(lián)的性能測量結(jié)果。在某些實施例中,這些方法包括針對預定數(shù)目的多個不 同值重復以上步驟中的一個或多個以生成多個候選簽名和多個相關聯(lián)的性能測量結(jié)果。然 后,與最高性能測量結(jié)果或者超過某一閾值的性能測量結(jié)果相關聯(lián)的候選簽名被存儲作為 生物簽名。
[0013] 在上述方法的某些實施例中,多個生物實體包括基因和miRNA中的一個或多個。 表達水平可以包括甲基化數(shù)據(jù)、基因表達數(shù)據(jù)、miRNA表達數(shù)據(jù)和蛋白質(zhì)表達數(shù)據(jù)中的一個 或多個。在上述方法的某些實施例中,確定差異表達的步驟包括微陣列顯著性分析(SAM) 分析和Li_a分析中的至少一種。Li_a較之SAM可以是優(yōu)選的,這是因為Li_a與更高效 率和對計算能力的更低要求相關聯(lián)。在這些方法的某些實施例中,生成分類規(guī)則的步驟可 以包括支持向量機方法。一般而言,分類器可以包括基于網(wǎng)絡的支持向量機、基于神經(jīng)網(wǎng)絡 的分類器、邏輯回歸分類器、基于決策樹的分類器、使用線性判別分析技術、隨機森林分析 計數(shù)的分類器,或者前述者的組合。
[0014] 在這些方法的某些實施例中,生成性能子測量結(jié)果的步驟可以包括計算正確指派 的數(shù)據(jù)集的百分比。在這些方法的某些實施例中,生成性能子測量結(jié)果的步驟包括計算所 指派的數(shù)據(jù)集的馬修相關系數(shù)。在這些方法的某些實施例中,子候選簽名的聚合可以包括 子候選簽名中包括的所有生物實體的并集。在這些方法的某些實施例中,生成性能測量結(jié) 果的步驟還可以包括求與預定數(shù)目相關聯(lián)的子候選簽名的所有性能子測量結(jié)果的平均數(shù)。 在這些方法的某些實施例中,這些方法還包括顯示與預定數(shù)目的多個不同值形成對照的多 個性能測量結(jié)果的示圖,以及可選地顯示候選簽名中包括的生物實體的列表。在某些實施 例中,這些方法包括在顯示設備上顯示與預定數(shù)目的多個不同值形成對照的多個性能測量 結(jié)果的示圖。這些方法還可以包括在顯示設備顯示候選簽名中包括的生物實體的列表。
[0015] 本發(fā)明的計算機系統(tǒng)如上所述包括用于實現(xiàn)方法的各種實施例的裝置。例如,計 算機程序產(chǎn)品被描述,該產(chǎn)品包括計算機可讀指令,這些計算機可讀指令當在包含至少一 個處理器的計算機化系統(tǒng)中執(zhí)行時使處理器執(zhí)行在上面描述的任何方法中的一個或多個 步驟。在另一個示例中,計算機化系統(tǒng)被描述,該系統(tǒng)包含配置有非臨時計算機可讀指令的 處理器,這些非臨時計算機可讀指令當被執(zhí)行時使處理器執(zhí)行在上面描述的任何方法。計 算機程序產(chǎn)品和在此描述的計算機化的方法可以在具有一個或多個計算設備的計算機化 系統(tǒng)中實現(xiàn),每個計算設備包括一個或多個處理器。一般而言,在此描述的計算機化系統(tǒng)可 以包含一個或多個引擎,這一個或多個引擎包括被配置為具有硬件、固件和軟件以執(zhí)行在 此描述的一種或多種計算機化的方法的處理器或設備,例如,計算機、微處理器、邏輯器件 或者其他器件或處理器。這些引擎中的任何一個或多個可以是與一個或多個其他引擎在物 理上可分離的,或者可以包括多個在物理上可分離的組件,例如共同或者不同的電路板上 的分離處理器。本發(fā)明的計算機系統(tǒng)包含用于實現(xiàn)如上所述的方法及其各種實施例的裝 置。引擎可以時不時地互連,并且還時不時地與一個或多個數(shù)據(jù)庫連接,這一個或多個數(shù)據(jù) 庫包括可測量數(shù)據(jù)庫、實驗數(shù)據(jù)數(shù)據(jù)庫和文獻數(shù)據(jù)庫。在此描述的計算機化系統(tǒng)可以包括 具有通過網(wǎng)絡接口通信的一個或多個處理器和引擎的分布式計算機化系統(tǒng)。這樣的實現(xiàn)方 式可能適合于經(jīng)由多種通信系統(tǒng)進行的分布式計算。

【專利附圖】

【附圖說明】
[0016] 在考慮到結(jié)合附圖理解的以下【具體實施方式】之后,本公開的其他特征、其性質(zhì)和 各種優(yōu)點將會顯而易見,在附圖中相似的引用符號自始至終指的是相似的部件,并且在附 圖中:
[0017] 圖1示出了用于識別一個或多個生物標志物簽名的示例性系統(tǒng);
[0018] 圖2示出了用于識別一個或多個生物標志物簽名的示例性處理;
[0019] 圖3是示出數(shù)據(jù)樣本的分類和分類規(guī)則的確定的示圖;
[0020] 圖4是示出每一個具有不同數(shù)目成分的多個生物標志物簽名的性能的示圖; [0021] 圖5是示例性生物標志物簽名生成工具的截屏;
[0022] 圖6示出了由圖1的系統(tǒng)生成的示例性420基因簽名生物標志物的熱圖 (heatmap);并且
[0023]圖7是諸如圖1的系統(tǒng)中的任何組件和圖5的截屏的計算設備的框圖。

【具體實施方式】
[0024] 為了提供對在此描述的系統(tǒng)和方法的整體理解,現(xiàn)在將描述某些例示性實施例, 包括用于識別基因生物標志物簽名的系統(tǒng)和方法。然而,本領域普通技術人員將會明白在 此描述的系統(tǒng)和方法可以針對其他合適應用而被適配和修改并且這種其他添加和修改將 不脫離其范圍。
[0025] 在此描述的系統(tǒng)和方法包括用于生成可重現(xiàn)且可解釋的基因簽名的技術。這些技 術涉及對數(shù)據(jù)集進行重新采樣并且選擇具有高出現(xiàn)頻率的基因。具體而言,在此描述的系 統(tǒng)和方法包括對數(shù)據(jù)集的重復采樣、基于通過重復采樣處理生成的基因簽名的發(fā)生頻率對 基因進行排名,以及迭代地選擇最佳基因簽名。一般而言,在此描述的計算機化系統(tǒng)可以包 括一個或多個引擎,這一個或多個引擎包括被配置為具有硬件、固件和軟件以執(zhí)行在此描 述的一種或多種計算機化的方法的一個或多個處理裝置,例如計算機、微處理器、邏輯器件 或者其他器件或處理器。
[0026] 圖1示出了用于識別一個或多個生物標志物簽名的示例性系統(tǒng)100。系統(tǒng)100包 括生物標志物生成器102和生物標志物合并器(consolidator) 104。系統(tǒng)100還包括用于 控制生物標志物生成器102和生物標志物合并器104的操作的某些方面的中央控制單元 (CXU) 101。在操作期間,在生物標志物生成器102處接收到諸如基因表達數(shù)據(jù)之類的數(shù)據(jù)。 生物標志物生成器102處理該數(shù)據(jù)以生成多個候選生物標志物和對應的錯誤率。生物標志 物合并器104接收這些候選生物標志物和錯誤率并且選擇具有最佳的性能測量結(jié)果和尺 寸的合適生物標志物。
[0027] 生物標志物生成器102包括用于處理數(shù)據(jù)和生成一組候選生物標志物和候選錯 誤率的若干組件。具體而言,生物標志物生成器包括用于將數(shù)據(jù)分為訓練數(shù)據(jù)集和測試數(shù) 據(jù)集的數(shù)據(jù)預處理引擎110。生物標志物生成器102包括用于接收訓練數(shù)據(jù)集并生成候選 生物標志物的生物標志物識別引擎112,用于接收候選生物標志物并將測試數(shù)據(jù)分為兩類 之一(例如,疾病數(shù)據(jù)和控制數(shù)據(jù))的分類器114。生物標志物生成器102包括用于確定候 選生物標志物相對于由數(shù)據(jù)預處理引擎110選擇的測試數(shù)據(jù)的性能的分類器性能監(jiān)視引 擎116。分類器性能監(jiān)視引擎116生成性能測量結(jié)果,性能測量結(jié)果可以包括一個或多個候 選生物標志物的候選錯誤率。生物標志物生成器102還包括用于存儲一個或多個候選生物 標志物和候選性能測量結(jié)果的生物標志物存儲裝置118。
[0028] 生物標志物生成器可以受CXU101控制,CXU101繼而可以被自動控制或是用戶 操作的。在某些實施例中,生物標志物生成器102可以操作來生成多個候選生物標志物,每 次將數(shù)據(jù)隨機分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。為了生成這樣的多個候選生物標志物,生物 標志物生成器102的操作可以被迭代多次。CXU101可以接收包括候選生物標志物的期望 數(shù)目的一個或多個系統(tǒng)迭代參數(shù),這一個或多個系統(tǒng)迭代參數(shù)繼而可以被用來確定生物標 志物生成器102的操作可以被迭代的次數(shù)。CXU101還可以接收包括期望生物標志物尺寸 的其他系統(tǒng)參數(shù),期望生物標志物尺寸可以代表生物標志物中的組件數(shù)目(例如,生物標 志物基因簽名中的基因數(shù)目)。生物標志物尺寸信息可以被生物標志物識別引擎112用來 根據(jù)訓練數(shù)據(jù)生成候選生物標志物。參考圖2-4更詳細地描述了生物標志物生成器102及 其各個引擎的操作。
[0029] 生物標志物生成器102生成一個或多個候選生物標志物和候選錯誤率,這一個或 多個候選生物標志物和候選錯誤率被生物標志物合并器104用來生成魯棒的生物標志物。 生物標志物合并器104包括生物標志物合意引擎128,生物標志物合意引擎128接收多個 候選生物標志物并且生成具有跨這多個候選生物標志物最頻繁發(fā)生的基因的新生物標志 物簽名。生物標志物合并器104包括用于確定跨這多個候選生物標志物的總體錯誤率的錯 誤計算引擎130。類似于生物標志物生成器102,生物標志物合并器104也可以受CXU101 控制,CCU101繼而可以被自動控制或是用戶操作的。CCU101可以接收、確定或者接收并 確定最小生物標志物尺寸的合適閾值,并且使用該信息來確定用來操作生物標志物生成器 102和生物標志物合并器104兩者的迭代數(shù)目。在一個實施例中,在每次迭代期間,CXU101 使生物標志物尺寸減一并且迭代生物標志物生成器102和生物標志物合并器104兩者直到 閾值被達到為止。在這樣的一個實施例中,生物標志物合意引擎128針對每一次迭代輸出 新生物標志物簽名和新總體錯誤率。生物標志物合意引擎128從而輸出各自具有從閾值起 上至最大生物標志物尺寸的不同尺寸的一組新生物標志物簽名。生物標志物合并器104還 包括生物標志物選擇引擎126,生物標志物選擇引擎126審核這些新生物標志物簽名中的 每一個的性能測量結(jié)果或者錯誤率并選擇最佳生物標志物以供輸出。參考圖2-4更詳細地 描述了生物標志物合并器104及其各個引擎的操作。
[0030] 圖2示出了用于使用圖1中的示例性系統(tǒng)100來識別一個或多個生物標志物簽名 的示例性處理200。處理200以在數(shù)據(jù)預處理引擎110處接收一個或多個數(shù)據(jù)集開始(步 驟202)。一般而言,數(shù)據(jù)可以表示樣本中的多個不同基因的表達值、諸如任何生物重要分 析物的水平之類的各種表型特點,或者這兩者。在某些實施例中,數(shù)據(jù)集可以包括疾病情況 治療的表達水平數(shù)據(jù)和控制情況治療的表達水平數(shù)據(jù)?;虮磉_水平可以指的是由基因編 碼的分子數(shù)量,例如RNA或者多肽。mRNA分子的表達水平可以包括mRNA的數(shù)量,mRNA的數(shù) 量由將mRNA編碼的基因的轉(zhuǎn)錄活動和mRNA的穩(wěn)定性決定,mRNA的穩(wěn)定性繼而由mRNA的 半衰期決定?;虮磉_水平還可以包括與由基因編碼的給定氨基酸序列相對應的多肽的數(shù) 量。相應地,基因的表達水平可以對應于從基因轉(zhuǎn)錄的mRNA的數(shù)量、由基因編碼的多肽的 數(shù)量,或者這兩者?;虻谋磉_水平還可以按照不同形式的基因產(chǎn)品的表達水平來分類。例 如,由基因編碼的RNA分子可以包括差異表達的剪接變異體、具有不同的開始或者停止部 位的轉(zhuǎn)錄物、其他差異處理形式,或者這兩者。由基因編碼的多肽可以包含裂開、修改形式 的多肽,或者這兩者。多肽可以通過磷酸化作用、脂化、異戊烯化、硫酸鹽化作用、羥基化、乙 ?;饔?、核糖基化作用、法呢?;?、碳水化合物的添加等來修改。另外,具有給定形式修改 的多個形式的多肽可以存在。例如,多肽可以在多個部位被磷酸化并且表達不同水平的差 異磷酸化蛋白質(zhì)。
[0031] 在某些實施例中,細胞或者組織中的基因表達水平可以由基因表達譜表示?;?表達譜可以指的是諸如細胞或者組織之類的標本中的基因的表達水平的特點表示。來自個 體的標本中的基因表達譜的確定表示個體的基因表達狀態(tài)?;虮磉_譜反映了信使RNA或 者多肽或者其由細胞或者組織中的一個或多個基因編碼的形式的表達?;虮磉_譜一般可 以指的是生物細胞(核酸、蛋白質(zhì)、碳水化合物)的譜,生物細胞的譜顯示不同細胞或組織 當中的不同表達模式。
[0032] 在某些實施例中,數(shù)據(jù)集可以包括表示樣本中的多個不同基因的基因表達值的元 素。在其他實施例中,數(shù)據(jù)集可以包括表示通過質(zhì)譜分析法檢測到的峰或者峰的高度。一 般而言,每一個數(shù)據(jù)集可以包括至少一個生物狀態(tài)類的多個形式。例如,生物狀態(tài)類可以包 括但不限于:樣本的源(即,從中獲得樣本的患者)中的疾病的存在/不存在;疾病的階段; 疾病的風險;疾病復發(fā)的似然性;一個或多個基因位點處的共享基因型(例如,共同的HLA 單體型;基因突變;基因的修改,諸如甲基化等);暴露到劑(例如,諸如有毒物質(zhì)或者潛在 的有毒物質(zhì)、環(huán)境污染物、候選藥物等)或者情況(溫度、PH等);人口統(tǒng)計特性(年齡、性 另IJ、重量;家庭史;先存情況的歷史);對劑的抵抗、對劑的敏感性(例如,對藥物的反應度) 等。
[0033] 數(shù)據(jù)集可以彼此獨立以減少最終分類選擇中的采集偏差。例如,它們可以使用不 同的排除或者包括標準而被從多個源采集并且可以被在不同時間采集和可以從不同地點 采集,即當考慮到定義生物狀態(tài)類的特性之外的特性時數(shù)據(jù)集可以是相對異構的。對異構 性有貢獻的因素包括但不限于:由性別、年齡、種族劃分引起的生物變化性;由飲食、鍛煉、 睡眠行為引起的個體變化性;以及由血液處理的臨床方案引起的樣本處理變化性。然而,生 物狀態(tài)類可以包括一個或多個共同特性(例如,樣本源可以表示具有疾病和相同性別或者 一個或多個其他共同人口統(tǒng)計特性的個人)。
[0034] 在某些實施例中,來自多個源的數(shù)據(jù)集是通過在不同時間、在不同條件下或者在 不同時間且在不同條件下從相同的患者人群采集樣本而生成的。然而,來自多個源的數(shù) 據(jù)集不包括更大數(shù)據(jù)集的子集,即,來自多個源的數(shù)據(jù)集是獨立采集的(例如,來自不同地 點、在不同時間、在不同采集條件下,或者前述者的組合)
[0035] 在某些實施例中,多個數(shù)據(jù)集是從多個不同臨床試驗地點獲得的并且每一個數(shù)據(jù) 集包括在每一個單獨試驗地點獲得的多個患者樣本。樣本類型包括但不限于血液、血清、血 漿、乳頭抽出物、尿液、淚液、唾液、脊髓液、淋巴液、細胞、組織溶解產(chǎn)物、激光微解剖的組織 或者細胞樣本、嵌入的細胞或者組織(例如,在石蠟塊中或者冷凍);新鮮或者存檔的樣本 (例如,來自驗尸),或者前述者的組合??梢岳鐝脑嚬苤械募毎蚪M織培養(yǎng)中取得樣本。 可替代地,可以從活的有機體或者從諸如單細胞有機體的一群有機體取得樣本。
[0036] 在一個示例中,當識別特定癌癥的生物標志物時,可能從由兩個不同測試地點處 的獨立群組選擇的對象中采集血液樣本,從而提供將根據(jù)其形成獨立數(shù)據(jù)集的樣本。
[0037] 返回圖2,在某些實施例中,可能期望使用生物標志物來在疾病情況治療和控制情 況治療之間進行分類。在這種實施例中,數(shù)據(jù)可以包括例如疾病情況治療的表達水平數(shù)據(jù) 集和控制情況治療的表達水平數(shù)據(jù)集。CCU101可以設置包括每一次迭代的計數(shù)的大小、迭 代次數(shù)和初始迭代計數(shù)在內(nèi)的系統(tǒng)參數(shù)(步驟204)。在一個示例中,大小和迭代計數(shù)被設 置為1。
[0038] 數(shù)據(jù)預處理引擎110接收數(shù)據(jù)并且將數(shù)據(jù)分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集(步驟 206)。在某些實施例中,數(shù)據(jù)預處理引擎110隨機地將數(shù)據(jù)分割或者劃分為這兩組。隨機 地劃分數(shù)據(jù)對于預測類別和生成魯棒基因簽名可能是期望的。在其他實施例中,數(shù)據(jù)預處 理引擎110基于數(shù)據(jù)的類型或者標簽將數(shù)據(jù)分為兩個或者更多組。一般而言,在不脫離本 公開范圍的情況下可以按照期望的任何合適方式將數(shù)據(jù)分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。訓 練數(shù)據(jù)集和測試數(shù)據(jù)集可以具有任何合適尺寸并且可以是相同尺寸或者不同尺寸的。在某 些實施例中,數(shù)據(jù)預處理引擎110在將數(shù)據(jù)分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集之前可以丟棄一 條或多條數(shù)據(jù)。在某些實施例中,數(shù)據(jù)預處理引擎110在任何進一步處理之前可以丟棄來 自訓練數(shù)據(jù)集、測試數(shù)據(jù)集或者這兩者的一條或多條數(shù)據(jù)。
[0039] 數(shù)據(jù)預處理引擎110將訓練數(shù)據(jù)集傳遞給識別候選網(wǎng)絡的生物標志物識別引擎 112(步驟208)。生物標志物識別引擎112還接收生物標志物尺寸。在某些實施例中,生物 標志物尺寸可以被選擇為可允許的最大生物標志物尺寸,其中系統(tǒng)100進行迭代并且倒計 數(shù)至最小生物標志物尺寸。在某些實施例中,生物標志物識別引擎112使用合適的統(tǒng)計技 術來確定訓練數(shù)據(jù)的差異表達。例如,每一個訓練數(shù)據(jù)可以包括多個訓練數(shù)據(jù)集,其中每 一個訓練數(shù)據(jù)集包括多個基因的探測集。對于這多個基因中的每一個,數(shù)據(jù)集包括對應于 控制的已知值和治療的另一個值。在某些實施例中,生物標志物識別引擎112跨多個訓練 數(shù)據(jù)集針對每一個基因來確定控制值與治療值之間的距離。該距離可以通過t統(tǒng)計值一一 諸如通過SAM或者Limma計算的溫和t統(tǒng)計值--來測量。Limma是因?qū)虮磉_微陣列 數(shù)據(jù)的分析一一尤其是用于分析差異表達的線性模型的用途(Smyth2004,Statistical ApplicationsinGeneticsandMolecularBiology,第 3 卷,第 1 號,第 3 條,其通過引用 而整體結(jié)合于此)--而眾所周知的軟件方法包。1^_&由于其效率和比Sam更低的對計算 能力的要求而是優(yōu)選的。生物標志物識別引擎112然后可以按照基因的t統(tǒng)計值來給基因 進行排名。在某些實施例中,高排名可以表示該基因在控制和治療之間被高度差異表達,并 且低排名可以表示對于該基因在控制和治療之間幾乎沒有差異。生物標志物識別引擎112 可以選擇基因的排名列表的一部分,例如基因列表的上半部。生物標志物識別引擎112所 選擇的基因的數(shù)目可以基于由CXU101輸入的生物標志物尺寸。在一個示例中,一個或多 個轉(zhuǎn)錄因素即主調(diào)控基因可以被選擇。所選擇的基因然后可以是代表性的或者可以構成候 選生物標志物。生物標志物識別引擎112可以將候選生物標志物輸出給分類器114、分類器 性能監(jiān)視引擎116和生物標志物存儲裝置118 (步驟210)。
[0040] 分類器114可以接收來自生物標志物識別引擎112的一個或多個候選生物標志 物。分類器114還可以接收來自數(shù)據(jù)預處理引擎110的一組或多組測試數(shù)據(jù)。在某些實施 例中,分類器114使用候選生物標志物來生成分類規(guī)則(步驟212)。圖3以圖形方式示出 了這樣的一個分類規(guī)則300。分類器114可以應用分類規(guī)則以將測試數(shù)據(jù)集指派給兩個類 中的任一個。例如,分類器114可以應用分類以將測試數(shù)據(jù)集指派給疾病或者控制(步驟 214)。在某些實施例中,分類器114可以包括支持向量機(SVM)分類器。在其他實施例中, 分類器114可以包括基于網(wǎng)絡的SVM、基于神經(jīng)網(wǎng)絡的分類器、邏輯回歸分類器、基于決策 樹的分類器、使用線性判別分析技術、隨機森林分析技術的分類器,或者前述者的組合。
[0041] 分類器性能監(jiān)視引擎116可以使用合適的性能度量來分析分類器114的性能(步 驟216)。具體而言,當分析分類器114的性能時,分類器性能監(jiān)視引擎116可能正在分析一 個或多個候選生物標志物的魯棒性或者性能。在某些實施例中,性能度量可以包括錯誤率。 性能度量還可以包括被除以嘗試的總預測的正確預測的數(shù)目。性能度量可以是不脫離本公 開范圍的任何合適度量。候選生物標志物和對應的性能度量可以被存儲在生物標志物存儲 裝置118中。
[0042] 在某些實施例中,從步驟206到步驟216的處理可以被重復任何次數(shù)以生成多個 候選生物標志物以及對應的性能度量。在每一次重復期間,數(shù)據(jù)可以被隨機地劃分為訓練 集和測試數(shù)據(jù)集。CXU101可以控制生物標志物生成器102的操作來執(zhí)行這種重復分析。 在某些實施例中,CXU101可以提供固定的迭代計數(shù)R(步驟218)。在這種實施例中,可以 通過重復來生成R個候選生物標志物,每次增加迭代編號(步驟220)。一旦迭代已經(jīng)完成, CXU101、生物標志物生成器102或者這兩者可以計算所有候選生物標志物的復合性能分 數(shù)。復合性能分數(shù)可以是候選生物標志物的性能度量的平均值。在某些實施例中,數(shù)據(jù)集 可以是不平衡的(即,例如治療和控制的不同狀態(tài)的不等數(shù)目)。在這種實施例中,可以使 用馬修相關系數(shù)(MCC)來確定性能分數(shù)。

【權利要求】
1. 一種用于識別疾病狀態(tài)的生物簽名的計算機實現(xiàn)的方法,包括: (a) 接收多個數(shù)據(jù)集,每一個數(shù)據(jù)集包括在包括疾病狀態(tài)和控制狀態(tài)在內(nèi)的不同狀態(tài) 下的生物系統(tǒng)中的多個生物實體的表達水平; (b) 針對多次迭代中的每一次: (i) 將所述多個數(shù)據(jù)集分為訓練部分和測試部分, (ii) 使用所述多個數(shù)據(jù)集中的訓練部分來將所述訓練部分中具有高于閾值的差異表 達的預定數(shù)目的生物實體存儲作為子候選簽名,并且生成將所述數(shù)據(jù)集中的每一個指派給 疾病類和控制類中的一個的分類規(guī)則,并且 (iii) 使用所述多個數(shù)據(jù)集中的測試部分來應用所述分類規(guī)則以將每一個數(shù)據(jù)集指派 給所述疾病類和所述控制類中的一個,并且基于所述指派生成性能子測量結(jié)果; (c) 通過從所述子候選簽名的聚合中選擇頻繁識別出的生物實體來生成具有預定數(shù)目 生物實體的候選簽名; (d) 基于所述性能子測量結(jié)果來生成與所述候選簽名相關聯(lián)的性能測量結(jié)果; (e) 針對所述預定數(shù)目的多個不同值重復步驟(b)至(d)以生成多個候選簽名和多個 相關聯(lián)的性能測量結(jié)果;以及 (f) 將與最高性能測量結(jié)果相關聯(lián)的所述候選簽名存儲作為所述生物簽名。
2. 如權利要求1所述的方法,還包括通過比較對應的疾病狀態(tài)表達水平和對應的控制 狀態(tài)表達水平來使用所述訓練部分確定每一個生物實體的差異表達。
3. 如權利要求1-2中任一個所述的方法,其中,所述分類規(guī)則基于所述數(shù)據(jù)集內(nèi)的所 述生物實體的表達水平來指派所述數(shù)據(jù)集中的每一個。
4. 如權利要求1-3中任一個所述的方法,其中,通過將每一個數(shù)據(jù)集的指派與和所述 數(shù)據(jù)集相關聯(lián)的不同狀態(tài)相比較來生成所述性能子測量結(jié)果。
5. 如權利要求1-4中任一個所述的方法,其中,所述多個生物實體包括基因、miRNA、蛋 白質(zhì)或者前述者中的兩者或多者的組合中的一個或多個。
6. 如權利要求1-5中任一個所述的方法,其中,表達水平包括甲基化數(shù)據(jù)、基因表達數(shù) 據(jù)、miRNA表達數(shù)據(jù)和蛋白質(zhì)表達數(shù)據(jù)中的一個或多個。
7. 如權利要求1-6中任一個所述的方法,其中,確定差異表達包括微陣列顯著性分析 (SAM)分析和Limma分析中的至少一種。
8. 如權利要求1-7中任一個所述的方法,其中,生成分類規(guī)則包括支持向量機方法。
9. 如權利要求1-8中任一個所述的方法,其中,生成所述性能子測量結(jié)果包括計算正 確指派的數(shù)據(jù)集的百分比。
10. 如權利要求1-9中任一個所述的方法,其中,生成所述性能子測量結(jié)果包括計算所 指派的數(shù)據(jù)集的馬修相關系數(shù)。
11. 如權利要求1-10中任一個所述的方法,其中,所述子候選簽名的聚合包括所述子 候選簽名中包括的所有生物實體的并集。
12. 如權利要求1-11中任一個所述的方法,其中,生成所述性能測量結(jié)果包括求與所 述預定數(shù)目相關聯(lián)的子候選簽名的所有性能子測量結(jié)果的平均數(shù)。
13. 如權利要求1-12中任一個所述的方法,還包括在顯示設備上顯示與所述預定數(shù)目 的多個不同值形成對照的多個性能測量結(jié)果的示圖,以及可選地顯示所述候選簽名中包括 的生物實體的列表。
14. 一種包括計算機可讀指令的計算機程序產(chǎn)品,所述計算機可讀指令當在包括至少 一個處理器的計算機化的系統(tǒng)中執(zhí)行時使所述處理器執(zhí)行如權利要求1-13中任一個所述 的方法中的一個或多個步驟。
15. -種包括配置有非臨時計算機可讀指令的至少一個處理器的計算機化的系統(tǒng),所 述非臨時計算機可讀指令當被執(zhí)行時使所述至少一個處理器執(zhí)行如權利要求1-13中任一 個所述的方法。
【文檔編號】G06F19/24GK104508670SQ201380039795
【公開日】2015年4月8日 申請日期:2013年6月21日 優(yōu)先權日:2012年6月21日
【發(fā)明者】向陽, 朱麗婭·亨格 申請人:菲利普莫里斯生產(chǎn)公司, 向陽, 朱麗婭·亨格
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
沙雅县| 阿瓦提县| 广宁县| 荣成市| 偃师市| 左权县| 通州市| 岳阳县| 太保市| 靖宇县| 乐东| 中方县| 阆中市| 寿阳县| 庄河市| 福州市| 崇仁县| 贵德县| 扎兰屯市| 盖州市| 会同县| 连云港市| 周至县| 杂多县| 昔阳县| 保亭| 屏东市| 肥城市| 太原市| 阿拉尔市| 富裕县| 博兴县| 嘉义县| 应城市| 资阳市| 潞西市| 新乐市| 邵东县| 荆州市| 汝城县| 蕉岭县|