專利名稱:基于基因拷貝數(shù)改變的模式的結(jié)腸直腸癌的基因組分類的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于限定與結(jié)腸直腸癌(CRC)相關(guān)的腫瘤、癌細(xì)胞系和受試者樣品的基因組亞組的方法。本發(fā)明還涉及按照基因組亞組裝配(assembling)成小組(panels)的腫瘤、癌細(xì)胞系和受試者樣品以用于測試一種或多種用于給受試者施用的治療性干預(yù)的功效的方法。相關(guān)領(lǐng)域的描述癌癥是特征在于臨床過程、結(jié)果和治療反應(yīng)性的相當(dāng)大變異性的基因組的疾病。 該變異性背后的主要因素是癌癥所固有的遺傳異質(zhì)性。相同組織病理學(xué)亞型的個別腫瘤在細(xì)胞DNA中具有不同的畸變。結(jié)腸直腸癌(CRC)是歐洲和美國的第三最常見癌癥和癌癥死亡的第二主要原因, 每年有300,000個新病例和200,000例死亡(Midgley和Kerr,1999)。已確定形成侵入性癌的結(jié)腸直腸上皮的致癌轉(zhuǎn)化由腫瘤特異性遺傳畸變和染色體非整倍性的連續(xù)獲得驅(qū)動 (Fearon和Vogelstein,1990 ;Ried等人,1996)。通常,相同組織病理學(xué)組內(nèi)的腫瘤遵循非常不同的臨床過程并且對治療的反應(yīng)不同。因此目前CRC的分期不足以預(yù)測疾病的臨床過程或治療結(jié)果。癌癥分類的改進(jìn)對于抗癌藥物的發(fā)現(xiàn)是至關(guān)重要的。目前,基于其可用性 (availability)、對小鼠中腫瘤形成的適應(yīng)性以及培養(yǎng)中的生長和其他參數(shù)選擇臨床前模型,但它們不代表親本腫瘤的遺傳異質(zhì)性。這導(dǎo)致臨床試驗(yàn)中對在臨床前模型中已顯示卓越反應(yīng)的試劑的差的反應(yīng)。
結(jié)腸直腸腫瘤的表型多樣性伴隨相應(yīng)的基因拷貝數(shù)反常模式的多樣性。染色體畸變是與許多發(fā)育疾病和癌癥關(guān)聯(lián)的有害事件。體細(xì)胞中發(fā)生的染色體區(qū)域的擴(kuò)增和缺失被認(rèn)為是導(dǎo)致癌癥的主要因素之一。因此結(jié)腸直腸癌中基因拷貝數(shù)模式的系統(tǒng)性檢查可能用作結(jié)腸直腸癌的基于基因組學(xué)的分子分類學(xué)的基礎(chǔ)??赏ㄟ^經(jīng)典細(xì)胞遺傳學(xué)分析或熒光原位雜交(FISH)個別地檢測具有預(yù)后意義的反復(fù)染色體畸變(Recurrent chromosomal aberration) (Levsky和Singer,2003)。然而,F(xiàn)ISH分析不能檢測整個遺傳學(xué)異常譜,因?yàn)槠渲徊樵冇邢藿M的由應(yīng)用的探針小組限定的染色體基因座。更有利的診斷工具將基于疾病的精確分類。其將使得能夠進(jìn)行合理的患者選擇以進(jìn)行可確定受試者的CRC的遺傳狀態(tài)的治療。發(fā)明概述在第一方面,本發(fā)明涉及用于獲得結(jié)腸直腸癌基因組亞組的數(shù)據(jù)庫的方法,所述方法包括步驟(a)獲得多個,m個,包含至少一個CRC細(xì)胞的樣品,其中所述樣品包含細(xì)胞系或腫瘤;(b)獲得包括步驟(a)中獲得的每一個樣品的每一條染色體的至少一個基因座的拷貝數(shù)改變信息的數(shù)據(jù)集;(c)鑒定數(shù)據(jù)集中被正常細(xì)胞污染的樣品并且從數(shù)據(jù)集消除所述被污染的樣品, 其中鑒定和消除包括(1)對數(shù)據(jù)應(yīng)用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機(jī)器學(xué)習(xí)算法 (machine learning algorithm);(2)賦予每一個樣品如通過機(jī)器學(xué)習(xí)算法測定的正常細(xì)胞污染的概率分?jǐn)?shù);(3)從數(shù)據(jù)集中消除每一個得分50%或更大的含正常細(xì)胞的概率的樣品的數(shù)據(jù);(d)通過對數(shù)據(jù)集應(yīng)用利用Pearson線性相異性算法的無監(jiān)督聚類算法 (unsupervised clustering algorithm)估計數(shù)據(jù)集中亞組的數(shù)巨 r ;(e)利用改進(jìn)的基因組非負(fù)矩陣因子分解(modified genomic Non-negative Matrix Factorization) (gNMF)算法將數(shù)據(jù)集中的每一個樣品分配至至少一個簇,其中所述改進(jìn)的gNMF算法包括(1)利用公式(11)計算每100步乘性更新(multiplicative updating)后算法的
散度
權(quán)利要求
1.用于獲得結(jié)腸直腸癌基因組亞組的數(shù)據(jù)庫的方法,所述方法包括步驟(a)獲得多個,m個,包含至少一個CRC細(xì)胞的樣品,其中所述樣品包含細(xì)胞系或腫瘤;(b)獲得包括步驟(a)中獲得的每一個樣品的每一條染色體的至少一個基因座的拷貝數(shù)改變信息的數(shù)據(jù)集;(c)鑒定數(shù)據(jù)集中被正常細(xì)胞污染的樣品并且從數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括(1)對數(shù)據(jù)應(yīng)用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機(jī)器學(xué)習(xí)算法;(2)賦予每一個樣品如通過機(jī)器學(xué)習(xí)算法測定的正常細(xì)胞污染的概率分?jǐn)?shù);(3)從數(shù)據(jù)集中消除每一個得分50%或更大的含正常細(xì)胞的概率的樣品的數(shù)據(jù);(d)通過對數(shù)據(jù)集應(yīng)用利用Pearson線性相異性算法的無監(jiān)督聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r;(e)利用改進(jìn)的基因組非負(fù)矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每一個樣品分配至至少一個簇,其中所述改進(jìn)的gNMF算法包括(1)利用公式(11)計算每100步乘性更新后算法的散度
2.分類CRC腫瘤或細(xì)胞系的方法,包括(a)提供通過方法開發(fā)的數(shù)據(jù)庫,所述方法包括(i)獲得多個,m個,包含至少一個CRC腫瘤或細(xì)胞系的樣品;( )獲得第一數(shù)據(jù)集,所述數(shù)據(jù)集包括步驟(i)中獲得的每一個樣品的每一條染色體的至少一個基因座的拷貝數(shù)改變信息;(iii)鑒定第一數(shù)據(jù)集中被正常細(xì)胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括(1)對數(shù)據(jù)應(yīng)用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機(jī)器學(xué)習(xí)算法;(2)賦予每一個樣品如通過機(jī)器學(xué)習(xí)算法測定的正常細(xì)胞污染的概率分?jǐn)?shù);(3)從第一數(shù)據(jù)集中消除每一個得分50%或更大的含正常細(xì)胞的概率的樣品的數(shù)據(jù);(iv)通過對數(shù)據(jù)集應(yīng)用使用Pearson線性相異性算法的無監(jiān)督聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r;(ν)利用改進(jìn)的基因組非負(fù)矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每一個樣品分配至至少一個簇,其中所述改進(jìn)的gNMF算法包括(1)利用公式(11)計算每100步乘性更新后算法的散度
3.權(quán)利要求1或2的方法,其中所述無監(jiān)督聚類算法是等級聚類。
4.權(quán)利要求1或2的方法,其中將同表象相關(guān)用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
5.權(quán)利要求1或2的方法,其中將貝葉斯信息準(zhǔn)則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
6.權(quán)利要求1或2的方法,其中將同表象相關(guān)和貝葉斯信息準(zhǔn)則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
7.權(quán)利要求1或2的方法,其中多個樣品,m,包含第一、第二和第三細(xì)胞系,其中所述第一細(xì)胞系選自 HCT-8、LS 174T、SK-CO-U SW48、DLD-U HCT-15, HCTl 16、LoVo,CL-34、CL-40、C170 和 LS180 ;所述第二細(xì)胞系選自 Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SWl 116、 SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678 和 Sff-480 ;以及所述第三細(xì)胞系選自 Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205 和 Colo-206F。
8.權(quán)利要求1或2的方法,其中多個樣品,m,由HCT-8、LS174T、SK-CO-U SW48、 DLD-UHCT-15,HCT116、LoVo,CL-34、CL-40、C170、LS180、Caco-2,LS1034、LS411N、LS513、 NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29, SW620、CL-IU CL-14, Colo-678, Sff-480, Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205 和 Colo_206F 細(xì)胞系組成。
9.分類用于抑制或殺傷結(jié)腸直腸癌(CRC)細(xì)胞的治療性干預(yù)的方法,其包括(a)從一小組按照基因組亞組分類的CRC細(xì)胞,從每一個亞組選擇至少一個CRC細(xì)胞系,其中根據(jù)下述方法裝配小組,所述方法包括(i)獲得多個,m個,包含至少一個CRC腫瘤或細(xì)胞系的樣品; ( )獲得第一數(shù)據(jù)集,所述數(shù)據(jù)集包括步驟(i)中獲得的每一個樣品的每一條染色體的至少一個基因座的拷貝數(shù)改變信息;(iii)鑒定第一數(shù)據(jù)集中被正常細(xì)胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括(1)對數(shù)據(jù)應(yīng)用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機(jī)器學(xué)習(xí)算法;(2)賦予每一個樣品如通過機(jī)器學(xué)習(xí)算法測定的正常細(xì)胞污染的概率分?jǐn)?shù);(3)從第一數(shù)據(jù)集中消除每一個得分50%或更大的含正常細(xì)胞的概率的樣品的數(shù)據(jù);(iv)通過對數(shù)據(jù)集應(yīng)用利用Pearson線性相異性算法的無監(jiān)督聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r;(ν)利用改進(jìn)的基因組非負(fù)矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每一個樣品分配至至少一個簇,其中所述改進(jìn)的gNMF算法包括(1)利用公式(11)計算每100步乘性更新后算法的散度
10.權(quán)利要求9的方法,其中所述無監(jiān)督聚類算法是等級聚類。
11.權(quán)利要求9的方法,其中同表象相關(guān)用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
12.權(quán)利要求9的方法,其中貝葉斯信息準(zhǔn)則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
13.權(quán)利要求9的方法,其中同表象相關(guān)和貝葉斯信息準(zhǔn)則用于提供來自數(shù)據(jù)集的簇的終數(shù)目。
14.權(quán)利要求9的方法,其中所述CRC細(xì)胞來自細(xì)胞系。
15.權(quán)利要求9的方法,其中多個樣品,m,包含第一、第二和第三細(xì)胞系,其中所述第一細(xì)胞系選自 HCT-8、LS 174T、SK-CO-U SW48、DLD-U HCT-15, HCTl 16、LoVo,CL-34、CL-40、C170 和 LS180 ;所述第二細(xì)胞系選自 Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SWl 116、 SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678 和 Sff-480 ;以及所述第三細(xì)胞系選自 Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205、和 Colo-206F。
16.權(quán)利要求9的方法,其中多個樣品,m,由HCT-8、LS174T、SK-CO-U SW48、DLD-U HCT-15、HCT116、LoVo, CL-34、CL-40、C170、LS180、Caco-2, LS1034、LS411N、LS513、 NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-IU CL-14、Colo-678、 Sff-480, Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205 和 Colo_206F 細(xì)胞系組成。
17.權(quán)利要求9的方法,其中治療性干預(yù)包括選自放射療法和化學(xué)療法的至少一種。
18.權(quán)利要求17的方法,其中所述治療性干預(yù)是化學(xué)療法,并且所述化學(xué)療法包括施用至少一種藥物組合物,其包含選自氟尿嘧啶、卡培他濱、甲酰四氫葉酸和奧沙利鉬的活性劑。
19.權(quán)利要求18的方法,其中所述化學(xué)療法包括施用兩種或更多種活性劑。
20.裝配用于分類來自樣品的CRC細(xì)胞的探針小組的方法,包括(a)裝配數(shù)據(jù)庫,包括(i)獲得多個,m個,包括至少一個CRC腫瘤或細(xì)胞系的樣品;( )獲得包括步驟(i)中獲得的每一個樣品的每一條染色體的至少一個基因座的拷貝數(shù)改變信息的第一數(shù)據(jù)集;(iii)鑒定第一數(shù)據(jù)集中被正常細(xì)胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括(1)對數(shù)據(jù)應(yīng)用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機(jī)器學(xué)習(xí)算法;(2)賦予每一個樣品如通過機(jī)器學(xué)習(xí)算法測定的正常細(xì)胞污染的概率分?jǐn)?shù);(3)從第一數(shù)據(jù)集中消除每一個得分50%或更大的含正常細(xì)胞的概率的樣品的數(shù)據(jù);(iv)通過對數(shù)據(jù)集應(yīng)用利用Pearson線性相異性算法的無監(jiān)督聚類算法估計數(shù)據(jù)集中的亞組的數(shù)目r;(ν)利用改進(jìn)的基因組非負(fù)矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每一個樣品分配至至少一個簇,其中所述改進(jìn)的gNMF算法包括(1)利用公式(11)計算每100步乘性更新后算法的散度
21.包括權(quán)利要求20的探針小組的試劑盒。
22.權(quán)利要求21的試劑盒,其中每一個探針是FISH探針。
23.用于分類CRC腫瘤樣品或細(xì)胞系的試劑盒,其包括 (a)裝配數(shù)據(jù)庫的說明書,其包括用于如下方面的說明書 (i)獲得多個,m個,包含至少一個CRC腫瘤或細(xì)胞系的樣品;( )獲得第一數(shù)據(jù)集,所述數(shù)據(jù)集包括步驟(i)中獲得的每一個樣品的每一條染色體的至少一個基因座的拷貝數(shù)改變信息;(iii)鑒定第一數(shù)據(jù)集中被正常細(xì)胞污染的樣品并且從第一數(shù)據(jù)集消除所述被污染的樣品,其中鑒定和消除包括(1)對數(shù)據(jù)應(yīng)用與代表腫瘤和正常樣品之間的差異的參數(shù)一致的機(jī)器學(xué)習(xí)算法;(2)賦予每一個樣品如通過機(jī)器學(xué)習(xí)算法測定的正常細(xì)胞污染的概率分?jǐn)?shù);(3)從第一數(shù)據(jù)集中消除每一個得分50%或更大的含正常細(xì)胞的概率的樣品的數(shù)據(jù);(iv)通過對數(shù)據(jù)集應(yīng)用利用Pearson線性相異性算法的無監(jiān)督聚類算法估計數(shù)據(jù)集中亞組的數(shù)目r;(ν)利用改進(jìn)的基因組非負(fù)矩陣因子分解(gNMF)算法將數(shù)據(jù)集中的每一個樣品分配至至少一個簇,其中所述改進(jìn)的gNMF算法包括(1)利用公式(11)計算每100步乘性更新后算法的散度
全文摘要
本發(fā)明涉及允許按照基因組概況分類結(jié)腸直腸癌細(xì)胞的方法和試劑盒,以及診斷、預(yù)測臨床結(jié)果和使患者群體分層以使用所述方法進(jìn)行臨床試驗(yàn)和治療的方法。
文檔編號G06F19/24GK102203787SQ200980143536
公開日2011年9月28日 申請日期2009年10月28日 優(yōu)先權(quán)日2008年10月31日
發(fā)明者D·塞米扎羅夫, K·張, R·R·列斯尼夫斯基, 盧欣 申請人:雅培制藥有限公司