欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)對(duì)基因數(shù)據(jù)集的群體分類的制作方法

文檔序號(hào):8227571閱讀:548來(lái)源:國(guó)知局
使用基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)對(duì)基因數(shù)據(jù)集的群體分類的制作方法
【技術(shù)領(lǐng)域】
[0001]下文總體上涉及基因分析領(lǐng)域、醫(yī)學(xué)領(lǐng)域,并且涉及基因分析領(lǐng)域、醫(yī)學(xué)領(lǐng)域的應(yīng)用,例如包括腫瘤學(xué)領(lǐng)域、獸醫(yī)學(xué)領(lǐng)域等的醫(yī)學(xué)領(lǐng)域的應(yīng)用。
【背景技術(shù)】
[0002]能夠使用諸如微陣列和“下一代”測(cè)序系統(tǒng)的技術(shù)來(lái)采集針對(duì)個(gè)體的大的基因數(shù)據(jù)集,其中,微陣列能夠生成數(shù)萬(wàn)到數(shù)十萬(wàn)的基因數(shù)據(jù)點(diǎn),例如,每個(gè)對(duì)應(yīng)于目標(biāo)蛋白等的表達(dá)水平,“下一代”測(cè)序系統(tǒng)能夠輸出構(gòu)成數(shù)百萬(wàn)或更大基數(shù)的大的序列以及甚至整個(gè)基因組序列。根據(jù)這樣的數(shù)據(jù)集,能夠識(shí)別諸如單核苷酸多態(tài)性(SNP)、拷貝數(shù)變異(CNV)等的各種基因標(biāo)記物,該基因標(biāo)記物是醫(yī)學(xué)檢驗(yàn)的,例如指示特定類型的癌癥。
[0003]已知,對(duì)這樣的基因標(biāo)記物的解讀通過(guò)按種族、性別或其他群體分組對(duì)個(gè)體的分類的知識(shí)得到促進(jìn)或者在一些情況下需要按種族、性別或其他群體分組對(duì)個(gè)體的分類的知識(shí)。例如,基于群體,一些基因組變異體(注意,如本文中所使用的,“基因”和“基因組”被認(rèn)為是可互換的)已經(jīng)與超過(guò)一個(gè)不同的基因失調(diào)相關(guān)聯(lián)。在一些情況下,等位基因在一個(gè)群體中是主要等位基因,而在另一個(gè)群體中是次要(以及疾病指示性)等位基因。因此,對(duì)于對(duì)基因變異體的適當(dāng)解讀而言,獲知適當(dāng)?shù)娜后w是有用的或者甚至是必須的。
[0004]在一些情況下,能夠基于現(xiàn)有的知識(shí)和/或觀測(cè)到的表現(xiàn)型來(lái)對(duì)基因數(shù)據(jù)集進(jìn)行分類。例如,患者的性別或種族可以是已知的或自報(bào)告的。然而,該方法能夠易于出錯(cuò)。一些分類對(duì)于對(duì)象和處置醫(yī)學(xué)人員而言也可以是未知的。例如,患者可以未知地屬于由未確診的醫(yī)學(xué)狀況或由指示對(duì)特定疾病的傾向的基因標(biāo)識(shí)定義的群體組。當(dāng)一些處置的效力在群體之間可以不同時(shí),對(duì)群體的適當(dāng)識(shí)別在疾病管理中也是重要的。此外,由于筆誤或遺漏、或者個(gè)人隱私或文化敏感性考慮,基因數(shù)據(jù)集可能沒(méi)有標(biāo)記有可用的分類信息。
[0005]能夠備選地基于諸如基因型、表達(dá)/甲基化狀態(tài)等的群體特異性基因標(biāo)記物來(lái)將基因數(shù)據(jù)集分配給群體。該方法有利地從基因數(shù)據(jù)集自身導(dǎo)出群體分組信息。
[0006]當(dāng)對(duì)新個(gè)體執(zhí)行基因分析時(shí),所采集的基因數(shù)據(jù)集經(jīng)受該群體分類。類似地,當(dāng)執(zhí)行對(duì)在個(gè)體的群體內(nèi)的子群體的基因分析時(shí),這樣的分類同樣是初步操作。對(duì)基因數(shù)據(jù)集的群體分類通常是耗費(fèi)時(shí)間的過(guò)程,并且必須針對(duì)分析下的(例如,每個(gè)新患者)每個(gè)新的基因數(shù)據(jù)集被執(zhí)行。
[0007]此外,依賴于觀測(cè)基因數(shù)據(jù)集中的離散基因標(biāo)記物(例如,特異性群體指示性等位基因)的群體分類方法在群體分類過(guò)程中不利用完整基因數(shù)據(jù)集。
[0008]下文預(yù)見(jiàn)克服上述限制和其他限制的改進(jìn)的裝置和方法。

【發(fā)明內(nèi)容】

[0009]根據(jù)一個(gè)方面,一種非暫態(tài)存儲(chǔ)介質(zhì)存儲(chǔ)能由電子數(shù)據(jù)處理設(shè)備運(yùn)行以執(zhí)行包括以下的方法的指令:對(duì)表示參考群體的基因數(shù)據(jù)集的特征向量執(zhí)行特征約簡(jiǎn)以生成將所述特征向量映射到與所述特征向量的維度相比降低的維度的向量空間的映射;使用所述映射來(lái)生成所述參考群體的所述基因數(shù)據(jù)集的降低的維度的向量表示;并且將所述參考群體的所述基因數(shù)據(jù)集的所述降低的維度的向量表示存儲(chǔ)為基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)點(diǎn)。所述映射是適當(dāng)?shù)木€性變換,并且可以是Y = M(X),其中,X是表示基因數(shù)據(jù)集的特征向量,Y是所述基因數(shù)據(jù)集的所述降低的維度的向量表示,并且M是變換矩陣。所述特征約簡(jiǎn)可以采用主成分分析(PCA)。所述方法還可以包括:利用與從其采集所述參考群體的所述基因數(shù)據(jù)集的對(duì)象有關(guān)的信息來(lái)標(biāo)注所述基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)中的所述數(shù)據(jù)點(diǎn);并且基于數(shù)據(jù)點(diǎn)的分布和所述數(shù)據(jù)點(diǎn)的標(biāo)注來(lái)將所述基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)的空間區(qū)域與在所述參考群體內(nèi)的群體相關(guān)聯(lián),例如,通過(guò)執(zhí)行對(duì)由所述基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)索引的所述空間中的所述標(biāo)注的數(shù)據(jù)點(diǎn)的聚類。所述方法還包括:使用所述映射來(lái)生成先證者基因數(shù)據(jù)集的先證者降低的維度的向量表示;將所述先證者降低的維度的向量表示定位在所述基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)中;并且基于所述先證者基因數(shù)據(jù)集在所述基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)中的位置來(lái)對(duì)所述先證者基因數(shù)據(jù)集進(jìn)行分類。
[0010]根據(jù)另一方面,一種裝置包括如前一段所述的非暫態(tài)存儲(chǔ)介質(zhì),以及電子數(shù)據(jù)處理設(shè)備,所述電子數(shù)據(jù)處理設(shè)備被配置為讀取并運(yùn)行在所述非暫態(tài)存儲(chǔ)介質(zhì)上存儲(chǔ)的指令。
[0011]根據(jù)另一方面,一種方法包括:構(gòu)建表示基因數(shù)據(jù)集的特征向量;使用線性變換來(lái)降低所述特征向量的維度以生成所述基因數(shù)據(jù)集的降低的維度的向量表示;將所述基因數(shù)據(jù)集的所述降低的維度的向量表示定位在基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)中;并且基于所述基因數(shù)據(jù)集的降低的維度的向量表示在所述基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)中的位置來(lái)將所述基因數(shù)據(jù)集分配給一個(gè)或多個(gè)群體。至少所述構(gòu)建、所述生成和所述定位適當(dāng)?shù)厥怯呻娮訑?shù)據(jù)處理設(shè)備執(zhí)行的。
[0012]根據(jù)另一方面,一種裝置包括電子數(shù)據(jù)處理設(shè)備,所述電子數(shù)據(jù)處理設(shè)備被編程為:構(gòu)建表示參考群體的參考基因數(shù)據(jù)集的參考特征向量;使用線性變換來(lái)對(duì)所述特參考征向量進(jìn)行變換以生成所述參考群體的所述參考基因數(shù)據(jù)集的降低的維度的向量表示;并且構(gòu)建基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)以將所述參考基因數(shù)據(jù)集索引為數(shù)據(jù)點(diǎn),所述數(shù)據(jù)點(diǎn)由所述參考群體的所述參考基因數(shù)據(jù)集的所述降低的維度的向量表示的至少一些維定義。可以通過(guò)對(duì)所述參考特征向量執(zhí)行特征約簡(jiǎn)來(lái)生成所述線性變換。
[0013]一個(gè)優(yōu)點(diǎn)在于對(duì)基因數(shù)據(jù)集的更有效的群體分類或分組。
[0014]另一優(yōu)點(diǎn)在于對(duì)基因數(shù)據(jù)集的更準(zhǔn)確的群體分類或分組。
[0015]另一優(yōu)點(diǎn)在于提供了可容易擴(kuò)展的以更精細(xì)分辨的群體分組(即,可擴(kuò)展以定義子群體)的群體分類架構(gòu)。
[0016]另一優(yōu)點(diǎn)在于基于聚集的基因數(shù)據(jù)集而不是基于預(yù)先定義的離散基因標(biāo)記物來(lái)執(zhí)行對(duì)基因數(shù)據(jù)集的群體分類或分組。
[0017]另一優(yōu)點(diǎn)在于以降低的計(jì)算復(fù)雜性例如使用預(yù)先計(jì)算的線性變換而不對(duì)要分類的每個(gè)樣本重新執(zhí)行特征約簡(jiǎn)來(lái)執(zhí)行群體分組。
[0018]對(duì)本領(lǐng)域的普通技術(shù)人員而言,在閱讀下文詳細(xì)描述后,許多額外的優(yōu)點(diǎn)和益處將變得顯而易見(jiàn)。
【附圖說(shuō)明】
[0019]本發(fā)明可以采取各種部件和部件的布置,以及各種過(guò)程操作和過(guò)程操作的安排的形式。附圖僅出于圖示優(yōu)選實(shí)施例的目的,并且不得被解釋為對(duì)本發(fā)明的限制。
[0020]圖1以圖解的方式示出用于生成采用基于樹(shù)的空間數(shù)據(jù)結(jié)構(gòu)(SDS)的群體分類器的系統(tǒng)。
[0021]圖2以圖解的方式示出當(dāng)使用二維數(shù)據(jù)點(diǎn)時(shí)由圖1的系統(tǒng)適當(dāng)?shù)厣傻恼f(shuō)明性四叉樹(shù)結(jié)構(gòu)。
[0022]圖3以圖解的方式示出當(dāng)使用三維數(shù)據(jù)點(diǎn)時(shí)由圖1的系統(tǒng)適當(dāng)?shù)厣傻恼f(shuō)明性八叉樹(shù)SDS。
[0023]圖4以圖解的方式示出由圖1的系統(tǒng)生成的群體分類器的操作。
【具體實(shí)施方式】
[0024]參考圖1,以圖解的方式示出了用于生成用于對(duì)基因數(shù)據(jù)集進(jìn)行分類的群體分類器的系統(tǒng)。該系統(tǒng)適當(dāng)?shù)赜杀痪幊虨閳?zhí)行所公開(kāi)的處理操作的計(jì)算機(jī)或其他電子數(shù)據(jù)處理設(shè)備10來(lái)實(shí)施,并且該系統(tǒng)接收針對(duì)參考群體的成員的多個(gè)基因數(shù)據(jù)集12作為輸入?;驍?shù)據(jù)集能夠例如包括使用微陣列或其他實(shí)驗(yàn)室處理生成的基因測(cè)序數(shù)據(jù)(核DNA數(shù)據(jù)、線粒體DNA數(shù)據(jù)、RNA數(shù)據(jù)、甲基化數(shù)據(jù)等)、蛋白質(zhì)表達(dá)數(shù)據(jù)。在一些實(shí)施例中,基因數(shù)據(jù)集12包括全基因組序列WGS數(shù)據(jù)集或由下一代測(cè)序裝置生成的其他大量基因序列?;驍?shù)據(jù)集12任選地可以包括超過(guò)一種類型的基因數(shù)據(jù),例如,測(cè)序數(shù)據(jù)和微陣列數(shù)據(jù)兩者?;驍?shù)據(jù)集12基本上是重疊的(即,包括相同的基因區(qū)域、產(chǎn)生自相同的標(biāo)準(zhǔn)微陣列等)并且經(jīng)歷標(biāo)準(zhǔn)化過(guò)濾和/或處理14。通過(guò)“標(biāo)準(zhǔn)化”,其意味著基因數(shù)據(jù)集12全部經(jīng)歷相同的過(guò)濾和/或處理14,該過(guò)濾和/或處理可以通過(guò)說(shuō)明性舉例的方式包括對(duì)單核苷酸多態(tài)性(SNP)或諸如拷貝數(shù)變異(CNV)等的其他基因變異體的識(shí)別、對(duì)基因表達(dá)數(shù)量的歸一化、對(duì)數(shù)據(jù)的二值化(或更一般地,離散化)、對(duì)異常值的去除等
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新巴尔虎右旗| 江北区| 方山县| 望江县| 蓝山县| 武夷山市| 沈丘县| 久治县| 苍山县| 龙江县| 随州市| 监利县| 翁源县| 明光市| 广南县| 沂南县| 南溪县| 如东县| 屯门区| 威海市| 晴隆县| 东乡县| 瑞丽市| 监利县| 寿光市| 红原县| 林芝县| 龙陵县| 靖边县| 咸阳市| 山阳县| 南阳市| 兴城市| 临夏市| 博罗县| 永定县| 鹤庆县| 博爱县| 平舆县| 胶州市| 南华县|