欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于對(duì)基因組進(jìn)行壓縮和解壓縮的方法和裝置的制造方法

文檔序號(hào):8381257閱讀:527來(lái)源:國(guó)知局
用于對(duì)基因組進(jìn)行壓縮和解壓縮的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的各實(shí)施方式涉及數(shù)據(jù)壓縮和解壓縮,更具體地,涉及用于對(duì)基因組 (genome)進(jìn)行壓縮和解壓縮的方法和裝置。
【背景技術(shù)】
[0002] 隨著生物學(xué)的發(fā)展,人類對(duì)于生物基因的研究已經(jīng)越來(lái)越深入,例如,已經(jīng)涉及到 了諸如人類健康、藥物研發(fā)、動(dòng)植物新品種以及關(guān)于微生物等諸多方面。
[0003] 簡(jiǎn)言之,針對(duì)生物的基因組進(jìn)行測(cè)序(sequencing)是指記錄構(gòu)成該生物的染色 體的堿基對(duì)的序列。通常,將測(cè)量一個(gè)物種的第一個(gè)樣本的基因組的過(guò)程稱為測(cè)序,而將測(cè) 量該物種的其他樣本的基因組的過(guò)程稱為重測(cè)序(re-sequencing)。測(cè)序和重測(cè)序技術(shù)已 經(jīng)實(shí)現(xiàn)了突破,并且所涉及的各項(xiàng)成本越來(lái)越低。越來(lái)越多的個(gè)人或者團(tuán)體開(kāi)始認(rèn)識(shí)到基 因組的重要性,并且目前已經(jīng)通過(guò)測(cè)序/重測(cè)序過(guò)程而獲得了大量物種的基因組數(shù)據(jù)。
[0004] 人類基因包括大約30億個(gè)堿基對(duì),按照現(xiàn)有的表示方式,人類的基因組將包括大 約60億個(gè)字符(字符A、G、T、C)。因而,存儲(chǔ)每個(gè)基因組會(huì)占用大量的存儲(chǔ)空間,當(dāng)需要存 儲(chǔ)大量基因組、或者當(dāng)需要針對(duì)基因組進(jìn)行拷貝和傳輸時(shí),將會(huì)面臨如何提高數(shù)據(jù)存儲(chǔ)/ 數(shù)據(jù)傳輸效率的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0005] 生物學(xué)家已經(jīng)發(fā)現(xiàn),同一物種的各個(gè)樣本的基因組之間存在一定的相似性。例如, 人類的基因組之間的相似性遠(yuǎn)遠(yuǎn)高于人類與其他物種的基因組之間相似性;進(jìn)一步,黃種 人的基因組之間的相似性通常會(huì)高于黃種人與白種人的基因組之間的相似性。
[0006] 因而,期望能夠基于基因組之間的相似性而開(kāi)發(fā)出一種針對(duì)基因組進(jìn)行壓縮/解 壓縮的技術(shù)方案。期望該技術(shù)方案能夠與現(xiàn)有的基因組存儲(chǔ)方式相結(jié)合,并且能夠充分利 用基因組之間的相似性,進(jìn)而實(shí)現(xiàn)高效的壓縮/解壓縮;另外,在有效地提高數(shù)據(jù)壓縮率的 同時(shí),還期望能夠在不必將整個(gè)基因組進(jìn)行解壓的情況下,僅針對(duì)基因組中的一部分進(jìn)行 解壓縮。
[0007] 在本發(fā)明的一個(gè)實(shí)施方式中,提供了一種用于對(duì)基因組進(jìn)行壓縮的方法,包括: 從參考數(shù)據(jù)庫(kù)中選擇與基因組相匹配的參考基因組;基于參考基因組中包括的多個(gè)分段 (segment)在參考基因組中的位置來(lái)創(chuàng)建索引;基于多個(gè)分段將基因組與參考基因組進(jìn)行 比對(duì)(align),以標(biāo)識(shí)基因組與參考基因組之間的差異數(shù)據(jù);以及生成經(jīng)壓縮的基因組,經(jīng) 壓縮的基因組至少包括索引和差異數(shù)據(jù)。
[0008] 在本發(fā)明的一個(gè)實(shí)施方式中,從參考數(shù)據(jù)庫(kù)中選擇與基因組相匹配的參考基因組 包括:基于表征參考數(shù)據(jù)庫(kù)中的參考基因組的至少一個(gè)生物性狀(phenotypic trait)以 及參考數(shù)據(jù)庫(kù)中的參考基因組中包括的至少一個(gè)預(yù)定序列中的至少任一項(xiàng),選擇參考基因 組。
[0009] 在本發(fā)明的一個(gè)實(shí)施方式中,參考基因組中的多個(gè)分段是基于與參考基因組相關(guān) 聯(lián)的注釋以及預(yù)定步長(zhǎng)中的至少任一項(xiàng)來(lái)劃分的。如果參考基因組相關(guān)聯(lián)的注釋信息是可 獲取的,則優(yōu)先考慮使用。
[0010] 在本發(fā)明的一個(gè)實(shí)施方式中,提供了一種用于對(duì)基因組進(jìn)行解壓縮的方法,包括: 響應(yīng)于接收到根據(jù)本發(fā)明的方法進(jìn)行壓縮的經(jīng)壓縮的基因組,從參考數(shù)據(jù)庫(kù)中獲取與經(jīng)壓 縮的基因組相匹配的參考基因組;以及按照經(jīng)壓縮的基因組中的索引,基于參考基因組和 經(jīng)壓縮的基因組中的差異數(shù)據(jù),對(duì)經(jīng)壓縮的基因組進(jìn)行解壓縮。
[0011] 在本發(fā)明的一個(gè)實(shí)施方式中,提供了一種用于對(duì)基因組進(jìn)行壓縮的裝置,包括:選 擇模塊,配置用于從參考數(shù)據(jù)庫(kù)中選擇與基因組相匹配的參考基因組;索引模塊,配置用于 基于參考基因組中包括的多個(gè)分段在參考基因組中的位置來(lái)創(chuàng)建索引;比對(duì)模塊,配置用 于基于多個(gè)分段將基因組與參考基因組進(jìn)行比對(duì),以標(biāo)識(shí)基因組與參考基因組之間的差異 數(shù)據(jù);以及生成模塊,配置用于生成經(jīng)壓縮的基因組,經(jīng)壓縮的基因組至少包括索引和差異 數(shù)據(jù)。
[0012] 在本發(fā)明的一個(gè)實(shí)施方式中,選擇模塊包括至少以下任一項(xiàng):第一選擇模塊,配置 用于基于表征參考數(shù)據(jù)庫(kù)中的參考基因組的至少一個(gè)生物性狀,選擇參考基因組;以及第 二選擇模塊,配置用于基于參考數(shù)據(jù)庫(kù)中的參考基因組中包括的至少一個(gè)預(yù)定序列,選擇 參考基因組。
[0013] 在本發(fā)明的一個(gè)實(shí)施方式中,參考基因組中的多個(gè)分段是基于與參考基因組相關(guān) 聯(lián)的注釋以及預(yù)定步長(zhǎng)中的至少任一項(xiàng)來(lái)劃分的。
[0014] 在本發(fā)明的一個(gè)實(shí)施方式中,提供了一種用于對(duì)基因組進(jìn)行解壓縮的裝置,包括: 獲取模塊,配置用于響應(yīng)于接收到根據(jù)本發(fā)明的裝置進(jìn)行壓縮的經(jīng)壓縮的基因組,從參考 數(shù)據(jù)庫(kù)中獲取與經(jīng)壓縮的基因組相匹配的參考基因組;以及解壓縮模塊,配置用于按照經(jīng) 壓縮的基因組中的索引,基于參考基因組和經(jīng)壓縮的基因組中的差異數(shù)據(jù),對(duì)經(jīng)壓縮的基 因組進(jìn)行解壓縮。
[0015] 采用根據(jù)本發(fā)明的實(shí)施方式所述的技術(shù)方案,可以充分地將已經(jīng)獲得的代表性基 因組作為參考基因組,并且在存儲(chǔ)新的待處理基因組時(shí),僅保存待處理基因組與參考基因 組之間的差異,進(jìn)而大大降低數(shù)據(jù)量。另一方面,采用根據(jù)本發(fā)明的實(shí)施方式所述的技術(shù)方 案,在經(jīng)壓縮的基因組中還包括索引,通過(guò)查詢?cè)撍饕梢匝杆僬业交蚪M中的任意堿基 對(duì),進(jìn)而便于在無(wú)需對(duì)整個(gè)經(jīng)壓縮的基因組進(jìn)行解壓縮的情況下,快速地找到期望訪問(wèn)的 基因 片段。
【附圖說(shuō)明】
[0016] 結(jié)合附圖并參考以下詳細(xì)說(shuō)明,本發(fā)明各實(shí)施方式的特征、優(yōu)點(diǎn)及其他方面將變 得更加明顯。本發(fā)明附圖中,相同的標(biāo)號(hào)表示相同或相似的元素。在附圖中:
[0017] 圖1示意性示出了適于實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算系統(tǒng)的框圖;
[0018] 圖2示意性示出了用于針對(duì)生物進(jìn)行測(cè)序所得的基因組的數(shù)據(jù)結(jié)構(gòu)的示意;
[0019] 圖3示意性示出了根據(jù)一個(gè)實(shí)施方式的用于對(duì)基因組進(jìn)行壓縮的方法的示意圖;
[0020] 圖4示意性示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于對(duì)基因組進(jìn)行壓縮的方法的 示意圖;
[0021] 圖5示意性示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于創(chuàng)建索引的過(guò)程的示意圖;
[0022] 圖6A-圖6C分別示意性示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的、用于標(biāo)識(shí)基因組與參 考基因組之間的差異數(shù)據(jù)的示意圖;
[0023] 圖7示意性示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于對(duì)經(jīng)壓縮基因組進(jìn)行解壓縮 的方法的流程圖;
[0024] 圖8A示意性示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的對(duì)基因組進(jìn)行壓縮的裝置的框 圖,以及圖8B示意性示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于對(duì)經(jīng)壓縮基因組進(jìn)行解壓縮 的裝置的框圖。
【具體實(shí)施方式】
[0025] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開(kāi) 的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施方 式所限制。相反,提供這些實(shí)施方式是為了使本公開(kāi)更加透徹和完整,并且能夠?qū)⒈竟_(kāi)的 范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0026] 所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。 因此,本公開(kāi)可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包 括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為"電路"、"模 塊"或"系統(tǒng)"。此外,在一些實(shí)施方式中,本發(fā)明還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
高雄市| 中超| 仪陇县| 手游| 彭阳县| 永安市| 福清市| 白城市| 邹城市| 东乌珠穆沁旗| 乳源| 沾益县| 红河县| 都匀市| 阳朔县| 津市市| 铁岭县| 苏尼特右旗| 正镶白旗| 丽水市| 高陵县| 临沭县| 加查县| 永吉县| 分宜县| 鄂州市| 安塞县| 都兰县| 吴旗县| 织金县| 淮阳县| 南康市| 元朗区| 吴川市| 盖州市| 天津市| 石柱| 贵溪市| 留坝县| 隆回县| 陇南市|