欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種將基因信息進(jìn)行二進(jìn)制表示的存儲方法

文檔序號:10655815閱讀:383來源:國知局
一種將基因信息進(jìn)行二進(jìn)制表示的存儲方法
【專利摘要】本發(fā)明公開了一種將基因信息進(jìn)行二進(jìn)制表示的存儲方法,所述的方法包括:根據(jù)DNA雙鏈結(jié)構(gòu)及堿基配對,由字符代表匹配的堿基對;將四種堿基對進(jìn)行數(shù)值定義并用兩位二進(jìn)制數(shù)來表示;三個(gè)堿基對組成的堿基組以6位二進(jìn)制數(shù)值和2位固定賦值組成一個(gè)8位一字節(jié)的二進(jìn)制數(shù)值表示;以線性映射的方式,將64種堿基組0~63根據(jù)Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進(jìn)制數(shù),以二進(jìn)制字節(jié)流形式的數(shù)據(jù)信息進(jìn)行存儲。
【專利說明】
-種將基因信息進(jìn)行二進(jìn)制表示的存儲方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及生物信息領(lǐng)域,設(shè)及基因檢測后數(shù)據(jù)存儲的處理技術(shù),是一種將基因 信息進(jìn)行二進(jìn)制表示的存儲方法。
【背景技術(shù)】
[0002] 高通量基因測序技術(shù)的成熟與普及,使得基因檢測的成本也逐漸降低,測序時(shí)間 更快,而隨著最新的更高通量、更快、成本更低的基因測序技術(shù)的研發(fā)與商業(yè)化,基因測序 業(yè)已走進(jìn)個(gè)人基因檢測的商業(yè)化模式。然而,基因檢測所得的數(shù)據(jù)是海量的,在測序輸出的 數(shù)據(jù)存儲格式上,一般WSAM(Sequence Alignment Map)/BAM(Binary Alignment Map)格 式存儲能夠緊湊的表示出核巧酸序列。運(yùn)種傳統(tǒng)格式存儲不但占用巨大的存儲空間,而且 不利于對基因數(shù)據(jù)進(jìn)行進(jìn)一步的分析(如人工智能的數(shù)據(jù)挖掘)。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的在于提供一種基因測序后數(shù)據(jù)信息的二進(jìn)制表示的存儲方法;通過 把生物基因的四種堿基對(A,T,G,C)轉(zhuǎn)換成二進(jìn)制形式。在縮小了存儲空間的同時(shí)能更加 便捷的讀取分析基因信息。
[0004] 為解決上述問題,本發(fā)明提供W下技術(shù)方案:
[0005] DNA(Deo巧ribonucleic acid),即脫氧核糖核酸,是一種分子,雙鏈雙螺旋結(jié)構(gòu), 由脫氧核糖核巧酸(成分為:脫氧核糖、憐酸及四種含氮堿基)組成??山M成遺傳指令,引導(dǎo) 生物發(fā)育與生命機(jī)能運(yùn)作,帶有遺傳信息的DNA片段稱為基因。脫氧核巧酸是基因的基本結(jié) 構(gòu)和功能單位,決定生物的多樣性的就是脫氧核巧酸中四種堿基:腺嚷嶺(adenine,縮寫為 A)、胸腺喀晚(thymine,縮寫為T)、胞喀晚(c}ftosine,縮寫為C)和鳥嚷嶺(guanine,縮寫為 G)的排列順序不同。基因測序得到四種堿基排列順序的數(shù)據(jù)信息,將四種堿基排列順序W 二進(jìn)制形式表示并進(jìn)行存儲,從而減少存儲空間的使用,也方便讀取分析基因信息,為基 因信息的大數(shù)據(jù)挖掘、人工智能數(shù)據(jù)分析創(chuàng)造良好的應(yīng)用基礎(chǔ)。
[0006] -種基因信息的二進(jìn)制存儲方法,其特征在于,所述的方法包括:
[0007] 根據(jù)DNA雙鏈結(jié)構(gòu)及堿基配對,由字符代表匹配的堿基對;
[000引將四種堿基對進(jìn)行數(shù)值定義并用兩位二進(jìn)制數(shù)來表示;
[0009]=個(gè)堿基對組成的堿基組W6位二進(jìn)制數(shù)值和2位固定賦值組成一個(gè)8位一字節(jié)的 二進(jìn)制數(shù)值表示;
[0010] W線性映射的方式,將64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進(jìn)制數(shù),W二進(jìn)制字節(jié) 流形式的數(shù)據(jù)信息進(jìn)行存儲。
[0011] 作為本發(fā)明的進(jìn)一步技術(shù)方案:由字符代表匹配的堿基對,根據(jù)堿基的固定配對, 由字符4,1',6,巧且成的字符文件,其中每一個(gè)字符代表一個(gè)堿基對,轉(zhuǎn)換方式如下所示:
[0012] A:A = T;T:T=A;G:G = C;C:C=G〇
[0013] 作為本發(fā)明的進(jìn)一步技術(shù)方案:將四種堿基對進(jìn)行數(shù)值定義并用兩位二進(jìn)制數(shù)來 表示,A、T、G、C四種堿基對,利用計(jì)算機(jī)二進(jìn)制方法,分別用2位的二進(jìn)制數(shù)值來表示,可W 有24種組合的表示方法,舉例1中組合如下:
[0014] a = 00、T = 01、G = 10、C=11。
[0015] 作為本發(fā)明的進(jìn)一步技術(shù)方案:堿基組的8位二進(jìn)制數(shù)值表示方法,=個(gè)堿基對組 成的堿基組W6位二進(jìn)制數(shù)值和2位固定賦值組成一個(gè)8位一字節(jié)的二進(jìn)制數(shù)值來表示;2位 的固定賦值可W用〇〇、〇1、1〇、11作為固定值來填充表示;^高位固定賦值是11,由堿基對八、 T、G組合成的堿基組其兩位二進(jìn)制數(shù)表示分別是00、01、10為例,由堿基對4、1\6組成的堿基 組的二進(jìn)制表示為:ATG = 11000110。
[0016] 作為本發(fā)明的進(jìn)一步技術(shù)方案:W線性映射的方式,將64種堿基組進(jìn)行數(shù)值映射 并轉(zhuǎn)換成8位二進(jìn)制數(shù)值,根據(jù)線性映射的方式,將賦值之后的64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn) 換為8位二進(jìn)制數(shù);通過該賦值與映射的方式,每一個(gè)堿基組即可得到一個(gè)固定的8位二進(jìn) 制數(shù),所有堿基組組合在一起便形成二進(jìn)制字節(jié)流,得到與基因信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換 之后同樣形式的字節(jié)流。
[0017] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過把生物基因的四種堿基對(A, T,G,C)轉(zhuǎn)換成二進(jìn)制形式。在縮小了存儲空間的同時(shí)能更加便捷的讀取分析基因信息。
【附圖說明】
[0018] 圖1是字符與堿基對對應(yīng)轉(zhuǎn)換關(guān)系圖。
【具體實(shí)施方式】
[0019] 下面將對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施 例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通 技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范 圍。
[0020] 參見說明書附圖1,本發(fā)明提供一種技術(shù)方案:
[0021 ] DNA(Deo巧ribonucleic acid),即脫氧核糖核酸,是一種分子,雙鏈雙螺旋結(jié)構(gòu), 由脫氧核糖核巧酸(成分為:脫氧核糖、憐酸及四種含氮堿基)組成。可組成遺傳指令,引導(dǎo) 生物發(fā)育與生命機(jī)能運(yùn)作,帶有遺傳信息的DNA片段稱為基因。脫氧核巧酸是基因的基本結(jié) 構(gòu)和功能單位,決定生物的多樣性的就是脫氧核巧酸中四種堿基:腺嚷嶺(adenine,縮寫為 A)、胸腺喀晚(thymine,縮寫為T)、胞喀晚(c}ftosine,縮寫為C)和鳥嚷嶺(guanine,縮寫為 G)的排列順序不同?;驕y序得到四種堿基排列順序的數(shù)據(jù)信息,將四種堿基排列順序W 二進(jìn)制形式表示并進(jìn)行存儲,從而減少存儲空間的使用,也方便讀取分析基因信息,為基 因信息的大數(shù)據(jù)挖掘、人工智能數(shù)據(jù)分析創(chuàng)造良好的應(yīng)用基礎(chǔ)。
[0022] 在DNA雙鏈結(jié)構(gòu)中,堿基的互補(bǔ)配對是固定的,A = T、G = C,所W,由字符A,T,G,C組 成的字符文件,其中每一個(gè)字符代表一個(gè)堿基對,轉(zhuǎn)換方式如下所示:
[0023] A:A = T;T:T=A;G:G = C;C:C=G
[0024] 堿基對示例:T ACGAACTGCTA
[002引 ATGCTTGACGAT
[0026] 如上所示,雙鏈上的兩個(gè)互補(bǔ)配對的堿基稱為一個(gè)堿基對,如A = T、T = A、G = C、C =G等,=個(gè)相鄰的堿基對編成一組堿基組。
[0027] 可W利用計(jì)算機(jī)二進(jìn)制方法,對每一個(gè)堿基對進(jìn)行數(shù)值定義并用兩位二進(jìn)制數(shù)來 表示。所有二進(jìn)制組合如下表: 「00281
[0029]
[0030] DNA上每=個(gè)相鄰堿基對編成一組命名為堿基組,當(dāng)堿基組位于基因上時(shí),每個(gè)堿 基組對應(yīng)一個(gè)密碼子W及氨基酸。堿基組通過兩位代表法轉(zhuǎn)換之后生成了一個(gè)6位的二進(jìn) 制數(shù)值,并且可W將運(yùn)個(gè)6位數(shù)據(jù)存儲到一個(gè)字節(jié)(8位)的高位或低位,剩余的2位數(shù)值可用 00,01,10,11作為固定值來填充。W高位固定賦值是11,由=個(gè)堿基對A、T、G組合成的堿基 組其兩位二進(jìn)制數(shù)表示分別是〇〇、〇1、1〇為例,因此由=個(gè)堿基對A、T、G組成的堿基組的二 進(jìn)制表示為ATG = 11000110。
[0031] 每個(gè)堿基組都是可W用一個(gè)8位二進(jìn)制數(shù)(一個(gè)字節(jié))來表示。當(dāng)所有堿基組都使 用二進(jìn)制數(shù)表示之后,即得到一個(gè)新的由二進(jìn)制數(shù)字節(jié)流表示的基因信息,再利用字節(jié)流 圖像表示的方式便可得到一個(gè)基因信息轉(zhuǎn)化而成的可視化圖像,通過運(yùn)種方式可W對基因 進(jìn)行更加直觀的研究與分析,并且在存儲上節(jié)省了大量的存儲空間。
[0032] 每個(gè)堿基組由=個(gè)堿基對組成,堿基對共有四種組合,所W每個(gè)堿基組有4~3 = 64 種組合方式。對基因的64種堿基組進(jìn)行重新編碼,將64種堿基組賦予0-63的編號,然后通過 線性映射或可選閥值映射的方式映射到0~255的范圍,從而得到一個(gè)新的字節(jié)流。堿基組 編號如下表所不: r00331

[0034] 線性映射可W有四種方式:Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3,根據(jù)線性映 射的方式,將賦值之后的64種堿基組WY = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均 勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進(jìn)制數(shù),通過該賦值與映射的方式, 每一個(gè)堿基組即可得到一個(gè)固定的8位二進(jìn)制數(shù),所有堿基組的組合在一起便形成二進(jìn)制 字節(jié)流,得到與基因信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換之后同樣形式的字節(jié)流。W映射公式Y(jié) = 4X+1 為例,映射結(jié)果如下表:
[0035]
[0036] 通過基因的兩位代表轉(zhuǎn)換法W及基因信息映射轉(zhuǎn)換法都可W將多個(gè)DNA序列存儲 在一個(gè)具有隨機(jī)存取格式的二進(jìn)制文件當(dāng)中。文件可包含DNA信息W及需要隱藏的信息。
[0037] 利用數(shù)據(jù)賦值、兩位二進(jìn)制數(shù)表示,對堿基組進(jìn)行重新編碼,編碼之后形成的便是 字節(jié)流形式的基因數(shù)據(jù)信息,運(yùn)種數(shù)據(jù)可W通過字節(jié)流圖像表示的方式對基因信息進(jìn)行可 視化轉(zhuǎn)換,也可W進(jìn)行W機(jī)器學(xué)習(xí)的算法進(jìn)行數(shù)據(jù)挖掘。
[0038] 盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對于本領(lǐng)域的普通技術(shù)人員而言,可W 理解在不脫離本發(fā)明的原理和精神的情況下可W對運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換 和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。
【主權(quán)項(xiàng)】
1. 一種將基因信息進(jìn)行二進(jìn)制表示的存儲方法,其特征在于,所述的方法包括: 根據(jù)DNA雙鏈結(jié)構(gòu)及堿基配對,由字符代表匹配的堿基對; 將四種堿基對進(jìn)行數(shù)值定義并用兩位二進(jìn)制數(shù)來表示; 三個(gè)堿基對組成的堿基組以6位二進(jìn)制數(shù)值和2位固定賦值組成一個(gè)8位一字節(jié)的二進(jìn) 制數(shù)值表示; 以線性映射的方式,將64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3 的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進(jìn)制數(shù),以二進(jìn)制字節(jié)流形 式的數(shù)據(jù)信息進(jìn)行存儲。2. 根據(jù)權(quán)利要求1所述的一種將基因信息進(jìn)行二進(jìn)制表示的存儲方法,由字符代表匹 配的堿基對,其特征在于:根據(jù)堿基的固定配對,由字符A,T,G,C組成的字符文件,其中每一 個(gè)字符代表一個(gè)堿基對,轉(zhuǎn)換方式如下所示: A:A = T;T:T=A;G:G = C;C:C = G〇3. 根據(jù)權(quán)利要求1所述的一種基因信息的二進(jìn)制存儲方法,將四種堿基對進(jìn)行數(shù)值定 義并用兩位二進(jìn)制數(shù)來表示,其特征在于4、1\6、(:四種堿基對,利用計(jì)算機(jī)二進(jìn)制方法,分 別用2位的二進(jìn)制數(shù)值來表示,可以有24種組合的表示方法,舉例1中組合如下: A = 00、T = 01、G=10、C=11〇4. 根據(jù)權(quán)利要求1所述的一種將基因信息進(jìn)行二進(jìn)制表示的存儲方法,堿基組的8位二 進(jìn)制數(shù)值表示方法,其特征在于:三個(gè)堿基對組成的堿基組以6位二進(jìn)制數(shù)值和2位固定賦 值組成一個(gè)8位一字節(jié)的二進(jìn)制數(shù)值來表示;2位的固定賦值可以用00、01、10、11作為固定 值來填充表示;以高位固定賦值是11,由堿基對A、T、G組合成的堿基組其兩位二進(jìn)制數(shù)表示 分別是00、01、10為例,由堿基對A、T、G組成的堿基組的二進(jìn)制表示為:ATG = 11000110。5. 根據(jù)權(quán)利要求1所述的一種將基因信息進(jìn)行二進(jìn)制表示的存儲方法,以線性映射的 方式,將64種堿基組進(jìn)行數(shù)值映射并轉(zhuǎn)換成8位二進(jìn)制數(shù)值,其特征在于:根據(jù)線性映射的 方式,將賦值之后的64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式 均勻映射到〇~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進(jìn)制數(shù);通過該賦值與映射的方 式,每一個(gè)堿基組即可得到一個(gè)固定的8位二進(jìn)制數(shù),所有堿基組組合在一起便形成二進(jìn)制 字節(jié)流,得到與基因信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換之后同樣形式的字節(jié)流。
【文檔編號】G06F19/28GK106022006SQ201610390134
【公開日】2016年10月12日
【申請日】2016年6月2日
【發(fā)明人】謝清祿, 徐宏鍇, 朱軍, 余孟春
【申請人】廣州麥侖信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
德安县| 左贡县| 长春市| 安吉县| 东明县| 平舆县| 赞皇县| 霍州市| 宜兴市| 来安县| 贞丰县| 四平市| 搜索| 无锡市| 平定县| 通化县| 潼南县| 清水县| 和政县| 玉环县| 江油市| 体育| 吉安市| 革吉县| 正蓝旗| 太康县| 安化县| 高要市| 元谋县| 恩平市| 平南县| 浦江县| 闽清县| 靖州| 潢川县| 赤水市| 桦南县| 蓬莱市| 康平县| 固阳县| 红原县|