欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種將基因信息進行可視化圖像表示的方法

文檔序號:10725449閱讀:873來源:國知局
一種將基因信息進行可視化圖像表示的方法
【專利摘要】本發(fā)明公開了一種基因信息的可視化圖像表示方法,在基因信息的二進制存儲的基礎上,通過字節(jié)流圖像表示的方式對基因信息進行可視化轉(zhuǎn)換,轉(zhuǎn)換成可視的圖像信息表示。該方法利用二進制轉(zhuǎn)換的方法,把基因信息轉(zhuǎn)化為一個二進制字節(jié)流,根據(jù)不同的顏色空間,將字節(jié)流數(shù)據(jù)轉(zhuǎn)換形成二維的圖像數(shù)據(jù),可選的色彩空間包括:RGB、HSV、GRAY單通道;二維圖像矩陣的結構可采取固定列,或固定行,或正方形擬合三種方式;在運用程序進行轉(zhuǎn)換時,每個堿基組得到一個固定的8位二進制數(shù),然后8位二進制數(shù)再乘以4作為H(色度)值,128作為S(飽和度)值,128作為V(亮度)值,生成HSV顏色模型,然后再轉(zhuǎn)換成RGB顏色模型,最后生成JPG格式的可視化圖像。
【專利說明】
一種將基因信息進行可視化圖像表示的方法
技術領域
[0001]本發(fā)明涉及生物信息領域,涉及基因檢測后數(shù)據(jù)存儲的處理技術,是一種將基因信息進行可視化圖像表示的方法。
【背景技術】
[0002]高通量基因測序技術的成熟與普及,使得基因檢測的成本也逐漸降低,測序時間更快,而隨著最新的更高通量、更快、成本更低的基因測序技術的研發(fā)與商業(yè)化,基因測序業(yè)已走進個人基因檢測的商業(yè)化模式。然而,基因檢測所得的數(shù)據(jù)是海量的,在測序輸出的數(shù)據(jù)存儲格式上,一般以SAM(Sequence Alignment Map)/BAM(Binary Alignment Map )格式存儲能夠緊湊的表示出核苷酸序列。這種傳統(tǒng)格式存儲不但占用巨大的存儲空間,而且不利于對基因數(shù)據(jù)進行進一步的分析和以機器學習的算法進行數(shù)據(jù)挖掘。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的在于提供一種將基因信息進行可視化圖像表示的方法。
[0004]為解決上述問題,本發(fā)明提供以下技術方案:
DNACDeoxyribonucleic acid),即脫氧核糖核酸,是一種分子,雙鏈雙螺旋結構,由脫氧核糖核苷酸(成分為:脫氧核糖、磷酸及四種含氮堿基)組成??山M成遺傳指令,引導生物發(fā)育與生命機能運作,帶有遺傳信息的DNA片段稱為基因。脫氧核苷酸是基因的基本結構和功能單位,決定生物的多樣性的就是脫氧核苷酸中四種堿基:腺嘌呤(adenine,縮寫為A)、胸腺啼啶(thymine,縮寫為T)、胞啼啶(cytosine,縮寫為C)和鳥嘌呤(guanine,縮寫為G)的排列順序不同?;驕y序得到四種堿基排列順序的數(shù)據(jù)信息,將四種堿基排列順序以二進制形式表示并進行存儲,從而減少存儲空間的使用,也方便讀取分析基因信息,為基因信息的大數(shù)據(jù)挖掘、人工智能數(shù)據(jù)分析創(chuàng)造良好的應用基礎。
[0005]在DNA雙鏈結構中,堿基的互補配對是固定的,A=T、G=C,所以,由字符A、T、G、C組成的字符文件,其中每一個字符代表一個堿基對,轉(zhuǎn)換方式如下所示:
A:A=T;T:T=A;G:G=C;C:C=G堿基對示例:T ACGAACTGCTAATGCTTGACGAT如上所示,雙鏈上的兩個互補配對的堿基稱為一個堿基對,如A=T、T=A、G=C、C=G等,三個相鄰的堿基對編成一組堿基組。
[0006]通過基因信息的二進制表示以及基因信息映射轉(zhuǎn)換可以將DNA序列存儲在一個具有隨機存取格式的二進制文件當中。文件可包含DNA信息以及需要隱藏的信息。
[0007]利用數(shù)據(jù)賦值、兩位二進制數(shù)表示,對堿基組進行重新編碼,編碼之后形成的便是字節(jié)流形式的基因數(shù)據(jù)信息,這種數(shù)據(jù)可以通過字節(jié)流圖像表示的方式對基因信息進行可視化轉(zhuǎn)換,也可以進行以機器學習的算法進行數(shù)據(jù)挖掘。
[0008]利用二進制轉(zhuǎn)換的方法,把基因信息轉(zhuǎn)化為一個二進制字節(jié)流,根據(jù)不同的顏色空間,將字節(jié)流數(shù)據(jù)轉(zhuǎn)換形成二維的圖像數(shù)據(jù)??蛇x的顏色空間包括:RGB、HSV、GRAY單通道。
[0009]二維圖像矩陣的結構可采取固定列、或固定行、或正方形擬合三種方式:
固定列:固定列是指圖像的高度采用可設定的固定值,寬度根據(jù)不同基因文件的大小而定。
[0010]固定行:固定行是指圖像的寬度采用可設定的固定值,高度根據(jù)不同基因文件的大小而定。
[0011]正方形擬合:正方形擬合法是找到最靠近字節(jié)流長度且大于字節(jié)流長度的平方數(shù)作為圖像的面積,圖像長寬相等,都等于平方數(shù)的開方,不足的色塊用固定顏色來進行填充。
[0012]程序運行步驟:
C:\Users\wei>e
E:\>cd TransforJpg
E:\TransforJpg>cd X64
E:\TransforJpg\X 64>cd Release
E:\TransforJpg\X64\Release>TransforJpg.exe
E: \\關于基因數(shù)據(jù)轉(zhuǎn)換及可視化項目說明
在運用程序進行轉(zhuǎn)換時,每個堿基組得到一個固定的8位二進制數(shù),然后8位二進制數(shù)再乘以4作為H(色度)值,128作為S(飽和度)值,128作為V(亮度)值,生成HSV顏色模型,然后再轉(zhuǎn)換成RGB顏色模型,最后生成JPG格式的可視化圖像。
[0013]與現(xiàn)有技術相比,本發(fā)明的有益效果是:該將基因信息進行可視化圖像表示的方法,通過字節(jié)流圖像表示的方式對基因信息進行可視化轉(zhuǎn)換,轉(zhuǎn)換成可視的圖像信息表示,有利于以機器學習及圖像識別技術對基因信息進行解讀和分析。
【附圖說明】
[0014]圖1為本發(fā)明的流程圖。
[0015]圖2是基因信息經(jīng)可視化圖像轉(zhuǎn)換后的JPG格式二維圖像。
【具體實施方式】
[0016]下面將對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0017]參見說明書附圖1-2,本發(fā)明提供一種技術方案:
在DNA雙鏈結構中,堿基的互補配對是固定的,A=T、G=C,所以,由字符A、T、G、C組成的字符文件,其中每一個字符代表一個堿基對,轉(zhuǎn)換方式如下所示:
A:A=T;T:T=A;G:G=C;C:C=G堿基對示例:T ACGAACTGCTAATGCTTGACGAT 如上所示,雙鏈上的兩個互補配對的堿基稱為一個堿基對,如A=T、T=A、G=C、C=G等,三個相鄰的堿基對編成一組堿基組。
[0018]—種將基因信息進行可視化圖像表示的方法,通過基因信息的二進制表示以及基因信息映射轉(zhuǎn)換可以將DNA序列存儲在一個具有隨機存取格式的二進制文件當中。文件可包含DNA信息以及需要隱藏的信息。
[0019]利用數(shù)據(jù)賦值、兩位二進制數(shù)表示,對堿基組進行重新編碼,編碼之后形成的便是字節(jié)流形式的基因數(shù)據(jù)信息,這種數(shù)據(jù)可以通過字節(jié)流圖像表示的方式對基因信息進行可視化轉(zhuǎn)換,也可以進行以機器學習的算法進行數(shù)據(jù)挖掘。
[0020]利用二進制轉(zhuǎn)換的方法,把基因信息轉(zhuǎn)化為一個二進制字節(jié)流,根據(jù)不同的顏色空間,將字節(jié)流數(shù)據(jù)轉(zhuǎn)換形成二維的圖像數(shù)據(jù)??蛇x的顏色空間包括:RGB、HSV、GRAY單通道。
[0021]二維圖像矩陣的結構可采取固定列、或固定行、或正方形擬合三種方式:
固定列:固定列是指圖像的高度采用可設定的固定值,寬度根據(jù)不同基因文件的大小而定。
[0022]固定行:固定行是指圖像的寬度采用可設定的固定值,高度根據(jù)不同基因文件的大小而定。
[0023]正方形擬合:正方形擬合法是找到最靠近字節(jié)流長度且大于字節(jié)流長度的平方數(shù)作為圖像的面積,圖像長寬相等,都等于平方數(shù)的開方,不足的色塊用固定顏色來進行填充。
[0024]程序運行步驟:
C:\Users\wei>e
E:\>cd TransforJpg
E:\TransforJpg>cd X64
E:\TransforJpg\X 64>cd Release
E:\TransforJpg\X64\Release>TransforJpg.exe
E: \\關于基因數(shù)據(jù)轉(zhuǎn)換及可視化項目說明
在運用程序進行轉(zhuǎn)換時,每個堿基組得到一個固定的8位二進制數(shù),然后8位二進制數(shù)再乘以4作為H(色度)值,128作為S(飽和度)值,128作為V(亮度)值,生成HSV顏色模型,然后再轉(zhuǎn)換成RGB顏色模型,最后生成JPG格式的可視化圖像。
[0025]盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領域的普通技術人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權利要求及其等同物限定。
【主權項】
1.一種基因信息的可視化圖像表示方法,其特征在于,所述的方法包括: 利用二進制轉(zhuǎn)換的方法,把基因信息轉(zhuǎn)化為一個二進制字節(jié)流,根據(jù)不同的顏色空間,將字節(jié)流數(shù)據(jù)轉(zhuǎn)換形成二維的圖像數(shù)據(jù); 形成二維圖像矩陣的結構可采取固定列、或固定行、或正方形擬合三種方式; 運行程序進行轉(zhuǎn)換,基因信息的二進制字節(jié)流生成HSV顏色模型,再轉(zhuǎn)換至RGB顏色模型,最后生成JPG格式的可視化圖像。2.根據(jù)權利要求1所述的基因信息的可視化圖像表示方法,其特征在于:將二進制字節(jié)流形式的基因信息,根據(jù)顏色空間模型,轉(zhuǎn)化形成二維的圖像數(shù)據(jù);可用的顏色空間模型包括:RGB、HSV、GRAY 單通道。3.根據(jù)權利要求1所述的基因信息的可視化圖像表示方法,形成二維圖像矩陣的結構可采取固定列、或固定行、或正方形擬合三種方式: 固定列:固定列是指圖像的高度采用可設定的固定值,寬度根據(jù)不同基因文件的大小而定; 固定行:固定行是指圖像的寬度采用可設定的固定值,高度根據(jù)不同基因文件的大小而定; 正方形擬合:正方形擬合法是找到最靠近字節(jié)流長度且大于字節(jié)流長度的平方數(shù)作為圖像的面積,圖像長寬相等,都等于平方數(shù)的開方,不足的色塊用固定顏色來進行填充。4.根據(jù)權利要求1所述的基因信息的可視化圖像表示方法,運行程序進行轉(zhuǎn)換: C:\Users\wei>e E:\>cd TransforJpg E:\TransforJpg>cd X64 E:\TransforJpg\X64>cd Release E:\TransforJpg\X64\Release>TransforJpg.exe E: \\關于基因數(shù)據(jù)轉(zhuǎn)換及可視化項目說明。5.根據(jù)權利要求1所述的基因信息的可視化圖像表示方法,運行程序進行可視化圖像轉(zhuǎn)換,其特征在于:在運用程序進行轉(zhuǎn)換時,每個堿基組得到一個固定的8位二進制數(shù),然后8位二進制數(shù)再乘以4作為H(色度)值,128作為S(飽和度)值,128作為V(亮度)值,生成HSV顏色模型,然后再轉(zhuǎn)換成RGB顏色模型,最后生成JPG格式的可視化圖像。
【文檔編號】G06F19/26GK106096333SQ201610382945
【公開日】2016年11月9日
【申請日】2016年6月2日 公開號201610382945.3, CN 106096333 A, CN 106096333A, CN 201610382945, CN-A-106096333, CN106096333 A, CN106096333A, CN201610382945, CN201610382945.3
【發(fā)明人】謝清祿, 徐宏鍇, 朱軍, 余孟春
【申請人】廣州麥侖信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
伊川县| 扶沟县| 林州市| 吉木萨尔县| 安义县| 白水县| 谷城县| 石楼县| 南乐县| 肃南| 长子县| 青州市| 苍山县| 松原市| 阿拉善左旗| 北流市| 和平县| 安丘市| 巴中市| 新密市| 承德县| 高密市| 泾源县| 门源| 新源县| 哈巴河县| 拜泉县| 台南县| 望谟县| 宝应县| 尼木县| 敖汉旗| 商都县| 收藏| 玛多县| 宜宾市| 东乡| 乳山市| 西充县| 泰州市| 连南|