欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種參考基因組上基因序列片段的快速比對(duì)定位方法_2

文檔序號(hào):9489643閱讀:來(lái)源:國(guó)知局
基因序列片段的目標(biāo)信息作為Value部分建立鍵值對(duì),將基因序列片段采用哈希函數(shù) 映射確定數(shù)據(jù)庫(kù)中的目標(biāo)存儲(chǔ)位置,用鍵值對(duì)的搜索代替比對(duì)算法,快速獲得序列片段的 比對(duì)結(jié)果(即是否比對(duì)上,如果比對(duì)上則可以獲取其目標(biāo)信息),鍵值對(duì)搜索具有最低的時(shí) 間復(fù)雜度,與現(xiàn)有序列比對(duì)方法相比,具有最快的比對(duì)定位速度,具有時(shí)間復(fù)雜度低、比對(duì) 定位速度快、定位效率高的優(yōu)點(diǎn)。
[0035] 2、本發(fā)明針對(duì)參考基因組上的每一個(gè)基因序列片段,以基因序列片段作為key部 分、基因序列片段的目標(biāo)信息作為Value部分建立鍵值對(duì),將基因序列片段采用哈希函數(shù) 映射確定數(shù)據(jù)庫(kù)中的目標(biāo)存儲(chǔ)位置,因此可以通過(guò)將多個(gè)基因組的唯一獨(dú)特序列片段放在 一起的方式,同時(shí)搜索比對(duì)多個(gè)基因組,可以將不同物種基因組上的唯一比對(duì)區(qū)域放到一 起,同時(shí)在多物種基因組上比對(duì)定位序列片段,適合跨物種的混合快速分析。
[0036] 3、對(duì)于大多數(shù)物種的參考基因組來(lái)說(shuō),其上的大部分區(qū)域里的片段都是獨(dú)一無(wú)二 的,正因?yàn)槿绱耍景l(fā)明能夠顯著加速那些不關(guān)注非唯一比對(duì)序列片段的分析流程。
[0037] 4、本發(fā)明以基因序列片段作為key部分、基因序列片段的目標(biāo)信息作為Value部 分建立鍵值對(duì),基于目標(biāo)信息的具體內(nèi)容不同,能夠應(yīng)用于各類(lèi)基因序列片段快速比對(duì)定 位的基因分析應(yīng)用中,例如CNV分析、菌種檢定等,具有應(yīng)用范圍廣的優(yōu)點(diǎn)。
【附圖說(shuō)明】
[0038] 圖1為本發(fā)明實(shí)施例一中快速比對(duì)定位方法的基本流程示意圖。
[0039] 圖2為本發(fā)明實(shí)施例一CNV分析得到的CNV分析結(jié)果示意圖。
【具體實(shí)施方式】
[0040] 實(shí)施例一:
[0041] 下文以通過(guò)快速序列比對(duì)進(jìn)行CNV分析(CopyNumberVariation分析/拷貝數(shù) 變異分析)為例,對(duì)本發(fā)明參考基因組上基因序列片段的快速比對(duì)定位方法進(jìn)行進(jìn)一步的 說(shuō)明。
[0042] 如圖1所示,本實(shí)施例參考基因組上基因序列片段的快速比對(duì)定位方法的步驟包 括:
[0043] 1)從參考基因組上提取基因序列片段;
[0044] 2)針對(duì)參考基因組上的每一個(gè)基因序列片段,以基因序列片段作為key部分、基 因序列片段的目標(biāo)信息作為Value部分建立鍵值對(duì),將基因序列片段采用哈希函數(shù)映射 確定數(shù)據(jù)庫(kù)中的目標(biāo)存儲(chǔ)位置,并將鍵值對(duì)寫(xiě)入目標(biāo)存儲(chǔ)位置,最終完成參考基因組的建 庫(kù);
[0045] 3)當(dāng)需要對(duì)待匹配基因序列片段進(jìn)行快速比對(duì)定位時(shí),將所述待匹配基因序列片 段采用哈希函數(shù)映射查找數(shù)據(jù)庫(kù)中的目標(biāo)存儲(chǔ)位置,如果查找成功,則從目標(biāo)存儲(chǔ)位置讀 取匹配基因序列片段對(duì)應(yīng)鍵值對(duì)的基因序列片段的目標(biāo)信息;否則返回查找失敗信息。
[0046] 本實(shí)施例中,參考基因組來(lái)自在UCSC網(wǎng)站的人類(lèi)基因組(版本hgl9)36bp唯一基 因序列片段的位置信息來(lái)自網(wǎng)址:
[0047] http://hgdownload.cse.ucsc.edu/goldenPath/hgl9/encodeDCC/wgEncodeMapability/wgEncodeCrgMapabilityAlign36mer.bigffig
[0048] 該文件為人類(lèi)基因組(版本hgl9)36mermappability文件,將上述文件下載后使 用工具bigWigToBedGraph將bigWig文件轉(zhuǎn)換為BED格式文件,BED格式文件包括四列,第 1列為染色體編號(hào),第2列為染色體起始位置(以0開(kāi)始計(jì)算),第3列為染色體終止位置 (以1開(kāi)始計(jì)算),第4列為染色體起始位置至染色體終止位置(不包括終止位置)區(qū)間中 每個(gè)位置開(kāi)始計(jì)算的36bp序列的mappability值,mappabilit為1表示基因序列片段在 基因組上唯一,本實(shí)施例中在BED格式文件中選取mappability為1的記錄,并根據(jù)BED文 件提供的位置信息提取出hgl9參考基因組上的唯一基因序列片段,提取出的目標(biāo)基因序 列片段集合將作為構(gòu)建數(shù)據(jù)庫(kù)所使用Key的集合,各個(gè)染色體上的唯一覆蓋度如表1所示。
[0049] 表1 :各個(gè)染色體上的唯一覆蓋度數(shù)據(jù)表。
[0050]

[0051] 參見(jiàn)表1,第一列為染色體編號(hào),第二列為每個(gè)染色體包含的堿基數(shù)目,第三列為 唯一基因序列片段所包含的堿基數(shù)目,第四列為唯一基因序列片段所包含的堿基數(shù)目占每 個(gè)染色體堿基數(shù)目的比例,本實(shí)施例中,36bp的唯一基因序列片段總計(jì)2, 176, 351,405,堿 基總數(shù)占參考基因組的70. 3%,染色體的平均覆蓋度為67. 1%。
[0052] 本實(shí)施例中,步驟1)的詳細(xì)步驟包括:
[0053] 1. 1)設(shè)定基因序列片段的長(zhǎng)度L;本實(shí)施例中,基因序列片段的長(zhǎng)度L為36 ;
[0054] 1. 2)計(jì)算參考基因組上唯一的基因序列片段的位置和目標(biāo)信息;
[0055] 1. 3)根據(jù)基因序列片段的位置分別提取基因序列片段及其目標(biāo)信息。
[0056] 本實(shí)施例中,步驟1. 2)中唯一的基因序列片段具體是指任意兩個(gè)基因序列片段 之間的編輯距離大于等于設(shè)定的閾值n,閾值η具體取值為2,此外也可以根據(jù)需要設(shè)置為 其他值。
[0057] 需要說(shuō)明的是,目標(biāo)信息具體和基因序列片段的快速比對(duì)定位應(yīng)用相關(guān),目標(biāo)信 息可以包括染色體、染色體位置、GC含量、物種分類(lèi)中的至少一種。本實(shí)施例中,目標(biāo)信息 具體包括:(1)基因序列片段的染色體編號(hào){1,2, ...,22,X,Υ} ; (2)基因序列片段在染色體 上的起始位置(從〇開(kāi)始計(jì)算);(3)基因序列片段的GC含量(即基因序列片段中堿基G、 堿基C的總數(shù)目)。
[0058] 本實(shí)施例中,步驟2)的詳細(xì)步驟包括:
[0059] 2. 1)從提取得到的所有基因序列片段中取出一個(gè)基因序列片段作為當(dāng)前基因序 列片段;
[0060] 2. 2)以當(dāng)前基因序列片段作為key部分、當(dāng)前基因序列片段的目標(biāo)信息作為 Value部分建立鍵值對(duì)(Key,Value)以描述當(dāng)前基因序列片段及其目標(biāo)信息之間的映射關(guān) 系;
[0061] 2. 3)將當(dāng)前基因序列片段的鍵值對(duì)(Key,Value)中的Key部分和Value部 分進(jìn)行編碼,選用指定的哈希函數(shù)將當(dāng)前基因序列片段映射到d個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)庫(kù) i(1 <i<d)中;
[0062] 2. 4)將當(dāng)前基因序列片段采用哈希函數(shù)映射確定其在數(shù)據(jù)庫(kù)i中的目標(biāo)存儲(chǔ)位 置,并將編碼后的鍵值對(duì)(Key,Value)寫(xiě)入數(shù)據(jù)庫(kù)i的目標(biāo)存儲(chǔ)位置;
[0063] 2. 5)判斷提取得到的所有基因序列片段是否已經(jīng)處理完畢,如果已經(jīng)處理完畢, 則跳轉(zhuǎn)執(zhí)行步驟2. 1);否則,判定已經(jīng)完成參考基因組的建庫(kù)。
[0064] 本實(shí)施例中,步驟2. 3)中將當(dāng)前基因序列片段映射到d個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)庫(kù)i中 的詳細(xì)步驟包括:
[0065] 2. 3. 1)設(shè)定數(shù)據(jù)庫(kù)個(gè)數(shù)d ;本實(shí)施例中數(shù)據(jù)庫(kù)個(gè)數(shù)d具體取值為12 ;
[0066] 2. 3. 2)取當(dāng)前基因序列片段Key部分長(zhǎng)度為m的前綴子串,選用指定的哈希函數(shù) 并采用如式(1)所示函數(shù)式計(jì)算當(dāng)前基因序列片段在d個(gè)數(shù)據(jù)庫(kù)中對(duì)應(yīng)的數(shù)據(jù)庫(kù)編號(hào)i,從 而將當(dāng)前基因序列片段映射
當(dāng)前第2頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
莱州市| 金华市| 靖安县| 天长市| 八宿县| 沿河| 东港市| 应城市| 清新县| 永泰县| 建瓯市| 盘锦市| 新绛县| 南充市| 梅河口市| 丹巴县| 海兴县| 长兴县| 竹溪县| 胶南市| 金川县| 德州市| 中江县| 亳州市| 格尔木市| 徐水县| 安多县| 阜宁县| 洪江市| 小金县| 南川市| 通山县| 昌都县| 华亭县| 长宁县| 巴彦县| 县级市| 项城市| 资阳市| 汝州市| 福贡县|