欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種濾除DNase高通量測序數(shù)據(jù)中DNA堿基傾向性偏差的方法與流程

文檔序號:11156061閱讀:1375來源:國知局
一種濾除DNase高通量測序數(shù)據(jù)中DNA堿基傾向性偏差的方法與制造工藝

本發(fā)明屬于分子生物信息檢測與分析領(lǐng)域,具體涉及一種有效提高DNase高通量測序數(shù)據(jù)的檢測信息準(zhǔn)確性的濾除DNase高通量測序數(shù)據(jù)中DNA堿基傾向性偏差的方法。



背景技術(shù):

目前,DNA蛋白結(jié)合位點(diǎn)的檢測主要采用染色質(zhì)免疫共沉淀技術(shù)(Chromatin Immunoprecipitation,ChIP)。而將ChIP實(shí)驗(yàn)結(jié)果與高通量測序技術(shù)相結(jié)合的ChIP-Seq技術(shù),則能有效地在全基因組范圍內(nèi)檢測目的功能蛋白在DNA上的結(jié)合位點(diǎn)。ChIP-Seq的原理是:首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)利用與目的蛋白特異性結(jié)合的酶來富集結(jié)合有目的蛋白的DNA片段,并對其進(jìn)行純化與文庫構(gòu)建。然后對富集得到的DNA片段進(jìn)行高通量測序,再將測序獲得的數(shù)百萬條讀數(shù)序列精確定位到基因組上,從而獲得全基因組范圍內(nèi)結(jié)合有目的蛋白的DNA區(qū)段信息,進(jìn)而通過各種分析算法得到目的蛋白DNA結(jié)合位點(diǎn)。

然而,ChIP-Seq技術(shù)也有諸多不足之處,首先是富集目的蛋白的結(jié)合酶具有特異性,從而導(dǎo)致某些蛋白因找不到合適的特異結(jié)合酶而無法進(jìn)行檢測;其次,一次實(shí)驗(yàn)只能檢測一種蛋白,耗時耗力,成本高,無法大規(guī)模使用;第三,更為重要的是,由于實(shí)驗(yàn)獲取的與目的蛋白結(jié)合的DNA片段較長,測序時只能對其兩端進(jìn)行部分測序,由于測序區(qū)域并不是結(jié)合位點(diǎn)本身,因此,ChIP-Seq技術(shù)對DNA蛋白結(jié)合位點(diǎn)的檢測分辨率無法達(dá)到單堿基。

針對上述問題,近幾年產(chǎn)生了一種新的DNA蛋白結(jié)合位點(diǎn)檢測技術(shù)--基于DNase高通測序信息的DNA蛋白結(jié)合位點(diǎn)檢測技術(shù),即DNase-Seq技術(shù)。DNase-Seq的原理是:首先利用DNase核酸剪切酶對DNA進(jìn)行酶切處理。則沒有DNA蛋白結(jié)合的DNA區(qū)域?qū)⒈籇Nase核酸剪切酶隨機(jī)地切斷,而有DNA蛋白結(jié)合的DNA區(qū)域由于受到結(jié)合蛋白的阻礙特異性不被切斷。隨后,對酶切處理過的DNA片段進(jìn)行純化與文庫構(gòu)建,再進(jìn)行測序,從而獲得全基因組范圍內(nèi)DNase核酸剪切酶的酶切信息。在酶切信息中,蛋白結(jié)合位點(diǎn)處的酶切信息將特異性減弱,就像在DNA上留下一個個足跡一樣,從而可以精確鑒定DNA結(jié)合蛋白在DNA分子上的結(jié)合位點(diǎn)。

與ChIP-Seq技術(shù)相比,DNase-Seq技術(shù)的優(yōu)點(diǎn)非常突出。首先,由于不具有特異性,DNase-Seq可一次性在全基因組范圍內(nèi)同時檢測多種DNA蛋白的結(jié)合位點(diǎn);其次,由于一次性檢測多種DNA蛋白的結(jié)合位點(diǎn),DNase-Seq大幅提高了檢測效率并降低了檢測成本,使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測成為可能;第三,更為重要的是,由于測序起始位置就是酶切位置,DNase-Seq對DNA蛋白結(jié)合位點(diǎn)的檢測分辨率可達(dá)單堿基。

然而,近期發(fā)現(xiàn)DNase核酸剪切酶在切割DNA時存在一定的DNA堿基傾向性,這將對 DNA蛋白結(jié)合位點(diǎn)的識別產(chǎn)生不利的影響。如何去除該傾向性已成為基于DNase-Seq的DNA蛋白結(jié)合位點(diǎn)識別的一個關(guān)鍵問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種濾除DNase高通量測序數(shù)據(jù)中DNA堿基傾向性偏差的方法。

本發(fā)明的目的是這樣實(shí)現(xiàn)的:

(1)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)區(qū)域DNA堿基獲取

依據(jù)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)在基因組中的位置,提取每一個實(shí)驗(yàn)數(shù)據(jù)對應(yīng)酶切位點(diǎn)附近區(qū)域的DNA堿基。本發(fā)明選用酶切位點(diǎn)附近6個位點(diǎn)的堿基,即以酶切位點(diǎn)為中心,左右各取3個堿基。

(2)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性獲取

本發(fā)明選用酶切位點(diǎn)附近6個位點(diǎn)的堿基,每個堿基有A、C、G、T等4種取值,則6個位點(diǎn)堿基共有4096種堿基組合。通過統(tǒng)計(jì)整個DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)處這4096種堿基組合出現(xiàn)的頻次,即可獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。

(3)DNA堿基傾向性去除

設(shè)有m個蛋白結(jié)合位點(diǎn),每個結(jié)合位點(diǎn)包含n個堿基,則:第i個結(jié)合位點(diǎn)的DNase檢測信號為:[Si1,Si2,…,Sin]。其值和為:

考慮DNase的DNA堿基傾向性,則第i個結(jié)合位點(diǎn)第j列的DNase檢測信號為:Sij=[(1-w)Pij+wBij]Ri。其中,Pij為第i個結(jié)合位點(diǎn)第j列處與DNA結(jié)合蛋白的蛋白結(jié)構(gòu)相對應(yīng)的DNase的固有切割概率,Bij為第i個結(jié)合位點(diǎn)第j列處與該處DNA堿基傾向性相對應(yīng)的DNase的切割概率。Pij是穩(wěn)定的,可用于DNA蛋白結(jié)合位點(diǎn)識別,而Bij是不穩(wěn)定的,應(yīng)予以濾除。

具體濾除方法如下:

其中,Sij,Ri可從實(shí)驗(yàn)數(shù)據(jù)中直接得到。Bij則根據(jù)前一步驟獲取的DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性得到。w為權(quán)值,取值范圍為[0,1]之間,需要進(jìn)一步確定。

對于m個蛋白結(jié)合位點(diǎn),當(dāng)權(quán)值w取不同值時,會得到不同的[Pi1,Pi2,…,Pin],1≤i≤m。設(shè)則當(dāng)m個[Pi1,Pi2,…,Pin]與[P1,P2,...,Pn]之間的m個相關(guān)性值的中位值最大時, 此時的w值為最優(yōu)值。

本發(fā)明的有益效果在于:通過所發(fā)明的方法可以精確地濾除DNase高通量測序數(shù)據(jù)中含有的DNA堿基傾向性偏差,以生成更加準(zhǔn)確的DNase-Seq測序結(jié)果,從而為后續(xù)更高層次的應(yīng)用分析提供數(shù)據(jù)保障。

附圖說明

圖1為DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性直方圖。

圖2為w權(quán)值的評價(jià)值變化曲線。

圖3為本發(fā)明流程圖。

具體實(shí)施方式

下面結(jié)合附圖對本發(fā)明做進(jìn)一步描述。

作為DNA蛋白結(jié)合位點(diǎn)檢測的新技術(shù),DNase-Seq技術(shù)具有眾多突出的優(yōu)點(diǎn)。由于不具有特異性,DNase-Seq可一次性在全基因組范圍內(nèi)同時檢測多種DNA蛋白的結(jié)合位點(diǎn);由于一次性檢測多種DNA蛋白的結(jié)合位點(diǎn),DNase-Seq大幅提高了檢測效率并降低了檢測成本,使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測成為可能;由于測序起始位置就是酶切位置,DNase-Seq對DNA蛋白結(jié)合位點(diǎn)的檢測分辨率可達(dá)單堿基。

然而,近期發(fā)現(xiàn)DNase核酸剪切酶在切割DNA時存在一定的DNA堿基傾向性,這將對DNA蛋白結(jié)合位點(diǎn)的識別產(chǎn)生不利的影響。本發(fā)明即是針對該問題提出的一種濾除DNase高通量測序數(shù)據(jù)中DNA堿基傾向性偏差的方法。

1、DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)區(qū)域DNA堿基獲取

依據(jù)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)在基因組中的位置,提取每一個實(shí)驗(yàn)數(shù)據(jù)對應(yīng)酶切位點(diǎn)附近區(qū)域的DNA堿基。本發(fā)明選用酶切位點(diǎn)附近6個位點(diǎn)的堿基,即以酶切位點(diǎn)為中心,左右各取3個堿基。

2、DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性獲取

本發(fā)明選用酶切位點(diǎn)附近6個位點(diǎn)的堿基,每個堿基有A、C、G、T等4種取值,則6個位點(diǎn)堿基共有4096種堿基組合。通過統(tǒng)計(jì)整個DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)處這4096種堿基組合出現(xiàn)的頻次,即可獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。

3、DNA堿基傾向性去除

設(shè)有m個蛋白結(jié)合位點(diǎn),每個結(jié)合位點(diǎn)包含n個堿基,則:第i個結(jié)合位點(diǎn)的DNase檢測信號為:[Si1,Si2,…,Sin]。其值和為:

考慮DNase的DNA堿基傾向性,則第i個結(jié)合位點(diǎn)第j列的DNase檢測信號為: Sij=[(1-w)Pij+wBij]Ri。其中,Pij為第i個結(jié)合位點(diǎn)第j列處與DNA結(jié)合蛋白的蛋白結(jié)構(gòu)相對應(yīng)的DNase的固有切割概率,Bij為第i個結(jié)合位點(diǎn)第j列處與該處DNA堿基傾向性相對應(yīng)的DNase的切割概率。Pij是穩(wěn)定的,可用于DNA蛋白結(jié)合位點(diǎn)識別,而Bij是不穩(wěn)定的,應(yīng)予以濾除。

具體濾除方法如下:

其中,Sij,Ri可從實(shí)驗(yàn)數(shù)據(jù)中直接得到。Bij則根據(jù)前一步驟獲取的DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性得到。w為權(quán)值,取值范圍為[0,1]之間,通過下述方法確定:

對于m個蛋白結(jié)合位點(diǎn),當(dāng)權(quán)值w取不同值時,會得到不同的[Pi1,Pi2,…,Pin],1≤i≤m。設(shè)則當(dāng)m個[Pi1,Pi2,…,Pin]與[P1,P2,...,Pn]之間的m個相關(guān)性值的中位值最大時,此時的w值為最優(yōu)值。

4、實(shí)驗(yàn)驗(yàn)證

從UCSC國際生物信息網(wǎng)站下載人類基因組堿基序列數(shù)據(jù),以及國際ENCODE計(jì)劃UW大學(xué)測得的人類K562細(xì)胞系DNase-Seq測序數(shù)據(jù)和NFYA轉(zhuǎn)錄因子ChIP-Seq測序數(shù)據(jù)。

根據(jù)每個DNase-Seq測序數(shù)據(jù)酶切位點(diǎn)在人類基因組中的位置,提取附近6個位點(diǎn)的堿基,即以酶切位點(diǎn)為中心,左右各取3個堿基。統(tǒng)計(jì)酶切位點(diǎn)處4096種堿基組合出現(xiàn)的頻次,獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。該傾向性的直方圖如圖1所示(橫軸為堿基組合,縱軸為頻次)。由圖1可見,DNase-Seq實(shí)驗(yàn)數(shù)據(jù)存在明顯的DNA堿基傾向性。

根據(jù)NFYA轉(zhuǎn)錄因子的ChIP-Seq測序數(shù)據(jù),識別出953個NFYA蛋白結(jié)合位點(diǎn)。每個結(jié)合位點(diǎn)包含201個堿基。

利用本發(fā)明方法對DNase-Seq實(shí)驗(yàn)數(shù)據(jù)進(jìn)行DNA堿基傾向性濾除。當(dāng)w取某一權(quán)值時,每個結(jié)合位點(diǎn)濾除DNA堿基傾向性的DNase檢測信號為[Pi1,Pi2,…,Pin],1≤i≤953。計(jì)算每個結(jié)合位點(diǎn)[Pi1,Pi2,…,Pin]與[P1,P2,...,Pn]之間的Pearson相關(guān)值,這里n取值為201。選取953個相關(guān)值的中位值作為該w值是否優(yōu)異的評價(jià)值。讓w值由0到1變化,獲得如圖2所示的w值的評價(jià)值變化曲線(橫軸為w值,縱軸評價(jià)值)。由圖2可見,當(dāng)w值為0.15時,評價(jià)值達(dá)到最大并不再增加,此時的w值應(yīng)為最優(yōu)值,并進(jìn)而得到與之對應(yīng)的濾除DNA堿基傾向性的DNase-Seq檢測信息。

作為DNA蛋白結(jié)合位點(diǎn)檢測的新技術(shù),DNase-Seq技術(shù)具有突出優(yōu)點(diǎn)。由于不具有特異性,DNase-Seq可一次性在全基因組范圍內(nèi)同時檢測多種DNA蛋白的結(jié)合位點(diǎn);由于一次性檢測多種DNA蛋白的結(jié)合位點(diǎn),DNase-Seq大幅提高了檢測效率并降低了檢測成本,使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測成為可能;由于測序起始位置就是酶切位置,DNase-Seq對DNA蛋白結(jié)合位點(diǎn)的檢測分辨率可達(dá)單堿基。然而,DNase核酸剪切酶在切割DNA時存在一定的DNA堿基傾向性,這將對DNA蛋白結(jié)合位點(diǎn)的識別產(chǎn)生不利的影響。本發(fā)明即是針對該問題提出的一種濾除DNase高通量測序數(shù)據(jù)中DNA堿基傾向性偏差的方法。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
凤凰县| 浦县| 方正县| 静宁县| 长顺县| 宁强县| 北辰区| 武城县| 琼中| 淮阳县| 江永县| 盘山县| 文登市| 水城县| 吴忠市| 拉萨市| 化隆| 泉州市| 彝良县| 庆云县| 隆子县| 建湖县| 湟源县| 临沧市| 德江县| 宁武县| 泸定县| 齐齐哈尔市| 綦江县| 错那县| 板桥市| 简阳市| 长寿区| 永新县| 浏阳市| 巴塘县| 郧西县| 宜都市| 保亭| 石狮市| 凤庆县|