欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種啟動子識別系統(tǒng)的構(gòu)建方法和裝置的制造方法

文檔序號:8512686閱讀:1443來源:國知局
一種啟動子識別系統(tǒng)的構(gòu)建方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基因啟動子的預(yù)測與識別技術(shù)領(lǐng)域,尤其涉及一種啟動子識別系統(tǒng)的 構(gòu)建方法和裝置。
【背景技術(shù)】
[0002] 當前,人類基因表達調(diào)控已成為一個極具挑戰(zhàn)性的研宄方向,而啟動子識別對整 個基因組功能的詮釋具有重要作用,因此如何又好又快地識別人類啟動子,成為本領(lǐng)域的 一個研宄熱點。
[0003] 現(xiàn)有的啟動子識別系統(tǒng)不具備基于基因結(jié)構(gòu)特征識別啟動子的能力,即無法 利用基因的結(jié)構(gòu)特征來識別啟動子。譬如,梅麗等人在《Human Promoter Recognition Algorithm》中設(shè)計的基于SVM(支持向量機,Support Vector Machine)的啟動子分類 識別算法,共包含兩級分類系統(tǒng),分別基于基因的CpG島特征及KL (Kul lback - LeibIer divergence,相對j:商)詞頻統(tǒng)計特征來識別啟動子,不具備結(jié)合基因結(jié)構(gòu)特征識別啟動子 的能力,導(dǎo)致系統(tǒng)的識別性能較差。

【發(fā)明內(nèi)容】

[0004] 有鑒于此,本發(fā)明的目的在于提供一種啟動子識別系統(tǒng)的構(gòu)建方法和裝置,旨在 解決現(xiàn)有識別系統(tǒng)因不具備利用基因結(jié)構(gòu)特征識別啟動子的能力,而導(dǎo)致識別性能較差這 一問題。
[0005] 為此,本發(fā)明公開如下技術(shù)方案:
[0006] -種啟動子識別系統(tǒng)的構(gòu)建方法,包括:
[0007] 將包含N條基因序列的數(shù)據(jù)集劃分為第一數(shù)據(jù)子集和第二數(shù)據(jù)子集,所述第一數(shù) 據(jù)子集具有預(yù)設(shè)屬性;
[0008] 分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基因序列的P種預(yù)設(shè)特 征,相應(yīng)得到P個第一訓(xùn)練特征子集及P個第二訓(xùn)練特征子集;所述預(yù)設(shè)特征包括基因剛性 特征,N、P為大于1的自然數(shù);
[0009] 分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練特征子集進行分類建模, 得到P個第一子分類器模型及P個第二分類器模型,各個所述子分類器模型構(gòu)成啟動子識 別系統(tǒng)的分類識別模型。
[0010] 上述方法,優(yōu)選的,所述預(yù)設(shè)屬性為基因的CG堿基偏好。
[0011] 上述方法,優(yōu)選的,所述預(yù)設(shè)特征還包括CpG島特征及相對j:商KL詞頻統(tǒng)計特征。
[0012] 上述方法,優(yōu)選的,所述分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基 因序列的P種預(yù)設(shè)特征,相應(yīng)得到P個第一訓(xùn)練特征子集及P個第二訓(xùn)練特征子集,包括:
[0013] 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的基因剛性特征,得到第一 剛性特征子集及第二剛性特征子集;
[0014] 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的CpG島特征,得到第一 CpG島特征子集及第二CpG島特征特征子集;
[0015] 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的KL詞頻統(tǒng)計特征,得到 第一 KL詞頻統(tǒng)計特征子集及第二KL詞頻統(tǒng)計特征子集。
[0016] 上述方法,優(yōu)選的,所述分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練特 征子集進行分類建模為:
[0017] 使用支持向量機SVM模型分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練 特征子集進行分類建模。
[0018] 上述方法,優(yōu)選的,還包括:
[0019] 利用構(gòu)建的所述分類識別模型對待測數(shù)據(jù)進行類別判決,以識別所述待測數(shù)據(jù)是 否為啟動子。
[0020] 一種啟動子識別系統(tǒng)的構(gòu)建裝置,包括:
[0021] 劃分模塊,用于將包含N條基因序列的數(shù)據(jù)集劃分為第一數(shù)據(jù)子集和第二數(shù)據(jù)子 集,所述第一數(shù)據(jù)子集具有預(yù)設(shè)屬性;
[0022] 特征提取模塊,用于分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基因序 列的P種預(yù)設(shè)特征,相應(yīng)得到P個第一訓(xùn)練特征子集及P個第二訓(xùn)練特征子集;所述預(yù)設(shè)特 征包括基因剛性特征,N、P為大于1的自然數(shù);
[0023] 建模模塊,用于分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練特征子集 進行分類建模,得到P個第一子分類器模型及P個第二分類器模型,各個所述子分類器模型 構(gòu)成啟動子識別系統(tǒng)的分類識別模型。
[0024] 上述裝置,優(yōu)選的,所述特征提取模塊包括:
[0025] 第一特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 基因剛性特征,得到第一剛性特征子集及第二剛性特征子集;
[0026] 第二特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 CpG島特征,得到第一 CpG島特征子集及第二CpG島特征特征子集;
[0027] 第三特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 KL詞頻統(tǒng)計特征,得到第一 KL詞頻統(tǒng)計特征子集及第二KL詞頻統(tǒng)計特征子集。
[0028] 上述裝置,優(yōu)選的,所述建模模塊為:
[0029] 建模單元,用于使用支持向量機SVM模型分別對所述P個第一訓(xùn)練特征子集及所 述P個第二訓(xùn)練特征子集進行分類建模。
[0030] 上述裝置,優(yōu)選的,還包括:
[0031] 識別模塊,用于利用構(gòu)建的所述分類識別模型對待測數(shù)據(jù)進行類別判決,以識別 所述待測數(shù)據(jù)是否為啟動子。
[0032] 由以上方案可知,本發(fā)明將包含多條基因序列的數(shù)據(jù)集劃分為具有預(yù)設(shè)屬性的第 一數(shù)據(jù)子集和不具有預(yù)設(shè)屬性的第二數(shù)據(jù)子集;并分別提取第一、第二數(shù)據(jù)子集的多種預(yù) 設(shè)特征,所述預(yù)設(shè)特征包括基因剛性特征;之后,對特征提取所得的多個特征數(shù)據(jù)集合進行 建模,得到構(gòu)成啟動子識別系統(tǒng)所需的各個子分類器模型??梢?,本發(fā)明在構(gòu)建人類基因啟 動子識別系統(tǒng)時,考慮了基因結(jié)構(gòu)特征(如基因剛性特征),通過提取基因數(shù)據(jù)的基因剛性 特征,并將提取的基因剛性特征作為訓(xùn)練數(shù)據(jù)進行建模,使最終的識別系統(tǒng)具備了結(jié)合基 因結(jié)構(gòu)特征識別啟動子的能力,提升了系統(tǒng)的識別性能。
【附圖說明】
[0033] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0034] 圖1是本發(fā)明實施例一提供的啟動子識別系統(tǒng)構(gòu)建方法的一種流程圖;
[0035] 圖2是本發(fā)明實施例二提供的啟動子識別系統(tǒng)構(gòu)建
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
蒲江县| 永康市| 黄骅市| 尼勒克县| 霍山县| 汤阴县| 长春市| 兴安盟| 奇台县| 饶阳县| 达拉特旗| 承德县| 邢台县| 来安县| 台安县| 馆陶县| 来凤县| 平邑县| 且末县| 黔江区| 怀安县| 调兵山市| 平安县| 连城县| 临沭县| 富阳市| 揭阳市| 拉孜县| 日喀则市| 凉山| 西吉县| 康定县| 桐柏县| 兴安盟| 姚安县| 武宁县| 鸡西市| 汾阳市| 商河县| 察雅县| 松溪县|