欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種人類基因啟動子識別方法及系統(tǒng)的制作方法

文檔序號:6543269閱讀:290來源:國知局
一種人類基因啟動子識別方法及系統(tǒng)的制作方法
【專利摘要】本申請公開了一種啟動子識別方法,通過對多個樣本基因序列進行胞嘧啶、鳥嘌呤CG偏好特征的統(tǒng)計,將多個樣本基因序列分為兩類,針對每一類樣本基因序列分別執(zhí)行以下步驟:分別提取其中每一個樣本基因序列的剛性特征、CpG島特征和四聯(lián)體組成成分特征,并構建對應的分類器來對樣本基因序列進行啟動子識別判斷,對識別的非啟動子序列提取其五聯(lián)體組成成分特征并構成五聯(lián)體分類器,再次進行啟動子識別判斷,并在識別結果滿足預設條件時,確定當前樣本基因序列為啟動子序列,否則為非啟動子序列。本申請充分考慮了基因的剛性特征、CpG島特征和組成成分特征,通過分級識別,最終給出的啟動子識別結果準確率更高。
【專利說明】—種人類基因啟動子識別方法及系統(tǒng)
【技術領域】
[0001]本申請涉及啟動子識別【技術領域】,更具體地說,涉及一種人類基因啟動子識別方法及系統(tǒng)。
【背景技術】
[0002]人類基因草圖完成后,關于研究人類基因表達調(diào)控已然成為一個極具挑戰(zhàn)性的研究方向。而啟動子識別對整個基因組功能的詮釋具有重要的作用,因此如何又快又好的識別人類啟動子,已成為一個熱點研究領域。
[0003]目前預測啟動子主要從鑒定啟動子的轉錄起始位點、核心啟動子區(qū)域、轉錄因子結合域和啟動子的CpG島四個方向出發(fā)。其中,CpG島(CpG island)的含義是:CpG雙核苷酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG保持或高于正常概率,這些區(qū)段被稱作CpG島。新興的啟動子識別方法提出了對啟動子結構特征進行研究,例如撓性(Iexibility),剛性(rigidity)和柔性(bendability)特征均是從三維空間提取的特征。這些結構特征可以為建立的啟動子識別系統(tǒng)提供重要的補充信息。
[0004]梅麗等人提出了采用支持向量機(SVM)將特征分級使用的算法。第一級SVM分類器利用CpG島特征來識別啟動子,第一級SVM分類器所劃分出的非啟動子序列則由第二級SVM分類器進一步識別。該算法提取的是相同樣本的組成成分特征,并沒有利用基因的結構特征。并且,不同啟動子序列的特征并不相同,所以使用相同的樣本提取的特征并不一定具有最強的分辨力。因此,現(xiàn)有的方法存在識別率不高的問題。

【發(fā)明內(nèi)容】

[0005]有鑒于此,本申請?zhí)峁┝艘环N人類基因啟動子識別方法及系統(tǒng),用于解決現(xiàn)有算法對基因啟動子的識別率不高的問題。
[0006]為了實現(xiàn)上述目的,現(xiàn)提出的方案如下:
[0007]—種人類基因啟動子識別方法,包括:
[0008]接收由多個樣本基因序列構成的樣本集;
[0009]分別統(tǒng)計每一個樣本基因序列的胞嘧啶、鳥嘌呤CG偏好特征,得到統(tǒng)計結果;
[0010]根據(jù)所述統(tǒng)計結果將所有的樣本基因序列劃分為兩類,一類具有所述CG偏好特征,另一類不具有所述CG偏好特征;
[0011]針對劃分后的每一類樣本基因序列,分別提取其中每一個樣本基因序列的剛性特征、CpG島特征和四聯(lián)體組成成分特征;
[0012]利用所述剛性特征構成剛性分類器、利用所述CpG島特征構成CpG島分類器以及利用所述四聯(lián)體組成成分特征構成四聯(lián)體分類器,所述剛性分類器、所述CpG島分類器和所述四聯(lián)體分類器分別對同一樣本基因序列進行啟動子識別判斷,并分別給出對應的第一識別結果;
[0013]在三個所述第一識別結果滿足第一預設條件時,確定當前樣本基因序列為啟動子序列;
[0014]對不滿足第一預設條件的樣本基因序列,提取其五聯(lián)體組成成分特征并構成五聯(lián)體分類器,由所述五聯(lián)體分類器對所述不滿足第一預設條件的樣本基因序列進行啟動子識別判斷,并給出第二識別結果;
[0015]在所述第二識別結果滿足第二預設條件時,確定當前樣本基因序列為啟動子序列,否則為非啟動子序列。
[0016]優(yōu)選地,所述由多個樣本基因序列構成的樣本集為:
[0017]1 =“啟動子外顯子”,“內(nèi)含子”,“3' UTR”},
[0018]N為樣本個數(shù),L為樣本基因序列長度。
[0019]優(yōu)選地,所述分別統(tǒng)計每一個樣本基因序列的胞嘧啶、鳥嘌呤CG偏好特征,得到統(tǒng)計結果,具體為:
[0020]對每一個樣本基因序列Xi統(tǒng)計其中胞嘧啶C和鳥嘌呤G含量的比值,并將統(tǒng)計完之后的所述樣本集表示為:
[0021]
【權利要求】
1.一種人類基因啟動子識別方法,其特征在于,包括: 接收由多個樣本基因序列構成的樣本集; 分別統(tǒng)計每一個樣本基因序列的胞嘧啶、鳥嘌呤CG偏好特征,得到統(tǒng)計結果; 根據(jù)所述統(tǒng)計結果將所有的樣本基因序列劃分為兩類,一類具有所述CG偏好特征,另一類不具有所述CG偏好特征; 針對劃分后的每一類樣本基因序列,分別提取其中每一個樣本基因序列的剛性特征、CpG島特征和四聯(lián)體組成成分特征; 利用所述剛性特征構成剛性分類器、利用所述CpG島特征構成CpG島分類器以及利用所述四聯(lián)體組成成分特征構成四聯(lián)體分類器,所述剛性分類器、所述CpG島分類器和所述四聯(lián)體分類器分別對同一樣本基因序列進行啟動子識別判斷,并分別給出對應的第一識別結果; 在三個所述第一識別結果滿足第一預設條件時,確定當前樣本基因序列為啟動子序列; 對不滿足第一預設條件的樣本基因序列,提取其五聯(lián)體組成成分特征并構成五聯(lián)體分類器,由所述五聯(lián)體分類器對所述不滿足第一預設條件的樣本基因序列進行啟動子識別判斷,并給出第二識別結果; 在所述第二識別結果滿足第二預設條件時,確定當前樣本基因序列為啟動子序列,否則為非啟動子序列。
2.根據(jù)權利要求1所述的方法,其特征在于,所述由多個樣本基因序列構成的樣本集為: Z =,其中 Xi e RSyi e { “啟動子外顯子”,“內(nèi)含子”,“3' UTR”},N為樣本個數(shù),L為樣本基因序列長度。
3.根據(jù)權利要求2所述的方法,其特征在于,所述分別統(tǒng)計每一個樣本基因序列的胞嘧啶、鳥嘌呤CG偏好特征,得到統(tǒng)計結果,具體為: 對每一個樣本基因序列Xi統(tǒng)計其中胞嘧啶C和鳥嘌呤G含量的比值,并將統(tǒng)計完之后的所述樣本集表示為:
4.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述統(tǒng)計結果將所有的樣本基因序列劃分為兩類,一類具有所述CG偏好特征,另一類不具有所述CG偏好特征,具體為: 設置閾值《,當w時,代表該樣本基因序列具有CG偏好特征,反之代表該樣本基因序列不具有CG偏好特征。
5.根據(jù)權利要求4所述的方法,其特征在于,所述每一個樣本基因序列的剛性特征提取過程,具體為: 采取三核苷酸模型來計算每一個樣本基因序列的剛性特征: 在計算樣本基因序列每一堿基位點的剛性特征時,采用6個堿基長序列進行計算,累加四個重疊的三核苷酸的剛性參數(shù)值,剛性特征提取后的樣本基因序列表示為:
6.根據(jù)權利要求4所述的方法,其特征在于,所述每一個樣本基因序列的CpG島特征提取過程,具體為: 計算每一個樣本基因序列Xi的胞嘧啶和鳥嘌呤總含量CG_con:
7.根據(jù)權利要求4所述的方法,其特征在于,所述每一個樣本基因序列的四聯(lián)體組成成分特征提取過程,具體為: 設fPr為四聯(lián)體在啟動子中出現(xiàn)的頻率,G(a = 1,2,3)為四聯(lián)體在第a種非啟動子序列中出現(xiàn)的頻率,其中a=l代表外顯子、a=2代表內(nèi)含子、a=3代表3’ -UTR,則基于四聯(lián)體的KL散度如下:

8.一種人類基因啟動子識別系統(tǒng),其特征在于,包括: 接收單元,用于接收由多個樣本基因序列構成的樣本集; 統(tǒng)計單元,用于分別統(tǒng)計每一個樣本基因序列的胞嘧啶、鳥嘌呤CG偏好特征,得到統(tǒng)計結果;分類單元,用于根據(jù)所述統(tǒng)計結果將所有的樣本基因序列劃分為兩類,一類具有所述CG偏好特征,另一類不具有所述CG偏好特征; 特征提取單元,用于針對劃分后的每一類樣本基因序列,分別提取其中每一個樣本基因序列的剛性特征、CpG島特征和四聯(lián)體組成成分特征; 由所述剛性特征構成的剛性分類器,由所述CpG島特征構成的CpG島分類器,由所述四聯(lián)體組成成分特征構成的四聯(lián)體分類器,所述剛性分類器、所述CpG島分類器和所述四聯(lián)體分類器分別對同一樣本基因序列進行啟動子識別判斷,并分別給出對應的第一識別結果; 第一啟動子確定單元,用于在三個所述第一識別結果滿足第一預設條件時,確定當前樣本基因序列為啟動子序列; 五聯(lián)體特征提取單元,用于對不滿足第一預設條件的樣本基因序列,提取其五聯(lián)體組成成分特征; 由所述五聯(lián)體組成成分特征構成的五聯(lián)體分類器,所述五聯(lián)體分類器對所述不滿足第一預設條件的樣本基因序列進行啟動子識別判斷,并給出第二識別結果; 第二啟動子確定單元,用于在所述第二識別結果滿足第二預設條件時,確定當前樣本基因序列為啟動子序列,否則為非啟動子序列。
9.根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述特征提取單元包括: 剛性特征提取單元,用于針對劃分后的每一類樣本基因序列,提取其中每一個樣本基因序列的剛性特征; CpG島特征提取單元,用于針對劃分后的每一類樣本基因序列,提取其中每一個樣本基因序列的CpG島特征; 四聯(lián)體組成成分特征提取單元,用于針對劃分后的每一類樣本基因序列,提取其中每一個樣本基因序列的四聯(lián)體組成成分特征。
10.根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述四聯(lián)體分類器包括: 第一子分類器,用于根據(jù)啟動子與外顯子的特征來進行啟動子識別判斷; 第二子分類器,用于根據(jù)啟動子與內(nèi)含子的特征來進行啟動子識別判斷; 第三子分類器,用于根據(jù)啟動子與3' UTR的特征來進行啟動子識別判斷。
【文檔編號】G06F19/10GK103870719SQ201410140707
【公開日】2014年6月18日 申請日期:2014年4月9日 優(yōu)先權日:2014年4月9日
【發(fā)明者】張莉, 徐文軒, 羅璇, 王邦軍, 楊季文, 李凡長 申請人:蘇州大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
资兴市| 遂平县| 乌兰县| 哈密市| 二手房| 定兴县| 崇左市| 乾安县| 咸阳市| 乌拉特前旗| 贵港市| 津南区| 翁牛特旗| 武威市| 通江县| 比如县| 上饶市| 西乌珠穆沁旗| 蕲春县| 昌图县| 老河口市| 万山特区| 铁岭市| 秭归县| 富宁县| 丹寨县| 湖北省| 衢州市| 禹州市| 九寨沟县| 竹北市| 同德县| 保康县| 宜兰市| 博乐市| 永和县| 井陉县| 江门市| 乌拉特后旗| 通河县| 临漳县|