欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于生物過程中參數(shù)估計(jì)的系統(tǒng)和方法

文檔序號(hào):393008閱讀:264來源:國(guó)知局
專利名稱:用于生物過程中參數(shù)估計(jì)的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及生物過程(biological process)的參數(shù)估計(jì),并且特別是公開了更準(zhǔn)確地測(cè)量生物過程例如CpG甲基化或類似生物過程的方法。
背景技術(shù)
在生物過程的準(zhǔn)確測(cè)量中,測(cè)量值的近似和不精確的記錄產(chǎn)生誤差。已發(fā)展多種技術(shù)來最小化或減小測(cè)量中誤差的影響。一種流行的技術(shù)是“最小二乘”法,其通常用于使測(cè)量數(shù)據(jù)符合預(yù)定模型。如果作出正確推斷,最小二乘法依賴于正態(tài)頻率分布或高斯頻率分布的關(guān)鍵假設(shè)。在基礎(chǔ)分布為非正態(tài)的情況下,參數(shù)估計(jì)可能是無(wú)效的并且所得推斷是誤導(dǎo)的。因此在此類情況中利用最小二乘法可能導(dǎo)致不正確的結(jié)果。例如,在分子水平發(fā)生的生物過程的測(cè)量結(jié)果服從非線性效應(yīng),例如閾值或多平衡態(tài)(multiple equilibria),并且就此產(chǎn)生通常跟正態(tài)差得遠(yuǎn)的頻率分布。在這些情形中,經(jīng)典的最小二乘法分析可能并不合適,并且需要依賴“似然分析”的替代方法。然而,基于似然的方法需要詳細(xì)了解支配所感興趣的方法的概率密度?;虮磉_(dá)的動(dòng)態(tài)調(diào)節(jié)代表通過多種機(jī)制發(fā)生的分子水平生物過程。希望獲得形成診斷預(yù)測(cè)的基礎(chǔ)的準(zhǔn)確測(cè)量結(jié)果的一種特定的感興趣的生物過程是生物物質(zhì)的CpG甲基化程度的測(cè)量。正常情況下,利用適當(dāng)?shù)臋C(jī)器進(jìn)行該測(cè)量。例如,熟知的Sequenom機(jī)器適于測(cè)量生物材料的甲基化程度。在通過儀器如Sequenom機(jī)器測(cè)量的細(xì)胞樣品中,細(xì)胞類型可以是固定的。如果在一種細(xì)胞類型中代表的CpG位點(diǎn)是甲基化的,而在其他細(xì)胞類型中不是甲基化的,那么這會(huì)導(dǎo)致機(jī)器在這個(gè)位點(diǎn)讀取甲基化程度的比例測(cè)量結(jié)果??蛇x地,在相同類型的細(xì)胞中,在給定CpG位點(diǎn)的甲基化可能不是普遍的,并因此代表了關(guān)于任何相關(guān)性狀的表達(dá)的又一個(gè)問題。在遺傳性狀確定中利用甲基化測(cè)量結(jié)果正變得越來越流行。例如,題目為“Phenotype Prediction”(表型預(yù)測(cè))的美國(guó)專利公布第2009/0104615號(hào)公開了利用甲基化來確定表達(dá)的生物性狀的傾向。通過交叉引用并入上述申請(qǐng)的內(nèi)容。甲基化測(cè)量結(jié)果可能不具有正態(tài)分布或高斯分布的誤差。因此提供測(cè)量結(jié)果的逼近或參數(shù)化的替代形式是重要的。發(fā)明概述本發(fā)明的一個(gè)目的是提供生物過程的測(cè)量的替代形式。根據(jù)本發(fā)明的第一方面,提供了測(cè)量生物過程的方法,該方法包括以下步驟(a)確定用于生物過程的一系列重復(fù)測(cè)量結(jié)果的概率密度函數(shù);(b)利用參數(shù)公式逼近所述概率密度函數(shù);(c)確定用于概率密度函數(shù)的參數(shù)公式化的最大似然估計(jì)量;和((1)將該最大似然估計(jì)量用于生物過程的隨后測(cè)量結(jié)果。在一個(gè)實(shí)施方式中,生物過程包括CpG甲基化測(cè)量。優(yōu)選地,該方法包括將參數(shù)指數(shù)衰減公式擬合到概率密度函數(shù),并且在擬合參數(shù)指數(shù)衰減公式后還將參數(shù)埃爾米特(Hermite)多項(xiàng)式擬合到殘差。
優(yōu)選地,概率密度函數(shù)是以下形式f (z) = Q_1pe_p|z| [l+qH3 (I z |)]其中|x|是CpG甲基化的絕對(duì)值,P和q是參數(shù),H3(Z)是z3_3z形式的3階埃爾米特多項(xiàng)式,并且Q是規(guī)范化常數(shù)??衫米畲笏迫环椒ǐ@得參數(shù)P和q。附圖簡(jiǎn)述現(xiàn)在將參考附圖描述本發(fā)明的優(yōu)選形式,在附圖中

圖1展示了在來自相同樣品的相同CpG的兩次甲基化測(cè)量之間的1440個(gè)重復(fù)測(cè)量結(jié)果的偏差的直方圖。盡管不明顯,約3%的值大于絕對(duì)值O. 2 ;圖2展示了 CpG 2的甲基化比例的直方圖。圖3展示了 SGA和AGA個(gè)體的H19基因的CpG 4的甲基化比例的箱圖。圖4展示了在優(yōu)選實(shí)施方式中提供的一系列步驟。優(yōu)選的和其他的實(shí)施方式的描述在優(yōu)選實(shí)施方式中,對(duì)甲基化測(cè)量中的潛在誤差測(cè)量結(jié)果進(jìn)行了廣泛分析。從該廣泛分析獲取許多因子并且定義了可選的、更有效的概率密度函數(shù)。在進(jìn)行對(duì)CpG甲基化測(cè)量結(jié)果的頻率分布的大規(guī)模測(cè)量以后,獲取優(yōu)選實(shí)施方式的初始概率密度函數(shù)。經(jīng)檢查,發(fā)現(xiàn)CpG甲基化測(cè)量結(jié)果的頻率分布包括適合的概率密度需要描述的兩個(gè)重要特征頻率分布具有高偏斜度(degree ofskew),具有高頻極值。頻率分布被界定在的值之間,代表了如下情況在測(cè)量的細(xì)胞群體中測(cè)量結(jié)果不能是小于零或大于100%的甲基化。這兩個(gè)特征意味著描述由諸如Sequenom機(jī)器測(cè)量的CpG甲基化的概率密度跟正態(tài)頻率分布差得遠(yuǎn)。從經(jīng)驗(yàn)測(cè)量獲取的實(shí)例顯示在圖1中。圖1展示了在來自相同樣品的相同CpG的兩次甲基化測(cè)量之間的1440個(gè)重復(fù)測(cè)量結(jié)果的偏差的直方圖。約3%的值大于絕對(duì)值O. 2。如所展示的,該分布可視為是非高斯分布。在這些情況下,應(yīng)用最小二乘法程序的基于甲基化測(cè)量結(jié)果的估計(jì)和推斷可能是無(wú)效的且可能是誤導(dǎo)的。優(yōu)選實(shí)施方式提供了基于在Sequenom機(jī)器上進(jìn)行的對(duì)相同樣品的大量重復(fù)測(cè)量、在給定基因的啟動(dòng)子中、在給定CpG位點(diǎn)測(cè)量的甲基化比例的概率密度。確定了基于這種概率密度的最大似然估計(jì)量,并將其應(yīng)用于使CpG甲基化的比例與多種表型測(cè)量相關(guān)聯(lián)。優(yōu)選實(shí)施方式的方法提供了改進(jìn)的估計(jì)值可靠性。為了獲取適當(dāng)?shù)母怕拭芏群瘮?shù),對(duì)1440份人髓組織(cord tissue)樣品進(jìn)行了兩次Sequenom測(cè)量并且記錄了測(cè)量結(jié)果之間的差異。這種差異代表在CpG甲基化測(cè)量中歸因于環(huán)境因子的偏差。在優(yōu)選實(shí)施方式中,提供了適于描述CpG甲基化測(cè)量中的測(cè)量偏差的適合的概率密度描述的新形式。概率密度函數(shù)逼近涉及關(guān)于“關(guān)鍵”或基礎(chǔ)參數(shù)概率密度擴(kuò)展埃爾米特多項(xiàng)式系?;A(chǔ)概率密度函數(shù)是指數(shù)概率密度。實(shí)際上,埃爾米特多項(xiàng)式系添加到“關(guān)鍵”概率密度調(diào)整了更高的矩(moment),尤其是偏斜度(經(jīng)3階埃爾米特多項(xiàng)式)和峰度(經(jīng)4階埃爾米特多項(xiàng)式)。根據(jù)對(duì)圖1中直方圖的檢查,確定選擇拉普拉斯(Laplace)概率密度作為關(guān)鍵函數(shù)。這種分布也稱為二重指數(shù)分布,實(shí)際上是以零為中心的背靠背指數(shù)概率密度(back toback exponential probability density)。該分布適于描述可采取正值或負(fù)值的隨機(jī)變量,每個(gè)域具有指數(shù)概率密度。拉普拉斯概率密度是2個(gè)隨機(jī)變量之間的差的結(jié)果,且每個(gè)所述隨機(jī)變量來自指數(shù)分布。指數(shù)概率密度具有“無(wú)記憶性”的特性。還描述了其中在極端事件之間存在時(shí)間的常概率的隨機(jī)過程。也就是說,指數(shù)概率密度描述了如下情況:具有明顯偏離的CpG甲基化特征的細(xì)胞被發(fā)現(xiàn)具有常概率。如果樣品包含與該樣品中的細(xì)胞主體作用不同的細(xì)胞的話將是這樣的情況,不管是因?yàn)樵撟饔貌煌募?xì)胞具有不同類型還是因?yàn)槟撤N其他原因。然而,發(fā)現(xiàn)將指數(shù)分布直接擬合到甲基化數(shù)據(jù)是不良的,尤其是不能正確地描述這種頻率分布的尾。為了解決這個(gè)問題,通過添加埃爾米特多項(xiàng)式,使用與Buckland, S.T, “Maximum Likelihood fitting of Hermite and simple polynomialdensities (埃爾米特和簡(jiǎn)單多項(xiàng)式密度的最大似然擬合)”,Applied Statistics41: (1)241-266, (Buckland(1992b))中描述的算法類似的算法,調(diào)整拉普拉斯概率密度。這種計(jì)算顯示加上3階埃爾米特多項(xiàng)式更準(zhǔn)確地描述圖1中顯示的CpG甲基化頻率分布。因而,描述CpG甲基化數(shù)據(jù)的概率密度可被描述為:
權(quán)利要求
1.一種測(cè)量生物過程的方法,該方法包括以下步驟: (a)確定用于生物過程的一系列重復(fù)測(cè)量結(jié)果的概率密度函數(shù); (b)利用參數(shù)公式逼近所述概率密度函數(shù); (C)確定用于所述概率密度函數(shù)的參數(shù)公式化的最大似然估計(jì)量; (d)將所述最大似然估計(jì)量用于所述生物過程的隨后測(cè)量結(jié)果。
2.如權(quán)利要求1所述的方法,其中所述生物過程包括Cp甲基化測(cè)量。
3.如任一前述權(quán)利要求所述的方法,所述方法包括將參數(shù)指數(shù)衰減公式擬合到所述概率密度函數(shù)。
4.如權(quán)利要求3所述的方法,其中還包括在擬合所述參數(shù)指數(shù)衰減公式后將參數(shù)埃爾米特多項(xiàng)式擬合到殘差。
5.如權(quán)利要求2所述的方法,其中所述概率密度函數(shù)為以下形式: f (z) = CTWp|z|[l+qH3(|z|)] 其中|X|是CpG甲基化的絕對(duì)值,P和q是參數(shù),H3(Z)是3階埃爾米特多項(xiàng)式,并且Q是規(guī)范化常數(shù)。
6.如權(quán)利要求5 所述的方法,其中H3(Z)為以下形式:z3-3z。
7.如權(quán)利要求5所述的方法,其中利用最大似然過程獲得所述參數(shù)P和q。
8.如權(quán)利要求5所述的方法,其中利用對(duì)數(shù)似然優(yōu)化過程優(yōu)化所述函數(shù)。
9.一種實(shí)質(zhì)上如此前所描述的參考附圖測(cè)量生物過程的方法。
全文摘要
一種測(cè)量生物過程的方法,該方法包括以下步驟(a)確定用于生物過程的一系列重復(fù)測(cè)量結(jié)果的概率密度函數(shù);(b)利用參數(shù)公式逼近所述概率密度函數(shù);(c)確定用于所述概率密度函數(shù)的參數(shù)公式化的最大似然估計(jì)量;和(d)將所述最大似然估計(jì)量用于所述生物過程的隨后測(cè)量結(jié)果。
文檔編號(hào)C12Q1/68GK103080943SQ201080051680
公開日2013年5月1日 申請(qǐng)日期2010年11月15日 優(yōu)先權(quán)日2009年11月18日
發(fā)明者安東尼·布萊恩·普萊曾茨, 卡梅倫·安格斯·麥克萊因, 格雷姆·查爾斯·韋克, 艾倫·邁克爾·謝潑德, 皮特·大衛(wèi)·格盧克曼 申請(qǐng)人:奧克蘭聯(lián)合服務(wù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
禹州市| 子洲县| 平原县| 通辽市| 万载县| 盐城市| 临城县| 濮阳县| 泸西县| 巨鹿县| 禹城市| 社会| 大埔县| 贵州省| 石棉县| 延安市| 香港 | 河南省| 绥芬河市| 获嘉县| 依兰县| 枞阳县| 荔浦县| 扬州市| 广南县| 左云县| 嵊泗县| 醴陵市| 新龙县| 铁力市| 滕州市| 白城市| 睢宁县| 科尔| 巴中市| 甘南县| 车致| 明光市| 石楼县| 方正县| 车险|