一種通過基因組數(shù)據(jù)對遺傳力進(jìn)行評估的算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基因工程領(lǐng)域,具體是一種通過基因組數(shù)據(jù)對遺傳力進(jìn)行評估的算 法。
【背景技術(shù)】
[0002] 目前的遺傳力評估方法主要利用個體間的親緣關(guān)系,采用各種統(tǒng)計手段,如方差 分析法、相關(guān)分析法等進(jìn)行推斷,該方法要進(jìn)行完整的系譜記錄,然而對于有些物種來說, 進(jìn)行系譜記錄工作量非常大甚至很難實現(xiàn),比如水產(chǎn)動物;另外,傳統(tǒng)的遺傳力評估方法是 把基因組信息當(dāng)作"黑箱子"進(jìn)行處理,這樣無法捕獲到基因從親本到子代傳遞的具體信 息,即無法準(zhǔn)備捕獲到孟德爾抽樣誤差,導(dǎo)致估計誤差較大;為了解決傳統(tǒng)遺傳力估計方法 中系譜記錄工作量大和無法準(zhǔn)確捕獲孟德爾抽樣誤差的問題,需要對現(xiàn)有技術(shù)進(jìn)行改進(jìn)改 良。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種克服傳統(tǒng)遺傳力估計中的誤差較大和系譜記錄繁瑣 的問題。通過基因組數(shù)據(jù)對遺傳力進(jìn)行評估的算法,以解決上述【背景技術(shù)】中提出的問題。
[0004] 本發(fā)明不進(jìn)行個體的系譜記錄,直接對所有個體的基因組進(jìn)行測序,結(jié)合個體的 性能記錄和基因組標(biāo)記信息,估計出基因組育種值的估計準(zhǔn)確度,進(jìn)而估計出性狀的遺傳 力。
[0005] 為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案: 一種通過基因組數(shù)據(jù)對遺傳力進(jìn)行評估的算法,對于某一數(shù)量性狀,通過使用不同數(shù) 量的參考群個體進(jìn)行全基因組的標(biāo)記效應(yīng)的估計,進(jìn)而得到估計群的育種值,并計算出估 計準(zhǔn)確度;上述過程其實就是基因組選擇的具體過程,此發(fā)明中采用GBLUP作為計算標(biāo)記效 應(yīng)的算法,GBLUP算法在2001年由Meuwissen等人發(fā)明,其先驗分布認(rèn)為基因組所有標(biāo)記位 點(diǎn)的效應(yīng)方差是相等的,標(biāo)記效應(yīng)可以通過下述公式計算得出:
其中,居為總體平均值;為所有標(biāo)記位點(diǎn)的效應(yīng)向量;基因組估計育種值(GEBV)通過 將所有標(biāo)記位點(diǎn)的效應(yīng)相加而獲得,即GEBV= Σ Xigi; GEBV估計準(zhǔn)確性通過計算GEBV與真實 育種值(TBV)的相關(guān)系數(shù),即r(GEBV,TBV);同時,Daetwyler等人在2008年推導(dǎo)出了在GBLUP算 法估計育種值的情況下,riGEBV,TBV)的另一計算公式為:
其中,化為參考群的個體數(shù)量;h2為所研究的性狀的遺傳力;Μ為決定該性狀的有效基 因組片段的數(shù)目;然而在實際生產(chǎn)中,無法得知TBV的具體數(shù)值,因此用表型值(Υ)替代TBV, 推導(dǎo)出GEBV與Y的關(guān)系為:
在公式(3)中,通過調(diào)整ΝΡ的大小可獲得不同的r(CEBV,Y)的值,擬合該曲線方程,擬合的 方式采用曲線直線化,對公式(3)進(jìn)行整理,得到線性方程:
該方程相當(dāng)于線性回歸模型y = a+bx,其中y為r (cebv, γ)的平方的倒數(shù),X為NP的倒數(shù),方 程的截距a即是遺傳力的倒數(shù),通過求該方程的截距的倒數(shù),求出遺傳力的估計值。
[0006] 作為本發(fā)明進(jìn)一步的方案:對所有個體基因組進(jìn)行測序,獲得SNP信息,所有個體 的SNP位點(diǎn)對應(yīng),缺失數(shù)據(jù)通過imputation方法補(bǔ)齊。
[0007] 作為本發(fā)明再進(jìn)一步的方案:為防止單次估計誤差較大,采用多次雜交驗證的方 法,反復(fù)從總體中隨機(jī)抽取參考群體和估計群體,來獲得接近真實值的估計結(jié)果。
[0008] 作為本發(fā)明再進(jìn)一步的方案:使用不同的參考群數(shù)目結(jié)合GBLUP算法來計算基因 組各個標(biāo)記的效應(yīng)值,以得到估計群的育種值,通過對估計群的育種值和表型值進(jìn)行相關(guān) 分析得到估計準(zhǔn)確度 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過基因組的數(shù)據(jù)對數(shù)量性狀的遺傳 力進(jìn)行評估,所研究的成果可直接應(yīng)用于動植物數(shù)量性狀育種中,本發(fā)明的算法可以在不 建立家系的基礎(chǔ)上,通過全基因組標(biāo)記來預(yù)測性狀的遺傳力,解決了系譜記錄繁瑣甚至很 難實現(xiàn)的問題,并且由于測序可以捕獲到孟德爾抽樣誤差,本發(fā)明的算法相對記錄系譜數(shù) 據(jù)能夠獲得更準(zhǔn)確的系譜信息。
【附圖說明】
[0009] 圖1為本發(fā)明的算法流程圖。
[0010] 圖2為本發(fā)明中體重和體長兩個性狀的GEBV準(zhǔn)確度隨參考群體大小變化的趨勢 圖。
[0011]圖3為本發(fā)明中體重和體長兩個性狀的GEBV準(zhǔn)確度和參考群體大小按照公式4轉(zhuǎn) 換后的趨勢圖。
[0012] 其中,橫坐標(biāo)的值為參考群個體數(shù)的倒數(shù)值;縱坐標(biāo)的值為GEBV準(zhǔn)確度的平方的 倒數(shù);R2為回歸方程的決定系數(shù)。
【具體實施方式】
[0013] 下面結(jié)合【具體實施方式】對本專利的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
[0014] 請參閱附圖1-3,一種通過基因組數(shù)據(jù)對遺傳力進(jìn)行評估的算法,對于某一數(shù)量性 狀,通過使用不同數(shù)量的參考群個體進(jìn)行全基因組的標(biāo)記效應(yīng)的估計,進(jìn)而得到估計群的 育種值,并計算出估計準(zhǔn)確度;通過基因組估計準(zhǔn)確度與參考群體大小進(jìn)行曲線直線化擬 合,擬合出的回歸方程的截距的倒數(shù)為遺傳力的估計值;其特征在于:基因組選擇的具體過 程采用GBLUP作為計算標(biāo)記效應(yīng)的算法,基因組所有標(biāo)記位點(diǎn)的效應(yīng)方差是相等的,標(biāo)記效 應(yīng)通過以下公式計算得出:
其中,S為總體平均值;_為所有標(biāo)記位點(diǎn)的效應(yīng)向量;基因組估計育種值(GEBV)通 過將所有標(biāo)記位點(diǎn)的效應(yīng)相加獲得,即GEBV= Σ Xigi; GEBV估計準(zhǔn)確性通過計算GEBV與真實 育種值(TBV)的相關(guān)系數(shù),即r(GEBv,TBv)得出;在GBLUP算法估計育種值的情況下,r(GEBv,TBv)的 另一計算公式為:
其中,化為參考群的個體數(shù)量;h2為所研究的性狀的遺傳力;Μ為決定該性狀的有效基 因組片段的數(shù)目;在實際生產(chǎn)中,無法得知TBV的具體數(shù)值,因此用表型值(Υ)替代TBV,推導(dǎo) 出GEBV與Υ的關(guān)系% ·
在公式(3)中,通過調(diào)整NP的大小可獲得不同的r(CEBV,Y)的值,擬合該曲線方程,擬合的 方式采用曲線直線化,對公式(3)進(jìn)行整理,得到線性方程:
該方程相當(dāng)于線性回歸模型y = a+bx,其中y為r (cebv, γ)的平方的倒數(shù),X為NP的倒數(shù),方