本發(fā)明屬于動植物選育,具體涉及基于ml算法的最優(yōu)親本組合選配方法、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、農(nóng)業(yè)育種是一項復雜且耗時的工作,傳統(tǒng)方法主要依賴于專家經(jīng)驗和大量的田間試驗。然而,隨著基因組學和信息技術(shù)的發(fā)展,能夠收集和分析的大規(guī)模數(shù)據(jù)越來越多,傳統(tǒng)的方法顯得效率低下且難以充分利用這些數(shù)據(jù)。
2、在相關(guān)技術(shù)中,使用傳統(tǒng)模型進行選種,在標記數(shù)和樣本數(shù)很大情況下,運行效率和準確率都不高。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于ml算法的最優(yōu)親本組合選配方法、電子設(shè)備和存儲介質(zhì),以解決現(xiàn)有技術(shù)中存在的選種效率低且準確率不高的問題。
2、第一方面,本發(fā)明提供了一種基于ml算法的最優(yōu)親本組合選配方法,包括:獲取種子樣本的性別信息、基因型數(shù)據(jù)和表型數(shù)據(jù);基于ml算法對所述種子樣本進行交叉驗證,得到最優(yōu)模型;根據(jù)所述性別信息對所述種子樣本進行排列組合,得到親本組合情況;計算出所有所述親本組合情況的育種能力;采用所述最優(yōu)模型,并根據(jù)所述育種能力識別出最優(yōu)親本組合。
3、在一些實施方式中,基于ml算法對所述種子樣本進行交叉驗證,得到最優(yōu)模型,具體包括:根據(jù)所述種子樣本,采用lgbm機器算法構(gòu)建初步模型;對所述初步模型進行交叉驗證,得到模型真實情況;根據(jù)所述模型真實情況,采用貝葉斯算法計算出優(yōu)化超參數(shù);根據(jù)所述優(yōu)化超參數(shù)獲得所述最優(yōu)模型。
4、在一些實施方式中,基于ml算法對所述種子樣本進行交叉驗證,得到最優(yōu)模型,具體還包括:根據(jù)所述優(yōu)化超參數(shù)構(gòu)建中間模型;采用交叉驗證法識別出所述中間模型的四個指標;根據(jù)所述四個指標得到所述最優(yōu)模型。
5、在一些實施方式中,所述交叉驗證的次數(shù)為十次。
6、在一些實施方式中,任一項所述的基于ml算法的最優(yōu)親本組合選配方法還包括:對所述種子樣本的基因型數(shù)據(jù)進行清洗,得到質(zhì)量型基因型數(shù)據(jù);對所述種子樣本的表型數(shù)據(jù)進行清洗,得到質(zhì)量型表型數(shù)據(jù);根據(jù)所述質(zhì)量型基因型數(shù)據(jù)和所述質(zhì)量型表型數(shù)據(jù)得到質(zhì)量型樣本;其中,基于所述質(zhì)量型樣本得到所述最優(yōu)模型。
7、在一些實施方式中,基于ml算法的最優(yōu)親本組合選配方法還包括:采用圴方根誤差和皮爾森相關(guān)系數(shù)對所述最優(yōu)模型進行評估,得到評估圖。
8、在一些實施方式中,根據(jù)所述性別信息對所述種子樣本進行排列組合,得到親本組合情況,具體包括:模擬每個組合后代的基因型概率;根據(jù)所述基因型概率計算出每個組合的育種值,得到所述親本組合情況。
9、在一些實施方式中,采用所述最優(yōu)模型,并根據(jù)所述育種能力識別出最優(yōu)親本組合,具體包括:根據(jù)所述育種值按從高到低進行排序,得到排序結(jié)果;根據(jù)所述排序結(jié)果識別出所述最優(yōu)親本組合。
10、第二方面,本發(fā)明還提供了一種電子設(shè)備,包括:至少一個處理器;與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠:獲取種子樣本的性別信息;基于ml算法對所述種子樣本進行交叉驗證,得到最優(yōu)模型;根據(jù)所述性別信息對所述種子樣本進行排列組合,得到親本組合情況;計算出所有所述親本組合情況的育種能力;采用所述最優(yōu)模型,并根據(jù)所述育種能力識別出最優(yōu)親本組合。
11、第三方面,本發(fā)明提供了一種存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)任一項所述的基于ml算法的最優(yōu)親本組合選配方法。
12、本發(fā)明的有益效果為:
13、本發(fā)明利用lgbm算法從海量的種子樣本數(shù)據(jù)中自動提取和選擇與目標性狀相關(guān)的重要特征,構(gòu)建適用于農(nóng)業(yè)育種的預測模型。通過交叉驗證方法對模型進行優(yōu)化,提升了模型的準確率。再通過計算出所有親本組合情況的育種能力,提高了育種的確定性。
1.一種基于ml算法的最優(yōu)親本組合選配方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于ml算法的最優(yōu)親本組合選配方法,其特征在于,基于ml算法對所述種子樣本進行交叉驗證,得到最優(yōu)模型,具體包括:
3.根據(jù)權(quán)利要求2所述的基于ml算法的最優(yōu)親本組合選配方法,其特征在于,基于ml算法對所述種子樣本進行交叉驗證,得到最優(yōu)模型,具體還包括:
4.根據(jù)權(quán)利要求2所述的基于ml算法的最優(yōu)親本組合選配方法,其特征在于,所述交叉驗證的次數(shù)為十次。
5.根據(jù)權(quán)利要求1至4中任一項所述的基于ml算法的最優(yōu)親本組合選配方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求5所述的基于ml算法的最優(yōu)親本組合選配方法,其特征在于,還包括:采用圴方根誤差和皮爾森相關(guān)系數(shù)對所述最優(yōu)模型進行評估,得到評估圖。
7.根據(jù)權(quán)利要求1至4中任一項所述的基于ml算法的最優(yōu)親本組合選配方法,其特征在于,根據(jù)所述性別信息對所述種子樣本進行排列組合,得到親本組合情況,具體包括:
8.根據(jù)權(quán)利要求7所述的基于ml算法的最優(yōu)親本組合選配方法,其特征在于,采用所述最優(yōu)模型,并根據(jù)所述育種能力識別出最優(yōu)親本組合,具體包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種存儲介質(zhì),其特征在于,存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的基于ml算法的最優(yōu)親本組合選配方法。