基因组选择的广泛应用大大加快了畜禽的遗传进展。随着畜禽芯片的商业化和测序成本的不断降低,可获得的畜禽基因组信息越来越丰富。基因型标记数量远远超过具有表型数据的样本个数,基因组信息之间的关系更加复杂等问题也随之出现,使得...基因组选择的广泛应用大大加快了畜禽的遗传进展。随着畜禽芯片的商业化和测序成本的不断降低,可获得的畜禽基因组信息越来越丰富。基因型标记数量远远超过具有表型数据的样本个数,基因组信息之间的关系更加复杂等问题也随之出现,使得最佳线性无偏预测(best linear unbiased prediction,BLUP)和Bayes等传统评估模型的使用受到极大限制。机器学习算法不依赖于预定的方程模型,可以更好地处理非线性关系,为以上问题提供了解决方案,因此逐步被应用于基因组选择中。本文综述了基因组选择的发展,阐述了几种常用于基因组选择中的机器学习算法的原理,并对机器学习在畜禽基因组选择中的应用现状和实现方式进行了总结,最后对机器学习在畜禽育种中面临的问题进行了探讨并对其发展进行了展望。展开更多
本研究旨在批量开展花生杂交组配,为高效培育高产花生新品种提供理论指导。利用多年多点百果重和单株生产力的表型数据和深度为10×的重测序数据对220份花生种质进行全基因组选择分析。结果表明,表型数据符合正态分布,基因组数据质...本研究旨在批量开展花生杂交组配,为高效培育高产花生新品种提供理论指导。利用多年多点百果重和单株生产力的表型数据和深度为10×的重测序数据对220份花生种质进行全基因组选择分析。结果表明,表型数据符合正态分布,基因组数据质控后获得527469个高质量SNP(single nucleotide polymorphism)位点;基于表型数据,利用GBLUP(genomic best linear unbiased prediction)模型计算单株生产力和百果重的估计育种值;对估计育种值进行标准化,分别赋予70%和30%的权重,获得花生种质个体的综合育种值;综合育种值排名前20的材料共有190个组合,计算两两间的组合综合育种值;基于基因组数据,利用G矩阵计算两两材料间的亲缘关系系数;将组合综合育种值和亲缘关系系数进行标准化,分别赋予80%和20%的权重,计算组配综合得分;根据组配综合得分的排名直接选择亲本配制组合。综上所述,由开农30×开选016组合产生的种质材料适合作高产亲本,利用全基因组选择可高效、准确计算组合间排名,批量选择亲本组合,快速提高育种效率。展开更多
为了对黄河鲤体质量性状进行全基因组关联分析及全基因组选择模型的预测准确性比较,采用鲤250K高密度SNP芯片对613尾黄河鲤(Cyprinus carpio)进行基因分型,并通过测定其体质量性状的表型信息进行全基因组关联分析,以及基于体质量性状、...为了对黄河鲤体质量性状进行全基因组关联分析及全基因组选择模型的预测准确性比较,采用鲤250K高密度SNP芯片对613尾黄河鲤(Cyprinus carpio)进行基因分型,并通过测定其体质量性状的表型信息进行全基因组关联分析,以及基于体质量性状、全基因组关联分析(genome-wide association study,GWAS)的不同变异数据集对GBLUP、贝叶斯、RKHS和机器学习模型等10种全基因组选择模型的预测准确性进行比较,以筛选出适用于黄河鲤体质量性状的全基因组选择模型。结果表明:通过GWAS定位到与体质量性状相关的5个SNP,位于1号和21号染色体上,进一步筛选关联SNP所在区域的基因,定位到WBP1L、GPM6B、TIMMDC1、RCAN1、EOGT基因;当选取与黄河鲤体质量性状表型相关的前100个SNP作为数据集,分析全基因组选择模型预测准确性时,机器学习模型XGBoost的预测准确性最高,为0.26,当SNP的数量分别为500、1000、3000、5000、20000时,GBLUP模型的准确性均最高,分别为0.3084、0.3444、0.4393、0.4526、0.4007,而XGBoost、LightGBM和GBLUP模型的变异系数则较低,说明模型预测的稳定性相对可靠。研究表明,本研究中共鉴定到5个与黄河鲤体质量性状相关的候选基因,分别为WBP1L、GPM6B、TIMMDC1、RCAN1、EOGT,10种全基因组选择模型中GBLUP模型的预测准确性最高,可用于黄河鲤体质量性状的基因组选育。展开更多
文摘基因组选择的广泛应用大大加快了畜禽的遗传进展。随着畜禽芯片的商业化和测序成本的不断降低,可获得的畜禽基因组信息越来越丰富。基因型标记数量远远超过具有表型数据的样本个数,基因组信息之间的关系更加复杂等问题也随之出现,使得最佳线性无偏预测(best linear unbiased prediction,BLUP)和Bayes等传统评估模型的使用受到极大限制。机器学习算法不依赖于预定的方程模型,可以更好地处理非线性关系,为以上问题提供了解决方案,因此逐步被应用于基因组选择中。本文综述了基因组选择的发展,阐述了几种常用于基因组选择中的机器学习算法的原理,并对机器学习在畜禽基因组选择中的应用现状和实现方式进行了总结,最后对机器学习在畜禽育种中面临的问题进行了探讨并对其发展进行了展望。
文摘本研究旨在批量开展花生杂交组配,为高效培育高产花生新品种提供理论指导。利用多年多点百果重和单株生产力的表型数据和深度为10×的重测序数据对220份花生种质进行全基因组选择分析。结果表明,表型数据符合正态分布,基因组数据质控后获得527469个高质量SNP(single nucleotide polymorphism)位点;基于表型数据,利用GBLUP(genomic best linear unbiased prediction)模型计算单株生产力和百果重的估计育种值;对估计育种值进行标准化,分别赋予70%和30%的权重,获得花生种质个体的综合育种值;综合育种值排名前20的材料共有190个组合,计算两两间的组合综合育种值;基于基因组数据,利用G矩阵计算两两材料间的亲缘关系系数;将组合综合育种值和亲缘关系系数进行标准化,分别赋予80%和20%的权重,计算组配综合得分;根据组配综合得分的排名直接选择亲本配制组合。综上所述,由开农30×开选016组合产生的种质材料适合作高产亲本,利用全基因组选择可高效、准确计算组合间排名,批量选择亲本组合,快速提高育种效率。
文摘为了对黄河鲤体质量性状进行全基因组关联分析及全基因组选择模型的预测准确性比较,采用鲤250K高密度SNP芯片对613尾黄河鲤(Cyprinus carpio)进行基因分型,并通过测定其体质量性状的表型信息进行全基因组关联分析,以及基于体质量性状、全基因组关联分析(genome-wide association study,GWAS)的不同变异数据集对GBLUP、贝叶斯、RKHS和机器学习模型等10种全基因组选择模型的预测准确性进行比较,以筛选出适用于黄河鲤体质量性状的全基因组选择模型。结果表明:通过GWAS定位到与体质量性状相关的5个SNP,位于1号和21号染色体上,进一步筛选关联SNP所在区域的基因,定位到WBP1L、GPM6B、TIMMDC1、RCAN1、EOGT基因;当选取与黄河鲤体质量性状表型相关的前100个SNP作为数据集,分析全基因组选择模型预测准确性时,机器学习模型XGBoost的预测准确性最高,为0.26,当SNP的数量分别为500、1000、3000、5000、20000时,GBLUP模型的准确性均最高,分别为0.3084、0.3444、0.4393、0.4526、0.4007,而XGBoost、LightGBM和GBLUP模型的变异系数则较低,说明模型预测的稳定性相对可靠。研究表明,本研究中共鉴定到5个与黄河鲤体质量性状相关的候选基因,分别为WBP1L、GPM6B、TIMMDC1、RCAN1、EOGT,10种全基因组选择模型中GBLUP模型的预测准确性最高,可用于黄河鲤体质量性状的基因组选育。