基因组选择是指利用覆盖在全基因组范围内的分子标记信息来估计个体育种值。利用基因组信息能够避免因系谱错误带来的诸多问题,提高选择准确性并缩短育种世代间隔。根据统计模型的不同,基因组选择方法可大致分为基于BLUP(best linear un...基因组选择是指利用覆盖在全基因组范围内的分子标记信息来估计个体育种值。利用基因组信息能够避免因系谱错误带来的诸多问题,提高选择准确性并缩短育种世代间隔。根据统计模型的不同,基因组选择方法可大致分为基于BLUP(best linear unbiased prediction,BLUP)理论的方法、基于贝叶斯理论的方法和其他方法。目前应用较多的是GBLUP及其改进方法ssGBLUP。准确性是基因组选择模型最常用的评价指标,用来衡量真实值和估计值之间的相似程度。影响准确性的因素可以从模型中体现,大致分为可控因素和不可控因素。传统基因组选择方法促进了动物育种的快速发展,但这些方法目前都面临着多群体、多组学和计算等诸多挑战,不能捕获基因组高维数据间的非线性关系。作为人工智能的一个分支,机器学习是最贴近生物掌握自然语言处理能力的一种方式。机器学习从数据中提取特征并自动总结规律,利用该规律与新数据进行预测。对于基因组信息,机器学习无需进行分布假设,且所有的标记信息都能够被考虑进模型当中。相比于传统的基因组选择方法,机器学习更容易捕获基因型之间、表型与环境之间的复杂关系。因此,机器学习在动物基因组选择中具有一定的优势。根据训练期间接受的监督数量和监督类型,机器学习可分为监督学习、无监督学习、半监督学习和强化学习等。它们的主要区别为输入的数据是否带有标签。目前在动物基因组选择中应用的机器学习方法均为监督学习。监督学习可以处理分类和回归问题,需要向算法提供有标签的数据和所需的输出。近年来机器学习在动物基因组选择中的应用不断增多,特别是在奶牛和肉牛中发展较快。本文将机器学习算法划分为单个算法、集成算法和深度学习3类,综述其在动物基因组选择中的研究进展。单个算法中最常用的是KRR和SVR,两者都是通过核技巧来学习非线性函数,在原始空间中将数据映射到更高维的核空间。目前常用的核函数有线性核、余弦核、高斯核和多项式核等。深度学习又称为深度神经网络,由连接神经元的多个层组成。集成学习算法则是指将不同的学习器融合在一起进而得到一个较强的监督模型。近十年来,有关机器学习和深度学习的相关文献呈现了指数型的增长,在基因组选择方面的应用也在逐渐增多。尽管机器学习在某些方面存在明显的优势,但其在估计动物复杂性状基因组育种值时仍面临诸多挑战。部分模型的可解释性低,不利于数据、参数和特征的调整。数据的异质性、稀疏性和异常值也会造成机器学习的数据噪声。还有过拟合、大标记小样本和调参等问题。因此,在训练模型时需要谨慎处理每一个步骤。文章介绍了基因组选择传统方法及其面临的问题、机器学习的概念和分类,探讨了机器学习在动物基因组选择中的研究进展及目前存在的挑战,并给出了一个案例和一些应用的建议,以期为机器学习在动物基因组选择当中的应用提供一定参考。展开更多
文摘基因组选择是指利用覆盖在全基因组范围内的分子标记信息来估计个体育种值。利用基因组信息能够避免因系谱错误带来的诸多问题,提高选择准确性并缩短育种世代间隔。根据统计模型的不同,基因组选择方法可大致分为基于BLUP(best linear unbiased prediction,BLUP)理论的方法、基于贝叶斯理论的方法和其他方法。目前应用较多的是GBLUP及其改进方法ssGBLUP。准确性是基因组选择模型最常用的评价指标,用来衡量真实值和估计值之间的相似程度。影响准确性的因素可以从模型中体现,大致分为可控因素和不可控因素。传统基因组选择方法促进了动物育种的快速发展,但这些方法目前都面临着多群体、多组学和计算等诸多挑战,不能捕获基因组高维数据间的非线性关系。作为人工智能的一个分支,机器学习是最贴近生物掌握自然语言处理能力的一种方式。机器学习从数据中提取特征并自动总结规律,利用该规律与新数据进行预测。对于基因组信息,机器学习无需进行分布假设,且所有的标记信息都能够被考虑进模型当中。相比于传统的基因组选择方法,机器学习更容易捕获基因型之间、表型与环境之间的复杂关系。因此,机器学习在动物基因组选择中具有一定的优势。根据训练期间接受的监督数量和监督类型,机器学习可分为监督学习、无监督学习、半监督学习和强化学习等。它们的主要区别为输入的数据是否带有标签。目前在动物基因组选择中应用的机器学习方法均为监督学习。监督学习可以处理分类和回归问题,需要向算法提供有标签的数据和所需的输出。近年来机器学习在动物基因组选择中的应用不断增多,特别是在奶牛和肉牛中发展较快。本文将机器学习算法划分为单个算法、集成算法和深度学习3类,综述其在动物基因组选择中的研究进展。单个算法中最常用的是KRR和SVR,两者都是通过核技巧来学习非线性函数,在原始空间中将数据映射到更高维的核空间。目前常用的核函数有线性核、余弦核、高斯核和多项式核等。深度学习又称为深度神经网络,由连接神经元的多个层组成。集成学习算法则是指将不同的学习器融合在一起进而得到一个较强的监督模型。近十年来,有关机器学习和深度学习的相关文献呈现了指数型的增长,在基因组选择方面的应用也在逐渐增多。尽管机器学习在某些方面存在明显的优势,但其在估计动物复杂性状基因组育种值时仍面临诸多挑战。部分模型的可解释性低,不利于数据、参数和特征的调整。数据的异质性、稀疏性和异常值也会造成机器学习的数据噪声。还有过拟合、大标记小样本和调参等问题。因此,在训练模型时需要谨慎处理每一个步骤。文章介绍了基因组选择传统方法及其面临的问题、机器学习的概念和分类,探讨了机器学习在动物基因组选择中的研究进展及目前存在的挑战,并给出了一个案例和一些应用的建议,以期为机器学习在动物基因组选择当中的应用提供一定参考。