尽管基因组预测的育种值通常是基于各种统计方法计算的,如基因组最佳线性无偏预测(GBLUP)、贝叶斯回归模型等,但这些方法通常假设复杂性状受许多微效基因影响,且基因型和表型之间的关系是线性的。虽然有效,但线性假设可能限制了它们在全基因组预测上的表现。
机器学习模型的发展允许进行高维非线性回归,有效捕捉基因型和表型之间的复杂关系。此外,深度学习方法(如卷积神经网络CNN),已被应用于预测植物的复杂性状或人类的遗传疾病。尽管深度学习在预测复杂性状方面已被证明是有效的,但它们在动物基因组预测中的应用仍然很少。
近期,中国农科院农业基因组研究所、佛山鲲鹏现代农业研究院唐中林研究员团队在Journal of Integrative Agriculture上发表题为“Enhancing the genomic prediction accuracy of swine agricultural economic traits using an expanded one-hot encoding in CNN models”的研究论文。 该研究主要关注如何利用CNN模型来提高对猪农业经济性状的基因组预测准确性。研究的核心在于采用了一种扩展的独热编码(one-hot encoding)方法,将16种不同的基因型转换为八个二元变量的集合,从而显著提升了CNN模型预测猪性状的准确性。
研究使用了公开可用的数据集,包含2797只杜洛克猪的基因型和六个性状的信息。通过GWAS获得每个SNP与表型之间的相关性,并据此划分不同数量的SNP数据集(0.5k、1k、5k、10k、20k和30k),以评估CNN模型在不同数量的SNP数据集下的预测性能。CNN模型被设计为使用遗传变异作为输入特征来预测给定样本的表型值。模型包含三个卷积层,每个卷积层后面跟着一个最大池化层,还包括两个全连接层和一个带有线性激活函数的最终输出层。
在以均方误差(MSE)作为衡量标准的情况下,研究发现,在包含1,000个SNPs的数据集下,CNN模型达到最佳预测效果(MSE最小)。
在此基础上,进一步开发了一种新的基因型编码方式。与传统的基因型one-hot编码方法不同,新方法将16种不同的基因型编码成八位的二进制变量作为CNN模型的输入。研究结果显示,相较于传统的one-hot编码方法,这种新的编码方式显著提高了CNN模型对猪重要经济性状的预测准确性。
研究还指出了一些局限性,包括结果的普适性可能受到使用的数据集的影响,包括扩展独热编码方法的含义。需要进一步使用不同的数据集进行验证,以建立稳健性。此外,虽然该方法提高了预测准确性,但还需要考虑实施CNN模型所需的计算资源,以及相关的时间成本。未来的研究应该结合额外的基因组特征,如表观遗传标记或基因表达数据,以提高CNN模型的预测能力。探索不同的CNN架构或将CNN与其他机器学习方法相结合的混合模型,可能会进一步提高猪性状预测的准确性。
标签:基因型,预测,JIA,模型,基因组,hot,CNN From: https://www.cnblogs.com/miyuanbiotech/p/18250289