近日,《生物技术通报》特邀扬州大学农学院徐辰武教授团队发表综述《作物全基因组选择育种技术研究进展》。本文首先分析了影响作物GS功效的主要因素,继而从非加性效应模型、群体构建方案、多性状与多环境预测、多组学预测和育种芯片技术现状等方面阐述了GS技术在作物育种中的研究进展,并指出研究所面临的问题和发展前景,为推动作物GS育种技术的进一步深入研究提供策略和思路。
以下摘自文章部分要点,更多详细信息请阅读原文。
全基因组选择方法概述
- LASSO在线性回归的基础上添加了L1 正则项,通过构造一个惩罚函数得到较为精炼的模型,将大部分标记的效应压缩为0,是一种选择收缩算法。
- 岭回归(RR)在线性回归的基础上添加了L2 正则项。
- 弹性网(EN)则同时使用L1 和L2 正则化,是LASSO 和岭回归的结合。
- 贝叶斯类方法假定标记的效应服从一定的先验分布,其中BRR 假定所有标记的效应有着相同的方差,这一点与GBLUP 无差别利用大量标记信息计算G 矩阵的效果相似。
- BayesB几乎在最大程度上对标记效应进行选择收缩和差别对待,因此成为选择收缩算法的代表,特别适用于由少数主效基因决定的性状。
- 机器学习模型能够更好地对基因型和表型之间的非线性关系进行学习,不过其缺点是可解释性往往较差,难以对生物样本的遗传效应组成进行分解,以及对各个位点的效应进行评估(提高优异等位基因聚合的效率)。
全基因组选择功效的影响因素
- 训练集与测试集之间紧密遗传关系对模型预测的积极贡献。然而大量增加与测试群体遗传相似的训练样本,可能降低优选品种的遗传多样性,从而不利于长期的遗传增益。因此,在实际育种中需要寻求训练集和测试集之间关系的平衡。
- 理论上,标记密度越大越好,但是与训练种群的数量相比,其对预测精度的影响较小。在实际的作物GS 应用中,根据我们的经验,使用全基因组上均匀分布的数万个SNP 标记具有较高的性价比。
- 随着世代的增加,标记和QTL 的LD 会逐渐降低。遗传力较高性状的基因组预测准确性降低较慢。
- 前人的研究表明,遗传力为0.2的性状需要的训练样本数量超过1000。
- GBLUP 和RR-BLUP 的稳健性较强,其预测精度不受QTL 数目的影响,在预测作物产量等由大量微效基因决定的性状时,更具优势。
- 超参数的选择对一些机器学习方法的性能影响较大,如深度学习中网络层数、神经元数目、滤波器大小、迭代次数和激活函数的不同调优方案,可能产生完全不同的预测效果。
- “大p,小n”问题,即标记数目远大于样本量,容易导致多重共线性和过度拟合,进而影响模型表现的稳定性,以至于没有哪种方法在大多数情况下都能保持领先的预测精度。
- 除了常规的标准化或归一化等预处理,还应开发与基因组信息特征相适应的降维方案,采用单倍型划分或主成分分析等方法,在保留大部分标记信息的基础上大幅减少自变量数目,降低过拟合的风险,以提高GS 中众多选择收缩方法的健壮性。
全基因组选择方法的拓展
- 很多学者提出在GS 中有必要考虑非加性效应。但如何对基因型值进行科学编码以正确反映显性和上位性等遗传效应,是非加性模型构建所面临的重要挑战。(这两篇文章可以参考:https://doi.org/10.1590/1678-992X-2021-0074;DOI: 10.1038/s41467-023-39534-x)
- 有效的基因组预测模型只需要整个训练集大小的2%-13%,揭示了对海量遗传组合高效推断的可能。
- 在杂种预测中,单纯对亲本育种值的优选会导致遗传多样性的丧失,为了保持基因组多样性,在亲本选择过程中应避免选择亲缘关系密切的材料。有研究提出了一种平衡育种值和遗传多样性的折中策略。
- 在科学开展遗传交配设计的基础上,GS 模型还可用于GCA 等育种指标的精确预测。
- 将GCA 当作因变量,首先需要获得所有训练集亲本的GCA 值。NCII设计受限于成本和田间试验条件,很多情况下作物的组配设计是稀疏的。SPDC 设计在稀疏条件下利用全基因组标记对玉米亲本能够实现GCA 的精确估计。
- 在进行多环境的联合GS 过程中,首先明确大环境的划分,继而将同一大环境内尽可能多的表型观测信息纳入模型,是一种行之有效的策略。
- 转录组和代谢组相较基因组更接近生物的表型,其数据的充分使用有利于预测精度的提高,不过将其用于育种实践的困难是,数据获取成本相对高昂,且杂交种的转录组和代谢组都难以像基因组一样直接从亲本的组学信息中精确推断,其预测能力可能显示出对性状的特异性。相对于组学数据,单交种双亲的表型信息更容易在早期以较低的成本获取。
- 将作物亲本表型信息纳入杂交种表型预测的策略,可提高性状的预测准确性(可参考: DOI: 10.1111/pbi.13458)。
全基因组选择育种芯片研发现状
目前超过25 种作物中已经开发了百余款芯片,包括:
- 水稻的代表性芯片有RICE6K、RiceSNP50、GenoBaits® Rice 40K等;
- 玉米代表性芯片有MaizeSNP600K、MaizeSNP50 Beadchip、Maize6H-60K、GenoBaits® Maize 45K 等;
- 小麦代表性芯片有Wheat 9K iSelect、Wheat 90K iSelect、Wheat 660K Axiom、Wheat HD Genotyping Array、GenoBaits® WheatSNP16K 等;
- 马铃薯代表性芯片有SolSTW array 等;
- 大豆代表性芯片有SoySNP50K 和SoyaSNP 180K Axiom 等。
缺点:
- 现有芯片信息覆盖度不高,缺少SV;
- 现有芯片通用性不足,不同基因型数据难以共享;
- 对于大规模育种应用,芯片检测成本仍然较高;
- 缺乏育种芯片专用的分析软件和平台;
- 我国底盘技术创新不足,核心技术受制于人。
全基因组选择育种展望
挑战:
- 一般的GS 方法只考虑加性效应,部分学者将显性及上位性等效应纳入模型,但是预测效果还不够理想;
- 前人的GS 研究大多只针对特定环境下特定作物群体的单个性状,忽视了关联性状共同的生物学基础以及多性状的协调发展,且缺乏详细的环境组学数据,难以实现对基因环境互作模式的识别与利用;
- 多数GS 研究只用到基因组信息,多组学信息和研究成果没有得到充分利用;
- 缺少GS 育种专用芯片以及配套软件和平台,数据共享程度低,限制了GS 效率的提高;
- 作物领域中已有的GS 研究很多停留在方法探索阶段,未能广泛付诸于实际的育种工作。
展望:
- 结合已有的生物学和遗传学研究成果,遴选作物全基因组上目标性状的候选基因,开发与基因组信息特征相适应的降维方案,以大幅降低模型中的变量数目,同时应用人工智能领域中的先进算法,提高对各类非加性遗传效应的准确预测;
- 广泛收集表型、基因型和环境数据,并对模型进行优化,注重作物多个性状之间的协调发展,识别并利用基因环境互作模式,提高选择的增益和可靠性;
- 结合人工神经网络,机器学习等最新的数学方法,积极开展作物多组学预测研究,构建多组学信息与目标性状之间的数量遗传模型,提高多组学联合预测的效果;
- 谋划构建GS 专用芯片和统一的GS 平台,实现群体之间的信息共享与利用,提高数据的利用率;
- GS 研究必须结合农业发展的实际情况与切实需求,让理论和方法研究更好地服务于实际育种工作,为培育适应机械化生产、优质高产多抗广适作物新品种提供高效途径。
如需要原文,可联系小编。
标签:GS,徐辰武,芯片,预测,基因组,2024,育种,研究进展,作物 From: https://www.cnblogs.com/miyuanbiotech/p/18250296