植物育种中的基因组选择：影响二十年进展的关键因素

标签：GP 模型关键因素基因组表型育种 TRS 标记

近期，瑞典Rodomiro Ortiz团队在Molecular Plant发表综述：Genomic selection in plant breeding: Key factors shaping two decades of progress，总结了近20年植物基因组选择育种的影响因素和重要进展。小编读后认为，相比于其他泛泛而谈的综述而言，该文作者有自己一些独特的见解，而且引用的研究也很新，颇有收获。因此长文翻译（AI辅助），以供参考。

摘要

基因组选择，即应用基因组预测（GP）模型来选择候选个体，在过去二十年中取得了显著进展，有效地加速了植物育种中的遗传增益。本文全面概述了这一时期影响植物育种中GP的关键因素。我们深入研究了训练群体规模和遗传多样性的关键作用，以及它们与育种群体的关系，以确定GP的准确性。特别强调优化训练群体大小，探讨了它的好处以及超过最佳规模的相关收益递减。这是在考虑资源分配和通过当前优化算法最大限度地提高预测准确性之间的平衡。SNP密度和分布、LD水平、遗传复杂性、性状遗传力、统计机器学习方法和非加性效应是其他重要因素。以小麦、玉米和马铃薯为例，总结了这些因素对不同性状GP准确性的影响。在GP中寻找高精度（理论上当使用皮尔逊相关性作为指标时达到1）是一个活跃的研究领域，但对于各种性状来说，还远非最佳。我们假设，通过超大的基因型和表型数据集，有效的训练群体优化方法和其他组学方法（转录组学、代谢组学和蛋白质组学）的支持，再加上深度学习算法，可以克服当前限制的界限，实现尽可能高的预测精度，使基因组选择成为植物育种的有效工具。

简介

未来几十年，全球人口增长可能会以类似或更快的速度继续增长。预计对粮食的需求将以相同的数量增加以养活人口，而作物生产力因人为气候变化加剧的各种生物和非生物胁迫而受到限制。植物育种是开发具有更高产量、更高质量、耐受或抗多种非生物和生物胁迫的新品种的基础。例如，全球小麦产量从1961年的2亿吨增加到2023年的7.75亿吨（粮农组织，2023年），而小麦总产量（2.2亿公顷）没有显著变化。这主要是由于开发培育了半矮化高产小麦新品种，具有对主要生物和非生物胁迫的抗性和耐受性，以及整个小麦价值链的农艺管理、机械化、有利政策和基础设施的改进。

长期以来，作物的遗传增益一直依赖于传统的杂交育种方法，即基因型的育种和选择完全基于谱系和表型调查。对亲本进行严格性状评价、有针对性的杂交、利用夏冬穿梭育种方案缩短育种周期的世代推进、优良种质的关键试点评价以及有效的数据库管理，在培育改良作物品种方面发挥了重要作用。然而，DNA测序技术的迅速出现使育种者能够获得作物的全面基因组信息，这对选择非常有价值。几种基于DNA标记的基因分型系统的开发显著增加了植物育种家可用的DNA标记的数量。这一突破使植物育种者能够根据其遗传标记组成而不是仅仅根据其表型性状来选择植物性能，这容易在选择效率方面存在一些限制。

基因组工具在植物育种实践中的应用，通常称为基因组辅助育种，在过去四十年中经历了不同的阶段。它始于数量性状位点（QTL）的基于连锁的定位，其中，在有限数量的 DNA 标记下，那些与特定性状分离的标记被鉴定为与 QTL 相关并用于标记辅助选择（MAS）。该方法需要一组从双亲杂交中发育而来的分离个体，这是一个耗时的过程，等位基因变异窄，分辨率低，导致对实际植物育种计划的影响很小。全基因组关联研究（GWAS）方法成为一种流行且强大的方法，用于识别与目标性状的 QTL 密切相关的标记。然而，通过MAS实现该方法的实际实施仅限于有限数量的主要QTL，而复杂性状中的许多小效应QTL仍然未知和未被利用。

当开发的GP模型应用于实际选择时，基因组选择（GS）已成为植物育种中的有力工具，特别是在现成的全基因组SNP的进步之后。除了早期贡献者， GS最早由Meuwissen et al. 在二十年前阐述。在这项开创性的研究中，作者为植物育种的新途径铺平了道路，表明从标记图谱预测遗传值可以广泛增加植物和动物育种的遗传增益，特别是如果与育种技术相结合以缩短世代间隔。传统的 MAS 方法往往只关注与经过充分研究的主要 QTL 相关的有限标记集，不包括绝大多数次要效应 QTL。与这些方法相比，GP采用大量的全基因组SNP来量化单个植物的综合遗传价值，包括目标性状的大多数贡献QTL。下一代测序技术的持续快速发展，以产生密集的全基因组SNP标记，加上其在多种作物中基因分型的成本大幅降低，使GS成为大多数育种计划中必须实施的方法。实证研究表明，与基于谱系的选择相比，GS在加速单位时间内遗传增益方面具有优势。与基于表型的选择相比，GS具有巨大的潜力，可以降低每个育种周期的成本，提高选择强度和准确性，并显着减少开发品种所需的时间。

开发统计机器学习模型和训练群体优化是植物GP研究中积极探索的两个主要领域。这是因为它们有可能提高预测准确性，而目前的成就远非最佳。本文首先对GP进行了简单解释，然后探讨了植物育种中广泛应用的最新交叉验证（CV）方法。然后详细阐述了过去二十年中确定的影响 GP 准确性的关键因素。此外，以小麦、玉米和马铃薯为自花授粉、异花授粉和无性繁殖作物为例，分析了实证研究结果，以说明所鉴定的因子对GP在各种性状中的准确性的影响。最后，重要的是，GS的实施在公共和私人育种计划正在进行的实证研究的展示示例中得到了强调。提出了宝贵的建议，以支持GS在植物育种计划中的成功实施。

基因组预测

GP 是最新的数据驱动方法，已被广泛接受并用作加速植物育种计划中遗传增益的宝贵工具。GP 采用先进的统计机器学习模型，根据从全基因组标记估计的育种值来选择育种种群中的个体。该选择过程依赖于来自训练群体的数据，包括表型和基因型信息（图1A）。经过严格的训练程序后，这些模型生成仅由基因型数据组成的目标种群性状的育种或表型值预测。但是，在应用选择之前，应首先通过 CV 评估预测模型的性能（有关 CV 方法的详细信息，请参阅下一节）。GP 中的这一步骤对于评估预测模型的性能并将不同的统计机器学习模型集与各种场景进行比较至关重要，例如结合多个性状、已知的主要基因和标记性状关联（QTL）、基因型×环境（G×E）相互作用以及其他组学数据，例如转录组学、代谢组学和蛋白质组学（图1A）。

GP 方法之间的比较通过其预测准确性进行评估，这与育种家的方程式直接相关。各种因素都会影响 GP，并且单个性状的准确率分数在实验中差异很大。例如，小麦、玉米和马铃薯中单个性状的预测准确性在不同的实验研究中差异很大，这是由于训练群体组成的不同设置、应用统计机器学习模型和其他因素（补充表1-3）。GP 准确性（r 标记预测值与真实预测遗传值之间的相关性）被测量为基因组估计育种价值（GEBV）与真实育种价值之间的皮尔逊相关性，其中给出了选择准确性的估计值。选择精度与选择响应（R）直接相关，也称为遗传增益，在育种家方程中计算为 R = i r σA / t ，其中i和r分别是选择强度和准确度，而 σA 是加性遗传方差的平方根，t是循环时间。

GP考虑亲本平均值和孟德尔采样的偏差来定义后代的GEBV，这使得该方法可用于：（1）通过预测加性效应（即双亲杂交的F2水平的GS）在早期世代具有短育种间隔的快速选择周期;（2）通过预测个体的基因型值，在选择的后期选择品系，加性和非加性效应决定品系的最终商业价值。

许多因素会影响GP，并会显著降低其准确性（图1B）。因此除非得到充分解决，否则它们会阻碍GP在植物育种计划中的有效利用。群体规模、遗传多样性以及与育种群体的遗传相关性是训练群体优化过程中要关注的关键特征。QTLs和标记之间的连锁不平衡水平（在训练和育种测试群体中）、目标性状的遗传复杂性和遗传力、质量/精度表型、统计机器学习模型、G×E相互作用和其他非累加因素等因素是使植物育种中GP进一步复杂化的其他主要特征。

交叉验证方法

CV 是统计机器学习方法中的一项基本技术，可帮助模型评估、超参数调整和确保稳健的模型性能。它在构建模型方面发挥着至关重要的作用，这些模型可以对新的、看不见的数据做出准确的预测，同时避免过度拟合和特定于数据的偏差。在申请选择育种群体中的候选个体之前，应首先使用 CV 方法评估 GP 模型。CV 通过划分训练总体（训练集，TRS）进入校准和验证集。

根据不同的确定方案，使用不同的GP CV方法（图2）。K-fold CV 是应用最广泛的方法之一，其中整个数据集被划分为相等数量的折叠。例如，在 5折CV 方法中，TRS 数据集被随机分组为 5 折，预测模型使用 4 折作为校准集进行训练，而其余折用作验证集。精度可以在对每个折的多次运行进行平均或包含所有折的运行平均后测量。Leave-one-out CV （LOOCV）是另一种方法，其中将单个基因型从校准集中排除，并在每次迭代中用作验证集。在该方法中，样本或基因型的数量需要相同数量的 CV 迭代。因此，LOOCV是计算密集型的，仅适用于少数基因型（样本），而5折CV方法非常适合大型数据集。在多环境GP分析的情况下出现了另一种CV场景。交叉验证 1 （CV1）是指在测试环境中预测新开发的品系或品种的 GEBV 的场景，因此 CV1 适用于在测试环境中预测未经测试的品系。CV2也称为稀疏测试，是一种在某些环境中测试并在其他测试环境中预测的基因型的方法。因此，CV2 是预测测试环境中测试线路的合理选择。其他情况是 CV0，它源于在未经测试（未观察到）的环境中预测测试的基因型，而 CV00 用于预测未测试基因型在未观察到的环境中的 GEBV（图 2）。

图2.植物育种中的基因组预测交叉验证方法。使用 5 折交叉验证方法，最初将完整总体随机分配到 5 折（F5）。然后将 4 折用作校准集，以开发 GP 模型，同时保留剩余的 GP 模型作为验证集。从LOOCV的校准集中排除单个基因型，并在每次迭代中预测其GEBV。在多环境 GP 中，可以在测试环境（CV1）中预测新开发的未经测试的基因型，在某些环境中测试但在其他环境中未测试的基因型（也称为稀疏测试 CV2），在未经测试的环境中预测的测试基因型（CV0），以及在未经测试的环境中预测未经测试的基因型（CV00）。

训练群体

训练群体（TRS ）用于建立遗传标记与目标性状表型数据之间的统计关系，以根据个体的基因型图谱预测个体的表型。在GP中，首先应优化TRS，以提高育种程序的预测准确性和效率（参见“训练种群优化”）。优化后的TRS在GP模型优化过程中可以分为两种类型在实际场景中应用。第一种类型是优化的校准集，用于训练预测模型并通过 CV 估计验证集中剩余个体的 GEBV（图1A）。第二种类型是整体优化的TRS，用于在实际育种场景中训练优化的GP模型，以估计育种群体（BS）中个体的GEBV，这些个体可以进行选择。TRS 的特征包括群体规模、遗传多样性和与 BS 的遗传相关性、群体结构、与 BS 相关的连锁不平衡水平（LD）以及表型和基因型数据的质量显著影响 GP 的准确性。

训练群体大小

植物育种家的最终目标是实现高度准确但廉价的遗传价值估计。在 GP 中，增加 TRS 大小可能会对植物育种的成功实施产生积极和消极的影响。TRS 的大小会影响 GP 模型的准确性，并且通常与大小的增加呈正相关。然而研究表明，在达到最佳 TRS 大小后，预测准确性增量会趋于平稳。由于基因分型成本已显著降低，因此增加 TRS 的大小需要更大的努力和更高的表型成本。此外，增加TRS可能会对收集的表型数据的质量产生不利影响，导致预测准确性降低。TRS优化包括平衡通过选择性表型分析以最小的资源分配实现尽可能高的r（图3 A）。已经进行了研究以确定优化的 TRS 大小并证明许多决定因素的影响，例如遗传亲缘关系和群体结构与 BS、LD 范围、遗传力和目标性状的遗传结构。从广义上讲，为了获得更高的r，当与BS的遗传亲缘关系降低时，TRS的大小应该增加。同样对于可遗传力较差的性状，准确性通常较低，这与遗传结构的复杂性直接相关，具有几个贡献的小效应QTL，并且标记和QTL之间的LD较低。最近开发了能够自动找到最佳 TRS 大小的新优化方法。更多详细信息可在补充文件 1 中找到。

群体结构及其与育种群体的遗传关系

在实际育种场景中，GP 的缺陷之一是无法在不针对任何特定 BS 的情况下长期开发依赖性和有效的 TRS。正因为如此，育种计划必须在GP模型辅助选择的每个阶段更新和优化TRS（参见“训练种群优化”）。这是因为遗传亲缘关系、群体结构以及训练群体和育种群体之间的LD程度对准确性起着巨大作用。因此，开发针对候选集的 TRS 是 GP 中最关键的一步。在训练群体中添加遗传无关的个体会对 GP 模型产生不利影响，正如 r 的减少所表明的那样。例如，Riedelsheimer等人（2013年）报告说，当训练和育种群体从全同胞双单倍体（DH）玉米品系内更改为半同胞DH品系之间时，预测准确性大幅下降（42%）。

由于奠基者效应和选择过程，具有与其他等位基因频率不同的特定群体创造了群体结构。这种等位基因频率差异通常使表型与标记物之间产生关联，而不管它们与致病QTL的真正联系如何，这会导致对r的偏差，除非在GP统计机器学习模型中得到适当的解释。在 GP 中，群体结构可能出现在 TRS 内部或 TRS 和 BS 之间，并且两者都会影响预测模型。研究表明，群体结构对自花授粉和异花授粉作物的r都有不利影响。然而，de Los Campos等人（2015）认为，由于等位基因频率和LD模式的差异，自然和人工育种群体总是具有不同程度的分层，这些等位基因频率和LD模式是一种修饰效应，而不是混杂效应。 Daetwyler等人（2012）提到，关键是要考虑虚假的群体结构，例如源自外来种质的群体结构，但不影响个体之间的亲缘关系。然而一些研究表明，当在统计分析中考虑群体结构时，GP的准确性会显著降低。

已经提出了不同的策略来解释 GP 的群体结构。在 TRS 优化和表型分析期间混合来自不同群体的个体是连接不同群体的一种选择。通过利用育种起源、系谱或分子标记定义的亚种群的平均性能来计算群体结构是另一种开发的方法。另一种方法是将源自基因组关系矩阵的主成分和混合系数作为 GP 混合模型中的协变量作为固定效应。然而这种方法有局限性，例如无法解释标记在亚群中的效应差异和群体结构的“重复计数”。已经提出了不同的方法来克服这个问题，例如基因组最佳线性无偏预测（G-BLUP）重新参数化和通过调整多性状模型对不同群体个体之间的遗传协方差进行建模。

遗传多样性

TRS的遗传多样性是GP的另一个主要贡献因素，包括具有不同遗传背景的个体有助于捕获影响目标性状的全谱遗传变异。这种多样性确保了预测模型能够准确地捕捉遗传效应，并在广泛的遗传背景中做出可靠的预测。TRS应包含感兴趣的性状的广泛等位基因变异，以捕获最大可能的贡献QTL。然而它必须针对 BS 开发，因为增加与 BS 遗传距离的个体的多样性会对 GP 模型的准确性产生负面影响。

训练群体优化

在实际育种场景中，GP效率高度依赖于候选个体遗传优点的r。广泛的研究支持这样一种观点，即配置最佳 TRS 对于确定预测准确性至关重要。构建不充分的 TRS 会大大降低预测准确性，而优化的 TRS 会显著提高准确性。TRS优化旨在最大限度地提高对测试或目标集（TS）进行预测的准确性，同时最小化TRS大小以降低表型成本（图3A）。

TRS优化是植物育种计划的关键，主要有三个原因。首先，由于预测依赖于 TRS 确定的标记或线效应，因此需要仔细策划 TRS 以提高 GS 的效率和功效。其次，表型分析的巨大成本推动了寻找创新的替代方案来减少支出。育种计划可以通过专注于较小但具有代表性的 TRS 来更有效地分配资源。这不仅减少了表型分析支出，还提高了 GP 模型中应用的数据质量。这使得育种计划可以投资于复杂性状的高级工具或增加特定性状的测量次数，这种方法称为稀疏或选择性表型。第三，由于关键遗传信息的代表性不足或过度，依赖于随机抽样的传统TRS方法并不总是导致预测能力的提高。因此，优化有助于简化稀疏表型分析过程，旨在减少表型分析费用，同时保持或提高预测模型的准确性。

TRS优化有两个关键方面：（1）TRS是一个动态群体，必须在整个育种周期中更新；（2）在构建TRS时需要考虑测试集。

在这里，我们回顾了育种计划中可用的群体类型及其在 TRS 优化中的作用、应用方法以及对 GP 准确性和效率的更广泛影响。我们在更广泛的育种环境中提供 TRS 优化的观点，但不会深入研究每种算法或方法的详尽细节。可以在其他地方找到的相关优缺点，例如 Isidro y Sánchez 和 Akdemir （2021）。尽管如此，TRS优化的关键开发算法的摘要可以在补充表4中找到。

参与优化的育种群体类型

在GS辅助育种中，不同育种群体集的分类和利用对于简化预测过程和最大限度地提高育种管道的效率至关重要。每组都发挥着不同的作用，其组成可以显著影响GP的准确性和有效性。育种群体集及其各自的目的和相互关系的总结可以总结如下。

（1）候选集（CS）：育种者可用的基因型集合。优化旨在确定用作 TRS 的最佳 CS 子集（图3B）。

（2）剩余集（RS）：包括未为 TRS 选择的 CS 基因型。当伴有表型数据时，RS 增强了对模型性能的评估。

（3）训练或校准集（TRS）：GP 方程的基础，包含基因型和表型数据。目标是以最少的表型和基因型信息最大限度地提高 TS 的准确性。

（4）测试或目标集（TS）：一组要预测的基因型。它仅包含预测其GEBV所需的基因型信息。但是基因型信息可能会或可能不会及时用于 TRS 优化步骤。

优化方案

TRS 通常由新的田间试验数据集构建。但是可以用旧的历史数据进行补充，并且可以在两个数据源上执行优化（图3C）。

（1）历史数据：利用包含具有基因型和表型信息的综合历史数据的 CS 可以在大小和多样性方面丰富 TRS，这是 GS 的一个关键优势。增加样本量可以提高捕获许多等位基因效应中的大多数的潜力，并增强 GP 模型的稳健性和准确性。然而，这种包含可能会降低TRS与TS的相似性，并可能对预测准确性产生不利影响，促使需要优化。

（2）新的田间试验：在 CS 仅提供基因型数据且有限的田间试验阻止完全表型的情况下，建议进行稀疏测试。在这种情况下，最优实验设计可以设计如下：（1）确定CS的子集进行现场测试，从而形成TRS（TRS优化）;（2）对于多环境试验，确定理想的TRS基因型分布;（3）定义该领域内最有效的基因型分布（哪个基因型在哪些地块中）。步骤 2 和 3 表示有序优化，重点关注基因型的战略性最优空间排列。

TRS优化分为靶向或非靶向，具体取决于TS中基因型信息的可用性（图3B）。靶向优化利用 TS 基因型信息来构建 TRS，并且通常优于非靶向方法。即使没有 TS 基因型信息，将 CS 与 TS 联系起来的详细系谱在靶向优化中仍然是可行的，然而缺乏这方面的研究。无序优化侧重于选择CS子集，而有序优化则强调现场的空间基因型分布。后者可以利用与阻塞结构、空间影响和环境变量相关的数据。

训练群体优化算法

已经提出了几种设计标准来选择和优化 GP 中的 TRS。经典的标准随机或分层抽样方法因其简单性而被普遍应用。尽管如此，GP精度的提高已经使用其他优化标准实现，这些优化标准可以分为参数化、非参数化和多重设计标准。许多既定标准大多用作 TRS 的评估指标，适当的启发式方法对于最大化或最小化它至关重要。已经开发了许多 R 程序包，并提供了通常基于遗传算法的合适启发式方法。例如，开发了 STPGA （ Akdemir， 2017 ）， TSDFGS （ Ou and Liao， 2019 ）和 odw （ Butler et al.， 2013 ），但仅限于内置标准。相比之下，TrainSel （ Akdemir et al.， 2021 ）支持内置和用户定义的标准。

参数设计标准

参数化设计标准假设研究人员在数据收集之前预先确定模型。这些标准通常依赖于与模型信息矩阵相关的标量函数。在实践中，它通常来自线性混合模型中加性基因型效应的预测误差方差-协方差矩阵（PEV）。A、D 和 E 准则，决定系数准则（CD_mean）和预测误差方差准则（PEV_mean）就是例子。参数标准是一种强大的方法，但计算量很大。已经尝试解决这个问题，包括在每次迭代中更新PEV矩阵，而不是从头计算，并应用主成分分析来降低维数，例如在PEV_mean ridge 和CD_mean ridge 方法。关于算法计算效率的深入讨论可在补充文件1，注2中找到。

稀疏选择指数是最近提出的具有内置优化过程的预测模型。在这里，定义了一个选择索引，该索引将 TS 基因型值指定为 CS 基因型的线性组合。线性组合的回归系数受到套索正则化（L1）惩罚，以强制执行稀疏性，这等效于选择基因型的子集作为 TRS。这在概念上类似于再现核希尔伯特空间中的带宽参数，但更进一步。该方法适用于历史数据优化，因为它为每个 TS 个体制作了特定的 TRS，并且 CS 的表型信息应该可用于参数调整。

非参设计标准

这种类型的方法不假设任何预定义的基础模型，而是通常围绕距离或相似度的指标展开，目的是在整个设计环境中均匀分布 TRS，这种方法称为空间填充设计。这种设计特别有助于选择一组浓缩的候选对象，并最大限度地降低与参数化设计标准优化相关的计算复杂性。各种指标有助于评估此设计空间内的点分布。例如，围绕 medoids 方法的划分集中在基于特定距离测量的集群中识别一系列称为 medoids 的中心实体。一般来说，数据挖掘中代表性子集选择的方法可用于训练集设计，这开辟了许多可能性。已经开发了许多指标来最小化 TRS 内的遗传关系（即最大化多样性）和/或最大化其与 TS 的关系，例如，最大值和最小值、Avg_GRM、OPT_MIN、Avg_GRM自我和Avg_GRM_MinMax。拉丁超立方体采样涉及将设计空间分割成相等的立方体。目标是确保每个立方体都有一个采样点，进一步旨在根据给定的概率分布全面探索每个标量输入的范围。Tails 和 Tails_GEBVs 为 TRS 选择具有极端表型或 GEBV 的基因型并丢弃其余基因型。对抗性选择试图确保 TRS 和 TS 无法通过二元分类器区分，即它们的相似性最大化。

多目标标准

该方法试图通过将不同的标准与某种类型的平均方法（例如帕累托前方法）组合成一个来处理选择问题。它擅长评估多个标准并定义一套非主导设计。该方法已被有效地应用于优化历史数据的整合，平衡 TRS 多样性、其与 TS 的关联以及试验遗传力与来自工业育种计划的广泛经验数据集。

关键算法总结

TRS优化方法和算法的详细比较和细分见补充表4。然而，大量可用的方法使得选择单一有效的方法具有挑战性。最近对TRS优化的研究为选择合适的方法提供了宝贵的见解。 Fernández-González 等人（2023 年）在各种数据集和遗传架构中对这些优化方法进行了广泛的比较。根据他们和其他研究人员的发现，我们提供了一个简短的总结，重点关注TRS优化中每个领域的关键算法。此外，在补充文件 1 、注释 1 和 R 脚本中提供了关于实现 CDmean 和 Avg_GRM_self 的深入、系统示例，其中包含在实际 TRS 优化场景上实现两种算法的示例（补充文件 2）。然而，需要注意的是，在所有方面都没有单一的最佳算法，补充表4中的一些方法可能更适合利基应用。

在这里，我们提出了通用、有效方法的建议，这些方法构成了新优化项目的良好首选。

（1）TRS 大小优化：主要针对包含历史数据的情况量身定制，出现了两种主要算法：

目标精度方法：旨在预测 GP 精度并确定最小 TRS 大小，而不会造成实质性的精度损失。根据我们的经验，Avg_GRM_self是最佳选择，因为它的计算时间很快，这在这种应用中是必不可少的。重要的是，预算限制起着至关重要的作用，但通常情况下，包括 50%-85% 的候选人会保持准确率下降到 5% 以下。
最佳求解方法：这些方法通过识别局部最大值或拐点来寻求最佳 TRS 大小。例如，Avg_GRM_MinMax（Fernández-González等人，2023）和Min_GRM（Fernández-González等人，2024）。

（2）优化TRS组成：一个被广泛研究的领域。研究结果表明，靶向优化通常超过非靶向方法，CDmean效率很高，尽管计算密集型。在存在强大的种群结构的情况下，保持TRS多样性尤为重要。因此，建议将 CDmean 应用于较小的数据集，而快速Avg_GRM_self（非目标）或Avg_GRM_MinMax（目标）适用于较大的数据集。

（3）同时大小和组合优化：当使用历史数据且训练集大小不是由可用的现场资源决定时，这是有益的，尽管由于将最佳 TRS 大小与实际现场资源相匹配的潜在困难，它可能会降低用于优化新现场试验的算法的通用性。MaxCD 最初被描述为杂交育种中的 TRS 设计，但我们认为其优化 TRS 大小的能力可能有助于历史数据的优化。后一种作用可以通过其他方法填补，例如对抗性选择（Montesinos-Lopez et al.， 2023a， 2023b）或多目标优化（Akdemir et al.， 2021; Fernández-González 等人，2024 年），这并不特定于杂交种。

（4）空间分布/有序优化：与新的田间试验相关，这种优化对计算要求很高，尤其是在合并环境或空间数据时。为此目的开发了两种著名的 R 包算法，“odw”（Butler 等人，2013 年）和“TrainSel”（Akdemir 等人，2021 年）。参数标准（如 A-opt 和 CDmean）是最适合此应用的方法。

标记密度分布及LD

增加分布在染色体上的SNP标记的密度有助于准确捕获大多数贡献QTL，最终导致r增加。开发最佳 GP 所需的 SNP 标记数量取决于基因组大小、LD 范围和所研究性状的复杂性。在基因组大小大且相对低 LD 的作物中，针对由多个 QTL（例如产量）控制的复杂性状的研究需要分布在染色体上的高密度 SNP 标记。相反，由较少基因控制且具有高LD的高可遗传性状可能需要相对较低的SNP标记密度才能达到最大可能的r。此外，与自交作物（如水稻）相比，玉米等杂交作物中的LD衰变迅速，需要高度密集的 SNP 标记分布才能达到最佳 r 。一般来说，SNP标记的最佳密度和分布依赖于目标性状的最大贡献QTL在LD下，DNA标记包含在预测模型中。群体的LD模式特别有助于开发具有成本效益的低密度SNP标记的GP模型。

优化GP中的标记密度可能是有益的，因为大型标记数据集中的大多数SNP是表型中性的，并且仅包含与特定性状相关的相对较小的SNP比例。为特定性状选择最佳标记子集是提高 GP 准确性的一种有前途的方法。标记子集的一种方法是基于先前的关联映射研究进行选择。当通过 GWAS 识别的重要标记被拟合为固定效应时，观察到有益的 GP 准确性提高，只有具有最高显著性的前 100–10 000 个标记被用作预测因子，或包括重要标记周围的标记。另一种优化方法是在预测模型中应用基于标记 LD 的单倍型块。基于单倍型块而不是单个 SNP 标记的预测可以有效地捕获局部上位并更好地解释 LD 到 QTL，从而提高 GP 准确性。标记面板的选择可以高度影响性状关联，一些研究文章已经证明了标记密度对GP准确性的影响。

遗传结构与性状遗传力

大多数具有经济重要性的作物性状（例如产量）是多基因的，并且具有复杂的遗传结构，涉及多个QTL或具有不同程度表型效应的基因。与传统 MAS 方法相比，GP 的主要优势之一是它能够通过考虑大量小效应 QTL 来有效地评估此类遗传复杂多基因性状的基因型。通常，遗传复杂性和遗传力（h2）与QTL的数量及其控制性状的相互作用直接相关。由少量大效应QTL控制的性状通常比具有不同基因型效应水平的多个基因的性状具有更高的遗传力。GP 受性状、遗传结构和遗传力复杂性的影响。具有低h2的性状应通过增加TRS大小（N）来补偿，以实现最佳的GP精度，因为Nh2决定了GP模型的功效。此外，当上位相互作用在很大程度上或部分有助于性状的真实遗传结构时，考虑上位相互作用的机器学习模型有可能提高预测准确性。一些实证调查和模拟研究表明，r 通常随着QTL数量的减少和性状遗传力的增加而增加。

精确的表型

需要从 TRS 记录的表型数据将基因组图谱与表型联系起来，使 GP 模型能够评估单个 SNP 标记并提供权重。然后，这些标记仅用于仅根据其基因组图谱评估BS中的个体，并协助育种计划中的选择和决策。高密度SNP标记与在合适的统计机器学习模型中评估的精确表型相结合，可以将基因组与作物的表型组联系起来，从而产生具有高预测精度的GP模型。传统植物表型分析方法的效率局限性被认为是成功连接基因型与表型信息之间桥梁的瓶颈。因此，高通量表型（HTP）和高通量田间表型（HTFP）方法的先进技术最近引起了极大的关注，因为它们有可能为几种作物的一级和二级性状提供全面和精确的表型数据。HTP 和 HTFP 可以统称为高通量表型平台（HTPP）。HTPP允许研究人员以非常低的成本筛选大量的单个植物。HTPP旨在使用远程或近端传感，以低成本在非常多的个体或育种系上产生高密度的表型。这可以提高选择的准确性和强度，从而提高选择响应，同时降低表型成本。 HTPP 的主要思想是使用与谷物产量、抗病性或最终使用质量相关的预测因子性状，这些性状在品系的早期测试中可能是有利的。先前的研究表明，HTPP 方法在几种性状的 GP 准确性中具有潜力。

整合其他多组学数据

GP 依赖于从个体的基因组图谱中估计个体的表型表现。然而，基因组图谱必须转录为RNA（tRNA，sRNA，mRNA），然后翻译成蛋白质，然后才能表达为表型。这些结果分别来自转录组学和蛋白质组学研究。这种中间表型数据（即转录组学、蛋白质组学和代谢组学）与基因组数据的整合证明了提高 GP 准确性的潜力。基于多组学的GP已经成功实施，提高了玉米、小麦、燕麦、大麦、水稻、和油菜等多种作物的预测准确性。

Schrag等人（2018）报道了将信使RNA（mRNA）与谱系和基因组数据集相结合，从而对r进行了有益的改进，以估计未经测试的玉米杂交种中农艺性状的育种价值。胡等人（2019）通过多层最小绝对收缩和选择算子模型，将转录组和代谢组以及基因组图谱整合到一个模型中，概述了未经测试的水稻RIL的四个产量和产量相关性状的r改善。将转录组学和代谢组学图谱纳入基因组数据集也改善了多环境试验中燕麦几种农艺和种子营养性状的r。最近，已经开发了先进的统计机器学习算法，以结合具有高效计算性能的多组学中介来利用GP模型。尽管如此，在GP研究中实施植物组学概况时，应谨慎考虑伴随中介的模型过拟合和时空特征。

统计机器学习方法

统计方法在 GP 中起着核心作用，因为 DNA 标记的影响是通过对 TRS 中提供的基因型和表型数据之间的数学关系进行建模来估计的。此后，为评估的标记提供其表型效应的特定权重，从而可以估计 BS 中候选个体的基因组育种值。因此，GP 是一种统计机器学习方法，旨在使用来自 TRS 的数据训练、开发和分析模型的性能。 Meuwissen等人（2001）通过使用修正的线性最小二乘回归，BLUP和两种贝叶斯统计方法（BayesA和BayesB）模拟大约50000个标记单倍型的影响。

在过去的 20 年中，已经为 GP 提出了几种统计机器学习方法（图4）。由于用于植物和动物育种应用的基因组学中的大多数可用数据集都试图找到响应变量（输出）与数千甚至数百万个SNP标记作为输入（或预测因子，p）之间的关系，因此训练这些模型的框架是可用的输入多于观察值（观察值，n），即p>>n，这是一个重大挑战。这种现象导致了不同的惩罚（正则化）方法的出现。因此，用于从大 p 和小 n 的回归中估计全基因组 SNP 标记效应的不同正则化机制导致了许多统计机器学习方法的出现。这些统计机器学习算法的表现不同，它们的适用性和性能取决于应对由全基因组SNP标记的多维性和多因素性状的遗传复杂性引起的几个因素。因此，没有任何统计机器学习模型可以被挑出来优于其他可用算法，并提供尽可能高的 GP 准确性，这已被大量实证和模拟研究验证，并由“无免费午餐”定理提供理论支持。这些统计模型可以分为参数模型、半参数模型和非参数模型（ Montesinos López et al.， 2022a ， 2022b ）。

参数模型是从自变量或预测变量与因变量或响应变量一起采用预定函数的假设发展而来的。参数模型的一些例子是线性多元回归、非线性回归、逻辑回归、多项式回归和泊松回归。非参数模型是一类统计和机器学习模型，它们不对基础数据的功能形式或分布做出明确的假设。预测变量在这类模型中不是预定义的，而是根据从数据中提取的见解精心设计的。与参数模型不同，参数模型为变量之间的关系（例如线性回归）假定特定的数学形式，非参数模型通过允许数据确定模型的结构来提供更大的灵活性。这些模型在处理复杂或未知关系时特别有用，因为它们可以适应各种数据模式，而无需预定义的参数规范。非参数模型包括核密度估计、k近邻、决策树、梯度提升机和随机森林等方法。半参数模型是一种统计机器学习方法，其中一部分预测变量不受预定数学形式的限制，而另一部分则遵循与响应变量的已知函数关系。这种灵活性和结构的混合可以通过方程来说明。

在 GP 模型的上下文中，一个经典的例子是贝叶斯或混合模型，其中具有用于环境效应的线性分量和用于基因型效应的非线性（高斯核或其他类型的核）分量。从本质上讲，半参数模型代表了参数和非参数建模技术的组合。目前可用的统计机器学习模型归类在上述三组中，如图4所示。

G by E 模型

在涉及多种环境的研究中，遗传关联和预测模型通常是根据跨环境的汇总表型数据或每个环境的单独模型开发的。另一种考虑多种环境的方法是使用环境指数，例如，它可以从温度和光周期等环境条件中得出。较早有人提出，生长期天数是捕捉水稻开花时间可塑性的环境指数的一个有前途的例子。 Li et al. （2021）提出，精心开发的环境指数可以取代通过常规测量获得的表型手段，可以对观察到的表型进行建模，还可以预测新环境中的表型表现，他们在小麦和燕麦田间试验中对三种不同的性状测试了他们的假设。同样，在高粱中，发现快速生长期的昼夜温差是一个有效的环境指数。综上所述，这些研究强调了在G×E相互作用下研究表型可塑性的重要性，并探索衍生的环境指数，以便在未经测试的环境中建模和预测表型。

反应范数模型

用于评估 G×E 的多环境试验在植物育种中发挥着重要作用，以选择跨环境的高性能和稳定品系。例如，在使用谱系和分子标记预测未观察到的表型的性能时，考虑G-BLUP框架内相关环境结构的多环境线性混合模型提高了准确性。 Burgueño等人（2012）提出并有效地应用了标记和系谱G-BLUP模型来评估G×E，而Heslot等人（2014）将作物建模数据纳入基因组G×E预测。 Jarquín等人（2014）开发了一个反应范数模型，这是G-BLUP模型的扩展，其中使用标记和环境协变量的高维随机方差-协方差结构引入了标记物和环境协变量的主要和交互作用。该模型已成功应用于使用系谱和基因组关系的育种值的GP预测。

表型（ yij ）的基线模型可以描述为：

其中 μ 是总体平均值， Ei （i = 1,...,I）是第 i 个环境的随机效应， Lj 是第 j 条线的随机效应（j = 1,...,J）， ELij 是第 i 条环境与第 j 条线之间的相互作用， eij 是随机误差项。

标记 x 环境互作模型

Lopez-Cruz等人（2015）提出的标记×环境（M×E）交互模型将标记效应分解为跨环境（稳定性）和特定环境偏差（交互）通用的组件。此模型跨环境借用信息，同时允许标记效果在不同环境中更改。该方法可以使用收缩和变量选择方法实现，因此可用于识别在负责 G×E 的环境和区域中具有稳定效果的基因组区域。然而，值得注意的是，M×E模型最适合于正相关环境的联合分析。 Crossa等人（2016a）成功地应用了M×E GP模型来预测未经测试的个体，并剖析了具有跨环境稳定效果和环境特定效应的基因组区域。

不同育种阶段的基因组预测实施

GP在育种作物中有多种用途。第一种是在预育种中，要么根据基因库中的GEBV寻找所需的种质或确定精英父母以进行进一步杂交。GP允许一种具有成本效益的方法来选择基因库中保存的有趣种质，从而增加了该种质在植物育种中的使用，特别是那些缺乏系谱信息和数据评估的种质。它还加速了外来种质进入优良育种库的过程，正如最近在小麦改良中所示。GP也可用于通过在早期阶段选择有前途的种质来增加遗传增益或将它们输入基因组递归选择（GRS）方法，以及加速品种开发管道。GRS促进了育种计划中父母的回收利用。然而，GP在任何一个育种阶段的成功主要取决于性状结构及其遗传性。

植物育种面临的一个挑战是预测不同地点在年份或种植季节的表现。GP可以允许估计目标环境中所需生产力或质量特征的稳健性。这种方法提高了多环境测试的效率，并在品种开发管道中进一步使用，因为它在早期阶段消除了平庸的育种品系，从而节省了时间和资源。在这方面，正如 Atanda 等人（2021b）所示，使用 GP 进行稀疏测试也可能是一种有价值的方法，可以在不增加成本的情况下增加试验环境的数量，但在评估的早期阶段保持选择强度。 Montesinos-López等人（2023b）表明，使用稀疏测试方法可以显着增加待评估的新行的数量，而无需相关增加所需资源。作者证明，在传统的块设计能力仅评估 225 条线的情况下，使用稀疏测试设计使用 85%、75% 和 50% 作为训练，将线数分别增加 19.56%、36.89% 和 111.11%，可以增加到 269、308 和 475 条。

GP进一步发现，在包括玉米在内的各种作物中，优势的预测得到了广泛的应用，包括高亲本和中亲本优势。值得注意的是，GP 的预测范围超出了产量及其成分等传统性状以涵盖更广泛的特征，例如生物和非生物胁迫耐受性、养分利用效率和含有多种微量营养素的作物的生物强化。

成就

与传统育种方法相比，在育种中应用GS的任务是以更低的成本和更短的时间提高每年的遗传收益。给定个体的真实育种值向量 a ′ = [ a 1 a 2 … a t ] 和经济权重 w ′ = [ w 1 w 2 … w t ] ，净遗传优点为 H = w'a' 。对多性状遗传增益的反应可以写成 H = ( kσHρH , I ) / L ，其中 k 是选择强度（标准化选择差异）， σ H {} 是 H , ρH , I 是 H 与任何表型或基因组索引 I 之间的相关性， L 是 I 完成一个选择周期所需的时间（在标准育种计划中，这需要几年时间）。选择响应是最重要的育种方程，增加分子或减少R分母的因素将增加目标性状的整体遗传增益。模拟和实证结果表明，GS可以通过缩短育种间隔周期（L）（快速选择周期）或通过进行稀疏田间评估来提高测试效率来增加遗传增益。为了实现更短的间隔周期（I），GS 最有利的情况是在全同胞家族内进行预测，因为双亲群体在标记等位基因和 QTL 等位基因之间具有非常高的 LD，没有系谱、家族或群体结构。因此，双亲群体的估计预测精度应被视为封闭快速周期仅标记选择中可达到的最大精度。几项研究证实了GS对早期快速循环的效率。提供了两个案例，以阐明 GS 促进的来自公共和私人育种计划的正在进行的实证研究。

案例一：非洲玉米的遗传增益

玉米的大多数GS结果是通过双亲群体的快速循环实现的。例如，F2:3 分离群体与测交种杂交，通常来自相反的杂种优势群。CIMMYT的全球玉米计划设计了多亲本杂交的GS快速循环。15个优良热带玉米品系以二等位位方式杂交，形成由1000株植株组成的循环0（C0 ），用1000000个基因分型测序（GBS）SNP标记进行基因分型，并在墨西哥的3个地点进行表型分析。选择最佳表型植物作为GS循环1（C1）的亲本。C1 亲本杂交，后代使用与C0 群体相同的GBS标记进行基因分型。在三种环境中，对C1 种群个体的谷物产量进行了基因组预测；根据预测值，选择形成C2 种群的亲本。和以前一样，亲本被杂交和基因分型形成C2 群体，并根据谷物产量的GP选择植物。GP 和 GS 又进行了两个周期。每年进行两个周期;在第二年结束时，来自周期 C0 、C1, C2, C3, 和 C4 的种子被收集、组装和播种在墨西哥的三个地点。每个地点每个基因组周期播种50个条目，以及两个广泛使用的商业热带玉米杂交种。遗传籽粒平均产量增加0.134吨每公顷，C0 产量为6.653吨每公顷。C1 的籽粒产量略低（6.488），C2, 、C3, 和C4 的产量分别为7.022、6.879和7.126 t。周期 C2 和 C4 与其他周期有显著差异（在 0.05 概率水平上差异最小）。来自墨西哥另外两个地点的结果正在处理中，这个多亲本玉米快速选择周期的完整结果尚未公布。

此外，Beyene等人（2015年）此前报道，在干旱条件下，撒哈拉以南非洲8个CIMMYT热带双亲玉米群体通过GS显著提高了玉米籽粒产量的遗传收益。结果显示，8个种群中GS每个周期的平均增益为0.086 t ha−1 ，而C3 衍生杂交种的平均籽粒产量明显高于C0 衍生杂交种。然而，在相似的环境条件下，在10个种群中使用标记辅助循环选择，每个周期的平均增益仅为0.045 t ha−1。

案例二：瑞典 Lantmannen Lantbruk 公司的两步法 GS 辅助育种技术

育种周期持续时间可以说是对每次增益影响最大的单一因素。单位时间的遗传增益至关重要，特别是对于育种计划以保持其竞争优势，并且对于尝试使新品种适应快速变化的环境也至关重要。在小麦、大麦或燕麦等自交系作物的常规育种计划中，通常在高级产量试验阶段选择新的亲本，这导致育种周期约为 5-8 年。

在Lantmännen，GS辅助的自交系作物育种计划分为两部分：第一部分是GS支持的循环选择，也称为“种群改良”；第二部分是自交系开发，也称为“产品开发”，其中选定的品系在高级田间试验中进行测试。该策略通过在早期阶段根据其基因组估计育种值选择新的亲本，显着缩短了育种周期时间。模拟研究支持这种由两部分组成的策略，通过显著增加每单位时间的遗传增益，优于常规选择和“标准”GS（即，GS仅在初步产量试验阶段应用）。同时，由两部分组成的GS辅助育种策略为育种计划带来了挑战性问题。首先，对大量（多达10万）早期个体进行高密度SNP标记的基因分型可能很昂贵，特别是对于小型育种项目。其次，闭环两部分策略，其中没有引入新的等位基因变异，导致遗传多样性和预测准确性随着时间的推移而丧失，对长期遗传增益产生负面影响。然而，对于LD通常延伸到较长基因组距离的自花授粉作物，即使没有标记插补，使用低密度标记集的快速循环GS也可以提供与高密度基因分型相似的增益。此外，通过在种群改良部分引入产品开发部分的自交系作为杂交亲本，可以减轻重复重组对预测准确性的负面影响以及伴随的LD结构差异。这种改良的两部分策略可以保持长期的遗传增益，同时随着时间的推移提高预测准确性。

由两部分组成的育种策略是专门为自交系作物开发的。将该策略扩展到杂交种群作物，例如许多饲料物种，其特征是显著的近亲繁殖抑制和快速的LD衰减，是一个热点研究领域。对于这些类型的作物，模拟研究的初步结果表明，就累积的遗传增益而言，两部分GS策略优于传统的表型选择和其他替代GS情景，特别是当预测模型包括优势效应时。

展望

在这篇综述中，我们深入研究了GP方法的基本组成部分，并追溯了其二十多年来的演变，说明了其对植物育种的变革性影响。我们阐明了这种方法如何在不同的育种阶段发挥关键作用，有助于选择优良的候选个体进行进一步杂交，同时最大限度地减少甚至消除对许多连续育种世代的广泛表型分析的需求。这篇综合综述强调了GP对加强作物遗传改良的变革性影响，特别是在彻底改变杂交育种方面。利用高通量基因组技术，可以对整个作物基因组进行全面分析，有助于鉴定与理想性状相关的有前途的育种种质，以便后续选择。通过利用广泛的基因组和表型数据集，GS方法可以预测特定性状的育种值，从而避免了费力和资源密集型的田间试验。这种简化的方法加快了育种过程，从而促进了优良种质的选择，例如提高产量、对病原体和害虫的抵抗力以及对动态环境变化的适应性。

GP的一个关键优势在于它能够解开性状的复杂遗传结构。与严重依赖受遗传和环境因素影响的表型观察的杂交育种方法相比，GP直接深入研究植物的基因组成，对其潜在性能提供更精确和可靠的评估。这不仅简化了有利等位基因的鉴定，而且使植物育种者能够考虑目标性状中的基因相互作用和环境影响，从而开发出更健壮和更有弹性的作物种质。从这个改良的种质资源库中，所需品种的选择和进一步释放变得更加有针对性和有效性。随着育种价值GP的发展，它与机器学习和人工智能的整合成为作物遗传改良的一个有前途的前沿。广泛的基因组数据和先进的计算模型的协同作用使人们能够辨别以前被忽视的微妙遗传模式和相互作用。面对气候变化和全球粮食和营养安全等挑战，这种整体方法为提高作物生产力、可持续性和复原力开辟了途径。归根结底，育种价值GP是一种尖端方法，使植物育种者能够做出明智的决定，从而有望在农业领域掀起新一轮的创新浪潮。

本文以小麦、玉米和马铃薯为研究对象，以不同繁殖系统为例，探讨了各种因素对GP准确性的影响。我们强调，GP作为一种预测工具，依赖于始终如一的高预测准确性或至少值得称赞的预测准确性的保证。然而，值得注意的是，由于影响其功效的无数因素，实现这种精度并不总是可行的。我们阐明了这些因素，并就如何优化它们以增强GP方法的实际应用提供了见解。此外，本文还阐述了GS如何利用组学和环境数据的整合来进一步提高其准确性，拓宽其范围和适用性。总之，我们的综述强调，GS可以显著提高作物育种计划中每单位时间的遗传收益，但为了提高其效率，最重要的是整合影响GP方法的所有因素，以充分利用这种突破性的预测数据驱动方法的潜力。

标签：GP,模型,关键因素,基因组,表型,育种,TRS,标记
From： https://www.cnblogs.com/miyuanbiotech/p/18250277