目录
徐扬老师综述得很到位,读完此文基本能对目前植物GS有个大概的了解。
全基因组选择(GS)是根据训练群体全基因组上的分子标记基因型和表型之间的关联构建统计模型, 进而对表型未知的育种群体做出合理的预测和选择(Meuwissen等2001)。
与分子标记辅助选择育种技术相比, GS育种技术无需鉴定与目标性状显著相关的位点, 即使单个位点的效应很小, 导致表型变异的全部遗传效应也都能够被高密度的遗传标记捕获, 并且能够在得到个体基因型时即对其育种值进行评估, 可大大缩短育种周期, 提高育种效率, 实现从经验育种到基因组精准育种的飞跃, 已成为动植物育种的一项革命性技术(Hickey等2017)。GS在动物育种, 尤其是奶牛育种中取得了巨大成功, 自2009年开始奶牛的选育已由基因组选择主导。
近年来随着高通量测序技术的发展和测序成本的下降, 在植物育种中利用GS技术已成为可能, 特别是植物的杂种育种中, 杂交种的基因型可以由亲本基因型进行推断, GS的优势更加突出。国内外已开展了多种植物的全基因组选择方法与应用研究。
科迪华和拜耳等跨国企业在育种流程中应用全基因组选择技术提高玉米选育效率, 并配套研发了高通量和无损伤的单粒种子基因型鉴定技术设备。
CIMMYT已在全球玉米育种计划中实施全基因组选择技术, José Crossa团队设计了一种多亲本群体的快速轮回基因组选择, 既能保持遗传多样性, 又能在短时间内获得高遗传增益(Zhang等2017b)。
Fu等(2022)提出了在育种实践中整合全基因组选择育种技术与双单倍体育种技术的方法。
Cui等(2020)提出了利用已知表型的杂交种作为训练群体跨群预测未知杂交种表型的水稻育种策略。
1 全基因组预测准确性的影响因素
在实际育种中, 全基因组选择的成功与否很大程度依赖于基因组预测的准确性。影响预测准确性的因素有很多, 如群体大小、标记密度、亲缘关系、目标性状遗传力以及标记和QTL间连锁不平衡(LD)程度等(Crossa等2017)。
一般而言, 随着训练群体和标记密度的增加, 基因组预测的准确性随之增加, 但达到一定程度后准确性难以提高。通过统计方法筛选训练群体和分子标记, 能够提高预测的准确性, 并降低成本(Guo等2019)。有研究表明训练群体占整个群体的2%~13%可以建立有效的GS模型。训练群体和测试群体的亲缘关系对基因组预测的准确性也有一定影响, 对于遗传上相似的群体能够获得较高的预测准确性, 反之亦然(Lorenz和Smith 2015)。
在玉米双亲杂交群体中, 与随机增加其他材料相比, 在训练群体中增加来自双亲的半同胞家系材料, 预测的准确性更高(Riedelsheimer等2013)。然而, 如果亲缘关系利用过度, 遗传变异将受到限制, 进而影响遗传增益。
此外, 标记和QTL之间的LD程度也会影响基因组预测的准确性, 随着世代的增加, 标记和QTL间的LD会逐渐降低, 在基因型测定后的前两个世代基因组预测的准确性下降较快, 其他世代下降速度则相对减慢, 随着世代的增加, 遗传力较高性状的基因组预测准确性降低较慢(Meuwissen等2001)。不同性状的基因组预测准确性大不相同, 这主要是由遗传力不同导致的, 遗传力和预测准确性通常呈正相关(Wang等2018b)。
除上述遗传因素外, 统计模型是影响基因组预测准确性的重要因素。进行基因组预测时面临的是“大P, 小n”问题, 即标记数目远大于样本量, 这种情况容易导致多重共线性和过度参数化。
为了解决这些问题, 已发展出了很多基因组预测模型,包括基因组最佳线性无偏估计(GBLUP)、贝叶斯方法、支持向量机、再生核希尔伯特空间(RKHS)、随机森林、深度学习等多种方法。其中GBLUP从整体上分析样本间的遗传关系, 将所有位点赋予相同的遗传方差, 因此在实际数据的分析中有较强的稳健性, 对微效多基因控制的数量性状分析更具优势(VanRaden 2008)。
BayesA、BayesB和Bayesian LASSO等选择压缩算法则对大部分位点的效应进行压缩, 因此擅长捕获基因组上的显著效应(González-Recio和Forni 2011; Pérez和Campos 2014)。各种贝叶斯方法的主要区别在于它们选择了不同的先验分布, 继而产生不同的压缩程度。模拟研究表明,选择压缩算法对QTL的数目较为敏感, 当性状由较少数目的QTL控制时, 预测准确性较高; 当影响数量性状的QTL数目很多时, 预测准确性会下降(Wang等2015)。
随机森林和RKHS方法更擅于捕获非加性效应, RKHS利用高斯核函数拟合模型, 模型可通过贝叶斯框架下的抽样方法求解, 也可根据混合线性模型求解(De los Campos等2010)。
支持向量机是一种典型的非参数方法, 核函数的选择是支持向量机的关键, 需要反映训练样本的分布特性(Maenhout等2007)。
深度学习则是包含多个隐藏层的多层感知器, 能够捕捉数据中蕴含的复杂非线性关系, 近年来在作物多环境、多组学预测研究中获得了一定成效(Montesinos-López等2021)。
2 提升全基因组预测准确性的主要策略
全基因组选择虽然为作物育种提供了新的前景, 但是对受环境影响较大的产量及其相关的数量性状来说, 基因组预测的准确性仍较低(徐扬等2021)。研究人员已尝试采取以下一些策略来提高对复杂性状的预测力。
(1)将功能标记纳入GS模型。在GS模型中加入已知基因或SNPs的先验信息, 有可能揭示复杂性状的遗传结构。在缺乏基因先验信息时, GWAS鉴定的显著位点也可以被视为固定效应协变量。GWAS和GS联合策略很大程度上依赖于特定性状的遗传结构, 该策略更适合少数大效应QTL控制的性状(Bian和Holland 2017)。
(2)构建基因型与环境互作GS模型。作物育种中经常进行多环境试验, 整合基因型和环境互作(G×E)可以利用环境之间的相关信息。多项研究表明, 与单一环境下的模型相比, 将G×E效应纳入模型能够有效提高预测能力(Crossa等2016; Cuevas等2017)。徐云碧团队提出了基因组环境组集成预测(iGEP)新策略, 并指出未来育种应当在基因型、表型和环境型信息支撑下, 准确预测特定基因型在特定环境下的表现(Xu等2022b)。
(3)开展多性状联合预测。多性状联合分析既可利用性状之间的遗传相关信息, 又可利用环境相关信息, 尤其利于一些低遗传力性状的选择。Cheng等(2018)提出了一种通用的多性状BayesCπ和BayesB方法, 同时开发了一个开源软件JWAS来实现多性状GS的分析。计算复杂度是多性状模型的主要限制, 通过整合HAT方法与BLUP模型, 建立双变量GS (2D GS)模型, 可大幅提高计算效率(Wang等2021b)。此外, 选择指数可利用性状间的遗传相关性构建一个综合指标进行多性状的联合选择, Wang等(2019b)提出了一种基于选择指数的GS方法, 该方法能够利用与目标性状相关的多个辅助性状及其蕴含的目标性状遗传信息, 构建选择指数以实现对目标性状的辅助预测。
(4)整合多组学信息。传统的基因组预测无法捕获基因的复杂互作及其下游调控, 随着多组学技术的快速发展, 利用转录组、代谢组等组学信息开展预测已逐渐得到关注。Meyer等(2007)首次在拟南芥中用代谢物预测生物量, 预测值与真实值的相关系数达到0.58。Riedelsheimer等(2012)利用285份玉米自交系的基因组和代谢组数据及570份测交种的表型数据, 预测了7个农艺性状的一般配合力,发现130个代谢物的预测效果不亚于使用5万个SNP标记。Westhues等(2017)开展了玉米杂交种表型的多组学预测研究, 发现基因组和转录组数据的联合预测效果最佳。徐辰武团队建立了利用双亲的多组学数据对杂种表型进行预测的多组学模型, 并首次提出了将亲本表型信息纳入水稻杂交种表型预测的新策略(Xu等2020d)。李慧慧团队提出利用植物多组学数据进行全基因组预测的深度学习方法(Wang等2023b)。
3 全基因组选择育种面临的挑战
尽管GS技术拥有巨大应用前景, 我国的GS育种发展仍面临着众多挑战, 主要包括以下几点:
(1)基因分型成本是GS技术推广和应用的重大障碍,许多研究机构和育种企业由于高昂的基因分型成本而无法大规模应用;
(2)前沿基因组选择育种模型原创性不足, 育种决策支持软件和平台开发与应用不足;
(3)高效表型精准鉴定技术尚不完善, 转录组、代谢组、环境组等多维数据尚未有效应用于基因组选择育种;
(4)种业资源较为分散, 缺乏足够的历史数据积累和规范化的管理, 从而使不同研究的数据和结果难以相互利用, 限制了基因组选择效率的提高。
因此, 未来可以考虑开发全基因选择育种专用芯片, 降低单个基因分型成本至百元内; 进一步强化人工智能、大数据等信息技术的交叉集成, 创新发展适用于多组学、多环境等多维数据的全基因组选择模型; 制定多维度数据采集、分析、存储与管理的标准与规范, 协同建立通用的育种大数据平台, 实现育种信息的充分共享与利用。全基因组选择育种技术的优化升级将为作物育种的精准化、高效化和规模化发展提供不竭动力。
标签:性状,GS,预测,基因组,准确性,育种,研究进展 From: https://www.cnblogs.com/miyuanbiotech/p/17491930.html本文摘自:蒋金金,苏汉东,洪登峰,杨光琴,闫磊,徐扬,张阳,张立新,韩方普,金双侠,夏兰琴,王幼平.植物生物技术研究进展[J/OL].植物生理学报. 网络首发2023-06-16。