首页 > 其他分享 >徐辰武2024综述:作物全基因组选择育种技术研究进展

徐辰武2024综述:作物全基因组选择育种技术研究进展

时间:2024-06-16 11:00:47浏览次数:15  
标签:GS 徐辰武 芯片 预测 基因组 2024 育种 研究进展 作物

近日,《生物技术通报》特邀扬州大学农学院徐辰武教授团队发表综述《作物全基因组选择育种技术研究进展》。本文首先分析了影响作物GS功效的主要因素,继而从非加性效应模型、群体构建方案、多性状与多环境预测、多组学预测和育种芯片技术现状等方面阐述了GS技术在作物育种中的研究进展,并指出研究所面临的问题和发展前景,为推动作物GS育种技术的进一步深入研究提供策略和思路。

以下摘自文章部分要点,更多详细信息请阅读原文。

全基因组选择方法概述

  • LASSO在线性回归的基础上添加了L1 正则项,通过构造一个惩罚函数得到较为精炼的模型,将大部分标记的效应压缩为0,是一种选择收缩算法。
  • 岭回归(RR)在线性回归的基础上添加了L2 正则项。
  • 弹性网(EN)则同时使用L1 和L2 正则化,是LASSO 和岭回归的结合。
  • 贝叶斯类方法假定标记的效应服从一定的先验分布,其中BRR 假定所有标记的效应有着相同的方差,这一点与GBLUP 无差别利用大量标记信息计算G 矩阵的效果相似。
  • BayesB几乎在最大程度上对标记效应进行选择收缩和差别对待,因此成为选择收缩算法的代表,特别适用于由少数主效基因决定的性状。
  • 机器学习模型能够更好地对基因型和表型之间的非线性关系进行学习,不过其缺点是可解释性往往较差,难以对生物样本的遗传效应组成进行分解,以及对各个位点的效应进行评估(提高优异等位基因聚合的效率)。

全基因组选择功效的影响因素

  • 训练集与测试集之间紧密遗传关系对模型预测的积极贡献。然而大量增加与测试群体遗传相似的训练样本,可能降低优选品种的遗传多样性,从而不利于长期的遗传增益。因此,在实际育种中需要寻求训练集和测试集之间关系的平衡。
  • 理论上,标记密度越大越好,但是与训练种群的数量相比,其对预测精度的影响较小。在实际的作物GS 应用中,根据我们的经验,使用全基因组上均匀分布的数万个SNP 标记具有较高的性价比。
  • 随着世代的增加,标记和QTL 的LD 会逐渐降低。遗传力较高性状的基因组预测准确性降低较慢。
  • 前人的研究表明,遗传力为0.2的性状需要的训练样本数量超过1000。
  • GBLUP 和RR-BLUP 的稳健性较强,其预测精度不受QTL 数目的影响,在预测作物产量等由大量微效基因决定的性状时,更具优势。
  • 超参数的选择对一些机器学习方法的性能影响较大,如深度学习中网络层数、神经元数目、滤波器大小、迭代次数和激活函数的不同调优方案,可能产生完全不同的预测效果。
  • “大p,小n”问题,即标记数目远大于样本量,容易导致多重共线性和过度拟合,进而影响模型表现的稳定性,以至于没有哪种方法在大多数情况下都能保持领先的预测精度。
  • 除了常规的标准化或归一化等预处理,还应开发与基因组信息特征相适应的降维方案,采用单倍型划分或主成分分析等方法,在保留大部分标记信息的基础上大幅减少自变量数目,降低过拟合的风险,以提高GS 中众多选择收缩方法的健壮性。

全基因组选择方法的拓展

  • 很多学者提出在GS 中有必要考虑非加性效应。但如何对基因型值进行科学编码以正确反映显性和上位性等遗传效应,是非加性模型构建所面临的重要挑战。(这两篇文章可以参考:https://doi.org/10.1590/1678-992X-2021-0074;DOI: 10.1038/s41467-023-39534-x)
  • 有效的基因组预测模型只需要整个训练集大小的2%-13%,揭示了对海量遗传组合高效推断的可能。
  • 在杂种预测中,单纯对亲本育种值的优选会导致遗传多样性的丧失,为了保持基因组多样性,在亲本选择过程中应避免选择亲缘关系密切的材料。有研究提出了一种平衡育种值和遗传多样性的折中策略。
  • 在科学开展遗传交配设计的基础上,GS 模型还可用于GCA 等育种指标的精确预测。
  • 将GCA 当作因变量,首先需要获得所有训练集亲本的GCA 值。NCII设计受限于成本和田间试验条件,很多情况下作物的组配设计是稀疏的。SPDC 设计在稀疏条件下利用全基因组标记对玉米亲本能够实现GCA 的精确估计。
  • 在进行多环境的联合GS 过程中,首先明确大环境的划分,继而将同一大环境内尽可能多的表型观测信息纳入模型,是一种行之有效的策略。
  • 转录组和代谢组相较基因组更接近生物的表型,其数据的充分使用有利于预测精度的提高,不过将其用于育种实践的困难是,数据获取成本相对高昂,且杂交种的转录组和代谢组都难以像基因组一样直接从亲本的组学信息中精确推断,其预测能力可能显示出对性状的特异性。相对于组学数据,单交种双亲的表型信息更容易在早期以较低的成本获取。
  • 将作物亲本表型信息纳入杂交种表型预测的策略,可提高性状的预测准确性(可参考: DOI: 10.1111/pbi.13458)。

全基因组选择育种芯片研发现状

目前超过25 种作物中已经开发了百余款芯片,包括:

  • 水稻的代表性芯片有RICE6K、RiceSNP50、GenoBaits® Rice 40K等;
  • 玉米代表性芯片有MaizeSNP600K、MaizeSNP50 Beadchip、Maize6H-60K、GenoBaits® Maize 45K 等;
  • 小麦代表性芯片有Wheat 9K iSelect、Wheat 90K iSelect、Wheat 660K Axiom、Wheat HD Genotyping Array、GenoBaits® WheatSNP16K 等;
  • 马铃薯代表性芯片有SolSTW array 等;
  • 大豆代表性芯片有SoySNP50K 和SoyaSNP 180K Axiom 等。

缺点:

  • 现有芯片信息覆盖度不高,缺少SV;
  • 现有芯片通用性不足,不同基因型数据难以共享;
  • 对于大规模育种应用,芯片检测成本仍然较高;
  • 缺乏育种芯片专用的分析软件和平台;
  • 我国底盘技术创新不足,核心技术受制于人。

全基因组选择育种展望

挑战:

  • 一般的GS 方法只考虑加性效应,部分学者将显性及上位性等效应纳入模型,但是预测效果还不够理想;
  • 前人的GS 研究大多只针对特定环境下特定作物群体的单个性状,忽视了关联性状共同的生物学基础以及多性状的协调发展,且缺乏详细的环境组学数据,难以实现对基因环境互作模式的识别与利用;
  • 多数GS 研究只用到基因组信息,多组学信息和研究成果没有得到充分利用;
  • 缺少GS 育种专用芯片以及配套软件和平台,数据共享程度低,限制了GS 效率的提高;
  • 作物领域中已有的GS 研究很多停留在方法探索阶段,未能广泛付诸于实际的育种工作。

展望:

  • 结合已有的生物学和遗传学研究成果,遴选作物全基因组上目标性状的候选基因,开发与基因组信息特征相适应的降维方案,以大幅降低模型中的变量数目,同时应用人工智能领域中的先进算法,提高对各类非加性遗传效应的准确预测;
  • 广泛收集表型、基因型和环境数据,并对模型进行优化,注重作物多个性状之间的协调发展,识别并利用基因环境互作模式,提高选择的增益和可靠性;
  • 结合人工神经网络,机器学习等最新的数学方法,积极开展作物多组学预测研究,构建多组学信息与目标性状之间的数量遗传模型,提高多组学联合预测的效果;
  • 谋划构建GS 专用芯片和统一的GS 平台,实现群体之间的信息共享与利用,提高数据的利用率;
  • GS 研究必须结合农业发展的实际情况与切实需求,让理论和方法研究更好地服务于实际育种工作,为培育适应机械化生产、优质高产多抗广适作物新品种提供高效途径。

如需要原文,可联系小编。

标签:GS,徐辰武,芯片,预测,基因组,2024,育种,研究进展,作物
From: https://www.cnblogs.com/miyuanbiotech/p/18250296

相关文章

  • 玉米野生种基因组研究进展及应用
    近日,《生物技术通报》特邀浙江大学农业与生物技术学院陈露研究员(原严建兵老师学生)团队发表综述《玉米野生种基因组研究进展及应用》。本文主要综述了大刍草的基因组进化、数量遗传学、群体遗传学等方面的研究进展,同时对大刍草在未来玉米遗传育种中的应用进行了展望。玉米的野生......
  • JIPB特邀综述 | 油菜功能基因组学研究进展
    近期,华中农大赵虎&郭亮团队在JIPB上发表发表综述:FunctionalgenomicsofBrassicanapus:Progresses,challengesandperspectives,总结了近年来油菜功能基因组学的研究进展,包括种质资源、组学数据库和克隆功能基因的可用性以及主要挑战和前景。甘蓝型油菜(Brassicanapus;AA......
  • 2024华为OD机试真题-堆内存申请-(C++/Python)-C卷D卷-100分
    2024华为OD机试题库-(C卷+D卷)-(JAVA、Python、C++)题目描述有一个总空间为100字节的堆,现要从中新申请一块内存,内存分配原则为:优先紧接着前一块已使用内存,分配空间足够且最接近申请大小的空闲内存。输入描述第1行是1个整数,表示期望申请的内存字节数第2到第N行是用空格......
  • 2024华为OD机试真题-围棋的气-(C++/Python)-C卷D卷-100分
     2024华为OD机试题库-(C卷+D卷)-(JAVA、Python、C++) 题目描述围棋棋盘由纵横各19条线垂直相交组成,棋盘上一共19x19=361个交点,对弈双方一方执白棋,一方执黑棋,落子时只能将棋子置于交点上。“气”是围棋中很重要的一个概念,某个棋子有几口气,是指其上下左右方向四个相......
  • aBIOTECH | 程时锋-豌豆功能基因组与分子育种研究进展与展望
    近日,中国农科院深圳基因组所程时锋团队在aBIOTECH发表上综述:InnovationsinFunctionalGenomicsandMolecularBreedingofPea:ExploringAdvancesandOpportunities,总结了豌豆功能基因组学和分子育种的研究进展和挑战。简介豌豆(PisumsativumL.,2n=14)是一种寒冷季节的......
  • 对于2024年公众号内容的一点规划
    2015年,我开通了微信公众号。自诩文青,发过几篇疼痛文字。现在大多已删,由于太尬,能抠出三室两厅那种。现在能看到的最早一篇是张泉灵的央视离职日记:生命的后半段,您看了就知道有多尬。后面几年,粉丝寥寥,阅读可数,也很少更新,没想着做大做强,甚至有意回避推广,怕别人看到。工作做生信搞数......
  • 2024年,我为何仍坚定选择计算机专业
    在飞速发展的2024年,面对众多的专业选择,我仍旧坚定地选择了计算机专业。这一决定并非偶然,而是基于我对这个领域的深刻理解和对其未来发展的坚定信心。1.技术驱动的社会变革我们所处的时代是一个技术日新月异的时代。无论是人工智能、大数据、云计算,还是物联网、区块链、......
  • 全站首发!2024最新大模型LLM学习路线图来了!
    ChatGPT的出现在全球掀起了AI大模型的浪潮,2023年可以被称为AI元年,AI大模型以一种野蛮的方式,闯入你我的生活之中。从问答对话到辅助编程,从图画解析到自主创作,AI所展现出来的能力,超出了多数人的预料,让不少人惊呼:“未来是属于AI的”。AI大模型——成为互联网从业者必备技能。......
  • 机器学习的研究进展随着科技的飞速发展,机器学习领域的研究也在不断进步,为人类生活带来
    机器学习的研究进展随着科技的飞速发展,机器学习领域的研究也在不断进步,为人类生活带来了诸多便利。近年来,机器学习技术在各个领域取得了显著的研究成果,从基础算法的创新到应用场景的拓展,都展现出强大的生命力和广泛的应用前景。在算法层面,研究者们不断探索新的机器学习方法,以......
  • 最全Java面试题及答案整理(2024最新版)
    很多Java工程师的技术不错,但是一面试就头疼,10次面试9次都是被刷,过的那次还是去了家不知名的小公司。问题就在于:面试有技巧,而你不会把自己的能力表达给面试官。应届生:你该如何准备简历,面试项目和面试说辞?Spring底层逻辑是什么?1-3年经验的程序员:面试中你该讲哪些值钱......