首页 > 其他分享 >DeepCCR:基于基因组学的大规模深度学习方法改良水稻育种

DeepCCR:基于基因组学的大规模深度学习方法改良水稻育种

时间:2024-06-18 23:00:03浏览次数:31  
标签:性状 预测 基因组学 DeepCCR 基因组 育种 水稻

近期,中国农科院作物所联合国内多家单位,构建了用于水稻基因组选择的大规模中国栽培稻群体数据集,提出了配套的全基因组预测深度学习模型DeepCCR,为育种者快速、高效地培育优良品种提供了有利工具。相关研究成果以简讯方式在线发表在《Plant Biotechnology Journal》上。

水稻是世界一半人口的主食作物。传统的基于表型和标记辅助的选育方法已被用于水稻改良,但它们耗时、昂贵且劳动密集。因此,研究和实施提高水稻产量的新型育种策略是重中之重。基因组选择(GS)为克服这些限制铺平了道路。GS育种模型有效应用的主要因素是构建覆盖目标选择材料的基因组多样性的大规模训练种群。然而,在应用水稻育种方案中对普通人群的实际实施仍处于起步阶段,同样尚未对各种性状的基因组可预测性进行全面评估。

为了构建具有普遍代表性的训练种群,构建了中国第一个栽培稻种群(CCRP),该群体由来自中国25个省份的4015个水稻种质组成,覆盖了五个主要水稻种植区,占中国水稻年总种植面积的99%以上(图1a)。这些种质包括1943个籼稻种质和2072个粳稻种质,其中96%以上是栽培品种和育种系(图1b)。聚类分析显示,CCRP与3 K群体有很大不同。作者认为,CCRP代表了中国几乎所有水稻种植区水稻品种的特征和遗传多样性(图1c,d)。为了准确、系统地研究CCRP的表型,选择了7个代表性地点连续两年在中国五个水稻产区(图1e)。产量性状一直是水稻育种的主要关注点,本研究中感兴趣的关键性状包括抽穗期(HD)、株高(PH)、穗长(PL)、分蘖数(TN)、每穗粒数(GP)、结实率(SST)、粒长(GL)、粒宽(GW)、千粒重(TGW)和产量(Y),连续两年收集表型数据,以评估重复性并纠正数据集中的系统偏差(图1f,g )。

为了满足水稻育种中基因组预测的需要,对4015份种质进行了重测序(图1h-k)并提出了DeepCCR,一种基于卷积神经网络结合双向长短期记忆的深度学习方法,用于预测不同种植地点的表型值(图1l,m)。为了评估 DeepCCR 的预测性能,将其与七个站点的四种最先进的方法(XGBoost、LightGBM、DNNGP 和 GBLUP)进行了比较。10倍交叉验证结果表明,在所有比较方法中,DeepCCR的性能最好。具体而言,在GZL站点,DeepCCR对水稻性状Y、HD、PH、PL、TN、GP、SSR、GL、GW和TGW的预测精度分别为79.7%、67.5%、75.3%、72.5%、66.9%、77.0%、73.2%、70.6%、64.3%和74.0%。DeepCCR的表现分别比第二名高出17.2%、11.7%、19.9%、12.8%、9.6%、12.6%、6.6%、12.8%、10.3%和12.6%。此外,与现有的先进方法相比,DeepCCR在均方误差(MSE)方面也表现出优异的性能。计算时间结果表明,DeepCCR的计算效率与其他模型相当。

接下来,作者探讨了模型在测试数据集上的预测性能,7个站点的10个性状之间的比较结果也证明了DeepCCR的优异性能(图1n)。在HF位点,DeepCCR对Y、HD、PH、PL、GP、SSR、GL和TGW性状具有较高的基因组可预测性(63.3%–78.2%),而对TN和GW的预测性能较低(图1o)。GZL、TH、NC、WH、KM和NN站点的DeepCCR预测结果也表现出很高的准确性。为了全面衡量DeepCCR的预测性能,计算了模型在七个站点的MSE,并获得了令人满意的结果。这表明该方法在对中国栽培水稻进行基因组预测方面做得更好。

此外,作者使用吉林省的主要品种吉粳816对DeepCCR的预测能力进行了外部验证。DeepCCR在预测吉粳816数据集中的10个性状方面表现出了出色的性能)。具体而言,预测的Y为1.71 kg(换算为564.3 kg/亩),预测的HD为102 d,与实际大田种植的预测值一致( https://www.ricedata.cn/ )。考虑到HD和Y是评估种质生态适应性的关键指标,继续对剩余6个种植点的吉粳816性能进行验证和预测。吉庚816的HD低于当地品种的25%分位数;然而,TH和KM的预测Y分别达到了当地品种的中位数和25%分位数(图1p)。这些结果表明,吉粳816对TH和KM表现出较好的适应性,可作为优良育种系辅助品种改良。结果还表明,DeepCCR模型在预测水稻新品种性状方面表现出色。此外,该模型可以评估给定品种水稻最合适的种植地点。

 DeepCCR 框架。(a) CCRP的4015个水稻种质的地理分布。(b) CCRP的组成。(c) 中国五大水稻产区4015种质分布情况。(d) CCRP的邻接树。(e) 选定种植CCRP的地点。(f) 使用“水稻描述符和数据标准”来衡量与产量有关的性状。(g) 连续两年CCRP在7个地点的产量分布。(h) 测序和SNP检出的工作流程。(i) SNP和插入缺失的MAF值分布。(j) 变体过滤工作流程。(k) 整个基因组变异密度的可视化。(l) DeepCCR使用的算法框架。(m) 将CCRP数据集随机分为训练数据集和测试数据集。选择吉庚816进行独立预测。(n) 不同算法对GZL站点测试数据集中Y性状信息的预测性能。(o) DeepCCR在预测7个种植地点的测试数据集中的Y性状密度方面的表现。(p) DeepCCR在外部验证数据集Jigeng 816上的性能。

为了方便育种者使用该模型,我们构建了一个包含DeepCCR模型的Web服务器(www.ai-breeder.com)。用户只需提交标准的FASTQ或VCF文件,系统自动提供不同站点10个性状的预测结果。

在这项研究中,我们构建了第一个用于水稻基因组选择的大规模中国水稻群体数据集。我们还进行了一项全面的多年、多地点表型调查,并开发了一个配套的深度神经网络模型来预测表型和适合种植的生态区域,以及一个易于使用的在线网络服务器。本研究中提供的数据集和结果为育种者提供了一个框架,以快速有效地培育优良的水稻品种,以解决全球粮食安全问题。此外,随着数据集中材料数量的增加和多组学数据的更全面收集,DeepCCR 的预测性能将进一步提高,以加强作物改良计划。

作科所副研究员马小定、博士生王浩和北京博凯森生物科技有限公司吴盛阳为本文共同第一作者,作科所韩龙植研究员、闫燊助理研究员和安徽省农科院水稻研究所周坤能研究员为论文的共同通讯作者。该研究得到了国家重点研发计划、科技创新2030-重大项目和中国农业科学院科技创新工程项目的资助。

原文链接:https://onlinelibrary.wiley.com/doi/10.1111/pbi.14384

标签:性状,预测,基因组学,DeepCCR,基因组,育种,水稻
From: https://www.cnblogs.com/miyuanbiotech/p/18255356

相关文章

  • 2024.06.18【读书笔记】丨生物信息学与功能基因组学(第十五章 真菌基因组 第一部分)【AI
    读书笔记:《生物信息学与功能基因组学》第十五章-第一部分摘要第十五章聚焦于真核生物中的真菌基因组,探讨了真菌的多样性、与人类和其他生物的密切关系以及它们在生态系统中的重要性。本章首先介绍了真菌的基本概念和分类,随后深入分析了真菌基因组的结构、功能和进化,特别......
  • 聊聊育种大模型
    从去年年末开始到现在,大语言模型(LargeLanguageModels,LLM)热度依旧不减。有实力烧钱的机构在训练自己的LLM,没实力想凑热闹的更聚焦在垂直领域的应用上,绝大多数企业属于后者。每个行业多多少都有人在做基础模型的微调和打造私有知识库,以期不被时代抛弃。医疗、法律、金融、教育......
  • 遗传育种群体类型及其特点
    简介不同划分方法:自交和回交群体人工和自然群体双亲和多亲群体遗传和育种群体临时性和永久性群体初级和次级群体遗传分析中常用作图群体来构建遗传图谱或进行基因定位。作图群体是进行QTL定位的基本材料,其基本步骤如下:首先选择在目标性状上差异较大的亲本,选择一种杂交......
  • 接下来的一系列育种相关会议。。。
    4月在南京参加了第七届全国玉米生物学学术研讨会,诚如大会名字所言的“学术研讨”,邀请了国内外相关领域具有重要学术影响力的专家学者和优秀青年科学家进行学术报告及成果展示,与育种产业相关的内容很少。但能够看到的是,接地气的研究越来越多(最多的还是功能基因组学研究),学术与产业......
  • 密植高产是我国玉米育种的最核心目标
    品种是玉米高产的基础,进一步提高品种耐密性和种植密度是提高玉米单产的关键。在近80年中,美国玉米单产提升了近8倍,这个过程中种植密度从平均每亩2000多株增加到近6000株,种植密度贡献显著。我国高产玉米新品种更新迭代过程中,玉米株型也逐渐从平展型演变成紧凑型,品种的耐密性明......
  • 水稻遗传育种相关生物信息数据库和工具
    本综述系统梳理了近20年来开发的水稻生物信息数据库和在线分析工具,并基于内置数据集和功能对它们进行了分类和总结。水稻基因组数据库水稻转录和转录后调控数据库水稻基因网络数据库水稻种质资源信息数据库水稻常用的基因编辑系统水稻基因编辑生物信息工具与数据库......
  • Front Plant Sci | 植物育种中的AI辅助配组选择
    基因组选择(GS)被认为是加速优良基因型评估和选择的关键方法,可以在传统育种中实施。GS通过基因组预测(GP)模型预测目标性状的基因型值,并在育种方案中使用这些预测值进行选择。GS实现了基于预测基因型值的个体选择和杂交选择,减少了目标性状的田间评估次数,从而实现高效快速的育种。然而,G......
  • 徐辰武2024综述:作物全基因组选择育种技术研究进展
    近日,《生物技术通报》特邀扬州大学农学院徐辰武教授团队发表综述《作物全基因组选择育种技术研究进展》。本文首先分析了影响作物GS功效的主要因素,继而从非加性效应模型、群体构建方案、多性状与多环境预测、多组学预测和育种芯片技术现状等方面阐述了GS技术在作物育种中的研究进......
  • JGG | 严建兵团队综述生物大数据驱动作物智能设计育种
    近期,华中农大严建兵团队在JournalofGeneticsandGenomics上发表综述:Engineeringthefuturecerealcropswithbigbiologicaldata:towardsanintelligence-drivenbreedingbydesign。该文回顾了近年来在作物育种领域取得的进展,涵盖了作物农艺性状的机制、新兴技术的开发......
  • 植物育种中的基因组选择:影响二十年进展的关键因素
    近期,瑞典RodomiroOrtiz团队在MolecularPlant发表综述:Genomicselectioninplantbreeding:Keyfactorsshapingtwodecadesofprogress,总结了近20年植物基因组选择育种的影响因素和重要进展。小编读后认为,相比于其他泛泛而谈的综述而言,该文作者有自己一些独特的见解,而且引用......