首页 > 其他分享 >Engineering | 基于机器学习(GS)的作物抗病表型预测

Engineering | 基于机器学习(GS)的作物抗病表型预测

时间:2024-06-16 11:35:40浏览次数:31  
标签:抗性 抗病 GS 预测 模型 亲缘 表型 Engineering

近日,中国农科院植保所联合扬州大学、湖南农大等在中国工程院主刊 Engineering (一区top, IF=12.8)上发表了题为《Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance》的研究成果。该研究通过优化多种机器学习流程,开发了基于高通量基因型数据的作物抗病表型精准预测方法,实现了对水稻稻瘟病、纹枯病、黑条矮缩病,以及小麦麦瘟病、条绣病抗性的精准预测。

研究背景

传统抗病育种往往通过筛选已知抗病(R)基因、依据病圃抗性鉴定来选择抗病新品种。在作物对不同病害抗性研究中,已知的抗病基因数量还十分有限,加上近年研究发现,不少感病(S)基因突变、能塑造植物健康微生物组的M基因等对作物的最终抗性表型均起到了重要贡献。因此,高效选育抗病品种需要充分考虑和利用全基因组信息,但目前基于作物高通量基因型数据筛选作物抗病表型的高效精准方法报道较少。

前人有使用全基因组标记数据开发了基于GWAS的GS工具。例如,GMStool使用适当的基于统计和机器学习的模型来搜索最佳标记数量并选择最佳预测模型。以水稻和玉米为例,育种家成功地将GWAS结果的相关位点整合到GS模型中,大大提高了其重要农艺性状的预测精度。

本研究以水稻主要病害稻瘟病、纹枯病和黑条矮缩病,以及小麦麦瘟病(CIMMYT已发表数据)和条锈病为研究对象,利用水稻、小麦自然品种资源的高通量基因型数据、表型数据、通过全基因组关联分析挖掘抗病关联位点信息,通过多种机器学习方法对抗病关联位点基因型和表型进行训练以构建预测模型,基于该模型实现了基于个体基因型精准预测其抗病性水平,解决了传统抗病育种中通常仅依赖少数抗病基因而不能精准选择抗病新材料的问题。

技术路线

研究者首先收集了水稻和小麦的遗传和表型数据。然后,他们采用全基因组关联研究(Genome-wide association study, GWAS)来识别与病害抗性相关的标记性状关联(Marker trait associations, MTAs)。接着,研究者整合了GWAS结果、病害抗性表型和群体亲缘关系(kinship)信息,开发了三种新型机器学习(Machine learning, ML)模型,分别是随机森林分类加亲缘关系(RFC_K)、支持向量分类加亲缘关系(SVC_K)和轻量梯度提升机加亲缘关系(lightGBM_K)。

研究方法

数据收集与预处理: 研究涉及水稻多样性面板I(RDPI)和II(RDPII)以及CIMMYT的小麦种群,小麦和水稻核心群体(各包含超过300个代表性品种)进行多种病害抗性鉴定,对不同病害的抗性分为R(抗病)和S(感病)两种类型(去除部分抗感不确定品种),将复杂的群体数量抗性问题简化为二分类问题。

GWAS分析: 利用Tassel 5.0软件和混合线性模型( MLM)进行GWAS,筛选与病害抗性相关的SNPs。

ML模型开发: 开发了五种ML方法,包括RFC、SVC、lightGBM、DNNGP和DenseNet,并结合亲缘关系信息对模型进行改进。在机器学习训练过程中,对取样过程进行干预,将亲缘关系(K)加入到取样过程,使其每次取样在群体中的分布由随机改为均匀,避免训练过程中的取样不均。

模型训练与验证: 使用10折交叉验证评估模型性能,并在独立的人群上测试模型的泛化能力。

用于构建加kinship机器学习模型以预测抗病性的工作流程图

研究结果

模型性能:在适当P阈值范围内(P值代表全基因组关联分析获得的抗病关联SNP标记的关联值),随机森林分类(RFC)、支持向量机分类(SVC)、以及轻量级梯度提升机器学习(lightGBM)、深度神经网络(DNNGP)、稠密连接卷积网络(DenseNet)等机器学习算法均能实现较高准确性预测。其中,当RFC、SVC、以及lightGBM结合亲缘关系均匀取样训练情况下,即RFC_K、SVC_K、以及lightGBM_K方法(与未结合K取样方法相比较)均能显著提高预测准确性,本研究对水稻稻瘟病抗性的预测准确性最高达95%,跨群体预测结合人工接种鉴定确定的准确性也高达91%。另外,对小麦麦瘟病和条锈病的预测准确性分别达到90%和94%。对水稻纹枯病和水稻黑条矮缩病两种公认难以准确鉴定抗病性的病害,其预测准确性都达到85%。

泛化能力: 将训练好的加亲缘关系模型应用于独立的水稻群体(RDPII),与实际喷灌接种结果相比,预测准确度达到了91%。

模型解释性: 特别是RFC_K模型,在预测稻瘟病抗性方面不仅表现出高预测准确度,而且具有很高的可靠性,其平均AUC值达到了0.9975和0.9966。

RFC、RFC_K、SVC、SVC_K、lightGBM、lightGBM_K、DNNGP和DenseNet模型在p 1.0×10 −3 下抗病性预测准确性≤比较分析。

RFC、RFC_K、SVC、SVC_K、lightGBM、lightGBM_K、DNNGP和DenseNet模型在p 1.0×10 −2 下抗病性预测准确性≤比较分析。

 RFC_K 模型的稻瘟病预测性能和可解释性。

应用经过训练的 RFC_K、SVC_K 和 lightGBM_K 模型预测 RDPII 中的抗稻瘟病。

上述结果说明本研究开发的基于基因型精准筛选表型的机器学习方法对于作物多种病害抗性表型预测具有广适性,未来合理利用可显著提高作物抗病育种效率。

结论与展望

这项研究开发的ML方法不仅为预测植物病害抗性提供了有价值的策略,而且为使用机器学习简化基于基因组的作物育种铺平了道路。研究结果强调了将亲缘关系信息纳入分类器可以显著提高预测准确性,并展示了ML在GS中的潜力,有助于加速识别新的抗性资源或品种,降低表型鉴定的时间和成本。

中国农业科学院植物保护研究所研究生刘琪、扬州大学/生物育种钟山实验室左示敏教授为共同第一作者,中国农业科学院植物保护研究所康厚祥副研究员为通讯作者。湖南农业大学李魏教授、中国农业科学院作物科学研究所李慧慧研究员和熊叶辉研究员、中国农业大学杨俊教授、海南大学林润茂副教授、扬州大学冯志明副教授等也参与了数据分析、论文修改等工作。植保所彭莎莎、彭烨博士,作物所张昊博士也为该研究做出了重要贡献。该研究受到国家自然科学基金国际合作项目(32261143468)、国家重点研发计划(2021YFC2600400)、江苏省种业振兴计划(JBGS(2021)001)等项目的联合资助。

标签:抗性,抗病,GS,预测,模型,亲缘,表型,Engineering
From: https://www.cnblogs.com/miyuanbiotech/p/18250348

相关文章

  • 赵春江&杨万能 | 植物微观表型综述
    北京市农林科学院信息技术研究中心赵春江院士团队联合华中农业大学杨万能教授团队发布在PBJ上的综述文章:Plantmicrophenotype:frominnovativeimagingtocomputationalanalysis,深入探讨了植物微观表型(microphenotype)的研究进展,从创新成像技术到计算分析方法的应用,并展望了该......
  • 以奶牛为鉴,作物GS之路任重道远
    植物和动物在GS实施上有很大的差异,这一点很多学者做过系统的比较,只能说各有优劣。不管如何,动物的GS走在了前列,有很多地方值得植物借鉴。GS技术最早在奶牛育种得到广泛应用,因此我们来看看奶牛GS的发展及国内外现状。2001年,Meuwissen等首次提出GS的概念,其基本思想是利用覆盖个......
  • 高通量表型组平台及系统列表
    全球主要可用的高通量表型分析设施列表参考1参考2来源:赵春江,植物表型组学大数据及其研究进展参考3来源:High-ThroughputPhenotyping:APlatformtoAccelerateCropImprovement......
  • 基因组选择(GS)中准确性(R2)和预测能力(PA)的区别
    在基因组选择领域,"准确性"(Accuracy)和"预测能力"(PredictionAbility)是两个常用的评价指标,用于衡量基因组选择模型的性能。在学术研究中,两者都有用到,但没有明显区分,容易出现混用情况。以下是一篇文章中的定义:https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-018-......
  • CommandFlags枚举类
    API地址:https://help.autodesk.com/view/OARX/2018/ENU/?guid=OREFNET-Autodesk_AutoCAD_Runtime_CommandFlags相关博客介绍:https://www.cnblogs.com/liweis/p/4561226.htmlNoHistory:该命令不会添加到AutoCAD的重复上一个命令功能中。UsePickSet:检索拾取第一个集时,它将在A......
  • 【DevOps】Logstash详解:高效日志管理与分析工具
    在现代软件开发和运维过程中,日志管理与分析是至关重要的环节。日志可以帮助我们追踪系统行为、诊断问题、优化性能以及确保安全合规。Logstash,作为ELKStack(Elasticsearch、Logstash、Kibana)的核心组件之一,是一个功能强大、灵活易用的日志收集、处理和转发工具。本文将详细介绍......
  • 育种 API (BrAPI):一个植物表型/基因型数据库的标准接口
    TheBreedingAPI(BrAPI)项目旨在实现植物育种数据库之间的互操作性。BrAPI是一个标准化的RESTfulWeb服务API规范,用于交流植物育种数据,包括基因型和表型。BrAPI非常灵活,可以处理各种用例。社区也非常强大(https://brapi.org/),任何对植物育种数据管理感兴趣的人都可以免费......
  • 【第七篇】SpringSecurity核心组件和核心过滤器
    一、SpringSecurity中的核心组件在SpringSecurity中的jar分为4个,作用分别为jar作用spring-security-coreSpringSecurity的核心jar包,认证和授权的核心代码都在这里面spring-security-config如果使用SpringSecurityXML命名空间进行配置或者SpringSecurity的<br......
  • 夏季城市环境卫生挑战多:TSINGSEE青犀智慧环卫方案助力城市垃圾站智能管理
    一、背景分析夏季,随着气温的攀升,城市垃圾的数量和种类也随之增加,这给环卫工作带来了极大的挑战。环卫垃圾站点作为城市垃圾处理的重要一环,其管理效率直接关系到城市环境的整洁与卫生。近年来,随着视频监控技术的不断发展,其在环卫垃圾站点的应用也逐渐受到重视,为夏季环卫工作带来了......
  • 夏季城市环境卫生挑战多:TSINGSEE青犀智慧环卫方案助力城市垃圾站智能管理
    一、背景分析夏季,随着气温的攀升,城市垃圾的数量和种类也随之增加,这给环卫工作带来了极大的挑战。环卫垃圾站点作为城市垃圾处理的重要一环,其管理效率直接关系到城市环境的整洁与卫生。近年来,随着视频监控技术的不断发展,其在环卫垃圾站点的应用也逐渐受到重视,为夏季环卫工作带......