首页 > 其他分享 >基于机器学习的基因组预测

基于机器学习的基因组预测

时间:2023-08-18 20:24:16浏览次数:43  
标签:基于 机器 预测 模型 基因组 表型 数据 DL

目录

机器学习与GP

与动物育种相比,植物的基因组选择必须通过环境相互作用来考虑更大的基因型,并且需要添加适当的多环境试验数据。

机器学习 (ML) 和深度学习 (DL) 算法比线性预测模型更复杂,可以发现数据集中的非线性关系。与以前的方法相比,随机森林、支持向量机和人工神经网络由于其非线性,可能更容易捕获基因型、表型和环境之间的复杂关系。

从理论上讲,非线性方法能够更好地捕获标记之间的小相互作用,考虑环境相互作用并为高维数据生成更准确的预测。ML 和 DL 架构还可以包括不适合简单表格格式的多模态数据类型。

DL是从大型数据集中提取代表性特征的有效方法,能够考虑特征交互效应。然而,传统的 ML 方法和混合线性模型仍然非常适合处理有限的数据集,在许多情况下生成比 DL 模型更准确的预测。我们建议表型预测应扩展到GBLUP方法之外,以确保为每个基因组选择问题评估足够的模型。

image.png

基因型数据编码

对ML和DL的全基因组SNP数据进行编码的最常见形式是使用一种热编码,其中每个SNP位置由四列表示,每列代表DNA的四个碱基:A,T,C和G。每个位置的碱基的存在用1表示,缺失用0表示(Zou et al., 2019),由此编码为二进制表示形式,适用于 ML 和 DL的数字输入。SNP one 热编码是表型预测中 DNA 序列数据最常见的数据表示之一。

在性状关联研究中,特征数量明显多于样本数量是很常见的。在植物育种中,可通过特征选择、MAF和GWAS降维去除冗余信息。在人类研究中,MAF、启动子区、选择少数SNP和整合转录数据等方法用于减少SNP数量。其他策略还包括关注与功能相关的罕见变异,选择GWAS感兴趣的区域等。

植物中的基因型编码主要限于SNP编码,但还有其他形式的基因组变异,以及可用于表型预测的遗传变异数据编码的不同方法。

高通量表型

基因型到表型模型通常应用于稀疏收集的表型性状。高通量表型产生的表型数据密度增加,使研究人员能够动态测量植物生长的变化,评估基因组变异在不同发育阶段的影响。

转录组、蛋白质组或代谢组数据等中间表型也可以在多维数据集中关联,提供植物对环境条件响应的更详细描述,并可能提高表型预测的准确性。

添加多维数据集可能会成倍增加分析的复杂性,需要能够揭示数据类型与目标特征之间关系的算法。DL 模型在处理复杂的多模态数据集方面取得了成功,最近,使用DL使用高通量植物表型图像作为输入进行性状预测的几项研究发表。

多模态深度学习模型由多个模型组成,每个模型使用单一输入类型(例如,降雨、土壤测量、遗传数据、高光谱图像)或基于级联多模态数据训练的单个模型。不同的模式有助于丰富模型学习的可用功能,有助于改进最终预测。

image.png

部署DL模型的挑战主要来自植物表型可塑性,因为植物根据环境条件呈现广泛的表型。ML/DL模型的有效性还取决于根据目标任务适当地调整模型超参数,Optuna和HyperOpt等软件包可帮助调整。

高通量表型的挑战与处理:

  • 训练和模型部署期间数据收集和处理的一致协议。
  • 避免维度的诅咒,可用特征选择算法来帮助选择最具代表性的数据子集来训练。
  • 数据不平衡,可通过采样方法(过采样或欠采样)来解决。
  • 环境的变化,可通过收集模拟模型在预测表型时将看到的条件的数据来解决。

image.png

数据驱动的育种需要结构化数据集

训练健壮的 ML 模型的一个常见挑战是缺乏具有足够数据点和样本可变性的适当数据集。植物表型数据集的稀缺一是因为由于缺少信息以及难以找到存储它的公共存储库,二是数据保存在访问受限的数据孤岛中。一些国际联盟,如AgBioData和育种API(Selby et al,2019)正在努力共享和转换育种数据集,使其变得更容易找到,可访问,可互操作和可重用。然而,需要一个集中的平台来托管和管理表型数据集,以使数据更广泛地可用,类似于用于共享基因组数据的方法。

限制研究人员使用以前发表的数据集的另一个方面是缺乏标准化的元数据描述,包括实验设计、数据收集协议、现场管理、环境变量和其他信息。观察到的植物表型是植物所经历的条件的结果,因此重用以前发表的数据需要为用户描述影响目标性状的所有因素。 植物表型项目的最小信息(MIAPPE)为此提供指导。

在支持数据驱动育种协作的同时保护敏感信息的另一种方法是建立联邦学习队列。在这些中,每个参与机构都使用自己的数据集训练模型,并将更新的模型对等共享,或共享到将聚合模型权重的集中式服务器。更新后的模型参数改进了基线模型,然后在机构之间共享。联邦学习在数字健康中的应用越来越多,其中数据敏感性是一个主要问题。

image.png

联邦学习的点对点或集中式方案。在点对点中,每个机构都使用自己的数据集在本地训练模型,并与其合作伙伴共享模型训练权重。在此工作流中,模型由每个机构根据需要进行聚合。在集中式方案中,经过训练的模型与一个集中式队列共享,该队列将汇总收到的模型并与利益相关者共享单个版本。

可解释机器学习

建立能够预测生物输出的模型只能被视为目标之一。模型还应该尝试解决生物学问题,这需要了解模型如何进行预测。

预测模型中的可解释性是基因组预测的一个相对较新的领域,因为GS主要目标通常是实现最佳预测性能,而模型可解释性则不那么重要。以GBLUP为例,GBLUP预测的可解释性较低,因为”大p小n”问题,基因组预测数据集很难估计单个SNP效应。

对于作物中的基因型到表型预测,可解释性提供了识别重要基因组标记的能力,然后应用这些基因组标记来减少进一步预测所需的模型输入的大小。使用可解释模型提供了选择高排名标记作为特征选择策略的机会,并且有证据表明选择重要标记的子集可以改善对给定表型的预测。这是由于大量的SNP充当预测的背景噪音,导致性能回报递减,除非大部分包含的SNP与该特征相关。

可使用诸如CGBayesNets、Harvestman之类的工具来选择具有代表性且非冗余的特征子集,然后使用特征的最佳子集和编码来训练新模型。还可以通过集成方法来改进预测,可解释的 ML 方法可用于特征选择,然后将高级特征输入到另一个模型(如DL)中。

模型解释很复杂,因为可解释性的定义是可变的,且对这些解释的评估是非标准化的。ML模型的构建应该考虑到可解释性,而不是在训练后从“黑匣子”模型中提取意义。而特征与结果的关联往往不是因果关系。

本文根据西澳大学 David Edwards(生信尤其是 pan-genome 方向的大佬)于 2022 年写的综述,翻译提炼要点。
具体参考:Danilevicz MF, Gill M, Anderson R, et al. Plant Genotype to Phenotype Prediction Using Machine Learning. Front Genet. 2022;13:822173. Published 2022 May 18. doi:10.3389/fgene.2022.822173

标签:基于,机器,预测,模型,基因组,表型,数据,DL
From: https://www.cnblogs.com/miyuanbiotech/p/17641514.html

相关文章

  • 基于Python的招聘网站爬虫及可视化的实现-计算机毕业设计源码+LW文档
    开发语言:Python框架:flaskPython版本:python3.7.7数据库:mysql5.7(一定要5.7版本)数据库工具:Navicat11开发软件:PyCharm浏览器:谷歌浏览器DROPTABLEIFEXISTSa6woc_zhaopinxinxi;/*!40101SET@saved_cs_client=@@character_set_client/;/!40101SETcharacter_set_cli......
  • 基于Redis实现关注、取关、共同关注及消息推送(含源码)
    微信公众号访问地址:基于Redis实现关注、取关、共同关注及消息推送(含源码)一、简介       实现用户之间的关注和取消关注、查询是否关注、共同关注及关注后消息采用feed方式推送及滚动分页查看效果等相关功能。利用redis里面的Set集合实现关注,取关,共同关注,消息推送等,结合Jav......
  • AI聊天机器人原来有这么多作用
    AI聊天机器人是一种能够模拟人类对话并利用人工智能技术进行自主学习和适应的计算机程序。它们能够根据用户的输入内容来分析用户的需求,并提供相应的回答和建议。今天looklook就来和大家详细讲一下AI聊天机器人到底有什么作用吧。AI聊天机器人的作用1、客户服务:AI聊天机器人可以作......
  • 吴恩达机器学习2011版本学习笔记
    这是看完视频后,按自己的理解做了笔记。监督学习学的比较认真,33之后的无监督学习心态已经浮躁了,以后要再学一遍2022最新版视频课。1,有正确答案是有监督学习,反之是无监督学习2,模型就是把训练数据拟合为一个公式(严格来说是个函数,关系)。入门的拟合的方法是最小二乘法,先假设一个公式,......
  • 通过 OpenKruise 实现基于 Higress 的全链路灰度
    作者:十眠、立衡OpenKruise是一个基于Kubernetes的扩展套件,主要聚焦于云原生应用的自动化,比如部署、发布、运维以及可用性防护。本文介绍通过OpenKruise构建自动化运维的方式实现全链路灰度功能。灰度发布提高应用交付的稳定性和效率在发布应用的过程中,我们通常希望用少量......
  • 基于平台的城市排水泵站管理系统设计--安科瑞张田田
    近年来我国城市内涝灾害频发,造成人员伤亡以及经济损失严重,严重威胁着城市的安全。数据显示,2015-2018年我国平均每年受淹或发生内涝城市的数量约占我国城市数量的1/5;人民生命财产也损失严重,据不完全统计,2021年截至上半年,我国因洪涝灾害所死亡失踪人数达26人,造成经济损失达135亿元。......
  • RocketMQ 5.0 架构解析:如何基于云原生架构支撑多元化场景
    作者:隆基本文将从技术角度了解RocketMQ的云原生架构,了解RocketMQ如何基于一套统一的架构支撑多元化的场景。文章主要包含三部分内容。首先介绍RocketMQ5.0的核心概念和架构概览;然后从集群角度出发,从宏观视角学习RocketMQ的管控链路、数据链路、客户端和服务端如何交互;最后......
  • 携手为绿色可持续发展赋能,海康机器人提供新方案
    绿色可持续发展已成为企业发展的重要关注内容,这不仅对企业未来发展有一定的好处,对整个生态的长远发展也是非常有益的,这也是全社会都在关注绿色可持续发展的重要原因。为推动绿色发展,贡献自己的一份力量,海康机器人携手百年企业本特勒,共同为探索绿色智能而努力。本特勒作为一......
  • 海康机器人打造全新工业读码器,突破更多限制
    随着精密制造业的发展,条码喷印工艺越发精细,也对读码设备提出了越来越高的要求。由于工业读码的场景不同,读码的要求不同,普通读码器很难满足消费者的需求。作为行业专业的智能设备生产商,海康机器人近期推出了新一代工业读码器ID3000XM,为行业客户提供了更加便捷、高效、准确的读码......
  • 基于工业互联网平台实现砻谷机远程运维管理
    随着农业技术的不断发展,物联网技术在农业领域的应用越来越广泛。其中,砻谷机作为农业生产中的重要设备,实现其远程监控和运维管理对于提高农业生产效率具有重要意义。 PLC在砻谷机中发挥着核心控制作用。通过编写程序,PLC可以控制砻谷机的各个动作,实现自动化工作。因此通过PLC数据采......