首页 > 其他分享 >JIA | 扩展one-hot编码提高基因组选择CNN模型的准确性

JIA | 扩展one-hot编码提高基因组选择CNN模型的准确性

时间:2024-06-16 11:01:59浏览次数:20  
标签:基因型 预测 JIA 模型 基因组 hot CNN

尽管基因组预测的育种值通常是基于各种统计方法计算的,如基因组最佳线性无偏预测(GBLUP)、贝叶斯回归模型等,但这些方法通常假设复杂性状受许多微效基因影响,且基因型和表型之间的关系是线性的。虽然有效,但线性假设可能限制了它们在全基因组预测上的表现。

机器学习模型的发展允许进行高维非线性回归,有效捕捉基因型和表型之间的复杂关系。此外,深度学习方法(如卷积神经网络CNN),已被应用于预测植物的复杂性状或人类的遗传疾病。尽管深度学习在预测复杂性状方面已被证明是有效的,但它们在动物基因组预测中的应用仍然很少。

近期,中国农科院农业基因组研究所、佛山鲲鹏现代农业研究院唐中林研究员团队在Journal of Integrative Agriculture上发表题为“Enhancing the genomic prediction accuracy of swine agricultural economic traits using an expanded one-hot encoding in CNN models”的研究论文。 该研究主要关注如何利用CNN模型来提高对猪农业经济性状的基因组预测准确性。研究的核心在于采用了一种扩展的独热编码(one-hot encoding)方法,将16种不同的基因型转换为八个二元变量的集合,从而显著提升了CNN模型预测猪性状的准确性。

研究使用了公开可用的数据集,包含2797只杜洛克猪的基因型和六个性状的信息。通过GWAS获得每个SNP与表型之间的相关性,并据此划分不同数量的SNP数据集(0.5k、1k、5k、10k、20k和30k),以评估CNN模型在不同数量的SNP数据集下的预测性能。CNN模型被设计为使用遗传变异作为输入特征来预测给定样本的表型值。模型包含三个卷积层,每个卷积层后面跟着一个最大池化层,还包括两个全连接层和一个带有线性激活函数的最终输出层。

在以均方误差(MSE)作为衡量标准的情况下,研究发现,在包含1,000个SNPs的数据集下,CNN模型达到最佳预测效果(MSE最小)。

在此基础上,进一步开发了一种新的基因型编码方式。与传统的基因型one-hot编码方法不同,新方法将16种不同的基因型编码成八位的二进制变量作为CNN模型的输入。研究结果显示,相较于传统的one-hot编码方法,这种新的编码方式显著提高了CNN模型对猪重要经济性状的预测准确性。

研究还指出了一些局限性,包括结果的普适性可能受到使用的数据集的影响,包括扩展独热编码方法的含义。需要进一步使用不同的数据集进行验证,以建立稳健性。此外,虽然该方法提高了预测准确性,但还需要考虑实施CNN模型所需的计算资源,以及相关的时间成本。未来的研究应该结合额外的基因组特征,如表观遗传标记或基因表达数据,以提高CNN模型的预测能力。探索不同的CNN架构或将CNN与其他机器学习方法相结合的混合模型,可能会进一步提高猪性状预测的准确性。

标签:基因型,预测,JIA,模型,基因组,hot,CNN
From: https://www.cnblogs.com/miyuanbiotech/p/18250289

相关文章

  • 王立志等(Iowa State University):一种用于作物产量预测的 CNN-RNN 框架
    这是美国爱荷华州立大学工业工程系王立志老师联合同校老师发表的一篇文章。Front.PlantSci.虽然影响因子不高(大家应该都知道偏应用的数量遗传学发表的期刊普遍不高),但本文的引用还是蛮高的,好像是年度最佳论文之一吧。本文介绍了一种基于深度学习的框架,用于预测作物产量。该框架......
  • 【Photoshop】PS修改文字内容
    Photoshop(PS)修改图片上文字内容,网上教材不少,本人整理实践过的方法,分享给各位。本人实践方法:内容识别填充:适用于背景色复杂的图片内容修补工具:适用于背景色为纯色的图片方式一:内容识别填充使用ps打开要修改的图片。(习惯性复制图层哦)使用选框工具选择要修改的区域,并进......
  • 基于python_CNN深度学习的路面故障瑕疵检测-含数据集+pyqt界面
    代码下载地址:https://download.csdn.net/download/qq_34904125/89383045本代码是基于pythonpytorch环境安装的。下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境,环境需要自行配置。或可直接参考下面博文进行环境安装。深度学习环境安装教程-anaconda-python-......
  • 基于python_CNN深度学习的猫狗表情识别-含数据集+pyqt界面
    代码下载地址:https://download.csdn.net/download/qq_34904125/89383039本代码是基于pythonpytorch环境安装的。下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境,环境需要自行配置。或可直接参考下面博文进行环境安装。深度学习环境安装教程-anaconda-python-......
  • LeetCode刷题之HOT100之二叉树的遍历
    2024/6/14这几天总是下雨,天气预报上面显示这个月都要持续下雨,下雨天了怎么办?我好想你,不敢打给你,我找不到原因。说着说着唱起来了哈哈!Anyway,昨天晚上打开了《涅朵奇卡一个女人的一生》,这本篇幅不长的小说我很久前就想看,还是从王小波那里知道的这本书,才开始看陀思妥耶夫斯基,......
  • 基于python-CNN深度学习的手势识别数字-含数据集+pyqt界面
    代码下载:https://download.csdn.net/download/qq_34904125/89379220本代码是基于pythonpytorch环境安装的。下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境,环境需要自行配置。或可直接参考下面博文进行环境安装。深度学习环境安装教程-anaconda-python-pyto......
  • 基于python_cnn深度学习的decks的裂缝识别-含数据集+pyqt界面
    代码下载:https://download.csdn.net/download/qq_34904125/89379212本代码是基于pythonpytorch环境安装的。下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境,环境需要自行配置。或可直接参考下面博文进行环境安装。深度学习环境安装教程-anaconda-python-pyto......
  • 基于CNN-RNN模型的验证码图片识别
    基于CNN-RNN模型的验证码图片识别是一个在计算机视觉和自然语言处理领域的经典应用场景,特别适合处理复杂的验证码(如字符连成一条线的或扭曲的验证码)和序列数据。这个任务通常包括以下几个步骤:数据预处理:图像增强:旋转、缩放、添加噪声等,以提高模型的泛化能力。字符分割......
  • 基于注意力机制卷积神经网络结合门控单元CNN-GRU-SAM-Attention实现柴油机故障诊断附m
    以下是一个基于注意力机制卷积神经网络结合门控单元(CNN-GRU)和自适应注意力机制(SAM-Attention)的柴油机故障诊断的示例Matlab代码:matlab%设置参数inputSize=[32323];%输入图像尺寸numClasses=10;%类别数numFilters=32;%卷积核数量filterSize=3;%卷积......
  • NLP实战入门——文本分类任务(TextRNN,TextCNN,TextRNN_Att,TextRCNN,FastText,DPCNN,BERT,ERN
    本文参考自https://github.com/649453932/Chinese-Text-Classification-Pytorch?tab=readme-ov-file,https://github.com/leerumor/nlp_tutorial?tab=readme-ov-file,https://zhuanlan.zhihu.com/p/73176084,是为了进行NLP的一些典型模型的总结和尝试。中文数据集从THUCNews......