PNAS | 基因组预训练网络模型精准预测 DNA 突变

时间：2024-09-08 15:36:59浏览次数：11

❝

我们能教会计算机理解人类语言，同样也能让它们读懂DNA。

2023年10月31日，加利福尼亚大学伯克利分校的科学家们在《美国科学院院刊》（PNAS）上发表了一篇突破性研究，提出了一种基于无监督DNA语言模型的新方法，该方法在全基因组范围内预测基因变异效果上，超越了现有的保守性评分模型。

研究团队开发的“基因组预训练网络”（Genomic Pre-trained Network, GPN）模型，通过对植物基因组数据的无监督预训练，学习了基因变异的功能影响。GPN模型使用拟南芥及其相关物种的基因组序列进行训练，并利用1001基因组项目和GWAS数据库对其效果进行了评估。

GPN模型的预训练过程包括掩盖基因组序列中的15%位置，并预测这些位置上的碱基。这一训练方法使得模型能够有效学习并区分基因结构和DNA基序，且无需任何监督。此外，模型对重复元素的预测进行了加权处理，以减少这些区域对整体训练效果的影响。

GPN模型在基因区间的无监督聚类方面也表现出色，能够区分基因间区、内含子、编码区和非编码RNA等不同基因区间。通过UMAP算法对基因区间进行聚类，模型在编码区的分类准确率高达96%。

在预测基因变异效果方面，GPN模型同样表现出色，尤其在拟南芥中，其预测准确性超越了基于保守性评分的phyloP和phastCons。GPN模型的变异得分与群体中的变异频率相关，低得分变异在群体中较少见，这可能表明这些变异受到了净化选择。

GPN模型为基因组变异效果预测领域带来了新的希望，尤其适用于那些缺乏丰富功能基因组数据的物种。它不仅能够辅助GWAS进行更精细的定位和多基因风险评分，还能促进稀有变异的鉴定。随着AI技术的不断进步，GPN模型的应用前景将更加广阔。

标签：GPN,DNA,PNAS,变异,模型,基因,基因组
From： https://www.cnblogs.com/miyuanbiotech/p/18402915

Nature Genetics | Rajeev K. Varshney综述：解锁植物遗传学的端粒到端粒（T2T）基因组组装
近期，RajeevK.Varshney团队在Naturegenetics发表综述文章：Unlockingplantgeneticswithtelomere-to-telomeregenomeassemblies。摘要连续基因组序列组装将帮助我们实现作物转化基因组学的全面潜力。最近在测序技术方面的进步，尤其是长读长测序策略，使得构建无间隙的端粒到......
AbMole|DNA双链断裂修复中的序列与染色质特征：MRX复合体的作用与机制
在生物学领域中，DNA双链断裂（DSB）作为一种极具破坏性的基因组损伤，其准确且高效的修复对于维持细胞基因组的稳定性和功能至关重要。由来自哥伦比亚大学欧文医学中心微生物学与免疫学系的RobertGnügge和瑞士苏黎世工业大学（ETH）生物化学研究所生物系的 GiordanoReginato,Petr......
易基因：中国农大田见晖教授团队揭示DNA甲基化保护早期胚胎线粒体基因组稳定性｜项目文章
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。在早期哺乳动物胚胎中，线粒体氧化代谢增强是着床后生存和发育的重要特征；着床前期的线粒体重塑是正常胚胎发生的关键事件。在这些变化中，氧化磷酸化（OXPHOS）增强对于支持着床后胚胎的高能量需求至关重要，但线粒体氧化代谢的......
PNAS亮点文章！浙江大学/东北林业大学/深圳华大生命科学研究院等联合揭示大熊猫种群演化
本文首发于“生态学者”微信公众号！作者投稿系列全新世以来，尤其是工业革命以来，资源的过度开发利用和环境污染等人类活动，导致野生动物栖息地严重破碎化，甚至丧失，形成了大量隔离小种群，致使物种濒临灭绝的边缘。因此，揭示物种破碎隔离种群的历史，阐明野生和圈养小种群的进化潜能以及......
基因组组装和挂载（1）
1.hifiasm组装hifi+hichifiasm-o GN.asm -t48--h1 GN_h1.cl.fq.gz --h2 GN_h2.cl.fq.gz GN_hifi.fq.gz 2>GN.asm.log这一步是改变序列和文件格式foriin*ctg.gfa;don=$(echo$i|awk-F'_''{print$1"_"$2}');awk'/^S/{print"&......
SNAT 与 DNATjK
本文为博主原创，转载请注明出处：SNAT（SourceNetworkAddressTranslation，源网络地址转换）和DNAT（DestinationNetworkAddressTranslation，目标网络地址转换）是网络地址转换（NAT）中的两种重要技术，它们在实现内部网络与外部网络之间的通信中发挥着关键作用。以下是对这两种技术的详细......
网络防火墙之DNAT
网络防火墙NATNAT:networkaddresstranslationPREROUTING，INPUT，OUTPUT，POSTROUTING请求报文：修改源/目标IP，由定义如何修改响应报文：修改源/目标IP，根据跟踪机制自动实现DNAT：destinationNATPREROUTING,OUTPUT把本地网络中的主机上的某服务开放给外部网络......
树形 DNA
由于左右子树不等价，我们可以以Trie树的视角考察原树，发现“叶子节点不超过20个”的条件等价于这棵Trie树可以用不超过20个01字符串表示树的匹配不好做，但字符串匹配是可做的。于是我们可以想到把树的匹配“折叠”成20个字符串的匹配猜想时间复杂度是O(20n），其中20是枚举的复杂度把......
羟基脲是一种细胞凋亡诱导剂，可通过抑制核糖核苷酸还原酶来抑制DNA 的合成 |MedChemEx
中文名：羟基脲CAS：127-07-1品牌：MedChemExpress(MCE)存储条件：Powder:-20°C,3years;4°C,2years.Insolvent:-80°C,6months;-20°C,1month.生物活性：羟基脲是一种细胞凋亡诱导剂，可通过抑制核糖核苷酸还原酶来抑制DNA 的合成。羟基脲具有抗正痘病毒活性。 ......
【图像加密解密】6维超混沌系统和DNA编码的图像加密解密【含Matlab源码 7257期】
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信或扫描文章底部QQ二维码。......

PNAS | 基因组预训练网络模型精准预测 DNA 突变

相关文章

赞助商

阅读排行