首页 > 其他分享 >转录组分析的正确姿势

转录组分析的正确姿势

时间:2023-05-07 23:34:57浏览次数:44  
标签:姿势 分析 正确 RNA 测序 转录 工具 评估


转录组的测序分析也相对成熟,从RNA提取、构建文库、上机测序再到结果解析既可以自己完成,又可以在专业公司进行。概括来看转录组的分析流程比较简单,序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅,可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的,有什么需要注意的,结果怎么解读,后续分析怎么做。这些只有自己动手操作过,才可能有理解。而理解了一个,再去做其它类型分析,也会轻松很多。

实验设计这块重要的是对照和至少3个生物学重复,并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度;而研究新转录本和可变剪接则需要更深的测序;一般来讲长RNA-seq文库测序深度满足可用reads20-30 million (如果测PE150,换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应,保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制,但记录下对应的操作时间和批次,最后在绘制表达图谱时与实验相关参数进行关联展示,从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起,这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼,做了批次效应矫正后,表达图谱按组织而非物种聚在一起了。

测序环节通常不需要自己操作,测序公司都很成熟,但测序的原理需要知道。这会影响到后续分析时参数的选择,比如知道什么是插入片段大小,什么是链特异性测序,什么情况会有接头序列,双端测序如何测等。

获得数据后,就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否,指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响,同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解,是进行这些工作的基础。

39个转录组分析工具,120种组合评估(转录组分析工具哪家强)中讲述了如何选择、评估合适的比对工具,序列拼装工具,定量工具和差异分析工具。值得我们在进入正式的分析之前,仔细阅读。另外类似的评估文章,还有几篇,都可以一并读一下,这样在后期分析时对工具的选择和使用才更得心应手。

工具比较类文章一般只告诉你做了什么,不告诉你这么做的原因是什么,而且每一步细分开来又有很多小细节需要注意,比如在比对环节就会涉及到:不同的样本如何选择合适的基因组和注释文件,什么样的软件支持Junction reads的比对,什么样的比对率是合适的,比对质量怎样,测序中RNA有无降解或选择偏好性,测序饱和度如何等。

这些可能都不会体现在最终的结果中,但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的,提供了格式正确的输入,就可以得到输出,但输出正确与否,就得靠人的经验来判断了。

在后面的差异基因鉴定阶段,还存在把FPKM值转换为整数再提交给DESeq2做分析的,软件不报错,但结果不对。或者能顺着教程运行DEseq2分析,但换成自己的数据就不知道如何下手的。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。这当然是一个耗时耗力的过程,那么有没有一个更好的方式呢?


标签:姿势,分析,正确,RNA,测序,转录,工具,评估
From: https://blog.51cto.com/u_16077014/6252733

相关文章

  • 易基因:2023年植物表观转录组研究的最新进展(m6A+m5C)|深度综述
    大家好这里是专注表观组学十余年,领跑多组学科研服务的易基因。被称为表观转录组(epitranscriptome)的RNA修饰正成为基因调控的广泛调控机制。由于绘制转录组范围RNA修饰测序策略的改进,以及分别对沉积、去除和识别RNA修饰的writers、erasers和readers密集表征,表观转录组学领域最......
  • 1分钟了解C语言正确使用字节对齐及#pragma pack的方法
    ​C/C++编译器的缺省字节对齐方式为自然对界。即在缺省情况下,编译器为每一个变量或是数据单元按其自然对界条件分配空间。在结构中,编译器为结构的每个成员按其自然对界(alignment)条件分配空间。各个成员按照它们被声明的顺序在内存中顺序存储(成员之间可能有插入的空字节),第......
  • nrm : 无法将“nrm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称
    一、前言因为觉得npm下载太慢了,可能是镜像不行,需要不断的更换,我嫌找镜像太麻烦了,然后看到网上说使用第三方软件可以快速的修改、切换镜像源于是下载了nrm执行npmi-gnrm进行全局的下载下载完成后,执行命令nrmls报错了二、解决1、执行命令npmlist--depath=0-g查看是否......
  • ubuntu正确安装chrome
    可能出现此错误的原因是您的系统中没有添加GoogleChrome的软件源。您可以按照以下步骤手动添加GoogleChrome的软件源并安装:1.在终端中打开/etc/apt/sources.list.d/目录:```cd/etc/apt/sources.list.d/```2.创建一个新的源文件:```sudotouchgoogle-chrome.list```3.使......
  • 3 02|法则一:为什么有些架构活动会没有正确的目标?
    你好,我是郭东白。今天这节课,我们就正式开始架构师生存法则的学习。你肯定看到过这样的观点:架构设计就是一个迭代的过程,我们要不断发现并且补偿现阶段软件设计的不完美,然后通过各种手段打补丁升级。因此,架构设计永远都是螺旋上升的,没有也不需要目标的指引。也有人认为定义目标并......
  • 解决上传md文件时出现的“<Fault 401: '请配置正确的用户名与访问令牌(access token),
    使用的工具:pycnbolg下载地址:https://github.com/dongfanger/pycnblog具体操作按这位大神的博客:如何在博客园上传markdown文件-NotYourferry-博客园(cnblogs.com)出现报错如图:偶然看到这两位的评论:于是我将config.yaml中的password改成了我的令牌,就上传成功了。......
  • 极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践
    业界良心OpenAI开源的Whisper模型是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp则是Whisper模型的C/C++移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了CoreML支持,完美适配苹果M系列芯片。Whisper.cpp的张量运算......
  • Linux如何正确使用共享文件夹
    Linux如何正确使用共享文件夹1.首先输下面命令查看是否真的设置成功共享文件夹vmware-hgfsclient如果确实已经设置过共享文件夹将输出window下共享文件夹名字z@ubuntu:~$vmware-hgfsclientshare2.确认自己已设置共享文件夹后输入下面的命令//如果之前没有命令包则先执行s......
  • Hemberg-lab单细胞转录组数据分析(九)- Scater包单细胞过滤
    细胞质控文库大小查看每个样品(细胞)检测到的总分子数(UMIcount)或总reads数(readscount),拥有很少的reads或分子数的样品可能是细胞破损或捕获失败,应该移除。hist(umi$total_counts,breaks=100)abline(v=25000,col="red")练习:我们的过滤移除了多少细胞?每个细......
  • [网络安全]DVWA之File Upload—AntSword(蚁剑)攻击姿势及解题详析合集
    免责声明:本文仅分享SQL攻击相关知识,不承担任何法律责任。DVWA、BurpSuite请读者自行安装,本文不再赘述。同类文章参考:[网络安全]AntSword(蚁剑)实战解题详析(入门)FileUpload—lowlevel源码中无过滤:上传包含一句话木马<?php@eval($_POST[qiushuo]);?>的文件qiu.php回显......