首页 > 其他分享 >生信:一起学生信分析 RNA-Seq上游 篇

生信:一起学生信分析 RNA-Seq上游 篇

时间:2023-08-23 20:14:46浏览次数:453  
标签:STAR Seq -- RNA fastp sample1 clean fastq 生信

一起学生信分析 RNA-Seq上游 篇

参考文章:

https://zhuanlan.zhihu.com/p/345896914

RNA-Seq分析介绍

转录组是指某特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理,已广泛应用于基础研究、临床诊断和药物研发等领域。RNA测序(RNAseq)自诞生起就应用于分子生物学,帮助理解各个层面的基因功能。现在的RNA-seq更常用于分析差异基因表达(DGE, differential gene expression),而从得到差异基因表达矩阵。RNAseq在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具。

分析流程

  1. 质量控制 (Quality Control)

    1. FastQC + Trimmomatic + Cutadapt
    2. Fastp
  2. 比对到参考基因组 (Mapping to a reference genome)

    1. STAR
    2. HISAT2
    3. Tophat2
  3. 基因表达量定量 (Quantification)

    1. featureCounts 或者 HTSeq -- 从比对结果中计数基因的reads。
    2. Salmon 能够直接从FASTQ文件进行基因或转录本的表达量定量,不需要预先的比对步骤。
  4. 差异表达分析 (Differential Expression Analysis)

    1. DESeq2
    2. edgeR
    3. limma
  5. 功能富集分析 (Functional Enrichment Analysis)

    1. clusterProfilerGOseq -- 进行基因本体(GO)富集分析。
    2. GSEA - 基因集富集分析。
  6. 可视化

快速上手RNA-Seq分析流程 -- 上游

STEP01 质量控制 (Quality Control) -- 使用fastp

# 新建 clean 文件夹存放 fastp 质控之后的数据
mkdir -p clean

# 单样本处理实例,默认选项
fastp -w 20 -i raw/sample1_R1.fq.gz -I raw/sample1_R2.fq.gz \
-o clean/sample1_R1.fastq -O clean/sample1_R2.fastq \
--report_title "${i} fastp report" \
--json clean/${i}_fastp.json --html clean/${i}_fastp.html

# 多样本处理
# fastp质控
for i in `tail -n +2 metadata.txt| cut -f1`
do

fastp -w 20 -i raw/${i}_R1.fq.gz -I raw/${i}_R2.fq.gz \
-o clean/${i}_R1.fastq -O clean/${i}_R2.fastq \
--report_title "${i} fastp report" \
--json clean/${i}_fastp.json --html clean/${i}_fastp.html

done

STEP02 比对到参考基因组 (Mapping to a reference genome) -- 使用STAR

比对软件的使用一般分为两步:

  1. 建立索引
# --genomeDir 这里是索引存储文件夹  
# --runMode genomeGenerate 任务为建立索引

STAR \
--runThreadN 50 \
--runMode genomeGenerate \
--genomeDir ./index \
--genomeFastaFiles ../genome/GCA_014117465.1_ASM1411746v1_genomic.fna \
--sjdbGTFfile ../genome/genomic.gtf \
--sjdbOverhang 100
  1. 比对到基因组

# 单样本
STAR 
--runThreadN 5 #线程数为5
--genomeDir ./index #索引位置
--readFilesCommand cat #读取文件
--readFilesIn clean/sample1_R1.fastq clean/sample1_R2.fastq
#输入质量过滤后的文件
--outFileNamePrefix ./STAR/sample1_
#输出文件路径与命名方式
--outSAMtype BAM #输出BAM格式
SortedByCoordinate #基于位置对输出文件排序
--outBAMsortingThreadN 5 #输出文件排序使用线程数为5
--quantMode TranscriptomeSAM #同时生成基于转录本的比对文件
GeneCounts #计数


# 多样本
for i in `tail -n +2 metadata.txt | cut -f1`
do

STAR \
--runThreadN 40 \
--genomeDir ./index \
--readFilesCommand cat \
--readFilesIn clean/${i}_R1.fastq clean/${i}_R2.fastq \
--outFileNamePrefix ./STAR/${i}_ \
--outSAMtype BAM \
SortedByCoordinate \
--outBAMsortingThreadN 10 \
--quantMode TranscriptomeSAM \
GeneCounts

done

基因表达量定量 (Quantification) -- 使用featureCounts

# -a 指定基因组注释文件
featureCounts \
-a ../genome/genomic.gtf \
-p \
-T 50 \
-o result/featureCounts_InOutput/matrix.txt \
STAR/*.sortedByCoord.out.bam

至此,就可以得到差异表达矩阵,并进行相应的下游分析。

标签:STAR,Seq,--,RNA,fastp,sample1,clean,fastq,生信
From: https://www.cnblogs.com/honeyShi/p/17652655.html

相关文章

  • 深度学习(十二)——神经网络:搭建小实战和Sequential的使用
    一、torch.nn.Sequential代码栗子官方文档:Sequential—PyTorch2.0documentation#UsingSequentialtocreateasmallmodel.When`model`isrun,#inputwillfirstbepassedto`Conv2d(1,20,5)`.Theoutputof#`Conv2d(1,20,5)`willbeusedastheinputto......
  • 生信:一起学生信分析 RNA-Seq下游 篇
    一起学生信分析RNA-Seq下游篇DESeq2介绍专为高通量测序数据(特别是RNA-seq数据)设计,用于分析计数数据的差异表达,同样功能的还有limma和edgR。差异表达分析使用DESeq2进行差异分析本教程使用的数据下载链接:表达矩阵matrix_clean.txt下载:https://wwry.lanzouq.com/i6w......
  • CF670E Correct Bracket Sequence Editor
    思路发现此题除了模拟没有好的方法,所以考虑如何模拟。先考虑删除操作,如果在删除的时候再去找要删除那些的话,就会使时间复杂度变高,所以考虑先预处理出每个括号对应的位置。如果按照操作删除括号,那么时间复杂度也是非常吓人的。所以我们考虑标记被删除的括号。再考虑移动操作,如果......
  • lerna 配置发布时 commitlint,提交信息
    要在Lerna配置中添加发布时的commitlint,你可以按照以下步骤进行操作:首先,确保你已经在项目中安装了commitlint。你可以使用以下命令进行安装:npminstall--save-dev@commitlint/cli@commitlint/config-conventional在你的Lerna项目的根目录下创建一个名为.commitl......
  • 易基因:MeRIP-seq等揭示ALKBH5介导m6A去甲基化调控皮肤创面再上皮化分子机制
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。哺乳动物的损伤皮肤屏障完整性恢复通过创面愈合基本机制实现,这是一个包括凝血、炎症、再上皮化(re-epithelialization)、肉芽组织形成和疤痕重塑的多步骤过程。再上皮化是决定创面成功愈合的重要因素,再上皮化受损是创伤......
  • 生信:一起读官方文档 featureCounts 篇
    一起读官方文档featureCounts篇featureCounts介绍用于为高通量测序数据(例如RNA-seq、ChIP-seq、ATAC-seq等)计数读取(reads)与注释特征(例如基因、转录本)的重叠。它是Subread软件包的一部分,特别适用于RNA-seq数据的基因表达量分析。快速使用featureCounts\-a../genome/......
  • hibernate_demo
    参考:ORM----hibernate入门Demo(无敌详细版)-Old-凯-博客园(cnblogs.com)Hibernate-基础入门详解_51CTO博客_hibernate入门hmb.xml:Hibernate框架之hbm.xml映射文件(详解)_hibernate映射文件详解_hestyle的博客-CSDN博客 新建testdb数据库,创建tb_users表: 模块整体目录......
  • 北大ACM poj3913 Gnome Sequencing
    GnomeSequencingTimeLimit:1000MS MemoryLimit:65536KTotalSubmissions:1267 Accepted:865DescriptionInthebookAllCreaturesofMythology,gnomesarekind,beardedcreatures,whilegoblinstendtobebossyandsimple-minded.Thegoblinslike......
  • ValueError: setting an array element with a sequence.
    1.错误报错ValueError:settinganarrayelementwithasequence.Therequestedarrayhasaninhomogeneousshapeafter1dimensions.Thedetectedshapewas(12782,)+inhomogeneouspart.2.问题原因numpy版本问题:解决办法:卸载现有版本numpy,安装numpy1.21.0(python3.6)......
  • Python之学生信息管理系统
    一、基础界面实现定义主函数main,并通过定义print_menu()函数输打印学生管理系统菜单#打印功能菜单defprint_menu():print('='*30)print('学生管理系统')print('1.添加学生信息')print('2.删除学生信息')print('3.修改学生信息')print('4.显示所有......