一起学生信分析 RNA-Seq上游篇

参考文章：

https://zhuanlan.zhihu.com/p/345896914

RNA-Seq分析介绍

转录组是指某特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构，揭示特定生物学过程以及疾病发生过程中的分子机理，已广泛应用于基础研究、临床诊断和药物研发等领域。RNA测序(RNAseq)自诞生起就应用于分子生物学，帮助理解各个层面的基因功能。现在的RNA-seq更常用于分析差异基因表达(DGE, differential gene expression)，而从得到差异基因表达矩阵。RNAseq在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具。

分析流程

质量控制 (Quality Control)
1. FastQC + Trimmomatic + Cutadapt
2. Fastp
比对到参考基因组 (Mapping to a reference genome)
1. STAR
2. HISAT2
3. Tophat2
基因表达量定量 (Quantification)
1. featureCounts 或者 HTSeq -- 从比对结果中计数基因的reads。
2. Salmon 能够直接从FASTQ文件进行基因或转录本的表达量定量，不需要预先的比对步骤。
差异表达分析 (Differential Expression Analysis)
1. DESeq2
2. edgeR
3. limma
功能富集分析 (Functional Enrichment Analysis)
1. clusterProfiler 或 GOseq -- 进行基因本体(GO)富集分析。
2. GSEA - 基因集富集分析。
可视化

快速上手RNA-Seq分析流程 -- 上游

STEP01 质量控制 (Quality Control) -- 使用fastp

# 新建 clean 文件夹存放 fastp 质控之后的数据
mkdir -p clean

# 单样本处理实例，默认选项
fastp -w 20 -i raw/sample1_R1.fq.gz -I raw/sample1_R2.fq.gz \
-o clean/sample1_R1.fastq -O clean/sample1_R2.fastq \
--report_title "${i} fastp report" \
--json clean/${i}_fastp.json --html clean/${i}_fastp.html

# 多样本处理
# fastp质控
for i in `tail -n +2 metadata.txt| cut -f1`
do

fastp -w 20 -i raw/${i}_R1.fq.gz -I raw/${i}_R2.fq.gz \
-o clean/${i}_R1.fastq -O clean/${i}_R2.fastq \
--report_title "${i} fastp report" \
--json clean/${i}_fastp.json --html clean/${i}_fastp.html

done

STEP02 比对到参考基因组 (Mapping to a reference genome) -- 使用STAR

比对软件的使用一般分为两步：

建立索引

# --genomeDir 这里是索引存储文件夹  
# --runMode genomeGenerate 任务为建立索引

STAR \
--runThreadN 50 \
--runMode genomeGenerate \
--genomeDir ./index \
--genomeFastaFiles ../genome/GCA_014117465.1_ASM1411746v1_genomic.fna \
--sjdbGTFfile ../genome/genomic.gtf \
--sjdbOverhang 100

比对到基因组


# 单样本
STAR 
--runThreadN 5 #线程数为5
--genomeDir ./index #索引位置
--readFilesCommand cat #读取文件
--readFilesIn clean/sample1_R1.fastq clean/sample1_R2.fastq
#输入质量过滤后的文件
--outFileNamePrefix ./STAR/sample1_
#输出文件路径与命名方式
--outSAMtype BAM #输出BAM格式
SortedByCoordinate #基于位置对输出文件排序
--outBAMsortingThreadN 5 #输出文件排序使用线程数为5
--quantMode TranscriptomeSAM #同时生成基于转录本的比对文件
GeneCounts #计数


# 多样本
for i in `tail -n +2 metadata.txt | cut -f1`
do

STAR \
--runThreadN 40 \
--genomeDir ./index \
--readFilesCommand cat \
--readFilesIn clean/${i}_R1.fastq clean/${i}_R2.fastq \
--outFileNamePrefix ./STAR/${i}_ \
--outSAMtype BAM \
SortedByCoordinate \
--outBAMsortingThreadN 10 \
--quantMode TranscriptomeSAM \
GeneCounts

done

基因表达量定量 (Quantification) -- 使用featureCounts

# -a 指定基因组注释文件
featureCounts \
-a ../genome/genomic.gtf \
-p \
-T 50 \
-o result/featureCounts_InOutput/matrix.txt \
STAR/*.sortedByCoord.out.bam

至此，就可以得到差异表达矩阵，并进行相应的下游分析。

标签：STAR,Seq,--,RNA,fastp,sample1,clean,fastq,生信
From： https://www.cnblogs.com/honeyShi/p/17652655.html

深度学习（十二）——神经网络：搭建小实战和Sequential的使用
一、torch.nn.Sequential代码栗子官方文档：Sequential—PyTorch2.0documentation#UsingSequentialtocreateasmallmodel.When`model`isrun,#inputwillfirstbepassedto`Conv2d(1,20,5)`.Theoutputof#`Conv2d(1,20,5)`willbeusedastheinputto......
生信：一起学生信分析 RNA-Seq下游篇
一起学生信分析RNA-Seq下游篇DESeq2介绍专为高通量测序数据（特别是RNA-seq数据）设计，用于分析计数数据的差异表达，同样功能的还有limma和edgR。差异表达分析使用DESeq2进行差异分析本教程使用的数据下载链接：表达矩阵matrix_clean.txt下载：https://wwry.lanzouq.com/i6w......
CF670E Correct Bracket Sequence Editor
思路发现此题除了模拟没有好的方法，所以考虑如何模拟。先考虑删除操作，如果在删除的时候再去找要删除那些的话，就会使时间复杂度变高，所以考虑先预处理出每个括号对应的位置。如果按照操作删除括号，那么时间复杂度也是非常吓人的。所以我们考虑标记被删除的括号。再考虑移动操作，如果......
lerna 配置发布时 commitlint，提交信息
要在Lerna配置中添加发布时的commitlint，你可以按照以下步骤进行操作：首先，确保你已经在项目中安装了commitlint。你可以使用以下命令进行安装：npminstall--save-dev@commitlint/cli@commitlint/config-conventional在你的Lerna项目的根目录下创建一个名为.commitl......
易基因：MeRIP-seq等揭示ALKBH5介导m6A去甲基化调控皮肤创面再上皮化分子机制
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。哺乳动物的损伤皮肤屏障完整性恢复通过创面愈合基本机制实现，这是一个包括凝血、炎症、再上皮化（re-epithelialization）、肉芽组织形成和疤痕重塑的多步骤过程。再上皮化是决定创面成功愈合的重要因素，再上皮化受损是创伤......
生信：一起读官方文档 featureCounts 篇
一起读官方文档featureCounts篇featureCounts介绍用于为高通量测序数据（例如RNA-seq、ChIP-seq、ATAC-seq等）计数读取（reads）与注释特征（例如基因、转录本）的重叠。它是Subread软件包的一部分，特别适用于RNA-seq数据的基因表达量分析。快速使用featureCounts\-a../genome/......
hibernate_demo
参考：ORM----hibernate入门Demo(无敌详细版)-Old-凯-博客园(cnblogs.com)Hibernate-基础入门详解_51CTO博客_hibernate入门hmb.xml:Hibernate框架之hbm.xml映射文件（详解）_hibernate映射文件详解_hestyle的博客-CSDN博客新建testdb数据库，创建tb_users表：模块整体目录......
北大ACM poj3913 Gnome Sequencing
GnomeSequencingTimeLimit:1000MS MemoryLimit:65536KTotalSubmissions:1267 Accepted:865DescriptionInthebookAllCreaturesofMythology,gnomesarekind,beardedcreatures,whilegoblinstendtobebossyandsimple-minded.Thegoblinslike......
ValueError: setting an array element with a sequence.
1.错误报错ValueError:settinganarrayelementwithasequence.Therequestedarrayhasaninhomogeneousshapeafter1dimensions.Thedetectedshapewas(12782,)+inhomogeneouspart.2.问题原因numpy版本问题：解决办法：卸载现有版本numpy，安装numpy1.21.0(python3.6)......
Python之学生信息管理系统
一、基础界面实现定义主函数main，并通过定义print_menu()函数输打印学生管理系统菜单#打印功能菜单defprint_menu():print('='*30)print('学生管理系统')print('1.添加学生信息')print('2.删除学生信息')print('3.修改学生信息')print('4.显示所有......

生信：一起学生信分析 RNA-Seq上游篇

一起学生信分析 RNA-Seq上游篇

RNA-Seq分析介绍

分析流程

快速上手RNA-Seq分析流程 -- 上游

STEP01 质量控制 (Quality Control) -- 使用fastp

STEP02 比对到参考基因组 (Mapping to a reference genome) -- 使用STAR

基因表达量定量 (Quantification) -- 使用featureCounts

相关文章

赞助商

阅读排行

生信：一起学生信分析 RNA-Seq上游 篇

一起学生信分析 RNA-Seq上游 篇

RNA-Seq分析介绍

分析流程

快速上手RNA-Seq分析流程 -- 上游

STEP01 质量控制 (Quality Control) -- 使用fastp

STEP02 比对到参考基因组 (Mapping to a reference genome) -- 使用STAR

基因表达量定量 (Quantification) -- 使用featureCounts

相关文章

赞助商

阅读排行

生信：一起学生信分析 RNA-Seq上游篇

一起学生信分析 RNA-Seq上游篇