首页 > 其他分享 >Seurat Tutorial 4:映射和注释查询数据集

Seurat Tutorial 4:映射和注释查询数据集

时间:2023-09-02 09:55:24浏览次数:41  
标签:Seurat 映射 reference query 数据 integrated Tutorial pancreas

写在前面

学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度,分享官方文档的中文教程。软件可能随时更新,建议配合官方文档一起阅读。推荐先按顺序阅读往期内容:
文献篇:
1.文献阅读:(Seurat V1) 单细胞基因表达数据的空间重建
2.文献阅读:(Seurat V2) 整合跨越不同条件、技术、物种的单细胞转录组数据
3.文献阅读:(Seurat V3) 单细胞数据综合整合
4.文献阅读:(Seurat V4) 整合分析多模态单细胞数据
5.文献阅读:(Seurat V5) 用于集成、多模态和可扩展单细胞分析的字典学习
教程篇:
1.Seurat Tutorial 1:常见分析工作流程,基于 PBMC 3K 数据集
2.Seurat Tutorial 2:使用 Seurat 分析多模态数据
3.Seurat Tutorial 3:scRNA-seq 整合分析介绍


::: block-1

目录

  • 1 单细胞参考映射介绍
  • 2 数据集预处理
  • 3 三个胰岛细胞数据集的整合
  • 4 使用整合参考进行细胞类型分类
  • 5 单峰 UMAP 投影
    :::

官网教程:https://satijalab.org/seurat/articles/integration_mapping

1 单细胞参考映射介绍

在本节,我们首先构建一个 integrated reference,然后演示如何利用这个 reference 来注释新的 query datasets。生成 integrated reference 的详细步骤见 Introduction to scRNA-seq integration。生成后,此 reference 可用于通过细胞类型标签传输和将 query cells 投影到 reference UMAP 等任务来分析其他 query datasets。值得注意的是,这不需要矫正原始的 query data,因此如果有高质量的 reference,这可能是一种有效的策略。

2 数据集预处理

出于本示例的目的,我们选择了通过四种技术产生的人类胰岛细胞数据集,即 CelSeq (GSE81076)、CelSeq2 (GSE85241)、Fluidigm C1 (GSE86469), and SMART-Seq2 (E-MTAB-5061)。为方便起见,我们通过 SeuratData 包分发此数据集。metadata 包含四个数据集中每个细胞的技术(tech column)和细胞类型注释(celltype column)。

library(Seurat)
library(SeuratData)

InstallData("panc8")

为了构建 reference,我们将识别各个数据集之间的 'anchors'。首先,我们将组合对象拆分为一个 list,每个数据集作为一个元素(这只是必要的,因为数据被捆绑在一起以便于分发)。

data("panc8")
pancreas.list <- SplitObject(panc8, split.by = "tech")
pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]
pancreas.list
# $celseq
# An object of class Seurat 
# 34363 features across 1004 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $celseq2
# An object of class Seurat 
# 34363 features across 2285 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $fluidigmc1
# An object of class Seurat 
# 34363 features across 638 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

# $smartseq2
# An object of class Seurat 
# 34363 features across 2394 samples within 1 assay 
# Active assay: RNA (34363 features, 0 variable features)

在找到 anchors 之前,我们执行标准预处理(log-normalization),并为每个 anchors 单独识别可变特征。请注意,Seurat 实现了一种改进的基于方差稳定变换(vst)的变量特征选择方法。

for (i in 1:length(pancreas.list)) {
    pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
    pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000, verbose = FALSE)
}

3 三个胰岛细胞数据集的整合

接下来,我们使用 FindIntegrationAnchors() 函数识别 anchors,该函数将 Seurat 对象列表作为输入。在这里,我们将其中三个对象整合到一个 reference 中(稍后我们将在本小节中使用第四个对象作为查询数据集来演示映射)。

  • 我们在这里使用所有默认参数来识别 anchors,包括数据集的“维度”(30;随意尝试在很宽的范围内更改此参数,例如在 10 到 50 之间)。
reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)

然后我们将这些 anchors 传递给 IntegrateData() 函数,该函数返回一个 Seurat 对象。

  • 返回的对象将包含一个新的Assay,其中包含所有细胞的 integrated(or ‘batch-corrected’)表达矩阵,使它们能够被联合分析。
pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)

运行 IntegrateData() 后,Seurat 对象将包含一个带有 integrated 表达矩阵的新 Assay。请注意,原始(未校正的值)仍存储在对象的“RNA”assay 中,因此您可以来回切换。

然后我们可以使用这个新的 integrated 矩阵进行下游分析和可视化。在这里,我们 scale integrated 数据,运行 PCA,并使用 UMAP 可视化结果。integrated 的数据集按细胞类型而不是技术进行聚类。

library(ggplot2)
library(cowplot)
library(patchwork)

# 切换到 integrated assay。该 assay 的可变特征在整合数据过程中自动设置
DefaultAssay(pancreas.integrated) <- "integrated"

# 运行可视化和聚类的标准工作流程
pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) +
    NoLegend()
p1 + p2

4 使用整合参考进行细胞类型分类

Seurat 还支持将 reference data(or meta data)投射到 query object。虽然许多方法是保守的(两个过程都从识别 anchors 开始),但数据 transfer 和 integration 之间有两个重要区别:

  1. In data transfer, Seurat 不会更正或修改 query expression data。
  2. In data transfer, Seurat 有一个选项(set by default)将 reference 的 PCA 结构投射到 query 上,而不是使用 CCA 学习联合结构。我们通常建议在 scRNA-seq 数据集之间投射数据时使用此选项。

找到 anchors 后,我们使用 TransferData() 函数根据 reference data(参考细胞类型标签的向量)对 query cells 进行分类。TransferData() 返回一个包含预测 ID 和预测分数的矩阵,我们可以将其添加到 query metadata 中。

pancreas.query <- pancreas.list[["fluidigmc1"]]
pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query, dims = 1:30, reference.reduction = "pca")
predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype, dims = 1:30)
pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)

因为我们有来自完整 integrated 分析的原始标签注释,所以我们可以评估我们预测的细胞类型注释与完整参考的匹配程度。在这个例子中,我们发现细胞类型分类的一致性很高,超过 96% 的细胞被正确标记。

pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
table(pancreas.query$prediction.match)
## 
## FALSE  TRUE 
##    21   617

为了进一步验证这一点,我们可以检查特定胰岛细胞群的一些典型细胞类型标记。请注意,即使其中一些细胞类型仅由一两个细胞表示(e.g. epsilon cells),我们仍然能够正确分类它们。

table(pancreas.query$predicted.id)
## 
##             acinar activated_stellate              alpha               beta 
##                 22                 17                253                256 
##              delta             ductal        endothelial              gamma 
##                 22                 30                 12                 18 
##         macrophage               mast            schwann 
##                  1                  2                  5
VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")

5 单峰 UMAP 投影

在 Seurat v4 中,我们还启用了将 query 投影到 reference UMAP 结构上。这可以通过计算 reference UMAP 模型然后调用 MapQuery() 而不是 TransferData() 来实现。

pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query,
    refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")

MapQuery 在做什么?

MapQuery() 是三个函数的包装:TransferData()IntegrateEmbeddings()ProjectUMAP()TransferData() 用于传输细胞类型标签并估算 ADT 值;IntegrateEmbeddings() 用于通过纠正查询的投影低维嵌入来整合 reference 与 query;最后使用 ProjectUMAP() 将查询数据投影到 reference 的 UMAP 结构上。使用中间函数执行此操作的等效代码如下:

pancreas.query <- TransferData(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query,
    refdata = list(celltype = "celltype"))
pancreas.query <- IntegrateEmbeddings(anchorset = pancreas.anchors, reference = pancreas.integrated,
    query = pancreas.query, new.reduction.name = "ref.pca")
pancreas.query <- ProjectUMAP(query = pancreas.query, query.reduction = "ref.pca", reference = pancreas.integrated,
    reference.reduction = "pca", reduction.model = "umap")

我们现在可以在 reference 旁边可视化 query cells。

p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3,repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE, label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
p1 + p2


结束

本文由mdnice多平台发布

标签:Seurat,映射,reference,query,数据,integrated,Tutorial,pancreas
From: https://www.cnblogs.com/tigerzheng/p/17673237.html

相关文章

  • docker查看镜像、运行容器、端口映射
    查看镜像dockerimagesdockerimagels查看容器dockerps查看所有容器dockerps-a运行镜像dockerrun[options]image-d后台-i交互式shell-t为容器重新分配伪输入终端,和-i同时使用端口映射-p[hostip:]hostport:containerport......
  • el-table树形数据 + jsPlumb , 批量映射字段
    <template><el-dialogtitle="映射"append-to-body:visible.sync="mappingShow":close-on-click-modal="false":before-close="closeFileMappingDialog"width="1000px"><el-c......
  • Mybatis中Mapper映射文件
    1)CRUD① 返回插入的自增长主键②Mybatis维护非自增长的主键值的插入signed数据类型:表示有符号的数值,可以存储负数、0、正数unsigned数据类型:表示无符号的数值,可以存储0、正数2) 入参处理如果传入的是对象,则直接#{对象的属性名}获取参数(常用)如果传入的是Map,则直接通过#{map的key}......
  • VMware:如何配置虚拟机与宿主机的端口映射
    一、虚拟网络编辑在VM中点击编辑-虚拟网络编辑器,然后找到类型为NAT模式的网络,点击右下角的NAT设置打开界面如下二、配置端口转发填写主机端口,虚拟机IP,虚拟机端口,保存即可。这样我们就可以将虚拟机的8008端口映射到宿主机的8008端口上然后确定->确定,待重启网络即可通过宿......
  • docker为已启动的容器添加端口映射
    针对已运行的容器添加端口映射1、查看容器是否映射端口dockerport[容器id或容器名]1有端口映射:无端口映射:2、查看容器完整Iddockerinspect[容器id]|grepId//得到以下结果//"Id":"fcae55f5180a79487662de426863565c7df05ed9b87854093b62776734928d25"......
  • 【STM32】5_1 串口通信 printf映射
    串口通信配置完成后,在主函数中添加stdio.h的头文件#include"stdio.h" 在主函数main()之前添加一下函数#ifdef__GNUC__#definePUTCHAR_PROTOTYPEint__io_putchar(intch)#else#definePUTCHAR_PROTOTYPEintfputc(intch,FILE*f)#endifPUTCHAR_PROTOTYPE{......
  • 无涯教程-进程 - 内存映射
    mmap()系统调用提供了将文件或设备映射到内存的调用进程的虚拟地址空间中的映射。这有两种类型-文件映射 - 此映射将进程的虚拟内存区域映射到文件,这意味着读取或写入那些内存区域会导致文件被读取或写入,这是默认的映射类型。匿名映射 - 此映射进程的虚拟内存区域,没有......
  • hibernate——一对一映射(1)
    一对一映射本来以为挺简单的,但是一接触发现还是有些琢磨头的,但是理解之后,才会发现原来是挺简单的。一对一映射关系,也有一个主表和从表的概念,例如人和身份证就是一对一的关系,如果将IdCard的主键设为Person的主键,那么Person为主表,而IdCard为从表,这样的映射关系决定了从表不能单独存在......
  • hibernate——多对一和一对多映射浅析
    首先应该清楚多对一和一对多只是站在不同的角度看待问题,其本质是一样的。在思考这个问题的时候,不要把这两个概念混在一起,这样不容易理解,而要分开,站在不同的角度去解决同一个问题。就拿员工和部门的例子来说,我们站在不同的角度,可能会遇到如下的几种情况:站在员工的角度看,是多对一的关......
  • Boost Asio Tutorial: Daytime
    学一下C++的Boost.Asio。Daytime.0如何调试自己编写的TCP/UDP客户端和服务器教程默认我们会这个。万一有人不会呢,我说下我的方法:在wsl使用nc命令来调试,感觉挺方便的。这里安利一下Linux的nc命令。nc命令全称netcat,很原始的一个工具,但是很方便。用法也很多,借助Linux的......