首页 > 其他分享 >Drop-seq测序平台dge.txt.gz格式转化成h5格式

Drop-seq测序平台dge.txt.gz格式转化成h5格式

时间:2024-08-13 10:41:28浏览次数:15  
标签:loom sceasy anndata Drop 测序 filename install 格式

dge.txt.gz格式简介

dge.txt.gz格式是Drop-seq format(一个单细胞RNA测序平台,三种常见基于液滴的单细胞RNA测序平台10X Genomics Chromium、inDrop和Drop-seq),也可能命名为.digital_expression.txt.gz。

Drop-seq测序平台

官网

dge.txt格式转化成h5格式

因为这个格式确实少见,所以把遇到可能的方案都记录下来了,以供启示。

我的方法

安装

  1. conda安装Seurat:conda install -c bioconda r-seurat# 如果不成功,这个包挺好安装的,自己解决吧
  2. conda安装 SeuratDiskconda install -c pwwang r-seuratdisk# 这个包不易安装,建议使用该命令,有冲突更改其他包

使用

## Read File
Patient_scRNA.counts <- read.delim("/home/xxx/downloads/XXXXXX_S1_dge.txt", row.names = 1)

## Create Seurat Object
library(Seurat)
library(SeuratDisk)

Patient_OC <- CreateSeuratObject(counts = Patient_scRNA.counts, project = "XXXXX")
## Save File
SaveH5Seurat(Patient_OC, filename = "/home/xxxxx/downloads/h5name.h5Seurat")
Convert("/home/xxxxx/downloads/h5name.h5Seurat", dest = "h5ad")

sceasy 包

sceasy 包 提供了seurat、anndata、loom、SingleCellExperiment四种格式间的转换,但是我没搞明白怎么用,如果有生物基础的可以尝试。

安装sceasy

建议创建新的conda环境,R语言版本为4.0~4.1,安装有问题可以留言,我安装成功了

  1. 安装sceasy
    sceasy 可以作为 bioconda 包安装:conda install -c bioconda r-sceasy
    或者作为 R 包:devtools::install_github("cellgeni/sceasy")
    这将需要双导体包 BiocManager 和 LoomExperiment:
    注意: BiocManager需要与R语言版本对应
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install(c("LoomExperiment", "SingleCellExperiment"))
  1. 安装 anndata 包:conda install anndata -c bioconda

  2. 安装 reticulate 包:install.packages('reticulate')

如果计划在 loom 和 anndata 之间进行转换,请确保loompy已安装该包:conda install loompy -c bioconda

使用

下面的使用没有搞明白怎么用,一直报错unable to find an inherited method for function ‘assayNames’ for signature ‘"Seurat"’

seurat、anndata、loom、SingleCellExperiment四种格式间的转换:
注意: 不同对象转换时的输入是文件还是 object

# 使用这个,(但是不清楚sce_object数据如何读取)
sceasy::convertFormat(sce_object, from="sce", to="anndata",
                       outFile='filename.h5ad')
# 其他格式的转化:
sceasy::convertFormat(seurat_object, from="seurat", to="anndata",
                       outFile='filename.h5ad')

sceasy::convertFormat(h5ad_file, from="anndata", to="seurat",
                       outFile='filename.rds')

sceasy::convertFormat(seurat_object, from="seurat", to="sce",
                       outFile='filename.rds')

sceasy::convertFormat(sce_object, from="sce", to="loom",
                       outFile='filename.loom')

sceasy::convertFormat('filename.loom', from="loom", to="anndata",
                       outFile='filename.h5ad')

sceasy::convertFormat('filename.loom', from="loom", to="sce",
                       outFile='filename.rds')

scCustomize(似乎可行)

因为这个格式确实少见,所以把遇到可能的方案都记录下来了,以供启示。
官方介绍

导入带文件前缀的分隔矩阵单目录
数据通常会以包含所有信息的单个文件(.csv、.tsv、.txt 等)的形式上传到 NCBI GEO 或其他存储库。

在此示例中,我将使用 Hammond 等人于 2019 年 ( Immunity ) 提供的数据,这些数据是从NCBI GEO GSE121654下载的。

Read_GEO_Delim使用 fread 函数自动检测文件分隔符并快速读取,然后将对象转换为稀疏矩阵以节省内存

# Read in and use file names to name the list (default)
GEO_Single <- Read_GEO_Delim(data_dir = "assets/GSE121654_RAW_Hammond/GSE121654_RAW_Hammond/", file_suffix = ".dge.txt.gz")

# Read in and use new sample names to name the list
GEO_Single <- Read_GEO_Delim(data_dir = "assets/GSE121654_RAW_Hammond/GSE121654_RAW_Hammond/", file_suffix = ".dge.txt.gz",
    sample_names = c("sample01", "sample02", "sample03", "sample04"))

image
根据文件名或提供的 sample_names参数以默认命名的示例输出。
Read_GEO_Delim附加参数,请参阅手动输入以了解更多信息。

使用 Seurat 分析来自 drop-seq 管道的数字基因表达数据 (DGE)。

https://www.biostars.org/p/351699/

标签:loom,sceasy,anndata,Drop,测序,filename,install,格式
From: https://www.cnblogs.com/kingwz/p/18356386

相关文章

  • Lombok 使用教程-@Accessors | 自定义getters和setters的生成格式
    作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬学习必须往深处挖,挖的越深,基础越扎实!阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析......
  • python格式化输出
    age=30score=77.5gender='男'name="贾宝玉"#想要去除默认的左右空格可以通过“+”将所有的对象连接成一个字符串来避免默认的空格print("个人信息:"+name+"--"+str(age))#使用%,称为占位符print("个人信息:%s-%d-%s-%.2f"%(name,age,gender,sc......
  • 预训练PDF数据格式转换
      大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。授权多项发明专利。对机器学习和......
  • 【办公软件学习】如何将Word格式转换为Markdown格式
    一键!将Word转换为Markdown参考链接1:https://zhuanlan.zhihu.com/p/30891168参考链接2:https://blog.csdn.net/qq15035899256/article/details/125547483参考链接3:https://word2md.com/方法一:Writage+Pandoc—双剑合璧!下载并安装Writage,下载地址:http://www.writage.c......
  • python datetime 时间格式转换
    1、字符串转时间datetime.strptimeimportdatetimedatetime.datetime.strptime('2020-08-1',"%Y-%m-%d")datetime.datetime.strptime('2020-08-123:30:59',"%Y-%m-%d%H:%M:%S")2、时间转字符串datetime.strftimeimportdatetimecurr......
  • 视野修炼-技术周刊第96期 | 即时媒体格式转换
    欢迎来到第96期的【视野修炼-技术周刊】,下面是本期的精选内容简介......
  • LLaMA-Factory微调llama3之模型的合并,并采用llama.cpp量化成ollama支持的gguf格式模型
    上期我们已经成功的训练了模型,让llama3中文聊天版知道了自己的名字这次我们从合并模型开始,然后使用llama.cpp量化成gguf格式,并且调用api(1)前期准备上期链接: 基于LLaMA-Factory微调llama3成为一个角色扮演大模型,保姆级教学零基础,导出GGUF格式前篇-CSDN博客 首先根据上期......
  • api接口数据安全格式转换-DES,AES,SM2
    api接口数据安全格式转换-DES,AES,SM21.数据格式{"orderNo":"",//其他的业务数据}返回{"sign":"","params":"","timestamp":""}实现接口的加密传输,数据安全规范。返回DEMOsign=8E4D93D831652C94473994DBB0846F11,params=043be41......
  • 东芝新小黑移动硬盘数据被格式化如何恢复(2024年8月版)
    在数字化时代,数据已成为我们生活和工作中不可或缺的一部分。东芝新小黑移动硬盘,以其便携性和大容量,成为许多用户存储重要数据的首选。然而,当这些宝贵的数据因意外格式化而面临丢失的风险时,我们该如何应对?本文将深入探讨东芝新小黑移动硬盘数据被格式化后的恢复方法,希望帮助用户......
  • java实现解析pdf格式发票
    为了减少用户工作量及误操作的可能性,需要实现用户上传PDF格式的发票,系统通过解析PDF文件获取发票内容,并直接将其写入表单。以下文章记录了功能实现的代码。发票样式发票内容解析引用Maven使用pdfbox<dependency><groupId>org.apache.pdfbox</groupId><artif......