(单细胞下游分析——不同类型的数据读入,与部分数据类型的转化)
.h5ad(anndata 数据格式)
10x_mtx(cell ranger输出,三个文件)
就是cell ranger上游比对分析产生的3个文件:
├── xxx_feature_bc_matrix
│ ├── barcodes.tsv.gz:细胞标签(barcode)
│ ├── features.tsv.gz:基因ID(feature)
│ └── matrix.mtx.gz:表达数据(matrix)
具体文件格式如下:
>barcodes.tsv.gz
AAACCCAAGAAACCCA-1
AAACCCAAGAAAGTCT-1
AAACCCAAGAAATTGC-1
AAACCCAAGAACAAGG-1
============
>features.tsv.gz
ENSG00000243485 MIR1302-2HG Gene Expression
ENSG00000237613 FAM138A Gene Expression
ENSG00000186092 OR4F5 Gene Expression
ENSG00000238009 AL627309.1 Gene Expression
============
>matrix.mtx.gz
%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "Cell Ranger cellranger-8.0.1", "format_version": 2}
36601 643092 12843054
19846 1 1
8208 2 1
31505 3 1
22399 4 1
一般先使用read10X()对这三个文件进行整合,得到行为基因、列为细胞的表达矩阵(为稀疏矩阵dgCMatrix格式,节约内存);然后再配合CreateSeuratObject()函数创建Seurat对象
counts.matrix.tsv.gz(一个文件)
counts.matrix.tsv.gz格式的文件里面包含了转成10x_mtx 格式的所有信息:
- 第一行是条形码(基因序列)(barcodes.tsv.gz)
- 第一列是基因(features.tsv.gz)
- 其余就是0/1矩阵(reads 计数)(matrix.mtx.gz)