首页 > 其他分享 >玩转10x单细胞 | scRNA-seq | scATAC-seq | Spatial transcriptome | CRISPR | Perturb-seq

玩转10x单细胞 | scRNA-seq | scATAC-seq | Spatial transcriptome | CRISPR | Perturb-seq

时间:2022-08-23 18:35:07浏览次数:75  
标签:rw seq Perturb -- fastq gz L003 transcriptome

 

10x是最成功的单细胞公司,目前最成功的商业平台,已经有很多成熟的单细胞产品线,不管是新手还是进阶的高手都在玩他们平台产生的数据。

这里试图对10x的核心技术和数据来做一个剖析,试图理解其核心原理,加速数据分析进程,辅助科研发现。

 

我目前玩过的10x数据:

  • scRNA-seq (antibody hashtag)
  • visum - Spatial transcriptome
  • scATAC-seq
  • Perturb-seq (CRISPR library)

可玩性非常高,特别是结合具体的临床医学问题。

 

目录

  • 分析流程
  • 建库原理
  • 单细胞展望

 

分析流程

fastq

【一般测序公司会直接提供,最开始的时候还得自己bcl2fastq】

但fastq的格式每个测序平台会有差异

最常见的格式【所有index都直接放进了R1和R2里,paired end 150bp】:

-rw-r--r--  1 zxli  staff   9.0G Mar 25  2021 UE-D60-BO-2-1_S21_L003_R1_001.fastq.gz
-rw-r--r--  1 zxli  staff   5.3G Mar 25  2021 UE-D60-BO-2-3_S23_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   8.2G Mar 25  2021 UE-D60-BO-2-1_S21_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   6.2G Mar 25  2021 UE-D60-BO-2-2_S22_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   5.6G Mar 25  2021 UE-D60-BO-2-4_S24_L003_R2_001.fastq.gz
-rw-r--r--  1 zxli  staff   6.2G Mar 25  2021 UE-D60-BO-2-4_S24_L003_R1_001.fastq.gz
-rw-r--r--  1 zxli  staff   5.8G Mar 25  2021 UE-D60-BO-2-3_S23_L003_R1_001.fastq.gz
-rw-r--r--  1 zxli  staff   6.7G Mar 25  2021 UE-D60-BO-2-2_S22_L003_R1_001.fastq.gz

  

这时的分析脚本的参数就是:

sampleName=UE-D60-BO-2
--sample=${sampleName}-1,${sampleName}-2,${sampleName}-3,${sampleName}-4

  

另一种就是index单独存放,可以存成一个fastq,也可以是单独的两个fastq

-rw-r--r-- 1 lizhixin engan 235M Aug 22 12:35 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_I1_001.fastq.gz
-rw-r--r-- 1 lizhixin engan 259M Aug 22 12:35 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_I2_001.fastq.gz
-rw-r--r-- 1 lizhixin engan 1.8G Aug 22 12:38 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_R1_001.fastq.gz
-rw-r--r-- 1 lizhixin engan 1.7G Aug 22 12:41 HT29_P1_CRISPR_CKDL220019395-1A_H7MJYDSX5_S1_L003_R2_001.fastq.gz

  

这时的分析脚本的参数就是:

--sample=HT29_P1_GEX_CKDL220019394-1A_H7MN2DSX5

  

cellranger在你填错sample name的时候会提醒你!

 

matrix

10x的诸多测序都是使用三个文件的matrix来存储,放在filtered_feature_bc_matrix里

-rw-r--r-- 1 lizhixin engan 137M Aug 23 00:21 matrix.mtx.gz
-rw-r--r-- 1 lizhixin engan 326K Aug 23 00:21 features.tsv.gz
-rw-r--r-- 1 lizhixin engan  56K Aug 23 00:21 barcodes.tsv.gz

最新的是For sparse matrices, the matrix is stored in the Market Exchange Format (MEX),防止冗余,文件就只有几百M(~1w细胞 x 3w基因)。

第一列就是行坐标,第二列就是列坐标,省去了字符串,方便压缩。

唯一的字符串,基因名和细胞名则单独存放成文件。

 

downstream

下游的分析标准流程我只用Seurat,API做得好,功能丰富,速度快,完全没有自己开发的必要,工欲善其事必先利其器。

一些个性化的分析就可以用其他工具,Seurat的数据导出也是非常方便,甚至自己可以基于其结构开开发自己的工具。

 

 

 

 

建库原理

最好还是搞懂吧,一切皆是接口,搞懂了自己也可以随便玩。

  • scRNA-seq (antibody hashtag)
  • visum - Spatial transcriptome
  • scATAC-seq
  • Perturb-seq (CRISPR library)

 

 

 

单细胞展望

towards the end, the ultimate architecture of life!

 

 

 

待续~

 

标签:rw,seq,Perturb,--,fastq,gz,L003,transcriptome
From: https://www.cnblogs.com/leezx/p/16615922.html

相关文章

  • Link with Monotonic Subsequence(构造)
    题意定义lis为最长上升子序列,lds为最长下降子序列。构造一个排列\(p\),使得\(\max(lis(p),lds(p))\)最小。题目链接:https://ac.nowcoder.com/acm/contest/33187/G数据......
  • 936. Stamping The Sequence
    Youaregiventwostrings stamp and target.Initially,thereisastring s oflength target.length withall s[i]=='?'.Inoneturn,youcanplace st......
  • CF815 D2 Xor-Subsequence (hard version)(01trie)
    传送门sb题面误导了我半天。按位考虑,对于\(a[i]\)和\(i\)的一位考虑什么样的\(a[j]\)和\(j\)可以转移过来,发现这一位有一种一定可以一种一定不行,还有两种不确定。考虑......
  • "蔚来杯"2022牛客暑期多校训练营2 G-Link with Monotonic Subsequence
    问题描述First,let'sreviewsomedefinitions.Feelfreetoskipthispartifyouarefamiliarwiththem.Asequence aaaisanincreasing(decreasing)subsequ......
  • Codeforces Round #815 (Div. 2) D2 Xor-Subsequence (hard version)
    原题链接\(A>B\),总是有二进制下从高到低的前\(k\)位相等,第\(k+1\)位\(A\)是\(1\),\(B\)是\(0\)本题中\(A=a_i\oplusj\),\(B=a_j\oplusi\),这里有一个很奇妙的性质(手玩或者......
  • D2. Xor-Subsequence (hard version)
    D2.Xor-Subsequence(hardversion)昨天cf的E题,挺好的一个DP优化问题。暴力的DP就是设dp[i]表示以i结尾的最长长度。转移时枚举之前的所有j,复杂度O(n^2)。考虑怎么优......
  • longest increasing subsequence
    300. LongestIncreasingSubsequenceMediumGivenanintegerarray nums,returnthelengthofthelongeststrictlyincreasingsubsequence.A subsequence......
  • 【Azure 事件中心】从Azure Event Hub中消费数据,如何查看当前消费客户端消费数据的Off
    问题描述当通过AzureEventHubSDK消费EventHub中的消息时,必须指定一个StorageAccount(存储账号)用于保存Checkpoint(检查点)。 比如在C#代码中,需要指定StorageAc......
  • CF145C Lucky Subsequence
    题目链接:洛谷CodeforcesProblem这题目翻译真的神了,好多歧义,看不懂,给一个本人翻译:给你一个长度为\(n\)的序列\(a\),定义幸运数为仅含有\(4\)或\(7\)的数,你需要取......
  • consequence
    sequence/ˈsi:kwəns/[fromLatinsequi'tofollow']theorderinwhichsomethinghappensorexistsaseriesofrelatedevents,actionsetcthathappenorar......