首页 > 其他分享 >单细胞测序 缺失值填充 imputation

单细胞测序 缺失值填充 imputation

时间:2023-10-31 15:02:48浏览次数:54  
标签:校正 填充 批次 方法 测序 imputation 单细胞 数据 缺失

单细胞测序  缺失值填充
技术数据校正的另一种类型是缺失值填充(也称为降噪或插补, denoising or imputation)。单细胞转录组的数据包含各种噪声。这种噪音的一个特别突出的来源是dropout。推断dropouts事件,用推断出的合适的表达值替换这些零以减少数据集中的噪声成为几种最新工具的目标 (工具:MAGIC, DCA, scVI, SAVE, scImpute)。已证明进行缺失值填充可改善基因与基因相关性的估计。此外,这一步也可以与标准化、批次校正和其他下游分析整合,就像在scVI工具中实现的那样。尽管大多数数据校正方法都将标准化后的数据作为输入,但是某些缺失值填充方法是基于预期的负二项噪声分布,需要基于原始计数矩阵进行操作。在应用缺失值填充时,应考虑到没有一种方法是完美的。因此,任何方法都可能会对数据中的噪声进行过高校正或校正不足。确实,已有报道表明缺失值填充可能引入错误的相关信号。鉴于在实际应用中难以评估缺失值填充是否得当,用户选择是否应用这一方法也是很大的挑战。当前缺失值填充方法是否能拓展应用到大数据集还是一个问题。鉴于这些考虑,目前尚无关于应如何使用缺失值填充的共识。谨慎的方法是仅在视觉展示数据时使用缺失值填充,而非在探索性数据分析过程中基于填充的数据作出推论或假设。全面的实验验证在这里尤为重要。

陷阱和建议:
仅在进行轨迹推断和校正的生物学混杂因素不影响感兴趣的生物学过程时才校正这些因素的影响。

如果校正的话,所有因素同时校正而不是分别校正技术和非关注的生物因素变量。

基于板的数据集预处理时需要校正count数的影响,建议采用非线性标准化方法或downsampling方法进行标准化。

当批次之间的细胞类型和状态组成一致时,建议通过ComBat执行批次校正。

数据整合和批次校正应通过不同的方法进行。数据整合工具可能会过度校正简单的批次效应。

用户需要对只在缺失值填充后才能发现的信号格外注意。探索性分析时最好不进行缺失值填充操作。

https://www.embopress.org/doi/full/10.15252/msb.20188746

http://blog.sciencenet.cn/blog-118204-1220240.html



标签:校正,填充,批次,方法,测序,imputation,单细胞,数据,缺失
From: https://blog.51cto.com/emanlee/8105450

相关文章

  • 单细胞测序 基因调控网络 Gene regulatory networks
    单细胞测序基因调控网络Generegulatorynetworks基因不是独立发挥作用的。相反,基因的表达水平是由与其他基因和小分子之间的复杂调控决定的。揭示这些调控作用是基因调控网络(GRN)推断方法的目标(SCENIC|从单细胞数据推断基因调控网络和细胞类型)。基因调控网络推断是基于对基因共......
  • 空间转录组测序 概述
    空间转录组测序概述在多细胞生物中,单个细胞的基因表达严格按特定的时间和空间顺序发生,即基因表达具有时间特异性和空间特异性。时间特异性可以通过对不同时间点的样本取材,使用单细胞转录组测序技术来解析时间维度上细胞类型和基因表达模式。空间特异性信息则相对较难获得。常规转......
  • 单细胞测序 rare cell 罕见的细胞类型
    单细胞测序 rarecell------------------------------------------罕见的细胞类型来说,鉴定出它们特定的标记基因目前仍存在很大挑战。而发现一些罕见的细胞类型,如干细胞,短暂存在的前体细胞,癌症干细胞或循环肿瘤细胞,对于深入理解正常和疾病状态下的组织生物学具有非常重要的意义。......
  • 单细胞测序 批次效应 batch effect
    什么是批次效应?大型的单细胞测序项目一般都会产生许多细胞,这些样本制备过程很难保持时间一致、试剂一致,另外上机测序的时候也不一定在同一个测序仪上。具体可以看这篇文章:https://www.nature.com/articles/nrg2825Batcheffectsaresub-groupsofmeasurementsthathavequalitat......
  • 单细胞测序 doublet 二聚体
    Doublets及其形成的原因单细胞测序期望每个barcode标签下只有一个真实的细胞,但是实际数据中会有两个或多个细胞共用一个barcode的情况,业内称之为doublets或multiplets(后面统称为doublets)。Doublets形成的原因主要是高通量单细胞测序一般使用液滴微流控(dropletmicrofluidi......
  • 单细胞测序技术 概述
    单细胞测序技术是指在单个细胞水平上对转录组或基因组进行扩增并测序,以检测单细胞在基因组(结构变异-StructuralVariations-SVs;拷贝数变异-Copynumbervariants-CNVs;单核苷酸变异-Singlenucleotidevariants-SNVs等),转录组学(RNA表达水平;转录本的选择性剪接),表观组学(DNA甲基化等),蛋......
  • 单细胞测序 RNA velocity | RNA速率
    单细胞测序RNAvelocity|RNA速率RNAvelocity:thetimederivativeofthegeneexpressionstate—canbedirectlyestimatedbydistinguishingbetweenunsplicedandsplicedmRNAsincommonsingle-cellRNAsequencingprotocols.ahigh-dimensionalvectorthatpredic......
  • linux 中 prefetch命令批量下载sra测序数据
     001、prefetch的安装  002、准备下载sra号的列表  003、设置下载存储目录  004、下载命令 。 参考:https://codeleading.com/article/83981102254/......
  • 重测序数据碱基质量评估
     001、测序数据为fastq格式fastq格式数据没四行为一个单位,其中第二行是碱基,第四行为对应的碱基质量值:如下:(base)[b20223040323@admin1test01]$ls##测试fastq格式数据test.fastq(base)[b20223040323@admin1test01]$head-n4test.fastq|cat-n##第......
  • 为什么要双末端测序
     001、测序时,DNA片段被打断,但是打断的片段仍然很长。二代测序的读长短,为了更多的获取同一个DNA片段上的信息,因此出现了从两端测序,尽可能多的捕获这个DNA片段的信息。  。 ......