首页 > 其他分享 >随机抽样将所有样本的测序深度标准化到相同的水平

随机抽样将所有样本的测序深度标准化到相同的水平

时间:2024-05-07 10:58:44浏览次数:21  
标签:抽样 稀释 样本 测序 深度 随机抽样 OTU

dataset$sample_sums() %>% range #计算并查看样本总数的范围

dataset$rarefy_samples(sample.size = 1000000) #执行重采样,标准化样本中的测序深度

  1. "46 features are removed because they are no longer present in any sample after random subsampling ..."

    • 这意味着在稀释过程中,有46个特征(OTUs或物种)在所有样本中的累计计数都低于10000,导致在抽样过程中这些特征被完全移除。这通常发生在具有较低丰度的特征上,当抽样深度设置过高时,较低丰度的特征可能完全不会被抽到。
  2. "46 taxa with 0 abundance are removed from the otu_table ..."

    • 这表示因为上述稀释抽样,这些特征的丰度变为0,因此从OTU表中被移除。这是对OTU表进行清理的正常步骤,以确保表中不包含任何无效或空的数据行。

 

稀释抽样(rarefaction)的原理基于一个简单的假设:如果样本之间的测序深度(即测序得到的读数总数)不同,那么它们之间的比较可能会因为测序量的差异而产生偏差。为了消除这种潜在的偏差,稀释抽样通过随机抽样将所有样本的测序深度标准化至相同的较低水平,从而使比较更为公正。

稀释抽样的原理和步骤

  1. 选择一个共同的测序深度:这通常是所有样本中观测到的最低测序深度,或者一个根据研究目的选择的特定值。这个值称为“稀释深度”。

  2. 随机抽取:对于每个样本,从其OTU(操作分类单元)表中随机抽取与稀释深度相等数量的读数。这意味着从每个样本中随机选择读数,直到达到指定的稀释深度。

  3. 重复计算:由于抽样是随机的,不同的随机抽样可能会导致略有不同的结果。因此,这个过程通常需要重复多次,以平均这些随机变化。

  4. 更新OTU表:每次随机抽样都会生成一个更新后的OTU表,其中包含每个OTU在每个样本中的丰度。在多次重复后,这些更新后的OTU表通常被平均或合并,以形成最终的稳定结果。

稀释抽样的效果和目的

  • 消除测序深度偏差:通过将所有样本的测序深度标准化,可以确保数据比较的公平性,避免因样本间测序深度差异而导致的分析偏差。

  • 数据稳定性和可靠性:稀释抽样可以减少由测序深度变化引起的样本间的变异性,使得生物多样性的估计更加稳定和可靠。

  • 生物多样性估计:稀释抽样广泛用于估计物种丰富度和多样性指数,如Shannon多样性指数和Simpson多样性指数,因为这些估计通常对样本的测序深度非常敏感。

通过稀释抽样,研究者可以更准确地评估和比较不同样本或实验条件下的微生物群落结构,而不会受到技术变量(如测序深度)的影响。这种方法特别适用于测序数据量大且差异显著的生态或医学微生物研究中。

标签:抽样,稀释,样本,测序,深度,随机抽样,OTU
From: https://www.cnblogs.com/wzbzk/p/18176706

相关文章

  • 如何有效地评估待用于微调的样本质量
    一、什么是大模型指令微调(instructiontuning)大模型指令微调(InstructionTuning)是一种针对大型预训练语言模型的微调技术,其核心目的是增强模型理解和执行特定指令的能力,使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模......
  • 易基因:Nat Commun:RRBS测序揭示小鼠衰老过程中的DNA甲基化变化轨迹|研究速递
    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。DNA甲基化数据可以生成非常精确的年龄预测器,但关于这一关键表观遗传生物标志物在生命周期中的动态变化知之甚少。关于衰老不连续方面的研究仍处于起步阶段,关键的分子过程如表观基因组调控过程还有待研究。莱布尼......
  • 实验16-使用GAN生成手写数字样本
    版本python3.7tensorflow版本为tensorflow-gpu版本2.6运行结果: 代码:from__future__importprint_function,divisionfromkeras.datasetsimportmnistfromkeras.layersimportInput,Dense,Reshape,Flatten,Dropoutfromkeras.layersimportBatchNormalizatio......
  • 艾科瑞特科技:自然语言处理-全任务支持零样本学习模型-中文版
    艾科瑞特科技:自然语言处理-全任务支持零样本学习模型-中文版关键词:目标检测、目标跟踪、图像识别、图像分类、视频分析、自然语言处理、自然语言分析、计算机视觉、人工智能、AIGC、AI、大模型、多模态大模型、API、Docker、镜像、API市场、云市场、国产软件、信创内容摘要:......
  • R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
    全文链接:https://tecdat.cn/?p=35691原文出处:拓端数据部落公众号分析师:QingLi在生物学和医学研究中,乳腺发育是一个复杂而精细的过程,涉及众多基因的表达调控。近年来,随着高通量测序技术的发展,RNA测序(RNA-seq)技术已经成为研究基因表达模式的有力工具。通过RNA-seq技术,我们可以获......
  • 【转载】逐际动力双足机器人P1在深圳塘朗山零样本、无保护、全开放完成测试
    原文:https://weibo.com/1255595687/O5k4Aj8l2【逐际动力双足机器人P1在深圳塘朗山零样本、无保护、全开放完成测试】上周,就在全球AI界被美国初创公司Figure联合OpenAI发布的首款人形机器人Figure01相关视频而震撼的时候,中国深圳的“逐际动力双足机器人P1”早已低调地完成......
  • [文章分享] Biobank测序时代的罕见变异关联分析进展综述
    「文献题目」Recentadvancesandchallengesofrarevariantassociationanalysisinthebiobanksequencingera「中文标题」生物样本库测序时代罕见变异关联分析的最新进展和挑战「期刊和影响因子」期刊:FrontiersinGeneticsIF:3.7JCR分区:Q2中科院分区:Q3......
  • MogDB 使用样本数据集Mogila
    MogDB使用样本数据集MogilaMogDB提供了一个样本数据集Mogila,本数据集借鉴了适用于MySQL的Sakila示例数据库。Sakila最初由MySQLAB文档团队的MikeHillyer开发,其目的是提供一个可用于书籍、教程、文章、样本等示例的标准schema。Mogila数据集是一个关于DVD出租店......
  • jieba分词+sk-learn计算样本问题最相似的问题
    场景:输入一段内容,找到问题集中跟该内容最相似的问题importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["出来钓鱼了喂","王大腚爱钓鱼","格小格爱爱钓鱼",......
  • Python环境下基于注意力机制的小样本轴承故障诊断
    传统的基于特征提取与分类相结合的轴承智能诊断算法,对信号处理要求很高的专家经验,既费时又缺乏通用性。基于深度学习的智能轴承故障诊断方由于具有强大的特征提取能力,避免了繁琐复杂的特征提取工作,但是大多数研究都是在标准数据集下进行的,这意味着模型能够使用足量的数据进行训......