R：计算均值和标准差并进行多重比较

时间：2024-03-19 09:44:58浏览次数：31

rm (list = ls ()) #清除所有变量
setwd("C:\\Users\\Administrator\\Desktop\\新建文件夹\\FAPROTAX微生物功能预测") #设置工作目录

# 加载所需的包
library(tidyverse)
library(agricolae)
library(dplyr)

# 读取数据
abundance_file <- "vegan.txt" # 功能丰度文件路径
group_file <- "metadata.txt" # 样本分组文件路径

abundance_data <- read.csv(abundance_file, sep = "\t", row.names = 1, check.names = FALSE)
group_data <- read.csv(group_file, sep = "\t", header = FALSE, col.names = c("Sample", "Group"))

# 整理分组信息
# 假设分组文件有两列，第一列为样本名，第二列为对应的分组
colnames(group_data) <- c("Sample", "Group")
# 转换丰度数据为长格式
abundance_long <- as.data.frame(t(abundance_data))
abundance_long$Sample <- rownames(abundance_long)
melted_data <- reshape2::melt(abundance_long, id.vars = "Sample")
# 合并分组信息
merged_data <- merge(melted_data, group_data, by = "Sample")

# 计算每个功能每一组的均值和标准差
group_summary <- merged_data %>%
  group_by(variable, Group) %>%
  summarise(Mean = mean(value), SD = sd(value))

# 指定分组的顺序
groups_order <- c("B73_DAS28", "B73_DAS42", "B73_DAS56", "B73_DAS70", 
                  "Mo17_DAS28", "Mo17_DAS42", "Mo17_DAS56", "Mo17_DAS70")

# 确保merged_data中的Group列是因子类型，并设置正确的水平
merged_data$Group <- factor(merged_data$Group, levels = groups_order)

# 对每个功能进行ANOVA分析和Tukey HSD测试
analysis_results <- list()
for(feature in unique(merged_data$variable)) {
  feature_data <- subset(merged_data, variable == feature)
  model <- aov(value ~ Group, data = feature_data)
  tukey <- HSD.test(model, "Group", console = TRUE)
  analysis_results[[feature]] <- tukey
}

# 准备输出数据框
output_data <- data.frame(Feature = character(),
                          Group = factor(levels = groups_order),
                          Mean = numeric(),
                          SD = numeric(),
                          Significance = character())

# 填充输出数据
for(feature in names(analysis_results)) {
  groups_info <- analysis_results[[feature]]$groups
  for(group_name in groups_order) { # 按指定顺序处理分组
    if(group_name %in% rownames(groups_info)){
      group_data <- subset(merged_data, variable == feature & Group == group_name)
      mean_val <- mean(group_data$value)
      sd_val <- sd(group_data$value)
      sig_mark <- as.character(groups_info[group_name, "groups"])
      output_data <- rbind(output_data, data.frame(Feature = feature,
                                                   Group = group_name,
                                                   Mean = mean_val,
                                                   SD = sd_val,
                                                   Significance = sig_mark))
    }
  }
}

# 输出结果到TXT文件
write.table(output_data, "output_results.txt", row.names = FALSE, sep = "\t", quote = FALSE)

标签：多重,读取数据,均值,value,标准差,library
From： https://www.cnblogs.com/wzbzk/p/18082069

代码随想录算法训练营第day46|139.单词拆分、多重背包
目录139.单词拆分多重背包 139.单词拆分力扣题目链接(opensnewwindow)给定一个非空字符串s和一个包含非空单词的列表wordDict，判定 s是否可以被空格拆分为一个或多个在字典中出现的单词。说明：拆分时可以重复使用字典中的单词。你可以假设字典中没有重复的单......
代码随想录算法训练营第四十六天| 139.单词拆分多重背包背包问题总结篇！
单词拆分题目链接：139.单词拆分-力扣（LeetCode）思路：竟然真能转化为背包问题。classSolution{public:boolwordBreak(strings,vector<string>&wordDict){unordered_set<string>t(wordDict.begin(),wordDict.end());vector<bool>dp(s.size()+......
代码随想录算法训练营第四十六天 | 背包问题总结篇！，关于多重背包，你该了解这些！，139.单词
背包总结听说背包问题很难？这篇总结篇来拯救你了年前我们已经把背包问题都讲完了，那么现在我们要对背包问题进行总结一番。背包问题是动态规划里的非常重要的一部分，所以我把背包问题单独总结一下，等动态规划专题更新完之后，我们还会在整体总结一波动态规划。关于这几种常见......
使用Julia语言展示几何平均值与算数平均值在实际应用中的差别(采用注册计量师考试试题
理论部分在注册计量师考试中有一道试题，大体内容为：现在有一块砝码在等臂天平上进行测量，第一次测得值是19.6g，调换两边位置后的测得值是19.7g，天平最终测得检测样品的重量为多少？个别同事可能会将算数平均值作为这个砝码的最终测量值，但实际应当使用几何平均值的方式计算，算数......
有关幅值、振幅、峰值、峰峰值、有效值、平均值的区分
本文以Ut=10sin(wt)的正弦电压为例:幅值：10V振幅:10V峰值(Vp:Peak):10V峰峰值(Vpp:Peaktopeak):20V有效值(Vrms):10/2^(1/2)-->峰值除以根号二平均值(Vavg):这边提以下半波整流与全波整流下平均值与峰值的关系半波整流:Vavg=0.45Vp全波整流:Vavg=0.9Vp注意:......
多重背包详解，二进制优化、单调队列优化
文章目录零、前言一、多重背包初步1.1问题描述1.2朴素算法二、朴素算法的优化策略2.1二进制优化2.1.1算法思想2.2二进制优化的正确性证明2.3代码实现2.2单调队列优化2.2.1算法思想2.2.2代码实现2.3、总结三、OJ练习3.1P1776宝物筛选3.1.1原题链接3.1.2思路分析3.1.3......
数据结构算法系列----背包问题（01，完全，多重）
一、01背包1、01背包介绍 "01背包"是一个经典的动态规划问题。在01背包中，给定一个背包容量和一组物品，每个物品都有自己的重量和价值。问题的目标是选择一些物品放入背包中，使得放入的物品总重量不超过背包容量，同时使得放入的物品总价值最大。 "01"表......
多重映射
题目：AtCoderBeginnerContest342_C链接：https://atcoder.jp/contests/abc342题意：给出一串字符串S，字符串仅由小写字母组成，有m次操作，第mi次操作的意思为将字符串S中所有出现的字符C转化为字符D，m次操作完成后输出最终字符串。思路：本题是一道非常标准的字符多重映射问题，仅需要用......
MATLAB数据挖掘用改进的K-Means(K-均值)聚类算法分析高校学生的期末考试成绩数据
全文链接：http://tecdat.cn/?p=30832原文出处：拓端数据部落公众号本文首先阐明了聚类算法的基本概念，介绍了几种比较典型的聚类算法，然后重点阐述了K-均值算法的基本思想，对K-均值算法的优缺点做了分析，回顾了对K-均值改进方法的文献，最后在Matlab中应用了改进的K-均值算法对数据进行了......
均值不等式证明（拉格朗日乘数法）
Part1求证：\(\frac{n}{\sum_{i=1}^{n}\frac{1}{y_i}}\leq({\prod_{i=1}^{n}y_i})^{\frac{1}{n}}\)\(y_i\)为正实数\(n\geq3\)证明：令\(x_i\)=\(y_i^{\frac{1}{n}}\)且\(x_i\)为正实数原命题等价于：\[{\prod_{i=1}^{n}x_i}-\frac{n}{\sum_{i=1}^{n}\......

R：计算均值和标准差并进行多重比较

相关文章

赞助商

阅读排行