📅  最后修改于: 2023-12-03 15:38:24.860000             🧑  作者: Mango
在数据分析中,按组计算汇总统计是一个很常见的需求。R 语言提供了多种方法来实现这个目的。下面我们介绍两种常用的方法:
dplyr 包是一个重要的数据处理包,它提供了许多功能强大且易于使用的函数,用于按组对数据进行汇总统计。
我们可以使用 group_by()
函数来按照指定变量进行分组:
library(dplyr)
# 读入数据
data <- read.csv("data.csv")
# 按照 sex 变量进行分组
data_grouped <- group_by(data, sex)
# 计算每组的平均身高和体重
summary <- summarize(data_grouped, mean_height = mean(height), mean_weight = mean(weight))
# 输出统计结果
summary
上述代码中,group_by()
函数将数据按照 sex
变量进行分组,并返回一个分组后的数据框,然后 summarize()
函数用于计算每个分组的平均身高和体重,返回一个包含统计结果的数据框。
除了 dplyr 包外,R 基本库还提供了实现按组计算汇总统计的函数,其中最常用的就是 aggregate()
函数。
# 读入数据
data <- read.csv("data.csv")
# 按照 sex 变量进行分组,计算每组的平均身高和体重
summary <- aggregate(cbind(height, weight) ~ sex, data = data, mean)
# 输出统计结果
summary
上述代码中,aggregate()
函数按照 sex
变量进行分组,计算每个分组的平均身高和体重,返回一个包含统计结果的数据框。
本文介绍了在 R 中按组计算汇总统计的两种常用方法:使用 dplyr 包和使用 aggregate 函数。虽然这两种方法都可以实现我们的需求,但是建议您学习 dplyr 包,因为它提供了更多功能强大且易于使用的函数,能够更好地满足数据处理的需求。