计算 R 中 DataFrame 列中 NA 值的数量(1) - 芒果文档

📌 相关文章

📜 计算 R 中 DataFrame 列中 NA 值的数量(1)

📅 最后修改于: 2023-12-03 15:27:57.947000 🧑 作者: Mango

在R中，数据框（DataFrame）是最常用的数据类型之一。而数据中常常会包含缺失值，我们需要计算数据框中每一列中缺失值（NA）的数量。下面我们介绍几种方法来实现这个功能。

首先，我们需要准备一个示例数据框：

# 创建示例数据框
df <- data.frame(A = c(1, 2, NA, 4), B = c(NA, 2, 3, 4), C = c(1, 2, 3, 4))

下面是四种不同的方法，计算数据框df中每一列的缺失值数量。

方法1：使用colSums和is.na函数

下面的代码使用colSums和is.na函数来计算缺失值数量：

# 使用colSums和is.na函数计算缺失值数量
colSums(is.na(df))

输出结果如下：

A B C 
1 1 0

结果表明，在df数据框的列A中有1个缺失值，在列B中有1个缺失值，在列C中没有缺失值。

这种方法的原理是先使用is.na函数将缺失值转化为1，非缺失值转化为0，然后使用colSums函数对每一列的1求和，就得到每一列的缺失值数量。

方法2：使用sapply和sum函数

下面的代码使用sapply和sum函数来计算缺失值数量：

# 使用sapply和sum函数计算缺失值数量
sapply(df, function(x) sum(is.na(x)))

输出结果如下：

A B C 
1 1 0

这种方法的原理是使用sapply函数对df数据框的每一列应用匿名函数，匿名函数使用sum和is.na函数计算缺失值数量。

方法3：使用colSums和complete.cases函数

下面的代码使用colSums和complete.cases函数来计算非缺失值数量：

# 使用colSums和complete.cases函数计算非缺失值数量
colSums(complete.cases(df))

输出结果如下：

A B C 
3 3 4

这种方法的原理是使用complete.cases函数生成一个逻辑向量，表示每一行是否包含缺失值，然后使用colSums函数对每一列的TRUE求和，就得到每一列的非缺失值数量。由于数据框的行数是固定的，所以非缺失值数量等于总行数减去缺失值数量。

方法4：使用dplyr包

如果需要经常进行数据处理和分析，dplyr包是一个非常方便的工具，它包含了许多用于数据操作的函数。

下面的代码使用dplyr包中的summarise_all函数来计算缺失值数量：

# 使用dplyr包计算缺失值数量
library(dplyr)
df %>% summarise_all(funs(sum(is.na(.))))

输出结果如下：

A B C
1 1 0

这种方法的原理是使用summarise_all函数对df数据框中的所有列应用匿名函数，匿名函数使用sum和is.na函数计算缺失值数量。%>%符号是一种非常方便的管道操作符，可以将前一个函数的输出作为后一个函数的输入，使代码更加简洁。