删除数据框 r 中的重复值 (1)

📌 相关文章

📜 删除数据框 r 中的重复值 (1)

📅 最后修改于: 2023-12-03 15:07:15.304000 🧑 作者: Mango

删除数据框 r 中的重复值

数据清洗是数据分析的重要步骤之一，而在进行数据清洗时，常常会遇到重复数据的情况。在 R 语言中，我们可以利用函数来删除数据框中的重复值。

函数

在 R 中，我们可以使用 distinct() 函数来删除数据框中的重复值。该函数的基本语法如下：

distinct(data, ...)

data：要去重的数据框。
...：指定去重时需要考虑的列名。

示例

下面我们通过一个示例来演示如何使用 distinct() 函数删除数据框中的重复值。

假设我们有一个名为 students 的数据框，保存着学生信息：

| id | name | age | gender | score | |----|------|-----|--------|-------| | 1 | 小明 | 20 | 男 | 80 | | 2 | 小红 | 19 | 女 | 85 | | 3 | 小刚 | 21 | 男 | 90 | | 4 | 小李 | 20 | 男 | 75 | | 1 | 小明 | 20 | 男 | 80 |

我们可以使用以下代码来删除重复值：

# 加载数据框
students <- data.frame(
  id = c(1, 2, 3, 4, 1),
  name = c("小明", "小红", "小刚", "小李", "小明"),
  age = c(20, 19, 21, 20, 20),
  gender = c("男", "女", "男", "男", "男"),
  score = c(80, 85, 90, 75, 80)
)

# 删除重复值
distinct(students)

运行结果如下：

  id name age gender score
1  1   小明  20     男    80
2  2   小红  19     女    85
3  3   小刚  21     男    90
4  4   小李  20     男    75

我们可以看到，结果数据框中只保留了不重复的记录。

参考资料

distinct() function - dplyr package