📜  删除数据框 r 中的重复值 (1)

📅  最后修改于: 2023-12-03 15:07:15.304000             🧑  作者: Mango

删除数据框 r 中的重复值

数据清洗是数据分析的重要步骤之一,而在进行数据清洗时,常常会遇到重复数据的情况。在 R 语言中,我们可以利用函数来删除数据框中的重复值。

函数

在 R 中,我们可以使用 distinct() 函数来删除数据框中的重复值。该函数的基本语法如下:

distinct(data, ...)
  • data:要去重的数据框。
  • ...:指定去重时需要考虑的列名。
示例

下面我们通过一个示例来演示如何使用 distinct() 函数删除数据框中的重复值。

假设我们有一个名为 students 的数据框,保存着学生信息:

| id | name | age | gender | score | |----|------|-----|--------|-------| | 1 | 小明 | 20 | 男 | 80 | | 2 | 小红 | 19 | 女 | 85 | | 3 | 小刚 | 21 | 男 | 90 | | 4 | 小李 | 20 | 男 | 75 | | 1 | 小明 | 20 | 男 | 80 |

我们可以使用以下代码来删除重复值:

# 加载数据框
students <- data.frame(
  id = c(1, 2, 3, 4, 1),
  name = c("小明", "小红", "小刚", "小李", "小明"),
  age = c(20, 19, 21, 20, 20),
  gender = c("男", "女", "男", "男", "男"),
  score = c(80, 85, 90, 75, 80)
)

# 删除重复值
distinct(students)

运行结果如下:

  id name age gender score
1  1   小明  20     男    80
2  2   小红  19     女    85
3  3   小刚  21     男    90
4  4   小李  20     男    75

我们可以看到,结果数据框中只保留了不重复的记录。

参考资料