根据数据框中的两列删除重复项 - Python (1)

📌 相关文章

📜 根据数据框中的两列删除重复项 - Python (1)

📅 最后修改于: 2023-12-03 14:55:39.670000 🧑 作者: Mango

根据数据框中的两列删除重复项 - Python

在处理数据时，我们有时需要根据数据框中的两列删除重复项。Python中，使用pandas库可以轻松地实现这一操作。下面介绍具体实现方法。

准备工作

在使用之前，需要先导入pandas库，假设我们已经将其命名为pd。另外，我们还需要有一个数据框，其中包含需要进行去重操作的两列数据，如下所示：

import pandas as pd

df = pd.DataFrame({'col1': ['A', 'B', 'C', 'C', 'D'],
                   'col2': ['1', '2', '3', '3', '4'],
                   'col3': [100, 200, 300, 400, 500]})

数据框示例:

| | col1 | col2 | col3 | | --- | --- | --- | --- | | 0 | A | 1 | 100 | | 1 | B | 2 | 200 | | 2 | C | 3 | 300 | | 3 | C | 3 | 400 | | 4 | D | 4 | 500 |

我们需要根据col1和col2中的数据对col3进行去重操作。

实现思路

实现这个操作的思路是：先使用pandas库中的groupby函数将数据框按照col1和col2分组，然后再进行去重操作。具体实现过程如下：

# 根据col1和col2进行分组，然后对col3去重
df = df.groupby(['col1', 'col2'])['col3'].agg('first').reset_index()

这段代码中，df.groupby()函数中传入了需要进行分组的列名，['col3'].agg('first')表示对col3这一列进行去重操作，并选择保留第一个出现的值作为结果。reset_index()函数则是将分组后得到的结果重新赋值索引。

结果展示

最后，我们可以输出去重后的结果进行查看：

| | col1 | col2 | col3 | | --- | --- | --- | --- | | 0 | A | 1 | 100 | | 1 | B | 2 | 200 | | 2 | C | 3 | 300 | | 3 | D | 4 | 500 |

可以看到，col1和col2中重复的数据，对应的col3已经被去重保留并正确分别对应到了该组中的第一个数据。

以上就是根据数据框中的两列删除重复项的Python实现方法。