📌  相关文章
📜  在 pandas 中按列计算缺失值 - Python (1)

📅  最后修改于: 2023-12-03 15:23:14.745000             🧑  作者: Mango

在 pandas 中按列计算缺失值 - Python

当我们在使用 pandas 进行数据分析时,我们经常需要计算缺失值的数量、占比以及对缺失值进行处理。这里我们介绍如何使用 pandas 对每列进行缺失值计算。

1. 导入工具包

在使用 pandas 进行数据分析时,首先要导入 pandas 工具包。

import pandas as pd
2. 读取数据

我们首先读取一个包含缺失值的数据集,这里我们使用 pandas 自带的 iris 数据集。

df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
3. 计算每列缺失值数量

我们可以使用以下代码来计算每列缺失值的数量。

num_missing = df.isnull().sum()
print(num_missing)

输出结果:

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

这个结果表明在 iris 数据集中没有缺失值。

4. 计算每列缺失值占比

我们可以使用以下代码来计算每列缺失值的占比。

pct_missing = df.isnull().sum() / len(df)
print(pct_missing)

输出结果:

sepal_length    0.0
sepal_width     0.0
petal_length    0.0
petal_width     0.0
species         0.0
dtype: float64

这表明在 iris 数据集中每列缺失值所占比例都是0。

5. 处理缺失值

最后我们可以使用以下代码来对缺失值进行处理。

df.fillna(df.mean(), inplace=True)

这里我们使用每列的均值来填充缺失值。

以上就是在 pandas 中按列计算缺失值的方法。在实际项目中我们经常需要按列对缺失值进行处理,依靠 pandas 可以让我们在数据清洗中更加方便、高效。