📜  pandas 按组查看分布的快速方法 - Python (1)

📅  最后修改于: 2023-12-03 15:03:30.070000             🧑  作者: Mango

Pandas 按组查看分布的快速方法 - Python

在数据分析中,我们经常会需要查看不同组别的数据分布情况。使用 Pandas 库可以轻松实现这一任务。

以下是一个例子,以说明 Pandas 如何实现按组查看分布的快速方法。

首先,我们需要导入 Pandas 库:

import pandas as pd

然后,我们可以创建一个 DataFrame:

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': [1, 2, 3, 4, 5, 6, 7, 8],
                   'D': [10, 20, 30, 40, 50, 60, 70, 80]})

这个 DataFrame 包含四列数据,列名分别为 A、B、C、D。我们可以使用 Pandas 的 groupby 方法,按列 A 分组,然后查看 C 列的分布:

df.groupby('A').C.describe()

输出结果如下:

    count  mean       std  min   25%  50%   75%  max
A                                                     
bar   3.0   4.0  2.000000  2.0  3.00  4.0  5.00  6.0
foo   5.0   4.8  2.509980  1.0  3.00  5.0  7.00  8.0

这个表格告诉我们,A 列为 foo 的有 5 行数据,平均值为 4.8,标准差为 2.509980,最小值为 1,最大值为 8。

同样,我们可以查看 D 列的分布:

df.groupby('A').D.describe()

输出结果如下:

    count  mean   std   min   25%   50%   75%   max
A                                                  
bar   3.0  40.0  20.0  20.0  30.0  40.0  50.0  60.0
foo   5.0  38.0  27.111360  10.0  20.0  50.0  70.0  80.0

这个表格告诉我们,A 列为 foo 的有 5 行数据,平均值为 38.0,标准差为 27.111360,最小值为 10,最大值为 80。

以上就是 Pandas 按组查看分布的快速方法,十分方便实用。

**注意:**以上代码片段为示例代码,实际使用时需根据数据集的实际情况进行相应的调整。