📜  pandas 定义了如何聚合每一列 - Python (1)

📅  最后修改于: 2023-12-03 14:45:03.741000             🧑  作者: Mango

Pandas: 定义聚合操作

Pandas 是 Python 中的数据分析工具包,它提供了强大的数据结构和数据分析功能。其中使用到了大量的聚合操作,本文将介绍 Pandas 如何定义聚合操作。

聚合操作

Pandas 中的聚合操作指的是对数据进行一些统计计算,如平均值、中位数、标准差等等,这些操作通常是对整个数据集进行操作,返回一个标量结果。

Pandas 中的聚合操作有以下几种:

  • mean(): 计算均值
  • sum(): 计算总和
  • std(): 计算标准差
  • var(): 计算方差
  • count(): 计算非 NaN 元素的数量
  • median(): 计算中位数
  • min(): 计算最小值
  • max(): 计算最大值

聚合操作的语法通常为: dataframe.agg() 或者 dataframe.aggregate()

聚合每一列

要聚合每一列,可以使用 Pandas 的 agg() 或者 aggregate() 方法,并传入一个字典。字典的 key 是列名,value 是要进行聚合的操作。例如:

import pandas as pd

df = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [4, 5, 6],
    'c': [7, 8, 9]
})

result = df.agg({
    'a': 'sum',
    'b': 'mean',
    'c': 'max'
})

print(result)

输出结果为:

a     6
b     5
c     9
dtype: int64

上述代码中,我们使用了 Pandas 的 DataFrame() 方法创建了一个 DataFrame,其中包含三列数据。然后我们使用 agg() 方法对每一列进行了聚合操作,将最终结果保存到了 result 中。结果中包含了每一列的聚合结果。

另外一种方法是使用 Pandas 的 pivot_table() 方法,例如:

import pandas as pd

df = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [4, 5, 6],
    'c': [7, 8, 9]
})

result = pd.pivot_table(df, aggfunc={'a': 'sum', 'b': 'mean', 'c': 'max'})

print(result)

输出结果和上面的代码一样。

总结

本文介绍了 Pandas 如何定义聚合操作,讲解了常用的聚合操作和聚合每一列的方法。聚合操作是数据分析非常核心的操作,对于使用 Pandas 进行数据分析的程序员来说,掌握聚合操作是非常重要的。