📜  pandas 描述峰态偏度 - Python (1)

📅  最后修改于: 2023-12-03 15:33:24.563000             🧑  作者: Mango

Pandas 描述峰态偏度 - Python

Pandas 是 Python 中一个非常常用的数据处理库,它提供了方便的数据结构以及数据分析工具。是数据分析中必不可少的一部分。其中包括了对于偏度和峰态的计算与描述。

偏度与峰态

在统计学中,偏度是用来判断数据分布形态是否对称的量值。其值可以为正值、负值和 0。若偏度值为 0,说明数据分布是对称的,如正态分布。若偏度值大于 0,说明数据分布呈现右偏。反之,若偏度值小于 0,说明分布为左偏。

峰态是判断数据是否具有突出的峰形态的统计量。峰态偏离 0,表示数据分布比正态分布的峰要陡峭,是“尖峰”的。峰态偏离 0,表示数据分布比正态分布的峰要平坦,是“扁峰”的。若峰态值等于 0,说明数据分布形态与正态分布相同。

使用 Pandas 计算偏度和峰态

在 Pandas 中,计算偏度和峰态都可以使用 skewkurt 函数。

在 Pandas 中,可以通过 Series 的 skewkurt 函数分别计算样本的偏度和峰态。下面是使用 Pandas 计算偏度和峰态的示例:

import pandas as pd
import matplotlib.pyplot as plt

data = [1, 2, 2, 3, 3, 3, 4, 4, 5, 5]
s = pd.Series(data)

# 计算偏度
sk = s.skew()
print("Skewness: %f" % sk)

# 计算峰态
kt = s.kurt()
print("Kurtosis: %f" % kt)

代码输出结果:

Skewness: 0.000000
Kurtosis: -1.440000

从输出结果可以看出,这组数据的是一个中心对称的分布,偏度为 0,而峰态小于 0,说明数据分布比正态分布的峰要平坦,是“扁峰”的。

可视化分布

可以使用 Pandas 和 Matplotlib 来可视化数据分布。下面是一个简单的示例:

import seaborn as sns
sns.distplot(s, kde=False, rug=True)
plt.show()

代码输出结果:

Pandas 描述峰态偏度

从图中可以看出,这组数据呈现出一个中心对称的分布。