📜  Pandas DataFrame.corr()(1)

📅  最后修改于: 2023-12-03 15:03:28.189000             🧑  作者: Mango

Pandas DataFrame.corr()

Pandas 是一款基于 NumPy 的开源数据分析工具包,提供数据处理和数据分析的工具。Pandas DataFrame.corr() 方法用于计算两个 DataFrame 对象之间的 Pearson 系数,该系数通常用于度量两个变量之间的线性相关性。

语法
DataFrame.corr(method='pearson', min_periods=1)
参数说明
  • method:计算相关系数的方法。默认值为 'pearson'。可选值为 { 'pearson','kendall','spearman' },对应的是 Pearson 相关系数, Kendall Tau 相关系数,以及 Spearman 相关系数。在大多数情况下,使用默认的 Pearson 相关系数即可。
  • min_periods:最小非空观测值数量。默认值为 1。
返回值

本方法的返回值是一个 DataFrame 对象,其中包含给定数据集中所有数值列之间的 Pearson 系数。

示例
import pandas as pd

# 创建一个 DataFrame 对象
df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [2, 4, 6, 8, 10], 'z': [3, 6, 9, 12, 15]})

# 使用 .corr() 方法计算 Pearson 相关系数
correlation = df.corr()

# 输出相关系数矩阵
print(correlation)

上述代码首先创建了一个包含三列数据的 DataFrame 对象。然后使用 corr() 方法计算三列数据之间的 Pearson 相关系数,并将结果赋值给 correlation。最后,打印出相关系数矩阵:

          x         y         z
x  1.000000  1.000000  1.000000
y  1.000000  1.000000  1.000000
z  1.000000  1.000000  1.000000

注意,由于三列数据之间的线性相关性非常强,因此在相关系数矩阵中,所有元素都是 1。

注意事项
  • 本方法仅适用于数据类型为数值型的 DataFrame 对象。
  • 在计算相关系数时,若存在缺失值,会自动将其排除在外。
  • 如果两个变量之间的关系是非线性的,那么相关系数的值可能并不准确。此时可以尝试使用其他类型的系数,如 Kendall Tau 或 Spearman 系数。