📜  查找最高相关性对 pandas - Python (1)

📅  最后修改于: 2023-12-03 15:10:45.724000             🧑  作者: Mango

查找最高相关性对 pandas - Python

Pandas 是一个流行的 Python 数据处理库,提供了灵活的数据结构和数据分析工具。在 Pandas 中,我们可以使用 corr() 函数来计算数据集中各个列之间的相关性。

导入 Pandas

在使用 Pandas 进行数据处理之前,我们需要先导入它。使用以下代码:

import pandas as pd
读取数据集

使用 Pandas 读取数据集并存储在 DataFrame 中。以下是读取 csv 文件的示例:

df = pd.read_csv('file.csv')
计算相关性

现在我们有一个包含数据集的 DataFrame,我们可以使用 corr() 函数来计算数据集中各个列之间的相关性。

以下是计算相关性的示例:

corr_matrix = df.corr()

以上代码将计算数据集中各个列之间的相关性,并将结果存储在名为 corr_matrix 的 DataFrame 中。

查找最高相关性

要查找数据集中最高相关性的列对,请使用以下代码:

max_correlation = corr_matrix.unstack().sort_values().drop_duplicates().tail(2).head(1)

以上代码将展开相关性矩阵,并按照相关系数值的大小进行排序。然后,我们排除掉重复值,并选择倒数第二个值,这是数据集中最高的相关性系数值。

要查找最高相关性的列对,请使用以下代码:

max_correlation_cols = max_correlation.index[0]

以上代码将返回最高相关性的列对。

结论

在这个介绍中,我们了解了如何使用 Pandas 计算一个数据集中各个列之间的相关性,并找出最高的相关性对。这对于数据分析和预测模型的训练非常有用。