📜  使用 Pandas GUI 进行数据探索

📅  最后修改于: 2022-05-13 01:54:53.992000             🧑  作者: Mango

使用 Pandas GUI 进行数据探索

数据预处理是数据科学管道的重要组成部分,你需要找出数据中的各种不规则性,你操纵你的特征等。 Pandas 是我们经常使用的一种工具,用于处理数据,还有 seaborn 和 matplotlib用于数据可视化。 PandasGUI 是一个库,通过提供可用于制作的 GUI 界面使此任务变得更加容易

安装 PandasGUI

您可以使用 pip 命令像安装任何其他Python库一样安装 PandasGUI。相同的命令是:-

pip install pandasgui

在 PandasGUI 中打开 CSV

要在 PandasGUI 中打开 CSV 文件,我们需要使用show()函数。让我们从将它与 pandas 一起导入开始。单击此处获取数据集。

Python3
from pandasgui import show
import pandas as pd


Python3
df = pd.read_csv('data.csv')
show(df)


Python3
df[df['total_bill'] >= 40]


Python3
df.describe()


接下来我们要做的是使用read_csv()将我们的 CSV 作为 DataFrame 加载,并将该数据帧作为参数传递到show()中。

蟒蛇3

df = pd.read_csv('data.csv')
show(df)

输出:

这是我们的数据框,我们可以滚动查看数据。您可以看到表示 NaN 值的空单元格。您可以通过单击单元格并编辑其值来编辑数据。您只需单击特定列即可根据特定列对数据框进行排序。在下图中,我们可以通过单击Total_bill列对数据框进行排序。

PandasGUI 中的过滤器

假设我们想查看 MSSubClass 的值大于或等于 120 的行。在 Pandas 中,我们可以使用以下命令:-

蟒蛇3

df[df['total_bill'] >= 40]

输出:

PandasGUI 为我们提供了过滤器,您可以在其中编写查询表达式来过滤数据。上述查询表达式将是:

您可以在“过滤器”中编写此查询表达式,然后单击“添加过滤器”以应用它。我们来看看下图中的数据。如您所见,过滤器已成功应用。

Pandas GUI 中的统计信息

汇总统计为您提供了数据分布的概览。在pandas中,我们使用describe()方法来获取数据的统计信息。

蟒蛇3

df.describe()

输出:

在 PandasGUI 中,您可以转到统计部分并获取每列的统计信息。

PandasGUI 中的数据可视化

数据可视化通常不是 Pandas 的用途,我们使用 matplotlib、seaborn、plotly 等库。但 PandasGUI 在 Grapher 部分下提供了使用 plotly 绘制的交互式图形。

您可以绘制各种类型的图形,让我们通过将它拖放到x下来创建 total_bill 的直方图。

之后只需单击“完成”,您就可以看到您的图表。

让我们制作一个条形图。

除了这些,您还可以创建箱线图、3d 散点图、线图等。如果您想快速概览数据,从检查汇总统计数据到绘制数据,PandasGUI 是一个很好的工具,您可以轻松完成,无需代码。