📜  在Python中使用 Turicreate 进行数据可视化

📅  最后修改于: 2022-05-13 01:55:30.247000             🧑  作者: Mango

在Python中使用 Turicreate 进行数据可视化

在机器学习,数据可视化是一个非常重要的阶段。为了正确理解数据的行为和特征,需要完美地可视化它。因此,我在这里发表了有关如何有效且同时轻松地可视化您的数据以从中提取大部分数据的帖子。

在详细了解如何可视化数据之前,请先了解一些术语。

  • Turicreate – Turi Create 是一个用于创建 Core ML 模型的开源工具集,用于图像分类、对象检测、样式转换、推荐等任务。了解如何使用 Turi Create 为您的应用构建模型。
  • SFrame – SFrame 表示可扩展的数据帧。可以扩展到大数据的表格、列可变数据框对象。 SFrame 中的数据按列存储。
  • Sarray – SFrame 中的每一列都称为 Sarray。

为什么选择 Turicreate? :这个时候你们应该都猜到了,为什么我选择 turicreate 来进行数据可视化,而 Pandas 非常易于使用。所以我会强调一些 turicreate 比 pandas 更好的地方:

  1. Pandas 是一种内存数据结构。这意味着您通常不能在您的机器上存储大于主内存(例如 RAM)的数据帧,而 SFrame 是一种核外数据结构。这意味着只要您不耗尽磁盘空间(例如硬盘驱动器)和内存(例如 RAM),您就可以虚拟存储任何大小的数据帧。
  2. 在 turicreate 中,您可以使用内置的可视化功能来可视化您的数据,但对于 pandas,您需要使用其他工具进行数据可视化(例如 matplotlib、seaborn 等)。

因此,让我们从实际内容开始:

在可视化数据之前,我们首先需要安装所需的库:

pip install turicreate

所以,我们现在有了完整的设置。因此,让我们从导入数据集开始。

链接到本教程中使用的数据集:https://www.kaggle.com/c/house-prices-advanced-regression-techniques

# importing turicreate
import turicreate
  
# loading the dataset
training_data = turicreate.SFrame.read_csv("Url of the dataset").
  
# print the first 10 rows of your training data set
training_data.head()

输出 :

输出

现在是数据可视化部分:

条形图:

# for data plotting
training_data['OverallCond'].plot(title = "Overall Condition of the house", 
                                  xlabel = "Rating", 
                                  ylabel = "No. of Houses")

输出 :

条形图的输出

散点图 :

# for scatter plot
turicreate.visualization.scatter(training_data["OverallCond"], 
                                 training_data["SalePrice"], 
                                 xlabel = "Overall Condition", 
                                 ylabel = "Sale Price")

输出 :

散点图的输出

热图:

# for heatmap
turicreate.visualization.heatmap(training_data["OverallCond"], 
                                 training_data["SalePrice"], 
                                 xlabel = "Overall Condition", 
                                 ylabel = "Sale Price")

输出 :

热图的输出

分类热图:

# for categorical heatmap
turicreate.visualization.categorical_heatmap(training_data["Street"], 
                                             training_data["LotShape"], 
                                             xlabel = "Street", 
                                             ylabel = "Lot Shape")

分类热图的输出

箱形图 :

# for box plot
turicreate.visualization.box_plot(training_data["Street"], 
                                  training_data["SalePrice"], 
                                  xlabel = "Street", 
                                  ylabel = "Sale Price")

输出 :

箱线图的输出

直方图:

# for histogram
turicreate.visualization.histogram(training_data["SalePrice"], 
                                   xlabel ="Sale Price")

输出 :

直方图的输出