毫升 |数据清洗概述

介绍：
数据清洗是机器学习的重要组成部分之一。它在构建模型中起着重要作用。它肯定不是机器学习中最精彩的部分，同时也没有任何隐藏的技巧或秘密需要揭开。然而，一个项目的成败取决于适当的数据清理。专业数据科学家通常会在这一步上投入大量时间，因为他们坚信“更好的数据胜过更好的算法” 。
如果我们有一个清理良好的数据集，我们也有可能通过简单的算法获得良好的结果，这有时证明是非常有益的，尤其是在数据集规模很大时的计算方面。

显然，不同类型的数据将需要不同类型的清理。然而，这种系统的方法总是可以作为一个很好的起点。

数据清洗涉及的步骤：

去除不需要的观察
这包括从数据集中删除重复/冗余或不相关的值。在数据收集过程中最常出现重复的观察结果，而不相关的观察结果实际上并不适合您要解决的特定问题。
- 随着数据的重复，冗余观察在很大程度上改变了效率，并且可能会向正确的一侧或向不正确的一侧添加，从而产生不可靠的结果。
- 不相关的观察是对我们没有用的任何类型的数据，可以直接删除。
修复结构错误
在测量、数据传输或其他类似情况下出现的误差称为结构误差。结构性错误包括特征名称中的拼写错误、具有不同名称的相同属性、错误标记的类，即实际上应该是相同或不一致的大写的单独类。
- 例如，模型将 America 和 America 视为不同的类或值，尽管它们代表相同的值或红色、黄色和红黄色作为不同的类或属性，但一个类可以包含在其他两个类中。因此，这些是一些结构性错误，使我们的模型效率低下，结果质量不佳。
管理不需要的异常值
异常值可能会导致某些类型的模型出现问题。例如，线性回归模型对异常值的鲁棒性不如决策树模型。通常，在我们有正当理由删除异常值之前，我们不应删除它们。有时，删除它们会提高性能，有时则不会。因此，必须有充分的理由去除异常值，例如不太可能成为真实数据一部分的可疑测量值。
处理缺失数据
丢失数据是机器学习中一个看似棘手的问题。我们不能只是忽略或删除缺失的观察。它们必须小心处理，因为它们可能表明某些重要的事情。处理缺失数据的两种最常见方法是：
1. 删除带有缺失值的观察值。
  删除缺失值是次优的，因为当您删除观察值时，您会删除信息。
  - 值丢失的事实本身可能提供信息。
  - 另外，在现实世界中，即使缺少某些特征，您也经常需要对新数据进行预测！
2. 从过去的观察中估算缺失值。
  插补缺失值是次优的，因为该值最初是缺失的，但您填写了它，无论您的插补方法多么复杂，这总是会导致信息丢失。
  - 同样，“缺失”本身几乎总是提供信息，如果某个值缺失，您应该告诉算法。
  - 即使您构建了一个模型来估算您的值，您也不会添加任何真实信息。您只是在加强其他功能已经提供的模式。
这两种方法都是次优的，因为丢弃观察意味着丢弃信息，从而减少数据和输入值也是次优的，因为我们填充了实际数据集中不存在的值，这会导致信息丢失。

丢失数据就像丢失一块拼图。如果你放下它，就像假装拼图插槽不存在一样。如果你归咎于它，那就像试图从拼图的其他地方挤进一块。
因此，缺失的数据总是提供信息并表明重要的事情。我们必须通过标记来了解我们的算法丢失数据。通过使用这种标记和填充技术，您实际上是在允许算法估计缺失的最佳常数，而不仅仅是用平均值填充它。一些数据清理工具

打开精炼
Trifacta 牧马人
TIBCO 净度
云金哥
IBM 信息圈质量阶段

结论：
因此，我们讨论了数据清理的四个不同步骤，以使数据更可靠并产生良好的结果。正确完成数据清理步骤后，我们将拥有一个强大的数据集，可以避免许多最常见的陷阱。这一步不应该仓促，因为它在进一步的过程中证明是非常有益的。