机器学习-无监督 - 芒果文档

📌 相关文章

📜 机器学习-无监督

📅 最后修改于: 2020-12-13 15:57:05 🧑 作者: Mango

到目前为止，您所看到的是使机器学习找出解决我们目标的方法。在回归中，我们训练机器以预测未来价值。在分类中，我们训练机器将未知对象分类为我们定义的类别之一。简而言之，我们一直在训练机器，以便它可以为我们的数据X预测Y。给定庞大的数据集且未估计类别，对于我们而言，使用监督学习来训练机器将非常困难。如果机器可以查找并分析运行到数GB和TB的大数据，并告诉我们该数据包含许多不同的类别，该怎么办?

例如，考虑选民的数据。通过考虑每个选民的一些输入(在AI术语中称为特征)，让机器预测有太多选民将为X政党投票，而有很多选民为Y政党投票，依此类推。因此，总的来说，我们要求机器给定大量的数据点X，“关于X，您能告诉我什么?”。或可能有一个问题，例如“我们可以从X中选出五个最好的小组?”。甚至可能就像“在X中哪三个功能最常同时出现?”一样。

这正是无监督学习的全部内容。

无监督学习算法

现在让我们讨论一种在无监督机器学习中广泛使用的分类算法。

k均值聚类

美国的2000年和2004年总统大选已经接近，非常接近。在所有候选人中，获得最高票数的民众投票是50.7％，而最低的是47.9％。如果一定比例的选民要换面，选举的结果将是不同的。有几小组选民，如果受到适当的呼吁，将改变立场。这些团体可能并不庞大，但由于种族如此亲密，它们可能足以改变选举结果。您如何找到这些人?在预算有限的情况下，您如何吸引他们?答案是集群。

让我们了解它是如何完成的。

首先，您收集有关经过或未经过他们同意的人的信息：可能提供一些线索的信息，这些线索对他们来说很重要，什么会影响他们的投票方式。
然后，您将此信息放入某种聚类算法中。
接下来，对于每个集群(首先选择最大的集群是明智的)，您将制作出一条吸引这些选民的信息。
最后，您交付广告活动并进行衡量以查看其是否有效。

聚类是一种无监督学习，可自动形成相似事物的聚类。就像自动分类一样。您几乎可以对任何事物进行聚类，并且聚类中的项目越相似，聚类就越好。在本章中，我们将研究一种称为k-means的聚类算法。之所以称为k-均值，是因为它找到“ k”个唯一的簇，并且每个簇的中心是该簇中值的平均值。

集群识别

集群识别告诉一种算法，“这里有一些数据。现在将类似的事物归为一类，并向我介绍这些分组。”分类的主要区别在于分类中您知道要查找的内容。虽然在集群中不是这种情况。

聚类有时称为无监督分类，因为它产生与分类相同的结果，但是没有预定义的类。

现在，我们对有监督和无监督学习都感到满意。要了解其余的机器学习类别，我们必须首先了解人工神经网络(ANN)，我们将在下一章中学习。