不同类型的聚类算法

📌 相关文章

📜 不同类型的聚类算法

📅 最后修改于: 2021-04-16 08:43:34 🧑 作者: Mango

本文讨论了群集的介绍，建议您首先了解群集。

聚类算法有多种类型。以下概述仅列出了最重要的聚类算法示例，因为可能有超过100种已发布的聚类算法。并非所有人都为其集群提供模型，因此不容易对其进行分类。

基于分布的方法

这是一个聚类模型，在该模型中，我们将根据数据可能属于同一分布的概率来拟合数据。完成的分组可以是正常的或高斯的。高斯分布更为突出，因为我们有固定数量的分布，并且所有即将来临的数据都拟合进来，使得数据的分布可以最大化。这导致了分组，如图所示：

该模型适用于综合数据和大小各异的集群。但是，如果不使用约束条件来限制模型的复杂性，则该模型可能会出现问题。此外，基于分布的聚类产生的聚类假设数据基础明确定义的数学模型，对于某些数据分布而言，这是一个很强的假设。
对于使用多元正态分布的Ex -Expectation-maximization算法，该算法是最受欢迎的示例之一。

基于质心的方法

这基本上是一种迭代聚类算法，其中，聚类是由数据点与聚类的质心之间的接近度形成的。在此，形成簇中心即质心，使得数据点的距离与中心最小。该问题基本上是NP-Hard问题之一，因此，在许多试验中，解决方案通常都是近似的。
对于Ex- K-均值算法是该算法的流行示例之一。

这种算法的最大问题是我们需要预先指定K。在基于密度的分布聚类中也存在问题。

基于连接的方法

基于连接的模型的核心思想类似于基于质心的模型，该模型基本上是基于数据点的紧密度来定义聚类的。更远。
它不是数据集的单个分区，而是提供了以一定距离彼此合并的广泛的群集层次结构。在此，距离函数的选择是主观的。这些模型很容易解释，但缺乏可伸缩性。

链接聚类
对于Ex-等级算法及其变体。

密度模型

在此聚类模型中，将在数据空间中搜索数据空间中数据点密度不同的区域。它根据数据空间中存在的不同密度来隔离各种密度区域。
对于Ex- DBSCAN和OPTICS 。

子空间聚类

子空间聚类是一个无监督的学习问题，旨在将数据点分组为多个聚类，以便单个聚类上的数据点大致位于低维线性子空间上。子空间聚类是特征选择的扩展，就像特征选择一样，子空间聚类需要搜索方法和评估标准，但此外，子空间聚类限制了评估标准的范围。子空间聚类算法将对相关维的搜索本地化，并允许他们找到存在于多个重叠子空间中的聚类。子空间聚类最初旨在解决非常具体的计算机视觉问题，在数据中具有子空间结构的并集，但它在统计和机器学习社区中越来越受到关注。人们在社交网络，电影推荐和生物数据集中使用此工具。子空间群集引起了对数据隐私的关注，因为许多此类应用程序涉及处理敏感信息。假定数据点是不连续的，它仅保护用户任何功能的差异隐私，而不是保护数据库的整个配置文件用户。
根据子空间聚类的搜索策略，有两个分支。

自上而下的算法在整个维度集中找到一个初始聚类，并评估每个聚类的子空间。
自下而上的方法在低维空间中找到密集区域，然后合并形成簇。

参考：
analyticsvidhya
知识

改良者： Pragya vidyarthi