📜  数据分析中投影聚类的不同阶段

📅  最后修改于: 2021-09-09 10:49:41             🧑  作者: Mango

在本文中,我们将详细讨论数据分析中投影聚类的不同阶段。

投影聚类的三个阶段:

  1. 初始化阶段
  2. 迭代阶段
  3. 细化阶段

这些解释如下。

1. 初始化阶段:
该阶段包括选择超集的两个步骤。

  • 在第一步中,它选取一个随机样本数据点,其大小与用户希望生成的集群数量成正比,给出如下:
    S= random sample size A.k,

    其中 A 是一个常数,k 代表簇的数量。

  • 使用贪婪方法的第二步是完成获得最终的一组点 Bk,其中 B 是一个小常数。

这组被指定为 M,其中在下一阶段使用爬山技术。

  • 随机选取一组数据点样本。
  • 选取一组数据点,这可能是集群的中心点。

2. 迭代阶段:
从初始化阶段,我们得到了一组数据点,这些数据点应该包含中心点。这个阶段,我们会从 M 中找到最好的 medoids。随机选取 M current 的一组点,如果需要提升集群质量,从 M 中的其他点恢复“坏”的 medoids。新形成的有意义的中心点集被指定为 M 最好的。

对于medoids,以下将进行如下操作。

  • 确定与中心点相关的维度。
  • 将数据点分配给中心点。
  • 测量形成的簇。
  • 识别出不良medoid ,并尝试恢复不良medoid 的结果。
  • 重复上述过程,直到我们得到满意的结果。

3. 细化阶段 – 处理异常值:

  • 该算法的最后一步是细化阶段。这个阶段包括形成的簇质量更好。
  • 在迭代阶段形成的簇 C1,C2,C3,….,Ck 是这个阶段的馈入。
  • 本地数据集被传递一次或多次以提高集群的质量。
  • 在迭代阶段找到的维度集 Di 被处理掉,并为每个集群集 Ci 计算新的维度集。
  • 一旦为集群计算了新维度,则将点重新分配给与这些新维度集相比的中心点。
  • 离群值是在最后一次通过数据时确定的。

主要缺点:

  • 该算法需要每个集群的平均维数作为输入框架。投影聚类的性能对其输入框架的价值高度敏感。
  • 如果错误地估计了平均维数,则投影聚类的呈现会显着恶化。