数据分析中的计划聚类 - 芒果文档

📌 相关文章

📜 数据分析中的计划聚类

📅 最后修改于: 2021-08-27 17:51:43 🧑 作者: Mango

在本文中，我们将讨论数据分析中的计划集群。

预计的聚类：
投影聚类算法是第一个基于k-medoid聚类概念的自顶向下划分的投影聚类算法，该算法由Aggarwal(1999)提出。它使用贪婪的爬山技术反复从数据样本中确定每个聚类的类固醇，然后重复升级结果。投影聚类中的聚类质量是数据点和最接近的medoid之间平均距离的函数。而且，子空间维数是一个输入框架，它生成大小相同的簇。

预计聚类的特征：

投影聚类是一种典型的维度-约简子空间聚类方法。也就是说，它不是从一维空间开始，而是通过识别高维属性空间中的聚类的初始近似来进行的。
然后为每个维度分配每个群集的权重，并在下一次重复中使用更新后的权重来还原群集。这导致检查某些渴望尺寸的所有子空间中的密集区域。
它避免了在低维数中产生大量重叠的簇。
投影聚类通过爬山技术找到了最好的类固醇集合，但被普遍用于处理投影聚类。
它获取一个称为“曼哈顿分段距离”的距离度量。
该算法由三个阶段组成：初始化，迭代，聚类优化。
但是，由于对大型数据集进行了采样，所以投影聚类比CLIQUE更快，尽管使用少量说明性点可能会使该算法完全遗漏某些聚类。
投影聚类的实验表明，该程序在查找高维聚类时具有结构性和可伸缩性。该算法查找点的非重叠分区。

预测聚类的输入和输出：
输入 –

数据点组。
簇数，用k表示。
每个群集的平均维数，以L表示。

输出 –

确定了群集，并确定了此类群集的尺寸。