📌 相关文章

📜 K 表示使用 Weka 进行聚类

📅 最后修改于: 2022-05-13 01:58:06.846000 🧑 作者: Mango

K 表示使用 Weka 进行聚类

在本文中，我们将看到如何使用 Weka explorer 进行简单的 k 均值聚类。在这里，我们将使用基于 ARFF 格式的虹膜数据的示例数据集。该数据集中有 150 个 iris 实例。在开始之前，让我们先简单介绍一下聚类和 simple-k。

注意：本文假设数据已经过适当的预处理。

聚类：聚类是将一组抽象对象分成组的方法。需要牢记的要点一组数据对象可以被视为单个实体。在进行聚类分析时，我们根据数据的相似性将数据集划分为多个组，然后为这些组分配标签。

Simple-k 表示聚类： K-means 聚类是一种简单的无监督学习算法。在这种情况下，数据对象 ('n') 被分组到总共 'k' 个集群中，每个观察都属于具有最接近平均值的集群。它定义了 'k' 个集合，每个集群 kn 一个（点可以被认为是一维或二维图形的中心）。集群相隔很远。

然后将数据组织成可接受的数据集并链接到最近的集合。如果没有数据待处理，则第一阶段更难完成；在这种情况下，执行早期分组。 'k' 新集合必须重新计算为来自前一阶段的集群的重心。

在创建了这些“k”个新集之后，相同的数据集点和最近的新集被绑定在一起。之后，创建一个循环。 'k' 集一步一步地改变它们的位置，直到这个循环的结果没有进一步的改变。

应遵循的步骤：

第一步：在预处理界面，打开Weka Explorer，加载需要的数据集，我们取的是iris.arff数据集。

第 2 步：在资源管理器中找到“集群”选项卡，然后按选择按钮执行集群。作为此步骤的结果，将出现可用聚类算法的下拉列表，并选择 simple-k 均值算法。

第 3 步：然后，在选择图标的右侧，按文本按钮以显示屏幕截图中显示的弹出窗口。我们在此窗口中为集群数输入 3，并保留种子值。种子值用于生成用于对集群实例进行内部分配的随机数。

第 4 步：已选择其中一个选项。在运行聚类算法之前，我们必须确保它们处于“聚类模式”面板中。选择使用训练集，然后按下“开始”按钮。下面的屏幕截图显示了该过程和结果窗口。

第五步：每个簇的质心显示在结果窗口中，以及分配给每个簇的实例数量和百分比的统计信息。每个簇质心由一个均值向量表示。这个集群可以用来描述一个集群。

第 6 步：另一种掌握每个集群特征的方法是将它们可视化。为此，请右键单击结果上的结果集。从列表列中选择可视化集群分配。