📜  K 表示使用 Weka 进行聚类

📅  最后修改于: 2022-05-13 01:58:06.846000             🧑  作者: Mango

K 表示使用 Weka 进行聚类

在本文中,我们将看到如何使用 Weka explorer 进行简单的 k 均值聚类。在这里,我们将使用基于 ARFF 格式的虹膜数据的示例数据集。该数据集中有 150 个 iris 实例。在开始之前,让我们先简单介绍一下聚类和 simple-k。

注意:本文假设数据已经过适当的预处理。

聚类聚类是将一组抽象对象分成组的方法。需要牢记的要点 一组数据对象可以被视为单个实体。在进行聚类分析时,我们根据数据的相似性将数据集划分为多个组,然后为这些组分配标签。

Simple-k 表示聚类 K-means 聚类是一种简单的无监督学习算法。在这种情况下,数据对象 ('n') 被分组到总共 'k' 个集群中,每个观察都属于具有最接近平均值的集群。它定义了 'k' 个集合,每个集群 kn 一个(点可以被认为是一维或二维图形的中心)。集群相隔很远。

然后将数据组织成可接受的数据集并链接到最近的集合。如果没有数据待处理,则第一阶段更难完成;在这种情况下,执行早期分组。 'k' 新集合必须重新计算为来自前一阶段的集群的重心。



在创建了这些“k”个新集之后,相同的数据集点和最近的新集被绑定在一起。之后,创建一个循环。 'k' 集一步一步地改变它们的位置,直到这个循环的结果没有进一步的改变。

应遵循的步骤:

第一步:在预处理界面,打开Weka Explorer,加载需要的数据集,我们取的是iris.arff数据集。

第 2 步:在资源管理器中找到“集群”选项卡,然后按选择按钮执行集群。作为此步骤的结果,将出现可用聚类算法的下拉列表,并选择 simple-k 均值算法。

第 3 步:然后,在选择图标的右侧,按文本按钮以显示屏幕截图中显示的弹出窗口。我们在此窗口中为集群数输入 3,并保留种子值。种子值用于生成用于对集群实例进行内部分配的随机数。

第 4 步:已选择其中一个选项。在运行聚类算法之前,我们必须确保它们处于“聚类模式”面板中。选择使用训练集,然后按下“开始”按钮。下面的屏幕截图显示了该过程和结果窗口。

第五步:每个簇的质心显示在结果窗口中,以及分配给每个簇的实例数量和百分比的统计信息。每个簇质心由一个均值向量表示。这个集群可以用来描述一个集群。

第 6 步:另一种掌握每个集群特征的方法是将它们可视化。为此,请右键单击结果上的结果集。从列表列中选择可视化集群分配。