📜  scikit learn k mean - Python (1)

📅  最后修改于: 2023-12-03 15:19:59.662000             🧑  作者: Mango

scikit learn 中的 K-Means

K-Means 是一种非常常用的聚类算法,用于将数据集分成预定的K个不同的组或簇。在 Python 中,scikit learn 提供了 K-Means 的实现方法。

安装

在使用之前,需要确保已经安装了 scikit learn。可以通过以下命令安装:

!pip install scikit-learn
数据准备

首先,我们需要准备一个数据集。这里我们将用一个简单的数据集,其中包含两个特征 x 和 y ,以及它们的标签 label。

import numpy as np

x = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])
y = np.array([0, 0, 0, 1, 1, 1])
模型训练

有了数据集之后,我们可以使用 scikit learn 中的 KMeans 模块来进行模型训练。模型训练的主要参数有:

  • n_clusters:簇的数量
  • init:簇中心的初始化方式
  • max_iter:执行的最大迭代次数
  • ...

下面是一个简单的模型训练过程:

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=2, random_state=0).fit(x)
查看结果

训练完成后,可以查看聚类结果,并进行可视化。

import matplotlib.pyplot as plt

plt.scatter(x[:,0], x[:,1], c=kmeans.labels_, cmap='rainbow')
plt.show()

可以看到,根据 K-Means 聚类的结果,数据集被分为了两个不同的簇。

总结

本文介绍了在 Python 中使用 scikit learn 进行 K-Means 聚类算法的基本流程。通过数据准备、模型训练和结果可视化三个步骤,读者可以快速入门 K-Means 聚类算法。