ML |使用SVM对非线性数据集执行分类(1)

📌 相关文章

📜 ML |使用SVM对非线性数据集执行分类(1)

📅 最后修改于: 2023-12-03 14:44:19.399000 🧑 作者: Mango

本文主要讲解如何使用SVM算法对非线性的数据集进行分类。SVM是一种强大的分类算法，可以用于二分类和多分类问题，对于非线性数据集也有较好的分类效果。

SVM（Support Vector Machine）是一种监督学习算法，属于判别式方法，其主要思想是寻找一个超平面来对数据进行分类。当样本不能被线性分隔时，SVM使用核函数将原空间映射到高维空间，在高维空间中找到一个超平面来完成分类。

SVM的核心是支持向量，即距离超平面最近的样本点，这些样本点对SVM分类器的构建起着决定性的作用。

对于非线性数据集，SVM使用核函数将原空间映射到高维空间，并在高维空间中找到一个超平面来完成分类。常用的核函数有线性核、多项式核、高斯核等。

下面我们将以一个二分类问题为例来演示如何使用SVM对非线性数据集进行分类。

我们使用sklearn库生成一个非线性数据集，代码如下：

from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)

我们可以使用matplotlib库对数据集进行可视化，代码如下：

import matplotlib.pyplot as plt
plt.scatter(X[:,0], X[:,1], c=y)
plt.show()

可视化结果如下图所示：

data visualization

我们可以看到，数据集中的数据并不是线性分隔的。

在模型训练前，我们需要将数据集分成训练集和测试集：

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

然后，我们可以使用sklearn库中的SVM模型对数据集进行训练：

from sklearn.svm import SVC
svm = SVC(kernel="rbf", C=0.1, gamma=5)
svm.fit(X_train, y_train)

这里我们使用高斯核函数，C=0.1，gamma=5。你可以调整这些参数来观察分类器的效果。

模型训练完后，我们可以使用测试集来评估模型的效果：

from sklearn.metrics import accuracy_score
y_predict = svm.predict(X_test)
accuracy_score(y_test, y_predict)

这里我们使用准确率来评估模型的效果。你也可以使用其他的评估指标。

本文简单介绍了SVM的原理和在非线性数据集上的应用。SVM是一种强大的分类算法，尤其在高维空间和非线性数据集中表现优秀。希望本文可以对你了解SVM有所帮助。