R分类 - 芒果文档

📌 相关文章

📜 R分类

📅 最后修改于: 2021-01-08 10:08:07 🧑 作者: Mango

R分类

分类算法的思想非常简单。我们通过分析训练数据集来预测目标类别。我们使用训练数据集获得更好的边界条件，这些条件可用于确定每个目标类别。确定边界条件后，下一个任务是预测目标类别。整个过程称为分类。

分类算法有一些要点：

分类器这是一种将输入数据映射到特定类别的算法。
分类模型分类模型试图从给出的用于训练的输入值中得出一些结论。该结论将预测新数据的类别标签/类别。
功能这是正在观察的事件的单个可测量属性。
二进制分类这是一个分类任务，有两个可能的结果。例如，性别分类，只有两种可能的结果，即男性和女性。
多类别分类这是一个分类任务，其中对两个以上的类别进行分类。多类别分类的一个示例是：动物可以是狗或猫，但不能同时是两者。
多标签分类这是一个分类任务，其中每个样本都映射有一组目标标签。多标签分类的一个示例是：可以同时涉及一个人，一个位置和一个运动的新闻文章。

分类算法的类型

在R中，分类算法大致分为以下几种类型：

线性分类器在机器学习中，统计分类的主要任务是使用对象的特征来查找对象所属的类。通过基于特征的线性组合的值做出分类决策来实现此任务。在R中，有三种线性分类算法，如下所示：
1. 逻辑回归
2. 朴素贝叶斯分类器
3. 费舍尔线性判别式
支持向量机支持向量机是一种监督学习算法，用于分析用于分类和回归分析的数据。在SVM中，将每个数据项绘制为n维空间中的一个点，其中包含每个属性的值，即特定坐标的值。最小二乘支持向量机是R中最常用的分类算法。
二次分类器二次分类算法基于贝叶斯定理。这些分类器算法的分类方法与逻辑回归不同。在逻辑回归中，可以直接得出特定观测值(X = x)的类别(Y = k)的观测概率。但是在二次分类中，观察是通过以下两个步骤完成的：
1. 第一步，我们确定每个组或类的输入X的分布。
2. 之后，我们借助贝叶斯定理翻转分布以计算概率。
核估计核估计是一种估计连续随机变量的概率密度函数(PDF)的非参数方法。它是非参数的，因为它不假定变量的隐式分布。本质上，在每个基准上都创建了一个以基准为中心的内核函数。它确保内核关于基准对称。然后通过将所有这些内核函数相加并除以数据数量来估计PDF，以确保它满足PDF的两个属性：
1. PDF的所有可能值都应为非负数。
2. PDF在其支持集上的固定积分应等于1。
在R中，k最近邻是用于分类的最常用的核估计算法。
决策树决策树是一种监督学习算法，用于分类和回归任务。在R中，决策树分类器是在R机器学习插入符号包的帮助下实现的。随机森林算法是R中最常用的决策树算法。
神经网络神经网络是另一种分类器算法，受人脑启发，可以执行特定任务或函数。这些算法主要用于R中的图像分类。要实现神经网络算法，我们必须安装Neuronet软件包。
学习向量量化学习向量量化是一种用于二元和多类问题的分类算法。通过学习训练数据集，LVQ模型可以创建代表类区域的码本向量。它们包含根据其匹配级别放置在各个类周围的元素。如果该元素匹配，则它移近目标类，如果不匹配，则它继续。