其他分类方法 - 芒果文档

📌 相关文章

📜 其他分类方法

📅 最后修改于: 2021-01-11 06:31:32 🧑 作者: Mango

在这里，我们将讨论其他分类方法，例如遗传算法，粗糙集方法和模糊集方法。

遗传算法

遗传算法的思想源于自然进化。在遗传算法中，首先创建初始种群。此初始种群由随机生成的规则组成。我们可以用字符串比特表示每个规则。

例如，在给定的训练集中，样本由两个布尔属性(例如A1和A2)描述。这个给定的训练集包含两个类别，例如C1和C2。

我们可以将规则IF A1而不是A2然后将C2编码为位字符串100 。在该位表示中，最左边的两个位分别表示属性A1和A2。

同样，规则IF NOT A1和NOT A2 THEN C1可以编码为001 。

注-如果属性具有K个值，其中K> 2，则可以使用K位对属性值进行编码。这些类也以相同的方式编码。

要记住的要点-

根据适者生存的概念，形成了一个新种群，该种群由当前种群中的最适规则以及这些规则的后代值组成。
规则的适用性通过一组训练样本的分类准确性来评估。
遗传运算符，例如交叉和突变，被用于产生后代。
在交叉中，规则对中的子字符串被交换以形成新的规则对。
在变异中，规则字符串中随机选择的位将被反转。

粗糙集方法

我们可以使用粗糙集方法来发现不精确和嘈杂数据中的结构关系。

注–此方法只能应用于离散值属性。因此，连续值属性必须在使用前离散化。

粗糙集理论是基于给定训练数据中等效类的建立。构成等价类的元组是不可区分的。这意味着样本在描述数据的属性方面是相同的。

给定的现实世界数据中有一些类别，无法根据可用属性加以区分。我们可以使用粗糙集粗略地定义此类。

对于给定的C类，粗糙集定义由两个集合近似表示，如下所示-

C的较低近似值-C的较低近似值包含所有数据元组，这些数据元组基于属性的知识确定属于C类。
C的上近似-C的上近似由所有元组组成，基于属性的知识，不能将其描述为不属于C。

下图显示了C类的上下近似-

模糊集方法

模糊集理论也称为可能性理论。该理论由Lotfi Zadeh于1965年提出，作为二值逻辑和概率理论的替代方案。该理论使我们能够在较高的抽象水平上进行工作。它还为我们提供了处理数据不精确测量的方法。

模糊集理论还允许我们处理模糊或不精确的事实。例如，准确地成为一组高收入的成员(例如，如果$ 50,000高，那么大约$ 49,000和$ 48,000会怎样)。与传统CRISP集不同的是，元素要么属于S要么是其补语，但是在模糊集理论中，元素可以属于多个模糊集。

例如，收入值$ 49,000属于中，高模糊集，但程度不同。该收入值的模糊集符号如下-

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

其中“ m”是隶属函数，分别作用于medium_income和high_income的模糊集。该表示法可以如下所示：

模糊方法