数据挖掘中的属性子集选择 - 芒果文档

📌 相关文章

📜 数据挖掘中的属性子集选择

📅 最后修改于: 2021-09-10 01:50:21 🧑 作者: Mango

属性子集选择是一种用于数据挖掘过程中数据约简的技术。数据缩减减少了数据的大小，以便更有效地将其用于分析目的。

属性子集选择的需要-
数据集可能有大量的属性。但其中一些属性可能无关紧要或多余。属性子集选择的目标是找到最小的属性集，这样丢弃那些不相关的属性不会对数据的效用产生太大影响，并且可以降低数据分析的成本。在减少的数据集上进行挖掘也使发现的模式更容易理解。

属性子集选择过程-
蛮力方法可能非常昂贵，其中可以分析具有 n 个属性的数据的每个子集(2^n 个可能的子集)。
完成任务的最佳方法是使用统计显着性检验，以便识别最佳(或最差)属性。统计显着性检验假设属性彼此独立。这是一种贪婪的方法，其中确定显着性水平(显着性水平的统计理想值为5％)并反复测试模型，直到所有属性的p值(概率值)小于或等于选定的显着性水平。丢弃 p 值高于显着性水平的属性。这个过程不断重复，直到数据集中所有属性的 p 值都小于或等于显着性水平。这为我们提供了没有不相关属性的简化数据集。

属性子集选择方法-
1.逐步向前选择。
2. 逐步向后消除。
3. 前向选择与后向淘汰相结合。
4. 决策树归纳。

以上所有方法都是用于属性子集选择的贪婪方法。

Stepwise Forward Selection：这个过程以一个空的属性集作为最小集开始。选择最相关的属性(具有最小 p 值)并添加到最小集合中。在每次迭代中，一个属性被添加到一个缩减集。
Stepwise Backward Elimination：这里所有的属性都被考虑在初始属性集中。在每次迭代中，从 p 值高于显着性水平的属性集中删除一个属性。
前向选择与后向剔除相结合：将逐步前向选择与后向剔除相结合，以最高效的方式选择相关属性。这是最常用的技术，通常用于属性选择。
决策树归纳：这种方法使用决策树进行属性选择。它构建了一个类似于结构的流程图，具有表示对属性的测试的节点。每个分支对应于测试的结果，叶节点是一个类预测。不是树的一部分的属性被认为是不相关的，因此被丢弃。