📜  数据挖掘中的属性子集选择

📅  最后修改于: 2021-09-10 01:50:21             🧑  作者: Mango

属性子集选择是一种用于数据挖掘过程中数据约简的技术。数据缩减减少了数据的大小,以便更有效地将其用于分析目的。

属性子集选择的需要-
数据集可能有大量的属性。但其中一些属性可能无关紧要或多余。属性子集选择的目标是找到最小的属性集,这样丢弃那些不相关的属性不会对数据的效用产生太大影响,并且可以降低数据分析的成本。在减少的数据集上进行挖掘也使发现的模式更容易理解。

属性子集选择过程-
蛮力方法可能非常昂贵,其中可以分析具有 n 个属性的数据的每个子集(2^n 个可能的子集)。
完成任务的最佳方法是使用统计显着性检验,以便识别最佳(或最差)属性。统计显着性检验假设属性彼此独立。这是一种贪婪的方法,其中确定显着性水平(显着性水平的统计理想值为5%)并反复测试模型,直到所有属性的p值(概率值)小于或等于选定的显着性水平。丢弃 p 值高于显着性水平的属性。这个过程不断重复,直到数据集中所有属性的 p 值都小于或等于显着性水平。这为我们提供了没有不相关属性的简化数据集。

属性子集选择方法-
1.逐步向前选择。
2. 逐步向后消除。
3. 前向选择与后向淘汰相结合。
4. 决策树归纳。

以上所有方法都是用于属性子集选择的贪婪方法。

  1. Stepwise Forward Selection:这个过程以一个空的属性集作为最小集开始。选择最相关的属性(具有最小 p 值)并添加到最小集合中。在每次迭代中,一个属性被添加到一个缩减集。
  2. Stepwise Backward Elimination:这里所有的属性都被考虑在初始属性集中。在每次迭代中,从 p 值高于显着性水平的属性集中删除一个属性。
  3. 前向选择与后向剔除相结合:将逐步前向选择与后向剔除相结合,以最高效的方式选择相关属性。这是最常用的技术,通常用于属性选择。
  4. 决策树归纳:这种方法使用决策树进行属性选择。它构建了一个类似于结构的流程图,具有表示对属性的测试的节点。每个分支对应于测试的结果,叶节点是一个类预测。不是树的一部分的属性被认为是不相关的,因此被丢弃。