📜  数据挖掘中的属性相关性分析

📅  最后修改于: 2021-08-27 18:16:30             🧑  作者: Mango

属性分析方法:
关于质量相关性研究,在人工智能,洞察力,蓬松性和苛刻性假设方面进行了大量研究。特征相关性检查背后的整体思想是处理某种量表,该量表用于评估与给定班级或观念有关的特质的重要性。这些措施包括数据收集,基尼系数,不确定性和联系系数。

让我们一一讨论。

  1. 数据采集 –
    通过查询处理为目标类和区分类收集信息。对于类别关联,信息挖掘问题中的客户提供目标类别和区分类别。对于班级描绘,目标班级是要描绘的班级,尽管差异班级是不在班级中的相似信息的排列。
  2. 使用保守性AOI(面向属性的归纳法)的初步相关性分析–
    此步骤将识别出一组度量和特征,在这些度量和特征上将应用所选的重要性度量。由于对于给定的类别,不同程度的测量可能具有非常独特的重要性,因此对于基本水平的重要性检查,应记住表征计算得出的测量水平的每种质量。
    (AOI)可通过消除或总结具有非常多的明确质量的质量(例如,姓名和电话号码)来对信息进行一些入门级重要性检查。这样的特征可能不会被发现有助于思想刻画。通过属性归纳的这种应用获得的关系称为挖掘任务的候选关系。
  3. 使用选定的相关性分析方法,删除无关紧要的属性–
    我们使用相关性分析度量的重要性来评估候选关系中的每种质量。此步骤将建立基础的目标类工作连接,并启动区分类工作连接。然后,根据属性与数据挖掘任务的计算相关性对属性进行排序(即,排序)。
  4. 使用AOI生成概念描述–
    利用不太保守的特征推测范围来执行AOI。如果明确的挖掘任务是类的写照,则这里仅包含基本的目标类工作连接。如果表达性挖掘任务是班级检查的偶然机会,则将基础的目标班级工作连接和基础的差异化班级工作连接都合并进来。

相关性度量组成部分:

  1. 信息增益(ID3)
  2. 增益比(C4.5)
  3. 基尼指数
  4. Chi ^ 2列联表统计
  5. 不确定度系数