📜  数据挖掘中的数据规范化

📅  最后修改于: 2021-04-16 06:18:54             🧑  作者: Mango

标准化用于缩放属性的数据,以使其落在较小的范围内,例如-1.0到1.0或0.0到1.0。通常对于分类算法很有用。

需要规范化–

当我们处理不同规模的属性时,通常需要规范化,否则,由于其他属性具有较大的值,因此它可能导致重要的同等重要属性(较低规模)的有效性降低。
简而言之,当存在多个属性但属性具有不同比例的值时,这可能会导致在执行数据挖掘操作时出现不良的数据模型。因此,将它们归一化以使所有属性处于相同的比例。

数据标准化方法–

  • 十进制缩放
  • 最小-最大归一化
  • z分数归一化(零均值归一化)

归一化的十进制缩放方法–

通过移动数据值的小数点进行归一化。为了通过这种技术对数据进行归一化,我们将数据的每个值除以数据的最大绝对值。使用以下公式将数据的数据值v i归一化为v i’–

其中j是最小整数,使得max(| v i ‘|)<1。

例子 –

最小-最大归一化

在这种数据归一化技术中,对原始数据执行线性变换。从数据中提取最小值和最大值,并根据以下公式替换每个值。

其中A是属性数据,
Min(A),Max(A)分别是A的最小值和最大值。
v’是数据中每个条目的新值。
v是数据中每个条目的旧值。
new_max(A),new_min(A)分别是范围的最大值和最小值(即所需范围的边界值)。

Z分数归一化–

在此技术中,根据数据A的平均值和标准偏差对值进行归一化。使用的公式为:

v’,v分别是数据中每个条目的新旧内容。 σA,A是A的标准偏差和平均值分别。