📜  机器学习-什么是P值

📅  最后修改于: 2020-09-29 05:23:49             🧑  作者: Mango

什么是P值

在统计假设检验中,通过假设无效假设(H0)为真,P值(有时称为概率值)用于观察检验结果或更极端的结果。在数据科学中,有很多概念是从不同学科借来的,p值就是其中之一。 p值的概念来自统计,并广泛用于机器学习和数据科学中。

  • P值还用作确定拒绝点的替代方法,以便提供最小或最小否定假设的显着性水平。
  • 它表示为介于0和1之间的显着性水平, 如果p值较小,则将有强有力的证据拒绝原假设。如果p值的值非常小,则表示观察到的输出是可行的,但不在零假设条件下(H 0 )。
  • p值0.05被称为显着性水平( α )。通常,考虑使用以下两个建议来考虑它:
    • 如果p值> 0.05:大p值表明需要接受原假设。
    • 如果p值<0.05:小p值表明原假设需要被拒绝,并且结果被声明为静态有效的。

在统计中,我们的主要目标是确定结果的统计显着性,并且该统计显着性是基于以下三个概念得出的:

  • 假设检验
  • 正态分布
  • 统计学意义

让我们了解它们中的每一个。

假设检验

假设检验可以在两个术语之间定义。零假设和替代假设。它用于检查使用样本数据得出的零假设或主张的有效性。在这里,原假设(H0)被定义为两个变量之间没有统计意义的假设,而替代假设被定义为两个变量之间具有统计意义的假设。两个变量之间没有显着的关系,表明一个变量不会影响另一变量。因此,Null假设表明您要证明的内容实际上并未发生。如果自变量不影响因变量,则它将显示替代假设条件。

可以简单地说,在假设检验中,首先,我们使用样本数据提出一个假设为零假设的声明。如果发现该主张无效,则选择替代假设。使用p值验证此假设或要求,以使用证据查看其是否具有统计意义。如果证据支持替代假设,则原假设被拒绝。

假设检验的步骤

以下是进行假设检验实验的步骤:

  • 声明或声明实验为空假设。
  • 陈述与虚拟假设相反的替代假设。
  • 设置要在实验中使用的alpha值。
  • 使用正态分布确定z得分。
  • 比较P值以验证统计显着性。

正态分布

正态分布(也称为高斯分布)是概率分布函数。它关于均值对称,并用于通过图形图查看数据的分布。它表明,与远离均值的数据相比,接近均值的数据更频繁地出现,并且看起来像钟形曲线。正态分布的两个主要项是均值(μ)和标准偏差(σ)。对于正态分布,平均值为零,标准偏差为1。

在假设检验中,我们需要计算z得分。 Z分数是距数据点平均值的标准偏差数。

在这里,z得分告诉我们数据与平均人口相比的位置。

统计学意义:

确定假设检验的统计显着性是计算p值的目的。为此,首先,我们需要设置一个阈值,即alpha。在实验之前,我们应该始终设置alpha值,并且将其设置为0.05或0.01(取决于问题的类型)。

如果观察到的p值小于alpha,则得出结论为有意义的结果。

P值错误

为p值定义了两种类型的误差:这些错误如下:

  • 类型I错误
  • II型错误

类型I错误:

它被定义为对Null假设的错误或错误拒绝。对于此错误,最大概率为alpha,并且已预先设置。该错误不受数据集样本大小的影响。随着我们增加测试或端点的数量,I型错误也会增加。

II型错误

II型错误定义为对Null假设的错误接受。 II型错误的概率为beta,且beta取决于样本大小和alpha值。不能将beta确定为真实人口效应的函数 。 β的值与样本量成反比,这意味着β随着样本量的增加而减小。

当我们增加测试或端点的数量时,β的值也会减小。

我们可以通过下表了解假设检验与决策之间的关系:

Decision
Truth Accept H0 Reject H0
H0 is true Correct decision Type I error
H0 is false Type II error Correct Decision

P值的重要性

p值的重要性可以从两个方面进行理解:

  • 统计方面:在统计中,p值的概念对于假设检验和诸如回归的统计方法很重要。
  • 数据科学方面:在数据科学中,它也是重要方面之一。此处较小的p值表明预测变量和响应之间存在关联。建议在处理数据科学中的机器学习问题时,应谨慎对待p值。