机器学习-什么是P值

📌 相关文章

📜 机器学习-什么是P值

📅 最后修改于: 2020-09-29 05:23:49 🧑 作者: Mango

什么是P值

在统计假设检验中，通过假设无效假设(H0)为真，P值(有时称为概率值)用于观察检验结果或更极端的结果。在数据科学中，有很多概念是从不同学科借来的，p值就是其中之一。 p值的概念来自统计，并广泛用于机器学习和数据科学中。

P值还用作确定拒绝点的替代方法，以便提供最小或最小否定假设的显着性水平。
它表示为介于0和1之间的显着性水平， 如果p值较小，则将有强有力的证据拒绝原假设。如果p值的值非常小，则表示观察到的输出是可行的，但不在零假设条件下(H ₀ )。
p值0.05被称为显着性水平( α )。通常，考虑使用以下两个建议来考虑它：
- 如果p值> 0.05：大p值表明需要接受原假设。
- 如果p值<0.05：小p值表明原假设需要被拒绝，并且结果被声明为静态有效的。

在统计中，我们的主要目标是确定结果的统计显着性，并且该统计显着性是基于以下三个概念得出的：

假设检验
正态分布
统计学意义

让我们了解它们中的每一个。

假设检验

假设检验可以在两个术语之间定义。零假设和替代假设。它用于检查使用样本数据得出的零假设或主张的有效性。在这里，原假设(H0)被定义为两个变量之间没有统计意义的假设，而替代假设被定义为两个变量之间具有统计意义的假设。两个变量之间没有显着的关系，表明一个变量不会影响另一变量。因此，Null假设表明您要证明的内容实际上并未发生。如果自变量不影响因变量，则它将显示替代假设条件。

可以简单地说，在假设检验中，首先，我们使用样本数据提出一个假设为零假设的声明。如果发现该主张无效，则选择替代假设。使用p值验证此假设或要求，以使用证据查看其是否具有统计意义。如果证据支持替代假设，则原假设被拒绝。

假设检验的步骤

以下是进行假设检验实验的步骤：

声明或声明实验为空假设。
陈述与虚拟假设相反的替代假设。
设置要在实验中使用的alpha值。
使用正态分布确定z得分。
比较P值以验证统计显着性。

正态分布

正态分布(也称为高斯分布)是概率分布函数。它关于均值对称，并用于通过图形图查看数据的分布。它表明，与远离均值的数据相比，接近均值的数据更频繁地出现，并且看起来像钟形曲线。正态分布的两个主要项是均值(μ)和标准偏差(σ)。对于正态分布，平均值为零，标准偏差为1。

在假设检验中，我们需要计算z得分。 Z分数是距数据点平均值的标准偏差数。

在这里，z得分告诉我们数据与平均人口相比的位置。

统计学意义：

确定假设检验的统计显着性是计算p值的目的。为此，首先，我们需要设置一个阈值，即alpha。在实验之前，我们应该始终设置alpha值，并且将其设置为0.05或0.01(取决于问题的类型)。

如果观察到的p值小于alpha，则得出结论为有意义的结果。

P值错误

为p值定义了两种类型的误差：这些错误如下：

类型I错误
II型错误

类型I错误：

它被定义为对Null假设的错误或错误拒绝。对于此错误，最大概率为alpha，并且已预先设置。该错误不受数据集样本大小的影响。随着我们增加测试或端点的数量，I型错误也会增加。

II型错误

II型错误定义为对Null假设的错误接受。 II型错误的概率为beta，且beta取决于样本大小和alpha值。不能将beta确定为真实人口效应的函数。 β的值与样本量成反比，这意味着β随着样本量的增加而减小。

当我们增加测试或端点的数量时，β的值也会减小。

我们可以通过下表了解假设检验与决策之间的关系：

	Decision
Truth	Accept H₀	Reject H₀
H₀ is true	Correct decision	Type I error
H₀ is false	Type II error	Correct Decision

P值的重要性

p值的重要性可以从两个方面进行理解：

统计方面：在统计中，p值的概念对于假设检验和诸如回归的统计方法很重要。
数据科学方面：在数据科学中，它也是重要方面之一。此处较小的p值表明预测变量和响应之间存在关联。建议在处理数据科学中的机器学习问题时，应谨慎对待p值。