Alpha和Beta测试 - 芒果文档

📌 相关文章

📜 Alpha和Beta测试

📅 最后修改于: 2021-08-25 10:03:46 🧑 作者: Mango

在上一篇文章中，我们讨论了假设检验，这是推论统计的基础。我们之前讨论了基本的假设检验，包括零假设和交替假设，z检验等。现在，在此讨论更多的I型和II型误差，显着性水平(α)和功效(β)。

P值：

p值定义为获得结果或比正态分布中实际观察到的结果更极端的概率。通常，我们采用显着性水平= 0.05，这意味着如果观察到的p值小于显着性水平，则我们拒绝原假设。

要计算p值，我们需要表中特定的测试统计信息(t检验，z检验，f检验)，以及它是否是一尾两尾检验。

p值

Alpha和Beta测试：

	Null Hypothesis is TRUE	Null Hypothesis is FALSE
Reject Null Hypothesis	Type I Error $\left ( \alpha \right )$	Correct decision $\left ( 1 - \alpha \right )$
Fail to Reject the Null Hypothesis	Correct decision $\left ( 1 - \beta \right )$	Type II error $\left ( \beta \right )$

类型I错误(Alpha)：现在，如果我们根据重要性p值计算的水平拒绝零假设，则样本实际上可能属于相同(零)分布，并且我们错误地拒绝了它，称为I型错误，用alpha表示
II型错误(测试版) ：现在，根据显着性水平和p值，如果我们接受的样品并非真正属于同一分布，则称为II型错误

幂和置信区间：

置信区间：置信区间是可以可靠地拒绝原假设的区域。它是通过减去alpha和1来计算的

$Confidence \, Interval = \left ( 1- \alpha \right )$

幂：幂是正确拒绝零假设并接受替代假设(H _A )的概率。可以通过从1中减去beta来计算功效。

$Power = \left ( 1- \beta \right )$

功率越高，产生II型错误的可能性越低。较低的功率意味着执行II型错误的风险更高，反之亦然。通常，0.80的功率被认为足够好。功率还取决于以下因素：

效应大小：效应大小只是衡量两个变量之间关系强度的方法。有多种计算效果大小的方法，例如用于计算两个变量之间的相关性的皮尔逊相关性，用于测量组之间差异的Cohen d检验，或仅通过计算不同组之间均值的差异即可。
样本数量： 统计样本中包含的观察数。
显着性：测试中使用的显着性水平(alpha)。

进行功率分析的步骤

陈述零假设(H ₀ )和替代假设(H _A )。
陈述Alpha风险等级(重要性等级)。
选择适当的统计检验。
确定效果大小。
创建抽样计划并确定样本量。之后收集样品。
通过确定p值来计算测试统计量。
- 如果p值
重复上述步骤几次。

例子

特殊饮食分配与正常饮食分配

假设有两个分布代表两组人的体重，左边代表饮食中的人，右边代表食用正常食物的人。
我们从分布中抽取一些样本并计算其均值。
在这里，我们的原假设是两个样本都来自相同的分布(饮食计划无影响)，另一个假设是两个样本都来自不同的分布。
现在，我们从这些样本中计算出p值。
如果我们的p值小于显着性水平，那么我们将正确地拒绝原假设，即这两个样本均来自同一分布。
否则，我们不会拒绝原假设。
现在，我们多次重复上述步骤(即1000、10000)，等等，并计算正确拒绝零假设(即幂)的概率。

执行：

Python3

# Necessary Imports
import numpy as np
from statsmodels.stats.power import TTestIndPower
import matplotlib.pyplot as plt
  
# here effect size is taken as (u1-u2) /sd
effect_size = (60-50)/10
alpha = 0.05
samples =20
p_analysis = TTestIndPower()
power = p_analysis.solve_power(effect_size=effect_size, alpha=alpha, nobs1 = samples, ratio =1)
print("Power is ",power)

0.8689530131730794