📜  统计-所需样本量

📅  最后修改于: 2021-01-23 06:51:40             🧑  作者: Mango


测试的关键部分是测试量度的选择,即从人群中选择要完成勘探的单位数量。没有明确的答案或最合适尺寸的答案。对于测试范围,肯定存在误导性的判断,例如该示例应该是人口的10%,或者样本大小是相对于宇宙范围的。但是,如前所述,这些只是错误的判断。标本应具有多大的范围是所研究的人口参数的变化能力以及专家要求的评估准确性。

可以从两个角度来确定样品的最佳尺寸。主观的和数学的。

  1. 确定样本量的主观方法

  2. 确定样本量的数学方法

确定样本量的主观方法

样本大小的选择受以下各种因素影响:

  • 种群的性质-同质性或异质性的水平会影响样本的范围。如果就所关注的质量而言,如果民众是同质的,那么即使是很小的样本量也足够了。但是,如果民众是异类的,则需要一个更大的例子来保证足够的代表性。

  • 受访者的性质-如果可以轻松地访问和访问受访者,那么可以从一个小例子中获得所需的数据。尽管有这样一个偶然的机会,尽管受访者不合作,并且依赖于无反应,所以需要更大的样本。

  • 研究的性质-可以利用大量实例来进行一次性研究。如果应该进行一些性质固定且需要认真完成的考试研究,那么稍微加一点样本就更合适,因为在很长的一段时间内很难监督和掌握一个小例子。

  • 使用的采样技术-影响测试范围的一个重要变量是所接收的检查系统。首先,非似然系统比似然策略需要更大的样本。除了似然性测试之外,如果使用简单的不规则检查,则比使用分层的情况(需要少量样本就足够)需要更大的示例。

  • 制表的复杂性-在对样本进行评估时,专家还应同样考虑要对发现进行组合和分解的分类和类的数量。可以看出,要生成的分类数量越多,示例大小就越大。由于应该对每个班级进行足够的交谈,因此需要较大的标本来给出最小分类的可靠度量。

  • 资源的可用性-专家可以使用的资产和时间会影响测试的跨度。考试是一个期间和现金递增的任务,其练习诸如准备仪器,与现场工作人员签约和准备,运输成本等占用了大量资产。随后,如果科学家没有足够的时间和可访问的支持,他将以另一个例子为基础。

  • 要求的精度和准确性-。从我们先前的论述中可以明显看出,即使SE较小或示例大小很大,通过标准错误测量的准确性也会很高。

为了获得较高的精度,还需要更大的样本。除了这些主观努力外,样本数量也可以通过数学确定。

确定样本量的数学方法

在确定样本量的数学方法中,首先说明所需估计的精度,然后计算出样本量。可以将精度指定为真实均值的$ {\ pm} $ 1,置信度为99%。这意味着,如果样本均值是200,则均值的真实值将在199和201之间。此精度级别由术语“ c”表示

确定均值的样本大小。

宇宙均值的置信区间为

$ {\ bar x \ pm Z \ frac {\ sigma_p} {\ sqrt N} \或\ \ bar x \ pm e} $

哪里-

  • $ {\ bar x} $ =样本均值

  • $ {e} $ =可接受的错误

  • $ {Z} $ =在给定置信水平下标准正态变量的值

  • $ {\ sigma_p} $ =总体标准差

  • $ {n} $ =样本大小

可接受的误差’e’,即$ {\ mu} $和$ {\ bar x} $之间的差为

$ {Z. \ frac {\ sigma_p} {\ sqrt N}} $

因此,样本大小为:

$ {n = \ frac {Z ^ 2 {\ sigma_p} ^ 2} {e ^ 2}} $

要么

如果样本量相对于人口规模而言是很大的签证,那么上述公式将通过有限的人口乘数进行修正。

$ {n = \ frac {Z ^ 2.N。{\ sigma_p} ^ 2} {(N-1)e ^ 2 + Z ^ 2。{\ sigma_p} ^ 2}} $

哪里-

  • $ {N} $ =人口规模

确定比例的样本量

估计比例时确定样本大小的方法与估计平均值的方法相同。宇宙比例$ {\ hat p} $的置信区间为

$ {p \ pm Z. \ sqrt {\ frac {pq} {n}}} $

哪里-

  • $ {p} $ =样本比例

  • $ {q =(1-p)} $

  • $ {Z} $ =样本比例的标准正态变量的值

  • $ {n} $ =样本大小

由于要估计$ {\ hat p} $,因此可以通过取p = 0.5(可接受的值)来确定p的值,从而得出保守的样本量。另一种选择是p的值是通过初步研究或基于个人判断来估计的。给定p的值,可接受的误差“ e”由下式给出:

$ {e =Z。\ sqrt {\ frac {pq} {n}} \\ [7pt] e ^ 2 = Z ^ 2 \ frac {pq} {n} \\ [7pt] n = \ frac {Z ^ 2.pq} {e ^ 2}} $

如果总体是有限的,则上述公式将通过有限总体乘数进行校正。

$ {n = \ frac {Z ^ 2.pqN} {e ^ 2(N-1)+ Z ^ 2.pq}} $

问题陈述:

购物商店有兴趣估算拥有商店特权会员卡的家庭比例。先前的研究表明,有59%的家庭拥有商店信用卡。置信水平为95%时,可容忍的错误级别为05。

  1. 确定进行研究所需的样本量。

  2. 如果已知目标家庭数量为1000,样本量将是多少?

解:

商店有以下信息

$ {p = .59 \\ [7pt] \ Rightarrow q =(1-p)=(1-.59)= .41 \\ [7pt] CL = .95 \\ [7pt] And \ the \ Z \ standard \ variate \ for \ CL \ .95 \ is \ 1.96 \\ [7pt] e = \ pm .05} $

可以通过使用以下公式确定样本大小:

$ {n = \ frac {Z ^ 2.pq} {e ^ 2}} $
$ {n = \ frac {(1.96)^ 2。(。59)。(。41)} {(。05)^ 2} \\ [7pt] = \ frac {.9226} {。0025} \\ [ 7pt] = 369} $

因此,有369个家庭的样本足以进行研究。

由于已知人口(即目标家庭)为1000,并且上述样本占总人口的很大比例,因此使用了包含有限人口乘数的校正公式。

$ {n = \ frac {Z ^ 2.pqN} {e ^ 2(N-1)+ Z ^ 2.pq} \\ [7pt] = \ frac {(1.96)^ 2。(。59)。( .41)。(1000)} {(。05)^ 2 \ times 999 +(1.96)^ 2(.59)(。41)} \\ [7pt] = \ frac {922.6} {2.497 + .922} \\ [7pt] = 270} $

因此,如果人口是一个有限的人口,有1000户家庭,那么进行这项研究所需的样本量为270个。

从该图示中可以明显看出,如果总体数量已知,则确定的样本数量将减少。