Skip to content

置信区间

2024/11/25

在同一个总体中,多次抽取样本量为n的样本,每一组样本可以计算出一个样本均值,将这些样本均值汇集在一起就获得了样本均值的抽样分布。我们把样本均值看做一个新“随机变量”,我们可以对其进行分析。

规律: 总体 \(X\) 的均值为 \(\mu\),方差为 \(\sigma^2\),则样本均值服从正态分布 \(N(\mu, \frac{\sigma^2}{n})\)

如果我们抽取了一个样本,可以算出样本均值,那么如何就此估计总体均值呢?

抽样误差

定义抽样误差 = \(|\bar{x} - \mu|\),我们如果知道样本均值和抽样误差,就可以计算总体均值

置信区间构建

样本均值 \(\bar{x}\) 服从正态分布,则 95% 的样本均值会落在 \(\mu \pm 1.96\frac{\sigma}{\sqrt{n}}\) 的范围内,即满足:

\[ \mu - 1.96 \times \frac{\sigma}{\sqrt{n}} \leqslant \bar{x} \leqslant \mu + 1.96 \times \frac{\sigma}{\sqrt{n}} \]

有 95% 的 \(\bar{x}\) 满足:

\[ \bar{x} - 1.96 \times \frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \bar{x} + 1.96 \times \frac{\sigma}{\sqrt{n}} \]

这个区间就是 95% 的置信区间

95%的理解

每抽取一个样本,按照上面的计算方法,就可以获得一个95%置信区间,这些区间不完全相同,并且有的可能包括总体均数,有的可能不包括。

假设我们重复抽样100次,95%的含义是: 我们几乎可以断定其中有95个区间是包括总体均值的。(图中 \(\bar{x}\)\(\mu \pm 1.96 \frac{\sigma}{\sqrt{n}}\) 内,则区间会覆盖总体均值 \(\mu\) )

图示:

alt text


Reference:

知乎|怎样全面理解95%置信区间