置信区间¶
2024/11/25
在同一个总体中,多次抽取样本量为n的样本,每一组样本可以计算出一个样本均值,将这些样本均值汇集在一起就获得了样本均值的抽样分布。我们把样本均值看做一个新“随机变量”,我们可以对其进行分析。
规律: 总体 \(X\) 的均值为 \(\mu\),方差为 \(\sigma^2\),则样本均值服从正态分布 \(N(\mu, \frac{\sigma^2}{n})\)
如果我们抽取了一个样本,可以算出样本均值,那么如何就此估计总体均值呢?
抽样误差¶
定义抽样误差 = \(|\bar{x} - \mu|\),我们如果知道样本均值和抽样误差,就可以计算总体均值
置信区间构建¶
样本均值 \(\bar{x}\) 服从正态分布,则 95% 的样本均值会落在 \(\mu \pm 1.96\frac{\sigma}{\sqrt{n}}\) 的范围内,即满足:
\[
\mu - 1.96 \times \frac{\sigma}{\sqrt{n}} \leqslant \bar{x} \leqslant \mu + 1.96 \times \frac{\sigma}{\sqrt{n}}
\]
有 95% 的 \(\bar{x}\) 满足:
\[
\bar{x} - 1.96 \times \frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \bar{x} + 1.96 \times \frac{\sigma}{\sqrt{n}}
\]
这个区间就是 95% 的置信区间
95%的理解¶
每抽取一个样本,按照上面的计算方法,就可以获得一个95%置信区间,这些区间不完全相同,并且有的可能包括总体均数,有的可能不包括。
假设我们重复抽样100次,95%的含义是: 我们几乎可以断定其中有95个区间是包括总体均值的。(图中 \(\bar{x}\) 在 \(\mu \pm 1.96 \frac{\sigma}{\sqrt{n}}\) 内,则区间会覆盖总体均值 \(\mu\) )
图示:
Reference: