文章目录
- 置信区间
- 点估计和区间估计
- 置信度
- 置信区间的计算
- 置信区间计算的具体例子
- 参考文献
置信区间
置信区间是总体参数落在测量结果周围的程度
点估计和区间估计
点估计:通过样本数据估计总体参数 ⇒ \Rightarrow ⇒使用样本统计量(如样本均值、样本方差)作为总体参数的点估计
- 例子:如果我们想要一个学校学生的身高情况,可以把所有的学生测量一遍,然后得到答案。然而,如果学生数量庞大,全面测量将会非常繁琐和耗时。为此,我们可以随机抽取一部分学生,测量他们的身高,并计算平均值,从而估算整体学生的身高情况
- 缺点:无法给出估计结果的精确程度
区间估计:通过区间数据估计总体参数 ⇒ \Rightarrow ⇒通过样本数据和置信水平计算得到区间
- 例子:通过样本数据计算出学校学生平均身高的区间估计为[168厘米, 172厘米],并且这个估计区间是基于95%的置信水平,这意味着有95%的把握认为总体平均身高落在这个区间内
置信度
置信度用来判断区间估计中估算区间的准确度
拿高考成绩举例,我有95%的把握估计我的高考分数是600-650 ⇒ \Rightarrow ⇒置信区间是[600,650],置信度是95%
也可以说,我有100%的把握估计我高考分数是 0-750,这里的置信区间是 [0,750],置信度肯定是100%
置信区间的计算
-
明确需要求解的问题
-
计算抽样样本的平均值和标准误差
标准差:整体样本对样本均数的离散程度
标准误差:样本均数对总体均数的变异程度 ⇒ \Rightarrow ⇒样本数据的标准误差: S E = s n SE=\frac{s}{\sqrt{n}} SE=ns,其中 s s s是样本数据的标准差, n n n是样本数据的数量 -
确定置信水平/置信度
-
查z表(标准正态分布表,反映标准分与概率值之间的关系),确定z值
以下提供的z表展示了z值与其对应概率之间的关系,反映的是正态分布单侧的概率
-
计算置信区间
a = 样本均值 − z × 标准误差 a=\text{样本均值}-z\times \text{标准误差} a=样本均值−z×标准误差
b = 样本均值 + z × 标准误差 b=\text{样本均值}+z\times \text{标准误差} b=样本均值+z×标准误差
置信区间: [ a , b ] [a,b] [a,b]
置信区间计算的具体例子
假设我们有一个随机抽样的样本,想要估计某个城市居民的平均收入
题目背景:
- 我们从100名居民中随机抽取了一个样本
- 样本均值 x ˉ = 50000 \bar{x}=50000 xˉ=50000美元
- 样本标准差 s = 10000 s=10000 s=10000
- 样本大小 n = 100 n=100 n=100
- 我们需要计算95%的置信区间
计算置信区间的步骤:
- 计算标准误差: S E = s n = 10 , 000 100 = 10 , 000 10 = 1 , 000 SE=\frac{s}{\sqrt{n}}=\frac{10,000}{\sqrt{100}}=\frac{10,000}{10}=1,000 SE=ns=10010,000=1010,000=1,000
- z值:对于95%的置信水平,Z值为1.96
- 计算置信区间: C I = 50 , 000 ± 1.96 × 1 , 000 C I = 50 , 000 ± 1 , 960 \begin{gathered}CI=50,000\pm1.96\times1,000\\CI=50,000\pm1,960\end{gathered} CI=50,000±1.96×1,000CI=50,000±1,960 ⇒ \Rightarrow ⇒ 95%的置信区间为: C I = [ 48 , 040 , 51 , 960 ] CI=[48,040,51,960] CI=[48,040,51,960]
- 我们有95%的信心认为该城市居民的总体平均收入在48,040美元到51,960美元之间
参考文献
1、置信度&置信区间
2、置信区间究竟是什么
3、正态分布表(Normal Distribution Table)
4、ChatGPT4o