参数估计
基本概念
估计量与估计值
估计量:用于估计总体参数的随机变量
如:样本均值,样本比例,样本方差等
例如:样本均值就是总体均值的一个估计量
估计值:估计参数时计算出来的统计量的具体值
如:样本均值是80,那么80就是总体均值的估计量
评估估计量的标准
1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数
数学期望(理论上会出现的结果,数学期望E(x)定义为X的所有可能值与各自概率的乘积之和)
简单来说:比如说样本均值的数学期望等于总体平均值
2、有效性:对同一总体参数的两个无偏点估计量,有更小标准差(分布相对集中)的估计量更有效
3、一致性
随着样本量的增大,点估计量(样本估计量)的值会越来越靠近总体参数(总体)
点估计
用样本统计量的某个取值直接作为总体参数的估计值
比如:用样本均值直接作为总体均值的估计量;再比如要估计一批产品的合格率,如果抽样结果合格率为96%,将96%直接作为此产品合格率的估计值。
一个点估计的可靠性由它的抽样标准误差来衡量的,这表名一个具体的点估计无法给出估计的可靠性的度量。
区间估计
基本概念
1、在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
比如:产品合格率在75%~85%之间,置信水平是95%
2、置信区间:在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间(所有的样本),其中最小的值称为置信下限,最大的值称为置信上限。统计学家在某种程度上确信这个区间包含真正的总体参数,所以给它取名叫置信区间。
3、置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称置信度或置信系数。
由100个样本构造的总体参数的100个置信区间中,有95%的区间包括总体参数的真值,有5%的区间没有包括总体参数的真值,则95%这个值称为置信水平/置信度/置信系数
4、置信区间的理解
(1)置信区间是一个随机区间,他会因为样本的不同而不同,而不是所有的区间都包括总体参数的真值。
(2)在实际问题中,进行估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(如95%)下的置信区间。由于该样本所构造的区间是一个特定的区间,而不再是随机区间,所以无法知道这个样本所产生的区间是否包含总体参数的值。我们希望包含,但它可能包含(95%概率),也可能不包含(5%概率)
假设检验
什么是假设
1、对总体参数的数值所作的一种陈述。
总体参数包括总体均值、比例、方差等
分析之前必须陈述
2、事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立
3、有参数假设检验和非参数假设检验
4、采用逻辑上的反证法,依据统计上的小概率原理
原假设
1、待检验的假设,又称“零假设”
2、研究者想收集证据予以反对的假设
3、总是有等号=,>=或<=
4、表示H0
H0:μ=某一数值
指定=,<=或>=
例如,H0:μ = 0.5
备择假设
1、与原假设对立的假设,也称研究假设
2、研究者想收集证据予以支持的假设
3、总是有不等号,大于等于或小于等于
4、表示为H1
H1:μ不等于某一数值
例如,H1:μ不等于0.5
概念:在假设检验中,出现错误的的类型的两种
第一类错误:弃真错误(原假设为真时拒绝原假设),概率为α
第二类错误:取伪错误(原假设为伪时接收原假设),概率为β
原假设比如说,这个班级学生的平均身高大于175cm,备择假设这个班级学生的平均身高不大于175cm。
弃真错误:班级学生平均身高就是大于175cm,然而抽取一个学生的身高小于175cm,就拒绝原假设;
取伪错误:班级学生平均升高小于175cm,然而抽取一学生的身高大于175cm,就觉得原假设正确(其实原假设是错误的)
两类错误的理解
一般来说,哪一类错误所带来的后果严重,危害越大,在假设检验中就应当把哪一种错误作为首要控制的目标。但在假设检验中,大家都在执行这样一个原则,即首先控制犯α错误原则。这样做主要有两点,一方面,大家都遵循这样一个原则,讨论问题就比较方便,第二个最主要的原因在于,从实用的观点来看,原假设是什么常常是明确的,备用假设是什么通常是模糊的,显然对于一个清晰的假设和一个含义模糊的假设,我们更愿意接收前者。
当然这要从更多的维度和不同情况来看
假设检验的流程
1、提出假设
2、确定适合的检验统计量
什么是检验统计量
a、用于假设检验决策的统计量
b、选择统计量的方法与参数估计相同,需考虑
是大样本还是小样本(英国统计学家费尔希把小概率事件的标准定为0.05,人们 沿用了这个标准,把0.05及以下的概率称为小概率)
总体方差已知还是未知
c、检验统计量的基本形式为
3、规定显著性水平α
什么是显著性水平
是一个概率值、假设原假设为真时,拒绝原假设的概率(被称为抽样分布的拒绝域)表示为α(值有0.01、0.05、0.10)由研究者实现确定。
4、计算检验统计量的值
5、做出统计决策
(1)计算检验的统计量、根据给定的显著性水平α,查表得出相应的临界值和拒绝域,将检验统计量的值与α水平的临界值进行比较,得出接收或拒绝原假设的结论;若样本统计量的值落入拒绝域,则拒绝原假设,接收备选假设;否则接收原假设。