在统计推断的参数估计中,区间估计(interval estimation)是一种估计使用一些试验样本去估计一个含参分布族的参数的方法,它是弥补点估计的不足提出的,其古典理论由 Neyman 建立。
概述[]
假设有一个参数分布族
,其中
是参数空间。
是定义在参数空间上的已知函数,如果我们采用试验样本
的某个函数
直接去作为函数
的估计,这就是点估计方法,那么这种估计的精度我们没办法刻画,单点取值的概率(尤其是连续分布情形下)不能帮助我们有效地去估计参数地具体取值。因此这时可以容许估计的范围扩大,即我们说
可能落在区间
内,这样就是区间估计的基本思想。
另外,给一个区间估计,我们考虑的问题是:
- 这个估计的可信度,也就是说,我们有多大的把握保证我们的区间估计包含待估函数的值,一般来说区间长度越大我们的把握也越大。
- 这个估计的精度,如果区间长度过大对我们的估计其实是不好的,我们需要的估计要适当的精确一些,一般来说的理想情况是精度在我们所关心的估计里对重点关注的问题是足够的,如果不足够会导致我们的研究没有意义。
这分别引出置信度和精度的概念。
定义[]
假设有一个参数分布族
,其中
是参数空间。
是定义在参数空间上的已知函数,
是取自参数分布族的一组样本。假设
和
是定义域为样本空间
且值域为
的两个统计量,且
,我们就称随机区间
为
的区间估计量,简称区间估计。
在参数空间为高维的情形下,我们也有上述类似的定义,详见置信域。
置信水平[]
假设随机区间
是一个
的区间估计,我们称
为该区间估计的置信水平或置信度。置信水平关于参数空间的下确界
称为置信系数,这个概念反映了区间估计对所有参数的适应性优劣水平。
而刻画精度的概念主要用随机区间关于参数的平均长度
来表征。
置信区间[]
我们知道精度和置信度不能兼得,因此 Neyman 提出一种在给定置信度不小于某个概率的条件下让精度达到最大的方案,这就是置信区间估计方法。假设
是一个
的区间估计,给定
,如果
我们就说
是
的置信水平为
的置信区间。
一般来说我们不知道上述不等式的等号是否达到,在连续型场合下一般是可以达到的,我们有时也将取等号时的最佳的区间称为其同等置信区间。
有时候我们考虑的问题是参数不会高于或低于某个指标值,而不关系另一侧的情况,这时引入单侧置信限的概念:假设
是一个
的区间估计,给定
,如果
我们就说
是
的置信水平为
的(单侧)置信上限。同样可以定义(单侧)置信下限的概念以及同等置信上(下)限的概念。
假设
分别是置信水平为
的单侧置信上下限,那么区间估计
是置信水平为
的置信区间。
置信域[]
在参数空间为高维的情形下由置信域的概念以代替置信区间的概念:我们不妨假设待故函数就是参数
本身,设样本
的集合函数
满足:
- 对任意样本观察值
是
的子集;
- 对给定的
,
我们称
是
的置信域。一般采用规则图形(矩体,球体等)作为置信域。
优化问题求解[]
求解置信区间或置信域实际上给出了一个条件优化问题:
Neyman 给出了一种枢轴变量法,通过引进一种表达式中含有参数,但分布又不依赖于参数的变量来求解上述问题。但是一般来说,如果找不到这样的变量就需要另寻他法,例如大样本方法(使用中心极限定理对渐近分布做统计推断)。
参考资料