在概率论中,正态分布又称 Gauss 分布(高斯分布),是一种实际生活中应用最广泛的连续型概率分布之一。
模型[]
设连续型随机变量的概率密度函数是
我们就说随机变量
服从正态分布,记作
。当
时称为标准正态分布。
它的分布函数是
可以证明它满足规范化条件,即
此外,也可以证明,参数
分别是该分布的
数学期望和
方差。它的
特征函数是
R 语言的正态分布密度函数为
dnorm
,分布函数为
pnorm
,一些不同参数的正态分布密度函数和分布函数为
标准化[]
设随机变量,如果做可逆的变量代换,那么
即
,是标准正态分布。我们把上述变量替换称作正态分布的标准化,这样,研究任意正态分布仅需研究标准正态分布的情形即可。
标准正态分布有如下性质:
- 概率密度函数图像是关于对称的,所以
- 概率密度函数图像在处达到极大(也是最大);
- 分布函数有性质
性质[]
由标准正态分布的性质我们可以平行地得到正态分布的性质。此外,对于相同方差不同期望的正态分布,它们的密度函数和分布函数图像之间可以相互平移得到;对于相同期望不同方差的正态分布,它们密度函数图像形状不同,方差越小,数据越集中在数学期望附近,图像越陡峭,如下图。
设有个相互独立的正态分布的随机变量,那么它们的线性组合也是服从正态分布,且
3σ 原则[]
关于正态分布,有一个实用的原则。经过计算可知
由上可知,
的概率已经十分接近于
,由
小概率事件原理,事件
的概率如此之小以至于在有限(少数)次试验中基本不可能观察到,这在数理统计中的
假设检验中有着重要的应用。
与其它分布的关系[]
正态分布作为概率论中最重要的一种分布,它和其它分布有着广泛的联系,某些分布是它的导出结果。
- 正态分布是当时的二项分布的一种极限;
- 设随机变量,则随机变量服从对数正态分布;
- 个独立的标准正态分布的随机变量的平方和服从自由度为的 分布。
- 在有限维的情形下,一个随机向量服从的多元正态分布是一元正态分布的推广。
Fisher 引理[]
著名的 Fisher 引理及其若干推论是对正态总体进行参数假设检验和区间估计的基础。
假设随机变量是独立同分布的正态变量,,分别记
为
样本均值和样本
方差,于是有如下结论:
- 和相互独立;
证明的思路是寻找一个适当的正交矩阵,做适当正交变换(变换之后得到的依然是相互独立的)使得随机变量组在新的坐标系下能分离表示出和。
统计特性[]
- 指数分布族
正态分布关于参数是指数分布族。
- 充分完备统计量
- 单参数的正态分布族关于参数是完备分布族,它的一个充分完备统计量是样本均值。
- 单参数的正态分布族关于参数不是完备的,不过它的一个充分完备统计量是
- 双参数的正态分布族关于参数的一个完备统计量是这里是无偏样本方差。
- 双样本的单参数正态分布族:假设且相互独立,这里实数已知,它的一个充分完备统计量是
- 双样本的双参数正态分布族:假设且相互独立,那么它们关于参数的一个充分完备统计量是,其中
- 双样本的双参数正态分布族:假设且相互独立,这里正实数已知,那么它们关于参数的一个充分完备统计量是,其中
- 点估计
- 假设方差已知,那么单参数的正态分布族关于参数的矩估计、极大似然估计和一致最小方差无偏估计都是,这个估计达到了 C-R 下界;参数的函数的一致最小方差无偏估计是,这个估计没有达到 C-R 下界;而参数的函数没有无偏估计。
- 假设均值已知,那么单参数的正态分布族关于参数的矩估计、极大似然估计和一致最小方差无偏估计都是,这个估计达到了 C-R 下界
- 假设均值已知,那么单参数的正态分布族关于参数的函数的一致最小方差无偏估计是
- 单参数的正态分布族关于参数的极大似然估计是这个估计是弱相合的。
- 双参数的正态分布族关于参数的矩估计和极大似然估计都是这里是有偏样本方差。
- 双参数的正态分布族关于参数的一致最小方差无偏估计是同时这个估计量是强相合的也是均方相合的,但是的 UMVUE 的方差是达不到 C-R 下界
- 双参数的正态分布族关于参数的函数的一致最小方差无偏估计是
- 双参数的正态分布族关于参数的函数的一致最小方差无偏估计是
- 双样本的单参数正态分布族:假设且相互独立,这里实数已知,那么参数的一致最小方差无偏估计是
- 双样本的双参数正态分布族:假设且相互独立,这里正实数已知,那么参数的一致最小方差无偏估计是,其中
- 区间估计
在数理统计中正态分布是十分重要的,因此对正态场合下的区间估计是备受关注,一组正态样本的区间估计可以通过枢轴变量法完全解决,下表列出了不同场合下的正态参数分布族的区间估计的枢轴变量。
假设
一组正态样本的区间估计的枢轴变量,假设置信水平为
情形
|
枢轴变量
|
枢轴变量服从的分布
|
置信区间
|
是参数 已知
|
|
标准正态分布
|
|
是参数 未知
|
|
t 分布
|
|
是参数 已知
|
|
Χ² 分布
|
|
是参数 未知
|
|
Χ² 分布
|
|
未知 是参数
|
|
|
\
|
在两组正态样本的场合下是著名的 Behrens-Fisher 问题,到目前为止没有完全解决,对一些特殊情形是可以给出准确解的。
参考资料
其他区间估计的问题:
- 双样本的单参数正态分布族:假设且相互独立,这里实数已知,那么参数的置信系数为的置信区间是
其中。枢轴量及其对应的分布是
- 参数假设检验
一些对正态总体做参数假设检验的例子:U 检验、t 检验、χ² 检验、F 检验。对单组正态分布的样本进行假设检验的问题主要有:对均值的检验和对方差的检验。以下假设相互独立的样本且是常数,检验水平为
情形
|
检验问题
|
检验统计量及分布
|
拒绝域
|
单组正态样本均值的假设检验
|
已知
|
|
|
|
|
|
|
|
未知
|
|
|
|
|
|
|
|
单组正态样本方差的假设检验
|
已知
|
|
|
|
|
|
|
|
未知
|
|
|
|
|
|
|
|
双样本的正态假设检验问题详见 Behrens-Fisher 问题/假设检验。
上下节[]
参考资料