方差(variance),是概率统计学科中最常用的一个随机变量的指标量,反映的是一组数据或一个随机变量取值的离散程度,它是二阶中心矩。常见分布的方差详见概率分布。方差存在则数学期望一定存在,但反之不真。
衡量数据偏离程度的标准有很多种,这里的方差采用的是平方距离,当然也可以使用其它距离(只要符合距离的三条定义)来定义,例如绝对值距离,只是方差采用的距离分析性质更好。
概念[]
有限情形[]
设有有限个数
,算数平均值为
,下述和式的值
就称为这组数据的方差。其中每个数据的地位是平权的,如果每个数据的权重不同,即存在一列
满足
,以下是加权的方差
其中,
是这组数据的加权平均值。如果将上述权重理解为随机变量取对应值的概率,那么上述加权的方差就是有限概率空间情形下随机变量的方差。
可列情形[]
设有离散型随机变量
的分布列
设它有期望
,当下述级数
绝对收敛时,我们就称该级数的收敛值为这个随机变量的数学期望,记为
(符号来源于“偏差”的英文 dispersion)。要求该级数绝对收敛是因为我们必须要保证衡量这个随机变量离散程度取值的指标量是唯一的,它不能因为求和顺序发生改变而有不同值。
连续情形[]
设有连续型随机变量
,设它的概率密度函数为
,设它有期望
,如果下述反常积分绝对收敛
我们就称该积分的收敛值为这个随机变量的数学期望,也记为
,同样要求绝对收敛的原因同上。
一般情形[]
我们来叙述一般场合下的定义,该定义不仅可以适用于离散和连续情形,也适用于奇异的情形。
设随机变量
的分布函数为
,设它有期望
,如果下述 Stieltjes 积分
绝对收敛,那么我们就称该积分的收敛值为这个随机变量的数学期望,记为
。
实际上,上述定义等价于
其中
是一个随机变量,它实际上就是数据相对均值的偏移程度,由于其有正有负,为避免正负相消造成的数据信息不真实,我们求其平方值作为偏移整体度量标准,然后对其求均值,即针对不同的取值的偏移量施以不同权重,便得到方差。
基本性质[]
- 常数的方差:
当且仅当随机变量
取常数值(即退化分布);
,
是实常数;
- 平移不变性:方差反映的是整体数据相对于均值的偏移程度,数据进行整体平移方差不变,即有
为实常数;
- 与数学期望的关系:
,该性质在计算方差时应用广泛;
- 独立可加性:若
相互独立,则
;
- 控制不等式:若
,则![{\displaystyle D(X)<E[(X-c)^{2}].}](https://services.fandom.com/mathoid-facade/v1/media/math/render/svg/76f5a5c4f2841a8693bab0920817d5e172e4c66d)
标准差[]
在随机变量
的方差存在的前提下,定义
为标准差(standard deviation),或称根方差,它和随机变量的取值是相同量纲的。
随机向量的方差[]
设有随机向量
,其中,
表示分量
的方差,在
都存在时我们称随机向量
的方差是
随机变量的标准化[]
设一个随机变量
,它的均值和方差分别是
,那么随机变量
的均值和方差分别是
,我们就称
是
的标准随机变量,这一过程叫做随机变量的标准化。
所有标准化的随机变量是相同量纲的。
Chebyshev 不等式给出了在不知道随机变量的具体分布时依靠均值和方差对分布概率做出范围估计的公式:
设一随机变量
的均值和方差分别是
,那么对任意正数
都有
它是 Markov 不等式的特例。
上下节[]
参考资料