在数理统计和概率论中样本(sample)是一个基础的概念,是相对于总体而言的。
内容[]
在一次随机试验中所有个体的全体是总体,从总体中抽取的一部分个体称为样本。总体可以使用随机变量来表示,有对应的概率分布,
假设总体的分布函数为
,最常研究的情形是从总体中抽取的有限的
个样本
是独立同分布的,那么这个样本也记作
样本
一般写成向量形式
的所有可能取值的全体称为样本空间(sample space)。
两重性[]
样本具有两重性:在试验前我们并不知道一个样本的取值,只知道它的范围,这是随机性;在试验后一个样本的结果也就随之确定了,这是确定性。随机性决定了我们可以讨论借助样本的统计推断问题,利用一部分样本作训练集,得到总体的估计信息,再使用其它的样本做检验。
样本在一定程度上作为随机变量,有对应的分布,称为样本分布。
统计量[]
数理统计学的任务是用样本去推断总体,为了对样本的信息进行整理,提出统计量的概念。在试验之后借助样本计算得出的已知量称为统计量(statistic)。由于样本具有两重性,统计量也具有两重性。统计量是从样本中收集而来的我们仅关心的数据。
以下假设
是从总体
中抽出的一些样本,常用的统计量有:
| 统计量类型
|
公式
|
意义
|
| 样本均值
|
|
反映了总体均值
|
| 样本无偏方差
|
|
反映了总体方差,无偏方差满足
|
| 样本有偏方差
|
|
反映了总体方差,在 时和上面的方差没有什么区别
|
| 样本变异系数
|
|
反映了总体变异系数,衡量分布的离散程度
|
样本 阶中心矩
|
|
反映了总体 阶中心矩,同样可以定义 阶原点矩
|
| 样本偏度
|
|
反映了总体偏度,是分布非对称性的衡量,正态分布偏度为零
|
| 样本峰度
|
|
反映了总体峰度,是分布非对称性的衡量,之所以减三是因为使得正态分布的峰度为零,正态分布的
|
将样本
排序
后称为原样本的次序统计量,对随机变量而言,我们要考虑的是不同排序的概率问题,这在样本中是通过抽取充分多的样本后考察各种排序可能出现的频率来估计到概率的。
顺序统计量诱导出的几重统计量如下表:
| 统计量类型
|
公式
|
意义
|
| 样本中位数
|
|
反映了总体中位数,中位数与均值相比不太敏感,适合样本离散程度比较大的试验
|
| 样本极值
|
|
分别称为极小值和极大值,在百年一遇的问题或工程承受能力中用到
|
| 样本极差
|
|
反映了总体的离散程度
|
样本 分位数
|
|
反映了总体分位数,有更复杂的公式定义分位数,虽然性质更好但不易计算,中位数是 分位数。
|
经验分布函数[]
参见经验分布函数。
参考资料