离中趋势
数据分布的另一个重要特征
反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度
不同类型的数据有不同的离散程度测度值
分类数据:异众比率
异众比率 (variation ratio)
对分类数据离散程度的测度
非众数组的频数占总频数的比例
用于衡量众数的代表性
顺序数据:四分位差
四分位差 (quartile deviation)
对顺序数据离散程度的测度
也称为内距或四分间距
上四分位数与下四分位数之差
Qd = QU – QL
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
数值型数据:方差和标准差
1. 极差 (range)
一组数据的最大值与最小值之差
离散程度的最简单测度值
易受极端值影响
未考虑数据的分布
2. 平均差 (mean deviation)
各变量值与其平均数离差绝对值的平均数
能全面反映一组数据的离散程度
数学性质较差,实际中应用较少
3. 方差和标准差 (variance and standard deviation)
数据离散程度的最常用测度值
反映了各变量值与均值的平均差异
根据总体数据计算的,称为总体方差(标准差);根据样本数据计算的,称为样本方差(标准差),记为s2(s)
4. 相对位置的度量
(1)标准分数(standard score)
也称标准化值
对某一个值在一组数据中相对位置的度量
可用于判断一组数据是否有离群点(outlier)
用于对变量的标准化处理
(2)经验法则
经验法则表明:当一组数据对称分布时
约有68%的数据在平均数加减1个标准差的范围之内
约有95%的数据在平均数加减2个标准差的范围之内
约有99%的数据在平均数加减3个标准差的范围之内
(3)切比雪夫不等式 (Chebyshev’s inequality)
如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用;
切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”
对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/(k^2))的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数
对于k=2,3,4,该不等式的含义是
至少有75%的数据落在平均数加减2个标准差的范围之内
至少有89%的数据落在平均数加减3个标准差的范围之内
至少有94%的数据落在平均数加减4个标准差的范围之内
相对离散程度:离散系数
离散系数 (coefficient of variation)
标准差与其相应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较





