暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大学资料-统计学原理 离散程度的度量

大学生资料阁 2020-09-23
3408

离中趋势

  • 数据分布的另一个重要特征

  • 反映各变量值远离其中心值的程度(离散程度)  从另一个侧面说明了集中趋势测度值的代表程度

  • 不同类型的数据有不同的离散程度测度值


分类数据:异众比率

异众比率 (variation ratio)

  • 对分类数据离散程度的测度

  • 非众数组的频数占总频数的比例

  • 用于衡量众数的代表性

顺序数据:四分位差

四分位差 (quartile deviation)

  • 对顺序数据离散程度的测度

  • 也称为内距或四分间距

  • 上四分位数与下四分位数之差

  • Qd = QU – QL

  • 反映了中间50%数据的离散程度

  • 不受极端值的影响

  • 用于衡量中位数的代表性

数值型数据:方差和标准差

1. 极差 (range)

  • 一组数据的最大值与最小值之差

  • 离散程度的最简单测度值

  • 易受极端值影响

  • 未考虑数据的分布

2. 平均差 (mean deviation)

  • 各变量值与其平均数离差绝对值的平均数

  • 能全面反映一组数据的离散程度

  • 数学性质较差,实际中应用较少

3. 方差和标准差 (variance and standard deviation)

  • 数据离散程度的最常用测度值

  • 反映了各变量值与均值的平均差异

  • 根据总体数据计算的,称为总体方差(标准差);根据样本数据计算的,称为样本方差(标准差),记为s2(s)

4. 相对位置的度量

(1)标准分数(standard score)

  • 也称标准化值

  • 对某一个值在一组数据中相对位置的度量

  • 可用于判断一组数据是否有离群点(outlier)

  • 用于对变量的标准化处理

(2)经验法则

经验法则表明:当一组数据对称分布时

  • 约有68%的数据在平均数加减1个标准差的范围之内

  • 约有95%的数据在平均数加减2个标准差的范围之内

  • 约有99%的数据在平均数加减3个标准差的范围之内

(3)切比雪夫不等式 (Chebyshev’s inequality)

  • 如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用;

  • 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”

  • 对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/(k^2))的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数

对于k=2,3,4,该不等式的含义是

  • 至少有75%的数据落在平均数加减2个标准差的范围之内

  • 至少有89%的数据落在平均数加减3个标准差的范围之内

  • 至少有94%的数据落在平均数加减4个标准差的范围之内

相对离散程度:离散系数

离散系数 (coefficient of variation)

  • 标准差与其相应的均值之比

  • 对数据相对离散程度的测度

  • 消除了数据水平高低和计量单位的影响

  • 用于对不同组别数据离散程度的比较


最后修改时间:2020-09-23 18:23:45
文章转载自大学生资料阁,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论