暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大学资料-统计学原理 数值型数据的整理与展示

大学生资料阁 2020-09-23
4536

数据分组

1. 组距分组 (要点)

  • 将变量值的一个区间作为一组

  • 适合于连续变量

  • 适合于变量值较多的情况

  • 需要遵循“不重不漏”的原则

  • 可采用等距分组,也可采用不等距分组

2. 组距分组 (步骤)

  • (1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K 15

  • (2)确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即  组距=( 最大值 - 最小值)÷ 组数

  • (3)统计出各组的频数并整理成频数分布表

3. 组距分组 (几个概念)

  • 下限(lower limit) :一个组的最小值

  • 上限(upper limit) :一个组的最大值

  • 组距(class width) :上限与下限之差

  • 组中值(class midpoint) :下限与上限之间的中点值

数值型数据的图示

分组数据——直方图和折线图

1. 分组数据—直方图 (histogram)

  • 用于展示分组数据分布的一种图形

  • 用矩形的宽度和高度来表示频数分布

    • 本质上是用矩形的面积来表示频数分布

  • 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图

直方图与条形图的区别

  • 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的

  • 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义

  • 直方图的各矩形通常是连续排列,条形图则是分开排列

  • 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据

2. 未分组数据—茎叶图和箱线图

(1)未分组数据—茎叶图 (stem-and-leaf display)

  • 用于显示未分组的原始数据的分布

  • 由“茎”和“叶”两部分构成,其图形由数字组成

  • 以该组数据的高位数值作树茎,低位数字作树叶

  • 树叶上只保留最后一位数字

  • 茎叶图类似于横置的直方图,但又有区别

    • 直方图可观察一组数据的分布状况,但没有给出具体数值

    • 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息

    • 直方图适用于大批量数据,茎叶图适用于小批量数据

(2)未分组数据—箱线图 (box plot)

  • 用于显示未分组的原始数据的分布

  • 由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成

  • 绘制方法

    • 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)

    • 连接两个四分位数画出箱子,再将两个极值点与箱子相连接

    • 该箱线图也称为Median/Quart./Range箱线图

3. 时间序列数据—线图 (line plot)

  • 表示时间序列数据趋势的图形

  • 时间一般绘在横轴,数据绘在纵轴

  • 图形的长宽比例大致为10 : 7  一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断

4.多变量数据的图示

(1)两个变量间的关系—二维散点图 (2D Scatterplots)

  • 展示两个变量之间的关系

  • 用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图

(2)三个变量间的关系—气泡图 (bubble chart)

  • 显示三个变量之间的关系

  • 图中数据点的大小依赖于第三个变量

(3)多变量数据—雷达图 (radar chart)

  • 也称为蜘蛛图(spider chart)

  • 显示多个变量的图示方法

  • 在显示或对比各变量的数值总和时十分有用

  • 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比

  • 可用于研究多个样本之间的相似程度

  • 雷达图的制作

    • 设有n组样本S1,S2,… , Sn,每个样本测得P个变量X1,X2 ,… , XP,要绘制这P个变量的雷达图,其具体做法是

    • 先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示

    • 将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图


最后修改时间:2020-09-23 18:20:12
文章转载自大学生资料阁,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论