暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据的图表展示 (人大统计学第7版第三章学习笔记)

FishData 2021-03-03
1156

本文为参加统计学学习小组的学习笔记,关于该学习小组可在【数据科学家学习小组】之统计学(第二期)第一周(20191028-20191103)获取。

0x01 数据的预处理

数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。

  • 数据审核

检查数据中是否有错误,主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要是检查数据是否有错误,是否存在异常值等。

举例如下:
1. 完整性类似于获得的数据中存在重要维度确实的情况,比如会员信息中大量的地址城市字段都是为空;
2. 准确性类似于字段数据不符合业务规则的情况,比如会员手机号少于11位,或者手机号中含有英文字符。

另外,如果是二手数据还需要确认数据的时效性和适用性。

  • 数据筛选

数据筛选(data filter)是根据需要找出符合特定条件的某类数据。

工具使用方法:
1. 在Excel中使用「数据>筛选」菜单;
2. 在SQL中使用「where」语法;
3. 在pandas中使用「apply」方法。

  • 数据排序

数据排序是指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。

工具使用方法:
1. 在Excel中使用「数据>排序」菜单;
2. 在SQL中使用「order by」语法;
3. 在pandas中使用「sort_values」方法。

  • 数据透视表

数据透视表(pivot table),可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表。

工具使用方法:
1. 在Excel中使用「插入>数据透视表」菜单;
2. 在SQL中使用「group by」语法;
3. 在pandas中使用「groupby」方法。

0x02 品质数据的整理与展示

  • 分类数据的整理与图示
  1. 频数与频数分布

频度(frequency)是若在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频度分布(frequency distribution)。

工具使用方法
1. 在Excel中使用「数据透视表」,对某一维度进行透视,对个数进行汇总;
2. 或者使用Excel「数据分析」工具中的「直方图」命令。

以课本中的例子说明,若生产的频度分布,包含两个(饮料类型和性别)或两个以上变量交叉分类的频度分布表也称为列联表(contingency table)。二维的列联表(两个变量交叉分类)也称为交叉表(cross table)。

  1. 分类数据的图示

(1) 条形图

条形图(bar chart)使用宽度相同的条形的高度或长短来表示数据多少的图形。举例以横轴表示饮料类型,竖轴表示频数。

(2) 帕累托图

帕累托图(Pareto chart)是以意大利经济学家V.Pareto的名字命名的。该图是按个类别数据出现的频数多少排序后绘制的条形图。

(3) 饼图

饼图(Pie chart)是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比列,对于研究结构性问题十分有用。

(4) 环形图

环形图(doughnut chart),用于表示多个样本的频度分布。每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,有利于对构成做比较研究。

  • 顺序数据的整理与图示
  1. 累积频数和累积频率

累积频数(cumulative frequencies)是将各有序类别或组的频数逐级累加起来得到的频数,频数的累积方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;二是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数,称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下或某一类别(或数值)以上的频数之和。

累积频率或累积百分比(cumulative percentages)是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。

  1. 顺序数据的图示

根据累积频数或累积频率,可以绘制累积频数分布或频率图。一般绘制成折线图。

0x03 数值型数据的整理与展示

  • 数据分组

数据分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据(grouped data)。

单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散分组,且在变量值较少的情况下使用。

在连续变量或变量值较多的情况下,通常采用组距分组。在组距分组中,一个组的最小值称为下限(lower limit),一个组的最大值称为上限(upper limit)

常见分组原则:
1. 确定组数,数据所分的组数不应少于5组且不多于15组;
2. 确定各组的组距。组距=(最大值-最小值)/组数;
3. 根据分组编制频数分布表。
4. 组距分组时,要遵循不重不漏的原则,如采用闭开区间统计。

  • 数值型数据的图示
  1. 分组数据:直方图

直方图(histogram)是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频度分布的。绘制该图时,在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。直方图与条形图不同。首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

  1. 未分组数据:茎叶图和箱线图

(1) 茎叶图

茎叶图(stem-and-leaf display)是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。制作茎叶图时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。茎叶图的实例可以参考在线样例http://onlinestatbook.com/2/graphing_distributions/stem.html

(2) 箱线图

箱线图(box plot)是根据一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的实例可以参考在线样例http://onlinestatbook.com/2/graphing_distributions/boxplots.html

  1. 时间序列数据:线图

线图(line plot)主要用于反映现象随时间变化的特征。如果数值型数据是在不同时间取得的,即时间序列数据,则可以绘制线图。

  1. 多变量数据的图示

(1) 散点图

散点图(scatter diagram)是用二维坐标展示两个变量之间关系的一种图形。如降雨量与小麦产量之间的关系。

(2) 气泡图

气泡图(bubble chart)可用于展示三个变量之间的关系。它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,第三个变量则用气泡的大小来表示。如小麦产量与降雨量加上温度之间的关系

(3) 雷达图

雷达图(radar chart)是显示多个变量的常用图示方法,也称为蜘蛛图(spider chart)。

设有n组样本S1,S2,…,Sn,每个样本测得P个变量X1,X2,…,Xp。要绘制这P个变量的雷达图,具体做法是:先画一个圆,然后将圆P等分,得到P个点,令 这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一张雷达图。在Excel中绘制雷达图的可以参考此链接https://www.wallstreetmojo.com/radar-chart-in-excel/

0x04 合理使用图表

  • 鉴别图形优劣的准则

设计图形时,应绘制得尽可能简洁,以清晰地显示数据、合理地表达统计目的为依据。爱德华·R.塔夫特(Edward R. Tufte)在其著作 The Visual Display of Quantitative Information(1983)中使用“图优性”(graphical excellency)来描述一张好图。塔夫特指出,一张好图应具有以下基本特征:

(1)显示数据。

(2)让读者把注意力集中在图形的内容上,而不是制作图形的程序上。

(3)避免歪曲。

(4)强调数据之间的比较。

(5)服务于一个明确的目的。

(6)有对图形的统计描述和文字说明。

塔夫特还提出了五条鉴别图形优劣的准则:

(1)一张好图应当精心设计,有助于洞察问题的实质。

(2)一张好图应当使复杂的观点得到简明、确切、高效的阐述。

(3)一张好图应当能在最短的时间内以最少的笔墨给读者提供最大量的信息。

(4)一张好图应当是多维的。

(5)一张好图应当表述数据的真实情况。

  • 统计表的设计

统计表是展示数据的另一个基本工具。在数据的收集、整理、描述和分析的过程中,都要使用统计表。统计表一般由四个主要部分组成,即表头、行标题、列标题和数据资料,此外,必要时可以在统计表的下方加上表外附件。

设计和使用统计表时要注意以下几点:

首先,要合理安排统计表的结构,比如行标题、列标题、数据资料的位置应安排合理。当然,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式。

其次,表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容,一般需要说明统计数据的时间(When)、地点(Where)以及内容(What),即标题内容应满足3W要求。如果表中的全部数据都是同一计量单位,可在表的右上角标明。若各变量的计量单位不同,则应在每个变量后或单列一列标明。

再次,表中的上下两条横线一般用粗线,中间的其他线用细线,这样看起来清楚、醒目。通常情况下,统计表的左右两边不封口,列标题之间在必要时可用竖线分开,而行标题之间通常不用横线隔开。总之表中尽量少用横竖线。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数据的表格单元,一般用“-”表示,一张填好的统计表不应出现空白单元格。

最后,在使用统计表时,必要时可在表的下方加上注释,特别要注意应注明数据来源,以表示对他人劳动成果的尊重,以备读者查阅使用。


文章转载自FishData,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论