暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据可视化:开启数据洞察之门

HMC开源 2024-10-13
198

一、数据可视化的定义与范畴

数据可视化,简单来说,就是将抽象的数据通过图形、表格等直观的形式展示出来,让人们能够更轻松地理解数据中蕴含的信息。它不仅仅是统计图表,更是一种能够借助图形的方式展示事物原理、规律、逻辑的方法。

数据可视化涉及多个学科领域,广义上的数据可视化涵盖了信息技术、自然科学、统计分析、图形学、交互、地理信息等多门学科。这种跨学科性使得数据可视化领域充满活力与机遇。

在范畴上,数据可视化分为狭义和广义之分。狭义上的数据可视化指的是将数据用统计图表方式呈现,主要用于传递信息;而信息可视化则是将非数字的信息进行可视化,用于表现抽象或复杂的概念、技术和信息。广义上的数据可视化则是数据可视化、信息可视化以及科学可视化等多个领域的统称。科学可视化面向科学和工程领域数据,如三维空间测量数据、计算模拟数据和医学影像数据等,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律;信息可视化的处理对象则是非结构化的数据,如金融交易、社交网络和文本数据,其核心挑战是如何从大规模高维复杂数据中提取出有用信息。

数据可视化最常见的应用是一些统计图表,比如直方图、散点图、饼图等。这些图表作为统计学的工具,创建了一条快速了解数据集的途径,并成为令人信服的沟通手段,在大量的方案、新闻中都能见到。此外,数据可视化在各个领域都得到了十分广泛的应用,包括医学、生物学、地质、海洋、气象、航空、军事、工程技术、金融、网络通信和商业信息等。在大数据时代,面对规模、种类快速增长的数据,可视化已然成为各个领域传递信息不可缺少的手段,是快速理解数据的必然要求。

二、数据可视化的历史发展

(一)初始时期

在史前时代,我们可能永远无法得知世界上第一个数据可视化作品的模样。古巴比伦人、埃及人、希腊人和中国人都开发出了以视觉方式表达信息的方法,如绘制星空变化的图或制作地图。那时候,许多作品的载体是粘土。例如,公元前 600 年的巴比伦世界地图以及公元前 1150 年的埃及都灵纸莎草地图,展示了地理和矿物开采等信息。公元前 366 - 335 年,出现了第一张城市路线图,即罗马地图“Tabula Peutinger”,显示了罗马帝国的公路网布局,路线用线条表示,目的地用图标展现。公元 150 年,克劳迪乌斯·托勒密绘制了球形地球的地图,是第一张通过天体观测来制定陆地位置的地图,还首次采用了经纬线。公元 950 年,欧洲出现了《行星运动图》,是已知最早尝试以图形方式显示变化的值(全年中太阳,月亮和行星的位置)。公元 1092 年,我国北宋的苏颂绘制了浑象西南方中外官星图,他还设计了“假天仪”用于观星,这架仪器是近代天文馆中星空演示的先驱。

(二)探索时期

17 世纪,科技进步推动了数据可视化的发展。理论上,解析几何兴起,测量误差的理论和概率论诞生,人口统计学开端以及政治版图发展。1626 年,克里斯托弗·施纳画出来表达太阳黑子随时间变化的图,是邮票图表法的雏形。1637 年,Pierre de Fermat 和笛卡尔在数学、解析几何中重新引入坐标系,建立点线与方程之间的一一对应关系。1644 年,迈克尔·范·兰格伦描述了从托莱多到罗马的 12 种经度确定,被认为是第一幅统计图形。1654 年,布莱斯·帕斯卡对概率论做出初步陈述。1662 年,John Graunt 建立人口统计学。在这个时期,数据可视化方法的要素逐渐具备,人类开始了可视化思考的新模式。数据可视化在地图制作方面更加精准,广泛应用于天文分析、几何学研究等科学领域。例如,对物理基本量(时间、距离和空间)的测量设备与理论的完善,使其被广泛用于航空、测绘、制图、浏览和国土勘探等。同时,制图学理论与实践也随着分析几何、测量误差、概率论、人口统计和政治版图的发展而迅速成长。17 世纪末,甚至产生了基于真实测量数据的可视化方法。

三、数据可视化的优势

数据可视化具有诸多显著优势,在当今信息时代发挥着至关重要的作用。

首先,数据可视化能够清晰地展示数据之间的关系。人脑对视觉信息的处理速度要比书面信息快 10 倍。例如,在数据可视化软件中,通过图表、图形等形式,可以直观地呈现不同变量之间的关联。如散点图能够展示两个变量之间的相关性,帮助我们快速判断它们是否存在线性关系;旭日图则适合展示多层级的数据关系,让我们清晰地了解不同层次数据间的从属关系。据统计,使用可视化图表来总结复杂的数据,可以确保对关系的理解要比那些混乱的报告或电子表格更快。

其次,数据可视化有助于展示数据的比例。饼图、柱状图等统计图表可以将数据的比例直观地呈现出来,让人们一眼就能看出不同部分在整体中所占的比重。以大城市通勤的时长统计为例,通过柱状图,我们能很清晰的看出各个级别的城市通勤时长的比例关系,并了解他们的拥堵时长和非拥堵时长分别是怎样的情况。

再者,数据可视化能够帮助个人和团队更好地理解数据的意义。在信息大爆炸的时代,面对大量复杂数据的统计工作,相比数字与文字的总结,人们更愿意看使用图表图形总结出的数据报告,可以让数据更快的呈现在面前。例如,在企业决策中,领导更愿意看数据结论和一目了然的图形结合,而不是枯燥的文字汇报。数据可视化将复杂的、枯燥的大量数据进行提取并分析,借助图形、图表、图标等易于理解的形式,将分析结果加以视觉效果展示出来,帮助用户在短时间内获得更多信息,满足用户对数据分析的需求,直观地传达关键数据与特征。

最后,数据可视化有利于个人和团队制定目标。通过数据可视化,我们可以更容易地发现数据中存在的趋势、规律和模式,这些信息对于预测未来发展趋势、优化决策具有重要价值。比如在企业管理中,数据可视化提供的实时信息,帮助管理者对整个业务运行情况进行走向判断、风险预估,根据自动分析总结的数据,使工作更高效,从而为制定合理的目标提供有力依据。

综上所述,数据可视化以其独特的优势,成为个人和团队理解数据、制定目标的重要工具。

四、数据可视化的分类

(一)按视觉编码分类

数据可视化可以根据不同的视觉编码进行分类。克利夫兰和麦吉尔在信息可视化方面的研究表明,不同的视觉编码在准确性上有所不同。对于定量信息,我们首选按位置进行编码,如经典散点图和条形图中所示。这是因为基于位置的编码能帮助观众在更短的时间内进行更准确的比较,而基于角度(如饼图)或基于区域(如气泡图)的编码相对来说准确性稍低。

对于分类信息,我们则应使用颜色进行编码。例如,我们可以使用不同的颜色来表示不同的数据类别,这样可以让观众更直观地理解数据的分类情况。比如在一个关于不同国家经济发展水平的可视化中,可以用不同的颜色代表不同的国家类别,或者用不同的颜色区分不同的经济发展阶段。

总之,合理运用视觉编码可以使数据可视化更加清晰、准确地传达信息。

(二)具体图表分类

  1. 指标卡

    • 特点:指标卡是最直观展示 KPI 数值的组件,可直接显示所选字段的数值。

    • 用途:比如展示销售额、毛利、毛利率等指标数值,适合用于突出显示关键的数据结果。

  1. 计量图

    • 特点:突出显示一两个关键的数据结果,直观地展示某个指标的完成情况。

    • 用途:适合展示项目进度,例如在项目管理中,可以用计量图展示项目的完成百分比。

  1. 折线图

    • 特点:用于展示数据随时间或有序类别的波动情况的趋势变化。

    • 用途:适合展示有序的数据,如时间序列数据。比如股票价格随时间的变化、某地区气温在一年中的变化等。可以帮助我们直观地了解数据的变化趋势,从而进行趋势分析和预测。

  1. 柱状图

    • 特点:展示多个分类的数据变化和同类别各变量之间的比较情况。

    • 用途:适用于对比分类数据。例如不同产品的销量对比、不同地区的人口数量对比等。可以让我们清晰地看出不同分类之间的差异。

  1. 饼图

    • 特点:用来展示各类别占比,比如男女比例。

    • 用途:适合了解数据的分布情况。但当分类过多时,扇形会变得很小,难以展示图表。比如在市场份额分析中,可以用饼图展示不同品牌在市场中的占比情况。

  1. 散点图

    • 特点:用于发现各变量之间的关系,数据点较多时结果更精准。

    • 用途:比如回归分析,可以帮助我们探索两个变量之间的关系。例如在研究身高和体重的关系时,可以用散点图展示不同人的身高和体重数据点,从而分析两者之间的相关性。

  1. 地图

    • 特点:用颜色的深浅来展示区域范围的数值大小。

    • 用途:适合展现呈面状但属分散分布的数据,比如人口密度等。但数据分布和地理区域大小的不对称可能会造成用户对数据的误解。例如在地理信息系统中,可以用地图可视化展示不同地区的人口密度分布情况。

五、数据可视化的案例

(一)火灾世界地图

火灾世界地图根据美国宇航局 Terra 卫星上的中分辨率成像光谱仪(MODIS)的观测结果绘制。这些颜色根据在 1000 平方公里范围内观察到的火灾数量(而不是规模)来计算。白色表示高频率——每天在 1000 平方公里的区域内发生多达 30 起火灾。橙色表示多达 10 起火灾,而红色区域表示每天只有 1 起火灾。这一可视化案例让我们清晰地看到了近二十年来每月发生火灾的地点分布,为火灾预防和管理提供了重要的参考依据。

(二)“迟到”的婚姻

根据十年一次的人口普查和美国社区调查的数据制成的图表以动画形式显示时间线,线段代表有一定婚姻状况的人的百分比,图表的时间跨度为每 10 年一次,从 1900 年到 2010 年,到 2015 年结束。这个案例展示了过去一个世纪人们结婚时间越来越晚的趋势,引发人们对于婚姻观念变化的思考。

(三)土地资源的利用

Bloomberg 的 Dave Merrill 和 Lauren Leatherby 绘制了一张栅格地图,可视化了美国的土地利用情况。仅这 48 个相邻的州就有 19 亿英亩的拼图,其中包括城市、农场、森林和牧场等。地图上的每一个广场代表着 250000 英亩的土地,虽然数据不能精确地指向一个城市街区,但将各州数据拼凑起来,可以大致了解美国土地的用途。这个案例为土地资源的规划和管理提供了直观的参考。

(四)世界上最大的城市

毕马威人口统计的动画地图记录了从公元前 4000 年到今天世界上最大的城市变迁。它显示了一个城市的崛起是多么短暂,也意味着随时会被下一个崛起城市取而代之。这个案例让我们看到了世界历史进程中城市的兴衰更替,对于城市规划和发展具有重要的启示意义。

(五)世界塑料垃圾流动

1907 年发明了第一种塑料材料——酚醛塑料,到 1950 年,我们对塑料的渴望真正开始。在短短的 65 年里,塑料产量飙升了近 200 倍,导致了今天约 6300 万公吨的垃圾。最主要的塑料出口国分别是美国、日本、德国和英国,相应地,承担这些塑料侵害的主要是马来西亚、泰国、越南、香港等国家和地区。这个案例让我们深刻认识到塑料垃圾问题的严重性,呼吁人们采取行动减少塑料污染。

(六)年纪越大,睡眠越少?

根据美国人口普查局发布的 2014 - 2018 年《美国时间使用调查》显示,随着年纪越大,人们失眠的概率越大,睡眠时间更少。一个 60 岁的人比一个 30 岁的人有两倍的不安睡眠的可能性。这个案例提醒人们关注睡眠健康,尤其是随着年龄增长,要更加重视睡眠问题。

(七)两个世纪的美国移民图

地图上的彩色圆点源源不断地汇入美国,每个圆点代表大约 1 万人。这些点从原籍国飞到美国,而在底部的时间轴则逐渐向前移动。这个案例展示了两个世纪以来美国移民的来源和变化,对于研究美国的历史和文化具有重要价值。

六、数据可视化的工具推荐

(一)Matplotlib

Matplotlib 是 Python 的绘图库,可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。它也可以和图形工具包一起使用,如 PyQt 和 wxPython。

特点

  • 高度自定义:允许开发人员完全自定义图表的各个方面,包括线条样式、颜色、标签、图例、坐标轴等。

  • 支持多种图表类型:支持多种类型的图表,包括二维和三维图表,适用于各种数据可视化需求。

  • 交互式绘图:可以嵌入到交互式环境中,如 Jupyter Notebook,使用户能够实时交互式地探索数据。

  • 输出格式多样:可以将绘制的图表保存为多种输出格式,包括图像文件(如 PNG、JPEG)、PDF 文件,或直接显示在图形用户界面中。

用法示例

import matplotlib.pyplot as plt

plt.figure()

plt.plot([1,2,3,4,5,6,7],[17,17,18,15,11,11,13])

plt.savefig("./test.png")

plt.show()

(二)Seaborn

Seaborn 是一个基于 Python 的数据可视化库,建立在 matplotlib 的基础之上,为统计数据的可视化提供了高级接口。

特点

  • 集成性:与 pandas 数据结构紧密结合,使得数据分析和可视化可以无缝衔接。

  • 美观性:提供了精心设计的默认样式和调色板,使得图形更具吸引力。

  • 统计绘图:提供了多种统计图形,如箱线图、小提琴图、热力图等,能直观地展示数据的分布和关系。

  • 数据分布可视化:通过核密度估计(KDE)和联合图(jointplot)等工具,方便地展示数据的分布和相关性。

  • 高度可定制性:虽然提供了美观的默认样式,但用户仍然可以轻松地调整图形的各个方面,以满足特定的需求。

用法示例

import seaborn as sns

sns.lineplot(x='sepal_length',y='sepal_width',data=iris)

plt.title("iris中sepal_length和sepal_width关系图")

(三)Plotly Express

Plotly Express 是 Python 交互式可视化库 Plotly 的高级组件,受 Seaborn 和 ggplot2 的启发,专门设计为具有简洁,一致且易于学习的 API。

特点

  • 简洁的 API:只需一次导入,大多数绘图只需要一个函数调用,接受一个整洁的 Pandas dataframe,并简单描述要制作的图。

  • 功能强大:可以绘制大部分图表类型,比如线形图、散点图、柱状图、面积图、树形图、旭日图、甘特图等。

  • 交互式可视化:Plotly 以及 Plotly Express 是交互式可视化工具,用户可以通过悬停、缩放、选择数据点等操作更好地探索数据和图表。

用法示例

import plotly.express as px

df = px.data.gapminder()

fig = px.line(df,x="year",y="lifeExp",color="continent")

fig.show()

七、数据可视化的方法

(一)制作方法

  1. 将指标值图形化:一个指标值就是一个数据,将数据的大小以图形的方式表现。例如,用柱形图的高度表现数据大小。据统计,在众多数据可视化案例中,柱形图是最常用的图表之一,其直观的高度对比能让用户快速了解不同数据之间的大小关系。

  2. 将指标图形化:一般用与指标含义相近的 icon 图标来表现。这种方法可以让数据更加生动形象,便于用户理解。比如在一些电商数据分析中,可以用购物车的图标代表销售额指标,让用户一眼就能明白该图标所代表的含义。

  3. 将指标关系图形化:当存在多个指标时,挖掘指标之间的关系,并将其图形化表达,可提升图表的可视化深度。例如,可以使用网络图来展示不同指标之间的关联关系,节点代表指标,边代表指标之间的关系。通过这种方式,用户可以清晰地看到各个指标之间的相互影响。

  4. 将时间和空间可视化:通过时间的维度来查看指标值的变化情况,一般通过增加时间轴的形式,也就是常见的趋势图。当图表存在地域信息并且需要突出表现的时候,可用地图将空间可视化,地图作为主背景呈现所有信息点。例如,在分析全球疫情数据时,可以使用地图结合时间轴的方式,展示不同国家在不同时间点的疫情变化情况。

  5. 将数据进行概念转换:对数据进行概念转换,可加深用户对数据的感知,常用方法有对比和比喻。比如将公司的年度销售额比喻成一座山峰的高度,让用户更加直观地感受销售额的规模。

  6. 让图表「动」起来:数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。实现动态化主要有两种方式:交互和动画。例如,在一些股票交易软件中,使用动态图表展示股票价格的变化,用户可以通过交互操作查看不同时间段的价格走势。

(二)准则

  1. 明确数据可视化的目的:在进行数据可视化之前,必须明确可视化的目的是什么。是为了展示数据的分布情况?还是为了分析数据之间的关系?只有明确了目的,才能选择合适的可视化方法和图表类型。

  2. 通过对比来反映问题:对比是数据可视化中常用的方法之一。通过对比不同数据之间的差异,可以更加直观地反映问题。例如,使用柱状图对比不同产品的销量,或者使用折线图对比不同时间段的数据变化。

  3. 提供数据指标的业务背景:数据可视化不仅仅是展示数据,还需要提供数据指标的业务背景。让用户了解数据的来源、含义和重要性,以便更好地理解数据可视化的结果。

  4. 通过从总体到部分的形式,展示数据分析报告:先展示总体的数据情况,然后逐步深入到各个部分,让用户对数据有一个全面的了解。例如,在分析公司销售数据时,可以先展示公司的总销售额,然后分别展示各个地区、各个产品的销售额。

  5. 联系实际的生产和生活,对数据指标的大小进行可视化:将数据指标与实际的生产和生活联系起来,让用户更加直观地感受数据的大小。例如,将公司的用电量与家庭用电量进行对比,让用户了解公司的能源消耗情况。

  6. 通过明确而全面的标注,尽可能消除误差和歧义:在数据可视化图表中,必须进行明确而全面的标注,包括图表的标题、坐标轴的标签、数据的单位等。这样可以尽可能消除误差和歧义,让用户准确地理解图表的含义。

  7. 将可视化的图标,同听觉上的描述,进行有机的整合:可以将可视化的图标与听觉上的描述相结合,例如在展示数据时,同时播放相应的音频解说,让用户更加深入地理解数据。

  8. 通过图形化工具,增加信息的可读性和生动性:使用图形化工具,如颜色、形状、大小等,可以增加信息的可读性和生动性。例如,使用不同的颜色代表不同的数据类别,或者使用不同的形状代表不同的指标。

  9. 允许但并非强制,通过表格的形式,呈现数据信息:在数据可视化中,可以适当使用表格的形式呈现数据信息。但需要注意的是,表格不宜过多,否则会影响可视化的效果。

  10. 目标是:让受众思考呈现的数据指标,而非数据的呈现形式:数据可视化的最终目标是让受众思考呈现的数据指标,而不是被数据的呈现形式所吸引。因此,在进行数据可视化时,要注重数据的内容和含义,而不是过分追求形式的美观。

八、数据可视化的重要性

(一)在交通领域的重要性

  1. 直观展示复杂数据:智慧交通涉及大量且复杂的数据,包括车辆信息、道路状况、天气条件、交通事件等。借助数据可视化技术,可以将这些复杂数据以直观、易懂的形式展现出来,帮助决策者和公众更好地理解和掌握交通状况。例如,通过数据可视化大屏,可以实时监测城市道路的拥堵情况、公交车的到站时间、地铁的运营状况等。

  2. 提高决策效率:通过对交通数据进行可视化分析,决策者可以迅速发现问题所在,制定针对性的解决方案,提高决策效率和准确性。比如,通过实时展示交通拥堵情况,交通管理部门可以及时调整信号灯配时方案,缓解交通拥堵。同时,数据可视化还可以帮助决策者发现数据中的规律和趋势,预测未来的交通状况,从而提前做好应对措施。

  3. 增强公众参与度:数据可视化技术可以让公众更加直观地了解交通状况,提高公众参与交通管理的积极性。例如,通过手机 APP 展示实时路况信息,公众可以根据实际情况选择合适的出行方式和路线。此外,公众还可以通过反馈和建议,帮助交通管理部门改进交通管理工作,提高交通管理的效率和效果。

  4. 提升交通安全:数据可视化可以通过实时监控交通状况,及时发现交通拥堵、事故等异常情况,为决策者提供及时的预警信息,提高交通安全。同时,决策者可以实时掌握交通流量、速度等关键数据,及时调整交通管理策略,提高交通效率,减少交通事故的发生。

(二)在医疗领域的重要性

  1. 电子病历管理:医生可以通过直观的图表快速查看患者的病史、检查结果和治疗方案,从而做出更加准确的诊断和治疗决策。病历信息的图形化呈现,避免了传统纸质病历的繁琐,提高了医生查阅和记录的效率。

  2. 医疗数据分析和预测:通过对大量医疗数据进行可视化分析,医疗机构可以发现潜在的健康趋势和疾病模式。例如,通过分析病患数据,医院可以预测流感等传染病的爆发趋势,提前做好防控措施。

  3. 医疗资源优化配置:数据可视化还可以用于医疗资源的优化配置,帮助医院更合理地安排病房、手术室和医护人员,从而提升整体运营效率。

(三)驱动产业升级

  1. 洞察趋势、赢得未来:利用大数据可以搜索影响产业发展变化的大量信息,通过人工智能进行分析,获取专业的数据信息报告。依托数据分析报告,把稳产业发展方向,调整企业发展战略,推动企业向高质量发展方向迈进。通过大数据可视化应用,建立复杂的仿真环境,可以直观、灵活、逼真地展示宏观态势,从而让决策者很快掌握整体态势、特征,做出科学判断和决策。

  2. 深化调整、拓展布局:面对复杂的市场环境,企业必须要转型升级,这是保持竞争力的关键要素,也是破解当前市场发展瓶颈、实现高质量发展的智囊法宝。推进企业转型升级,数据是重要支撑。大数据用独有的数据算法、可视化展现技术,通过连续性的数据为企业提供市场分析报告、行业发展趋势报告等数据信息,并从中寻找创新点,突破发展壁垒,推动企业转型和可持续发展。

文章转载自HMC开源,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论