暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

手把手教你爬虫实战+可视化(附demo源码)

数据攻略 2022-01-20
626

点击上方蓝色【数据攻略】关注+星标~

第一时间获取最新内容


哈喽大家好,我是六哥。
就快过年了,你们那边能顺利 “返乡” 嘛
疫情,马上要陪伴我们度过第三个春节了

同时,疫情也严重影响各大行业的发展
比如快递、电商等行业
经常出现业务数据异常报警频发...
举例:xx省份配送率骤降,大盘GMV下降1pp等等

那,能不能按照业务分析具体所需
把相关实时疫情数据
自动获取并制定成可视化面板
方便快速排查异常外因之一
—— “疫情影响”

因此,本篇以demo形式讲讲:
如何获取实时的疫情数据
并制定相应的可视化面板

重点分为以下两部分:

① 数据爬虫及清洗

② 数据可视化

(内含实操代码可根据具体所需个性化制定



------正文手动分割线------

本文结构速览:

一、确认目标

二、数据结构清洗

三、代码复现

四、数据可视化



 确认目标

01



本次的目标是爬取腾讯新闻板块的新冠疫情数据,主要是图中红色部门各省份的现有确诊、累计确诊数据结果:




 数据结构清洗

02



数据链接:

https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&callback=&_=164246944661


下图是数据结果的截图展示:



从上面截图的数据,无法直观的获取数据存储的格式
所以,在正式获取疫情数据之前,还需要对json格式进行解析。

解析的方法,一般有两种方式:
方法①:在线json解析,推荐一个网址:https://www.json.cn/ 

方法②python解析



方法①——在线解析】

左边为原始文档,后边为解析后的json格式:




下面展示省份解析后的数据结构:




方法②——python解析】


后面将详细讲解python解析的代码,先给大家展示解析后的结果:


个人推荐在线解析工具~

虽然解析内容一样

但是在线解析工具可以进行收缩,可视化更友好。



 代码复现

03



有了新冠疫情数据后,

下面就进入解析json,提取指定数据的部分了。


先来展示下,获取的数据内容,总共有5个字段:

  • 省份名称(province)
  • 现有确诊(nowConfirm)

  • 累计确诊(confirm)

  • 死亡人数(dead)

  • 治愈人数(heal)




下面是获取各省份数据的python脚本:





 数据可视化

04



有了各省份的数据后,下面说一说:

如何将 累计确诊 和 现有确诊的省份数据,进行可视化:



以下,是利用热力图,进行可视化的结果:



依葫芦画瓢,下面给出累计确诊的绘图代码及结果






以上就是本篇关于demo新冠疫情数据爬虫、清洗、可视化的内容。


城市的数据大家可依照上面讲解的内容相应的解析。

如还是有疑问,也可以后台联系我~



如需代码,可后台 ”回复1,添加我“ 发你源码


Ps. 微信推文改了规则

看完记得设置为 “ 星标 ” 

不然我会消失的




如若盼 追更 【日常学习】干货系列 

欢迎大家转发,点亮在看
你的鼓励,是对创造者最大的支持~
也可以在公众号后台找到我,说说你的困惑 ~

更多 『求职干货』 & 『日常学习』 系列好文,等你发现~

往期好文推荐 
求职类
【数据分析岗】面试框架梳理(含高频题型)
【数据分析岗】常见笔试题型梳理(附case)
【数据分析岗】字节面试真题(含答案)+送100道面试题库
【数据分析岗】面试考点—巧用AARRR模型
日常学习类
用户画像到底该如何做?
业务指标异常分析(含真实案例)
讲懂高频Hive:窗口函数(一)
文章转载自数据攻略,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论