暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于时空关系的疫情大数据分析挖掘

极思客栈 2021-11-05
1398
摘要





    随着全球疫情形势从严重到逐渐可控和常态化,人们的生产生活和各单位业务办公也逐步恢复有序,但是疫情防控工作却从来没有松懈。

    在两年的疫情防控战役中,新的信息化技术层出不穷。今天小编来为大家介绍一下利用大数据结合时空关系来辅助疫情精准防控的技术路线和思路。


目录



1
背景及意义
  • 时空大数据

  • 疫情防控的难题和挑战

2
技术实现流程
  • 整体架构

  • 分析数据


3
分析场景呈现
  • 确诊患者行为分析

  • 基于时空重叠的密切接触者排查

  • 疫情高风险小区分析

  • 传播链图谱分析挖掘

1. 背景及意义



    时空数据具有来源广泛、类型多样、结构分散、规模庞大等特征

  


    在疫情防控中,如何充分组织和管理多维度时空数据,构建时空大数据分析模型,充分挖掘大数据价值,更好的辅助决策,是本次分析挖掘场景设计的初衷。




    疫情防控中存在着五大业务难题和六大技术难题:

  • 新增病例无法在地图上直观查看

  • 人员时空驻留区域分析不够精准

  • 人员传染链关系无从排查

  • 健康码黄码识别不够精确

  • 无法快速查看潜在风险小区

  • 多源时空数据如何快速对接和管理

  • 针对亿级手机信令数据如何高效进行分析

  • 如何进行时空数据治理和清洗

  • 如何结合现有数据中台支撑,进行时空大数据分析场景设计

  • 如何进行大规模时空数据可视化显示

  • 如何进行知识图谱数据处理和表达


2. 技术实现流程



    本次主要采用GeoScene GA大数据产品的Run Python Script能力构建大数据分析模型的方式对多源数据进行清洗、融合、分析。

    Run Python模型运行主要过程如图所示,先使用Spark读取数据存到dataFrame中,在内存中进行大数据分析运算,极大程度提升了运算处理速度。再运用Spark Context以及GeoScene GA对任务进行监控,把控整个运算流程。最终以服务或者文件的形式输出结果。


    此次用于分析的数据主要采用手机信令数据。

    手机数据一般可以分为两种类型:一种是手机通话数据(Mobile CDR Data),即通过手机用户之间的通话频率和时长来反映城市之间的信息联系强度;另一种则是手机信令数据(Mobile Signal Data),即通过手机用户在基站之间的信息交换来确定用户的空间位置,能相对准确的记录人流的时空轨迹。所以相比而言后者对于疫情分析研究的意义更大。

    由于全天手机信令数据量巨大,不能通过传统的GIS软件直接加载所有信令点,所以我们需要将清洗后的数据上传到hdfs,再通过GeoScene平台执行各种分析。






*此次分析数据均进行脱密处理,不涉及个人隐私

3. 分析场景呈现




1
确诊患者行为分析

    我们提取一条msisdn信令构建的轨迹,模拟其为感染者。

    通过GeoScene平台驻留分析工具以及字段计算,计算每段轨迹速度,并通过以下规则,为每段轨迹对应的行为字段赋予不同值,将其出行方式判定为:

    停留:5分钟内运动距离<50m

    步行:每小时运行速度<6km

    骑行:6km<每小时运行速度<20km

    开车:每小时运行速度>20km

    有了确诊患者轨迹所对应的行为,我们就可以更有针对性的排查对应地点,以及其可能接触到的人。

2
密切接触者排查

    密切接触者排查,我们使用时空重叠技术,来实现分析。

    技术路线主要是:找出与确诊患者轨迹在空间和时间上同时存在相交关系的所有轨迹对应的人,这些人就是与确诊患者有过接触的潜在感染者。

    通过时空重叠技术,我们能够精准的定义密切接触者,也减少了疫情防控中的误判以及漏判情况。

    我们也可以使用GeoAnanlytic Server Plus在线建模,构建分析模型,具体执行过程如图所示。



    场景设计的思路主要是:潜在感染者随着时间进度条推移逐步出现的想法,利用L7在前端渲染密切接触者的轨迹线与其出发点位置。   


3
疫情高风险小区分析

    通过以上分析,我们得到了所有密切接触者轨迹和确诊患者轨迹,现在需要知道,他们究竟在何时去过何地。

    我们先获取到范围内的所有建筑物数据,使用GeoScene平台提供的边界融合对建筑面数据进行简单的处理。

    再把刚才得到的轨迹线向外创建50m缓冲区,并和所有小区面图层进行要素连接,也就是时空关联,并统计轨迹缓冲区与小区相交的次数,对小区风险等级进行分级。

    通过上述分析,我们得到了包含相交次数(count),以及相交时间(min_minute)的所有风险小区的面数据,属性表如下。

   

    我们加载分析图层,并设置classBreak分段渲染属性,对刚刚生成的建筑面数据的count值进行渲染。

    并结合effect滤镜属性以及visualVirable可视化变量,对不同时间的数据进行可视化过渡平滑处理。


4
传播链图谱分析挖掘

    最后我们来看下,如何利用GeoScene知识图谱能力,对流调数据来建立传播关系。

    我们通过流行病学调查数据中源案例ID以及关联源案例ID字段,可以对所有调查人员建立一张直观的传播链。

    图谱的构建主要使用了Antv G6来完成,并且实现了图谱与地图之间的交互联动。

    可以看到原本杂乱的空间分布数据,在这里建立了一张传播网,我们能清晰地看出各级感染者之间的关系,并与地图交互。

    以上就是基于时空关系的疫情大数据分析全部内容,感谢大家的阅读!

END





文章转载自极思客栈,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论