暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于出租车运行数据的时空洞察分析

极思客栈 2021-08-09
1144


背景介绍


随着GPS技术的不断发展,产生了海量的轨迹数据,如行人轨迹、出租车轨迹等。这些轨迹点包含了丰富的信息,可以辅助用户了解出租车待客倾向区域,帮助用户在有限的时间内更快的打到车。同时也可以从司机角度出发,了解出租车在机场一天之中接单情况,不同区域的待客耗时,辅助司机做出决策。


本文将依托GeoScene GeoAnalytics Server(简称GA)大数据分析工具里的查找停留位置,检测事件、创建缓冲区、连接要素以及点聚合工具,结合GeoScene GeoAnalytics Server Plus(简称GA+)提供的条件过滤,属性过滤等数据清洗能力,依托上海出租车一天的海量数据(10G)以及POI数据,完成不同场景的展示。


首先,笔者分析了出租车司机一天的跑单量,探索了“出租车”的一天。


紧接着,对一天中接单最多的车辆进行追踪分析,挖掘该车辆一天中的行进轨迹和轨迹里程,直接对话“最忙碌”出租车。


看完分析结果,笔者陷入了沉思,既然出租车一天能跑这么多单,那么是否存在一些司机更热衷于接客的商圈呢?带着这样的疑问,笔者结合上海的POI地理分布数据,探究了商圈POI与出租车之间“不能说的秘密”。


最后,作为一个比较特殊的商圈-上海虹桥机场,笔者在前面的基础上,分析了出租车在虹桥机场的不同时段,不同区域的待客平均耗时。完成了“虹桥机场待客时长大揭秘”。





01


场景搭建


“出租车”的一天

一个出租车一天能跑多少单?可能大多数人的反应是20单。




双手奉上流程图:






首先,基于GeoScene GeoAnalytics Server提供的“检测事件”工具,以taxi_id为标识追踪字段,以 $feature.empty==2作为事件开始,对应当前时刻状态为“上车”,而$feature.empty==3则作为事件结束,对应当前状态为“下车”,返回仅要素。这样,便可以获取从空车到载客的事件;第二,考虑到司机可能存在“打错表”的行为,基于GA+提供的条件过滤算子快速获取订单时长大于5分钟(360000毫秒)的事件;第三,每一个打车事件结束(Ended)对应一个事件时长incidentduration,基于“汇总统计”,对每台车进行订单时长的平均值运算。最后,根据“汇总统计”工具返回的属性表,执行分析,获取出租车一天的接单数量分布情况。



如上图所示,大部分的出租车一天的接单数在15至35之间,当然,也存在一天接55单的出租车,怀揣着崇高的敬意,笔者按照接单数的属性字段进行排序,找到了这台taxi_id为88888的“最忙碌”出租车……




02

对话“最忙碌出租车”

首先,当笔者看到一台出租车能跑55单的时候,反应是这样的?



为了搞清楚这台日接55单的“大佬”究竟何方神圣!新一轮的探索开始了。


照惯例,流程图奉上:






首先基于场景一获取的检测事件的订单数据,利用GA+提供的条件过滤获取了“88888”这台出租车的订单事件轨迹点;紧接着过滤出大于5分钟的订单,以免出现老司机“打错表”的情况;第三步,笔者基于GeoScene GeoAnalytics Server提供的轨迹构建工具,以taxi_id和检测事件生成的incidentid同时作为标识,进行轨迹构建,获取了该车辆的分割轨迹;然后基于字段计算获得每条轨迹的长度,即每一单的行程;最后,对行程长度加以渲染,并结合从时间检测过滤获取的Started和Ended属性值,作为渲染行程的开始和结束点。


效果如下:红车表示订单开始,绿车表示订单结束,轨迹颜色越深表明行程越长,反之越短。



55条订单轨迹!查询时间字段发现,这台“大佬”居然一天一夜都在接单,甚至凌晨两点到六点都不曾停下赚钱的脚步。




那么有没有什么因素会影响出租车司机的待客倾向呢,笔者的第一反应,商圈POI,于是乎,新的故事展开了……



03

商圈POI与出租车之间“不能说的秘密”

提到上海,首先能想到哪些地方?外滩?东方明珠?静安寺?当然,除了以上著名景点,还有一些大家比较熟知的徐家汇商圈,南京路步行街,城隍庙等等。诸多商圈当中,是否存在出租车司机更倾向的待客商圈呢?这些商圈和出租车司机之间又有哪些“不能说的秘密”呢?


国际惯例:






首先,基于上海出租车日数据,通过GeoScene GeoAnalytics Server提供的查找停留位置工具,获取3分钟行驶距离不超过100m作为驻留点;第二,过滤出当前状态为“空车”的驻留点;进而与商圈POI建立的500m缓冲区进行要素连接,获取商圈范围内的待客车;最后,基于点聚合工具,以1小时进行时间切割,获取不同时段,不同商圈范围内的出租车待客情况。



图中,颜色越深,表明待客车辆越多,反之,待客车辆越少,从中,我们不难发现,从早上7点的虹桥机场,到下午的南京西路,再到晚上的城隍庙,正是出租车司机在不同时段最热衷的待客区域。


意料之外,情理之中。毕竟早上虹桥机场赶飞机,下午逛商场,晚上城隍庙吃吃吃,然后顺道去趟外滩拍照发个朋友圈,情理之……


等一下,机场?笔者又有了新的想法……




04

虹桥机场待客时长“大揭秘”


从一个出租车司机的角度出发,虹桥机场的确是司机热衷的待客区域,上一个场景也印证了这样的想法。但是,你也会经常看到这样的情况……



那么,出租车在虹桥机场不同区域不同时段的待客时长大致是什么样呢?


国际惯例:







首先,基于机场建立三公里的缓冲区;第二,基于连接要素,获取虹桥机场附近的出租车轨迹点;第三,基于GeoScene GeoAnalytics Server提供的检测事件工具,获取从空车到载客的事件。第四步,基于GA+提供的条件过滤算子,快速获取事件状态incidentstatus ==’Ended’,从而获取Ended对应的incidentduration,即空车到载客的等待时长。第五,建立200m的六边形,以30分钟作为时间步长进行切片,并统计在该时段,该区域的出租车待客时长的平均值。最后,通过计算字段,将时长由毫秒转换为分钟,并根据新字段进行渲染。


效果如下:


如图显示了出租车司机在虹桥机场一天之内的不同时段,不同区域的平均待客时长。


心得体会




整个场景做下来,笔者的感触最深的有以下两点:


1)GeoScene GeoAnalytics Server,在时空大数据挖掘分析,提供解决方案方面存在巨大优势。首先,它提供了丰富的分析工具,大大节省了开发的成本。第二,分析计算过程可监控,在执行分析的过程中,可以查看任务状态、阶段、耗时等详细信息。第三,大数据处理和可视化表达一气呵成,丰富的配图方案支撑用户快速搭建业务模型。


2)GeoScene GeoAnalytics Server Plus是依托于GA,同时提供了更多的分析工具能力,以及在线建模能力的一款产品。相信大家在每个场景中都看到了GA+在线建模提供的数据清洗能力。其实GA+的在线建模提供的能力远不止于此。由于在线建模将前端的分析工具拆分成了最细粒度的分析算子,用户可以快速的定位到自己想要使用的分析算子,而不必去分析工具中层级查找某个特定功能。此外,它支持在线拖拽式建模,用户可以直面数据,直面业务,零开发,零编程,帮助用户快速的构建复杂业务模型。  




当然,本研究还有许多需要改进的地方,比如:在可视化方面,没有经过详细的规范化设计;参数的设置方面,比如缓冲区的设置,机场设置3KM缓冲区是否合理有待考究。






今天出租车这一话题就先聊到这里,笔者要怀揣着对“55单大神"的敬意去学车了……






文章转载自极思客栈,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论