暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

警惕数据分析中的『幸存者偏差』陷阱

数据攻略 2021-12-09
1319

点击上方蓝色【数据攻略】关注+星标~

第一时间获取最新内容


大家好,我是六哥~

本篇是六哥分享 『日常工作』 干货的第篇。


提到 “ 幸存者偏差 ” 这一词

大伙儿或许都听过,也都知道大致是什么含义。


但实际在工作中,

很多数据分析师都会落入此“ 陷阱 ”,被数据表象 “ 蒙骗 ”


同样,在生活中,亦如此。

很多人做选择、做决定,常常在不知觉中被部分参考信息 “ 带偏 ”


本篇,就用大白话的方式

结合实例,来唠一唠:

什么是 “幸存者”偏差?有啥问题?如何避免?

附日常工作case



------正文手动分割线------

本文结构速览:

一、啥是幸存者偏差

    【1】经典案例

    【2】如何理解

二、为啥会出现

三、有啥危害

四、常见工作Case

五、如何避免

 文末有六哥的一点小感悟)



 啥是“幸存者偏差”

01



【1】经典案例

在正式引入幸存者偏差的概念之前
先分享一个经典案例:


大概意思就是说:

战争时期,英法两国空战损失的轰炸机和飞行员很多。为增强轰炸机防御能力、降低损失,决定对飞机加固,但由于技术有限,只能选择最脆弱区域增加装甲。

针对在哪个位置加固产生了分歧。

▼ 军方认为:从 返回的 轰炸机发现飞机上的弹孔主要集中在机身中央和机翼。因此研究人员提出,在这些部位添加装甲。

▼ 统计学家沃德认为:根据能够返航的飞机(可观测样本)统计出机翼的损伤,这正说明机翼的受损对飞机的飞行并不致命。

而大部分坠毁的轰炸机(无法得到观测样本)应当是座舱和机尾受到了严重损伤。因此必须加厚座舱和机尾的装甲。

最后采纳了统计学家沃德的建议,立即加厚座舱和机尾的装甲,结果是英国轰炸机的坠毁率显著下降。


从中可以看出,军方从“幸存飞机”研究的特征,当然无法代表“坠毁飞机” 整体特征,所以导致所得结论有误。


以下引自官方定义:

幸存者偏差(Survivorship Bias)指的是人通常会注意到某种经过筛选之后所产生的结果,同时忽略了这个筛选的过程,而被忽略的过程往往包含着关键性的信息。


【2】如何理解

有两种方式可以辅助理解:

  • 概率角度:条件概率。即,通常看到的结果,其实隐含前提假设,导致最终结论成立的条件被忽视掩盖;
  • 样本角度:样本的代表性。即,观察到的部分样本,极有可能有偏,无法代表整体样本空间的特征,导致“以偏概全”的现象发生;



 为啥会出现

02



由于观察的对象只是总群体中的某一切面

很有可能只是一小撮“典型”

所以“管中窥豹”的方式导致可能落入 “幸存者偏差” 的陷阱。


造成此问题的出现,主要是因为:

  • 对所遇场景不熟悉、缺乏识别能力,导致无法察觉到关键信息的决定性作用;
  • 缺乏全局思想和整体概念,没习惯 “思前想后、追根溯源” 的分析思维,导致未捕获到样本的完整性、代表性可能缺失的隐患。



 有啥危害

03



不言而喻,理解了为啥会出现后

就知道可能带来的损失有哪些。

比如:
 工作中,下结论、做策略,轻信表象,极易给出错误指引判断;

▼ 生活中,给判断、做决定,盲目乐观,极易与个人最初目标背道相驰。



 常见工作Case

04



下面说2个工作中常遇到的经典案例:

经典Case1: 流失用户已静默

描述:
很多产品和数据分析师会将大量的分析工作放在了高活跃用户身上,根据二八原理,认为这些高活跃用户才是为平台带来收益的核心人群。
于是,通过分析此类头部用户的行为,做出整体方案策略。
但有时,上线后发现,效果往往并没有一开始预想的结果,甚至可能出现反向结论。

▼ 分析 & 启示

原因就在于,那些对平台功能、产品不满意的用户早已流失,

分析师却将分析的重点仅放在了还在平台的高活跃用户身上。

但这部分用户可能无论用户比重还是用户特性,都无法代表整体用户,因此可能造成策略 “失效”,这就是典型的幸存者偏差问题。

所以,为了策略整体效果

除了分析高活跃用户的行为,

我们也应该聚焦分析流失用户的行为数据:
比如流失用户的事后调研、流失前的行为识别等等
在权衡兼顾下,针对不同群体做出合适的策略,以提高平台整体效果。



经典Case2发券策略虚假繁荣

▼ 描述:
为刺激用户消费,提高销平台售额,某电商平台产品在实验一期时对平台活跃用户进行发券。
策略为:只要打开手机APP,用户即可发送弹窗,可领券固定面额的优惠券。后续发现优惠券的使用率较低。
于是做了二期优化,二期针对查看过商品详情页信息的用户进行发券弹窗。实验发现,发券的使用率提升了200%。因此得出结论,应该对浏览过商品详情页的用户进行发券。
此结论就存在明显的幸存者偏差现象。

▼ 分析 & 启示:

从打开手机APP 到 浏览过商品详情页,
这一步骤,本身就存在漏斗转化的筛选:
访问过商品详情页的用户相较前一漏斗的群体,有较强购买意愿,这类用户群体的转化率当然更高,继而发券使用率也更高。
针对此问题,作为据分析师:

首先应该明确业务的核心目标群体是什么;

然后判断筛选后的群体 所被隐藏的 筛选条件,是否影响数据结论;

比如,可以辅助从用券数量(量级角度)摸底了解影响面,确保样本的完整性、代表性,而非直接使用 用券率 这种比率型指标,忽略量级,导致有失偏颇的结论发生。

最后再进行进一步分析、下结论。




 该如何避免

05



分析前,确保样本的随机性和完整代表性:

  • 样本随机性:分析下结论的过程中,必须确保统计的样本和未统计的样本不存在偏差,确保样本选取的随机性。
  • 样本完整性基于某种筛选的出来的样本分析得到的数据结果往往不可信,所以不要从一组不完整的数据中得出结论。要养成检测样本完整性、代表性的习惯。


分析中,保证客观公正的态度,学会自查验证:

  • 客观姿态:在分析的过程中,往往更容易接受自己“期望”的结果。所以要始终保持客观公正态度,不能轻信所谓的直觉。
  • 自查验证:
    • 交叉验证:可以从多个维度进行交叉论证展开得到结论。
    • 剩余样本:重视未使用样本,在分析的过程中,思考未使用样本的数据对当前结论是否有决定性的影响。这一步的论证非常依赖对业务的理解和把握。




【写到最后的一点感悟】

其实,生活中,亦如此。


很多人做选择(包括我自己)

通常只会看到 面儿上 的 “优胜” 信息

经常性忽视深藏 里儿的 “劣汰”信息

但往往这一信息才是我们需要真正考量权衡的。
毕竟,失败乃成功之母。

我总认为,他人成功的参考信息,

可能多少夹杂着些无法复制的主观因素。

但其实,失败的案例和经验,

才是真正能帮助绝大多数刚起步的普通人,如何避坑避雷,走好关键的第一步



以上就是对于 “幸存者偏差” 的介绍。


Ps. 微信推文改了规则

看完记得点个 “赞”  和 “在看” ~

不然我会消失的


如若盼 追更 【日常学习】干货系列 

欢迎大家转发,点亮在看
你的鼓励,是对创造者最大的支持~
也可以在公众号后台找到我,说说你的困惑 ~
更多 『求职干货』 & 『日常学习』 系列好文,等你发现~

往期好文推荐 
求职类
【数据分析岗】面试框架梳理(含高频题型)
【数据分析岗】常见笔试题型梳理(附case)
【数据分析岗】字节面试真题(含答案)+送100道面试题库
【数据分析岗】面试考点—巧用AARRR模型
日常学习类
业务指标异常分析(含真实案例)
讲懂高频Hive:窗口函数(一)
选工作的逻辑


文章转载自数据攻略,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论