点击上方蓝色【数据攻略】关注+星标~
第一时间获取最新内容
大家好,我是六哥~
本篇是六哥分享 『日常工作』 干货的第四篇。
提到 “ 幸存者偏差 ” 这一词
大伙儿或许都听过,也都知道大致是什么含义。
但实际在工作中,
很多数据分析师都会落入此“ 陷阱 ”,被数据表象 “ 蒙骗 ”;
同样,在生活中,亦如此。
很多人做选择、做决定,常常在不知觉中被部分参考信息 “ 带偏 ”。
本篇,就用大白话的方式
结合实例,来唠一唠:
什么是 “幸存者”偏差?有啥问题?如何避免?
(附日常工作case)
一、啥是幸存者偏差
【1】经典案例
【2】如何理解
三、有啥危害
四、常见工作Case
五、如何避免
文末有六哥的一点小感悟)啥是“幸存者偏差”
【1】经典案例
大概意思就是说:
战争时期,英法两国空战损失的轰炸机和飞行员很多。为增强轰炸机防御能力、降低损失,决定对飞机加固,但由于技术有限,只能选择最脆弱区域增加装甲。
针对在哪个位置加固产生了分歧。
▼ 军方认为:从 返回的 轰炸机发现飞机上的弹孔主要集中在机身中央和机翼。因此研究人员提出,在这些部位添加装甲。
而大部分坠毁的轰炸机(无法得到观测样本)应当是座舱和机尾受到了严重损伤。因此必须加厚座舱和机尾的装甲。
从中可以看出,军方从“幸存飞机”研究的特征,当然无法代表“坠毁飞机” 整体特征,所以导致所得结论有误。
以下引自官方定义:
幸存者偏差(Survivorship Bias)指的是人通常会注意到某种经过筛选之后所产生的结果,同时忽略了这个筛选的过程,而被忽略的过程往往包含着关键性的信息。
【2】如何理解
有两种方式可以辅助理解:
概率角度:条件概率。即,通常看到的结果,其实隐含前提假设,导致最终结论成立的条件被忽视掩盖; 样本角度:样本的代表性。即,观察到的部分样本,极有可能有偏,无法代表整体样本空间的特征,导致“以偏概全”的现象发生;
为啥会出现
由于观察的对象只是总群体中的某一切面
很有可能只是一小撮“典型”
所以“管中窥豹”的方式导致可能落入 “幸存者偏差” 的陷阱。
造成此问题的出现,主要是因为:
对所遇场景不熟悉、缺乏识别能力,导致无法察觉到关键信息的决定性作用; 缺乏全局思想和整体概念,没习惯 “思前想后、追根溯源” 的分析思维,导致未捕获到样本的完整性、代表性可能缺失的隐患。
有啥危害
不言而喻,理解了为啥会出现后
就知道可能带来的损失有哪些。
▼ 生活中,给判断、做决定,盲目乐观,极易与个人最初目标背道相驰。
常见工作Case
下面说2个工作中常遇到的经典案例:
经典Case1: 流失用户已静默
▼ 分析 & 启示:
原因就在于,那些对平台功能、产品不满意的用户早已流失,
分析师却将分析的重点仅放在了还在平台的高活跃用户身上。
所以,为了策略整体效果
除了分析高活跃用户的行为,
经典Case2:发券策略虚假繁荣
▼ 分析 & 启示:
首先应该明确业务的核心目标群体是什么;
然后判断筛选后的群体 所被隐藏的 筛选条件,是否影响数据结论;
比如,可以辅助从用券数量(量级角度)摸底了解影响面,确保样本的完整性、代表性,而非直接使用 用券率 这种比率型指标,忽略量级,导致有失偏颇的结论发生。
最后再进行进一步分析、下结论。
该如何避免
分析前,确保样本的随机性和完整代表性:
样本随机性:分析下结论的过程中,必须确保统计的样本和未统计的样本不存在偏差,确保样本选取的随机性。 样本完整性:基于某种筛选的出来的样本分析得到的数据结果往往不可信,所以不要从一组不完整的数据中得出结论。要养成检测样本完整性、代表性的习惯。
分析中,保证客观公正的态度,学会自查验证:
客观姿态:在分析的过程中,往往更容易接受自己“期望”的结果。所以要始终保持客观公正态度,不能轻信所谓的直觉。 自查验证: 交叉验证:可以从多个维度进行交叉论证展开得到结论。 剩余样本:重视未使用样本,在分析的过程中,思考未使用样本的数据对当前结论是否有决定性的影响。这一步的论证非常依赖对业务的理解和把握。
【写到最后的一点感悟】
很多人做选择(包括我自己)
通常只会看到 面儿上 的 “优胜” 信息
经常性忽视深藏 里儿的 “劣汰”信息
我总认为,他人成功的参考信息,
可能多少夹杂着些无法复制的主观因素。
才是真正能帮助绝大多数刚起步的普通人,如何避坑避雷,走好关键的第一步
共勉。
Ps. 微信推文改了规则
看完记得点个 “赞” 和 “在看” ~
不然我会消失的
如若盼 追更 【日常学习】干货系列 


往期好文推荐 




