暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据分析中的辛普森悖论

数据分析且徐行 2021-09-15
1535

莫听穿林打叶声|何妨吟啸且徐行




我们从一道大厂数分面试题开始今天的话题吧~

客单价=总交易额 下单人数

对比去年,今年老客户的客单价增加,新客户的客单价也增加了,是否今年整体客单价会提升?为什么?

我们先以惯用的指标拆解法来解答这道题

此时,根据公式,如果今年老客户的客单价增加,新客户的客单价也增加,我们发现整体的客单价还与新老客户数量的占比有关,如果新老客户的比例变动,即使新老客户客单价均增加,整体客单价也不一定提升。

下面我们给出一个实例:

去年
客户类型
客单价
客户数占比
新客户
5
10%
老客户
80
90%
去年整体客单价=老客户数量占比 * 老客户客单价 + 新客户数量占比 * 新客户客单价=90% * 80 + 10% * 5=72.5


今年
客户类型
客单价
客户数占比
新客户
7
90%
老客户
82
10%
年整体客单价=老客户数量占比 * 老客户客单价 + 新客户数量占比 * 新客户客单价=10% * 82 + 90% * 7=14.5


其实这个例子很好的阐述了“辛普森悖论”,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。这其实是与我们的直觉或日常生活经验相违背的,因此被称为“悖论”。


其背后藏着这样的理论

(a2+b2)/(a1+b1)的值可以用向量与X坐标轴的夹角表示,依据正切函数我们得知,夹角越大,值越大。

比率所能表达的信息是不全面的,单看一个比率值,我们无法知晓背后分子分母的数量级。当我们在谈论提升“XX率”的时候,不要只盯着“XX率”,还要(用户)结构本身的天花板,比如说,当企业增长到一定规模的时候,新增用户的增长率必然会趋于平缓甚至下滑,此时老客户的相关指标就会显得更重要一些,这是企业发展阶段的不同而导致不同的天花板,不同的侧重点。





END





 欢迎关注“数据分析且徐行”公众号




愿在数据之路上   且行且自在




  实用 | 专业| 干货

我在且徐行等你~




文章转载自数据分析且徐行,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论