暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

『指标异动』贡献度定量归因之法,带你知因又知果!

数据攻略 2022-05-01
13039

点击上方蓝色【数据攻略】关注+星标~

第一时间获取最新内容



哈喽大家好,我是六哥~

先祝大家五一劳动节快乐~

上一篇介绍了指标异动的本质和意义

 『指标异动』你真的理解吗?


本篇是本系列的第二篇,即:

发生了异动,来找找问题出现在哪里,找到症结。

也就是我们常说的指标异动归因



指标异动的归因方法有很多种,在实际工作中

总结下来,大致可以分为定性、定量2个部分:

▼ 比如定性的有,利用相关性分析佐证影响指标异动的猜想;利用事件分析看看是否是一些外部因素(特殊假日、活动、竞对因素等)导致。
▼ 比如定量的有,贡献度分析,常见的方式即指标下钻拆解,定量衡量各维度\指标对于与异动的贡献值 。



因此本篇,就来唠一唠

面对指标异动,利用指标拆解方式

如何对其做定量贡献归因分析?




------正文手动分割线------

本文结构速览:

一、贡献度基础概念

    1.1 定义

    1.2 价值

    1.3 分类

二、贡献度计算(含定义+实例+推导)

    2.1 加法型

    2.2 乘法型

    2.3 除法型

三、一些经验

    3.1 怎么拆比较好

    3.2 如何不陷入局部最优解



温馨提示:本篇含算法推导!六哥出品,醍醐灌顶
不感兴趣的可跳过,掌握方法即可~
但作为数据分析师,知因知果,刨根问题才是我们的本质





贡献度基础概念



啥是贡献度?

01 



上篇文中末尾,提到一个例子:

如果你是业务方,某一天GMV突降,想知道咋回事?!


是希望得到 “可能是xx渠道流量老用户减少和新用户客单价降低导致的”
还是希望得到 “主要是xx渠道老用户占比变动(异常贡献度达X%),新用户客单价下降(异常贡献度达Y%)导致的

当然是第二种~
借着上面的例子,来说说 啥是贡献度?


一个指标背后往往代表着实际业务含义

可以根据不同的业务构成/理解做一些拆分和组合


因此,一个指标的异动。势必是由于

构成它的一些成分(常称为维度)扰动所造成的结果


贡献度,顾名思义,即用定量衡量的方式来说明:

一个指标    的异动     

具体是由其中哪些成分   带来了多少异动   




 有啥价值?

02 



先回顾一下,异动分析的目的是什么?

是为了希望改善指标,让业务水平回归到正常范围/达到预期范围。

所以双方本着解决问题的目标

▼ 作为业务,当然想要知道关键症结在哪里,对症下药,争取高效率让指标回到正常水平
 作为BI,当然有义务利用相对科学量化的方式,去分析
  • 变化是到底有哪些成分构成的?
  • 是哪些成分影响较大?能解释多少异动?
  • 针对关键异动成分,提供给业务的落脚点是什么?




 哪些分类?

03 



前文讲过,既然指标通常可以由不同的角度做拆分组合

其实在实际应用中,对于指标的成分定量贡献

一般可以分为 静态、动态两种:




  • 静态:即对于指标本身绝对值,不同成分的组成贡献。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍如针对大盘GMV,可以依据业务属性,衡量出不同业务线对大盘GMV的贡献占比。

  • 动态:即基于比较,对于指标的变化值,不同成分对于变化的贡献。例如针对大盘GMV的波动,可以衡量出不同业务线GMV的波动对大盘GMV波动的贡献占比


再次强调:异动是基于比较

需要确定比较的评估指标是什么、对象是什么,衡量方式是什么


所以本篇的贡献指的是第二种类型

即针对指标  的变化的贡献分析






贡献度计算


实际工作中,指标作为监控业务好坏的度量方式

常会作为一项例行日常监控任务

较常见的比较方式例如有:

纵向维度在时间轴上和自身比较,即 同比/环比变化。


假设某指标为  ,当月表现为    ,上月表现为   

变化比为  

想要研究其中  是由哪些构成成分的变化带来的波动



指标的分类

00 



针对不同类型的指标  ,不同角度的拆解会有不同的组合方式

常见的主要有以下3种组合形式:




  • 加法型指标:具有可加性的量值指标,例如大盘DAU = 各个渠道的DAU之和
  • 乘法型指标:常为涉及到流程链路的指标,例如某页面访问UV = DAU * 该页面访问转化率

  • 除法型指标:从量值指标衍生而出的率值指标,例如pv点击率 = 点击pv 浏览pv



因此不同类型的拆解方式

对于贡献度度量方式会有一些差异。

接下来我会按照实例+推导的方式

逐个来讲解,让你知因知果,上手可用~




 加法型指标拆解

01 



一般对于具有可加性的量值指标,可以利用加法方式进行拆解

例如:UV、PV、GMV、分发量...


面对此类指标,各构成要素对总于变化的贡献

就是各构成要素变化加权后的值

即:各维值的变化值比上综合指标  的值



定义

▲ 可用加法来拆解的指标  构成为:

  ▲ 指标  的变化比为:

  

▲ 则衡量某个构成要素  对于变化比  的贡献为:

  

注意:各构成要素的  加起来等于   。

故此类方法可以以定量衡量方式计算各个构成要素的贡献度,找出症结,方便业务抓大放小~



实例

例如针对大盘DAU本月环比上月-6.29%


大盘DAU  = 各个渠道的DAU之和

欲从渠道角度拆解,定量衡量各渠道对于异动变化的贡献:




证明

证明如下(仍沿用如上符号表示):

  


注:减法原理相同




 乘法型指标拆解

02 



涉及到有逻辑关系的流程链路类指标

通常可以用乘法方式进行拆解,例如

某页面访问UV、某资源位的GMV、增量购买UV...


面对此类指标,各环节对于总变化的贡献

其实可以利用对数转换法,将此类指标转换为加法形式

后续贡献计算思想与加法方式一致

即:利用log转换为加法,利用变化后形式各维值的变化值比上综合指标Y的值



▌定义

▲ 可用乘法来拆解的指标  构成为:

  ▲ 指标  的变化比为:

 

▲ 则衡量某个构成要素  对于变化量  (转化为对数形式)的贡献为:

 

▲ 则衡量某个构成要素  对于变化比  的贡献为:


 


其中,  为平均对数权重

即为各构成环节的指标转换为对数形式的公因子:

 用简单的大白话可以理解为:

为了把乘法形式的转化为想要的加法形式,需要一个中间转化媒介来“变身”


 

注意:各构成要素的  加起来等于   。

故此类方法可以以定量衡量方式计算各个构成环节的贡献度,便于找出主要异常环节,以便提高分析效率。



实例

例如以淘宝搜索场景的产出为例

产出构成可以拆解为:

访问场景的流量、用户购买转化率、客单价。
分别与大盘用户增长规模、场景转化能力、用户购买偏好等指标有关。

此类拆解方式,将场景的产出总体以流量、效率两大方面进行分析即: 

 



假设搜索常见GMV本月环比上月-5.94%。

欲从购买漏斗流程拆解,定量衡量各环节对于变化的贡献:

  • 第一步:计算将乘法形式转化为对数形式所需的平均对数权重  
  • 第二步:计算各因子指标的对数形式变化值  ,如表格倒数第二列。

  • 第三步:计算各因子指标对于总GMV环比变化的贡献  ,如表格最后一列。




证明

证明如下(仍沿用如上符号表示):

  



注:以上算法对于贡献度的计算遵循了MECE原则且相互独立,清晰明了。




除法型指标拆解

03 



除法型指标的拆解相对较为复杂

是从量值指标衍生而出的率值指标

常见的例如有:用户行为的漏斗率ctr、cvr等


这类指标,可以根据实际所遇具体情况来做拆解,例如:

从用户活跃度、用户基础属性:年龄、城市线分布等角度...


仔细观察,一般总率值的变动是由

所拆构成要素的数量占比、指标值共同决定的产物


因此,当对指标维度拆解分析时

各构成要素对于总变化的贡献

其实会受到两方面影响:

① 结构占比的变化贡献

② 指标数值的变化贡献


提示:可以回顾下辛普森悖论问题,就是忽略了用户结构这个重要内生“隐藏因素”,所导致的大盘与细分群体间指标的相互矛盾。

 【数据分析岗】高频面试题——辛普森悖论



一般对于这类指标变化贡献度的衡量,有2种方法:

  • 控制变量法,也就是常说的敏感度分析

  • 组间组内拆解法,金融届中常用的绩效归因模型


简单的概况两种方法的区别优点即:
控制变量法是将每个构成维度当做一个整体打包,定量衡量对总体变化贡献;
▼ 组间组内拆解法,是将每个构成维度,从结构、指标变化两方面,分开定量衡量对总体变化贡献。即从因子权重和因子取值两个角度,定量解释对于加权平均数的变化。



很显然,第二种方法更好

所以以下讲解围绕第二种展开~

ps.对控制变量法感兴趣的欢迎来交流群里讨论



定义

▲ 可用乘法来拆解的指标  构成为:

  

其中,每个构成要素的占比、比率指标可以分别表示为:

 

▲ 指标  的变化比为:

 

▲ 则衡量某个构成要素  对于变化量  的贡献为:

构成要素的结构占比:  发生变化,可以简称为『组间占比差异

即该要素结构占比变化相比不变化对整体指标变化产生的影响是多少

构成要素的比率指标:  发生变化,可以简称为组内指标差异
即该要素指标变化相比不变对整体指标变化产生的影响是多少

所以,对应两部分的贡献比分别为:

 

▲ 则衡量某个构成要素  对于变化比  的贡献为:

 



注意:各构成要素的  加起来等于   。

故此类方法可以分别计算结构变动、指标变动的贡献度,可以有效警惕掉入辛普森悖论陷阱。



实例

例如,以淘宝搜索场景的购买率下降为例。
从用户类型进行拆分,想要定量分析不同用户对购买率环比下降的贡献。


 访 


从以下表格,分别按照上述公式:

  • 第一步:计算各用户类型结构占比变化贡献  
  • 第二步:计算各用户类型的购买率指标变化贡献  

  • 第三步:汇总用户类型结构变化+指标变化贡献  ,如表格倒数第二列。

  • 第四步:计算每个用户类型对于总指标环比变化的贡献  ,如表格最后一列。





证明

证明如下(推导较长,可滑动):

 

注:以上算法,对于贡献度的计算遵循了MECE原则且相互独立。






一些经验



怎么拆合适?

01 



前面说过不同的指标有不同的构成方式

一些指标可以有不同的拆解角度


例如对于GMV

可以利用横向不同群体间进行加法型拆解

也可以利用漏斗类有承上启下逻辑关系进行乘法型拆解。


那应该怎么拆最好?拆到哪一步算结束?



用什么角度拆?

六哥认为,根据你所负责的具体业务类型以及所面临实际问题来聚集,事前可与业务侧充分讨论,捕捉关键信息。例如,业务侧的动作、核心关注点等等。



▼ 拆到多久算完?

以解决业务侧问题为原则,才是异动归因的价值体现,所以最好是可以定位到业务侧能有较明确的改善落脚点,也就是我们常说的可以对应到业务策略抓手层面。


    

 如何避免局部最优?

02 



首先说明一下,局部最优解弊端?

也就是没有按照MECE准则做分析拆解,能会忽视一些维度

所以可能会漏掉一些关键问题,或者判断失误

严重的可能会对业务改善方向做出错误指向...



其次是,是否一定需要全局最优解?

同样,是根据我们现有情况做投入产出比的权衡。
例如,现行的拆解已经可以帮助解决业务解疑答惑,则不用过分刨根问底式无限拆解,可能往往效益不大。

所以建议要保证每个环节有对业务的解读和思考再去着手做,不要陷入无限拆解。



最后,如何去找相对全局最优解?

注意这里的“相对”概念。

根据负责的业务范围和类型的不同,

所以局部和全局也是一个相对的概念。


我们以可解决业务问题为准则,高效率去寻找解法

这里,有有以下几点建议:
▼ 加深对业务、对平台的理解,扩宽认知边界,提高可找到全局最优解的可能性

▼ 针对自己负责的业务特性和所处阶段,结合日常处理的经验教训,沉淀出属于你自己的处理方法论。

    • 比如,先定外因,后排内因,也就是大家面试常答的异常分析框架。
    • 比如,除法型指标,针对结构和指标的变化,其实相对成熟的产品,结构相对稳定,短期内占比波动可能是平台以外的因素干扰,所以要进一步聚焦分析于重在指标变动的因子,可能会更有效。

▼ 可以利用一些工具、技术达到事半功倍的效果。

(也就是本异动分析系列的第三篇



参考资料来源: 

- 乘法型类指标的算法来源于LMDI乘法拆解(Choi K H, Ang B W. Attribution of Changes in Divisia Real Energy Intensity Index:An Extension to Index Decomposition Analysis[J]. Energy Economics, 2012, 34(1):171-176.) 

- 除法类指标的算法来源于金融领域的Brinson绩效归因模型(https://max.book118.com/html/2021/0221/7101200043003056.shtm)



以上分享

『指标异动』法层面的定量贡献归因,含:

三类指标拆解的贡献度度量算法定义+实例+证明

为了让大家知因果,纯手敲公式,记得一键三连


下一篇我会从 器 的层面

针对指标异常的分析工具做一些分享。

(可能会鸽hh,看大家本篇反响~)





如若盼 追更 日常学习类干货系列 

欢迎大家转发,点亮在看
你的鼓励,也是六哥的原创更新动力~
也欢迎在公众号后台找到我,拉你进交流群 ~



Ps. 微信推文改了规则

看完记得设置为 “ 星标 ” 

不然我会消失的



更多 『求职干货』 & 『日常学习』 系列好文,等你发现~

往期好文推荐 
求职类
【数据分析岗】面试该如何做准备
【数据分析岗】面试必备的数据分析方法(一)
 教你写出会说话的【数据分析岗】简历
【数据分析岗】面试框架梳理(含高频题型)
【数据分析岗】常见笔试题型梳理(附case)
【数据分析岗】字节面试真题(含答案)+送100道面试题库
日常学习类
『指标异动』你真的理解吗?
警惕数据分析中的『幸存者偏差』陷阱
业务指标异常分析(含真实案例)
讲懂高频Hive:窗口函数(一)
文章转载自数据攻略,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论