暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

AB实验中评估指标傻傻分不清 | AB系列(六)

数据攻略 2023-04-11
3280

点击上方蓝色【数据攻略】关注+星标~

第一时间获取最新内容


哈喽大家好,我是六哥~

最近在面试中我发现一个共性问题:

虽然关于AB实验的基础原理、步骤大家了然于胸
但只要问到一些稍微深的东西,例如:
AB实验中评估指标的相关细节
很多人的回答多少还是差那么点意思

之前已分享过『AB实验』系列专题:
数据分析岗 | AB实验框架+高频考点(一)

【数据分析岗】| AB实验之方案设计(二)

数据分析岗 | AB实验之实验分流(三)

AB高频考点!大白话讲懂『多重检验』

常被忽略的『AA测试』| AB系列(五)

概率论系列考点 — 统计功效 | 最小样本量


本篇,咱就来唠一唠
AB实验中常见指标分类有哪些?咋用?
内含注意事项tips,可收藏慢看


------正文手动分割线------

本文结构速览:

一、搞清概念

二、计算差异

三、选择原则

四、注意事项&case自查💡




 搞清概念

01



AB实验中的常见指标,按照业务方式分类:
  • 目标指标:又被称为北极星指标,即一般是公司业务核心KPI

  • 驱动指标:又被称为间接指标,与目标指标之间在逻辑上有因果关系,但比它更快更灵敏

  • 护栏指标:顾名思义,作为“保护型”指标,是每个测试都需要观察的指标,一般有两种类型:

    1. 保证目标指标不会违背重要的限制:一般为衡量用户不好体验的指标,如加载率、崩溃率等等,一般而言不能对其有显著负向影响才可以
    2. 评估实验结果的可信赖度和内部有效性:常见的如SRM,如若出现问题实验中其他指标评估结果基本不可信




如果按照统计类型分类:

  • 计数求和型:即样本的指标之和,比如有uv、pv、总时长
  • 复合计算型:均值类、比例类、比率类
    • 均值类:即样本的均值,如uv价值、人均时长

    • 比例类:即每个样本服从二项分布,如用户点击率、用户购买转化率

    • 比率类:即两类指标的比值,如pv点击率、ROI等等





 计算差异

02



在抛公式前,需要有个大致概念:

一般情况下,不同指标的差异主要体现在假设检验时方差的计算方式上。这是因为不同指标的计算方法往往考虑了不同的信息,从而导致了方差的计算方式也会有所不同。


因此,正确估计指标的方差是获得可靠的实验结果的前提。


在实际业务中,常用的是参数检验中关于均值类、比例类 这类统计量的组间差异检验。另外,多说一嘴:有关计数求和型指标,只有当实验对照组样本一致的情况下,这类绝对值指标的对比才更具意义,否则还是需要转换成以上指标才可以对比。



▌均值类:

均值类指标是基于正态分布做计算

大多数情况下,样本充足,选用Z检验:


(因假设实验对照组均值分布无差异,即:u1-u2=0)




▌比例类:

比例型指标是基于伯努利分布做近似计算:

如果实验对照组样本比例相同,即:



▌比率类:

如上,无论是均值类指标的检验采用正态分布计算方差,还是比例型指标的检验采用二项分布方式计算方差,其实这里有个适用前提假设,即:

需要满足样本独立同分布 


但这里比率型指标是不满足的。AB测试一般在用户层面进行随机化分流,如若指标的分析单元不是用户,例如pv点击率,是点击pv/曝光pv,这里分析单元中的每个曝光Yi可能来源同一个用户,各样本点不满足独立性,所以方差计算需要做下修正,不可以直接套用。


关于这类指标,业界常用的方式例如有:delta method进行修正,或者bootstrap方式计算方差的无偏估计。


① Delta method:

  • 优点:计算简便,需满足一些基本假设,大多数情况下即可利用一阶泰勒展开,在很低的计算成本下获得准确的方差估计,效率更高

  • 缺点:仅适用于大样本,且对统计量形式有限制


② bootstrap方式:
  • 优点:形式简单,容易理解,适合任一统计量,且对样本量没有限制

  • 缺点:成本高,耗时长,需要较大算力来支持重抽样次数


其中Delta method方式,计算修正后的样本方差:


ps.有关此方法的推导感兴趣可私信留言~





 选择指标原则

03



通常情况下,在实际工作中,大多数人会按照过往经验或者业务感觉来选择实验评估指标,虽然很少出现问题,但还是需要清楚底层关键需要满足以下几个原则:

  • 易懂性:指标是为了反应某种事物和现象的一种量化方式,所以需要容易理解且可衡量实验效果
  • 一致性:需要和AB实验采取策略的目标保持一致,方便衡量干预措施和数据结论有一定因果逻辑

  • 灵敏性:AB实验本质是为了利用数据驱动的方式为业务策略探路验证用的评估方法,倘若选取的指标很难检测到差异,可能会错失增长良机,或者没及时发现问题止损而付出更大代价,所以需要选取的实验指标保证灵敏性





 注意事项

04



指标个数

不在多,否则会出现多重检验的问题,置信度会下降(详见👉AB高频考点!大白话讲懂『多重检验』)最好先有预期目标,制定评估标准以及预计提升值,而后AB实验更多发挥的是因果验证作用。


指标识别
指标计算时要注意:随机分流的实验单元和分析单元需保持一致,否则不满足假设检验中的前提条件:独立性。如果不满足,则需要对方差计算进行修正,否则检验结论出错概率较大。 



▌case自查:

实验组和对照组uv价值的相对差异,是否可以用传统计算方差方式?

- 答案:不可以,需要进行方差修正。

- 提示:可以将该指标列出,观察分母:对照组的uv价值是常数还是随机变量,可以发现新的统计量需要计算的是实验对照组uv价值比值的方差,即需要用到比率型指标的估计方差方式。



以上就是为大家分享的AB实验中关于:

评估指标差异的定义、分类、注意事项



如若盼 追更 求职类干货系列 

欢迎大家转发,点亮在看
你的鼓励,是对创造者最大的支持~
也可以在公众号后台找到我,说说你的困惑 ~

往期好文推荐 

『面试&笔试框架』详情可戳👇
【数据分析岗】面试框架梳理(含高频题型)
【数据分析岗】面试该如何做准备
【数据分析岗】常见笔试题型梳理(附case)

『AB实验』详情可戳👇
数据分析岗 | AB实验框架+高频考点(一)

【数据分析岗】| AB实验之方案设计(二)

数据分析岗 | AB实验之实验分流(三)

AB高频考点!大白话讲懂『多重检验』

常被忽略的『AA测试』| AB系列(五)

概率论系列考点 — 统计功效 | 最小样本量


『SQL』详情可戳👇
有关『SQL』有哪些考法?该如何备战?

SQL出题技巧及大厂母题(附答案)

【数据分析岗】SQL类高频考点归纳

高频笔面试考点『留存』你会了吗?

【SQL实战】淘宝营销活动分析

『SQL实战』图解经典考题-最大在线人数


『大数据技能』详情可戳👇
【数据分析】面试高频类型——大数据技能(一)

【数据分析岗】面试高频类型——大数据技能(二)


『机器学习』详情可戳👇
【数据分析岗】机器学习(一)

【数据分析岗】机器学习(二)

【数据分析岗】机器学习(三)


『概率论』详情可戳👇
【数据分析岗】概率论类高频考点框架

概率论系列考点 — 真题解析+母题测试

『概率论系列』考点 — 贝叶斯公式+真题解析


『数据分析方法』详情可戳👇

【数据分析岗】面试必备的数据分析方法(一)

【数据分析岗】面试必备的数据分析方法(二)

警惕数据分析中的『幸存者偏差』陷阱
【数据分析岗】面试考点—巧用AARRR模型

【数据分析岗】高频面试题——辛普森悖论


『大厂真题』详情可戳👇
『字节』数据科学岗面试真题(含答案)

『饿了么』数据分析岗面试真题(含答案)

『拼多多』数据分析岗面试真题(含答案)

『网易提前批』大厂笔试真题系列(二)

【数据分析岗】大厂笔试真题系列(一)

【数据分析岗】腾讯面试真题

【数据分析岗】大厂面试真题(一)

【数据分析岗】淘宝面试真题(含答案)+送100道SQL题库

【数据分析岗】字节面试真题(含答案)+送100道面试题库


Ps. 微信推文改了规则

看完记得设置为 “ 星标 ” 

不然我会消失的



 欢迎关注

更多 『求职干货』 & 『日常学习』 系列好文,等你发现~

文章转载自数据攻略,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论