AB高频考点！大白话讲懂『多重检验』

数据攻略 2022-07-31

1627

点击上方蓝色【数据攻略】关注+星标~

第一时间获取最新内容

哈喽大家好，我是六哥~

近期很多人来问数据科学岗的招聘要求什么

来个图举例，来看看抖音的数科岗JD：

由于日常工作中会接触到大多因果推断的工作内容

因此在JD要求上、面试的时候也会着重考核AB测试相关的知识

常见问法比如：

▷ 概念型，给你一个概念问定义，eg，是否听说过多重检验，说说你的理解？

▷ 判断型，给你多个选项问看法，eg，某个实验的策略预期评价指标不确定，所以检验指标设置了10个，是否合适？为什么？

▷ 分析型，给你一个场景case来列举问题，eg，抖音推荐流迭代了新模型，同时对卡片UI、功能、排列做了优化，同时上了5个实验，作为BI你觉得有什么问题？

以上举例，就是AB实验中的高频考点

也是工作中常忽视的错误

—— 『多重检验问题』

本篇就着上面的例子

通俗易懂的唠一唠啥是多重检验

（含case+解决方法）

------正文手动分割线------

本文结构速览：

一、什么是多重检验

二、有什么影响

三、为啥会出现

四、该如何解决

4.1 业务侧

4.2 BI侧

一

什么是多重检验

多重检验含俩词：多重和检验

首先明确一下什么是假设检验

由于无法窥探总体的表现，所以利用样本对总体进行某种推断，假设检验的推断方式就是先提出一个假设，然后利用样本信息去检验这个提出的假设是否成立。

另一个词，多重

多重检验中的重点即在于多重

意思就是 同时检验大量假设

二

会造成什么影响

想一想AB实验的本质

其实就是进行一次假设检验，即需要根据预先设定的可接受标准，即显著性水平（业界通常默认为5%），来观察此次组间样本差异的p值是多少，以此来对假设做判断。

但其实，尽管实验期间小概率事件发生了，拒绝了原假设，即得到了显著性结果，也无法有100%的把握说咱们作出了正确判断。也就是我们通常所说的，在出现错误判断的概率是控制在可接受范围以内下，我们得到了xxx结论。

那如果同时检验好几个假设：

检验1个假设时，误报的概率：
检验2个假设时，误报的概率：
检验3个假设时，误报的概率：
...
检验10个假设时，误报的概率：

这么一看，是不是相当于没办法保证每个假设误报的概率都在可接受范围以内

所以，多重检验的影响：

▼ 用学术一点的说法就是，会使得第一类错误，也就是误报概率大大提升（也称作假阳性概率）

▼ 用一个极端例子来理解：你同时设置了100个观测指标，不做任何策略改动，多次测试总会有某个指标会显著，其实就跟随机猜没啥区别，得出显著的结论信度大大会降低（可以参照上面的例子计算一下概率）

三

为啥会出现

紧扣刚刚讲的多重检验的定义

其实日常实验过程中很常见

就是不经意间存在多个假设进行检验的时候

（考点预警！）

想一想什么时候容易碰到此类情景？

当设置多个检验指标时

当含有多个实验组别时

当进行反复查看观测结果时

当对实验群体下钻维度时

多重检验case举例：

▼ 情况一：产品对界面的做了新改动，在AB实验平台上一起看了新策略对界面的浏览深度、x模块的点击率、以及转化率、uv价值等等一系列指标，哪个指标显著就认为实验组的策略更好

▼ 情况二：由于不确定新的策略方向，所以同时上了5个策略一起做实验测试，分别观察5个组的实验效果如何，哪个显著就用哪个策略

▼ 情况三：实验上线后很心急效果如何，业务每天都看一遍是否显著

▼ 情况四：针对平台用户做了实验，在分析时拆分用户类型、基础特征等维度查看策略效果

三

该咋解决

围绕上面的case，为了实验结果更科学可信

需要业务侧和BI侧双方去解决

▋ 业务侧

绝大多数业务方，关于统计学的理解和知识储备肯定不比BI专业，所以需要进行相关宣导，强调实验的科学性和易操作误区，例如，应在实验策略生效前：

根据策略的目的，确认好观测指标，尽量选取核心指标做主要观察，不要取巧

根据业务预期可接受差异，预估样本量和实验运行周期，实验运行期间在未达到预估量前不轻易下结论，不要作弊

▋ BI侧

虽然现在大厂都有相对完备的实验分析平台，常规实验由产品自行配置和操作，但作为有owner意识的BI，也需要定期关注和检查实验配置的合理性

如果多重检验“不幸”发生，也会有一些补救措施来修正。

核心思想就是调整至可接受水平，常见的方法如下：

分指标类型设置不同标准

▼ 核心思想：

根据策略目标和业务预期对不同指标分梯度设置不同的犯第一类错误的概率，对原假设为真实的信心越坚定，对应检验指标所需的显著性水平越低，即

越小。

▼ 定义：

第一类指标：认为实验策略直接会影响到的指标，可设置
第二类指标：认为有可能会受到实验影响的指标，常见的即，可设置
第三类指标：有很大信心认为不太可能受到实验影响的指标，常见的即护栏指标，可设置

FWER校正

常见Bonferroni方法：

▼ 核心思想：

既然存在重比较问题，则将原始标准修正为，俩俩比较计算出的值都和修正后结果比较。

▼ 特点：

Bonferroni可以称作是“最简单粗暴有效”的校正方法，检验条件非常严格，被校正后的

阈值不仅拒绝了假阳性结果，很多阳性（真正显著）结果也会被拒绝。

FDR校正

▼ 核心思想：

当检验次数较多时，FWER的条件非常严苛，导致很难识别出真正的差异（假H0），和FWER校正相比，FDR关注相对正确率，即控制错误发现的期望比例。

▼ 定义：

误报的个数占所有拒绝原假设个数的期望比例：

FDR校正有很多方法，比如有BY（Benjamini Yekutieli）、BH（Benjamini-Hochberg）等等

常用方法是BH法：

定义：对所有俩俩比较的m个假设检验计算得到的原始P值进行正序排序，根据排序顺序，利用公式将每个假设的p值修正为q值，利用q值判断显著性
校正举例：

以上就是AB实验中『多重检验』

定义、校正方法的分享

如果还需要进一步了解AB实验

可后台回复1，添加我的微信，得相关学习资料

如若盼追更 『求职类』干货系列

欢迎大家转发，点亮在看

你的鼓励，也是六哥的原创更新动力~

也欢迎在公众号后台找到我，拉你进交流群 ~

往期好文推荐

『求职类』

大厂面试官唠唠『优秀简历』长啥样？

【数据分析岗】| AB实验之方案设计（二）

【数据分析岗】常见笔试题型梳理（附case）

【数据分析岗】字节面试真题（含答案）+送100道面试题库

『日常学习类』

2种方法快速分析群体差异（附case）!

『指标异动』贡献度定量归因之法，带你知因又知果!

『指标异动』你真的理解吗？

讲懂高频Hive：窗口函数（一）

更多『求职干货』 & 『日常学习』系列好文，等你发现~

Ps. 微信推文改了规则

看完记得设置为 “ 星标 ”

不然我会消失的

点个在看，肝『干货』更有动力

假设检验概率计算

文章转载自数据攻略，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

AB高频考点！大白话讲懂『多重检验』

------正文手动分割线------

一、什么是多重检验

评论