作者:稀饭
1、多重测试问题的基本概念
在AB实验中,如果通过假设检验的方式来判断实验结果,则每一次判断都不是100%成立的,而是有一定的概率(如5%)判断错误。多重测试问题的本质是,如果判断的次数变多,这个错误的概率就可能增加。举个例子,当我们以95%的显著性水平,开设了n个实验组,并进行了n次判断,则全部判断正确的概率为0.95的n次方,n越大,全部判断正确的概率就越低。
2、AB实验中多重测试问题的主要来源
(1)多次重复进行相同的实验
比如进行一次实验后发现实验结果不符合预期,没有显著的正向效果,此时又重复进行了几次相同的实验,可能某一次出现了显著的正向效果,这种情况下就可能是多重测试产生的。
(2)多次进行相同对比
例如一个对照组有多个相同的实验组进行多次对比,或者一个对照组有多个相同的实验组进行多次对比,或者多个实验组与多个对照组之间进行多次对比,都属于这种情况。
(3)实验过程中多次查看实验结果
这种情况也容易导致多重测试。因为在实验过程中,实验数据未达到稳定时会处于一个波动的过程,有可能某个时刻呈现正向效果,某个时刻无显著效果,甚至某个时刻会显著负向。如果随机在实验过程中查看实验结果,刚好看到某个显著正向,则可能导致实验过早停止,产生假阳性的结论。
(4)同一个实验有多个指标
在一些大型公司的AB实验平台中,每个实验都可能有成百上千个指标在运行和计算,在为每个实验计算了数百个指标后,容易出现假阳性,因为每个指标的显著性都是有概率的。
3、减少AB实验中多重测试问题的一些经验
(1)在构建实验指标体系的时候,核心实验指标的设置和选择要尽量少,一旦核心指标增加了,就容易出现多目标的比较,造成假阳性的可能性就会变大;
(2)在实验过程中不要多次查看实验结果,不要以实验过程的数据作为实验结果的判断依据;
(3)在不可避免要进行多重测试的时候,选择适当的统计方法来处理多重比较的问题,控制第一类错误的发生率(假阳性率),对于提升实验推断的可靠性和成功率很有效果。
4、控制多重测试问题的一些方法
有时候不可避免地要进行多重测试,比如实验有多个关键指标需要观察,在这种情况下,需要确保多重测试中,第一类和第二类错误仍得到合理控制。
(1)Bonferroni法
主要用于控制第一类错误。其基本原理是:若进行n次检验,则显著性水平α应该校验为a n,或者将P值乘以n以后再与α作比较。这种方法虽然可以控制有多个指标实验的总体的第一类错误率,但方法比较保守,要求比较苛刻,之后有很多扩展形式。
(2)Fallback法
是Bonferroni法的改进。假设有2个指标要关注,分为A指标和B指标。首先针对A指标定义在P值≤0.01的水平,如果检验显著,则确认A指标是显著的。在确认A指标显著后,B指标的显著性水平定在更高水平(P值≤0.05);如果A指标在上一步不显著,则B指标的显著性水平定在(P值≤0.05-0.01 = 0.04)。两个指标都显著后,实验显著。
(3)Holm法
是Bonferroni法的改进。假设有2个指标要关注,分为A指标和B指标。首先将指标A的显著性水平建立在P值≤0.025的水平上,如果指标A检验显著,则指标B采取P值≤0.05来检测显著性;如果指标A检验不显著,则指标B采取P值≤0.025来检测显著性,指标A采取P值≤0.05来检测显著性,当二者都显著时,实验显著。
(4)多个指标下的简单经验法则
Step 1 将所有指标分为3组。一阶指标(那些预计会受到实验影响的指标)、二阶指标(那些可能会受到影响的指标)、三阶指标(那些不太可能受到影响的指标);
Step 2 对每一组指标应用分级的显著性水平(例如分为0.05、0.01和0.001)。
【注】:这种经验法则基于贝叶斯理论,即在实验前对原假设H0越相信,则应该使用的重要性级别就越低。
广告区↓





