作者:稀饭
1、什么是互斥组?
互斥组,也称互斥层、实验层。 互斥实验,指的是互斥组中的所有实验都不会共享用户,开在同一实验层的多个实验中,流量只能命中其中一个,即同层实验的流量之间是相互排斥的。 如果一个用户/设备命中了实验A,就不会命中该互斥组中的其他实验。
2、流量正交的含义?
每个独立实验为一层,一份流量穿越每层实验时,都会随机打散再重组,保证每层流量数量相同。假设现在有2个实验。实验A(实验组标记为A1,对照组标记为A2)分布于实验层1,取用该层100%的流量;实验B(实验组标记为B1,对照组标记为B2)分布于实验层2,也取用该层100%的流量。(要注意,实验层1和实验层2实际上是同一批用户,实验层2只是复用了实验层1的流量)如果把A1组的流量分成2半,一份放进B1组,一份放进B2组;再把A2组的流量也分成2半,一份放进B1组,一份放进B2组。那么两个实验对于流量的调用就会如下图所示。此时实验A和实验B之间,就形成了流量“正交”。
3、AB实验中的白名单用户是什么?
在实验正式开启之前,通常需要先选择几名用户进入测试阶段,观察实验是否能够正常获取想要收集的数据,或客户端是否有bug等。参与这一步的用户被称为“白名单用户”。
4、实验过程中为什么要看“多天累计指标”?
在A/B实验中,如果我们所检测的指标支持多天累计指标,那么我们基本上应该以多天累计指标为准,而不要过多关注实验周期内的单日指标。多天累积数据意味着,随着实验的进行,实验的总体样本不断增加,实验的检验灵敏度在不断提高。
5、如何利用MDE和预期提升值判断实验的效果?
MDE是指最小可检测单位,即检验灵敏度,是实验在当前条件下能有效检测的指标diff幅度。通过比较指标MDE与指标的目标提升率,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,下面是一个例子,假设预期提升值为1%:
(1)如果MDE=0.5%,MDE < 预期提升值,说明指标变化真的不显著,需结合业务ROI和其他维度里例如用户体验、长期战略价值等来综合判断是否值得上线;
(2)如果MDE=2%,MDE > 预期提升值,说明能检验出显著性的最小差异值是2%,由于灵敏度(也就是校验效力)不足未能检测出。这种情况下建议增大样本量,例如扩大流量、再观察一段时间积累更多进组用户,指标还有置信的可能。
6、AB实验中核心指标和必看指标的区别?
(1)核心指标:用来决策实验功能是否符合预期的「直接效果指标」或「成功指标」。比如一个关于引导页按钮文案优化的实验,该按钮点击的「转化率」即可作为该实验的决策指标。
(2)必看指标:必须守护的业务线指标,实验功能可能对其无直接的因果关联、无法直接带来提升,但一般而言不能对其有显著负向影响。
7、什么是同期群分析?
即将用户按初始行为的发生时间进行划分为群组(即同期群) ,然后:
(1)对处于同期群的用户进行横向比较,从而得出相似群体随时间的变化,观察策略对用户整个生命周期的影响;
(2)对不同的同期群纵向比较,可以从总体上看到,应用的表现是否越来越好了,从而验证产品改进是否取得了效果。
8、为什么需要做差异分析?
在做完实验后,实验结果是针对所有实验的受众人群的,可以通过数据得到相应策略有正向效果/负向效果的结论。但是一个策略对于面向全部用户的正向 / 负向结论,并不等同于面对细分用户也有相同的结论。这时可以使用群体对比 + 差异分析,得到针对某一细分人群,实验策略为正向 / 负向的结论。
9、AB实验中的分流?
所谓分流,是指将选中的一群同质用户(用一致的条件,一次筛选出来的一群人),按照随机的原则分配到两个组中去,一个被称为“实验组”,是新功能推送的目标群体,另一个则被称为对照组,是用于对比的。这个阶段的核心难点在于如何真正随机均匀的分配我们选中的目标用户,使得两个组内的用户同样是同质的。一般的方法,是将我们的抽取用户的标准ID(IMEI,user_id等形式),然后进行hash化(hash化的目的是将用户按照其ID尽量均匀随机的分布到不同的组别中,主要为了保证随机分组,因此我们应尽量选择使用方便、随机性更强的hash函数),然后读者可以根据自己的需要,选择其中两个或多个组进行试验。由于这些不同组的用户都是从一个用户群中,通过随机均匀的分流算法进行分配,因此可以认为这些不同组的用户都是同一群用户,具备着类似的属性(如活跃度,用户画像等),对于实验的改动反馈也应该是类似。
【注】:Hash,一般翻译做散列、杂凑,或音译为哈希,是把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出,形成一个固定的映射关系。由于其具备较好的随机性、均匀性,特别适合用于在ABtest的分流操作中。
广告区↓





