暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

面试中常见的 A/B 测试问题

原创 小小亮 2022-08-17
899

介绍

对于许多人来说,申请工作并准备与多家公司进行多轮面试可能比现有工作更有压力。对可能会被问到什么以及如何被问到的预期会让人彻夜难眠。今天,我将尝试从数据科学家角色的面试相关问题的角度来讨论一个小话题。我已经在之前的文章中介绍了一些关键的 A/B 测试概念。让我们试着看看可能会问什么样的问题来测试你是否有理论知识或实践知识。


图片来源:Unsplash


A/B 测试面试问题

  1. 我们什么时候应该做 A/B 测试?

A/B 测试通常用于测试现有功能的任何更改是否成功或测试新功能的影响。以 Udacity 的 A/B 测试课程为例,A/B 测试可以帮助你攀登当前山峰。但它不能帮助你决定你应该爬哪座山。

  1. 运行 A/B 测试的第一步是什么?

一旦产品经理向您提出要测试的想法,不要只是跳到设置广告系列。在设置和运行 A/B 测试之前,需要完成一些关键步骤

  1. 定义原假设和备择假设
  2. 定义您的北极星指标和护栏指标
  3. 功效分析——确定样本量或北极星指标的最小可检测效果
  4. 创建测试计划
  5. 与工程师/仪表团队合作以获取适当的标签
  6. 确保标签正常工作 
  7. 从产品经理那里获得测试计划的签字,并让工程师再次验证标签
  8. 什么是零假设和备择假设?

原假设表明检验和控制之间没有区别。备择假设表明测试和控制之间存在差异

  1. 单尾测试与双尾测试有什么区别?

一尾测试只检查一个方向变化的可能性,而双尾测试检查正向和负向变化的可能性

  1. 您将如何向外行解释 p 值?

对于特定的测试运行,p 值告诉我们假设原假设为真,这意味着测试和控制之间没有区别,获得我们偶然得到的结果的机会有多大

  1. 什么是阿尔法和贝塔?

Alpha,也称为显着性水平,告诉我们第一类错误的概率。Beta 为我们提供了 II 类错误的概率,即当原假设为假时未能拒绝原假设

  1. 什么是 I 型和 II 型错误?

I 型错误意味着当它为真时拒绝原假设,即测试和控制之间没有任何差异,但我们得出结论认为存在差异。II 型错误意味着当它为假时未能拒绝原假设,即存在差异但我们无法接受它

  1. 您应该运行多长时间的测试?

根据估计的每日访问者和变化的数量,您可以计算测试持续时间。例如,如果您的网站每天获得 10k 的流量,并且所需的样本量为 100k,并且变体数量为 2 即测试和控制,那么测试应该运行 20 天 – (100k/10k)*2

还建议运行至少 2 周的 A/B 测试,以控制因工作日和周末而导致的任何变化。

  1. 如何得出测试结果?

这取决于几件事—— 

  1. 北极星指标应该显着积极(或中性,具体取决于您正在测试的内容)
  2. P 值应小于 alpha 值
  3. 上下置信区间应该有最小的差异 
  4. 提升百分比不应低于我们关心的主要指标的最小可检测效果
  5. 在大多数日子里,指标的提升百分比的每日趋势应该具有相同的符号 - 符号测试
  6. 最后,护栏指标应该是中性的,如果不是积极的
  1. 您处理过的样品是否与指定的样品不同?

是的。指定样本是指参与该活动(测试或控制)的任何人。根据附加条件,处理过的样本是指定样本的子集。例如,如果您在网站的搜索页面上运行 A/B 测试,您可能只想衡量在指定广告系列中看到搜索页面的访问者的结果

结论

了解理论通常是不够的。你运行的实验越多,你就会做得越好。每个实验都会教一些新的东西。这更像是修改概念的备忘单。希望这份 A/B 测试面试问题列表有助于减少某些程度的焦虑!



原文标题:Common A/B Testing Questions Asked During Interviews

原文地址:https://www.analyticsvidhya.com/blog/2022/03/common-a-b-testing-questions-asked-during-interviews/

最后修改时间:2022-08-17 15:59:51
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论