暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

『抖音电商』数据分析岗面试真题+解析(下)

数据攻略 2024-09-29
573

点击上方蓝色数据攻略关注+星标~

数据分析求职干货不错过


哈喽大家好,我是数据攻略的六哥~
国庆长假即将到来,提前祝大家假期愉快
在放假前,我也来抓紧兑现承诺
因正值秋招季,上篇文章分享了
大厂面经系列之 —— 抖音电商面试题解析
由于总篇幅太长,其中第三部分的3道case
故特意单独放在本篇来做参考解析

老规矩,本篇内含原题解析注意事项


------正文手动分割线------


本文结构速览:

一、口述sql逻辑(2道)

二、简历相关问题(3道)
三、开放性case问题(3道)
说明:为面经连贯性,一二部分本篇仅放题目供大家回顾

           对应解析部分上篇已分享,本篇重在第三部分解析





一、口述SQL逻辑


▼ 题目预览:

  • 题目1:假如你负责抖音电商平台,现有一张订单表(order_info),请统计2024年9月10日这天销量金额前10的商品信息。要求:排名相同的一起作为同排名次序输出。
  • 题目2:现有一张用户登录表(user_login_log),请统计2024.9.1之前活跃过,但是9.1之后再也没有活跃过的用户。

🔻 解析参考:见上篇👉『抖音电商』数据分析岗面试真题+解析(上)



二、简历相关问题


▼ 题目预览:

  • 题目1:针对简历中提到的指标异常分析,你是如何定义指标异常的?
  • 题目2:你提到实习时有负责过ab实验方案设计,请介绍下具体步骤?
  • 题目3:如果你简历里负责的某个实验,效果不显著怎么办,你打算如何分析?

🔻 解析参考:见上篇👉『抖音电商』数据分析岗面试真题+解析(上)



三、开放性Case问题

题目1

抖音电商某资源位,希望利用push方式来引导更多用户访问。现在如果需要你确认哪段时间进行push推送能更好的引流,你会怎么做?给出解题思路即可。


🔻 简答参考

如果利用push方式来引导更多用户访问,我理解目标是提高push点击率,以达到给资源位导流,提高用户访问规模的目的,一般可以分为两种方案来确定合适的时间段:

非个性化方案:即所有用户收到push的时间点一样,具体方式有:

  • 分析思路:这类方案,一方面可以从用户角度,结合历史用户使用抖音APP的行为表现,例如:活跃时间、购买行为、浏览习惯等,确定用户最活跃的时间段进行推送,以提高打开率和互动率;另一方面,如果之前有过其他推送,可以结合历史推送数据,分析不同时间段推送的用户响应情况,找出点击率和转化率最高的时间段作为本次的策略参考。
  • 实现手段:一般这类非个性化方案是通过圈选人群包的方式来做固定投放。

个性化方案:即不同用户收到push的时间不一样,一般有两类实现手段:

  • 规则方式:相较前面非个性化方案的主要区别是分群体做部分差异化方案,这里是对用户做分层后用规则方式来制定几类推送方案,比如根据用户的活跃时间、行为特征等,将用户分为不同的群体,对不同群体的用户做针对性分析,确定每个群体的最佳推送时间。
  • 模型方式:可以利用模型进行用户预测,构建特征工程,如:用户行为特征、外部因素(考虑特殊日期和事件,如节假日、促销活动、社会事件、竞品活动等,这些因素可能会影响用户的活跃时间和购买意愿),预测用户使用APP高峰时期,对用户做个性化的push推送策略。
⚠️注意事项:

此类问题重在考察对业务问题,衍生变体问题可能有:如何制定push策略?这里可以谈的内容方向和广度非常多,比如从人群选择、推送内容、推送场景/时机、策略机制等等,锚定一个自己熟悉的、对方面试官/jd相关的方向来去提高回答的深度。



题目2:

不同领域爆款内容的点赞数差异很大,比如5K赞在娱乐领域很常见,但在汽车领域算是高赞内容,如果按照点赞数进行高质量潜力内容判断,怎么处理数量级不一样的问题?

🔻 简答参考

这类问题本质应该是为了解决纵向不可比的问题,通常情况下有两类方式:

方式一:结合业务实际情况,可以做分领域的处理,例如:

  1. 方法一:分领域进行累计贡献%排名,根据排名占比划分高质量视频内容。比如将所有汽车领域内容依据点赞数从高到低进行排名,根据数据分布表现选取前X%的内容定义为高质量内容。
  2. 方法二:分领域设置不同的阈值标准,根据阈值判断划分高质量内容。比如娱乐领域高质量内容的点赞数必须大于5万,汽车领域高赞必须大于2千。这里阈值的判断需要结合各个领域历史点赞数具体分布情况做界定。

方法二:利用常用数据手段,可以对点赞数进行归一化处理,以消除不同领域点赞数数量级差异的影响。常可以使用以下最大最小归一化(Min-Max Scaling)、  Z-score标准化、对数变换等方法:

  1. 最大最小归一化(Min-Max Scaling):将数据缩放到一个特定的小范围内,如0到1之间,公式为:
  1. Z-score标准化:将数据的均值转换为0,标准差转换为1,公式为:
  1. 对数变换:对于正数数据,通过对数变换可以压缩大数值,展开小数值,使数据更加符合正态分布,公式为:

⚠️注意事项:

这类case的提问形式其实已经界定清楚了问题,很多时候面试官不一定会把问题描述的非常清晰,可能就是前半段问题,例如:“如何识别不同领域的高质量潜力内容?”这里又是另外一个宏大case问题了,有很多可以去谈的思路方向,比如:

  • 从做综合评估指标体系来讲,选取哪些可反馈内容质量相关的指标?如内容的互动率(点赞、评论、分享)、观看时长、完播率等
  • 不同领域如何定义各特征的权重?
  • 如何论证策略有效性?...等等

核心是要表达出你的闭环严谨思路逻辑。



题目3:

假设你负责的某AB实验,实验组相比对照组整体人均浏览时长下降了,下钻分城市等级分析后发现,每个城市等级下的人均浏览时长却有不同幅度提升,如何解释这个现象?

考点:辛普森悖论,详见:【数据分析岗】高频面试题——辛普森悖论
🔻 简答参考

听上去属于整体和分组后的关键指标出现相反结论的问题,我认为有两种可能原因:

  • 一种本身实验结论可能不置信,可能由于实验设计、AA校验未通过、样本量不足等导致;(可见公众号👉往期分享的『AB实验』文章)
  • 另一种如果说在实验结果无误的情况下,大概率是属于辛普森悖论问题。出现这种现象的原因可能是:
    1. 不同城市等级的用户基数不同:高等级城市的用户数量可能更多,即使人均浏览时长有所提升,但如果提升幅度不大,可能还是会被数量更多的低浏览时长用户拉低整体平均水平。
    2. 用户行为差异:不同城市等级的用户可能有不同的使用习惯和偏好,导致他们对实验变量的反应不同。
    3. 潜在变量的影响:可能存在其他未观测到的因素(如用户的年龄、教育背景、收入等级等)影响了用户的浏览行为。


如果需要解决这类问题,前提是需要理解数据背后的生成机制,考虑可能的潜在变量,常用到的解决手段可能有以下几个角度:

⭐分析前是否有必要对用户做分组,即实验策略是否对分组变量有意义,避免无意义地下钻拆解出现多重检验问题,如果有必要可以事前对分层用户做AA检验,确保后续结论的可比性。

⭐分析中如果有必要分组来去探查效果,通常有以下方式:

  • 权重调整:由于辛普森悖论和样本量的多少有关,如果不同组别的样本量差异很大,可以通过加权方法来调整每个组别在总体分析中的权重,以减少样本量差异的影响;
  • 控制变量:根据实际策略生效机制,识别和控制可能影响结果的其他变量,如上面提到的一些特征等,确保分析的公正性;
  • 分层论证:另外可以针对该分组变量,分层后重新做AB实验来验证实际效果,帮助我们理解不同子群体的行为,避免因合并层级而导致的趋势反转问题。
⚠️注意事项:

此类问题无论是在日常工作中,还是面试中都很常见,要条件反射一样先联想到统计学中的经典悖论,同时面试中在回答时如果想提高自己思考问题的全面性,要想到可能问题的场景有哪些(比如上面提到的原因一),先总结然后针对某一类问题做细致阐述,这里除了回答what现象外,如果可以接着回答why为什么出现、how如何解决则是加分项



以上就是关于数分岗大厂面经系列之
「抖音电商」面试题的一些解析参考
如果还想看更多此系列大厂真题解析
本篇点赞/在看过20节后下篇就来更新


如若盼 追更 『求职类』干货系列
欢迎大家点赞转发,最底部点点在看
你的鼓励,真的是对我最大的动力


Ps.求职季ing,如需六哥求职相关帮助
可戳此了解👉六哥的原创课程/求职服务说明

也欢迎添加我的微信(data-youdao)
交个朋友先,不定期有一手内推资源传送 ~


更多 『求职干货』 & 『日常学习』 系列好文,等你发现~

往期好文推荐 
求职类

56道AB实验高频面试题 | 重置答案解析(一)

『饿了么』数据分析岗面试真题(含答案)

『SQL实战』高频考题之连续问题,2种解法全解析!

AB实验中这类指标如何计算显著性?| AB系列(八)

数据人的春招求职锦囊


日常学习类
快速找阈值,除了拐点法还能这样做?
『指标异动』你真的理解吗?
『指标异动』贡献度定量归因之法,带你知因又知果!
2种方法快速分析群体差异(附case)!
讲懂高频Hive:窗口函数(二)

文章转载自数据攻略,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论