点击上方蓝色『数据攻略』关注+星标~
数据分析求职干货不错过
哈喽大家好,我是数据攻略的六哥~
秋招求职季ing,所以本篇文章
还是分享「数据分析求职」主题
由于大部分厂招聘基本已进入到中后期阶段
所以不久会回归到「日常工作干货」主题分享
本篇文章属于大厂面经系列
来分享抖音电商,关于二面的
一些面试真题+参考思路解析
老样子,我将分为3个部分
逐一讲解原题、解析参考、注意事项
非常建议大家其中case题部分可先自测
不放过任何一个可以实操练习的好机会
------正文手动分割线------
一、口述sql逻辑(2道)
一、口述SQL逻辑
▼ 题目预览:
题目1:请口述统计2024年9月10日这天销量金额前10的商品信息的逻辑。 题目2:请统计2024.9.1之前活跃过,但是9.1之后再也没有活跃过的用户。
面试题目1:
假如你负责抖音电商平台,现有一张订单表(order_info),请统计2024年9月10日这天销量金额前10的商品信息。要求:排名相同的一起作为同排名次序输出。表结构如下:
order_id goods_id order_time order_gmv
🔻 解析参考:
step1:聚合到商品粒度计算销售额 SUM() step2:利用排序窗口函数DENSE_RANK(),做并列排序(不跳过重复序号 ) step3:WHERE筛选出符合前10的商品+销售额+排序序号
--step3:筛选出符合前10的商品+销售额+排序序号
SELECT goods_id
,order_gmv
,order_gmv_rank
FROM
(--step2:利用排序窗口函数DENSE_RANK(),做并列排序(不跳过重复序号 )
SELECT goods_id
,order_gmv
,DENSE_RANK()OVER(ORDER BY order_gmv DESC) AS order_gmv_rank
FROM
(--step1:聚合到商品粒度计算销售额 :
SELECT goods_id
,SUM(order_gmv) AS order_gmv
FROM order_info
WHERE TO_DATE(order_time) = '2024-09-10'
GROUP BY goods_id
)a
)b
WHERE order_gmv_rank <= 10
;
面试题目2:
现有一张用户登录表(user_login_log),请统计2024.9.1之前活跃过,但是9.1之后再也没有活跃过的用户。表结构如下:
uid login_time
🔻 解析参考:
step1:以2024-09-01这天为分界线,筛选判断用户登录情况,并进行打标记 step2:WHERE条件中限制最早和最晚一次登录时间都在9.1之前即可
--step2:where条件中限制最早和最晚一次登录时间都在9.1之前即可
SELECT uid
FROM
(--step1:以2024-09-01这天为分界线,筛选判断用户登录情况进行打标记
SELECT uid
,MAX(CASE WHEN to_date(login_time) < '2024-09-01' THEN 1 ELSE 0 END) AS is_pre_login
,MAX(CASE WHEN to_date(login_time) >= '2024-09-01' THEN 1 ELSE 0 END) AS is_lst_login
FROM user_login_log
GROUP BY uid
)a
WHERE is_pre_login > 0
AND is_lst_login = 0
二、简历相关问题
▼ 题目预览:
题目1:针对简历中提到的指标异常分析,你是如何定义指标异常的? 题目2:你提到实习时有负责过ab实验方案设计,请介绍下具体步骤? 题目3:如果你简历里负责的某个实验,效果不显著怎么办,你打算如何分析?
题目1:
针对简历中提到的指标异常分析,你是如何定义指标异常的?
🔻 回答思路参考:
结合我过往经历,我认为指标异常整体分为三大部分,即明确异常定义、异常识别做法、异常处理方式:
首先,明确异常定义,建立标准后才能判断指标是否异常,一共分为2个步骤:
调研现状,了解基线,常用的方式有: 分析业务历史数据来了解指标的正常范围; 参考行业标准或竞争对手的数据作为基线。 设定阈值,建立标准,常用的方式有: 统计方法:使用统计方法(如平均值、标准差、四分位数范围)来设定正常值的范围。 人工规则:例如根据业务逻辑、经验、kpi等来设定阈值。
⚠️注意点:
这里同时需要by简历经历背景,谈观点和实际做法,如果仅是如上描述,就是八股文背诵,缺乏可信度和区分度。
其次,异常识别方法,有了标准后可以根据现状做监控和判断,常用的方法有3类:
图示法:例如 箱线图:通过箱线图可视化数据分布,超出箱型图“胡须”的点通常被认为是异常值。 散点图:在变量之间绘制散点图,观察是否有远离大多数点的离群点。 描述性统计方法:例如 3sigma原则:结合历史数据计算指标的均值方差,构建3sigma区间 四分位数和IQR:使用四分位数范围(IQR)来定义正常值的范围,通常认为低于Q1-1.5IQR或高于Q3+1.5IQR的点是异常。 基于距离/密度/聚类判断法:常见有k-最近邻、LOF、DBSCAN、孤立森林。
⚠️注意点:
这里同时需要结合具体经历做细节过程做法的展开,提高经历的区分度。
最后,异常处理方式,也就是识别指标异常后,要做进一步归因分析+论证、以及经验沉淀,这里:
针对归因分析,主要分为2个部分: 找根因:主要是结合指标构成+业务可落地方向做维度下钻,计算贡献度找根因,例如:xxx...⚠️注意:这里可以结合简历中实际经历信息,做具体分析思路过程的展开。 验效果:针对上述找到的问题,严谨且完整的分析需要进一步确认异常是否由因素变化引起,如果策略有调整异常是否恢复等等 针对沉淀部分,主要是为了提高后续监控和归因效率,主要分为2方面: 是否有必要归纳到自动化工具做监控、产出根因报告,方便业务能够及时根据异常情况调整业务策略。 以及,针对异常出现的严重性,评估异常对业务的影响程度。对于非常重要的指标,可以进一步考虑利用模型提前预测,尤其针对时序数据,可以做异常判别模型,达到提前报警介入的目的。
题目2:
你提到实习时有负责过ab实验方案设计,请介绍下具体步骤?
🔻 回答思路参考:
ab实验主要分为6个步骤,包括有:
现状分析并建立假设:分析业务数据,确定当前最关键的改进点,作出优化改进的假设,提出优化建议。比如,我们发现用户的转化率不高,我们假设是因为推广的到达页面带来的转化率太低,下面就要想办法来进行改进了 设定目标,制定方案: 设置主要核心目标,用来衡量各优化版本的优劣; 设置辅助护栏目标,用来评估优化版本对其他方面的影响。 设计与开发:制作2个或多个优化版本的设计原型并完成技术实现。 分配流量比例:确定每个线上测试版本的分流比例,初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量来扩灰。 采集并分析数据:收集实验数据,进行有效性和效果判断:统计显著性达到95%或以上并且维持一段时间,实验可以结束; 如果在95%以下,则可能需要延长测试时间; 如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。 做出后续决策:根据试验结果确定发布新版本、调整分流比例继续测试;或者在试验效果未达成的情况下,继续优化迭代方案,重新开发上线试验。
划重点:作为数据分析师,我们真正参与的流程主要是现状分析以及采集并分析数据。
⚠️注意事项:
上述回答框架是一个通用范式
需要结合个人经历所做实际ab方案融入来回答
否则陷入机械式背诵八股文陷阱,对应面试官的感兴趣度会有所减弱。具体可以看下之前总结的面试7大问题:
题目3:
如果你简历里负责的某个实验,效果不显著怎么办,你打算如何分析?
🔻 回答思路参考:
实验效果不显著的原因,我认为可以分成两类:
第一类:线上策略不佳,无明显差异。 第二类:实验的灵敏度不够高。
针对第一类问题,结合实际业务策略分析整个实验生效链路表现,结合业务的一些预期假设做论证分析,帮助业务佐证猜想,方便进行下一步的策略迭代,比如我之前负责过一个实验xxx...
⚠️注意事项:
泛泛而谈,不如不谈,避免趋同化回答,融入个人经历和看法来给出观点;
针对第二类问题,一般可以通过以下方法进行优化:
增加样本量:根据显著性检验的原理,只要实验组和对照组差值及样本方差不变的情况下,样本量足够大,我们总是可以得到显著性的结果。所以可以和业务商讨:是否愿意承担一部分流量成本进行扩量测试,或者时间等待成本,积攒更多样本; 减少样本均值的方差:减少样本均值方差的方法有减少离群值的影响,缩减方差(CUPED)的方法。 更换检验指标:更换一个方差更小的指标,比如某购物平台,实验指标一开始是用户购买的平均金额,我们可以更换为用户是否购买。对同一批样本,是否购买属于0-1分布,样本的均值方差自然比用户购买的平均金额小很多。
⚠️注意事项:
如果个人过往经历中有类似经验,可以结合case展开来谈具体如何做的分析,学会给面试官“喂点”。
三、开放性Case问题
题目1:抖音电商某资源位,希望利用push方式来引导更多用户访问。现在如果需要你确认哪段时间进行push推送能更好的引流,你会怎么做?给出解题思路即可。 题目2:不同领域爆款内容的点赞数差异很大,比如5K赞在娱乐领域很常见,但在汽车领域算是高赞内容,如果按照点赞数进行高质量潜力内容判断,怎么处理数量级不一样的问题? 题目3:假设你负责的某AB实验,实验组相比对照组整体人均浏览时长下降了,下钻分城市等级分析后发现,每个城市等级下的人均浏览时长却有不同幅度提升,出现这个现象为什么?该如何分析?
写到这,文章已经有3k字,所以
第三部分的3个case题,咱们放到下篇讲~
本篇文章点赞过20,3天内更新此部分😎🍻
如若盼 追更 『求职类』干货系列
欢迎大家点赞、转发,最底部点点在看
你的鼓励,真的是对我最大的动力
Ps.求职季ing,如需六哥求职相关帮助
可戳此了解👉六哥的原创课程/求职服务说明
交个朋友先,不定期有一手内推资源传送 ~


往期好文推荐 




