暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据开发面试题(社招)

会飞的一十六 2025-08-22
216


1.如何建模、以及数据开发过程中需要注意的问题(数据探查、数据开发、数据质量监测、数据核对)

2.页面数据有问题、如何排查?

数据指标异常应如何排查?完整的解决思路

3.抽数、推数数据量异常如何自动停止任务(要有工作日、非工作日的判断,非工作日不生效,UDF函数)

4.hive表生命周期管理失效,如何进行生命周期管理(设成自动任务的话可能会使用shell脚本)(3个月前每月保留第一天与最后一天的数据,注意是业务时间第一天与最后一天,非调度时间)

王小虎 vs 快手面试官:指标生命周期管理在指标下线阶段会从哪些维度来评估判断下线? 下线的流程是什么?

5.数据量大的表推数慢影响页面展示怎么解决?

6.根据2个日期计算工作日天数

7.去重方式(开窗函数如何控制窗口的大小)

3分钟学会SQL中的断点去重技术,轻松搞定连续相同状态数据去重问题?

8.列转行(清洗、分隔符统一、注意有些业务数据(比如一条数据楼栋面积字段(可能是总面积)对应多个房屋或多个楼栋)、LATERAL VIEW explode)

SQL进阶技巧:如何不使用union all进行行转列?【三种方法实现】

SQL进阶技巧:有序行转列问题如何保证不同字段内容有序性及内容一一对应?【collect_list函数有序性保证问题】

SQL进阶技巧:经典问题-行转列之匹配填鸭问题

9.明细表数据量大,每月还要都保留一份,怎处理?怎么优化?达梦分区(范围分区、哈希分区、列表分区、组合(多级)分区、间隔分区(属于范围分区)INTERVAL <间隔表达式>)

10.更新数据效率更高的方式

update采用的类似nested loop的方式,对更新的每一行,都会对查询的表扫描一次;

merge into这里选择的是hash join,则针对每张表都是做了一次 full table scan,对每张表都只是扫描一次。

11、筛选的时候in(不适合B大)、exists不适合B大)、join的底层以及效率

12.常用的分析函数

Hive 窗口函数详解及使用场景总结【基于面试提问】

13.连续3天及以上连续出现的次数(减序号)

SQL面试提问:如何精准计算用户页面停留时长(含连续访问合并与异常处理)

SQL面试提问:间断连续登录用户问题?

3分钟学会SQL中的数据分箱(分桶)技术,轻松搞定将连续数据离散化为多个区间(桶)?

SQL面试提问:如何生成连续日期表并填充销售数据中缺失的日期?| 京东

3分钟学会SQL中的断点去重技术,轻松搞定连续相同状态数据去重问题?

3分钟学会SQL中的断点分组技术,轻松搞定连续相同状态数据分组问题?

SQL进阶技巧:如何分析连续签到领金币数问题?

SQL进阶技巧:如何删除第N次连续出现NULL值所存在的行?

SQL进阶技巧:用户历史最大连续签到天数问题| 断点分组问题

SQL进阶技巧:间隔连续问题【断点分组思想】

14 数仓DWM层与DWS层有什么区别?什么时候需要建设DWM层?如何构建

面试官问:数仓DWM层与DWS层有什么区别?什么时候需要建设DWM层?

15 数据开发时,数据探查到底探查的是什么?探查的思路是什么?

面试提问:数据开发时,数据探查到底探查的是什么?应如何探查,探查的思路是什么?

16 全量表变增量表,表名还需要区分吗?应如何做?

憨憨雷军 VS 小米数据团队面试官:全量表变增量表,表名还需要区分吗?

文章转载自会飞的一十六,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论