暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
上海大数据企业面试真题V1.4.0.pdf
231
106页
6次
2022-09-21
免费下载
上海大数据企业面试真题
版本:V1.4.0
一、米哈游
1. 什么是 Flink 的非 barrier 对齐,如何实现?
2. flink 的内存管理?
3. flink 的序列化机制?
4. flink 提交 job 的方式以及参数如何设置? 页面提交和客户端提交有什么区别?
5. 你们 flink 集群规模?
6. flink 提交作业的流程,以及与 yarn 是如何交互的?
7. flink checkpoint 机制以及精准一次性消费如何实现?
8. flink 的状态是什么,分为几种?
9. SparkContext 里面主要做了哪些工作?
10. ConcurrentHashMap 的底层实现原理?
11. 什么是 Watermark 及主要作用?
12.
flink 是如何管理 kakfa offset,使用什么类型的状态保存 offset?
二、美团外包
1. 实时方面
a) 主攻哪个方向
b) 我说的实时
c) 具体介绍一下具体做了哪些工作.
d) 为什么要做 sparkstreaming Flink 的转化.
e) 在什么场景下需要这么高的实时性.
f) 既然是开窗为什么一定要转 FLink.
g) 遇到 SparkStreaming 不太能解决的问题.(我说的是手动维护 Kafka offset 实现
一致性消费的问题)
h) 必需要手动维 offset 吗?(我转到了 Flink 去解决这个问题)
i) 遇到 Flink 不太能解决的问题.(我没多说,其实应该说大数据量使用 redis 布隆过
滤器实现 UV 去重的)
j) 实时指标出来后的应用场景.(我提到了 ES 预警)
k) 预警是怎么做到的.预警的条件.(公司内部的预警和用户行为的预警)
2. 数仓方面:
a) 当初建模的时候应用场景是什么样的.
b) 建模的流程(我是从数据源开始讲)
c) 都有哪些数据同步到数仓里面(我说大概 20 多张表)
d) 对这些表有过什么分类吗.(我说的同步策略)
e) 哪些表是相应的同步策略.
f) 跨天支付数据是怎么处理的.
g) 用户表为什么一定是拉链表.
h) 数仓的分层.
i) 如何找出来用户的一天的行为轨迹.(这个问题出现在描 dws 层)
j) dws dwt 的宽表都有哪些,并且都是什么!!!(详细都说出来!!!)
k) 出口对应的指标.(我太菜了.没说出来几个)
l) 你们是怎么保证数据质量的.(居然没想起来监控框架.我太菜了.)
m) 数据质量监控的角度,(我只记得数据量)
n) 有制些量'含标'(应该是个词)也说怎衡量好用
用.
o) 有没有一张表实现所有的分析.
3. SQL 题(很简单)
a) 外卖的配送 ID
b) 外卖员的 ID
of 106
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜