f) 既然是开窗为什么一定要转 FLink.
g) 遇到 SparkStreaming 不太能解决的问题.(我说的是手动维护 Kafka 的 offset 实现
一致性消费的问题)
h) 必需要手动维护 offset 吗?(我转到了 Flink 去解决这个问题)
i) 遇到 Flink 不太能解决的问题.(我没多说,其实应该说大数据量使用 redis 布隆过
滤器实现 UV 去重的)
j) 实时指标出来后的应用场景.(我提到了 ES 预警)
k) 预警是怎么做到的.预警的条件.(公司内部的预警和用户行为的预警)
2. 数仓方面:
a) 当初建模的时候应用场景是什么样的.
b) 建模的流程(我是从数据源开始讲)
c) 都有哪些数据同步到数仓里面(我说大概 20 多张表)
d) 对这些表有过什么分类吗.(我说的同步策略)
e) 哪些表是相应的同步策略.
f) 跨天支付数据是怎么处理的.
g) 用户表为什么一定是拉链表.
h) 数仓的分层.
i) 如何找出来用户的一天的行为轨迹.(这个问题出现在描述 dws 层)
j) dws 和 dwt 的宽表都有哪些,并且都是什么!!!(详细都说出来!!!)
k) 出口对应的指标.(我太菜了.没说出来几个)
l) 你们是怎么保证数据质量的.(居然没想起来监控框架.我太菜了.)
m) 数据质量监控的角度,(我只记得数据量)
n) 有制定一些量化的'含量指标'(应该是这个词)也就是说怎么衡量这个表好用不好
用.
o) 有没有一张表实现所有的分析.
3. SQL 题(很简单)
a) 外卖的配送 ID
b) 外卖员的 ID
评论