某短视频大数据面试题

大数据猫 2021-06-07

437

导

读

程序员涨薪三大绝技：晋升，跳槽，接私活

今天重点说一下晋升，最简单的办法就是刷题，你要刷别人面试遇到的问题，对你后续找工作非常有帮助。

——《大数据猫》

某短视频公司（一线）一面：（岗位：数据架构/专家方向（3-5年））

1.算法：说下冒泡和快排的时间复杂度；

无序数组，求第K大的数，（我用的冒泡，快排忘球了）（用快排写怎么优化，最好的时间复杂度）

算法：写个LRU

SQL：uid bigint 用户, follow_list Array<bigint> 粉丝，求有多少对互相关注数量

2.Hadoop的读写流程

3.HadoopShuffle机制

4.MR一共几次排序，分别是什么排序

5.Kafka写时候怎么保证exactly Once

6.Kafka消费时候怎么保证exactly Once

7.说一下ISR

8.ISR的leader挂了怎么办

9.ACK为1时候，要是有数据重复或者丢失怎么办

10.Flink提交到kafka时候怎么保证exactly once的，

11.要是两阶段提交时候，数据丢失怎么办？

12.Flink内部怎么保证exactly once？

13.集群重启时候，如果有数据从kafka消费重复了，怎么解决？

14.Flink背压遇到过么，说下解决方案？

15.Flink内部是怎么知道背压发生的？

16.实习时候数仓怎么分层的？

17.说一下数仓的主题，实习时候是怎么划分的？

18.说一下数仓与数据集市区别？

19.实习的时候说下Hive是以什么格式存储的？介绍一下这个格式？

20.介绍项目？

21.map和reduce不设置，默认数是多少？

22.reduce端是怎么取到相应分区的数据的？他怎么知道要取哪个分区的？

23.组里用到的技术

大数据猫

您的关注是我们更新的动力

长按识别二维码关注我们

文章转载自大数据猫，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。