

长按二维码关注
大数据领域必关注的公众号

1、说说Flink流批一体的特点?
2、说说Flink的容错能力?
3、flink海量数据如何高效去重?
(2)基于HyperLogLog:不是精准的去重
(3)基于布隆过滤器(BloomFilter)
快速判断一个key是否存在于某容器,不存在就直接返回。
(4)基于BitMap
用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此可以大大节省存储空间。
(5)基于外部数据库
选择使用Redis或者HBase存储数据,我们只需要设计好存储的Key即可,不需要关心Flink任务重启造成的状态丢失问题。
4、Flink 任务出现很高的延迟,你会如何入手解决类似问题?
5、举个实际 Flink 任务案例,这个 Flink 任务中有 Source、FlatMap、Sink 算子,如果 Source 算子有反压,那到底是哪个算子有性能问题呢?
6、反压有哪些危害?
7、经常碰到哪些问题会任务反压?
8、说说Flink的waterMark机制?
9、flinkTopN与离线的TopN的区别?
10、Flink 有数据丢失的可能吗?
11、flink的水位线,你了解吗,能简单介绍一下吗?
12、Flink怎么维护Checkpoint?
完
文章转载自大数据研习社,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。





