【收藏】100个Flink高频面试题系列（五）

大数据研习社 2022-06-17

346

长按二维码关注

大数据领域必关注的公众号

1、flink是怎么处理离线数据的？例如如何处理和离线数据的关联？

参考答案：

（1）async io

（2）broadcast

（3）async io + cache

（4）open方法中读取，然后定时线程刷新，缓存更新是先删除，之后再来一条之后再负责写入缓存。

2、Flink是怎么处理迟到数据的？但是实际开发中不能有数据迟到，怎么做？

参考答案：

Flink 的watermark是一种延迟触发的机制。一般watermark是和window结合来进行处理乱序数据的，Watermark最根本就是一个时间机制，例如我设置最大乱序时间为2s，窗口时间为5秒，那么就是当事件时间大于7s的时候会触发窗口。当然假如有数据分区的情况下，例如kafka中接入watermake的话，那么watermake是会流动的，取的是所有分区中最小的watermake进行流动，因为只有最小的能够保证，之前的数据都已经来到了，可以触发计算了。

3、说说 Flink 的常用算子？

参考答案：

Flink 最常用的常用算子包括：Map：DataStream → DataStream，输入一个参数产生一个参数，map的功能是对输入的参数进行转换操作。Filter：过滤掉指定条件的数据。KeyBy：按照指定的key进行分组。Reduce：用来进行结果汇总合并。Window：窗口函数，根据某些特性将每个key的数据进行分组（例如：在5s内到达的数据）

4、说说你知道的Flink分区策略？

参考答案：

什么要搞懂什么是分区策略。分区策略是用来决定数据如何发送至下游。目前 Flink 支持了8中分区策略的实现。

（1）GlobalPartitioner 数据会被分发到下游算子的第一个实例中进行处理。

（2）ShufflePartitioner 数据会被随机分发到下游算子的每一个实例中进行处理。

（3）RebalancePartitioner 数据会被循环发送到下游的每一个实例中进行处理。

（4）RescalePartitioner 这种分区器会根据上下游算子的并行度，循环的方式输出到下游算子的每个实例。这里有点难以理解，假设上游并行度为2，编号为A和B。下游并行度为4，编号为1，2，3，4。那么A则把数据循环发送给1和2，B则把数据循环发送给3和4。假设上游并行度为4，编号为A，B，C，D。下游并行度为2，编号为1，2。那么A和B则把数据发送给1，C和D则把数据发送给2。

（5）BroadcastPartitioner 广播分区会将上游数据输出到下游算子的每个实例中。适合于大数据集和小数据集做Jion的场景。

（6）ForwardPartitioner 用于将记录输出到下游本地的算子实例。它要求上下游算子并行度一样。简单的说，ForwardPartitioner用来做数据的控制台打印。

（7）KeyGroupStreamPartitioner Hash分区器。会将数据按 Key 的 Hash 值输出到下游算子实例中。

（8）CustomPartitionerWrapper 用户自定义分区器。需要用户自己实现Partitioner接口，来定义自己的分区逻辑。

5、Flink有没有重启策略？说说有哪几种？

参考答案：

Flink 实现了多种重启策略。

（1）固定延迟重启策略（Fixed Delay Restart Strategy）

（2）故障率重启策略（Failure Rate Restart Strategy）

（3）没有重启策略（No Restart Strategy）

（4）Fallback重启策略（Fallback Restart Strategy）

6、说说 Flink 资源管理中 Task Slot 的概念？

参考答案：

在Flink架构角色中我们提到，TaskManager是实际负责执行计算的Worker，TaskManager 是一个 JVM 进程，并会以独立的线程来执行一个task或多个subtask。为了控制一个 TaskManager 能接受多少个 task，Flink 提出了 Task Slot 的概念。

简单的说，TaskManager会将自己节点上管理的资源分为不同的Slot：固定大小的资源子集。这样就避免了不同Job的Task互相竞争内存资源，但是需要主要的是，Slot只会做内存的隔离。没有做CPU的隔离。