Flink背压过高异常分析指引

IT那活儿 2024-10-21

284

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享，不管IT什么活儿，干就完了！！！

一

flink背压过高产生的原因

Flink 拓扑中每个节点（Task）间的数据都以阻塞队列的方式传输，下游来不及消费导致队列被占满后，上游的生产也会被阻塞，最终导致数据源的摄入被阻塞。

背压通常产生于这样的场景：

短时间的负载高峰导致系统接收数据的速率远高于它处理数据的速率。一个flink任务由多个oprators组成，由于flink的机制，无论哪个环节出现了问题，最终都会反压导致source的背压变高。

二

flink背压过高的危害

通过上面的简单介绍了解到背压产生的原因，如果不能得到正确的处理，可能会影响到 checkpoint 时长和 state 大小，甚至可能会导致资源耗尽甚至系统崩溃。

Flink背压过高会带来多方面的危害，‌主要体现在以下几个方面：‌

‌系统性能下降‌
‌背压导致数据阻塞，‌进而造成系统吞吐量降低和延迟增大，‌影响整体处理效率。‌
‌内存压力增大‌
‌大量未处理的数据会堆积在网络层或内存中，‌占用计算节点的内存资源，‌可能导致内存溢出。‌
‌系统稳定性下降‌
‌严重的背压可能导致任务执行过程中节点由于内存溢出等问题而崩溃，‌进而影响任务的正常运行。‌
‌影响Checkpoint机制‌
‌背压可能导致Checkpoint超时失败，‌进而影响状态数据的保存和恢复。‌
‌影响数据一致性‌
‌如果上游是Kafka数据源，‌在一致性的要求下，‌背压可能导致offset提交不上，‌进而影响数据的一致性。‌‌

三

flink背压过高定位

要理清到底是哪个环节除了问题，需要持续地监控某个可以oprator的指标，例如inPoolUsage和outPoolUsage。这两个分别代表进来数据缓存的pool使用率和出去数据缓存pool的使用率，一旦inPoolUsage升高而且outPoolUsage没有明显升高，说明当前oprator存在问题。

解决背压一般从如下几个方面排查：

3.1 利用 Flink Web UI 定位

Flink Web UI 提供了 SubTask 级别的背压监控: