最近flink job出现了背压的问题, 后果是导致了checkpoint的生成超时, 影响了flink job的运行.

定位问题:

如下图:

1) flink的checkpoint生成超时, 失败:

checkpoint超时

2) 查看jobmanager日志,定位问题:

jobmanager日志

3) 找大神帮忙定位问题, 原来是出现了背压的问题,  缓冲区的数据处理不过来,barrier流动慢,导致checkpoint生成时间长, 出现超时的现象. (checkpoint超时时间设置了30分钟)

下图是背压过高, input 和 output缓冲区都占满的情况

buffer缓冲区情况

4) 背压的情况也可以在flink后台的job的JobGraph中查看

背压过高

下面说说flink感应反压的过程:

下面这张图简单展示了两个 Task 之间的数据传输以及 Flink 如何感知到反压的:

flink感知背压

记录“A”进入了 Flink 并且被 Task 1 处理。(这里省略了 Netty 接收、反序列化等过程)

记录被序列化到 buffer 中。

该 buffer 被发送到 Task 2,然后 Task 2 从这个 buffer 中读出记录。

注意记录能被 Flink 处理的前提是,必须有空闲可用的 Buffer。

结合上面两张图看:Task 1 在输出端有一个相关联的 LocalBufferPool(称缓冲池1),Task 2 在输入端也有一个相关联的 LocalBufferPool(称缓冲池2)。如果缓冲池1中有空闲可用的 buffer 来序列化记录 “A”,我们就序列化并发送该 buffer。

这里我们需要注意两个场景:

本地传输:如果 Task 1 和 Task 2 运行在同一个 worker 节点(TaskManager),该 buffer 可以直接交给下一个 Task。一旦 Task 2 消费了该 buffer,则该 buffer 会被缓冲池1回收。如果 Task 2 的速度比 1 慢,那么 buffer 回收的速度就会赶不上 Task 1 取 buffer 的速度,导致缓冲池1无可用的 buffer,Task 1 等待在可用的 buffer 上。最终形成 Task 1 的降速。

远程传输:如果 Task 1 和 Task 2 运行在不同的 worker 节点上,那么 buffer 会在发送到网络(TCP Channel)后被回收。在接收端,会从 LocalBufferPool 中申请 buffer,然后拷贝网络中的数据到 buffer 中。如果没有可用的 buffer,会停止从 TCP 连接中读取数据。在输出端,通过 Netty 的水位值机制来保证不往网络中写入太多数据(后面会说)。如果网络中的数据(Netty输出缓冲中的字节数)超过了高水位值,我们会等到其降到低水位值以下才继续写入数据。这保证了网络中不会有太多的数据。如果接收端停止消费网络中的数据(由于接收端缓冲池没有可用 buffer),网络中的缓冲数据就会堆积,那么发送端也会暂停发送。另外,这会使得发送端的缓冲池得不到回收,writer 阻塞在向 LocalBufferPool 请求 buffer,阻塞了 writer 往 ResultSubPartition 写数据。

这种固定大小缓冲池就像阻塞队列一样,保证了 Flink 有一套健壮的反压机制,使得 Task 生产数据的速度不会快于消费的速度。我们上面描述的这个方案可以从两个 Task 之间的数据传输自然地扩展到更复杂的 pipeline 中,保证反压机制可以扩散到整个 pipeline。

解决办法:

1)  首先说一下flink原来的JobGraph, 如下图,  产生背压的是中间的算子,

flink job graph

2) 背压是什么??

如果您看到任务的背压警告(例如High),这意味着它生成的数据比下游算子可以消耗的速度快。下游工作流程中的记录(例如从源到汇)和背压沿着相反的方向传播到流上方。

以一个简单的Source -> Sink工作为例。如果您看到警告Source,这意味着Sink消耗数据的速度比Source生成速度慢。Sink正在向上游算子施加压力Source。

可以得出:  第三个算子的处理数据速度比第二个算子生成数据的速度,  明显的解决方法:  提高第三个算子的并发度,  问题又出现了:  并发度要上调到多少呢?

3) 第一次上调, 从原来的10并发 上调到 40

观察缓存池对比的情况:

并发是10的buffer情况: (背压的情况比较严重, 曲线持续性地达到峰值, 会导致资源占光)

10并发的buffer情况

并发是40的buffer情况:(有了比较大的改善, 但是还是存在背压的问题, 因为曲线有达到顶峰的时候)

40并发的buffer情况

4)  从网上了解到flink的并发度的优化策略后, 有了一个比较好的解决方法, 把第三个算子的并行度设置成100, 与第二个算子的并发度一致:

这样做的好处是, flink会自动将条件合适的算子链化, 形成算子链,

满足上下游形成算子链的条件比较苛刻的:

1.上下游的并行度一致

2.下游节点的入度为1 (也就是说下游节点没有来自其他节点的输入)

3.上下游节点都在同一个 slot group 中(下面会解释 slot group)

4.下游节点的 chain 策略为 ALWAYS(可以与上下游链接,map、flatmap、filter等默认是ALWAYS)

5.上游节点的 chain 策略为 ALWAYS 或 HEAD(只能与下游链接,不能与上游链接,Source默认是HEAD)

6.两个节点间数据分区方式是 forward(参考理解数据流的分区)

7.用户没有禁用 chain

算子链的好处: 链化成算子链可以减少线程与线程间的切换和数据缓冲的开销,并在降低延迟的同时提高整体吞吐量。

flink还有另外一种优化手段就是槽共享,

flink默认开启slot共享(所有operator都在default共享组)

默认情况下,Flink 允许同一个job里的不同的子任务可以共享同一个slot,即使它们是不同任务的子任务但是可以分配到同一个slot上。 这样的结果是,一个 slot 可以保存整个管道pipeline, 换句话说,  flink会安排并行度一样的算子子任务在同一个槽里运行

意思是每一个taskmanager的slot里面都可以运行上述的整个完整的流式任务, 减少了数据在不同机器不同分区之间的传输损耗, (如果算子之间的并发度不同, 会造成数据分区的重新分配(rebalance, shuffle, hash....等等), 就会导致数据需要在不同机器之间传输)

优化后的JobGraph, 如下图,

合并算子链

taskmanager和slot中的task情况

再次观察缓存池对比的情况:

并发是100的buffer情况: (背压的情况已经大大缓解)

100并发的buffer情况

背压正常

checkpoint生成的时间没有出现超时的情况

Flink的背压问题产生原因和解决方法相关推荐

  1. 内存溢出和内存泄漏的定义,产生原因以及解决方法(面试经验总结)

    一.定义(概念与区别) 内存溢出 out of memory,是指程序在申请内存时,没有足够的内存空间供其使用,出现out of memory:比如申请 了一个integer,但给它存了long才能存 ...

  2. dos系统不能安装python模块,无法使用pip命令安装python第三方库的原因及解决方法...

    再dos中无法使用pip,命令主要是没有发现这个命令.我们先找到这个命令的位置,一般是在python里面的scripts文件夹里面.我们可以把dos切换到对应的文件夹,再使用pip命令就可以了. 如果 ...

  3. xp路由器播放服务器无响应,xp系统连不上路由器的原因及解决方法

    路由器是互联网络的枢纽,"交通警察,在生活和办公中都随处可见了.在笔记本xp系统中遇到连不上路由器的问题,这样就没办法上网了,怎么回事呢?一是软件原因,二是硬件原因,遇到xp系统连不上路由器 ...

  4. “adb不是内部或外部命令,也不是可执行的应用程序”错误原因及解决方法

    用SQLite时,可能会出现这样的错误. 原因可能是环境变量PATH没有配置或配置不正确.应该把adb.exe 所在目录加入到PATH环境变量.例如:C:\Program Files\android- ...

  5. ASP.NET常见错误,原因及解决方法(2003版)_不断更新.....

    [标题]             ASP.NET常见错误,原因及解决方法[错误提示]    异常详细信息: System.Net.WebException: 请求因 HTTP 状态 401 失败:Un ...

  6. 虚拟机无法上网/连接失败原因及解决方法

    1.常见的普通原因解决方法 1.1 检查IP地址是否正确 命令:ip  a(空格a) 1.2 检查网卡是否配置正确 命令:cat /etc/sysconfig/network-scripts/ifcf ...

  7. 计算机开启时提示键盘错误,电脑开机出现异常提示keyboard not found的故障原因及解决方法_电脑故障...

    电脑开机后屏幕显示keyboard not found. press f2 to continue .f1 to setup,具体问题现象如下所示: 故障原因分析: 出现这样的情况大多都是电脑在开机的 ...

  8. SQL Server数据库查询速度慢的原因和解决方法

    SQL Server数据库查询速度慢的原因和解决方法 参考文章: (1)SQL Server数据库查询速度慢的原因和解决方法 (2)https://www.cnblogs.com/MyChange/p ...

  9. 跨域产生的原因及解决方法

    跨域产生的原因及解决方法 参考文章: (1)跨域产生的原因及解决方法 (2)https://www.cnblogs.com/keai/p/11418138.html 备忘一下.

最新文章

  1. python 3.10 新增 switch-case 简介
  2. Java 接口(interface)的用途和好处
  3. 【洛谷P4124】[CQOI2016]手机号码
  4. 安装运行symfony框架编写的edusoho开源程序
  5. 基于FPGA实现ADC7768数据采集系统设计(8路)
  6. bzoj 1535: [POI2005]Sza-Template(fail树)
  7. 【HDU 1024】【线性DP】Max Sum Plus Plus
  8. 单页面动画 html5,9款惊艳的HTML5/CSS3动画应用赏析
  9. 部署https后访问提存在安全隐患NET::ERR_SSL_OBSOLETE_VERSION
  10. java ee论文_基于JavaEE的项目管理系统毕业论文.doc
  11. Project中最常用的注意点
  12. 计算机毕设Python+Vue医院人事及科室病区管理(程序+LW+部署)
  13. 私有专辑 java,这是什么“专辑歌手”标签iTunes使用?任何方式使用java设置?
  14. c语言595驱动数码管,74hc595驱动4位数码管程序解析 - 74hc595驱动4位数码管电路连接图及程序解析...
  15. python做一个考试系统_python考试系统 相关实例(示例源码)下载 - 好例子网
  16. 洛谷 P1135 奇怪的电梯
  17. OSChina 周四乱弹 —— 曾经有只老鹰冲着我提需求
  18. 云计算课程大纲,Linux云计算运维课程视频
  19. 腾讯云4核8g10M服务器多少人同时在线?
  20. wangeditor php上传本地图片,配置wangEditor 实现图片上传

热门文章

  1. Q-Learning 、Sarsa与 DQN算法
  2. 近代物理实验 光泵磁共振 原理 数据 思考题
  3. CSS进阶(4)- 扩展内容
  4. 微信小程序详情页跳转
  5. Java如何实现证件照换底色| 背景换色
  6. 数据集成平台,多数据统一存储和管理
  7. js逻辑训练题_几道javascript练习题
  8. 如何利用AI(ChatGPT、NewBing、PHIND、YouChat)实现多智能体系统一致性仿真的代码编写
  9. 前端一班:HTML5当天学习总结-摘抄张果博客园
  10. 设顺序表va中的数据元素递增有序。试写一算法,将x插入到顺序表的适当位置上,以保持该表的有序性。