Expiring XXX record(s) for XXX:120015 ms has passed since batch creation

  1. 问题背景:dws曝光人+场模型聚合压测,憋量20亿左右数据;
  2. 问题发生现象:flink job启动后,频繁发生checkpoint失败,并且checkpoint失败原因 :Failure reason: Checkpoint was declined.
  3. 问题现场日志:
org.apache.flink.runtime.checkpoint.CheckpointException: Could not complete snapshot 8 for operator aggregate -> Sink: exp sink (86/160). Failure reason: Checkpoint was declined.at org.apache.flink.streaming.api.operators.AbstractStreamOperator.snapshotState(AbstractStreamOperator.java:434) ...
Caused by: org.apache.flink.util.SerializedThrowable: Failed to send data to Kafka: Expiring 2483 record(s) for 【topic_name】-85:120015 ms has passed since batch creation ...
Caused by: org.apache.flink.util.SerializedThrowable: Expiring 2483 record(s) for 【topic_name】-85:120015 ms has passed since batch creation ...
org.apache.flink.runtime.jobmaster.JobMaster - Trying to recover from a global failure.
org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.
  1. 问题发生原因描述:
    问题的根本原因是kafka消息发送是批量发送,ProducerRecord会先存储到本地buffer,消息存储在这个buffer里的时长是有限制的【request.timeout.ms】,因此在消息量级比较大,存储在buffer里的消息,超过了request.timeout.ms这个设置时长,就会报上述Expiring XXX record(s) for XXX:120015 ms has passed since batch creation错误;而与此同时,我们开启了端到端的精准一次特性即事务,此时checkpoint与消息的pre commit绑定,pre commit 失败,导致checkpoint的失败,任务重启,大量消息积压;
  2. 问题解决方案:
    a)调整 request.timeout.ms 这个参数去满足需求,让消息在buffer里待更长的时间;
    b)我们公司会给与每个生产者限速,可以提升生产者的速度,这样本地缓存的消息就不会产生积压;
  3. checkpoint失败现场截图,表现为某一个或者多个并行度checkpoint失败:

Expiring XXX record(s) for XXX:120015 ms has passed since batch creation相关推荐

  1. Expiring 1 record(s) for canalEtl_hn-0: 30017 ms has passed since batch creation plus linger time

    一 问题描述 canal instance报错: Caused by: java.util.concurrent.ExecutionException: org.apache.kafka.common ...

  2. kafka record(s) for xxxxxx: 30043 ms has passed since last append异常

    在最近使用kafka过程中,有一部分的客户使用平台时会偶发出现以下错误 刚开始网上找到的答案是对应主题所在分区对应的宿主机处理出现异常导致,故而导致该异常,所以出问题时取查询时并没有发现kafka s ...

  3. 【Kafka】Failed to send data to Kafka: Expiring 30 record(s) for xxx 732453 ms has passed since last a

    文章目录 1.美图 2.背景 2.尝试方案1 3.尝试解决2 本文为博主九师兄(QQ:541711153 欢迎来探讨技术)原创文章,未经允许博主不允许转载. 1.美图 问题与 [Flink]Flink ...

  4. Expiring 1 record(s) for 2:xxx ms has passed since batch问题研究

    本文主要对该错误相关文章进行整理,供自己以及各位参考,如有问题请及时指出,谢谢. 报错大意为:生产发送批次已经创建,但是已经过去120000ms,仍然没有发送,消息过期. [20211015更新](@ ...

  5. 【Flink】Flink 写入 kafka 报错 Failed to send data to Kafka: Expiring 4 record(s) for 20001 ms has passed

    文章目录 1.场景1 1.1 概述 1.2 百度 1.3 同样问题 2.场景再现 本文为博主九师兄(QQ:541711153 欢迎来探讨技术)原创文章,未经允许博主不允许转载. 1.场景1 1.1 概 ...

  6. [2012-05-10 09:52:11 - xxx] Failed to install xxx.apk on device '100046a35a59': timeout

    昨天用eclipse开发Android程序时,忽然莫名其妙报这个错,之前还好好的.忽然就不行了. [2012-05-10 09:52:11 - xxx] Failed to install xxx.a ...

  7. TFS2010映射工作区问题 路径 XXX 已在工作区 XXX;XXX 中映射

    路径 XXX 已在工作区 XXX;XXX 中映射 原因:之前用别的用户登录工作区并映射到该路径. 解决办法:再用之前的用户登录工作区取消映射即可. 备忘:在文件 C:\Documents and Se ...

  8. fatal: Path ‘XXX‘ is in submodule ‘XXX‘错误(path is in submodule)

    由于需求的原因,最近在修改Netron这个机器学习可视化网络的开源代码,并重新编译,但是在修改成功之后上传到本人的git仓库的时候却出现了 fatal: Path 'XXX' is in submod ...

  9. kafka报错:creating broker listeners from xxx unable to parse xxx:9092 to a broker endpoint

    1.美图 2.背景 kafka报错:creating broker listeners from xxx unable to parse xxx:9092 to a broker endpoint 具 ...

最新文章

  1. 腐蚀rust电脑分辨率调多少_腐蚀Rust怎么设置画面 腐蚀Rust提高帧数画面设置方法...
  2. 用无序列表做的网站公告牌(Billboard)
  3. SDH光端机的应用介绍
  4. 怎样去掉警告 log4j:WARN No appenders could be found for logger
  5. Android官方开发文档Training系列课程中文版:支持不同的设备之支持不同的平台版本
  6. 方便的Chrome取色插件ColorPick Eyedropper [设计, FE必备]
  7. mysql binlog备份_MySQL mysqldump + mysqlbinlog 备份和还原
  8. Machine learning for improved image-based wavefront sensing
  9. [leetcode] 7. 整数反转
  10. 查看服务器虚拟机版本,查看虚拟机版本命令
  11. 张晨北京科技大学计算机,混合群智能优化算法研究及应用
  12. 全外显子测序助力疾病诊疗
  13. 对数的matlab代码,Matlab的对数
  14. Python学习week4
  15. mysql_使用记录.md
  16. 包装类-自动装箱、拆箱
  17. 2015 上海邀请赛c题 calculator hdu5238
  18. 数据分析从零到精通第三课 python自动化和BI数据可视化实战
  19. 个人图床的最简单制作-腾讯云COS
  20. Ansible批量管理Windows服务器,winrm配置

热门文章

  1. VS code 显示中文异常解决办法
  2. python读取数据的函数详解_python如何从文件读取数据及解析
  3. 【机器学习实验五】基于多分类线性SVM实现简易人机猜拳游戏
  4. 李子柒方面否认年入1.68亿,造谣者居然这样回应...
  5. 大板加腋 弹性板6计算_土木吧丨有梁就不用算冲切?弹性板6中毒很深
  6. lucene3.0.3中的Spanquery和Spans介绍
  7. 吹爆系列:教科书级别的Android音视频入门进阶学习手册,学完我成功“挤进”了抖音音视频开发岗
  8. mysql数据库全部大写吗_mysql中数据库名字分大小写吗
  9. JS实现b站动态评论区抽奖(含去重)
  10. 华为ensp搭建习题