FLINK任务重启 Streaming File Sink落地hdfs的中间状态In-progress格式文件处理方案
1. 诊断现象
flink任务重启后hdfs存储存在很多之前中间状态文件无法转为最终状态文件,导致中间状态文件的数据下游不可见。
2. 诊断原因分析
因为在flink任务取消的时候存在checkpoint未最终完成,这些文件就会以中间状态文件存在
3.解决办法
Flink任务重启的时候从检查点重启,这样可以避免flink的state数据,kafka的offset数据等关键数据丢失,待新任务的检查点自动切换到新任务实例的检查点的时候,旧flink任务的中间状态文件就可以直接手动清除了,对于已经存入中间状态的数据,flink会从旧任务的最近已完成的checkpoint开始重新计算,这样旧任务的中间状态文件内的数据会重新生成,不会引起数据丢失
4.优化建议
如果hdfs滚动落地的中间状态文件数量很多,单个文件较小,则可以适当调整hdfs文件落地的滚动策略
5.具体操作
5.1 查看待取消任务的检查点位置
检查点位置:/flink/checkpoints/632527f64593fcb3ea035be07c79a862/chk-1
5.2 从检查点重启flink任务
flink run –s hdfs:///flink/checkpoints/632527f64593fcb3ea035be07c79a862/chk-1/_metadata 其他参数依旧
5.3 验证新任务是否从旧任务检
FLINK任务重启 Streaming File Sink落地hdfs的中间状态In-progress格式文件处理方案相关推荐
- 2021年大数据Flink(四十八):扩展阅读 Streaming File Sink
目录 扩展阅读 Streaming File Sink 介绍 场景描述 Bucket和SubTask.PartFile 案例演示 扩展阅读 配置详解 PartFile PartFile序列化编码 ...
- 大数据Flink(四十八):扩展阅读 Streaming File Sink
文章目录 扩展阅读 Streaming File Sink 介绍 场景描述 Bucket和SubTask.PartFile 案例演示
- Flink教程(24)- Flink高级特性(File Sink)
文章目录 01 引言 02 File Sink介绍 03 File Sink案例演示 04 文末 01 引言 在前面的博客,我们学习了Flink的Streaming File Sink了,有兴趣的同学 ...
- flink file sink
写入hadoop filesystem ref 设置写入其他hadoop集群 配置写入streaming file sink 官网
- 大数据Flink(四十七):扩展阅读 File Sink
文章目录 扩展阅读 File Sink 介绍 案例演示 扩展阅读 File Sink 介绍
- 用 Flink 取代 Spark Streaming,知乎实时数仓架构演进【推荐】
"数据智能" (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务.从智能商业的角 ...
- 用Flink取代Spark Streaming!知乎实时数仓架构演进
作者 | 知乎数据工程团队 "数据智能" (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的 ...
- 用Flink取代Spark Streaming,知乎实时数仓架构演进
"数据智能" (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务.从智能商业的角 ...
- flink checkpoint 重启_Flink进阶教程:Checkpoint机制原理剖析与参数配置
在Flink状态管理详解:Keyed State和Operator List State深度解析这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布 ...
- 线上flink任务重启报错(Hadoop问题)java.lang.NumberFormatException: For input string: “30s“
线上Flink任务重启时,提交任务失败,具体报错如下: 2021-12-31 18:09:19 java.lang.NumberFormatException: For input string: & ...
最新文章
- 微软云计算业务增长,或成全球最具价值上市公司
- arcpy 批量投影_怎样用arcgis中的python进行批量投影
- js去空格的三种方法
- 服务器虚拟化管理,几招让你快速成就你的服务器
- php怎么弄自动填充,ThinkPHP 自动填充(自动完成)详解及实例
- 清华大学《操作系统》(二十):死锁和进程通信
- 数据结构实验之栈二:一般算术表达式转换成后缀式
- Linux C面试题(内存管理)
- windows 和 linux服务器环境下j2sdk 的安装和环境设置
- 第六届开源操作系统年度技术会议将在12月16日杭州浙江大学举办
- Microsoft Office 2016 简体中文 Vol 版镜像下载(Pro Plus、Visio、Project 下载)
- 编写DBUtil及测试
- PTA-今天是本学期的第几周的第几天?
- 浏览器播放语音SpeechSynthesisUtterance
- 福昕阅读器如何显示pdf文件的缩略图
- unix源码分析_UNIX网络分析
- Internet Explorer之后的前端开发
- 微信应用架构!!-----管理配置篇
- 《易经》 数中以9最为奇妙
- Kafka坑之一:Lag与HW、LEO