场景: kafka原有两个分区,添加一个分区后,一直运行的实时的spark任务  数据减少约3分之一

分析: spark 将kafka 的offsite维护在checkpoint 里面,当spark任务运行的时候,给kafka添加新的分区,原来的checkpoint只维护原来的两个分区的 offsite,新的分区的offsite 无法维护(checkpoint 只在第一次创建的时候,创建新offsite,以后只是维护)

解决方法: 删除spark的checkpoint 重新启动程序

通过查看日志可知(红色箭头为删除checkpoint前后的数据):

删除前 spark 只接收 kafka 两个partion的数据;删除后 接收三个partion的数据

总结:kafka的分区一定要在创建topic的时候设置好,要不后续重设很麻烦

kafka添加 partion导致 spark 实时任务数据减少相关推荐

  1. 解决ViewPager缓存导致不能实时刷新数据

    ViewPager+Fragment,但是Fragment有个不好或者太好的地方.例如你在ViewPager中添加了三个Fragment,当加载ViewPager中第一个Fragment时,它会默认帮 ...

  2. 大数据实时处理-基于Spark的大数据实时处理及应用技术培训

    随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大 数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫 ...

  3. 【全网详解】从0到1搭建双十一实时交易数据展示平台——Spark+Kafka构建实时分析系统

    目录 万事具备之巧借东风 预备知识 环境搭建 Spark安装 Kafka安装 Kafka核心知识介绍 Kafka开启及测试服务 Python依赖库 PyCharm安装 搭建总结 八仙过海之各显神通 数 ...

  4. 大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

    大数据组件 学习路线: 阶段1:学习绿色箭头的知识点: 阶段2:学习红色箭头的知识点: 阶段3:学习蓝色箭头的知识点: 1 Hadoop 1.1 Hadoop1.x与Hadoop2.x的区别 1.2 ...

  5. 实用 | 从Apache Kafka到Apache Spark安全读取数据

    引言 随着在CDH平台上物联网(IoT)使用案例的不断增加,针对这些工作负载的安全性显得至关重要.本篇博文对如何以安全的方式在Spark中使用来自Kafka的数据,以及针对物联网(IoT)使用案例的两 ...

  6. 【mock】大数据Clickhouse; Kafka; Flink; Spark 学习与性能压测数据Mock

    文章目录 前言 mock数据脚本-基础版 mock数据-集成到kafka 前言 为方便大家学习大数据过程中,需要数据进行练习与调试,本次给大家分享几篇mock数据的脚本 可适用于kafka;hive; ...

  7. 《Spark实时词频统计处理系统》

    ------此项目整理自<Spark Streaming 实时流式大数据处理实战>肖力涛                                             第8章 实 ...

  8. 利用SparkSQL(java版)将离线数据或实时流数据写入hive的用法及坑点

    1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法.第一种是利用org.apache.spark.sql.types.StructType和org.ap ...

  9. Flink or Spark?实时计算框架在K12场景的应用实践

    如今,越来越多的业务场景要求 OLTP 系统能及时得到业务数据计算.分析后的结果,这就需要实时的流式计算如Flink等来保障.例如,在 TB 级别数据量的数据库中,通过 SQL 语句或相关 API直接 ...

最新文章

  1. 程序员最喜爱的12个Android应用开发框架二(转)
  2. shell 指令集锦
  3. 数据查询语言(DQL)
  4. 互联网1分钟 |1127
  5. java普通类获取session_springboot普通类中如何获取session?
  6. 零XML的Spring配置
  7. SQL语法的重要知识点总结
  8. 【分布式】一致性协议
  9. BZOJ3091 城市旅行
  10. C# 连接Access数据库
  11. 华为鸿蒙2048小游戏,从零开始使用华为DevEco Studio编写2048小游戏
  12. 手机steam未能连接到服务器1004,steam与服务器连接失败
  13. html显示文件夹图片,Html读取本地文件夹下图片并显示
  14. MSP430通过IAR下载时出现的Failed to load debugee: C:\XX\XXIAR\Release\Exe\Wireless measurement.txt无法下载程序的问题
  15. Vue v-for 时,单个元素class的控制
  16. 计算机等级证书分几级 哪个级别最高
  17. gic stream协议
  18. C/C++ error/exception throw: access violation reading location 0x....;
  19. CPU负载与CPU使用率
  20. 软件构造 Lab-2 Report

热门文章

  1. 刘敏华:微信营销,高转化率营销渠道
  2. Android 面试(Android 篇)
  3. JNI Log 日志输出
  4. 你不知道的产品体验设计【五层设计模式】
  5. STM32CUBEIDE(8)----USART通过DMA收发
  6. IDEA怎样设置编码
  7. windows10操作系统下卸载和安装cuda
  8. ModBus/TCP协议分析
  9. sumo笔记(一)——如何通过openstreetmap生成自己的路网
  10. TCP/IP协议(一)网络基础知识