设置spark.streaming.kafka.maxRatePerPartition的原则

spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的,
一般和spark.streaming.backpressure.enabled=true一起使用。
那么应该怎么算这个值呢?
如例:若要10分钟的吞吐量控制在5000,0000,kafka分区是10个。也就是说spark.streaming.kafka.maxRatePerPartition的值 * kafka分区数 * (10 *60)(每秒时间)
要差不多与50000000相当。如下是公式:50000000/10/600s =8400
也就是我们该设置maxrRatePerPartition这个参数为8400,每秒拉取8400条数据。

spark.streaming.kafka.maxRatePerPartition控制spark streaming 对kafka中目标topic的每个分区每秒拉取的条数。

从上面的分析过程可以预见到,每个分区接收到的消息量<=batchDuration * spark.streaming.kafka.maxRatePerPartition.

Spark Streaming控制每秒消费数据的速度相关推荐

  1. 揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

    问题导读: 1.streaming application 如何兼容众多数据源? 2.receivers 是如何分发并启动的? 3.receiver 接收到的数据是如何流转的? Spark Strea ...

  2. 【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

    编译:刘佳毅,花名佳易,阿里巴巴计算平台事业部EMR团队开发工程师,目前从事大数据安全相关方面工作. 摘要: 本文主要对Databricks如何使用Spark Streaming和Delta Lake ...

  3. Spark Streaming从Kafka中拉取数据,并且使用过“窗口函数”统计一些流量信息

    一.应用案例场景: 在Spark Streaming中,我们通常计算的是一段时间间隔内的数据.比如http://blog.csdn.net/tototuzuoquan/article/details/ ...

  4. Spark Streaming架构介绍_大数据培训

    Spark Streaming架构 1 架构图 图1-1 SparkStreaming架构图 图1-2整体架构图 2 背压机制 Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率 ...

  5. 使用Spark Streaming从kafka中读取数据把数据写入到mysql 实例

    文章目录 一. 题目 题目和数据 二. pom依赖 三.建表语句 四. 连接kafka配置类 五. 自定义分区类 六. 读取数据并发送数据 七. 消费数据,把数据存储到mysql 一. 题目 题目和数 ...

  6. spark spark streaming + kafka receiver方式消费消息

    2019独角兽企业重金招聘Python工程师标准>>> kafka + spark streaming 集群 前提: spark 安装成功,spark 1.6.0 zookeeper ...

  7. Spark Streaming从Kafka中获取数据,并进行实时单词统计,统计URL出现的次数

    1.创建Maven项目 创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/74571374 2.启动Kafka A:安装kafka集 ...

  8. 【Spark分布式内存计算框架——Spark Streaming】10. 应用案例:百度搜索风云榜(中)实时数据ETL存储

    5.3 实时数据ETL存储 实时从Kafka Topic消费数据,提取ip地址字段,调用[ip2Region]库解析为省份和城市,存储到HDFS文件中,设置批处理时间间隔BatchInterval为1 ...

  9. 大数据入门之分布式计算框架Spark(3) -- Spark Streaming

    1.概述 Spark Streaming将不同的数据源,经过处理之后,结果输出到外部文件系统. 特点:低延时:能从错误中高效地恢复过来:能够运行在成百上千的节点上:能够将批处理.机器学习.图计算等子框 ...

最新文章

  1. 网络服务之DNS基本应用
  2. 无向图的邻接矩阵存储,4个顶点、4条边
  3. 2013eoe移动开发者大会圆满落幕
  4. python 抓包基于pypcap
  5. CF585E-Present for Vitalik the Philatelist【莫比乌斯反演,狄利克雷前缀和】
  6. 用java编写一个故事的程序_使用Java怎么编写一个递归程序
  7. Android7.1启动系统App必须配置加密
  8. 2019美赛备战日记1/18
  9. 凯恩帝k1000ti参数设置_凯恩帝KND数控K1000TI系统维修
  10. vue中引入字体无效(记录)
  11. Matlab读取处理Excel数据并拟合正态分布曲线
  12. 树洞程序php,微信公众平台开发(65) 微博树洞_PHP教程
  13. poi 颜色对照表
  14. 用户抱怨苹果一体机进灰 苹果称中国环境不好
  15. RxHttp 全网Http缓存最优解,完整PDF
  16. 第七十二章 Caché 函数大全 $WISWIDE 函数
  17. 电脑设置了从睡眠中唤醒需要密码却没生效(已解决)
  18. AndroidStudio问题XML格式化
  19. 8000字解读全域用户体验丨星巴克的尖刀与钝点
  20. 理论力学中的 动量定理、动量矩定理、动能定理

热门文章

  1. RISC-V基金会董事谭章熹:RISC-V,从边缘逐渐向中央扩展
  2. asp连接 Oracle
  3. c语言改错题字符串a放在b后面,C语言程序改错题汇总.doc
  4. phpems考试系统如何处理word txt题库并导入系统
  5. 总结 启用凭证分割后 往来科目 应收 应付 的利润中心处理
  6. 是不是感觉被淘宝监控了!看啥立马就推送过来!用Python对淘宝用户行为进行分析!
  7. 【免费】小米即时消息云MIMC介绍——免费、简单实现IM
  8. php采集所有a标签,dedecms采集去除a标签代码
  9. matlab snr mse,MATLAB 均方根误差MSE、两图像的信噪比SNR、峰值信噪比PSNR、结构相似性SSIM...
  10. 华为交换机替换H3C交换机-割接过程