Spark Streaming控制每秒消费数据的速度
设置spark.streaming.kafka.maxRatePerPartition的原则
spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的,
一般和spark.streaming.backpressure.enabled=true一起使用。
那么应该怎么算这个值呢?
如例:若要10分钟的吞吐量控制在5000,0000,kafka分区是10个。也就是说spark.streaming.kafka.maxRatePerPartition的值 * kafka分区数 * (10 *60)(每秒时间)
要差不多与50000000相当。如下是公式:50000000/10/600s =8400
也就是我们该设置maxrRatePerPartition这个参数为8400,每秒拉取8400条数据。
spark.streaming.kafka.maxRatePerPartition控制spark streaming 对kafka中目标topic的每个分区每秒拉取的条数。
从上面的分析过程可以预见到,每个分区接收到的消息量<=batchDuration * spark.streaming.kafka.maxRatePerPartition.
Spark Streaming控制每秒消费数据的速度相关推荐
- 揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入
问题导读: 1.streaming application 如何兼容众多数据源? 2.receivers 是如何分发并启动的? 3.receiver 接收到的数据是如何流转的? Spark Strea ...
- 【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
编译:刘佳毅,花名佳易,阿里巴巴计算平台事业部EMR团队开发工程师,目前从事大数据安全相关方面工作. 摘要: 本文主要对Databricks如何使用Spark Streaming和Delta Lake ...
- Spark Streaming从Kafka中拉取数据,并且使用过“窗口函数”统计一些流量信息
一.应用案例场景: 在Spark Streaming中,我们通常计算的是一段时间间隔内的数据.比如http://blog.csdn.net/tototuzuoquan/article/details/ ...
- Spark Streaming架构介绍_大数据培训
Spark Streaming架构 1 架构图 图1-1 SparkStreaming架构图 图1-2整体架构图 2 背压机制 Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率 ...
- 使用Spark Streaming从kafka中读取数据把数据写入到mysql 实例
文章目录 一. 题目 题目和数据 二. pom依赖 三.建表语句 四. 连接kafka配置类 五. 自定义分区类 六. 读取数据并发送数据 七. 消费数据,把数据存储到mysql 一. 题目 题目和数 ...
- spark spark streaming + kafka receiver方式消费消息
2019独角兽企业重金招聘Python工程师标准>>> kafka + spark streaming 集群 前提: spark 安装成功,spark 1.6.0 zookeeper ...
- Spark Streaming从Kafka中获取数据,并进行实时单词统计,统计URL出现的次数
1.创建Maven项目 创建的过程参考:http://blog.csdn.net/tototuzuoquan/article/details/74571374 2.启动Kafka A:安装kafka集 ...
- 【Spark分布式内存计算框架——Spark Streaming】10. 应用案例:百度搜索风云榜(中)实时数据ETL存储
5.3 实时数据ETL存储 实时从Kafka Topic消费数据,提取ip地址字段,调用[ip2Region]库解析为省份和城市,存储到HDFS文件中,设置批处理时间间隔BatchInterval为1 ...
- 大数据入门之分布式计算框架Spark(3) -- Spark Streaming
1.概述 Spark Streaming将不同的数据源,经过处理之后,结果输出到外部文件系统. 特点:低延时:能从错误中高效地恢复过来:能够运行在成百上千的节点上:能够将批处理.机器学习.图计算等子框 ...
最新文章
- 网络服务之DNS基本应用
- 无向图的邻接矩阵存储,4个顶点、4条边
- 2013eoe移动开发者大会圆满落幕
- python 抓包基于pypcap
- CF585E-Present for Vitalik the Philatelist【莫比乌斯反演,狄利克雷前缀和】
- 用java编写一个故事的程序_使用Java怎么编写一个递归程序
- Android7.1启动系统App必须配置加密
- 2019美赛备战日记1/18
- 凯恩帝k1000ti参数设置_凯恩帝KND数控K1000TI系统维修
- vue中引入字体无效(记录)
- Matlab读取处理Excel数据并拟合正态分布曲线
- 树洞程序php,微信公众平台开发(65) 微博树洞_PHP教程
- poi 颜色对照表
- 用户抱怨苹果一体机进灰 苹果称中国环境不好
- RxHttp 全网Http缓存最优解,完整PDF
- 第七十二章 Caché 函数大全 $WISWIDE 函数
- 电脑设置了从睡眠中唤醒需要密码却没生效(已解决)
- AndroidStudio问题XML格式化
- 8000字解读全域用户体验丨星巴克的尖刀与钝点
- 理论力学中的 动量定理、动量矩定理、动能定理
热门文章
- RISC-V基金会董事谭章熹:RISC-V,从边缘逐渐向中央扩展
- asp连接 Oracle
- c语言改错题字符串a放在b后面,C语言程序改错题汇总.doc
- phpems考试系统如何处理word txt题库并导入系统
- 总结 启用凭证分割后 往来科目 应收 应付 的利润中心处理
- 是不是感觉被淘宝监控了!看啥立马就推送过来!用Python对淘宝用户行为进行分析!
- 【免费】小米即时消息云MIMC介绍——免费、简单实现IM
- php采集所有a标签,dedecms采集去除a标签代码
- matlab snr mse,MATLAB 均方根误差MSE、两图像的信噪比SNR、峰值信噪比PSNR、结构相似性SSIM...
- 华为交换机替换H3C交换机-割接过程