文章目录

  • 目录
    • 前言:
    • 1、概念
    • 2、配置并行度
    • 总结:

目录

前言:

为了在以后的实践中提高Storm程序执行的效率,我们还是有必要了解下对应的Storm程序的并发机制。(哈哈,虽然以博主小菜鸟的水平还没有接触到这种提升程序效率层面的东西(这里只是空谈理论),但是Storm的并行机制还是有必要了解下,毕竟技多不压身嘛!)

1、概念

  • 并发度:用户指定的一个任务,可以被多个线程执行,**并发度的数量等于线程的数量。**一个任务的多个线程,会被运行在多个Worker(JVM)上,有一种类似于平均算法的负载均衡策略。尽可能减少网络IO,和Hadoop中的MapReduce中的本地计算的道理一样。
  • Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM
    进程。一个Topology可以包含一个或多个worker(并行的跑在不同的物理机上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology
  • Executors (threads): 在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks但一般默认每个executor只执行一个task。一个worker可以包含一个或多个executor,每个component (spout或bolt)至少对应于一个executor, 所以可以说executor执行一个compenent的子集, 同时一个executor只能对应于一个component。
  • Tasks(bolt/spout instances):Task就是具体的处理逻辑对象,**每一个Spout和Bolt会被当作很多task在整个集群里面执行。**每一个task对应到一个线程,而stream grouping则是定义怎么从一堆task发射tuple到另外一堆task。你可以调用TopologyBuilder.setSpout和TopBuilder.setBolt来设置并行度 — 也就是有多少个task。

2、配置并行度

  • 对于并发度的配置, 在storm里面可以在多个地方进行配置, 优先级为: defaults.yaml < storm.yaml < topology-specific configuration< internal component-specific configuration < external component-specific configuration
  • worker processes的数目, 可以通过配置文件和代码中配置, worker就是执行进程, 所以考虑并发的效果,数目至少应该大亍machines的数目
  • executor的数目, component的并发线程数,只能在代码中配置(通过setBolt和setSpout的参数), 例如,setBolt(“green-bolt”, new GreenBolt(), 2)
  • tasks的数目, 可以不配置, 默认和executor1:1, 也可以通过setNumTasks()配置 。Topology的worker数通过config设置,即执行该topology的worker(java)进程数。它可以通过 storm rebalance 命令任意调整。
  • 动态的改变并行度
    Storm支持在不 restart topology 的情况下, 动态的改变(增减) worker processes 的数目和 executors 的数目, 称为rebalancing. 通过Storm web UI,或者通过storm rebalance命令实现:
    storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10

并发度描述如下图所示:

配置实例

Config conf = newConfig();
conf.setNumWorkers(2); //用2个worker
topologyBuilder.setSpout("blue-spout", newBlueSpout(), 2); //设置2个并发度
topologyBuilder.setBolt("green-bolt", newGreenBolt(), 2).setNumTasks(4).shuffleGrouping("blue-spout"); //设置2个并发度,4个任务
topologyBuilder.setBolt("yellow-bolt", newYellowBolt(), 6).shuffleGrouping("green-bolt"); //设置6个并发度
StormSubmitter.submitTopology("mytopology", conf, topologyBuilder.createTopology());

3个组件的并发度加起来是10,就是说拓扑一共有10个executor,一共有2个worker,每个worker产生10 / 2 = 5条线程。
绿色的bolt配置成2个executor和4个task。为此每个executor为这个bolt运行2个task。

总结:

知道了并发机制后,那么在实际生产中如何指定驱动类中每个组件的并发度数量?如何设置worker的数量?有以下几个参考点:
1,根据上游的数据量来设置Spout的并发度。
2,根据业务复杂度和execute方法执行时间来设置Bolt并发度。
3,根据集群的可用资源来配置,一般情况下70%的资源使用率。
4,Worker的数量理论上根据程序并发度总的Task数量来均分,在实际的业务场景中,需要反复调整。

Storm程序的并发机制原理总结相关推荐

  1. Strom程序的并发机制,配置并行度(代码实现)、动态改变并行度,local or shuffle分组,分组的概念以及分组类型

    1.Storm程序的并发机制 1.1.概念  Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM 进程.一个Topology可以包含一个或多个worker(并行的跑在不同 ...

  2. 【并发编程的艺术】并发机制原理

    java代码在编译后会变成Java字节码,字节码被类加载器加载到JVM里,JVM执行字节码,最终需要转化成汇编指令在CPU上执行,Java中所使用的并发机制依赖于JVM的实现和CPU的指令 更好的进行 ...

  3. Java基础——线程及并发机制

    前言 在Java中,线程是一个很关键的名词,也是很高频使用的一种资源.那么它的概念是什么呢,是如何定义的,用法又有哪些呢?为何说Android里只有一个主线程呢,什么是工作线程呢.线程又存在并发,并发 ...

  4. 深入学习Java多线程——并发机制底层实现原理

    2019独角兽企业重金招聘Python工程师标准>>> Java代码在编译后会变成Java字节码,字节码被类加载器加载到JVM里,JVM执行字节码,最终需要转化为汇编指令在CPU上执 ...

  5. 《Java并发编程的艺术》:第2章 Java并发机制的底层实现原理

    前言 Java代码在编译后会变成Java字节码,字节码被类加载器加载到JVM里,JVM执行字节 码,最终需要转化为汇编指令在CPU上执行,Java中所使用的并发机制依赖于JVM的实现和 CPU的指令. ...

  6. Java并发机制的底层实现原理

    Java代码在编译后会变成Java字节码,字节码被类加载器加载到JVM里,JVM执行字节码,最终需要转化为汇编指令在CPU上执行,Java中所使用的并发机制依赖于JVM的实现和CPU的指令.本章我们将 ...

  7. Java并发机制底层实现原理-volatile

    章节目录 volatile的实现原理与应用 1.volatile的实现原理与应用 Java source code->Java class->JVM->汇编指令->cpu执行 ...

  8. 《Java并发编程的艺术》一一第2章Java并发机制的底层实现原理

    第2章Java并发机制的底层实现原理 2.1 volatile的应用 Java代码在编译后会变成Java字节码,字节码被类加载器加载到JVM里,JVM执行字节码,最终需要转化为汇编指令在CPU上执行, ...

  9. Storm 05_Storm并发机制通信机制

    一.Storm并发机制 Worker processes Executors (threads) Tasks Worker – 进程 一个Topology拓扑会包含一个或多个Worker(每个Work ...

最新文章

  1. JS显示document里所有的成员
  2. oracle按特定字符截取字符串_妙用字符串的替换和截取让Shell脚本精准得到你心中的那个“她”...
  3. s5-14 链路状态路由选择
  4. Android中文API (60) —— DatePicker.OnDateChangedListener
  5. python语言的取余运算符_Python 中用于整数除法取余的运算符是()_学小易找答案...
  6. 华为root工具_华为Mate9解锁后无法ROOT 需要手动刷入Recovery怎么办【解决方法】...
  7. python 发邮件_Python发邮件告别smtplib,迎接zmail
  8. Lua 可变参数之arg与select
  9. Python数据分析之pandas常用命令整理!
  10. java程序内存泄漏排查
  11. IEEE Xtreme 11.0极限编程题目分类
  12. laravel文件上传与下载
  13. java开源im框架_开源im即时通讯
  14. nova云主机evacuate简单分析
  15. PinYin4j使用教程
  16. 《数据分析实战》--用R做多元回归分析
  17. Python使用BeautifulSoup与selenium爬取Boos直聘
  18. 分众急嫁阿里背后原因,或是新潮电梯屏数已超分众一倍
  19. windows无法连接到打印机_惠普m1216nfh打印机驱动下载-惠普m1216nfh打印机驱动中文版下载[惠普]...
  20. 图像光照校正处理(白平衡)及其速度优化 -opencv+python

热门文章

  1. 解决:springcloud eureka 注册的服务config-client 状态Status:UNKNOWN (1)
  2. 心生想往 ... ...
  3. Expected MultipartHttpServletRequest: is a MultipartResolver configured方案。
  4. 事务相关、不可重复读与幻读的区别
  5. 关于IIS 7.5 限制连接数与流量限制模块
  6. 「日常训练」 Genghis Khan the Conqueror(HDU-4126)
  7. Liunx安装gogs,mysql,jdk,tomcat等常用软件
  8. UIBarbuttonItem
  9. Java元数据总结:Java注释的使用和定义
  10. 关于EMF模型的操作,赶紧记下来