2019独角兽企业重金招聘Python工程师标准>>>

1   simple introduction

Storm 在集群上运行一个 Topology的时刻,主要通过以下3个实体来完成Topology的执行工作

1  Worker

2 Executor

3 Task

一个Worker 进程执行的是一个topology的子集,这里我们必须强调:不会存在一个worker 为多个topology服务,

一个worker进程会启动一个或则多个executor 线程来执行一个topology的compotent-》也就是Spout或者bolt,

一个topology就是由于集群中间的多台物理机上的Worker构成的

一个executor是一个被Worker进程启动的单独线程,每一个Executor都只会运行一个topology的一个component,

在默认的情况之下,一个spout,或则一个bolt都只会生成一个task,Executor线程里会在每次循环的时候顺序的去调用所有的task的实例子

task是最终运行spout或bolt中代码的单元(注:1个task即为spout或bolt的1个实例,executor线程在执行期间会调用该task的nextTuple或execute方法)。topology启动后,1个component(spout或bolt)的task数目是固定不变的,但该component使用的executor线程数可以动态调整(例如:1个executor线程可以执行该component的1个或多个task实例)。这意味着,对于1个component存在这样的条件:#threads<=#tasks(即:线程数小于等于task数目)。默认情况下task的数目等于executor线程数目,即1个executor线程只运行1个task

更加细化的来说:

一个storm topology运行起来之后, 会在supervisor 机器上启动一些进程来运行spout和bolt实例.

如果一个topology里面一共有一个spout, 一个bolt。 其中spout的parallelism是2, bolt的parallelism是4, 那么我们可以把这个topology的总工作量看成是6, 那么一共有6个task,那么/tasks/{topology-id}下面一共会有6个以task-id命名的文件,其中两个文件的内容是spout的id, 其它四个文件的内容是bolt的id。

task->node+port, 它其实就是从task-id到supervisor-id+port的映射, 也就是把这个task分配给某台机器的某个端口来做。

topology里面的组件(spout/bolt)都根据parallelism被分成多个task, 而这些task被分配给supervisor的多个worker来执行。

task都会跟一个componment-id关联, componment是spout和bolt的一个统称.

对于每一个component在部署的时候都会指定使用的数量, 在storm-user中有一个讨论说明了这个问题: 
里面的大意是说, 通过设置parallelism来指定执行spout/bolt的线程数量. 而在配置中还有另外一个地方(backtype.storm.Config.setNumWorkers(int))来指定一个storm集群中执行topolgy的进程数量, 所有的线程将在这些指定的worker进程中运行. 比如说一个topology中要启动300个线程来运行spout/bolt, 而指定的worker进程数量是60个, 那么storm将会给每个worker分配5个线程来跑spout/bolt, 如果要对一个topology进行调优, 可以调整worker数量和spout/bolt的parallelism数量(调整参数之后要记得重新部署topology. 后续会为该操作提供一个swapping的功能来减小重新部署的时间).

对于worker和task之间的比例, nathan也给出了参考, 即1个worker包含10~15个左右, 当然这个参考, 实际情况还是要根据配置和测试情况

3: work 进程内部消息传递处理和数据结构分析

本文从外部消息在worker进程内部的转化,传递及处理过程入手,一步步分析在worker-data中的数据项存在的原因和意义。试图从代码实现的角度来回答,如果是从头开始实现worker的话,该如何来定义消息接口,如何实现各自接口上的消息处理。

3.1 Topology 到worker的映射关系

Topology 由Spout,Bolt组成,其中的逻辑关系大体如下

请注意 Acker的行为,是在tuple,以及tuple所产生的其他tuple被确认消费掉以后,才会

有你的ACK行为

无论是Spout或Bolt的处理逻辑都需要在进程或线程内执行,那么它们与进程及线程间的映射关系又是如何呢。有关这个问题,Understanding the Parallelism of a Storm Topology 一文作了很好的总结,现重复一下其要点。

  1. 1  worker是进程,executor对应于线程,spout或bolt是一个个的task

  2. 2 同一个worker只会执行同一个topology相关的task

  3. 3 在同一个executor中可以执行多个同类型的task, 即在同一个executor中,要么全部是bolt类的task,要么全部是 spout类的task

  4. 4 运行的时候,spout和bolt需要被包装成一个又一个task

期间的三个组件的关系为:

小结一下,Worker=Process, Executor=Thread, Task=Spout or Bolt.

每一个executor使用的是actor pattern,high level的处理逻辑如下图所示

转载于:https://my.oschina.net/infiniteSpace/blog/282652

Storm【技术文档】-Worker Executor Task的关系相关推荐

  1. IBM 技术文档:Spark, 快速数据分析的又一选择

    IBM 技术文档:Spark, 快速数据分析的又一选择 原文出处:http://www.ibm.com/developerworks/library/os-spark/ 摘要:尽管Hadoop在分布式 ...

  2. VuePress 手摸手教你搭建一个类Vue文档风格的技术文档/博客

    前言: VuePress是尤大为了支持 Vue 及其子项目的文档需求而写的一个项目,VuePress界面十分简洁,并且非常容易上手,一个小时就可以将项目架构搭好.现在已经有很多这种类型的文档,如果你有 ...

  3. 代码中如何让无序标记的内容并排_英语技术文档中如何正确使用无序列表和有序列表?...

    Foreword 之前跟大家分享过英语技术文档中如何正确使用时态和英语技术文档中如何正确使用人称,这一篇再跟大家分享一下如何正确使用无序列表和有序列表. 其实,在技术文档中,除了无序列表和有序列表,另 ...

  4. 一款适合IT团队的在线API文档、技术文档工具-showdoc介绍

    还在为word文档传来传去查阅不方便而烦恼吗,还在为查看数据库字段含义不方便而烦恼吗,还在为编写接口文档而烦恼吗?今天为大家推荐一款适合IT团队的在线API文档.技术文档工具,有免费开源和在线托管的版 ...

  5. Debezium系列之:使用Debezium接入SQL Server数据库数据到Kafka集群的详细技术文档

    Debezium系列之:使用Debezium接入SQL Server数据库数据到Kafka集群的详细技术文档 一.Debezium概述 二.SQL Server 连接器的工作原理 1.Snapshot ...

  6. 关于我为了看懂技术文档而爬英语技术文档的单词这件事

    想法来源 之前,应该是看了<大话设计数据结构>作者在书中说过(应该是这本书名,如果不是,抱歉,我没记名字的习惯),为了逼自己学英语,爬取英语网站的单词,把英语网站常用的单词,按出现的次数排 ...

  7. [技术文档] 一劳永逸,用USB设备制作多系统引导

    2019独角兽企业重金招聘Python工程师标准>>> [技术文档] 一劳永逸,用USB设备制作多系统引导  [复制链接] binghe27 艺有所成 当前离线 主题 8  UID ...

  8. 不写技术文档是个什么梗

    写文档在工作中很常见了,正规的公司都有文档,除非是很简单的东西. 文档用来给新人或不熟悉的人的看,出需求也要文档.只凭笔在本子上划几下不能让人懂. 凡是稍微复杂的东西一定用文档梳理流程,有的还有流程图 ...

  9. 做一个像Keras在线技术文档(Sphinx + GitHub + Read the Docs)

    之前看到Keras的中文文档十分心动也想自己做一个,最终被我做成了.这里写一下制作流程. 制作效果感觉还是不错的 链接:https://opencv-learning.readthedocs.io/z ...

最新文章

  1. html/css——注意事项
  2. 树莓派学习 -- 无法扫描出树莓派IP
  3. 云开发系列课程让你从入门到精通快速上手Serverless和云开发技术
  4. python算法系列资料集(三)
  5. web报表工具FineReport使用中遇到的常见报错及解决办法(一)
  6. 深度学习_目标检测 R-CNN 论文笔记
  7. 高级软件工程第六次作业:东理三剑客团队作业-3
  8. 11.无限分类表的数据库设计
  9. 坑爹的RockSaw和坑爹的windows7
  10. 【语音隐写】基于matlab GUI DWT音频数字水印(带语音播报)【含Matlab源码 711期】
  11. 使用Python剪辑 拼接音频文件
  12. VS2017+OpenCV4.1.0(VC15)、VS2015+OpenCV3.4.1(VC14) 配置
  13. html中的value属性取值
  14. 成都待慕电商:抖音极速版商品卡免佣扶持政策规则
  15. Docker安装部署及使用
  16. itchat实现自动回复好友消息
  17. Linux查找之find/df/du命令
  18. Leetcode(4)寻找两个有序数组的中位数
  19. 浅谈WaterMark
  20. 微信公众号之刷卡支付

热门文章

  1. 面试题—Mysql篇
  2. 基本概念—机器学习ML与深度学习DL
  3. Non-zero exit code (1)
  4. spring mvc静态资源访问的配置
  5. 重温Javascript(四)-函数
  6. 转载---SQL Server XML基础学习之5--XQuery(query)
  7. (寒假CF)Choosing Symbol Pairs
  8. 黑客与画家 part1 版权声明 part2 O'Reilly Media,Ina.介绍
  9. C# 操作ACCESS数据库
  10. RabbitMQ操作代码封装