1. 编程模型
  DataSource:外部数据源
  Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt
  Bolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介质可以是Redis可以是mysql,或者其他。
  Tuple:Storm内部中数据传输的基本单元,里面封装了一个List对象,用来保存数据。
  StreamGrouping:数据分组策略
7种:shuffleGrouping(Random函数),Non Grouping(Random函数),FieldGrouping(Hash取模)、Local or ShuffleGrouping 本地或随机,优先本地。
2. 并发度
  用户指定的一个任务,可以被多个线程执行,并发度的数量等于线程的数量。一个任务的多个线程,会被运行在多个Worker(JVM)上,有一种类似于平均算法的负载均衡策略。尽可能减少网络IO,和Hadoop中的MapReduce中的本地计算的道理一样。
3. 架构
  Nimbus:任务分配
  Supervisor:接受任务,并启动worker。worker的数量根据端口号来的。
  Worker:执行任务的具体组件(其实就是一个JVM),可以执行两种类型的任务,Spout任务或者bolt任务
  Task:Task=线程=executor。 一个Task属于一个Spout或者Bolt并发任务。
  Zookeeper:保存任务分配的信息、心跳信息、元数据信息。
4. Worker与topology
  一个worker只属于一个topology,每个worker中运行的task只能属于这个topology。 反之,一个topology包含多个worker,其实就是这个topology运行在多个worker上。
  一个topology要求的worker数量如果不被满足,集群在任务分配时,根据现有的worker先运行topology。如果当前集群中worker数量为0,那么最新提交的topology将只会被标识active,不会运行,只有当集群有了空闲资源之后,才会被运行。

5. 如何指定驱动类中每个组件的并发度数量?如何设置worker的数量?
  (1) 根据上游的数据量来设置Spout的并发度。
  (2) 根据业务复杂度和execute方法执行时间来设置Bolt并发度。
  (3) 根据集群的可用资源来配置,一般情况下70%的资源使用率。
    (4) Worker的数量理论上根据程序并发度总的Task数量来均分,在实际的业务场景中,需要反复调整

6. Ack-fail机制

  (1) 需要ack-fail时,请为每个tuple生成一个messageID,这个messagetId是用来标识你关心的tuple。当这个tuple被完全处理时,storm框架会调用Spout的ack方法,否则调用fail。至于你的消息是否重发,完全由自己处理。

MySpout{private Map buffer = new HashMap();spout.open()spout.nextTuple(){collector.emit()buffer.put(msgId,messValue)}spout.outputFields()spout.ack(msgId){//消息移除
        buffer.remove(msgId);}spout.fail(msgId){//消息重发String messValue = buffer.get(msgId)collector.emit();}}MyBolt{bolt.execute(){//先判断消息是否被处理过// 在redis或mysql中保存一个处理过的消息列表    //需要手动的调用ack方法
        collector.ack(tuple)}}

  (2) 在Spout有并发度的情况下,storm会根据tuple最开始的所属的spout taskId,通知相应的spoutTask

   (3) 在流式计算中topology的bolt组件是可以配置多个的,在每个环节中,都需要bolt组件显式告诉storm框架,自己对当前接受的这个tuple处理完成。
<spoutTaskId,<RootID,ackaValue=0>>

spout1----->tuple1(msgId,rootId)-----bolt1-----collector.ack(tuple)bolt1-----tuple1-1----->bolt2------ack(tuple1-1)bolt1-----tuple1-2----->bolt2------ack(tuple1-2)bolt1-----tuple1-3----->bolt2------ack(tuple1-3)bolt1-----tuple1-4----->bolt2------ack(tuple1-4)bolt2-----tuple2-1----->bolt3------ack(tuple2-1)bolt2-----tuple2-2----->bolt3------ack(tuple2-2)bolt2-----tuple2-3----->bolt3------ack(tuple2-3)bolt2-----tuple2-4----->bolt3------ack(tuple2-4)

  (4) ack机制里面,发送两种类型的tuple。一种是原始消息(DataTuple),另外一种是ackTuple<RootID,tupleID>,DataTuple中会包含一个MessageId的对象,

spout.emit(DataTuple(MessageId(ackTuple)))------->bolt1.execute(dataTuple)---->collector.ack(dataTuple)
ackTuple--------------------->Acker.execute(tuple)
dataTuple--->MessageId--->ackTuple
Acker.execute(tuple)


转载于:https://www.cnblogs.com/sunfie/p/7268199.html

Storm架构和编程模型总结相关推荐

  1. 从Storm到Flink:大数据处理的开源系统及编程模型(文末福利)

    本文节选自CCF大数据教材系列丛书之<大数据处理>,本书由华中科技大学金海教授主编,包括大数据处理基础技术.大数据处理编程与典型应用处理.大数据处理系统与优化三个方面.本教材以大数据处理编 ...

  2. 从Storm到Flink:大数据处理的开源系统及编程模型

    开源系统及编程模型基于流计算的基本模型,当前已有各式各样的分布式流处理系统被开发出来.本节将对当前开源分布式流处理系统中三个最典型的代表性的系统:Apache Storm,Spark Streamin ...

  3. 流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型(来自学习资料)

    1.背景-流式计算与storm 2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据.因为其高吞吐.高可靠等特点,很多互联网公司都 ...

  4. Storm介绍及核心组件和编程模型

    离线计算 离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示 代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.azkaba ...

  5. Storm编程模型总结

    目录 前言: 1.Storm编程模型 2.对应的的WordCount案例 总结: 目录 前言: 对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍) 1.Storm编程模型 上图中组件 ...

  6. 【GPGPU编程模型与架构原理】第二章 2.1 计算模型

      本章介绍以CUDA和OpenCL 并行编程中的一些核心架构概念来展示GPGPU的计算.编程和存储模型.本章还介绍虚拟指令集和机器指令集,逐步揭开GPGPU体系结构的面纱. 2.1 计算模型 计算模 ...

  7. Apache SparkStreaming 简介和编程模型

    1. 简介 图5.22 SparkStreaming[16] Spark Streaming是Spark API核心扩展,提供对实时数据流进行流式处理,具备可扩展.高吞吐和容错等特性.Spark St ...

  8. 面向大数据处理的数据流编程模型和工具综述

    点击上方蓝字关注我们 面向大数据处理的数据流编程模型和工具综述 邹骁锋, 阳王东, 容学成, 李肯立, 李克勤 湖南大学信息科学与工程学院,湖南 长沙 410008 论文引用格式: 邹骁锋, 阳王东, ...

  9. CUDA刷新器:CUDA编程模型

    CUDA刷新器:CUDA编程模型 CUDA Refresher: The CUDA Programming Model CUDA,CUDA刷新器,并行编程 这是CUDA更新系列的第四篇文章,它的目标是 ...

最新文章

  1. [JS]题解 | #岛屿数量#
  2. 挑战8门UDACITY课程学习方法总结
  3. 我的 Windows Vista 上安装的工具
  4. coco数据集大小分类_如何处理不平衡数据集的分类任务
  5. 在python中,小数点前的0可以省略不写...
  6. 三相逆变器双pi控制器参数如何调节_Boost 变换器 PI参数设计举例
  7. 计算机网络--详述OSI七层模型与TCP/IP五层模型
  8. python实现输出日历_python实例9:输出时间日期和当月日历
  9. C语言开发笔记(七)const和指针
  10. lucene,lucene.net学习教程
  11. php mongo 认证,MongoDB 认证机制升级
  12. [C++]Linux之C编程异常[true未定义解决方案]
  13. jQuery特效 | 导航底部横线跟随鼠标缓动
  14. 课程笔记--复习专用
  15. SQL Server 2008 R2
  16. VO、DO、DTO、PO是什么
  17. Steam 界面布局出错的问题
  18. 用Maven构建 Fat JAR
  19. SEM和SD的区别和联系,以及其计算方法(实际作图方法)
  20. js实现点击隐藏图片

热门文章

  1. 图像马赛克原理及实现
  2. 数据可视化(推荐Tableau、 PowerBI 、FineBI、Echarts、ggplot、PYTHON、R)---数据分析领域的万金油技能
  3. spark1.3.1使用基础教程
  4. JSON学习笔记(六)- JSONP
  5. 注解 @EnableFeignClients 工作原理
  6. Spark中RDD转换成DataFrame的两种方式(分别用Java和scala实现)
  7. 磁盘的顺序读写与随机读写详解
  8. editplus的使用技巧
  9. 一、从零创建VUE项目
  10. mac中NSScrollView自定义滑动条NSScroller