流数据分析平台Storm简介

Storm是一个分布式的、容错的实时流计算系统,可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就好比Hadoop之于批处理。Storm保证每个消息都会得到处理,而且它的处理速度很快,在一个小集群中,每秒可以处理数以百万计的消息,而且可以使用任意编程语言来开发。
Storm的集群表面上看和Hadoop的集群非常相似。但是在Hadoop上运行的是MapReduce的Job, 而在Storm上运行的是Topology。它们根本的区别就是,一个MapReduce Job最终会结束, 而一个Topology永远不会结束(除非显式的终止)。Storm作为典型的流处理引擎,它的应用场景有实时分析、在线机器学习、连续计算、分布式RPC、分布式ETL等。

Storm 采用的是主从系统架构,如图1所示。在Storm的集群里面有两种节点: 控制节点(master node)和工作节点(worker node)。在控制节点上面运行一个后台程序: Nimbus, 它的作用类似Hadoop里面的JobTracker。Nimbus负责全局的资源分配、任务调度、状态监控和故障检测等。每一个工作节点上面运行一个叫做Supervisor的节点。Supervisor负责监听分配给它的那台机器的工作,根据需要启动或者关闭工作进程。每一个工作进程执行一个Topology的一个子集;一个运行的Topology由运行在很多机器上的很多工作进程组成。Nimbus和Supervisor都能快速失败,因为它们是无状态的,系统的状态信息保存在Zookeeper或者磁盘设备上,这样一来它们就变得十分健壮,两者的协调工作是由Zookeeper来完成的,ZooKeeper用于管理集群中的不同组件。
 

Topology是Storm 的逻辑单元,所有组件的排列(Spouts 和Bolts)及它们的连接被称为Topology。Storm中一个实时应用的计算任务打包为Topology后发布,Topology一旦提交永远运行,除非显式地去终止。一个Topology是由一系列Spout 和Bolt 构成的有向无环图,通过数据流(stream)实现Spout 和Bolt 之间的关联,如图2 所示。其中,Spout 负责从外部数据源不间断地读取流数据,并以Tuple 元组的形式发送给相应的Bolt。Bolt 负责对接收到的数据流进行计算,实现过滤、聚合、查询等具体功能,可以级联,也可以向外发送数据流。

流数据分析平台Storm简介相关推荐

  1. 流处理框架Storm简介

    转自:http://qing.weibo.com/2294942122/88ca09aa33002dsh.html EMC中国研究院 向东 提起Big Data,人们往往会提起大数据的4个V: Vol ...

  2. 流数据机器学习平台SAMOA简介

    流数据机器学习平台SAMOA简介 SAMOA (Scalable Advanced Massive Online Analysis)是由雅虎开源的流数据在线机器学习的框架.和其它绝大多数大数据处理框架 ...

  3. storm简介(大数据技术)

    Apache Storm简介 由 chalex 创建,小路依依 最后一次修改 2016-12-12 什么是Apache Storm? Apache Storm是一个分布式实时大数据处理系统.Storm ...

  4. 蚂蚁金服杨军:蚂蚁数据分析平台的演进及数据分析方法的应用

    导读: 大家好,今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些数据分析方法是如何应用的. 具体分以下四部分: Part1:主要介绍下我所在的部门,数据平台部主要是做什么的,大概涉及到哪些业 ...

  5. 蚂蚁数据分析平台的演进及数据分析方法的应用

    大家好,今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些数据分析方法是如何应用的. \n 具体分以下四部分: \n \n Part1:主要介绍下我所在的部门,数据平台部主要是做什么的,大概涉 ...

  6. clickhouse 航空数据_趣头条基于Flink+ClickHouse的实时数据分析平台

    原标题:趣头条基于Flink+ClickHouse的实时数据分析平台 分享嘉宾:王金海 趣头条 编辑整理:王彦 内容来源:Flink Forward Asia 出品平台:DataFunTalk 导读: ...

  7. 腾讯基于 Flink 的实时流计算平台演进之路

    原文地址:https://www.infoq.cn/article/TjDeQDJQpKZ*NpG71pRW 大家好,我是来自腾讯大数据团队的杨华(vinoyang),很高兴能够参加这次北京的 QCo ...

  8. 实时流处理框架Storm、Spark Streaming、Samza、Flink,孰优孰劣?!

    https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247486490&idx=1&sn=e25a05be8cf98c ...

  9. 达观数据分析平台架构和Hive实践

    http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存 ...

最新文章

  1. 一种 Web 应用程序级别的 Cluster 实现技术
  2. linux内核dentry结构学习
  3. 从“学徒”(Apprentice III)看领导力(9-17集)
  4. TensorFlow学习笔记(四)自己动手求Weights和biases
  5. 如何把电脑文件传到虚拟机
  6. eclipse C/C++执行scanf优先于printf
  7. MICCAI 2019 Poster
  8. 长江中游水文站点流量数据下载及处理
  9. GB/T 7714, MLA ,APA这几种参考文献格式
  10. 用Python实现的数据化运营分析实例——销售预测
  11. flash学习者不要错过-视频教程打包下载
  12. 云端是一个软件平台,拥有丰富的资源。在云端使用软件,无需安装,一点,下载,直接使用。
  13. Altium Designer 制造输出 各文件后缀的含义
  14. SharePoint 2007部署过程
  15. GmNAC181促进结瘤并提高根瘤的耐盐性
  16. 中国上海人工智能企业CIMCAI世界港航人工智能领军者,成熟智慧港航AI产品,自动化港口数字化航运中国上海人工智能企业智慧港航
  17. HDU 2209 C - 翻纸牌游戏
  18. 2022年危险化学品经营单位主要负责人考试及危险化学品经营单位主要负责人考试资料
  19. 2012七种最最为流行的婚纱摄影的风格
  20. python的单行打印与多行打印

热门文章

  1. java海康sdk_java 集成 海康 SDK
  2. transactionscope 中的异步 处理 异常_.NET Core中TransactionScope事务处理方法介绍及注意事项...
  3. 3D视觉原理之深度暗示(即立体感)
  4. Python:PDB文件中原子和残基重新编号
  5. 【问题收录】svn: E155010: 提交失败(Ubuntu14.04环境)
  6. dx使用出现的错误总结
  7. Fundamental Research:根系分泌物通过调控土壤微生物影响碳周转的机理
  8. mSystems:青大苏晓泉阐述微生物组的Beta多样性-从全局比对到局部比对
  9. Nature Plants:根系微生物可以远程提高植物应对地上部环境胁迫的能力
  10. csvtk:表格处理神器-美化、统计、头表、合并、转置、筛选、取样、去冗余 、分列、分类汇总和简单绘图...