storm 流式计算
storm简介
Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛。
是一个分布式, 高容错的 实时计算框架
Storm进程常驻内存, 永久运行
Storm数据不经过磁盘, 在内存中流转, 通过网络直接发送给下游
与haddoop对比
Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍。
storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去了批处理的收集数据的时间;因为storm是服务型的作业,也省去了作业调度的时延。所以从时延上来看,storm要快于hadoop
架构设计
- Nimbus
资源调度,任务分配,接收jar包
- Supervisor
接收Nimbus分配任务,启动、停止自己管理的worker进程
(当前supervisor上的work数量可通过配置文件设定)
- Worker
运行具体处理运算组件的进程 (每个Worker对应执行一个Topology 的子集)
任务类型: spout 任务,bolt任务
内部通讯
数据处理流程
核心概念:
Topology:Storm集群中运行的程序。相当于hadoop中的job
Spout:中文表示水龙头,接收外界传来的数据,相当于flume中的source,调用nextTuple函数,发射供Bolt消费
Bolt:接收Spout传来的数据,传递给另外的Bolt,bolt接收消息,调用executor
Tuple:表示信息的传递单位
Stream分组:spout传递数据 的规则
环境依赖:
jdk1.8,python,apache-storm-1.2.3,zookeeper-3.4.6
参考资料:https://www.cnblogs.com/ronnieyuan/p/11695774.html
https://www.cnblogs.com/zhaojiankai/p/7257617.html
https://blog.csdn.net/qq_41946557/article/details/102177259
以上图片内容来源于网络
storm 流式计算相关推荐
- Storm流式计算入门
流式计算 实时获取数据,实时数据储存,实时数据计算,实时结果缓存,持久化存储(mysql) 代表技术: Flume:实时获取数据 Kafka:实时数据存储 Storm/jstorm:实时数据计算 Re ...
- Storm 流式计算框架介绍
文章目录 1.Storm简介 1.1 DAG(有向无环图) 1.2 Storm介绍 1.2.1 Storm 简介 1.2.2 Storm的优点 1.2.3 Storm的特性 1.3 Storm与Had ...
- storm流式计算的应用案例
Storm集群部署及单词计数 目标: 通过本次能够掌握Strom集群搭建.Storm配置文件.Storm源码管理.Storm编程模型. 课程大纲: 集群部署的基本流程 集群部署的基础环境准备 Stor ...
- spark 流式计算_流式传输大数据:Storm,Spark和Samza
spark 流式计算 有许多分布式计算系统可以实时或近实时处理大数据. 本文将从对三个Apache框架的简短描述开始,并试图对它们之间的某些相似之处和不同之处提供一个快速的高级概述. 阿帕奇风暴 在风 ...
- python 流式计算框架_流式计算的三种框架:Storm、Spark和Flink
我们知道,大数据的计算模式主要分为批量计算(batch computing).流式计算(stream computing).交互计算(interactive computing).图计算(graph ...
- 流式计算的代表:Storm、Flink、Spark Streaming
learn from 从0开始学大数据(极客时间) 文章目录 1. Storm 2. Spark Streaming 3. Flink 对存储在磁盘上的数据进行大规模计算处理,大数据批处理 对实时产生 ...
- 流式计算storm核心组件介绍以及入门案例---跟着就能在本地跑起来的storm项目
关于storm的基础,参照我这篇文章:流式计算storm 关于并发和并行,参照我这篇文章:并发和并行 关于storm的并行度解释,参照我这篇文章:storm的并行度解释 关于storm的流分组策略,参 ...
- 分布式流式计算框架Storm
Storm用于实时处理,就好比 Hadoop 用于批处理. --> 离线计算:批量获取数据,批量传输数据,周期性比量计算数据,数据展示(Sqoop-->HDFS--> ...
- 流式计算的三种框架:Storm、Spark和Flink
我们知道,大数据的计算模式主要分为批量计算(batch computing).流式计算(stream computing).交互计算(interactive computing).图计算(graph ...
最新文章
- Autools学习总结(一)
- C#图片处理示例(裁剪,缩放,清晰度,水印)
- 关于 /dev/null 与 /dev/zero
- MIP开发教程(三) 使用MIP-CLI工具调试组件
- 在电脑上显示未知发布者怎么办_电脑开机后显示器黑屏只有鼠标能动,怎么办呢?...
- SAP算号器 license key Developer Access Key 完美解决方案
- 蓝魔i11pro运行linux,不仅仅是变大了 蓝魔i11pro新玩法
- php根据下标倒序排,PHP的三种排序方式
- Android群英传笔记——第十二章:Android5.X 新特性详解,Material Design UI的新体验...
- mysql 中的bool值
- 穿越迷宫的函数c语言,数据结构课外实践题库(26页)-原创力文档
- Word转PDF方法(jacob插件)
- canvas绘画时钟
- lants vs Zombies 阳光修改器
- torch.view()详解及-1参数是什么意思
- 如何搭建java环境_vscode搭建java环境
- element表格固定表头
- 亚利桑那大学在线计算机硕士,亚利桑那大学计算机工程硕士排名第33(2020年TFE Times排名)...
- 一次服务器沦陷为肉鸡后的实战排查过程!
- 怎么制作小怪兽打凹凸曼的游戏~