storm 流式计算

storm简介

Storm是Twitter开源的分布式实时大数据处理框架，最早开源于github，从0.9.1版本之后，归于Apache社区，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛。

是一个分布式, 高容错的实时计算框架
Storm进程常驻内存, 永久运行
Storm数据不经过磁盘, 在内存中流转, 通过网络直接发送给下游

与haddoop对比

Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。根据Harvard CS61课件，磁盘访问延迟约为内存访问延迟的75000倍。

storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多；当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间；因为storm是服务型的作业，也省去了作业调度的时延。所以从时延上来看，storm要快于hadoop

架构设计

Nimbus

资源调度,任务分配,接收jar包

Supervisor

接收Nimbus分配任务,启动、停止自己管理的worker进程
(当前supervisor上的work数量可通过配置文件设定)

Worker

运行具体处理运算组件的进程 (每个Worker对应执行一个Topology 的子集)
任务类型： spout 任务,bolt任务

内部通讯

数据处理流程

核心概念：

Topology：Storm集群中运行的程序。相当于hadoop中的job

Spout：中文表示水龙头，接收外界传来的数据，相当于flume中的source，调用nextTuple函数，发射供Bolt消费

Bolt:接收Spout传来的数据，传递给另外的Bolt，bolt接收消息，调用executor

Tuple：表示信息的传递单位

Stream分组：spout传递数据的规则

环境依赖：

jdk1.8,python,apache-storm-1.2.3,zookeeper-3.4.6

参考资料：https://www.cnblogs.com/ronnieyuan/p/11695774.html

https://www.cnblogs.com/zhaojiankai/p/7257617.html

https://blog.csdn.net/qq_41946557/article/details/102177259

以上图片内容来源于网络