离线计算

离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示

代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度

流式计算

流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示

代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。

一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果

离线计算和实时计算的区别

实时收集、实时计算、实时展示

Storm

Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。

Storm和Hadoop的区别

(storm实时流处理,每秒可处理数万条消息;hadoop批处理,HDFS和MapReduce处理大量数据通常需要几分钟到几小时)

Storm用于实时计算,Hadoop用于离线计算。

Storm处理的数据保存在内存中,源源不断;Hadoop处理的数据保存在文件系统中,一批一批。

Storm的数据通过网络传输进来;Hadoop的数据保存在磁盘中。

Storm与Hadoop的编程模型相似

Job:任务名称

JobTracker:项目经理

TaskTracker:开发组长、产品经理

Child:负责开发的人员

Mapper/Reduce:开发人员中的两种角色,一种是服务器开发、一种是客户端开发

Topology:任务名称

Nimbus:项目经理

Supervisor:开发组长、产品经理

Worker:开发人员

Spout/Bolt:开人员中的两种角色,一种是服务器开发、一种是客户端开发

Storm应用场景

Storm用来实时计算源源不断产生的数据,如同流水线生产一样。

日志分析

海量日志中分析出特定的数据,并将分析的结果存入外部存储器用来辅佐决策。

管道系统

将一个数据从一个系统传输到另外一个系统,比如将数据库同步到Hadoop

消息转化器

将接受到的消息按照某种格式进行转化,存储到另外一个系统如消息中间件

Storm核心组件(重要

Nimbus(主节点):负责资源分配和任务调度。

Supervisor(从节点):负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。worker的数量根据端口号来的!

Worker(进程):运行具体处理组件逻辑的进程(其实就是一个JVM)。Worker运行的任务类型只有两种,一种是Spout任务,一种是Bolt任务。

Task(线程):worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后,task不再与物理线程对应,不同spout/bolt的task可能会共享一个物理线程,该线程称为executor。task=线程=executor

Zookeeper(分布式协调服务) :保存任务分配的信息、心跳信息、元数据信息。

Storm编程模型(重要

Topology:Storm中运行的一个实时应用程序的名称。(拓扑)

Spout:在一个topology中获取源数据流的组件。   通常情况下spout会从外部数据源中读取数据,然后转换为topology内部的源数据。

Bolt:接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。

Tuple:一次消息传递的基本单元,理解为一组消息就是一个Tuple。

Stream:表示数据的流向。

流式计算一般架构图(重要

l 其中Flume用来获取数据

l Kafka用来临时保存数据

l Strom用来计算数据

l Redis是个内存数据库,用来保存数据

转载于:https://www.cnblogs.com/ahu-lichang/p/6858807.html

Storm介绍及核心组件和编程模型相关推荐

  1. 网络编程模型 / Reactor

    之前一直不理解 Reactor 模型的含义,后来在知乎上看见了一个 demo,再结合文字终于理解什么是 Reactor 模型了,这里分享给大家. 一.介绍 网络编程模型通常有如下几种:Reactor, ...

  2. 【转】异步编程:.NET 4.5 基于任务的异步编程模型(TAP)

    最近我为大家陆续介绍了"IAsyncResult异步编程模型 (APM)"和"基于事件的异步编程模式(EAP)"两种异步编程模型.在.NET4.0 中Micro ...

  3. 【转】1.8异步编程:.NET 4.5 基于任务的异步编程模型(TAP)

    传送门:异步编程系列目录-- 最近我为大家陆续介绍了"IAsyncResult异步编程模型 (APM)"和"基于事件的异步编程模式(EAP)"两种异步编程模型. ...

  4. 【转】1.6异步编程:IAsyncResult异步编程模型 (APM)

    传送门:异步编程系列目录-- 大部分开发人员,在开发多线程应用程序时,都是使用ThreadPool的QueueUserWorkItem方法来发起一次简单的异步操作.然而,这个技术存在许多限制.最大的问 ...

  5. 从Storm到Flink:大数据处理的开源系统及编程模型(文末福利)

    本文节选自CCF大数据教材系列丛书之<大数据处理>,本书由华中科技大学金海教授主编,包括大数据处理基础技术.大数据处理编程与典型应用处理.大数据处理系统与优化三个方面.本教材以大数据处理编 ...

  6. 从Storm到Flink:大数据处理的开源系统及编程模型

    开源系统及编程模型基于流计算的基本模型,当前已有各式各样的分布式流处理系统被开发出来.本节将对当前开源分布式流处理系统中三个最典型的代表性的系统:Apache Storm,Spark Streamin ...

  7. Storm编程模型总结

    目录 前言: 1.Storm编程模型 2.对应的的WordCount案例 总结: 目录 前言: 对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍) 1.Storm编程模型 上图中组件 ...

  8. HSHA多线程网络编程模型介绍

     我在上一篇的分享<Leader/Follower多线程网络模型介绍>中详细介绍了LF多线程网络模型的原理和代码分析.它的思路是减少线程上下文切换和数据拷贝时间,通过角色转换,来提高处 ...

  9. Storm架构和编程模型总结

    1. 编程模型 DataSource:外部数据源 Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数 ...

最新文章

  1. php执行mysql insert,当执行mysql insert 时插入两条是咋回事
  2. qstringlist格式怎么写到txt_进阶能力 | 一招解决TXT电子书乱码问题
  3. shell学习之常用命令总结
  4. 【sprinb-boot】maven 多模块项目:单独 spring-boot:run 某个模块
  5. python学习之路day1
  6. 鹅厂后台开发工程师的工作日常
  7. 还在用 Python 2.x?Python 3.7.0 正式发布!
  8. 微信开发实现一键拨号出现屏蔽问题的解决方案
  9. android studio配置国内,Android studio配置国内镜像源
  10. 剑指offer——11.旋转数组的最小数字
  11. linux mysql 相关操作、问题
  12. Y2K问题和2038问题
  13. 计算机导论.mobi,计算思维:计算学科导论
  14. 话说ipsec之倚天屠龙记版
  15. 微信开发者工具调试公众号网页提示: 未绑定为公众号的网页开发者
  16. 携程到底有没有大数据杀熟?!
  17. Android App应用启动分析与优化
  18. python 多进程编程 之 加速kmeans算法
  19. 分布式数据库HBase
  20. 钰泰ETA9880.9881.9882可代替IP5306.5407.充电IC

热门文章

  1. Facebook开源新NLP框架:简化部署流程,大规模应用也OK
  2. 业内最大规模多标签图像数据集开源 | GitHub资源
  3. MIT新研究:基于基本运动能力让机器人自主学习,感知世界
  4. 密集人体姿态估计:2D图像帧可实时生成UV贴图(附论文)
  5. 那么多GAN哪个好?谷歌大脑泼来冷水:都和原版差不多 | 论文
  6. 力荐50个最实用的免费机器学习数据集
  7. 征服大前端视频教程第一季(jQuery、HTML5、CSS3、Node.js)
  8. 宏碁推智能佛珠,修养心性也可数据化
  9. Windows 10开机可以跳过锁屏界面的操作方法
  10. Why Go Is Not Good