1、Storm核心组件(重要)

l  Nimbus:负责资源分配和任务调度。

l  Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。

l  Worker:运行具体处理组件逻辑的进程。Worker运行的任务类型只有两种,一种是Spout任务,一种是Bolt任务。

l  Task:worker中每一个spout/bolt的线程称为一个task. 在storm0.8之后,task不再与物理线程对应,不同spout/bolt的task可能会共享一个物理线程,该线程称为executor。

2、Storm编程模型(重要)

l  Topology:Storm中运行的一个实时应用程序的名称。(拓扑)

l  Spout:在一个topology中获取源数据流的组件。

通常情况下spout会从外部数据源中读取数据,然后转换为topology内部的源数据。

l  Bolt:接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。

l  Tuple:一次消息传递的基本单元,理解为一组消息就是一个Tuple。

l  Stream:表示数据的流向。

3、流式计算一般架构图(重要)

l  其中flume用来获取数据。

l  Kafka用来临时保存数据。

l  Strom用来计算数据。

l  Redis是个内存数据库,用来保存数据。

storm的核心组件,编程模型,一般机构图相关推荐

  1. Storm架构和编程模型总结

    1. 编程模型 DataSource:外部数据源 Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数 ...

  2. Storm介绍及核心组件和编程模型

    离线计算 离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示 代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.azkaba ...

  3. 从Storm到Flink:大数据处理的开源系统及编程模型(文末福利)

    本文节选自CCF大数据教材系列丛书之<大数据处理>,本书由华中科技大学金海教授主编,包括大数据处理基础技术.大数据处理编程与典型应用处理.大数据处理系统与优化三个方面.本教材以大数据处理编 ...

  4. 从Storm到Flink:大数据处理的开源系统及编程模型

    开源系统及编程模型基于流计算的基本模型,当前已有各式各样的分布式流处理系统被开发出来.本节将对当前开源分布式流处理系统中三个最典型的代表性的系统:Apache Storm,Spark Streamin ...

  5. Storm编程模型总结

    目录 前言: 1.Storm编程模型 2.对应的的WordCount案例 总结: 目录 前言: 对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍) 1.Storm编程模型 上图中组件 ...

  6. 流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型(来自学习资料)

    1.背景-流式计算与storm 2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据.因为其高吞吐.高可靠等特点,很多互联网公司都 ...

  7. 一种基于CUDA标准的异构并行编程模型开发简介

    一种基于CUDA标准的异构并行编程模型开发简介 目录 一.绪论 1.1研究背景及意义 1.2目标平台体系结构简介 二.HPPA基本组成结构 三.编译工具链开发 3.1 拆分工具HPCufe开发 3.2 ...

  8. 朴素、Select、Poll和Epoll网络编程模型实现和分析——朴素模型

    做Linux网络开发,一般绕不开标题中几种网络编程模型.网上已有很多写的不错的分析文章,它们的基本论点是差不多的.但是我觉得他们讲的还不够详细,在一些关键论点上缺乏数据支持.所以我决定好好研究这几个模 ...

  9. Apache SparkStreaming 简介和编程模型

    1. 简介 图5.22 SparkStreaming[16] Spark Streaming是Spark API核心扩展,提供对实时数据流进行流式处理,具备可扩展.高吞吐和容错等特性.Spark St ...

  10. PAI分布式机器学习平台编程模型演进之路

    摘要: 在云栖计算之旅第5期-大数据与人工智能大会上,来自阿里云大数据事业部的九丰分享了<PAI分布式机器学习平台编程模型演进之路>.他主要介绍了在集团中使用机器学习解决大数据问题时如何通 ...

最新文章

  1. Spring Cloud应用开发(四:服务容错保护)
  2. Spring Boot + EasyExcel 导入导出,好用到爆,可以扔掉 POI 了!
  3. html div 可鼠标滚动,js实现鼠标拖拽div左右滑动
  4. 面试总结-腾讯产品群面
  5. 南通大学16级软嵌班软件工程课程成绩汇总
  6. 使用LinkedHashMap的Code4ReferenceList最近使用(LRU)实现
  7. Android leak内存,GitHub - jin870132/memoryleakdemo: 安卓内存泄露几种常见形式及解决方案...
  8. php 操作文件夹 (遍历 计算大小)
  9. linux根目录缩减非lvm,vmware下linux非LVM管理的根目录扩容经历
  10. Java面试之synchronized和Lock有什么区别?
  11. apache主机的重定向和多域名绑定
  12. Xcode10升级问题:Multiple commands produce Info.plist
  13. java access数据库连接_Java Access数据库连接
  14. python下载所有 XKCD 漫画
  15. 智慧城市运营典型模式特征分析
  16. elasticsearch 支持中英文搜索和混合搜索
  17. java工程师职责负责_java工程师岗位职责
  18. Spring源码分析三:Bean标签解析之BeanDefinition
  19. c语言boy,cboy
  20. 实践《如何使用Seata保证Dubbo微服务间的一致性》

热门文章

  1. 2月19日服务器例行维护公告,天涯明月刀 7月19日服务器例行维护公告
  2. 常用统计量及其常见分布
  3. oracle px execute reply,关于昨天的PX Deq: Execute Reply重新开贴请教
  4. Centos7 安装 worldpress
  5. PS精修电影胶片调色特效[附素材及方法]
  6. Kata 在 Kubernetes 中的网络模型
  7. android app 控制背光,android7.1+msm8937背光控制
  8. 2021年9款优秀的大数据可视化BI软件
  9. win10虚拟机搭建群晖nas碰到的一些问题
  10. 电驴服务器软性文件,电驴服务器.doc