Storm 是一个分布式的 ,容错的实时计算系统

Storm 实时 低延迟 ,主要有两个原因 :

1 storm 进程是常驻内存的,没有hadoop 里面的不断的起停

2 storm 的数据是不经过磁盘的,都是在内存里面的,处理完成就没有了,数据的交换经过网络,没有磁盘IO

Storm 和hadoop的区别 :

数据来源不同,hadoop是hdfs 上某个文件夹下可能是上TB的数据,storm 是实时的新增的一笔数据

处理过程不同,hadoop是分map 和reduce 阶段额,storm 是由用户定义的处理流程,流程中包含多个步骤,每个步骤可以是数据源spout 或处理逻辑 bolt

是否结束,hadoop 最后是要结束的,storm是没有结束状态,到最后一步时,就停滞,等有新数据进入时再唤醒程序

处理速度不同,hadoop 是以处理hdfs 上大数据量为目的的,速度慢,storm是只要处理实时的新增的某一笔内存中的数据即可,速度极快

适用场景不同,hadoop 是以批处理用的,不讲时效性,处理一次就提交一个job storm 处理一段时间内新增的数据,有时效性

与mq 相比,hadoop 没有可比性,storm 可以看作是n 个步骤,每个步骤处理完就向下一个mq 发送消息,监听这个mq 的消费者继续处理

Storm 架构

Nimbus   集群管理,接受jar包 ,调度topology

nimbus <---> zk<----> slave(supervisor)

nimbus 处理topology submit kill rebalance 等请求

Supervisor  起停worker

监控worker ,把自己的情况汇报给zk

每台机器起一个supervisor 进程

worker   一个jvm进程资源分配单位  ,可以启动多个executor

每个机器supervisor启动多个worker,默认 4 个

executor   干活的奴隶 ,线程

executor 创建 spout bolt 对象 执行spout bolt 里面的nexttuple()  execute()

task

zookeeper

完全分布规划  (zk 服务器 3 台,一台nimbus,N台 supervisor服务器)

storm 的核心配置是 conf/storm.yaml

storm.zookeeper.servers:
 - "spark001"
 - "spark002"
 - "spark003"
nimbus.host: "spark001"

storm 的ui 默认端口是 8080 ?????

编程模型,

DAG  Spout  Bolt

Storm  启动

首先启动zookeeper

依次启动nimbus ,ui supervisor ,logviewer

提交topology

./bin/storm jar examples/storm-starter/storm-starter-topoloies-0.98.0.jar storm.starter.WordCountTopology wordcount

转载于:https://www.cnblogs.com/TendToBigData/p/10501489.html

大数据技术之Stome 概念相关推荐

  1. 大数据技术之 Hadoop概念讲解

    Hadoop介绍 狭义上Hadoop指的是Apache软件基金会的一款开源软件. 用java语言实现,开源 允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 ...

  2. ssm大数据技术学习网0y331【独家源码】 应对计算机毕业设计困难的解决方案

    本项目包含程序+源码+数据库+LW+调试部署环境,文末可获取一份本项目的java源码和数据库参考. 系统的选题背景和意义 选题背景: 随着信息技术的快速发展和互联网的普及,大数据技术在各个领域中扮演着 ...

  3. 《Spark大数据分析:核心概念、技术及实践》大数据技术一览

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...

  4. 大数据技术_ 基础理论 之 大数据概念与应用

    1.1 大数据的概念与意义 1.从"数据"到"大数据" 时至今日,"数据"变身"大数据","开启了一次重大的时 ...

  5. 第一课 大数据技术之Fink1.13的实战学习-部署使用和基础概念

    第一课 大数据技术之Fink1.13的实战学习 文章目录 第一课 大数据技术之Fink1.13的实战学习 第一节 Fink介绍 1.1 Flink介绍背景 1.2 Flink 的应用场景 1.3 流式 ...

  6. 大数据技术概念以及应用领域完全解读

    在写这篇大数据文章之前,我发现身边很多IT人对于这些热门的新技术.新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据是什么,什么是大数据概念?估计很少能说出一二三来.究其原因,一是因为大家对大数据这 ...

  7. 尚硅谷大数据技术Spark教程-笔记09【SparkStreaming(概念、入门、DStream入门、案例实操、总结)】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表[课程资料下载] 视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[SparkCore ...

  8. 【云计算与大数据技术】大数据概念和发展背景讲解(图文解释 超详细)

    一.什么是大数据 大数据是一个不断发展的概念,可以指任何体量或负载下那个超出常规数据处理方法和处理能力的数据,数据本身可以是结构化,半结构化甚至是非结构化的,随着物联网技术与可穿戴设备的飞速发展,数据 ...

  9. 后端技术杂谈12:捋一捋大数据研发的基本概念

    你了解你的数据吗(开篇) 转自http://www.mdjs.info/2018/03/05/data-warehouse/concept-of-dw/ 0x00 前言 你了解你的数据吗? 前几天突然 ...

最新文章

  1. python max函数_Python3
  2. ::operator new、sgi stl alloc、dlmalloc测试结果
  3. .NET 关于Geometry转GeoJson
  4. python解包操作_Python编程使用*解包和itertools.product()求笛卡尔积的方法
  5. 通过网络地址进行真机调试
  6. [转载]Shell正则表达式
  7. WannaCry病毒阴魂不散:本田一家工厂受影响停产一天
  8. C# 操作List集合报错:集合被修改,枚举操作可能不会执行(Collection was modified, enumeration operation may not execute)
  9. Pyston v2.0 发布,速度比 Python 快 20%!
  10. 将PDF转为TXT文本格式提取中文
  11. 程序设计流程图、项目管理流程图模板分享
  12. QT实现串口调试助手(一)
  13. 【H3C模拟器】基于端口VLAN的交换机配置实验(同一vlan互通)
  14. Windows操作系统进阶:防火墙基础和Windows Defender
  15. 翟菜花:中粮我买网,十年未出线
  16. 概率论-1.4 条件概率(重点:对P(A | B)、P(AB)、P(B)之间关系的理解)
  17. java基础代码练习
  18. AD中画圆弧形板框的方法
  19. 浮沙筑塔——protues仿真C51程序之LED灯闪烁
  20. 3阶魔方阵c语言算法,3阶魔方阵的算法

热门文章

  1. Apollo本地jar包启动方法
  2. Python Django 重写delete方法实现单个对象的删除
  3. FastDFS分布式文件系统工作原理
  4. centos7中置空一个文件的内容
  5. Qt 设置应用程序图标
  6. 为啥地址线是20根则存储单元个数为2的20
  7. 百度html在线编辑器插件,百度编辑器UEditor插件DjangoUeditor v1.8.143
  8. 程序 峰谷值 提取_ABAQUS:Python后处理—用excel提取位移、体积、应变等变化(一)...
  9. 触摸屏通常接在微型计算机,计算机应用基础习题答案.doc
  10. js 实现2的n次方计算函数_「计算机组成原理」:一文快速了解计算机原理知识点-附思维导图...