戳蓝字“CSDN云计算”关注我们哦!

Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统等, 大数据实时处理解决方案的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流。

1

Q:Storm是什么?

A:在Storm之前,进行实时处理是非常痛苦的事情: 需要维护一堆消息队列和消费者,他们构成了非常复杂的图结构。消费者进程从队列里取消息,处理完成后,去更新数据库,或者给其他队列发新消息。

这样进行实时处理是非常痛苦的。我们主要的时间都花在关注往哪里发消息,从哪里接收消息,消息如何序列化,真正的业务逻辑只占了源代码的一小部分。一个应用程序的逻辑运行在很多worker上,但这些worker需要各自单独部署,还需要部署消息队列。最大问题是系统很脆弱,而且不是容错的:需要自己保证消息队列和worker进程工作正常。

Storm完整地解决了这些问题。它是为分布式场景而生的,抽象了消息传递,会自动地在集群机器上并发地处理流式计算,让你专注于实时处理的业务逻辑。

2

Q:Storm有哪些特点?


A:

编程简单:开发人员只需要关注应用逻辑,而且跟Hadoop类似,Storm提供的编程原语也很简单

高性能,低延迟:可以应用于广告搜索引擎这种要求对广告主的操作进行实时响应的场景。

分布式:可以轻松应对数据量大,单机搞不定的场景

可扩展:随着业务发展,数据量和计算量越来越大,系统可水平扩展

容错:单个节点挂了不影响应用

消息不丢失:保证消息处理

3

Q:对于传统使用数据库的报表,数据有上亿条。用户针对这些数据查询,查询条件包含时间段、区域等等十几个,总之查询条件是多维度的,使用存储过程实现,需要多次group by,耗时近十分钟。请问这种场景下想要实时查询,秒级返回结果,Storm可适用?

A:不是很合适,要么放HDFS中通过Impla,Spark SQL,Kylin等交互式查询,要么通过传统的数据仓库来做,流式计算主要处理实时产生的增量数据。

4

Q:Storm的应用有哪些?


A:跟Hadoop不一样,Storm是没有包括任何存储概念的计算系统。这就让Storm可以用在多种不同的场景下:非传统场景下数据动态到达或者数据存储在数据库这样的存储系统里(或数据是被实时操控其他设备的控制器(如交易系统)所消费)

例如Nathan Marz提供的例子,产生Twitter的趋势信息。Twitter从海量推文中抽取趋势信息,并在本地区域和国家层级进行维护。这意味者一旦一个案例开始出现,Twitter的话题趋势算法就能实时的鉴别出这个话题。这个实时的算法就是通过在Storm上连续分析Twitter数据来实现的。

5

Q:Kafka在Storm中的角色是什么呢?是作为分流的解决方案,还是作为通信的工具?Kafka的前置机是什么?数据量大的时候Kafka会不会崩掉?

A:Kafka在Storm之前扮演一个缓冲的消息队列;Kafka最开始的前置一般有Flume等,其他消息也可以直接往Kafka写,Storm的中间过程也可以存到Kafka中,当做一个消息队列来用;双十一的时候,分区设置小,Kafka满了,来不及处理崩过,写Kafka的时候;如果客户端直接写Kafka,也要注意,并发量大会把Kafka搞挂。采用异步写+本地缓存写Kafka,比如log4j写Kafka,基本的异步和本地缓存等已经做了,数据量再大的时候,加一层Flume等。

小伙伴们冲鸭,后台留言区等着你!

关于Storm,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~

福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

推荐阅读:

  • Elastic Jeff Yoshimura:开源正在开启新一轮的创新 | 人物志

  • 深入浅出Docker 镜像 | 技术头条

  • 19岁当老板, 20岁ICO失败, 21岁将项目挂到了eBay, 为何初创公司如此艰难?

  • 码二代的出路是什么?

  • 机器学习萌新必备的三种优化算法 | 选型指南

  • 小程序的侵权“生死局”

  • @996 程序员,ICU 你真的去不起!

真香,朕在看了!

Storm精华问答 | Kafka在Storm中的角色是什么?相关推荐

  1. Storm精华问答 | storm与Hadoop有什么区别?

    戳蓝字"CSDN云计算"关注我们哦! 归于Apache社区,Storm被业界称为实时版Hadoop.随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍.而目前已是分 ...

  2. Storm精华问答 | 如何处理常见故障?

    Hadoop能够进行大批量数据的离线处理,但是在实时计算上的表现实在是不尽如人意;而Storm就可以担当这部分的角色,今天,就让我们看看关于Storm的精华问答吧. 1 Q:发布topology到远程 ...

  3. Storm精华问答 | task与executor有什么关系?

    戳蓝字"CSDN云计算"关注我们哦! 归于Apache社区,Storm被业界称为实时版Hadoop.随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍.而目前已是分 ...

  4. Storm精华问答 | 为什么要用Storm?不用Spark?

    戳蓝字"CSDN云计算"关注我们哦! Apache Storm是一个分布式实时大数据处理系统.Storm设计用于在容错和水平可扩展方法中处理大量数据.它是一个流数据框架,具有最高的 ...

  5. Storm精华问答 | 最火的流式处理框架——Storm

    戳蓝字"CSDN云计算"关注我们哦! Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop.  今天就为大家带来Storm诞生到发展再到实践,赶快 ...

  6. Storm精华问答 | storm与Hadoop区别?

    戳蓝字"CSDN云计算"关注我们哦! Apache Storm是一个分布式实时大数据处理系统.Storm设计用于在容错和水平可扩展方法中处理大量数据.它是一个流数据框架,具有最高的 ...

  7. Storm精华问答 | 如何理解spout/bolt的生命周期?

    戳蓝字"CSDN云计算"关注我们哦! Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop.随着越来越多的场景对Hadoop的MapReduce高 ...

  8. Kafka精华问答 | Kafka的主要应用场景有哪些?​

    Kafka是最初由Linkedin公司开发,具有高性能.持久化.多副本备份.横向扩展能力.今天,我们就看看看关于Kafka的精华问答吧. 1: Q:什么是Kafka? A:Kafka是由Apache软 ...

  9. Kafka精华问答 | kafka节点之间如何备份?

    戳蓝字"CSDN云计算"关注我们哦! Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写.作为一种高吞吐量的分布式发布订阅消息系统,有着诸多特 ...

最新文章

  1. matlab实战系列之人工鱼群算法求解TSP问题原理解析(下篇源码解析)
  2. BUG总结——记一次sql查询未按照想要的次序返回
  3. Loadrunner常用15种的分析点
  4. wxpython实例源码_wxpython中复选框的基本使用源码实例
  5. 数据库 数据库编程二
  6. Java静态变量,常量,成员变量,局部变量
  7. linux创建删除用户和用户组
  8. Kinect v2基于Ubuntu16.04使用ORK中linemod算法进行目标检测和定位
  9. java wps haspassword,#在WPS表格里面设置了密码怎么取消#excel解除密码保护
  10. 分享一个免费开源的视频录制软件(OBS)
  11. 东北师范大学计算机研究生拟录取名单,东北师范大学2016年硕士研究生拟录取名单公示...
  12. linux内核创建ubi,Linux最新UBI文件系统介绍
  13. day16-20180705-流利阅读笔记
  14. 建立“图书_读者”数据库及如下 3 个表,并输入实验数据,用 SQL 语句实现如下五个查询(opengauss)
  15. 数论基础——数论函数(1)
  16. Python爬取“爆款剧”——《三十而已》热评,并做可视化
  17. c语言小程序作业,c语言小程序(c语言简单小程序代码)
  18. 两小时学会MySQL查询语句(上篇)
  19. Matplotlib图片保存
  20. 傲慢与偏见之 - 谷歌中国逆袭史

热门文章

  1. 西媒盘点:历史不该遗忘的七位女数学家
  2. 日本生物学家登上千元纸钞,中国“疫苗之王”也应该受到尊重!
  3. instring java_Decode a string in Java
  4. 按照标题排序mysql_Oracle EBS Form中实现点击列标题进行排序
  5. tcp状态机-三次握手-四次挥手以及常见面试题
  6. python练习代码保存
  7. Delta3d插件机制
  8. DataWorks 功能实践速览03期 — 生产开发环境隔离
  9. 爱奇艺体育:体验Serverless极致扩缩容,资源利用率提升40%
  10. 数禾云上数据湖最佳实践