1.试述流数据的概念

流数据,即数据以大量、快速、时变的流形式持续到达。

2.试述流数据的特点

流数据具有如下特征:

  • 数据快速持续到达,潜在大小也许是无穷无尽的
  • 数据来源众多,格式复杂
  • 数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储
  • 注重数据的整体价值,不过分关注个别数据
  • 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序

4.试述流计算的需求

对于一个流计算系统来说,它应达到如下需求:

  • 高性能:处理大数据的基本要求,如每秒处理几十万条数据

  • 海量式:支持TB级甚至是PB级的数据规模

  • 实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别

  • 分布式:支持大数据的基本架构,必须能够平滑扩展

  • 易用性:能够快速进行开发和部署

  • 可靠性:能可靠地处理流数据

7.列举几个常见的流计算框架

目前有三类常见的流计算框架和平台:商业级的流计算平台开源流计算框架公司为支持自身业务开发的流计算框架

1.商业级:IBM InfoSphere Streams和IBM StreamBase

2.较为常见的是开源流计算框架,代表如下:

Twitter Storm:免费、开源的分布式实时计算系统,可简单、高效、可靠地处理大量的流数据

Yahoo! S4(Simple Scalable Streaming System):开源流计算平台,是通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统

3.公司为支持自身业务开发的流计算框架:

Facebook Puma

Dstream(百度)

银河流数据处理平台(淘宝)

8.试述流计算的一般处理流程

流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务

20.试列举几个Storm框架的应用领域

Storm框架可以方便地与数据库系统进行整合,从而开发出强大的实时计算系统

Storm可用于许多领域中,如实时分析、在线机器学习、持续计算、远程RPC、数据提取加载转换等

21.Storm的主要术语包括Streams,Spouts、Bolts、Topology和Stream Groupings,请分别简要描述这几个术语

1.Streams:Storm将流数据Stream描述成一个无限的Tuple序列,这些Tuple序列会以分布式的方式并行地创建和处理

2.Storm框架可以方便地与数据库系统进行整合,从而开发出强大的实时计算系统

3.Bolt:Storm将Streams的状态转换过程抽象为Bolt。Bolt即可以处理Tuple,也可以将处理后的Tuple作为新的Streams发送给其他Bolt

4.Topology:Storm将Spouts和Bolts组成的网络抽象成Topology,它可以被提交到Storm集群执行。Topology可视为流转换图,图中节点是一个Spout或Bolt,边则表示Bolt订阅了哪个Stream。当Spout或者Bolt发送元组时,它会把元组发送到每个订阅了该Stream的Bolt上进行处理

5.Topology:Storm将Spouts和Bolts组成的网络抽象成Topology,它可以被提交到Storm集群执行。Topology可视为流转换图,图中节点是一个Spout或Bolt,边则表示Bolt订阅了哪个Stream。当Spout或者Bolt发送元组时,它会把元组发送到每个订阅了该Stream的Bolt上进行处理

22.一个Topolog由哪些组件组成?

Topology里面的每个处理组件(Spout或Bolt)都包含处理逻辑, 而组件之间的连接则表示数据流动的方向。

27.Storm集群中的Master节点和Work节点各自运行什么后台进程?这些进程又分别负责什么工作?

Storm集群采用“Master—Worker”的节点方式:

Master节点运行名为“Nimbus”的后台程序(类似Hadoop中的“JobTracker”),负责在集群范围内分发代码、为Worker分配任务和监测故障

Worker节点运行名为“Supervisor”的后台程序,负责监听分配给它所在机器的工作,即根据Nimbus分配的任务来决定启动或停止Worker进程,一个Worker节点上同时运行若干个Worker进程

28.试述Zookeeper在Storm框架中的作用

Storm使用Zookeeper来作为分布式协调组件,负责Nimbus和多个Supervisor之间的所有协调工作。借助于Zookeeper,若Nimbus进程或Supervisor进程意外终止,重启时也能读取、恢复之前的状态并继续工作,使得Storm极其稳定。

31.试述Storm框架的工作流程

Storm的工作流程如下图所示:

  • 所有Topology任务的提交必须在Storm客户端节点上进行,提交后,由Nimbus节点分配给其他Supervisor节点进行处理
  • Nimbus节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的Supervisor,并将Task和Supervisor相关的信息提交到Zookeeper集群上
  • Supervisor会去Zookeeper集群上认领自己的Task,通知自己的Worker进程进行Task的处理
  • 说明:在提交了一个Topology之后,Storm就会创建Spout/Bolt实例并进行序列化。之后,将序列化的组件发送给所有的任务所在的机器(即Supervisor节点),在每一个任务上反序列化组件

大数据技术原理与应用之【流计算】习题相关推荐

  1. [渝粤教育] 厦门大学 大数据技术原理与应用 参考 资料

    教育 -大数据技术原理与应用-章节资料考试资料-厦门大学[] 第1章 大数据概述 单元测验 1.[单选题]第三次信息化浪潮的标志是: A.个人电脑的普及 B.互联网的普及 C.云计算.大数据.物联网技 ...

  2. 大数据技术原理与应用课后题(林子雨)

    大数据技术原理与应用(林子雨) 第1章 大数据概述 1单选(2分) 第三次信息化浪潮的标志是: A.个人电脑的普及 B.云计算.大数据.物联网技术的普及 C.虚拟现实技术的普及 D.互联网的普及 正确 ...

  3. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  4. 大数据技术原理与应用—课后题答案(第一章)

    大数据技术原理与应用_林子雨版_课后题答案(第一章) 1.试述信息技术发展史上的3次信息化浪潮及具体内容. 信息化浪潮 发生时间 标志  解决问题                           ...

  5. 大数据技术原理与应用课程建设经验分享

    大数据技术原理与应用课程 建设经验分享 林子雨 厦门大学信息科学与技术学院, 福建 厦门 361005   摘要:大数据专业人才的培养是世界各国新一轮科技较量的基础,高等院校承担着大数据人才培养的重任 ...

  6. 关于大数据技术原理与应用的学习(1)

    学习目标: 大数据技术原理与应用 学习内容: 大数据概述 1.1大数据时代 1.2大数据的概念和影响 1.3大数据的应用 1.4大数据的关键技术 1.5大数据与云计算.物联网的关系 学习时间: 202 ...

  7. 大数据技术原理与应用作业四

    大数据技术原理与应用作业四 1. 试述在Hadoop体系架构中HBase与其他组成部分的相互关系. HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算: 利用Z ...

  8. 关于大数据技术原理与应用的学习(3)

    学习目标: 大数据技术原理与应用 学习内容: 分布式文件系统HDFS 3.1HDFS简介 3.2HDFS相关概念 3.3HTFS体系结构 3.4HTFS存储元原理 3.5HDFS数据读写 3.6HDF ...

  9. 大数据技术原理与应用作业一

    大数据技术原理与应用作业一 1.试述信息技术发展史上的3次信息化浪潮及其具体内容. ​ 第一次信息化浪潮发生在1980年前后,具体标志是个人计算机的出现,PC开始普及,使得计算机走入企业和千家万户,大 ...

  10. 大数据技术原理与应用作业十

    大数据技术原理与应用作业十 1. 试述流数据的概念. 流数据,即数据以大量.快速.时变的流形式持续到达. 2. 试述流数据的特点. 流数据具有如下特征: 数据快速持续到达,潜在大小也许是无穷无尽的 数 ...

最新文章

  1. keras简单介绍与使用
  2. Openstack_SQLAlchemy 修改数据库的表结构
  3. Java synchronized 中的 while 和 notifyAll
  4. php 版权信息自动变化,php自动更新版权信息显示的方法
  5. 快速入门:使用 Docker 运行 SQL Server 容器映像
  6. java 字符串换行问题
  7. 用友中标:打造新一代云化ERP 落地大型企业互联网+
  8. python正则表达式思考_Python正则表达式由浅入深(一)
  9. BA无标度网络的仿真实现
  10. 条形码图像生成库barcodelib使用介绍
  11. 记一次RATEL脱壳配合Il2CppDumper解密完成的样本分析
  12. 我的世界科学计算机,在我的世界打造一台计算机有多难?复旦大神花了一年
  13. 新人怎么发邮件,怎么给客户发一封得体的邮箱—TOM邮箱分享
  14. docker pull报错:Timeout exceeded while awaiting headers解决思路
  15. 睿爸信奥-【临阵磨枪】练习赛(第二场)- T2
  16. 新课程背景下的教师专业发展问题及其对策
  17. linux线程池的使用
  18. 参加培训的小盆友进步了
  19. FZU-1493-ElGamal数字签名-A^X=B(%C)求x
  20. LINUX下常见搜索文件方法

热门文章

  1. 7-4 单词替换 (10分)——单词查找替换方法
  2. Detection:目标检测常用评价指标的学习总结(IoU、TP、FP、TN、FN、Precision、Recall、F1-score、P-R曲线、AP、mAP、 ROC曲线、TPR、FPR和AUC)
  3. java简单小系统-双色球模拟开奖和输入自己的号码查看奖金
  4. 简单音乐播放器,上一曲下一曲,暂停
  5. 九大排序算法告诉你什么是内部排序和外部排序
  6. Vlad描述子详细解释以及对intra-normalization的理解
  7. OOA、OOD、OOP
  8. AES,DES,3DES加密方式的特点
  9. Android MPAndroidChart之饼图PieChart
  10. python locals()用法_一日一技:python中的locals()方法