来自:网络大数据

每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Hadoop和Spark是获得最大关注的两个。然而该怎么判断哪一款适合你?

如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足你的需求吗?

为了增加混淆,Spark和Hadoop经常与位于HDFS,Hadoop文件系统中的Spark处理数据一起工作。但是,它们都是独立个体,每一个体都有自己的优点和缺点以及特定的商业案例。

本文将从以下几个角度对Spark和Hadoop进行对比:架构,性能,成本,安全性和机器学习。

什么是Hadoop?

Hadoop在2006年开始成为雅虎项目,随后成为顶级的Apache开源项目。它是一种通用的分布式处理形式,具有多个组件:

  • HDFS(分布式文件系统),它将文件以Hadoop本机格式存储,并在集群中并行化;

  • YARN,协调应用程序运行时的调度程序;

  • MapReduce,实际并行处理数据的算法。

Hadoop使用Java搭建,可通过多种编程语言访问,用于通过Thrift客户端编写MapReduce代码(包括Python)。

除了这些基本组件外,Hadoop还包括:

  • Sqoop,它将关系数据移入HDFS;

  • Hive,一种类似SQL的接口,允许用户在HDFS上运行查询;

  • Mahout,机器学习。

除了将HDFS用于文件存储之外,Hadoop现在还可以配置为使用S3存储桶或Azure blob作为输入。

它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。

什么是Spark?

Spark是一个较新的项目,最初于2012年在加州大学伯克利分校的AMPLab开发。它也是一个顶级Apache项目,专注于在群集中并行处理数据,但最大的区别在于它在内存中运行。

鉴于Hadoop读取和写入文件到HDFS,Spark使用称为RDD,弹性分布式数据集的概念处理RAM中的数据。 Spark可以以独立模式运行,Hadoop集群可用作数据源,也可以与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。

Spark是围绕Spark Core搭建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。有几个库在Spark Core上运行,包括Spark SQL,它允许在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于图形问题的GraphX以及允许连续流式传输的流式传输记录数据。

Spark有几个API。原始界面是用Scala编写的,基于数据科学家的大量使用,还添加了Python和R端点。 Java是编写Spark作业的另一种选择。

Databricks由也Spark创始人Matei Zaharia创建的,致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务

1. 架构

  • Hadoop

首先,所有传入HDFS的文件都被分割成块。根据配置的块大小和复制因子,每个块在整个群集中被复制指定的次数。该信息被传递给NameNode,它跟踪整个集群中的所有内容。 NameNode将这些文件分配给一些数据节点,然后将这些文件写入其中。 2012年实施高可用性,允许NameNode故障转移到备份节点上,以跟踪群集中的所有文件。

MapReduce算法位于HDFS之上,由JobTracker组成。一旦应用程序以其中一种语言编写,Hadoop接受JobTracker,然后分配工作(可包括计算单词和清理日志文件的任何内容),以便在存储在Hive仓库中的数据之上运行HiveQL查询)到侦听其他节点的TaskTracker。

YARN分配JobTracker加速并监控它们的资源,以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘。

  • Spark

除了计算在内存中执行并在那里存储直到用户积极保存它们之外,Spark处理的工作方式与Hadoop类似。最初,Spark从HDFS,S3或其他文件存储中的文件读取到名为SparkContext的已建立机制。除此之外,Spark创建了一个名为RDD或弹性分布式数据集的结构,它表示一组可并行操作的元素的不可变集合。

随着RDD和相关操作的创建,Spark还创建了一个DAG或有向无环图,以便可视化DAG中的操作顺序和操作之间的关系。每个DAG都有阶段和步骤;通过这种方式,它与SQL中的解释计划类似。

你可以对RDD执行转换,中间步骤,操作或最终步骤。给定转换的结果进入DAG,但不会保留到磁盘,但操作的结果会将内存中的所有数据保留到磁盘。

Spark中的一个新抽象是DataFrames,它是在Spark 2.0中作为RDD的配套接口开发的。这两者非常相似,但DataFrames将数据组织成命名列,类似于Python的熊猫或R包。这使得它们比RDD更方便用户,RDD没有类似的一系列列级标题引用。 SparkSQL还允许用户像关系数据存储中的SQL表一样查询DataFrame。

2. 性能

发现Spark在内存中运行速度快100倍,在磁盘上运行速度快10倍。在十分之一的机器上,它也被用于对100 TB数据进行排序,比Hadoop MapReduce快3倍。特别发现Spark在机器学习应用中更快,例如朴素贝叶斯和k-means。

由处理速度衡量的Spark性能已经发现比Hadoop更优,原因如下:

每次运行MapReduce任务的选定部分时,Spark都不会受到输入输出问题的束缚。事实证明,应用程序的速度要快得多

Spark的DAG可以在步骤之间进行优化。 Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。

但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的用例,Hadoop被认为是更高效的系统。

3. 成本

Spark和Hadoop都可以作为开源Apache项目免费获得,这意味着可以以零安装成本运行它。但是,重要的是要考虑总体拥有成本,其中包括维护,硬件和软件购买以及雇用了解群集管理的团队。内部安装的一般经验法则是Hadoop需要更多的磁盘内存,而Spark需要更多的内存,这意味着设置Spark集群可能会更加昂贵。此外,由于Spark是较新的系统,因此它的专家更为稀少,而且成本更高。另一种选择是使用供应商进行安装,例如Cloudera for Hadoop或Spark for DataBricks,或使用AWS在云中运行EMR / Mapreduce流程。

由于Hadoop和Spark是串联运行的,即使在配置为在安装Spark的情况下运行的EMR实例上,也可以将提取定价比较分离出来。对于非常高级别的比较,假设你为Hadoop选择计算优化的EMR群集,最小实例c4.large的成本为每小时0.026美元。 Spark最小的内存优化集群每小时成本为0.067美元。因此,Spark每小时更昂贵,但对计算时间进行优化,类似的任务应该在Spark集群上花费更少的时间。

4. 安全性

Hadoop具有高度容错性,因为它旨在跨多个节点复制数据。每个文件都被分割成块,并在许多机器上复制无数次,以确保如果单台机器停机,可以从别处的其他块重建文件。

Spark的容错主要是通过RDD操作来实现的。最初,静态数据存储在HDFS中,通过Hadoop的体系结构进行容错。随着RDD的建立,谱系也是如此,它记住了数据集是如何构建的,并且由于它是不可变的,如果需要可以从头开始重建。跨Spark分区的数据也可以基于DAG跨数据节点重建。数据在执行器节点之间复制,如果执行器和驱动程序之间的节点或通信失败,通常可能会损坏数据。

Spark和Hadoop都可以支持Kerberos身份验证,但Hadoop对HDFS具有更加细化的安全控制。 Apache Sentry是一个用于执行细粒度元数据访问的系统,是另一个专门用于HDFS级别安全性的项目。

Spark的安全模型目前很少,但允许通过共享密钥进行身份验证。

5. 机器学习

Hadoop使用Mahout来处理数据。 Mahout包括集群,分类和基于批处理的协作过滤,所有这些都在MapReduce之上运行。目前正在逐步推出支持Scala支持的DSL语言Samsara,允许用户进行内存和代数操作,并允许用户编写自己的算法。

Spark有一个机器学习库MLLib,用于内存迭代机器学习应用程序。它可用于Java,Scala,Python或R,包括分类和回归,以及通过超参数调整构建机器学习管道的能力。

总结

那么到底是Hadoop还是Spark?它们是目前市场上数据处理最重要的两个分布式系统。

Hadoop主要用于使用MapReduce范例的大规模磁盘操作,而Spark则是一种更灵活,但成本更高的内存处理架构。两者都是Apache的顶级项目,经常一起使用,并且有相似之处,但在决定使用它们时,了解每个项目特征是非常重要的。

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓

Hadoop对Spark:正面比拼报告(架构、性能、成本、安全性和机器学习)相关推荐

  1. Hadoop与spark性能比较试验

    自从spark正式亮相后,其官网上就公开声称其计算速度比hadoop要快10到100倍.我看了后总觉得其存在很大的炒作成份,不太相信.正好单位目前在做一个大数据的项目,于是就借机实实在在的对二者的计算 ...

  2. Hadoop 和 Spark 知识点整理汇总

    文章目录 前言 一.LINUX 系统常用命令汇总 二.Hadoop 常用命令汇总 三.Hadoop 基本概念 1. Hadoop 特性 2. Hadoop 架构 2.1 Hadoop 集群 2.2 H ...

  3. Hadoop和Spark简单概述

    文章目录 Hadoop和Spark概述 一. 简单说说Hadoop 1. Hadoop的产生背景 2. Hadoop核心技术 二. 简单说说Spark 1. Spark的官方定义 2. Spark的核 ...

  4. 【风控系统】风控中心—京东基于Spark的风控系统架构实践和技术细节

    转自:https://www.jianshu.com/p/9de45d2d16e6 感谢博主! 背景 互联网的迅速发展,为电子商务兴起提供了肥沃的土壤.2014年,中国电子商务市场交易规模达到13.4 ...

  5. 【采用】【风控系统】风控中心—京东基于Spark的风控系统架构实践和技术细节

    转自:https://www.jianshu.com/p/9de45d2d16e6 感谢博主! 背景 互联网的迅速发展,为电子商务兴起提供了肥沃的土壤.2014年,中国电子商务市场交易规模达到13.4 ...

  6. 揭秘Sponge:统一Hadoop、Spark、SDS、Swift的大数据操作系统

     揭秘Sponge:统一Hadoop.Spark.SDS.Swift的大数据操作系统 width="22" height="16" src="ht ...

  7. Hadoop精华问答 | Hadoop 和Spark有什么区别?

    我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,希望通过今天的有问有答深入解读Hadoop的昨天.今天和明天,憧憬下一个十年. 1 Q:Hadoop是什么? A:Hado ...

  8. hadoop和spark的区别和联系

    1.hadoop 1)hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. Hadoop实现了一个分布式文件系统HDFS.HDFS有高容错性的特点,并且设计用来部署在低 ...

  9. 阿里大数据面试题集合:Hadoop+HBase+Spark+Zookeeper

    附面试思维导图: Hadoop面试题 讲述HDFS上传文件和读文件的流程? HDFS在上传文件的时候,如果其中一个块突然损坏了怎么办? NameNode的作用? 4.NameNode在启动的时候会做哪 ...

最新文章

  1. R语言curve绘图函数
  2. python3 中的编码问题 unicode, utf-8, gbk, ascii
  3. 操作VR界面仅需眼神,Eyefluence眼控技术解放你的双手
  4. c语言 getch头文件,用getch()需要头文件吗?
  5. vue json 导出 excel
  6. 一篇文章把Self-Attention与Transformer讲明白
  7. 40条提升编程技能的小妙招
  8. sales status change in ERP
  9. 正则表达式 python_Python正则表达式总结
  10. ext教程_exe_作者blackant
  11. Leetcode 199
  12. php让iframe 重定向,利用可以在iframe中嵌入网页进行重定向
  13. c语言 自动答题器,单片机原理作业—电子答题器(课程及设计).doc
  14. 解决黑苹果核显HD4400开机卡在“io console user: gio screen lock state 3”问题/HD4400核显只有7M问题
  15. 大规模异构图召回在美团到店推荐广告的应用
  16. split 自动分割文件脚本
  17. spring定时任务需要在项目启动时执行一次
  18. 编译低版本的binutils-2.16.1错误:ld.texinfo:1592: @itemx must follow @item
  19. POI导出excel,按照父子节点进行分级显示
  20. Linux sed按行遍历文件内容,并删除匹配成功的行

热门文章

  1. szu cf集训Codeforces Round #631 (Div. 2)A ~ D[贪心,数据结构,思维,dp]
  2. 0x51.动态规划 - 线性DP(习题详解 × 10)
  3. 大学生计算机实验基础考试,大学生计算机基础考试试题
  4. linux网页跳转代码,自动识别PC与移动网页跳转代码
  5. ndbcluster 批量修改表空间_Excel小技巧:使用这招快速保护你的工作表
  6. deepnode处理过的图片_这款实用的图片软件,其功能相当于十几款图片处理软件的功能之和...
  7. java hibernate oracle,Java笔记8:Hibernate连接Oracle
  8. Codeforces Round #469 (Div. 2) A/B
  9. 5.10. Web Tools
  10. Scrapy源代码分析-经常使用的爬虫类-CrawlSpider(三)