谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

解决问题的层面不一样

首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。

同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

两者可合可分

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。

相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。

以下是从网上摘录的对MapReduce的最简洁明了的解析:

我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

Spark数据处理速度秒杀MapReduce

Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…“ Booz Allen Hamilton的数据科学家Kirk Borne如此解析。

反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。

如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapReduce的处理方式也是完全可以接受的。

但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用Spark进行处理。

大部分机器学习算法都是需要多重数据处理的。此外,通常会用到Spark的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。

灾难恢复

两者的灾难恢复方式迥异,但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。

Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。“这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能,”Borne指出。

转载于:https://www.cnblogs.com/wjoyxt/p/5505104.html

Hadoop和Spark的异同相关推荐

  1. hadoop与spark的异同

    解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算 ...

  2. 2分钟读懂Hadoop和Spark的异同

    谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同. 解决问题的 ...

  3. 简述Hadoop和Spark的异同

    谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同. 解决问题的 ...

  4. 认清Hadoop和Spark的这几点区别,学习时才能事半功倍

    很多初学Hadoop开发的同学分不清Hadoop和Spark究竟有什么联系? 搞不清Hadoop和Spark是两个独立的框架,还是必须相互依存才能完成工作? 今天就给大家分析一下Hadoop和Spar ...

  5. 阿里大数据面试题集合:Hadoop+HBase+Spark+Zookeeper

    附面试思维导图: Hadoop面试题 讲述HDFS上传文件和读文件的流程? HDFS在上传文件的时候,如果其中一个块突然损坏了怎么办? NameNode的作用? 4.NameNode在启动的时候会做哪 ...

  6. Hadoop对Spark:正面比拼报告(架构、性能、成本、安全性和机器学习)

    来自:网络大数据 每年,市场上都会出现种种不同的数据管理规模.类型与速度表现的分布式系统.在这些系统中,Hadoop和Spark是获得最大关注的两个.然而该怎么判断哪一款适合你? 如果想批处理流量数据 ...

  7. hadoop+hive+spark搭建(一)

    1.准备三台虚拟机 2.hadoop+hive+spark+java软件包 传送门:Hadoop官网 Hive官网 Spark官网      一.修改主机名,hosts文件 主机名修改 hostnam ...

  8. 《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...

    1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统, ...

  9. hadoop和spark搭建记录

    因玩票需要,使用三台搭建spark(192.168.1.10,192.168.1.11,192.168.1.12),又因spark构建在hadoop之上,那么就需要先搭建hadoop.历经一个两个下午 ...

最新文章

  1. 自定义控件(一) Activity的构成(PhoneWindow、DecorView)
  2. 分享apache http服务器设置虚拟主机的方法
  3. springboot项目不输出nohup.out日志
  4. SAP Spartacus B2B Popover Directive 和 Popover Component 的生命周期管理
  5. matlab text固定,[转载] 控制text位置-[Matlab]
  6. SharePoint 2013技巧分享系列 - 同步Exchange显示高清用户照片
  7. [html] 如何优化大数据列表(10万+)的性能?说说你的方案
  8. es Failed: 1: this action would add [2] total shards, but this cluster currently has [1001]/[1000]
  9. Atitit.事件机制 与 消息机制的联系与区别
  10. Nvidia League Player:来呀比到天荒地老
  11. 未来已来——工作空间 WorkSpace 和物联网 IoT (1)
  12. 利用WebHook实现自动部署Git代码
  13. Hi,我们的代码重构了
  14. php 清理脚本病毒,Autorun 病毒清除工具bat代码
  15. android 智能手环应用,时硕智能手环软件
  16. [linux虚拟机] 使用yum命令时,解析不了yum源,Cannot find a valid baseurl for repo: base/7/x86_6
  17. 2038年问题 linux内核5.6,Linux Kernel 5.6 开发者已率先做好准备 应对 2038 年问题
  18. Intellij IDEA 打包jar的多种方式
  19. 如何设定打开页面的大小
  20. 深度(Deepin)系统二三事

热门文章

  1. C语言 指针与数组
  2. opencv 直方图
  3. 数据传输服务 DTS > 产品简介 > 功能特性 > 数据订阅(新版)
  4. ESXi 内存回收机制
  5. 虚拟化小白对VMcpu分配的理解
  6. Mysql学习总结(70)——MySQL 优化实施方案
  7. win7注册表无法修改计算机名称,Win7旗舰版
  8. 类型转换一种处理方式
  9. Diango 框架起步
  10. C#:安装Windows服务,动态指定服务名及描述