Hadoop框架的主要模块包括如下:

  • Hadoop Common

  • Hadoop分布式文件系统(HDFS)

  • Hadoop YARN

  • Hadoop MapReduce

虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop,它们进一步增强和扩展了Hadoop的功能。

Spark

是Apache的另一个开源项目,它无法与整个Hadoop生态系统竞争。它是一个集群计算框架,具有类似于MapReduce的功能,甚至没有自己的分布式文件系统。实际上,Spark和Hadoop之间的最大区别在于,前者在内存中工作,而后者将文件写入HDFS。

同时,Spark运行任务的速度提高了100倍。它能够在短短23分钟内整理100TB数据,这在2014年创造了新的世界纪录。

除了核心引擎,Spark还具有以下功能:

  • 集群管理一与包括Hadoop YARN在内的各种集群管理系统兼容;

  • Spark Streaming 一实时数据分析工具;

  • Spark SQL 一集成关系处理;

  • GraphX 一通过图并行计算扩展了Spark功能;

  • MLlib 一专门用于机器学习的库。

spark和hadoop的比较

Hadoop主要用普通硬件解决存储和计算问题;而Spark用于构建大型的、低延迟的数据分析应用程序,不进行存储、只进行计算。

Hadoop 将文件读取和写入 HDFS,而 Spark 使用 RDD(弹性分布式数据集)处理内存中的数据。

Spark 可以在独立模式(stand alone)下运行,也可以与Hadoop配合, 使用Yarn来进行资源调度,使用 Hadoop 集群作为数据源。

​总而言之, Spark主要用于大数据的计算,而Hadoop主要用于大数据的存储,以及资源调度。Spark和Hadoop的组合算是大数据领域的基础。

大数据具体学啥?

python大数据方向

2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程
2022年大数据spark3.2入门Spark全套视频教程,4天spark3.2快速入门到精通,全网首套基于Python语言的spark教程
2022年MySQL基础入门2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程

Python+大数据开发
MySQL数据库:2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
Hadoop入门:2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程
Hive数仓项目:大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)

PB内存计算
Python入门:全套Python教程_Python基础入门视频教程,零基础小白自学Python必备教程
Python编程进阶:Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程
spark3.2从基础到精通:Spark全套视频教程,4天spark3.2快速入门到精通,全网首套基于Python语言的spark教程
Hive+Spark离线数仓工业项目实战:全网首次披露大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台

大数据hadoop和spark怎么选择?相关推荐

  1. 大数据hadoop,spark数据分析之 基于大数据平台的运营商在线服务系统设计

    今天向大家介绍一个帮助往届学生完成的毕业设计项目,大数据hadoop,spark数据分析之 基于大数据平台的运营商在线服务系统设计. 基于大数据平台的运营商在线服务系统设计 随着通信行业的业务拓展以及 ...

  2. 成都大数据Hadoop与Spark技术培训班

    成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开 ...

  3. 大数据Hadoop之——Spark SQL+Spark Streaming

    文章目录 一.Spark SQL概述 二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...

  4. 大数据hadoop与spark研究——1 spark环境搭建

    第一章 介绍 一. spark组件 Spark是一个用于集群计算的通用计算框架 Spark可将如何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集(RDD) Spark是用Scala写 ...

  5. 大数据Hadoop,spark学习

    Hadoop 基础 一个 Hadoop job 通常都是这样的: 从 HDFS 读取输入数据: 在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘: 在 Reduce ...

  6. 大数据hadoop和spark有什么区别?

    其实这是两种框架的区别,Hadoop框架比较侧重离线大批量计算,而spark框架则侧重于内存和实时计算. 在这些基础上,衍生出了一些常用的附属组件,比如Hadoop生态下的HBASE.hive.HDF ...

  7. 【大数据-Hadoop】Spark

    SPARK (计算引擎) Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎.Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类H ...

  8. 大数据Hadoop之——总结篇

    文章目录 一.前言 二.Hadoop 1)HDFS常见操作 1.HDFS服务启停命令 2.常见文件操作命令 3.安全模式操作命令 4.数据平衡常见操作命令 5.处理小文件常见操作命令 6.HDFS N ...

  9. 大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

    大数据组件 学习路线: 阶段1:学习绿色箭头的知识点: 阶段2:学习红色箭头的知识点: 阶段3:学习蓝色箭头的知识点: 1 Hadoop 1.1 Hadoop1.x与Hadoop2.x的区别 1.2 ...

最新文章

  1. C语言实现DES,3DES以及基于3DES的文件加密系统
  2. python【蓝桥杯vip练习题库】ADV-281特等奖学金
  3. 【Python】详解Pandas与Lambda结合进行高效数据分析
  4. C语言实现hash/xor8算法(附完整源码)
  5. win7安装git客户端和简单配置
  6. 将list集合中按照某个字段排序(从大到小),然后将list中的对象倒序
  7. java 中的radix_线程“main”中的异常java.lang.NumberFormatException:Radix超出范围
  8. 针对 VOC2007和VOC2012 的具体用法
  9. 【软件工程】软件需求说明书、概要设计说明书、详细设计说明书参考模板
  10. 2020 计蒜客蓝桥杯省赛 B 组模拟赛(一)题解1.有趣的数字
  11. 物联网平台在AIoT领域8大场景应用
  12. python(3.10,Win10 64位)的wordcloud安装
  13. xxx-1.0-SNAPSHOT.jar中没有主清单属性的解决方法
  14. f1c100s kernel调试记录
  15. Altium Designer差分线设置与蛇形走线详解
  16. 学习笔记 51单片机通用软件延时方法
  17. RGB和HSV颜色模型
  18. gitlab创建merge requests
  19. 今天一不小心,把抖爸爸给爬了
  20. 获取明日0点、下周一0点时间戳

热门文章

  1. 2.特定领域知识图谱融合方案:文本匹配算法之预训练Simbert、ERNIE-Gram单塔模型等诸多模型【三】
  2. R、D、E、U、T、A命令
  3. 办理一个香港银行帐户,请问有哪些银行可以考虑?
  4. 灰度图像的形态学处理
  5. a标签去下划线或文字添加下修饰_a标签下划线(如何去掉a标签下划线)
  6. 数据库之查询表student——查询计算机系年龄在20岁以下的学生姓名
  7. 备战蓝桥杯-双指针、BFS
  8. Matlab 与stm32单片机之间的串口通信
  9. 【软件测试 Python自动化】全网最全大厂面试题,看完以后你就是面试官!
  10. 【机器学习】27种确定性预测评估指标及其Python实现