由于Spark程序的编写最好使用Scala语言,可参照博主以下Scala入门文章
链接:https://blog.csdn.net/treesorshining/article/details/124697102

文章目录

  • 1.Spark概念
  • 2.Spark与Hadoop的关系
    • 1.从时间节点上来看
    • 2.从功能上来看
  • 3.Spark与Hadoop的比较
  • 4.Spark核心模块

1.Spark概念

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

2.Spark与Hadoop的关系

1.从时间节点上来看

➢ Hadoop

⚫ 2006 年 1 月,Doug Cutting 加入 Yahoo,领导 Hadoop 的开发

⚫ 2008 年 1 月,Hadoop 成为 Apache 顶级项目

⚫ 2011 年 1.0 正式发布

⚫ 2012 年 3 月稳定版发布

⚫ 2013 年 10 月发布 2.X (Yarn)版本

➢ Spark

⚫ 2009 年,Spark 诞生于伯克利大学的 AMPLab 实验室

⚫ 2010 年,伯克利大学正式开源了 Spark 项目

⚫ 2013 年 6 月,Spark 成为了 Apache 基金会下的项目

⚫ 2014 年 2 月,Spark 以飞快的速度成为了 Apache 的顶级项目

⚫ 2015 年至今,Spark 变得愈发火爆,大量的国内公司开始重点部署或者使用 Spark

2.从功能上来看

➢ Hadoop

⚫ Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架

⚫ 作为 Hadoop 分布式文件系统,HDFS 处于 Hadoop 生态圈的最下层,存储着所有的 数 据 , 支 持 着 Hadoop 的 所 有 服 务 。 它 的 理 论 基 础 源 于 Google 的TheGoogleFileSystem 这篇论文,它是 GFS 的开源实现。

⚫ MapReduce 是一种编程模型,Hadoop 根据 Google 的 MapReduce 论文将其实现,作为 Hadoop 的分布式计算模型,是 Hadoop 的核心。基于这个框架,分布式并行程序的编写变得异常简单。综合了 HDFS 的分布式存储和 MapReduce 的分布式计算,Hadoop 在处理海量数据时,性能横向扩展变得非常容易。

⚫ HBase 是对 Google 的 Bigtable 的开源实现,但又和 Bigtable 存在许多不同之处。HBase 是一个基于 HDFS 的分布式数据库,擅长实时地随机读/写超大规模数据集。它也是 Hadoop 非常重要的组件。

➢ Spark

⚫ Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎

⚫ Spark Core 中提供了 Spark 最基础与最核心的功能

⚫ Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。

⚫ Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。由上面的信息可以获知,Spark 出现的时间相对较晚,并且主要功能主要是用于数据计算,所以其实 Spark 一直被认为是 Hadoop 框架的升级版。

3.Spark与Hadoop的比较

⚫ Hadoop MapReduce 由于其设计初衷并不是为了满足循环迭代式数据流处理,因此在多并行运行的数据可复用场景(如:机器学习、图挖掘算法、交互式数据挖掘算法)中存在诸多计算效率等问题。所以 Spark 应运而生,Spark 就是在传统的 MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更适合并行计算和重复使用的 RDD 计算模型。

⚫ 机器学习中 ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MR 这种模式不太合适,即使多 MR 串行处理,性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘,MR 显然不擅长。而Spark 所基于的 scala 语言恰恰擅长函数的处理。

⚫ Spark 是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient Distributed Datasets),提供了比 MapReduce 丰富的模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图形计算算法。

⚫ Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘。

⚫ Spark Task 的启动时间快。Spark 采用 fork 线程的方式,而 Hadoop 采用创建新的进程的方式。

⚫ Spark 只有在 shuffle 的时候将数据写入磁盘,而 Hadoop 中多个 MR 作业之间的数据交互都要依赖于磁盘交互

⚫ Spark 的缓存机制比 HDFS 的缓存机制高效。

经过上面的比较,可以看出在绝大多数的数据计算场景中,Spark 确实会比 MapReduce更有优势。但是 Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以 Spark并不能完全替代 MR。

4.Spark核心模块

【大数据】【Spark】Spark概述相关推荐

  1. 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  2. 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程,map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  3. 尚硅谷大数据技术Spark教程-笔记09【SparkStreaming(概念、入门、DStream入门、案例实操、总结)】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表[课程资料下载] 视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[SparkCore ...

  4. 大数据课程——Spark SQL

    大数据课程--Spark SQL   实验内容以及要求 现有一份汽车销售记录(文件名:Cars.csv),销售记录包括时间.地点.邮政编码.车辆类型等信息,每条记录信息包含39项数据项.按步骤完成如下 ...

  5. 大数据之Spark案例实操完整使用(第六章)

    大数据之Spark案例实操完整使用 一.案例一 1.准备数据 2.需求 1:Top10 热门品类 3.需求说明 方案一. 实现方案二 实现方案三 二 .需求实现 1.需求 2:Top10 热门品类中每 ...

  6. 大数据之spark学习记录二: Spark的安装与上手

    大数据之spark学习记录二: Spark的安装与上手 文章目录 大数据之spark学习记录二: Spark的安装与上手 Spark安装 本地模式 Standalone 模式 基本配置 步骤1: 复制 ...

  7. 大数据篇--Spark常见面试题总结一

    文章目录 一.Spark 概念.模块 1.相关概念: 2.基本模块: 二.Spark作业提交流程是怎么样的 三.Spark on YARN两种方式的区别以及工作流程 1.Yarn组件简介: 2.Spa ...

  8. 大数据云计算技术概述_云计算–概述,类型,优势和未来范围

    大数据云计算技术概述 Cloud Computing is a type of online on-demand service that includes resources like comput ...

  9. 大数据之Spark简介及RDD说明

    目录 前言: 1.Spark概述 1.1.什么是Spark(官网:http://spark.apache.org) 1.2.为什么要学Spark 1.3.Spark特点 2.RDD概述 2.1.什么是 ...

  10. 大数据之Spark(四):Spark SQL

    一.SparkSQL的发展 1.1 概述 SparkSQL是Spark⽣态体系中的构建在SparkCore基础之上的⼀个基于SQL的计算模块. SparkSQL的前身不叫SparkSQL,⽽叫Shar ...

最新文章

  1. [导入]在ASP.NET+ORACLE添加数据记录并让ID自动增量
  2. python入门需要多久-目前Python学习需要多长时间?老男孩Python入门培训
  3. 关于Hexo6.0搭建个人博客(github+Google-收录篇)
  4. python笔记之利用BeautifulSoup爬取糗事百科首页段子
  5. Android ListView性能优化实例讲解
  6. MySQL 之 索引
  7. js 导出excel_Laravel Excel3.0导出
  8. 数据安全:通过Oracle的基本函数实现简单加密脱敏函数
  9. [二次开发][Discuz!X] Discuz!二次开发基本知识
  10. 支持向量机回归_机器学习系列17:支持向量机
  11. 盖洛普 打破一切常规心得体会(汇集)
  12. 我的世界服务器内无限刷物品,我的世界怎么无限刷物品
  13. FPGA基础之VGA(三)移动方块
  14. 死亡之谷 峨边黑竹沟
  15. C语言中scanf与分隔符(空格回车Tab)
  16. 北航计算机学院复试专业课科目,2018北航自招复试经历总结
  17. stm32中常见的通信协议之SPI
  18. 什么品牌的蓝牙耳机最好?2022音质最好的蓝牙耳机品牌推荐
  19. Pythonista——一个随时随地写Python代码的神器
  20. map放入另一个map的值

热门文章

  1. 不玩3a学计算机电脑显卡,还在为电脑配置发愁?用集成显卡都能玩的3A大作!
  2. ZZULIOJ 1882: 蛤玮的魔法【数学】
  3. HTML5期末大作业:仿华为手机商城网站设计——仿华为手机电子商城 (1页) HTML+CSS+JavaScript html网页制作期末大作业成品_网页设计期末作业
  4. 深度图像确定目标距离_技术交流一种距离选通水下激光成像系统设计与实验研究...
  5. Linux ARM平台开发系列讲解(网络篇)1.2 MDIO总线驱动框架分析
  6. JAVA 中文简体繁体转换
  7. 健康体检管理系统源码(PEIS) 医院系统源码
  8. 2022年数据分析与可视化10大案例总结
  9. 软件测试--面试时怎么介绍前公司的项目经验
  10. 云计算机网速慢,电脑网速慢是什么原因 十点助你快速解决【图文】