什么是Spark

是基于内存的用于大规模数据处理(离线计算、实时计算、快速查询)的统一分析引擎。

也是一个生态系统。

Spark的特点

  • 速度快

比MapReduce块10-100倍

  • 易用(算法多)

MR只支持一种计算 算法,Spark支持多种算法。

  • 通用

Spark可以支持离线计算、实时计算、快速查询(交互式)、机器学习、图计算

  • 兼容性强

支持大数据中现有的Yarn.  Mesos等多种调度平台,可以处理hadoop支持的数据。

Spark发展史

2009 年诞生于加州大学伯克利分校AMP 实验室

2014年成为 Apache 的顶级项目

Spark为什么会流行

原因1:优秀的数据模型和计算抽

支持多种计算模型,而且基于内存(内存比硬盘速度快)

RDD 是一个可以容错且并行的数据结构

原因2:完善的生态圈(Spark生态圈)

Spark Core:实现Spark 基本功能(RDD)

SparK SQL:  操作结构化数据

Spark Streaming : 对实时数据进行流式计算

Spark MLlib : 机器学习(ML)功能

GraphX(图计算) : 用于图计算的API

Hadoop 对比Spark

Hadoop(HDFS-MR-YARN)

Spark

类型

基础平台, 包含计算, 存储, 调度

分布式计算工具

场景

大规模数据集上的批处理

迭代计算, 交互式计算, 流计算

价格

对机器要求低, 便宜

对内存有要求, 相对较贵

编程范式

Map+Reduce, API 较为底层, 算法适应性差

RDD组成DAG有向无环图, API 较为顶层, 方便使用

数据存储结构

MapReduce中间计算结果存在HDFS磁盘上, 延迟大

RDD中间运算结果存在内存中 , 延迟小

运行方式

Task以进程方式维护, 任务启动慢

Task以线程方式维护, 任务启动快

Spark运行模式

1.local本地模式(单机)--开发测试使用

2.standalone独立集群模式--开发测试使用

3.standalone-HA高可用模式--生产环境使用

4.on yarn集群模式--生产环境使用

5.on mesos集群模式--国内使用较少

6.on cloud集群模式--中小公司未来会更多的使用云服务

【spark】spark介绍相关推荐

  1. Spark MLlib介绍

    Spark MLlib介绍 Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足 ...

  2. Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)

    一. Spark Streaming介绍 1. SparkStreaming概述 1.1. 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式 ...

  3. Spark之Spark角色介绍及运行模式

    Spark之Spark角色介绍及运行模式 集群角色 运行模式 1. 集群模式 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点: Master节点主要运行集群 ...

  4. Apache Spark开发介绍

    Databricks的工程师,Apache Spark Committer介绍了Databricks和Spark的历史,包括了Spark 1.4中的重要特性和进展,涵盖了Spark早期版本的主要功能和 ...

  5. 【Spark】介绍 快速入门

    目录 介绍 Spark and Hadoop Spark or Hadoop 核心模块 Spark Core Spark SQL Spark Streaming Spark MLlib Spark G ...

  6. Spark基础 之 Spark的介绍

    一. 什么是Spark? Spark是一个分布式计算框架,是由Scala语言编写完成的,是apache基金会下的顶级开源项目 ,和Mapresuce的作用一样,可以完成对数据的计算. Spark与Ma ...

  7. [Spark]Spark Streaming 指南四 输入DStreams和Receivers

    1. 输入DStream与Receiver 输入DStreams表示从源中获取输入数据流的DStreams.在指南一示例中,lines表示输入DStream,它代表从netcat服务器获取的数据流.每 ...

  8. Spark——Spark概述

    一.Spark是什么 二.Spark and Hadoop 在之前的学习中,Hadoop的MapReduce是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架Spark呢,这里就不得不提到Sp ...

  9. 分布式离线计算—Spark—基础介绍

    原文作者:饥渴的小苹果 原文地址:[Spark]Spark基础教程 目录 Spark特点 Spark相对于Hadoop的优势 Spark生态系统 Spark基本概念 Spark结构设计 Spark各种 ...

  10. Spark~Spark介绍

    一.Spark介绍 Spark是用于大规模数据处理的统一分析引擎 Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷.让中间数据存储在内存中提高了运行速度 ...

最新文章

  1. LeetCode Lowest Common Ancestor of a Binary Tree(LCA问题)
  2. MySQL登录后显示mariadb_mysql/mariadb学习记录——连接查询(JOIN)
  3. 图像融合亮度一致_博文精选 | 基于深度学习的低光照图像增强方法总结
  4. 【经验分享】工程开发与Coding规范
  5. jQuery 获取页面元素的属性值
  6. 如何在前端用vue使用字典dicts?
  7. 成都盛铭轩:商品质量分怎么提升
  8. 服务器主板型号命令,Linux通过命令查询服务器型号、主板、CPU、内存及硬盘信息...
  9. 谷歌浏览器反复提示PageOffice安装
  10. day3-作业(18-23)(java泛型总结一)
  11. 需要一个自习室系统,包括收费、灯控、会员管理、微信及前端订座、一卡通终端,会做的私信我,有偿。
  12. fatal: The remote end hung up unexpectedly
  13. Vue3.0 中的数据侦测
  14. 修改谷歌浏览器缓存位置总结
  15. 『杭电1900』Gangs
  16. 营销值得学:创业做生意如何降维打击?
  17. 计算机网络实验三 路由协议的配置
  18. ThinkPHP5.0 中使用荣联云通讯
  19. -Dwho=zheng
  20. 图片马赛克处理以及上传保存—网页端

热门文章

  1. Linux查看历史命令
  2. Linux查看用户登录的历史记录
  3. 自己接软件项目,如何报价??
  4. vmware workstation14永久激活密钥
  5. 微信小程序面向个人开放-附超详尽申请教程
  6. 5. Layui数据表格的快速使用
  7. 机器学习强基计划4-2:通俗理解极大似然估计和极大后验估计+实例分析
  8. liunx安装node
  9. 青少年护眼灯哪个牌子好?儿童护眼灯品牌推荐
  10. SSM实训:11、页面插件集成