【spark】spark介绍
什么是Spark
是基于内存的用于大规模数据处理(离线计算、实时计算、快速查询)的统一分析引擎。
也是一个生态系统。
Spark的特点
- 速度快
比MapReduce块10-100倍
- 易用(算法多)
MR只支持一种计算 算法,Spark支持多种算法。
- 通用
Spark可以支持离线计算、实时计算、快速查询(交互式)、机器学习、图计算
- 兼容性强
支持大数据中现有的Yarn. Mesos等多种调度平台,可以处理hadoop支持的数据。
Spark发展史
2009 年诞生于加州大学伯克利分校AMP 实验室
2014年成为 Apache 的顶级项目
Spark为什么会流行
原因1:优秀的数据模型和计算抽
支持多种计算模型,而且基于内存(内存比硬盘速度快)
RDD 是一个可以容错且并行的数据结构
原因2:完善的生态圈(Spark生态圈)
Spark Core:实现Spark 基本功能(RDD)
SparK SQL: 操作结构化数据
Spark Streaming : 对实时数据进行流式计算
Spark MLlib : 机器学习(ML)功能
GraphX(图计算) : 用于图计算的API
Hadoop 对比Spark
Hadoop(HDFS-MR-YARN) |
Spark |
|
类型 |
基础平台, 包含计算, 存储, 调度 |
分布式计算工具 |
场景 |
大规模数据集上的批处理 |
迭代计算, 交互式计算, 流计算 |
价格 |
对机器要求低, 便宜 |
对内存有要求, 相对较贵 |
编程范式 |
Map+Reduce, API 较为底层, 算法适应性差 |
RDD组成DAG有向无环图, API 较为顶层, 方便使用 |
数据存储结构 |
MapReduce中间计算结果存在HDFS磁盘上, 延迟大 |
RDD中间运算结果存在内存中 , 延迟小 |
运行方式 |
Task以进程方式维护, 任务启动慢 |
Task以线程方式维护, 任务启动快 |
Spark运行模式
1.local本地模式(单机)--开发测试使用
2.standalone独立集群模式--开发测试使用
3.standalone-HA高可用模式--生产环境使用
4.on yarn集群模式--生产环境使用
5.on mesos集群模式--国内使用较少
6.on cloud集群模式--中小公司未来会更多的使用云服务
【spark】spark介绍相关推荐
- Spark MLlib介绍
Spark MLlib介绍 Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足 ...
- Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)
一. Spark Streaming介绍 1. SparkStreaming概述 1.1. 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式 ...
- Spark之Spark角色介绍及运行模式
Spark之Spark角色介绍及运行模式 集群角色 运行模式 1. 集群模式 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点: Master节点主要运行集群 ...
- Apache Spark开发介绍
Databricks的工程师,Apache Spark Committer介绍了Databricks和Spark的历史,包括了Spark 1.4中的重要特性和进展,涵盖了Spark早期版本的主要功能和 ...
- 【Spark】介绍 快速入门
目录 介绍 Spark and Hadoop Spark or Hadoop 核心模块 Spark Core Spark SQL Spark Streaming Spark MLlib Spark G ...
- Spark基础 之 Spark的介绍
一. 什么是Spark? Spark是一个分布式计算框架,是由Scala语言编写完成的,是apache基金会下的顶级开源项目 ,和Mapresuce的作用一样,可以完成对数据的计算. Spark与Ma ...
- [Spark]Spark Streaming 指南四 输入DStreams和Receivers
1. 输入DStream与Receiver 输入DStreams表示从源中获取输入数据流的DStreams.在指南一示例中,lines表示输入DStream,它代表从netcat服务器获取的数据流.每 ...
- Spark——Spark概述
一.Spark是什么 二.Spark and Hadoop 在之前的学习中,Hadoop的MapReduce是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架Spark呢,这里就不得不提到Sp ...
- 分布式离线计算—Spark—基础介绍
原文作者:饥渴的小苹果 原文地址:[Spark]Spark基础教程 目录 Spark特点 Spark相对于Hadoop的优势 Spark生态系统 Spark基本概念 Spark结构设计 Spark各种 ...
- Spark~Spark介绍
一.Spark介绍 Spark是用于大规模数据处理的统一分析引擎 Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷.让中间数据存储在内存中提高了运行速度 ...
最新文章
- LeetCode Lowest Common Ancestor of a Binary Tree(LCA问题)
- MySQL登录后显示mariadb_mysql/mariadb学习记录——连接查询(JOIN)
- 图像融合亮度一致_博文精选 | 基于深度学习的低光照图像增强方法总结
- 【经验分享】工程开发与Coding规范
- jQuery 获取页面元素的属性值
- 如何在前端用vue使用字典dicts?
- 成都盛铭轩:商品质量分怎么提升
- 服务器主板型号命令,Linux通过命令查询服务器型号、主板、CPU、内存及硬盘信息...
- 谷歌浏览器反复提示PageOffice安装
- day3-作业(18-23)(java泛型总结一)
- 需要一个自习室系统,包括收费、灯控、会员管理、微信及前端订座、一卡通终端,会做的私信我,有偿。
- fatal: The remote end hung up unexpectedly
- Vue3.0 中的数据侦测
- 修改谷歌浏览器缓存位置总结
- 『杭电1900』Gangs
- 营销值得学:创业做生意如何降维打击?
- 计算机网络实验三 路由协议的配置
- ThinkPHP5.0 中使用荣联云通讯
- -Dwho=zheng
- 图片马赛克处理以及上传保存—网页端