『 Spark 』1. spark 简介
2019独角兽企业重金招聘Python工程师标准>>>
原文链接:『 Spark 』1. spark 简介
写在前面
本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,并非为了做什么教程,所以一切以个人理解梳理为主,没有必要的细节就不会记录了。若想深入了解,最好阅读参考文章和官方文档。
其次,本系列是基于目前最新的 spark 1.6.0 系列开始的,spark 目前的更新速度很快,记录一下版本好还是必要的。
最后,如果各位觉得内容有误,欢迎留言备注,所有留言 24 小时内必定回复,非常感谢。
Tips: 如果插图看起来不明显,可以:1. 放大网页;2. 新标签中打开图片,查看原图哦。
1. 如何向别人介绍 spark
Apache Spark™ is a fast and general engine for large-scale data processing.
Apache Spark is a fast and general-purpose cluster computing system.
It provides high-level APIs in Java, Scala, Python and R
, and an optimized engine that supports general execution graphs.
It also supports a rich set of higher-level tools including :
- Spark SQL for SQL and structured data processing, extends to DataFrames and DataSets
- MLlib for machine learning
- GraphX for graph processing
- Spark Streaming for stream data processing
2. spark 诞生的一些背景
Spark started in 2009, open sourced 2010, unlike the various specialized systems[hadoop, storm], Spark’s goal was to :
generalize MapReduce to support new apps within same engine
- it's perfectly compatible with hadoop, can run on Hadoop, Mesos, standalone, or in the cloud. It can access diverse data sources including HDFS, Cassandra, HBase, and S3.
speed up iteration computing over hadoop.
- use memory + disk instead of disk as data storage medium
- design a new programming modal, RDD, which make the data processing more graceful [RDD transformation, action, distributed jobs, stages and tasks]
3. 为何选用 spark
- designed, implemented and used as libs, instead of specialized systems;
- much more useful and maintainable
- from history, it is designed and improved upon hadoop and storm, it has perfect genes;
- documents, community, products and trends;
- it provides sql, dataframes, datasets, machine learning lib, graph computing lib and activitily growth 3-party lib, easy to use, cover lots of use cases in lots field;
- it provides ad-hoc exploring, which boost your data exploring and pre-processing and help you build your data ETL, processing job;
4. Next
下一篇,简单介绍 spark 里必须深刻理解的基本概念。
参考文章
- Intro to Apache Spark
- introducing spark
本系列文章链接
- 『 Spark 』1. spark 简介
- 『 Spark 』2. spark 基本概念解析
- 『 Spark 』3. spark 编程模式
- 『 Spark 』4. spark 之 RDD
- 『 Spark 』5. 这些年,你不能错过的 spark 学习资源
- 『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
- 『 Spark 』7. 使用 Spark DataFrame 进行大数据分析
转载于:https://my.oschina.net/litaotao/blog/660980
『 Spark 』1. spark 简介相关推荐
- python中setup是什么意思_『Python』setup.py简介
setup.py应用场合 网上见到其他人这样介绍: 假如我在本机开发一个程序,需要用到python的redis.mysql模块以及自己编写的redis_run.py模块.我怎么实现在服务器上去发布该系 ...
- BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略
BigData之Spark:Spark计算引擎的简介.下载.经典案例之详细攻略 目录 Spark的简介 1.Spark三大特点 Spark的下载 Spark的经典案例 1.Word Count 2.P ...
- spark中RSS工具简介
一.Spark Shuffle 对于 spark shuffle 这一过程,网络上有非常多的文章进行说明,这里简单描述介绍下. Spark 包含三种 shuffle writer,上图展示的是 Byp ...
- Spark性能优化 -- Spark SQL、DataFrame、Dataset
本文将详细分析和总结Spark SQL及其DataFrame.Dataset的相关原理和优化过程. Spark SQL简介 Spark SQL是Spark中 具有 大规模关系查询的结构化数据处理 模块 ...
- Spark学习之Spark Streaming
一.简介 许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...
- 『数据库』无聊到爆炸的数据库文章--数据库的安全性
『数据库』 朴实无华且枯燥的数据库教程–入门必看!(不收藏,真的吃亏了) 文章目录 计算机安全性概述 数据库安全性控制 视图机制 审计(Audit) 数据加密 统计数据库安全性 问题的提出 数据库的一 ...
- 电影:『新警察故事』
[电影名称]:『新警察故事』 [主 演]: 成龙 谢霆锋 杨采妮 蔡卓妍 吴彦祖 [导 演]: 陈木胜 [内容简介]:<新警察故事>是成龙英皇电影公司的处女作,投资超过1亿6 ...
- 「爬虫入门」拒绝跟热点搞python,直接在浏览器里体验『第一次』,理解原理=>如鱼得水
简介:没用过爬虫,现在有门课正好需要我们去学,于是试了下.想从实践入手,因此,给自己提了个需求:『把微信公众号的授权管理页面的开白名单抓出来』.并没有什么难度,这是我第一次独立写 JavaScript ...
- iOS 开发:『Runtime』详解(二)Method Swizzling
本文用来介绍 iOS 开发中『Runtime』中的黑魔法Method Swizzling. 通过本文,您将了解到: Method Swizzling(动态方法交换)简介 Method Swizzlin ...
最新文章
- ny20 吝啬的国度
- Spring Security 中最流行的权限管理模型!
- 两道统计题(两次检测呈阳性,连续抛硬币)
- mongodb全套配置
- Hyperledger fabric1.4.0搭建环境
- python中if的效率_Python算法效率和增长量级,经典题目回顾
- python if条件思维导图_跟老齐学Python之从if开始语句的征程
- Javascript:ES6语法简述
- 华为主题锁屏壁纸换不掉_华为手机中的这些默认设置一定要改,不然会导致手机卡顿加快耗电...
- Android音视频三-AndroidStudio整合FFmpeg项目+FFmpeg视频解码
- 【预测模型】Gompertz 曲线方程预测
- win7计算机重启遇到错误,安装Win7系统过程出现计算机意外地重新启动或遇到错误提示的解决方法...
- 树莓派3 串口 / 模拟串口
- Kali扫描工具Nmap
- Power bi 3.18 仪表盘
- Nanoprobes Ni-NTA-Nanogold——用于 His 标签标记和检测
- 停止kibana服务
- 麻省理工的服务器位置,美国麻省理工学院的地理位置
- USB Type-C和USB PD
- 因为在此系统上禁止运行脚本。有关详细信息,请参阅