2019独角兽企业重金招聘Python工程师标准>>>

原文链接:『 Spark 』1. spark 简介

写在前面

本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,并非为了做什么教程,所以一切以个人理解梳理为主,没有必要的细节就不会记录了。若想深入了解,最好阅读参考文章和官方文档。

其次,本系列是基于目前最新的 spark 1.6.0 系列开始的,spark 目前的更新速度很快,记录一下版本好还是必要的。
最后,如果各位觉得内容有误,欢迎留言备注,所有留言 24 小时内必定回复,非常感谢。
Tips: 如果插图看起来不明显,可以:1. 放大网页;2. 新标签中打开图片,查看原图哦。

1. 如何向别人介绍 spark

Apache Spark™ is a fast and general engine for large-scale data processing.

Apache Spark is a fast and general-purpose cluster computing system.
It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
It also supports a rich set of higher-level tools including :

  • Spark SQL for SQL and structured data processing, extends to DataFrames and DataSets
  • MLlib for machine learning
  • GraphX for graph processing
  • Spark Streaming for stream data processing

2. spark 诞生的一些背景

Spark started in 2009, open sourced 2010, unlike the various specialized systems[hadoop, storm], Spark’s goal was to :

  • generalize MapReduce to support new apps within same engine

    • it's perfectly compatible with hadoop, can run on Hadoop, Mesos, standalone, or in the cloud. It can access diverse data sources including HDFS, Cassandra, HBase, and S3.
  • speed up iteration computing over hadoop.

    • use memory + disk instead of disk as data storage medium
    • design a new programming modal, RDD, which make the data processing more graceful [RDD transformation, action, distributed jobs, stages and tasks]

3. 为何选用 spark

  • designed, implemented and used as libs, instead of specialized systems;

    • much more useful and maintainable

  • from history, it is designed and improved upon hadoop and storm, it has perfect genes;
  • documents, community, products and trends;
  • it provides sql, dataframes, datasets, machine learning lib, graph computing lib and activitily growth 3-party lib, easy to use, cover lots of use cases in lots field;
  • it provides ad-hoc exploring, which boost your data exploring and pre-processing and help you build your data ETL, processing job;

4. Next

下一篇,简单介绍 spark 里必须深刻理解的基本概念。

参考文章

  • Intro to Apache Spark
  • introducing spark

本系列文章链接

  • 『 Spark 』1. spark 简介
  • 『 Spark 』2. spark 基本概念解析
  • 『 Spark 』3. spark 编程模式
  • 『 Spark 』4. spark 之 RDD
  • 『 Spark 』5. 这些年,你不能错过的 spark 学习资源
  • 『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
  • 『 Spark 』7. 使用 Spark DataFrame 进行大数据分析

转载于:https://my.oschina.net/litaotao/blog/660980

『 Spark 』1. spark 简介相关推荐

  1. python中setup是什么意思_『Python』setup.py简介

    setup.py应用场合 网上见到其他人这样介绍: 假如我在本机开发一个程序,需要用到python的redis.mysql模块以及自己编写的redis_run.py模块.我怎么实现在服务器上去发布该系 ...

  2. BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略

    BigData之Spark:Spark计算引擎的简介.下载.经典案例之详细攻略 目录 Spark的简介 1.Spark三大特点 Spark的下载 Spark的经典案例 1.Word Count 2.P ...

  3. spark中RSS工具简介

    一.Spark Shuffle 对于 spark shuffle 这一过程,网络上有非常多的文章进行说明,这里简单描述介绍下. Spark 包含三种 shuffle writer,上图展示的是 Byp ...

  4. Spark性能优化 -- Spark SQL、DataFrame、Dataset

    本文将详细分析和总结Spark SQL及其DataFrame.Dataset的相关原理和优化过程. Spark SQL简介 Spark SQL是Spark中 具有 大规模关系查询的结构化数据处理 模块 ...

  5. Spark学习之Spark Streaming

    一.简介 许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...

  6. 『数据库』无聊到爆炸的数据库文章--数据库的安全性

    『数据库』 朴实无华且枯燥的数据库教程–入门必看!(不收藏,真的吃亏了) 文章目录 计算机安全性概述 数据库安全性控制 视图机制 审计(Audit) 数据加密 统计数据库安全性 问题的提出 数据库的一 ...

  7. 电影:『新警察故事』

    [电影名称]:『新警察故事』  [主    演]: 成龙 谢霆锋 杨采妮 蔡卓妍 吴彦祖 [导    演]: 陈木胜 [内容简介]:<新警察故事>是成龙英皇电影公司的处女作,投资超过1亿6 ...

  8. 「爬虫入门」拒绝跟热点搞python,直接在浏览器里体验『第一次』,理解原理=>如鱼得水

    简介:没用过爬虫,现在有门课正好需要我们去学,于是试了下.想从实践入手,因此,给自己提了个需求:『把微信公众号的授权管理页面的开白名单抓出来』.并没有什么难度,这是我第一次独立写 JavaScript ...

  9. iOS 开发:『Runtime』详解(二)Method Swizzling

    本文用来介绍 iOS 开发中『Runtime』中的黑魔法Method Swizzling. 通过本文,您将了解到: Method Swizzling(动态方法交换)简介 Method Swizzlin ...

最新文章

  1. ny20 吝啬的国度
  2. Spring Security 中最流行的权限管理模型!
  3. 两道统计题(两次检测呈阳性,连续抛硬币)
  4. mongodb全套配置
  5. Hyperledger fabric1.4.0搭建环境
  6. python中if的效率_Python算法效率和增长量级,经典题目回顾
  7. python if条件思维导图_跟老齐学Python之从if开始语句的征程
  8. Javascript:ES6语法简述
  9. 华为主题锁屏壁纸换不掉_华为手机中的这些默认设置一定要改,不然会导致手机卡顿加快耗电...
  10. Android音视频三-AndroidStudio整合FFmpeg项目+FFmpeg视频解码
  11. 【预测模型】Gompertz 曲线方程预测
  12. win7计算机重启遇到错误,安装Win7系统过程出现计算机意外地重新启动或遇到错误提示的解决方法...
  13. 树莓派3 串口 / 模拟串口
  14. Kali扫描工具Nmap
  15. Power bi 3.18 仪表盘
  16. Nanoprobes Ni-NTA-Nanogold——用于 His 标签标记和检测
  17. 停止kibana服务
  18. 麻省理工的服务器位置,美国麻省理工学院的地理位置
  19. USB Type-C和USB PD
  20. 因为在此系统上禁止运行脚本。有关详细信息,请参阅

热门文章

  1. 计算机图形学基础笔记(1)
  2. 应收账款(保理)融资模式解读
  3. Microsoft Toolkit - Official KMS Solution for Microsoft Products
  4. cdoj 1334 郭大侠与Rabi-Ribi Label:贪心+数据结构
  5. Mac小白必备技巧3—Mac截图快捷键分享
  6. 倚天屠龙的区别——小游戏与H5小游戏
  7. TransMac 10.4
  8. Linux red hat-PPTP服务器搭建
  9. 最全中国和美国省、州、市数据库脚本,可直接复制运行
  10. vue太阳系模型,vue solar-system