两个要点:

  • 快速通用的计算机系统集群,用于大规模数据处理
  • 高层API可用Java,Scala,Python以及R

Spark上的库:

  • Spark SQL: 数据库操作
  • Spark Streaming: 流计算
  • MLlib: 机器学习库
  • GraphX: 图计算
  • SparkR

Spark的语义抽象/概念

  • RDD: Resilient Distributed Dataset,弹性分布式数据库
  • DAG: 有向无环图
  • SparkContext
  • Transformations
  • Actions

这些概念后面陆续展开。

大数据解决方案

包含多个重要组件:

  • 硬件层:

    • 存储
    • 计算
    • 网络
  • 数据引擎:大脑

  • 统计、计算算法

  • 数据可视化(分析层)

Spark起源

2009年,Matei在进行博士研究时创立,基于内存的基本类型,可以为应用程序带来100倍的性能提升。用户可以将数据加载到集群内存用来反复查询,非常适用于大数据和机器学习。

Spark只是一个通用计算框架,利用Spark实现的应用才是其真正价值所在。

Spark的三个优点

  • 易用,高层API剥离了对集群的关注,可以专注于计算本身
  • 快,且支持交互式使用和复杂算法
  • 通用,Spark是通用引擎,可以完成各种各样的计算
    • SQL查询
    • 文本处理
    • 机器学习

学习Spark,只有一台电脑也是可以的。

学习目标:

  • 搭建Spark集群
  • 使用Spark Shell
  • 编写Spark应用解决并行问题

END.

参考:
https://www.youtube.com/watch?v=TgiBvKcGL24&list=PLbk_EDDIZpfYHlJ_mnyWFgt1CeTPZXXTD

https://github.com/databricks/learning-spark

【Spark】快速简介相关推荐

  1. spark任务shell运行_《Spark快速大数据分析》- 根据简单例子理解RDD

    1. RDD简介 RDD,弹性分布式数据集(Resiliennt Distributed Datasets),是Spark中最重要的核心概念,是Spark应用中存储数据的数据结构. RDD 其实就是分 ...

  2. dataframe 筛选_Spark.DataFrame与Spark.ML简介

    本文是PySpark销量预测系列第一篇,后面会陆续通过实战案例详细介绍PySpark销量预测流程,包含特征工程.特征筛选.超参搜索.预测算法. 在零售销量预测领域,销售小票数据动辄上千万条,这个量级在 ...

  3. IBM 技术文档:Spark, 快速数据分析的又一选择

    IBM 技术文档:Spark, 快速数据分析的又一选择 原文出处:http://www.ibm.com/developerworks/library/os-spark/ 摘要:尽管Hadoop在分布式 ...

  4. Spark 入门简介

    1. 简介 Spark 的身世 Spark 是一个通用的并行计算框架,由加州伯克利大学(UC Berkeley)的 AMP 实验室开发于 2009 年,并于 2010 年开源,2013 年成长为 Ap ...

  5. Spark快速大数据分析——读书笔记

    --8.16开始整理 Spark快速大数据分析 推荐序: 一套大数据解决方案通常包含多个组件,从存储.计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法.数据可视化来获得商业洞见的分析层, ...

  6. Spark快速上手-WordCount案例

    在此之前,我已经用MapReduce 框架实现了WordCount案例,接下来,我开始学习数据处理的另外一个非常重要的方法:Spark.首先,使用WordCount案例实现Spark快速上手. 创建M ...

  7. 《Spark快速大数据分析》—— 第三章 RDD编程

    本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第三章 RDD编程,如需转载请自行联系原博主.

  8. 学习笔记Spark(九)—— Spark MLlib应用(1)—— 机器学习简介、Spark MLlib简介

    一.机器学习简介 1.1.机器学习概念 机器学习就是让机器能像人一样有学习.理解.认识的能力. 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能. ...

  9. 学习笔记Spark(六)—— Spark SQL应用(1)—— Spark SQL简介、环境配置

    一.Spark SQL简介 1.1.Spark SQL特性 Spark SQL是Spark Core之上的一个组件,它引入了一个称为SchemaRDD的新- 数据抽象,它为结构化和半结构化数据提供支持 ...

  10. Spark快速入门指南 – Spark安装与基础使用

    本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...

最新文章

  1. PCoIP加速卡试用手记,关注VDI者必看
  2. vue更新数组和对象
  3. 网络工程师必懂的专业术语
  4. 當前主流防拷光碟的備份
  5. MySql系统变量explicit_defaults_for_timestamp
  6. CV之YOLO:深度学习之计算机视觉神经网络tiny-yolo-5clessses训练自己的数据集全程记录
  7. 手机百度输入法的用户体验
  8. Java ClassLoader setClassAssertionStatus()方法与示例
  9. 谷歌浏览器下载的文件保存在哪里?
  10. 一步步教你在Win2003下安装IIS组件
  11. python 发送email邮件带附件
  12. 推荐使用maven生成mybatis代码
  13. java 使用websocket_Java使用WebSocket
  14. mysql中文占两位_mysql 保留两位小数
  15. 一个超好用的笔记编辑器
  16. 150个摄影测量与遥感术语,你知多少?
  17. 问的书写规则是什么意思_水的书写规则是什么
  18. flask专题-小说网站开发四(完结)
  19. 成都百知教育关于Shopee 平台政策规则解读!
  20. 1068. 万绿丛中一点红(20)

热门文章

  1. YOLO系列专题——YOLOv2实践篇
  2. 王者荣耀不同服务器能显示微信好友吗,王者荣耀怎么看微信好友在那个区
  3. 修改cas5成功html文件,手把手教Apereo CAS5.2.3 Server端 增量开发 自定义登录页,增加验证码,注册,修改密码等功能的方式...
  4. python将对象放入列表根据某个属性排升序_python实现对象列表根据某个属性排序的方法详解...
  5. javaweb增删改查实例_JavaWeb图像可视化管理系统之后台搭建(二)用户管理与增删改查(内含代码)...
  6. 2021计算机科学调剂,2021北京科技大学计算机科学与技术专业接收调剂研究生的通知...
  7. java堆栈_Java堆栈– Java堆栈
  8. node js 非阻塞io_Node Express JS:套接字IO模块示例
  9. C++基础知识(五)C++的一些特性
  10. 产品运营必备的素质有哪些