【Spark】快速简介
两个要点:
- 快速通用的计算机系统集群,用于大规模数据处理
- 高层API可用Java,Scala,Python以及R
Spark上的库:
- Spark SQL: 数据库操作
- Spark Streaming: 流计算
- MLlib: 机器学习库
- GraphX: 图计算
- SparkR
Spark的语义抽象/概念
- RDD: Resilient Distributed Dataset,弹性分布式数据库
- DAG: 有向无环图
- SparkContext
- Transformations
- Actions
这些概念后面陆续展开。
大数据解决方案
包含多个重要组件:
硬件层:
- 存储
- 计算
- 网络
数据引擎:大脑
统计、计算算法
数据可视化(分析层)
Spark起源
2009年,Matei在进行博士研究时创立,基于内存的基本类型,可以为应用程序带来100倍的性能提升。用户可以将数据加载到集群内存用来反复查询,非常适用于大数据和机器学习。
Spark只是一个通用计算框架,利用Spark实现的应用才是其真正价值所在。
Spark的三个优点
- 易用,高层API剥离了对集群的关注,可以专注于计算本身
- 快,且支持交互式使用和复杂算法
- 通用,Spark是通用引擎,可以完成各种各样的计算
- SQL查询
- 文本处理
- 机器学习
学习Spark,只有一台电脑也是可以的。
学习目标:
- 搭建Spark集群
- 使用Spark Shell
- 编写Spark应用解决并行问题
END.
参考:
https://www.youtube.com/watch?v=TgiBvKcGL24&list=PLbk_EDDIZpfYHlJ_mnyWFgt1CeTPZXXTD
https://github.com/databricks/learning-spark
【Spark】快速简介相关推荐
- spark任务shell运行_《Spark快速大数据分析》- 根据简单例子理解RDD
1. RDD简介 RDD,弹性分布式数据集(Resiliennt Distributed Datasets),是Spark中最重要的核心概念,是Spark应用中存储数据的数据结构. RDD 其实就是分 ...
- dataframe 筛选_Spark.DataFrame与Spark.ML简介
本文是PySpark销量预测系列第一篇,后面会陆续通过实战案例详细介绍PySpark销量预测流程,包含特征工程.特征筛选.超参搜索.预测算法. 在零售销量预测领域,销售小票数据动辄上千万条,这个量级在 ...
- IBM 技术文档:Spark, 快速数据分析的又一选择
IBM 技术文档:Spark, 快速数据分析的又一选择 原文出处:http://www.ibm.com/developerworks/library/os-spark/ 摘要:尽管Hadoop在分布式 ...
- Spark 入门简介
1. 简介 Spark 的身世 Spark 是一个通用的并行计算框架,由加州伯克利大学(UC Berkeley)的 AMP 实验室开发于 2009 年,并于 2010 年开源,2013 年成长为 Ap ...
- Spark快速大数据分析——读书笔记
--8.16开始整理 Spark快速大数据分析 推荐序: 一套大数据解决方案通常包含多个组件,从存储.计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法.数据可视化来获得商业洞见的分析层, ...
- Spark快速上手-WordCount案例
在此之前,我已经用MapReduce 框架实现了WordCount案例,接下来,我开始学习数据处理的另外一个非常重要的方法:Spark.首先,使用WordCount案例实现Spark快速上手. 创建M ...
- 《Spark快速大数据分析》—— 第三章 RDD编程
本文转自博客园xingoo的博客,原文链接:<Spark快速大数据分析>-- 第三章 RDD编程,如需转载请自行联系原博主.
- 学习笔记Spark(九)—— Spark MLlib应用(1)—— 机器学习简介、Spark MLlib简介
一.机器学习简介 1.1.机器学习概念 机器学习就是让机器能像人一样有学习.理解.认识的能力. 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能. ...
- 学习笔记Spark(六)—— Spark SQL应用(1)—— Spark SQL简介、环境配置
一.Spark SQL简介 1.1.Spark SQL特性 Spark SQL是Spark Core之上的一个组件,它引入了一个称为SchemaRDD的新- 数据抽象,它为结构化和半结构化数据提供支持 ...
- Spark快速入门指南 – Spark安装与基础使用
本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...
最新文章
- PCoIP加速卡试用手记,关注VDI者必看
- vue更新数组和对象
- 网络工程师必懂的专业术语
- 當前主流防拷光碟的備份
- MySql系统变量explicit_defaults_for_timestamp
- CV之YOLO:深度学习之计算机视觉神经网络tiny-yolo-5clessses训练自己的数据集全程记录
- 手机百度输入法的用户体验
- Java ClassLoader setClassAssertionStatus()方法与示例
- 谷歌浏览器下载的文件保存在哪里?
- 一步步教你在Win2003下安装IIS组件
- python 发送email邮件带附件
- 推荐使用maven生成mybatis代码
- java 使用websocket_Java使用WebSocket
- mysql中文占两位_mysql 保留两位小数
- 一个超好用的笔记编辑器
- 150个摄影测量与遥感术语,你知多少?
- 问的书写规则是什么意思_水的书写规则是什么
- flask专题-小说网站开发四(完结)
- 成都百知教育关于Shopee 平台政策规则解读!
- 1068. 万绿丛中一点红(20)
热门文章
- YOLO系列专题——YOLOv2实践篇
- 王者荣耀不同服务器能显示微信好友吗,王者荣耀怎么看微信好友在那个区
- 修改cas5成功html文件,手把手教Apereo CAS5.2.3 Server端 增量开发 自定义登录页,增加验证码,注册,修改密码等功能的方式...
- python将对象放入列表根据某个属性排升序_python实现对象列表根据某个属性排序的方法详解...
- javaweb增删改查实例_JavaWeb图像可视化管理系统之后台搭建(二)用户管理与增删改查(内含代码)...
- 2021计算机科学调剂,2021北京科技大学计算机科学与技术专业接收调剂研究生的通知...
- java堆栈_Java堆栈– Java堆栈
- node js 非阻塞io_Node Express JS:套接字IO模块示例
- C++基础知识(五)C++的一些特性
- 产品运营必备的素质有哪些