1.1 什么是Spark

1.2 Spark内置模块

Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。

Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的SQL方言(HQL)来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。

Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。

Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。

集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。为了实现这样的要求,同时获得最大灵活性,已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度 器,叫作独立调度器。

Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。

1.3 Spark特点

(本文为系列文章,关注作者阅读其它部分内容,总有一篇是你欠缺的,技术无止境,且学且珍惜!!!)

大数据技术之Spark入门(一)概述相关推荐

  1. 大数据技术之Spark(一)——Spark概述

    大数据技术之Spark(一)--Spark概述 文章目录 前言 一.Spark基础 1.1 Spark是什么 1.2 Spark VS Hadoop 1.3 Spark优势及特点 1.3.1 优秀的数 ...

  2. 大数据技术之Canal入门篇

    大数据技术之Canal入门篇 文章目录 大数据技术之Canal入门篇 写在前面 第 1 章 Canal 入门 1.1 什么是 Canal 1.2 MySQL 的Binlog 1.2.1 什么是 Bin ...

  3. mllib逻辑回归 spark_大数据技术之Spark mllib 逻辑回归

    本篇教程探讨了大数据技术之Spark mllib 逻辑回归,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入. 逻辑回归 逻辑回归其实是一个分类算法而不是回归算法.通常是利用已知的 ...

  4. 大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作

    大数据技术之_20_Elasticsearch学习_01 一 概述 1.1 什么是搜索? 1.2 如果用数据库做搜索会怎么样? 1.3 什么是全文检索和 Lucene? 1.4 什么是 Elastic ...

  5. 大数据技术——Hadoop3.X入门搭建+安装调优(1.入门)

    文章目录 一.大数据概论 二.Hadoop概述 三.Hadoop 运行环境搭建 (开发 重点) 3.1 模板虚拟机环境准备 3.2 克隆虚拟机 3.3 在hadoop102安装JDK 3.4 在had ...

  6. 大数据技术之_17_Storm学习_Storm 概述+Storm 基础知识+Storm 集群搭建+Storm 常用 API+Storm 分组策略和并发度

    大数据技术之_17_Storm学习 一 Storm 概述 1.1 离线计算是什么? 1.2 流式计算是什么? 1.3 Storm 是什么? 1.4 Storm 与 Hadoop 的区别 1.5 Sto ...

  7. 大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作...

    一 概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 ...

  8. 大数据因果推理与学习入门综合概述

    在<原因与结果经济学>的开篇,给读者回答以下几个问题. 定期接受代谢综合征体检就能长寿吗? 看电视会导致孩子学习能力下降吗? 上录取分数高的大学收入就会更高吗?想必很多人的回答都是肯定的. ...

  9. 大数据开发:Spark入门详解

    众所周知,Spark 它是专门为大规模数据处理而设计的快速通用计算引擎,因此Spark它在数据的挖掘等领域便有着非常广泛的应用,而从现阶段来讲的话它也已经形成了一个高速发展并且应用相当广泛的生态系统了 ...

  10. 05_大数据技术之Spark内核解析(1.1)

    1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spa ...

最新文章

  1. C#开发Unity游戏教程之Scene视图与脚本的使用
  2. CssVariables_01
  3. 2015年第六届蓝桥杯 - 省赛 - C/C++大学B组 - C. 三羊献端
  4. TCP网络编程的基本流程
  5. 桥梁在线计算机监测系统,桥梁在线监测系统
  6. html用dom显示xml,html DOM文件引用一个XML文件将不会在浏览器中打印
  7. 如何把SQLServer数据库从高版本降级到低版本?
  8. SCPPO(五):解决MVC中Json传输数据量问题
  9. Tip: 强制 Outlook 用户使用缓存模式
  10. 【渝粤题库】陕西师范大学292231 财务管理Ⅱ 作业(专升本)
  11. 全球和国产十大AI芯片
  12. 经典有源滤波电路(赛伦-凯滤波器)
  13. eclipse 中使用字符流复制文件乱码解决
  14. HAA2018A_音频功放规格书_V1.2
  15. Day11如何衡量算法的时间复杂度和空间复杂度
  16. 史上最全源码安装ROS-BUG解决集合2:在树莓派4B上安装Raspbian Bluster aarch64系统 + ROS-Melodic
  17. php 微信公共平台开发
  18. JavaWeb之HTML标签
  19. select 字符串
  20. Unittest自动化测试框架教程(二)——Python中Fixture测试夹具的使用和setUp方法相关参数传递

热门文章

  1. PTA练习4-11 统计素数并求和
  2. Linux中文显示乱码问题
  3. 网络代理之后无法抓包的解决方案
  4. 风尚云网学习-vue项目的构建/打包/发布
  5. 社区发现算法——COPRA算法
  6. vue里面实现百度地图 标记多点 地点连线
  7. 【2021版】想要专升本你不得不看的全干货_吐血整理_专升本_计算机文化基础(三)
  8. 手机连接投影机的步骤_投影仪手机投屏怎么弄(投影仪连接手机方法介绍)
  9. Themida/WinLicense V1.8.2.0 +脱壳 FOR PcShare远程控制会员版本20070826
  10. 机械制图计算机类实验报告,机械cad实验报告总结