Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。它们的主要应用场景是:

Spark Streaming:
Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。

Spark SQL:
Spark SQL可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。

Spark MLlib:
MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。用于机器学习和统计等场景

Spark GraphX:
GraphX是用于图计算和并行图计算的新的(alpha)Spark API。通过引入弹性分布式属性图(Resilient Distributed Property Graph),一种顶点和边都带有属性的有向多重图,扩展了Spark RDD。为了支持图计算,GraphX暴露了一个基础操作符集合(如subgraph,joinVertices和aggregateMessages)和一个经过优化的Pregel API变体。此外,GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建器集合。

Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。相关推荐

  1. 大数据分析常用组件、框架、架构介绍(Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase)

    在正式开始介绍大数据知识之前我们先来了解一下一些大数据常用名词,如果您是"过来人"的话,可以直(jia)接(shen)跳(yin)过(xiang):如果您是新手的话,可以带着对新鲜 ...

  2. 通过案例对 spark streaming 透彻理解三板斧之三:spark streaming运行机制与架构

    本期内容: 1. Spark Streaming Job架构与运行机制 2. Spark Streaming 容错架构与运行机制 事实上时间是不存在的,是由人的感官系统感觉时间的存在而已,是一种虚幻的 ...

  3. 【Spark Streaming】(四)基于 Spark Structured Streaming 的开发与数据处理

    文章目录 一.前言 二.Spark Streaming vs Structured Streaming 2.1 Spark Streaming 2.2 Structured Streaming 2.3 ...

  4. Apache Spark 3.0 结构化Streaming流编程指南

    目录 总览 快速范例 Scala语言 Java语言 Python语言 R语言 程式设计模型 基本概念 处理事件时间和延迟数据 容错语义 使用数据集和数据帧的API 创建流数据框架和流数据集 流数据帧/ ...

  5. Spark 2.3.0 Structured Streaming详解

    一.什么是Structured Streaming 结构化流(Structured Streaming)是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎.你可以使用与静态数据批处理计算相 ...

  6. 写好python的代码怎么放在spark上跑_Spark精华问答 | spark的组件构成有哪些?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  7. sql优化ppt_Spark优化 | Spark 3.0 中七个必须知道的 SQL 性能优化

    本文来自 IBM 东京研究院的高级技术人员 Kazuaki Ishizaki 博士在 Spark Summit North America 2020 的 <SQL Performance Imp ...

  8. 通过案例对 spark streaming 透彻理解三板斧之一: spark streaming 另类实验

    本期内容 : spark streaming另类在线实验 瞬间理解spark streaming本质 一.  我们最开始将从Spark Streaming入手 为何从Spark Streaming切入 ...

  9. Spark精华问答 | spark的组件构成有哪些?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

最新文章

  1. python导入模块的三种方法,例子: import numpy和from numpy import * (import matplotlib 和 from matplotlib import *)
  2. TS基础1(类型定义、接口)-学习笔记
  3. html2个表单,单个html angular2中的多个表单
  4. 频谱扩展 matlab,语音信号频谱扩展
  5. RequireJS模块的建立:插件化体验 - demo演示篇
  6. Scrapy运行时出现的错误 :exception.ImportError No module named win32api
  7. BZOJ2820:YY的GCD
  8. python求解LeetCode题目,找出数组中的Majority element元素
  9. 专访唐宇迪博士:我是如何迈入同济大学校园的?浅谈人工智能,未来数据挖掘和计算机视觉是风口
  10. 最优化理论与算法期末试题_最优化原理和方法试题答案.doc
  11. NDK学习笔记-NDK开发流程
  12. 使用fragment 浮动的显示内容
  13. 如何使用typora来写博客?
  14. 微信字号调整问题 html,微信H5适配 解决微信调整字体大小导致Html5页面混乱
  15. 求N分之一序列的前N项和
  16. Android 心形图片心形ImageView、带边框的的心形图片和圆形图片
  17. 扭转战局的棋子 安卓4.4 ART模式实测解析
  18. cp1025 linux驱动下载,HP LaserJet 专业 CP1025 彩色打印机驱动下载
  19. 分布式数据库中间件Mycat2
  20. 【windows】组装电脑笔记

热门文章

  1. 一夜之间收到上百条短信,账户空了... 这种诈骗方式的背后技术原理
  2. offsetParent解释
  3. Scratch-简易时钟制作
  4. teb tuning
  5. mysql事务排队情况_MySQL事务问题
  6. 好用的需求文档管理工具Telelogic DOORS
  7. 【微信小程序】父子组件之间传值
  8. Pr 视频效果:调整
  9. Linux常用命令cp详解
  10. NTU-RGBD-120数据集