SparkCore 是做离线批处理

SparkSql 是做sql高级查询

SparkStreaming是做流式处理

SparkShell 是做交互式查询

区别:

Spark Core
Spark的基础,底层的最小数据单位是:RDD ; 主要是处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、非格式化数据。它与Hadoop的MapReduce的区别就是,spark core基于内存计算,在速度方面有优势,尤其是机器学习的迭代过程。

Spark SQL:
Spark SQL 底层的数据处理单位是:DataFrame(新版本为DataSet) ; 主要是通过执行标准 SQL 来处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、格式化数据。就是Spark生态系统中一个开源的数据仓库组件,可以认为是Hive在Spark的实现,用来存储历史数据,做OLAP、日志分析、数据挖掘、机器学习等等

Spark Streaming:
Spark Streaming底层的数据处理单位是:DStream ; 主要是处理流式数据(数据一直不停的在向Spark程序发送),这里可以结合 Spark Core 和 Spark SQL 来处理数据,如果来源数据是非结构化的数据,那么我们这里就可以结合 Spark Core 来处理,如果数据为结构化的数据,那么我们这里就可以结合Spark SQL 来进行处理。

联系:

Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的!
  Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进,
  简单来讲:
    Spark SQL 支持很多种结构化数据源,可以让你跳过复杂的读取过程,轻松从各种数据源中读取数据。
    当你使用SQL查询这些数据源中的数据并且只用到了一部分字段时,SparkSQL可以智能地只扫描这些用到的字段,而不是像SparkContext.hadoopFile中那样简单粗暴地扫描全部数据。

可见,Spark Core与Spark SQL的数据结构是不一样的!

spark core、spark sql、spark streaming 联系与区别相关推荐

  1. [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子

    [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子 $ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive ...

  2. rdd数据存内存 数据量_spark系列:spark core 数据交互技术点(数据模型)

    spark core实现了spark的基本功能:存储交互.任务调度.内存管理.错误恢复等:本片文章主要介绍与数据交互相关的核心技术点. 本文目录: RDD特性及交互 shuffle操作及调优 RDD持 ...

  3. 学习笔记Spark(一)—— Spark入门

    一.Spark简介 什么是Spark? 快速.分布式.可扩展.容错的集群计算框架: Spark是基于内存计算的大数据分布式计算框架: 低延迟的复杂分析: Spark是Hadoop MapReduce的 ...

  4. [Kafka与Spark集成系列一] Spark入门

    欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...

  5. Spark(一)Spark介绍

    一.Spark的介绍 发展前景: 1.目前许多领域的应用数据爆炸式增长,与前所未有的数据收集规模:例如:电子商务.社交网络.计算机生物.自媒体.公安交通.运营商等等. 2.大规模数据处理和分析系统越来 ...

  6. 大数据Hadoop之——Spark SQL+Spark Streaming

    文章目录 一.Spark SQL概述 二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...

  7. Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。

    Spark四大组件包括Spark Streaming.Spark SQL.Spark MLlib和Spark GraphX.它们的主要应用场景是: Spark Streaming: Spark Str ...

  8. 分布式实时计算—Spark—Spark Core

    原文作者:bingoabin 原文地址:Spark Core 目录 一.Spark Core 1. 主要功能 2. Spark Core子框架 3. Spark架构 4. Spark计算模型 二.组件 ...

  9. spark core面试专题

    1.Spark是什么? Spark是大数据的调度,监控和分配引擎.它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 , ...

最新文章

  1. 日本「AI 鱼脸识别」项目,每分钟识别 100 条
  2. (九)OpenStack---M版---双节点搭建---Swift安装和配置(单存储节点)
  3. 用findstr查找特定文件里面的字符串
  4. CAD计算机辅助设计与BIM的区别,3D建模、CAD和BIM三者之间的差异是什么,有什么区别?...
  5. python函数式编程读取数据时出现错误_写 Python 代码不可不知的函数式编程技术...
  6. 九十一、Python的GUI系列 | QT组件篇
  7. mysql统计age大于20的数_数据库命令记录
  8. python3socket非阻塞_Python的socket.accept非阻塞吗?
  9. explode php 正则,php用preg_replace和explode将li列表分割成纯文本数组
  10. 二叉树求到某一个节点路径
  11. Backbone的RESTFUL API 解释
  12. java并发编程(1)--线程 可见性 volatile怎么用
  13. 编译原理完整学习笔记(八):目标代码生成
  14. java读取配置文件方法_java 三种读取配置文件的方式
  15. 压力传感器的误差补偿
  16. 如何将pdf拆分为单页?推荐这些方法
  17. otter安装与使用终极总结
  18. 解释:为什么scanf被跳过或不执行
  19. Mac自定义触控栏 Touch Bar的显示教程
  20. JAWS模块分析(小东子)

热门文章

  1. Win11:Windows无法访问指定设备,路径或文件,您可能没有合适的权限访问这个项目。
  2. (30)Verilog实现倍频【方法一】
  3. 【Android】使用LiveData KTX Builder让代码更简洁
  4. 2019-01-18-Python爬取猫眼电影排行榜
  5. Iterative Deep Graph Learning for Graph Neural Networks: Better and Robust Node Embeddings
  6. AUTOSAR FOUNDATION文档——Foundation Release Overview
  7. Discuz!教程之通过简单php文件实现修改主题发帖时间
  8. /(^\s*)|(\s*$)/g是什么意思啊?
  9. 如何实现室内Wi-Fi无线终端的精准定位
  10. Matlab中使用符号工具箱求解变上限函数积分及其向量化运算