spark core、spark sql、spark streaming 联系与区别

SparkCore 是做离线批处理

SparkSql 是做sql高级查询

SparkStreaming是做流式处理

SparkShell 是做交互式查询

区别：

Spark Core ：
Spark的基础，底层的最小数据单位是：RDD ; 主要是处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、非格式化数据。它与Hadoop的MapReduce的区别就是，spark core基于内存计算，在速度方面有优势，尤其是机器学习的迭代过程。

Spark SQL：
Spark SQL 底层的数据处理单位是：DataFrame(新版本为DataSet) ; 主要是通过执行标准 SQL 来处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、格式化数据。就是Spark生态系统中一个开源的数据仓库组件，可以认为是Hive在Spark的实现，用来存储历史数据，做OLAP、日志分析、数据挖掘、机器学习等等

Spark Streaming：
Spark Streaming底层的数据处理单位是：DStream ; 主要是处理流式数据(数据一直不停的在向Spark程序发送)，这里可以结合 Spark Core 和 Spark SQL 来处理数据，如果来源数据是非结构化的数据，那么我们这里就可以结合 Spark Core 来处理，如果数据为结构化的数据，那么我们这里就可以结合Spark SQL 来进行处理。

联系：

Spark SQL构建在Spark Core之上，专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的！
　　Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进，
　　简单来讲：
　　　　Spark SQL 支持很多种结构化数据源，可以让你跳过复杂的读取过程，轻松从各种数据源中读取数据。
　　　　当你使用SQL查询这些数据源中的数据并且只用到了一部分字段时，SparkSQL可以智能地只扫描这些用到的字段，而不是像SparkContext.hadoopFile中那样简单粗暴地扫描全部数据。

可见，Spark Core与Spark SQL的数据结构是不一样的!

spark core、spark sql、spark streaming 联系与区别相关推荐

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子 $ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive ...
rdd数据存内存数据量_spark系列：spark core 数据交互技术点（数据模型）
spark core实现了spark的基本功能:存储交互.任务调度.内存管理.错误恢复等:本片文章主要介绍与数据交互相关的核心技术点. 本文目录: RDD特性及交互 shuffle操作及调优 RDD持 ...
学习笔记Spark（一）—— Spark入门
一.Spark简介什么是Spark? 快速.分布式.可扩展.容错的集群计算框架: Spark是基于内存计算的大数据分布式计算框架: 低延迟的复杂分析: Spark是Hadoop MapReduce的 ...
[Kafka与Spark集成系列一] Spark入门
欢迎支持笔者新作:<深入理解Kafka:核心设计与实践原理>和<RabbitMQ实战指南>,同时欢迎关注笔者的微信公众号:朱小厮的博客. 欢迎跳转到本文的原文链接:https: ...
Spark（一）Spark介绍
一.Spark的介绍发展前景: 1.目前许多领域的应用数据爆炸式增长,与前所未有的数据收集规模:例如:电子商务.社交网络.计算机生物.自媒体.公安交通.运营商等等. 2.大规模数据处理和分析系统越来 ...
大数据Hadoop之——Spark SQL+Spark Streaming
文章目录一.Spark SQL概述二.SparkSQL版本 1)SparkSQL的演变之路 2)shark与SparkSQL对比 3)SparkSession 三.RDD.DataFrames和D ...
Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。
Spark四大组件包括Spark Streaming.Spark SQL.Spark MLlib和Spark GraphX.它们的主要应用场景是: Spark Streaming: Spark Str ...
分布式实时计算—Spark—Spark Core
原文作者:bingoabin 原文地址:Spark Core 目录一.Spark Core 1. 主要功能 2. Spark Core子框架 3. Spark架构 4. Spark计算模型二.组件 ...
spark core面试专题
1.Spark是什么? Spark是大数据的调度,监控和分配引擎.它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 , ...

spark core、spark sql、spark streaming 联系与区别

区别：

联系：

spark core、spark sql、spark streaming 联系与区别相关推荐

最新文章

热门文章