Spark2.x 引入了很多优秀特性,性能上有较大提升,API 更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算 API 的统一,实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展,及性能的提升。

Spark2.x 新特性

1). Spark Core/SQL

在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准 ,支持子查询,对常用的SQL操作和DataFrame,性能有2-10倍的提升。

2). sparksession

Spark2.0 中引入了 SparkSession 的概念,它为用户提供了一个统一的切入点来使用 Spark 的各项功能,统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API,学习 Spark2 的难度也会大大降低。

3). 统一 DataFrames 和 Datasets 的 API。

它们都是提供给用户使用,包括各类操作接口的 API,1.3 版本引入 DataFrame,1.6版本引入Dataset,在 spark 2.0 中,把 dataframes 当作是一种特殊的 datasets,dataframes = datasets[row],把两者统一为datasets。

4). Structured Streaming

Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API,使得Spark Streaming充分受益Spark SQL的易用性和性能提升。

5). 其它特性

mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑,提供更多的 R 语言算法,默认使用 Scala 2.11 编译与运行。

参考资料:

https://www.shiyanlou.com/courses/809/labs/2835/document

转载于:https://www.cnblogs.com/libin2015/p/7250046.html

Spark2.x 与 Spark1.x 关系相关推荐

  1. Spark集群基于Zookeeper的HA搭建部署笔记(转)

    原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...

  2. 好程序员大数据教程:SparkShell和IDEA中编写Spark程序

    好程序员大数据教程:SparkShell和IDEA中编写Spark程序,spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用Scala编写Spa ...

  3. Spark集群中HA环境搭建

    1.环境介绍 (1)操作系统ubuntu16.4.0 (2)两个节点:spark1(192.168.232.147),spark2(192.168.232.152) (生产环境下一般配置3台) (3) ...

  4. Spark常见故障诊断(一)

    本人维护的Spark主要运行在三个Hadoop集群上,此外还有其他一些小集群或者隐私集群.这些机器加起来有三万台左右.目前运维的Spark主要有Spark2.3和Spark1.6两个版本.用户在使用的 ...

  5. Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

    文章目录 Spark ALS recommendForAll源码解析实战 1. 软件版本: 2. 本文要解决的问题 3. 源码分析实战 3.1 Spark2.2.2 ALS recommendForA ...

  6. Spark1.x升级Spark2.x常见异常【map】

    一.创建Spark入口 相较于Spark1.x,Spark2.x最明显的区别就是程序执行入口的区别了,从SparkContext变为SparkSession.相较于SparkContext,Spark ...

  7. SparkStreaming整合Kafka(Offset保存在zookeeper上,Spark2.X + kafka0.10.X)

    先来一段到处都有的原理(出处到处都有,就不注明了) Streaming和Kafka整合有两种方式--Receiver和Direct,简单理解为:Receiver方式是通过zookeeper来连接kaf ...

  8. spark1.0和2.0的区别_Spark2.0 VS Spark 1.* -------SparkSession的区别

    Spark .0以前版本: val sparkConf = new SparkConf().setAppName("soyo") val spark = new SparkCont ...

  9. Spark2.X管理与开发

      ==========第一篇:Scala编程语言========= 一.Scala语言基础 1.Scala语言简介 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各 ...

最新文章

  1. 杂题 NOIP2016蚯蚓
  2. 性能计数器与profiler的组合性能诊断
  3. Google:推荐几款好用的Chrome浏览器插件
  4. 【C语言】通过原子操作实现加减乘除操作Ⅱ
  5. Web前端开发:SQL Jsp小项目(一)
  6. CSS3 盒阴影 box-shadow属性
  7. Android圆角矩形
  8. 麒麟信安:“一云多芯”信创云桌面解决方案引领者
  9. 服务器串口协议,基于TCPIP协议串口通信服务器设计说明.docx
  10. C#中文件与文件夹相关的操作
  11. vue 配置sass、scss全局变量
  12. SQL server2008下载安装
  13. 如何把证件照压缩到20k?证件照太大如何压缩?
  14. .NET6发布到linux
  15. 投资心理和关于延迟满足的三个实验
  16. 反黄软件测试工程师,谁才是反黄卫士?五款反黄软件横向评测
  17. k8s篇-POD资源管理
  18. 手机如何双声道录音_中老年智能手机教程:手机通话如何录音?
  19. python分析红楼梦中人物形象_红楼梦中的人物形象及其性格特点
  20. Python 条件运算符的嵌套来完成此题:学习成绩

热门文章

  1. asp实现批量录入数据
  2. 干货 | 携程基于Quasar协程的NIO实践
  3. 数据中台模型设计系列(一):维度建模初探
  4. 中国爬虫违法违规案例汇总
  5. 聊聊单体应用的 4 点不良影响,第 4 点很痛很真实
  6. 分享一个牛逼的阿里天猫面经,已经拿到 Offer ,来自朋友的朋友
  7. 【手写系列】写一个迷你版的Tomcat
  8. 如何实现一个Java Class解析器
  9. Python操作Memcached
  10. 【Scratch】青少年蓝桥杯_每日一题_6.17_奇偶数