前言

今天Spark最终跨出了里程碑的一步,1.0.0版本号的公布标志着Spark已经进入1.0时代。1.0.0版本号不仅增加了非常多新特性,而且提供了更好的API支持。Spark SQL作为一个新的组件增加,支持在Spark上存储和操作结构化的数据。已有的标准库比方ML、Streaming和GraphX也得到了非常大程度上的增强,对Spark和Python的接口也变得更稳定。下面是几个基本的改进点:

融合YARN的安全机制

Hadoop有着自己的安全机制,包含认证和授权。Spark如今能够和Hadoop/YARN的安全模型并存,也就是说Spark能够对任务提交(job submission)进行认证,能够使用HDFS的认证机制进行数据的安全传输,各组件之间也添加了互相认证。

改善了任务提交的流程

这个版本号在非常大程度上增强了Spark应用的提交。Spark启用新的任务提交工具spark-submit tool以便可以通过一个普通进程向任一Spark集群提交应用程序。Spark的UI界面中也添加了历史任务的记录,方便了用户查看已经结束了任务执行情况。

Spark SQL的增加

Spark SQL作为一个新组建添加到1.0.0版本号中,它能够利用Spark进行结构化数据的存储和操作,结构化数据既能够赖在外部结构化数据源(当前支持Hive和Parquet),也能够通过向已有RDD添加schema的方式得到。

Spark SQL提供了方便的调用接口,用户能够通过SQL语句来与Spark代码交互。当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的运行方案,而且能够将结果存储到Parquet格式中,在将来Spark SQL还会兼容其它的存储系统。

MLib的改进

这个版本号的MLib添加了对Scala、Java、Python中稀疏特征向量的支持,其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还添加了几个新的算法,包含为分类和回归添加了可扩展的决策树、矩阵算法的分布式实现(包含SVD和PCA)、模型评估函数以及L-BFGS算法。

GraphX和Streaming的改进

GraphX在图载入、边反转和邻接计算方面对通信的要求更低,产生的RDD图更简单,从而在性能方面得到了非常大提升。

Spark Streaming提供了对Flume的支持,在状态流转换方面进行了很多优化,而且可以对长时间执行任务的状态进行自己主动清理。

另外,Spark还对调用接口提供了更好的支持,包含对Java 1.8的支持,对Python很多其它版本号的兼容,使用对外内存进行RDD的cache,对小文件的更好支持等。

后记

非常荣幸从0.7.3版本号就開始熟悉、使用Spark,也非常开心自己介入了Spark开源项目的贡献,1.0.0的release note中已经有了自己的身影。尽管做了仅仅是非常小的贡献,可是还是感到一点点的满足感,未来会继续关注开源社区。

近期会增强对Spark的使用,并開始从架构上源代码级别的分析Spark。

參考:http://spark.apache.org/releases/spark-release-1-0-0.html

声明:

本文为原创,禁止用于不论什么商业用途,转载请注明出处:http://blog.csdn.net/asongoficeandfire/article/details/27725401

转载于:https://www.cnblogs.com/mfrbuaa/p/3791406.html

Spark 1.0.0版本号公布相关推荐

  1. Spark 1.0.0版本发布

    前言 如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代.1.0.0版本号不仅增加了非常多新特性.而且提供了更好的API支持.Spark SQL作为一个新的组件增加. ...

  2. 云舒网络译:Rancher1.0正式版公布

    编者注: Rancher Labs是一家容器技术基础设施提供商,总部位于美国硅谷,Rancher是一个高效易用的企业容器云平台. 云舒网络 http://www.cloudsoar.com/为Ranc ...

  3. MyEclipse 9.0 正式版公布新闻 下载

    MyEclipse 9.0 正式版公布 新闻 ============================================================================ ...

  4. 在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境

    (running Spark in local mode on single computer) 1.参见本博客前面的文章完成以下准备工作: (1)安装JVM (2)安装Scala (3)安装Pyth ...

  5. Apache Spark 2.2.0 中文文档 翻译活动

    为什么80%的码农都做不了架构师?>>>    Spark 2.2.0 已然发布(2017-07-11 发布) 5 天了,更新了一些新套路吧! 此版本从 Structured Str ...

  6. Spark RDD的默认分区数:(spark 2.1.0)

    本文基于Spark 2.1.0版本 新手首先要明白几个配置: spark.default.parallelism:(默认的并发数) 如果配置文件spark-default.conf中没有显示的配置,则 ...

  7. Spark 2.2.0 集群部署

    环境说明 服务器1 主机名:node201 IP:10.0.0.201 OS: centos 7.4 hadoop: NameNode, ResourceManager, SecondaryNameN ...

  8. Springboot(2.0.0.RELEASE)+spark(2.1.0)框架整合到jar包成功发布(原创)!!!

    一.前言 首先说明一下,这个框架的整合可能对大神来说十分容易,但是对我来说十分不易,踩了不少坑.虽然整合的时间不长,但是值得来纪念下!!!我个人开发工具比较喜欢IDEA,创建的springboot的j ...

  9. Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

    Spark 概述 Apache Spark 是一个快速的, 多用途的集群计算系统. 它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎 ...

  10. IllegalStateException: Error reading delta file hdfs://xxx/spark/xx/state/0/11/1.delta

    1. 背景 执行执行spark structured sql程序报错 19/08/26 15:17:15 WARN scheduler.TaskSetManager: Lost task 11.0 i ...

最新文章

  1. Django框架----Object Relational Mapping(ORM)
  2. C 语言 int 型乘法溢出问题
  3. nginx关闭websocket
  4. wamp配置中的大小写
  5. Membership学习(三)Membership Providers介绍
  6. 【设计模式】解释器模式
  7. iOS开发之openURL:(打电话,打开网页等)
  8. 一文读懂python中数据纬度是怎么数的。
  9. hi3559v100的amp双系统初始化
  10. User Manual
  11. 单片机学习入门一 学习概述
  12. 直播电商“变坏”,从罗永浩们开始
  13. 重新学习Python的第二天_列表及字符串的学习与练习
  14. 创业公司的抗争,共享单车的合并
  15. qq钱包php开发文档,QQ轻应用
  16. 2017年Q1中国服务器市场研究报告
  17. 【笔记:Spring】
  18. 《LCD总结篇(中级)》
  19. 手写在线计算机,在线生成手写签名
  20. 《JavaWeb视频教程》(p44)

热门文章

  1. 海尔智能微型计算机,微型计算机 Microcomputers
  2. clickhouse字符串函数
  3. 记录:编译opencv-4.1.0、opencv_contrib-4.1.0、dense_flow过程
  4. laravel路由不生效,404,除了/ 都不行,关于nginx环境下laravel除了默认路由都出现404报错的处理方法...
  5. 爬虫实践-微博关键词搜索抓取
  6. 笔记本如何查看mac地址
  7. 带来一个react插件的使用方式---- video-react
  8. 不重启的情况下清除网络共享的密码
  9. 《Python分布式计算》第2章 异步编程 (Distributed Computing with Python)
  10. 多变量频率统计——r