前言

如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代。1.0.0版本号不仅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作为一个新的组件增加。支持在Spark上存储和操作结构化的数据。已有的标准库比方ML、Streaming和GraphX也得到了非常大程度上的增强。对Spark和Python的接口也变得更稳定。

下面是几个基本的改进点:

融合YARN的安全机制

Hadoop有着自己的安全机制。包含认证和授权。Spark如今能够和Hadoop/YARN的安全模型并存,也就是说Spark能够对任务提交(job submission)进行认证,能够使用HDFS的认证机制进行数据的安全传输,各组件之间也添加了互相认证。

改善了任务提交的流程

这个版本号在非常大程度上增强了Spark应用的提交。Spark启用新的任务提交工具spark-submit tool以便可以通过一个普通进程向任一Spark集群提交应用程序。Spark的UI界面中也添加了历史任务的记录,方便了用户查看已经结束了任务执行情况。

Spark SQL的增加

Spark SQL作为一个新组建添加到1.0.0版本号中,它能够利用Spark进行结构化数据的存储和操作,结构化数据既能够赖在外部结构化数据源(当前支持Hive和Parquet),也能够通过向已有RDD添加schema的方式得到。

Spark SQL提供了方便的调用接口,用户能够通过SQL语句来与Spark代码交互。

当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的运行方案,而且能够将结果存储到Parquet格式中,在将来Spark SQL还会兼容其它的存储系统。

MLib的改进

这个版本号的MLib添加了对Scala、Java、Python中稀疏特征向量的支持。其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还添加了几个新的算法,包含为分类和回归添加了可扩展的决策树、矩阵算法的分布式实现(包含SVD和PCA)、模型评估函数以及L-BFGS算法。

GraphX和Streaming的改进

GraphX在图载入、边反转和邻接计算方面对通信的要求更低,产生的RDD图更简单,从而在性能方面得到了非常大提升。

Spark Streaming提供了对Flume的支持,在状态流转换方面进行了很多优化,而且可以对长时间执行任务的状态进行自己主动清理。

另外。Spark还对调用接口提供了更好的支持。包含对Java 1.8的支持,对Python很多其它版本号的兼容。使用对外内存进行RDD的cache,对小文件的更好支持等。

后记

非常荣幸从0.7.3版本号就開始熟悉、使用Spark,也非常开心自己介入了Spark开源项目的贡献。1.0.0的release note中已经有了自己的身影。尽管做了仅仅是非常小的贡献。可是还是感到一点点的满足感,未来会继续关注开源社区。

近期会增强对Spark的使用,并開始从架构上源代码级别的分析Spark。

參考:http://spark.apache.org/releases/spark-release-1-0-0.html

声明:

本文为原创。禁止用于不论什么商业用途,转载请注明出处:http://blog.csdn.net/asongoficeandfire/article/details/27725401

Spark 1.0.0版本发布相关推荐

  1. Fluid 0.5 版本发布:开启数据集缓存在线弹性扩缩容之路

    作者 | 顾荣  南京大学PASALab, Fluid项目co-founder 来源 | 阿里巴巴云原生公众号 导读:为了解决大数据.AI 等数据密集型应用在云原生场景下,面临的异构数据源访问复杂.存 ...

  2. ZLMS教学管理平台系统V1.2.0最新版本发布,支持纯Web视频直播点播,还带运营在线支付功能!完全免费提供!...

    ZLMS教学管理平台系统V1.2.0最新版本发布,支持纯Web视频直播,点播!还带在线支付功能! ZLMS 开发团队在综合参考了各方面的合理建议之后,经过两个多月的紧张开发及测试,终于发布V1.2.0 ...

  3. JeeWx捷微3.0多触点版本发布,支持微信公众号,微信企业号,支付窗——喜迎双“旦”

    喜迎双旦,JeeWx捷微3.0多触点版本发布^_^ JeeWx捷微V3.0--多触点版本管理平台(支持微信公众号,微信企业号,支付窗) JeeWx捷微V3.0.0版本是一个颠覆和跨时代版本,官方团队历 ...

  4. P3-weixin-2.0.1 版本发布,JAVA微信插件框架

    P3-weixin-2.0.1版本发布(JAVA微信插件框架) P3-Weixin是轻量级Java插件开发框架,采用主流JAVA技术,集成强大代码生成器,增删改查一键生成,封装统一后台管理系统,不仅适 ...

  5. jeewx-api 1.0.5 版本发布,微信SDK接口封装(支持微信第三方开放平台)

    JeeWx-api 1.0.5 版本发布,微信SDK接口封装 1.jeewx-api为何诞生 现在微信越来越火,基于微信的公众号和服务号越来越丰富,虽然微信帮助文档已经提供了相关的接口,但是接口比较多 ...

  6. 字幕助手 FastTitle 0.0.3 版本发布

    FastTitle 也叫字幕助手,当前发布版本是0.0.3,是一款根据视频语音自动视频生成字幕的辅助软件. 和其他同类型软件比较,具有不用注册登陆,本地操作不用上传,完全免费,流程人性化,易于编辑等优 ...

  7. Rasa课程、Rasa培训、Rasa实战Rasa 3.1.0最新版本发布 2022-03-25

    Rasa课程.Rasa培训.Rasa实战Rasa 3.1.0最新版本发布 2022-03-25 Rasa 3.1.0 新版本升级内容 10203:为库日志添加配置选项(通过 env 变量). 1047 ...

  8. Unc0ver-v5.0.1版本发布,报错原因以及广告问题

    unc0ver-v5.0.1版本发布 "通过Cydia和调整注入对iOS 11.0-13.5上的所有设备提供全面支持 启用对越狱应用程序的不受限制的存储访问,以实现沙盒向后兼容性,同时通过为 ...

  9. app advice:苹果iOS 2.0 – iOS 8.0各版本发布时间表

    http://www.199it.com/archives/255587.html app advice:苹果iOS 2.0 – iOS 8.0各版本发布时间表 2014年07月15日 iPhone, ...

  10. 多节点CDN缓存加速系统wdcdn2.0.1版本发布

    多节点CDN缓存加速系统wdcdn2.0.1版本发布 Wdcdn是一套基于lamp+squid架构开发CDN缓存加速系统及管理系统 可帮助中小站长或中小企业快速构建自己的CDN网络及服务器群,提供更好 ...

最新文章

  1. 目标检测中特征融合技术(YOLO v4)(下)
  2. 删除所有数据_mysql数据库操作——数据库的增删改查
  3. CStatic 控件设置文本,不能重回问题
  4. 精彩回放 | 玩转 VS Code 物联网开发
  5. .NET Framework学习笔记(十)
  6. RedisUtil - Redis功能介绍,五种数据类型的使用,Spring和Redis的集成
  7. sql语句 isnull(列名,'')='' /STUFF的意思
  8. 电脑不启动任务管理器时cpu使用率很高,短时间内不使用电脑时启动为什么能耗可下降到15%以下?
  9. 从拉萨骑行到珠峰大本营
  10. mysqlbinlog抽取某个表的信息
  11. Linux内核部件分析 设备驱动模型之bus
  12. 高效记忆/形象记忆(08)110数字编码表 21-30
  13. 8.3.2 构建组合行为
  14. Strom完整攻略(一)
  15. 很经典的十五句话,从别人的blog上看来的!
  16. DVWA通过攻略之SQL注入
  17. 服务器设置密码修改导致的后果
  18. java 节电软件_[乱弹琴]IT人士如何节电
  19. C#winform图书管理系统(课程设计)
  20. 训练AI数据模型所需要的高性能计算机配置

热门文章

  1. php 提交网页 传值 获取编辑框的值
  2. 软件架构阅读笔记15
  3. 697. Degree of an Array 频率最高元素的最小覆盖子数组
  4. Python爬虫:Xpath语法笔记
  5. 我的世界之史蒂夫生存记
  6. 通过电机编码器AB相输出确定电机转向
  7. 给XCODE加一个注释的小插件
  8. 解决无法将类型为“System.Web.UI.WebControls.HiddenField”的对象强制转换为类型的错误...
  9. 背景建模--Vibe 算法优缺点分析
  10. webapi 返回类型