2019独角兽企业重金招聘Python工程师标准>>>

Spark 1.2 发布,此版本包括 172 位贡献者和超过 1000 个 commits。

此版本包括

  • Spark 核心操作和性能改进;

  • 添加新的网络传输子系统,进行了较大的改进;

  • Spark SQL 引入了一个外部数据源的支持,支持 Hive13;

  • 动态分区;

  • fixed-precision decimal type;

  • MLlib 添加了一个新的面向管道包 (spark.ml),组合多个算法;

  • Spark Streaming 添加了一个 Python API,提前写错误容错日志;

  • GraphX 正式脱离 Alpha 版本,引入了一个稳定的 API。

更多内容请看发行说明,现已提供下载。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽 管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

相关链接

  • Spark 的详细介绍:请点这里

  • Spark 的下载地址:请点这里

想通过手机客户端(支持 Android、iPhone 和 Windows Phone)访问开源中国:请点这里

本站文章除注明转载外,均为本站原创或编译
欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区
转载请注明:文章转载自:开源中国社区 [http://www.oschina.net]
本文标题:Spark 1.2 发布,开源集群计算系统
本文地址:http://www.oschina.net/news/58096/spark-1-2

转载于:https://my.oschina.net/u/2306127/blog/369911

Spark 1.2 发布,开源集群计算系统相关推荐

  1. 记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群

    一.基本信息 官网 http://spark.apache.org/ Apache Spark 官方文档中文版(Spark 2.2.0) http://spark.apachecn.org/#/ Sp ...

  2. spark提交到yarn_详细总结spark基于standalone、yarn集群提交作业流程

    最近总结了一些关于spark core的内容,今天先来和大家分享一下spark的运行模式. spark运行模式 (1)local:在本地eclipse.IDEA中写spark代码运行程序,一般用于测试 ...

  3. Spark基础学习笔记06:搭建Spark On YARN模式的集群

    文章目录 零.本讲学习目标 一.在Spark Standalone模式的集群基础上修改配置 二.运行Spark应用程序 (一)启动Hadoop的HDFS和YARN (二)运行Spark应用程序 (三) ...

  4. 生产环境实战spark (5)分布式集群 5台设备之间hosts文件配置 ssh免密码登录

    生产环境实战spark (5)分布式集群 5台设备之间 ssh免密码登录 之前已经在master节点单台设备上配置ssh免密码的登录工作,现在要做的事情是在5台设备之间实现ssh免密码操作.我在整个大 ...

  5. 从零到一编写一个 spark 程序并提交到集群中运行

    怎样用IDEA编写spark程序并提交到集群上运行 1.安装scala sdk 1.下载 scala 安装程序 #下载地址 https://www.scala-lang.org/download #w ...

  6. Spark练习 - 提交作业到集群 - submit job via cluster

    Created by Wang, Jerry, last modified on Sep 12, 2015 start-master.sh ( sbin folder下) then ps -aux 7 ...

  7. RabbitMQ 从入门到精通 消息应答 持久化 交换机 队列 发布确认 集群 等

    RabbitMQ消息队列 RabbitMQ 的概念 RabbitMQ 是一个消息中间件:它接受并转发消息.你可以把它当做一个快递站点,当你要发送一个包裹时,你把你的包裹放到快递站,快递员最终会把你的快 ...

  8. 新品发布 | 无人机集群编队全套方案来啦!

    无人机集群编队开发平台 当我们研究集群算法或相关应用时,一般情况下,都会先开发仿真,仿真开发完毕后,常常因为找不到合适的无人机平台验证自己的集群算法或代码而发愁,好不容易找到接近的无人机平台后,却又与 ...

  9. spark调用python_在MRS集群中使用Python3.7运行PySpark程序,调用RDD的take函数报错处理...

    现象 如果我们安装了python3.7版本来运行spark,并且用到了RDD的take函数,就会报错:RuntimeError: generator raised StopIteration 我们可以 ...

最新文章

  1. 深度学习目标检测相关论文资源合辑
  2. 微服务SpringCloud
  3. 第18课:模型部署上线的几种服务发布方式
  4. vue - resource 使用过程的坑
  5. 开源GIS解决方案,暨GeoServer+OpenLayer结合开发总结
  6. Vim/GVim格式化xml文件
  7. 用ado.net生成对应的sql语句
  8. 使用Eclipse创建maven项目
  9. Tiktok预计下半年开通购物车,你有想法做吗?
  10. Kafka 性能调优实战:同等资源配置性能提升 20 几倍的秘诀
  11. 第二章 Java浮点数精确计算
  12. docker复习:CVE-2016-10033验证
  13. 培训2022年6月22日
  14. 重装系统时出现windows root\system32\ntoskrnl.exe 损坏或者丢失?解决方法。。。。。。
  15. 如何把视频转换成gif动图
  16. matlab滤波器滤除低频直流信号,对低频信号的滤波的方法
  17. 洛谷 P1824 进击的奶牛 题解
  18. CA运作模式-认证与过期吊销
  19. 【RMAN】数据库备份之冷备份
  20. 如何实现页面时间动态更新,页面动态刷新

热门文章

  1. 静态路由默认路由的配置
  2. Teradata天睿公司推出适用各种部署环境的全球最强分析数据库
  3. 从零开始学_JavaScript_系列(21)——dojo(8)(手把手教你封装一个widget)
  4. CSS3中弹性盒布局的最新版
  5. Kickstart之添加自动化脚本
  6. 从如何优化SQL入手,提高数据仓库的ETL效率
  7. 解决 同时安装 python3,python2环境时,用pip安装 python3 包
  8. 网络化沟通及协作的人机交互编程语言-机器人语言2
  9. map reduce相关程序
  10. RHCS创建高可用集群apche服务器