http://www.csdn.net/article/2015-08-26/2825542

Apache Spark 不过时的六大理由

发表于19小时前| 1236次阅读| 来源CSDN| 2 条评论| 作者Peter Schlampp

云计算SparkHadoop
allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-08-26%2F2825542&type=3&count=&appkey=&title=Spark%E5%8F%AF%E8%83%BD%E5%B9%B6%E4%B8%8D%E6%88%90%E7%86%9F%EF%BC%8C%E4%BD%86%E5%B0%86%E4%BC%9A%E6%8C%81%E7%BB%AD%E4%B8%8B%E5%8E%BB%E3%80%82%E6%9C%AC%E6%96%87%E4%BD%9C%E8%80%85Peter%20Schlampp%20%E6%98%AF%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E6%8F%90%E4%BE%9B%E5%95%86Platfora%E4%BA%A7%E5%93%81%E5%89%AF%E6%80%BB%E8%A3%81%EF%BC%8C%E4%BB%96%E8%AE%A4%E4%B8%BASpark%E7%9A%84%E6%97%B6%E4%BB%A3%E6%89%8D%E5%88%9A%E5%88%9A%E5%BC%80%E5%A7%8B%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1440638218580" width="22" height="16">摘要:Spark可能并不成熟,但将会持续下去。本文作者Peter Schlampp 是大数据分析提供商Platfora产品副总裁,他认为Spark的时代才刚刚开始。

在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。

在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰:

  1. 对所有数据而言,Hadoop分布式文件系统(HDFS)是一个直接存储平台。
  2. YARN(负责资源分配和管理)是大数据环境下一个适用的架构。
  3. 或许是最为重要的一点,目前并不存在一个能解决所有问题的框架结构。尽管MapReduce是一项非常了不起的技术,但是它仍不能解决所有问题。

然而,Spark却可以解决大数据时代中很多关键问题,推动大数据以惊人的速度发展。这就是尽管其还很年轻,我们的“Big Data Discovery”平台依旧使用Apache spark 作为底层技术来处理和分析大数据的原因。

Spark时代即将到来

在寻找关键问题的答案时,基于Hadoop的架构需要调用的多种基础设施和进程来进行分析。他们需要已有的数据,描述性的分析,搜索和更先进的技术,如机器学习,甚至是图形处理。

公司需要这样一个工具,该工具可以让他们充分利用现有技术和资源。至今,尚未存在可以满足上述所有标准的单一处理框架结构。然而,这却是 Spark的最为基本优势,为处理大数据业务的公司提供跨越六个关键领域的技术支持。

1.高级分析

许多大型的创新性公司正在寻求增强他们的高级分析能力。然而,在最近纽约的一次大数据分析会议中,只有20%的参与者表示目前正在公司里部署高级分析。

剩下的80%表示他们正忙于准备数据和提供基本分析。少数科学家花费了大量时间来实施和管理描述分析。Spark为高级分析提供了一个开箱即用的框架,包括加速查询工具,机器学习库,图形处理引擎和流分析引擎。

与MapReduce试图实现这些分析相比——MapReduce几乎不可能实现,甚至说很难找到此类数据科学家——Spark提供了更容易且更快上手的预编译库。这就使得数据科学家可以把任务放在准备数据和保障数据质量之外了。通过Spark他们甚至可以确保分析结果的正确解释。

2.简化

最早对Hadoop的批评不仅仅是它很难使用,而是更难找到会使用它的人。尽管进过后续的迭代后,它变的更加简化和强大,但抱怨声至今未息。

相对于要求用户理解各类复杂的情况,例如Java和MapReduce编程模式,凡具有一些数据库基本知识和一些脚本技能(在Python或者Scala)均可以使用Spark。对于企业而言,能够更容易的找到理解数据并使用工具处理数据的工程师。对供应商而言,我们可以在Spark的上层有所发展并给企业带来更快的创新。

3.多种语言

SQL 语言无法应对大数据分析的面临的所有挑战,至少但依靠它是无法应对的。因此我们需要在解决这个问题上保持更多的灵活性,在组织和检索数据中应有更多的选项,并能快速的将其移动到另一个分析框架中。

Spark保留了SQL语言的模式,采用最快最简洁的方式进行数据分析,不管是什么类型的数据。

4.更快的结果

随着商业业务的不断加快,所以对实时结果的要求是十分必要的。在内存处理上,Spark提供了并行处理的方式使得返回的结果比其他任何其他访问磁盘的方法快了几倍。实时结果去掉延迟后可以显著的减缓商业进程和增量分析。

供应商开始在sparkj上开发应用程序,在工作流程分析上将会出现巨大的进步。加速周转时间意味着分析师可以迭代工作,使得答案更加完整精确。Spark让分析师去做他们的本职工作--——更快且好的寻求答案。

5.不歧视或偏爱的Hadoop供应商

Spark兼容现行所有的Hadoop版本,并有很好的缘由:它是中立的供应商,这意味着它不需要用户去绑定任何特定的供应商。

由于Spark的开源特性,企业可以自由创建基于Spark析基础设施而不用担心会其他事情发生什,即便他们改变Hadoop供应商。如果他们做了什么改变,分析架构也会随之变化。

6.高增性

Apache Spark在极短的时间内取得极大的增长。到2014年为止,Spark在 Daytona Gray Sort 100TB Benchmark.中世界第一。不管是服务、产品抑或技术一旦被迅速关注后,人们通常急于将其搞清楚——如何抑制其炒作,揭示其缺陷或揭穿其的承诺。但根据最近的一项调查显示,人们对Spark的关注仍在增长。

覆盖超过2100产品开发人员的报告显示,71%的受访者有过Spark框架开发经验。如今,它已经拥有多达500多个不同规模的组织,成千上万的开发者和广泛的资源项目参与其中。Spark作为大数据分析的基本技术之一尚未确定自身的地位,但它已着手去做。换句话说,这仅仅只是开始。

原文链接:6 Reasons That Apache Spark Isn't Flickering Out (翻译/刘崇鑫 审校/魏伟

Apache Spark 不过时的六大理由相关推荐

  1. 使用Apache Spark让MySQL查询速度提升10倍以上

    作者:Alexander Rubin 链接:http://coyee.com/article/11012-how-apache-spark-makes-your-slow-mysql-queries- ...

  2. 您在2016年会做什么? Apache Spark,Kafka,Drill等

    让我们玩得开心. 这是新的一年的开始-我们正处于新事物的门槛上-因此让我们期待您在2016年可能会做的事情.现在我知道做出预测的风险,尤其是有记录的预测,但是我很高兴您能在一年后回访,看看我对2016 ...

  3. Apache Spark 3.0 结构化Streaming流编程指南

    目录 总览 快速范例 Scala语言 Java语言 Python语言 R语言 程式设计模型 基本概念 处理事件时间和延迟数据 容错语义 使用数据集和数据帧的API 创建流数据框架和流数据集 流数据帧/ ...

  4. 如何成为 Apache Spark 的 Contributor?

    前言 改了 N 次,和 Apache Spark 开源社区的大佬沟通了2 个星期,我的 Pull Request 终于被接受了!!! 感兴趣的小伙伴可以访问下面的链接来感受一下开源社区的魅力,大佬们真 ...

  5. 大规模数据处理Apache Spark开发

    大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...

  6. 大火的Apache Spark也有诸多不完美

    现在如果你想要选择一个解决方案来处理企业中的大数据并不是难事,毕竟有很多数据处理框架可以任君选择,如Apache Samza,Apache Storm .Apache Spark等等.Apache S ...

  7. Apache Spark 2.2.0 中文文档 翻译活动

    为什么80%的码农都做不了架构师?>>>    Spark 2.2.0 已然发布(2017-07-11 发布) 5 天了,更新了一些新套路吧! 此版本从 Structured Str ...

  8. Apache Spark源码走读之8 -- Spark on Yarn

    欢迎转载,转载请注明出处,徽沪一郎. 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的 ...

  9. Apache Spark 介绍的演讲ppt (slice),全英文

    这里是本人制作的Apache Spark 介绍的演讲ppt,全英文.这里粘贴部分截图,具体可到相应的链接下载ppt文件,ppt文件中有动画: 下载地址:https://download.csdn.ne ...

  10. Apache Spark 2.2中基于成本的优化器(CBO)(转载)

    Apache Spark 2.2最近引入了高级的基于成本的优化器框架用于收集并均衡不同的列数据的统计工作 (例如., 基(cardinality).唯一值的数量.空值.最大最小值.平均/最大长度,等等 ...

最新文章

  1. 残差神经网络究竟在干啥?
  2. 他们拿走腾讯百万奖金,我有点泪目
  3. [转]国际化: 理解Java平台上的Locale
  4. django 1.8 官方文档翻译:13-1-3 密码管理
  5. rest php,restAPI
  6. 攀枝花a货翡翠,晋城a货翡翠
  7. Mac otool替代readelf命令
  8. 制作Linux系统安装程序,制作自己的rpm包
  9. 12张图读懂模电、数电必备的电路基础知识
  10. 大数据,先推广应用再谈“共享”
  11. bi 工具 市场排行榜_国产移动BI工具排名
  12. 新电脑如何分盘---傻瓜式教学
  13. python常见开源库整理
  14. ubuntu 安装mysql 源码,命令ubuntu上用源代码安装mysql的详细操作说明
  15. Qt desinger如何使用qrc资源文件
  16. python儿童编程教育_2019儿童编程语言大全
  17. 《系统设计》微服务不是银弹
  18. 深入浅出说CUDA程序设计(一)
  19. 4K壁纸批量采集,张张精品,全程自动化
  20. spring clud / dubbo

热门文章

  1. mPaaS 月度小报|魔方卡片(Cube)公测,十个卡片模板任意使用
  2. 如何选择适合的大数据分析软件
  3. 神仙代码静态测试工具 Helix QAC 2022.3中的新增功能
  4. 用g++编译cpp文件
  5. python模拟人工滑动_python selenium模拟滑动操作
  6. 电脑如何开启卓越性能模式
  7. 视频直播 linux 推流,linux rtmp服务器搭建推流
  8. 支持Linux系统双网卡ARM平台AM3352/AM3354
  9. 【吐血整理】超全golang面试题合集+golang学习指南+golang知识图谱+成长路线 一份涵盖大部分golang程序员所需要掌握的核心知识。
  10. ParkingEE智能化停车服务平台