Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强 Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI…

Hadoop Roadmap 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature 属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。

Apache Hadoop Project Members

这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少国人上榜。

SparkSpark 介绍

Spark今年大放溢彩,Spark简单说就是内存计算(包含迭代式计算,DAG计算,流式计算 )框架,之前MapReduce因效率低下大家经常嘲笑,而Spark的出现让大家很清新。

  • Reynod 作为Spark核心开发者, 介绍Spark性能超Hadoop百倍,算法实现仅有其1/10或1/100

  • 浅谈Apache Spark的6个发光点

  • Spark: Open Source Superstar Rewrites Future of Big Data

  • Spark is a really big deal for big data, and Cloudera gets it

其实起名字也很重要,Spark就占了先机,CTO说Where There’s Spark There’s Fire: The State of Apache Spark in 2014

Spark 起源

2010年Berkeley AMPLab,发表在hotcloud 是一个从学术界到工业界的成功典范,也吸引了顶级VC:Andreessen Horowitz的 注资

AMPLab这个实验室非常厉害,做大数据,云计算,跟工业界结合很紧密,之前就是他们做mesos,hadoop online, crowddb, Twitter,Linkedin等很多知名公司都喜欢从Berkeley找人,比如Twitter也专门开了门课程 Analyzing Big Data with Twitter 还有个BDAS (Bad Ass)引以为傲: The lab that created Spark wants to speed up everything, including cures for cancer

在2013年,这些大牛从Berkeley AMPLab出去成立了Databricks,半年就做了2次summit参会1000人,引无数Hadoop大佬尽折腰,大家看一下Summit的sponsor ,所有hadoop厂商全来了,并且各个技术公司也在巴结,cloudrea, hortonworks, mapr, datastax, yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了Hadoop本身,要推出商业化产品Cloud。

Spark人物

  • Ion Stoica: Berkeley教授,AMPLab 领军
  • Matei Zaharia: 天才,MIT助理教授
  • Reynold Xin Apache Spark开源社区的主导人物之一。他在UC Berkeley AMPLab进行博士学业期间参与了Spark的开发,并在Spark之上编写了Shark和GraphX两个开源框架。他和AMPLab同僚共同创建了Databricks公司
  • Andy Konwinski
  • Haoyuan Li
  • Patrick Wendell
  • Xiangrui Meng
  • Paco Nathan
  • Lian Cheng
  • Hossein Falaki
  • Mosharaf Chowdhury
  • Zongheng Yang
  • Yin Huai
  • Committers

Spark基本概念

  1. RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing弹性分布式数据集。
  2. Operation——作用于RDD的各种操作分为transformation和action。
  3. Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
  4. Stage——一个作业分为多个阶段。
  5. Partition——数据分区, 一个RDD中的数据可以分成多个不同的区。
  6. DAG——Directed Acycle graph,有向无环图,反应RDD之间的依赖关系。
  7. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。
  8. Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition都有依赖。
  9. Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整 体的处理速度。

目前还有一些子项目,比如 Spark SQL, Spark Streaming, MLLib, Graphx 工业界也引起广泛兴趣,国内Taobao, baidu也开始使用:Powered by Spark

Apache Spark支持4种分布式部署方式,分别是Amazon EC2, standalone、spark on mesos和 spark on YARN 比如AWS

Spark Summit

  • 2014 Summit

  • 取代而非补充,Spark Summit 2014精彩回顾

  • 拥抱Spark,机遇无限——Spark Summit 2013精彩回顾

  • Databricks Cloud Demo 今年最叫好的demo是Dtabricks Cloud, 把Twitter上面实时收集的数据做作为machine learning素材,用类似IPython notebook,可视化呈现惊艳,而搭建整个sampling系统就花了20分钟!

培训资料和视频

  • 官方文档

  • Databricks Blog

  • Summit Training

  • Databricks upcoming training

  • Stanford Spark Class

  • CSDN Spark专栏

10月份还有个培训在湾区的培训,只不过3天就要1500刀,看来做个讲师也不错:)

第三方项目

  • Web interactive UI on Hadoop/Spark
  • Spark on cassandra
  • Spark Cassandra Connector
  • Calliope
  • H2O + Spark
  • Shark - Hive and SQL on top of Spark
  • MLbase - Machine Learning research project on top of Spark
  • BlinkDB - a massively parallel, approximate query engine built on top of Shark and Spark
  • GraphX - a graph processing & analytics framework on top of Spark (GraphX has been merged into Spark 0.9)
  • Apache Mesos - Cluster management system that supports running Spark
  • Tachyon - In memory storage system that supports running Spark
  • Apache MRQL - A query processing and optimization system for large-scale, distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
  • OpenDL - A deep learning algorithm library based on Spark framework. Just kick off.
  • SparkR - R frontend for Spark
  • Spark Job Server - REST interface for managing and submitting Spark jobs on the same cluster.

相关参考资料

  • Resilient Distributed Datasets

  • spark on yarn的技术挑战

  • Hive原理与不足

  • Impala/Hive现状分析与前景展望

  • Apache Hadoop: How does Impala compare to Shark

  • MapReduce:一个巨大的倒退

  • Google Dremel 原理 — 如何能3秒分析1PB

  • Isn’t Cloudera Impala doing the same job as Apache Drill incubator project?

  • Shark

  • Big Data Benchmark

  • How does Impala compare to Shark

  • EMC讲解Hawq SQL性能:左手Hive右手Impala

  • Shark, Spark SQL, Hive on Spark, and the future of SQL on Spark

  • Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark

  • Databricks – an interesting plan for Spark, Shark, and Spark SQL

  • Apache Storm vs Spark Streaming

  • Apache Spark源码走读

关于Spark和Spark的学习资料相关推荐

  1. Spark Streaming介绍,DStream,DStream相关操作(来自学习资料)

    一. Spark Streaming介绍 1. SparkStreaming概述 1.1. 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式 ...

  2. 2016年大数据Spark“蘑菇云”行动代码学习之AdClickedStreamingStats模块分析

    2016年大数据Spark"蘑菇云"行动代码学习之AdClickedStreamingStats模块分析     系统背景:用户使用终端设备(IPAD.手机.浏览器)等登录系统,系 ...

  3. 雅虎开源CaffeOnSpark:基于Hadoop/Spark的分布式深度学习

    雅虎开源CaffeOnSpark:基于Hadoop/Spark的分布式深度学习 [日期:2016-02-26] 来源:极客头条 作者: [字体:大 中 小] 在基于Hadoop集群的大规模分布式深度学 ...

  4. 【华为云技术分享】Spark如何与深度学习框架协作,处理非结构化数据

    随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片.音频.文本)进行大数据处理的业务场景越来越多.本文会介绍Spark如何与深度学习框架进行协同工作,在大数 ...

  5. 第13课 spark内核架构解密学习笔记

    第13课 spark内核架构解密学习笔记  2016.01.16 内容: 1.通过手动绘图的方式解密spark内核架构 2.通过案例验证spark内核架构 3.spark架构思考 第一阶段:彻底精通s ...

  6. Spark大数据开发学习:Spark基础入门

    在诸多的大数据技术框架当中,Spark可以说是占据了非常重要的地位,继Hadoop之后,基于实时数据处理需求的不断上升,Spark开始占据越来越大的市场份额,而Spark,也成为大数据的必学知识点.今 ...

  7. Spark(Python)学习(三)

    RDD编程 RDD编程指的是Spark Core编程 RDD创建 (1)通过文件系统加载数据来创建RDD Spark的SparkContext通过".textFile()"读取数据 ...

  8. [转]机器学习和深度学习资料汇总【01】

    本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...

  9. Smack类库最好的学习资料

    即时通讯系列阅读 即时通讯基础 即时通讯:XMPP基础 即时通讯:XMPP项目实践-微聊 Smack类库最好的学习资料 1. 登陆IM Connection.DEBUG_ENABLED = true; ...

最新文章

  1. tomcat报 Context [] startup failed due toprevious errors
  2. ARC在Release与Debug模式中内存释放的坑
  3. 美酒节成就及任务攻略指引
  4. 十五、图(graph)
  5. hdu 1800 (map)
  6. BZOJ1857:[SCOI2010]传送带——题解
  7. SpringBoot执行器端点Actuator Endpoint
  8. python处理路径时 sh: 1:Syntax error: ( unexpected
  9. 协鑫集成携中国成套工程在核灾区建立1GW光伏电站
  10. 苹果明年或将推出升级版iPhone 8 人人都用得起?
  11. 1004. Counting Leaves (30)
  12. mybatis接口动态代理原理
  13. linux 基础 —— 网络管理
  14. SpringMVC+idea+maven搭建项目
  15. SSH登录到远程linux机器并执行命令
  16. 【MySQL数据库教程天花板】
  17. spss数据预处理步骤_数据预处理详解
  18. ROS | 基于MQTT的通信方式mqtt_bridge
  19. 《设计模式之禅》书评
  20. LiteFlowNet3:解决对应歧义以获得更准确的光流估计

热门文章

  1. NVIDIA Jetson Xavier性能首测:AI性能碾压苹果A12,自研CPU架构看齐骁龙84
  2. [Excel常用函数] var var.p var.s函数
  3. ButterKnife与Fragment的爱恨情仇(java.lang.IllegalStateException: Bindings already cleared.)
  4. 应试教育的困惑,如今得到了解答。
  5. Python:实现carrier concentration载流子浓度算法(附完整源码)
  6. 新建STM32工程报错 warning: At end of source: #12-D: parsing restarts here after previous syntax error
  7. 【ThinkPad E470C 】基本完美 附带镜像EFI等工具-Mojave后续自己升级为10.14
  8. 有限公司税收筹划如何开展? 增值税、所得税财政奖励是什么?
  9. java状态机(订单状态控制)
  10. Zhong__交换机各种情况下端口快速启动方法