learn from 从0开始学大数据(极客时间)

Spark 拥有更快的执行速度
更友好的编程接口
迅速抢占 MapReduce 的市场份额,成为主流的大数据计算框架

val textFile = sc.textFile("hdfs://...")
// 根据 HDFS 路径生成一个输入数据 RDD
val counts = textFile.flatMap(line => line.split(" "))// 每一行文本用空格拆分成单词.map(word => (word, 1))// 每个单词进行转换,word => (word, 1),生成 <Key, Value> 的结构.reduceByKey(_ + _)// 相同的 Key 进行统计,统计方式是对 Value 求和,(_ + _)
counts.saveAsTextFile("hdfs://...")
// 将这个 RDD 保存到 HDFS

RDD 是 Spark 的核心概念,是弹性数据集(Resilient Distributed Datasets)的缩写

MapReduce 面向过程的大数据计算

Spark 将大规模数据集合抽象成一个 RDD 对象,然后在这个 RDD 上进行各种计算处理,得到一个新的 RDD,继续计算处理,直到得到最后的结果数据。

Spark 可以理解成是面向对象的大数据计算。
在进行 Spark 编程的时候,思考的是一个 RDD 对象需要经过什么样的操作,转换成另一个 RDD 对象

RDD 上定义的函数分两种

  • 转换(transformation)函数,返回值还是 RDD
  • 执行(action)函数,不再返回 RDD

我们并没有觉得MapReduce速度慢,直到Spark出现相关推荐

  1. 大数据-计算引擎:MapReduce、TEZ、Spark【Hive可选用的三大计算引擎】

    MapReduce基本被Spark替代,Spark 速度是MapReduce的100倍.

  2. hive的引擎mapreduce、tez和spark三者比较

    1.Hive引擎简介 MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算. Tez Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapRe ...

  3. MapReduce的核心资料索引 [转]

    转自http://prinx.blog.163.com/blog/static/190115275201211128513868/和http://www.cnblogs.com/jie46583173 ...

  4. Spark 是否真的比 MapReduce 技高一筹

    Apache 基金会下的 Spak 再次引爆了大数据的话题.带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop Map ...

  5. 五种基于 MapReduce 的并行计算框架介绍及性能测试

    并行计算模型和框架 目前开源社区有许多并行计算模型和框架可供选择,按照实现方式.运行机制.依附的产品生态圈等可以被划分为几个类型,每个类型各有优缺点,如果能够对各类型的并行计算框架都进行深入研究及适当 ...

  6. Spark与Hadoop MapReduce相比,有哪些优点你知道吗?

    一提到大数据处理,相信很多人第一时间想到的是 Hadoop MapReduce.没错,Hadoop MapReduce 为大数据处理技术奠定了基础.近年来,随着 Spark 的发展,越来越多的声音提到 ...

  7. Hive On Tez,Tez 和 MapReduce engine 性能对比

    2019独角兽企业重金招聘Python工程师标准>>> 接上一篇文章: https://my.oschina.net/zhzhenqin/blog/781670 Tez On Yar ...

  8. Spark vs. MapReduce 时间节约66%,计算节约40%

    本文转自http://www.csdn.net/article/2014-11-04/2822474,所有权力归原作者所有.虽然本文并没有讲什么实质的东西,但是可以拿来吹牛逼呀~ ⁽⁽ଘ( ˊᵕˋ ) ...

  9. 【Hadoop】伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

    在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载. http://hadoop.apache.org/docs/r2.7.6/hadoop-pro ...

最新文章

  1. csapp bufbomb实验
  2. python的xlwt库的作用_Python:使用第三方库xlwt来写Excel
  3. security面试_面试必问41道 SpringBoot 面试题,不看亏大了!
  4. 基于小脑模型神经网络轨迹跟踪matlab程序
  5. 22种大数据分析可视化工具
  6. QPS、TPS、吞吐量含义
  7. servlet3 文件上传
  8. 利用百度地图Android定位SDK获取经纬度
  9. 顺序表的c语言结构体描述,顺序表的基本方法实现C语言版
  10. 哈工程计算机考研复试各科总分,考研复试总分是多少
  11. 有关如何用html制作电影影评网,初阶展示
  12. cad相对坐标快捷键_Auto CAD中常用的快捷键(1)
  13. 服务器2012怎么换桌面背景,Windows Server 2012 R2 桌面化设置
  14. 写给大忙人看的 - Java中图片压缩上传至MinIO服务器(4)
  15. 运营商的套餐自由修改何时实行?
  16. 买哪种牌子的笔记本电脑好呢?
  17. 分享几个我试过的AI工具,也可以在写论文时使用
  18. 2018苹果2.1狗年大礼包-解决思路
  19. D - For Gamers. By Gamers.
  20. 最能提升工作效率的200个热键:上 (xbeta译)

热门文章

  1. .net core linux 编译,.NET Core 源码编译的问题解析
  2. Day08-函数(3)
  3. java 公因数_Java程序(最大公因数与最小公倍数)
  4. 99 网络编程_传统网络工程师如何利用python实现公司内网IP地址信息查询?
  5. 存储类、作用域、生命周期、链接属性
  6. PHP+Ajax点击加载更多列表数据实例
  7. ASP.NET Core的身份认证框架IdentityServer4--入门【转】
  8. HDU 1492 The number of divisors(约数) about Humble Numbers
  9. 通信教程 | 串口丢数据常见的原因
  10. 想领取开发套件,就来参加AIoT开发者大赛