https://www.cnblogs.com/qingyunzong/p/8899715.html

练习1:map、filter

//通过并行化生成rdd

val rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10))

//对rdd1里的每一个元素乘2然后排序

val rdd2 = rdd1.map(_ * 2).sortBy(x => x, true)

//过滤出大于等于十的元素

val rdd3 = rdd2.filter(_ >= 10)

//将元素以数组的方式在客户端显示

rdd3.collect

练习2:flatmap

val rdd1 = sc.parallelize(Array("a b c", "d e f", "h i j"))

//将rdd1里面的每一个元素先切分在压平

val rdd2 = rdd1.flatMap(_.split(' '))

rdd2.collect

练习3:交集、并集

val rdd1 = sc.parallelize(List(5, 6, 4, 3))

val rdd2 = sc.parallelize(List(1, 2, 3, 4))

//求并集

val rdd3 = rdd1.union(rdd2)

//求交集

val rdd4 = rdd1.intersection(rdd2)

//去重

rdd3.distinct.collect

rdd4.collect

练习4:join、groupbykey

val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))

//求jion

val rdd3 = rdd1.join(rdd2)

rdd3.collect

//求并集

val rdd4 = rdd1 union rdd2

//按key进行分组

rdd4.groupByKey

rdd4.collect

练习5:cogroup

val rdd1 = sc.parallelize(List(("tom", 1), ("tom", 2), ("jerry", 3), ("kitty", 2)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))

//cogroup

val rdd3 = rdd1.cogroup(rdd2)

//注意cogroup与groupByKey的区别

rdd3.collect

练习6:reduce

val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5))

//reduce聚合

val rdd2 = rdd1.reduce(_ + _)

rdd2.collect

练习7:reducebykey、sort

val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2),  ("shuke", 1)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 3), ("shuke", 2), ("kitty", 5)))

val rdd3 = rdd1.union(rdd2)

//按key进行聚合

val rdd4 = rdd3.reduceByKey(_ + _)

rdd4.collect

//按value的降序排序

val rdd5 = rdd4.map(t => (t._2, t._1)).sortByKey(false).map(t => (t._2, t._1))

rdd5.collect

转载于:https://www.cnblogs.com/feifeicui/p/11002692.html

大数据学习——sparkRDD相关推荐

  1. 完整的大数据知识体系,大数据学习路线图

    任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标.大数据所需学习的内容纷繁复杂,难度较大,有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要. 一.Java语言以jav ...

  2. 资源 | AI、神经网络、机器学习、深度学习以及大数据学习备忘单

    向AI转型的程序员都关注了这个号☝☝☝ 以下是关于神经网络.机器学习.深度学习以及大数据学习的备忘单,其中部分内容和此前发布的<资源 | 值得收藏的 27 个机器学习的小抄>有所重复,大家 ...

  3. 大数据学习笔记二:Ubuntu/Debian 下安装大数据框架Hadoop

    文章目录 安装Java 为Hadoop创建用户 安装Hadoop 配置Hadoop 配置环境变量 设置配置文件 格式化namenode 启动hadoop集群 访问hadoop集群 大数据学习系列文章: ...

  4. 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink

    大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...

  5. 大数据学习,涉及的知识点

    大数据技术都包括哪些,如何学习大数据技术.首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后. 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什 ...

  6. 大数据学习之路(七)——学习小结

    个人目前学习的总结,如有问题,发现的时候会修正,用于个人回顾,有错误的地方欢迎留言指出 通过前几篇的学习 hadoop单节点伪分布式 hadoop完全分布式 hadoop完全分布式高可用(HA) zo ...

  7. 小白如何学习大数据开发,大数据学习路线是怎样的?

    零基础的同学学习大数据开发不能急于求成,要分阶段分步骤来一步步完成,科多大数据给大家来分享一下大数据的学习路线是什么?小白该怎么学习大数据呢,大概可以分为四步: 大数据学习资料分享群142973723 ...

  8. 关于大数据学习,实战型的书籍

    关于大数据学习,实战型的书籍,如果是基础性的学习和了解,在大量的书本中,我推崇这本书,这本书是理论和实践的结合,有代码,有项目,讲得透彻.适合初级入门也适合熟练

  9. hadoop 传感器数据_hadoop为什么是大数据学习的核心技术?

    当今世界,科技进步日新月异,互联网.云计算.大数据等现代信息技术深刻改变着人类的思维.生产.生活.学习方式,深刻展示了世界发展的前景.未来的互联网就是大数据和云计算的天下,不管你是否认同,大数据时代已 ...

最新文章

  1. Callable、Future阻塞队列阻塞栈
  2. 架构师之路 — 数据库设计 — 数据库复制的类别
  3. 利用windows优化大师软件卸载一手和清理一招
  4. 窝里斗,只给微软看笑话
  5. python绘制pr曲线图_如何利用Python制作可以动的动态图表。
  6. mysql memcache redis_redis,mysql,memcache的區別與比較,redis兩種數據存儲持久化方式
  7. 他曾一举击败英伟达,却因坚持研发背负骂名
  8. metal分析是什么意思_GWAS数据如何做meta分析?
  9. 刘宇凡:我是一只特立独行的猪
  10. python 中文排序(按拼音)
  11. vulhub 8.1-backdoor漏洞复现
  12. 更改微信浏览器页面标题
  13. 计算机附录的相关文件,计算机化系统附录与计算机文件编制验证实际操作2.pptx...
  14. 全自动过滤器:全自动过滤器工作原理
  15. 解决Caused by: java.lang.NoClassDefFoundError: com/aliyun/oss/internal/OSSUdfOperation
  16. SqlServer中递归查询父节点及其所属子节点
  17. 解决spine升级3.8版本后与cocos不兼容。
  18. 控制PowerPoint课件中Flash歌曲的播放
  19. 赴美IPO后,美菜网还能在卖菜行业保持“低调”吗?
  20. 浏览器搜索框获取焦点快捷键 (edge)

热门文章

  1. 修改仓库如何修改本地仓库的存储位置
  2. 让VisualSVN Server支持匿名访问
  3. java仿真软件_一个简单的Java仿真程序
  4. lopa分析_HAZOP : 保护层分析之失效使能分析导则
  5. getHibernateTemplate()与getSession()的区别
  6. 什么是逻辑分析仪?逻辑分析仪的参数、使用步骤和优势
  7. 设计模式:外观模式(Facade)
  8. 前端一HTML:十一:其他选择器
  9. 汇编: 在代码中安排自己定义的数据,栈空间
  10. 七牛云:调用七牛OCR接口,几行代码识别身份证信息