大数据学习——sparkRDD
https://www.cnblogs.com/qingyunzong/p/8899715.html
练习1:map、filter
//通过并行化生成rdd
val rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10))
//对rdd1里的每一个元素乘2然后排序
val rdd2 = rdd1.map(_ * 2).sortBy(x => x, true)
//过滤出大于等于十的元素
val rdd3 = rdd2.filter(_ >= 10)
//将元素以数组的方式在客户端显示
rdd3.collect
练习2:flatmap
val rdd1 = sc.parallelize(Array("a b c", "d e f", "h i j"))
//将rdd1里面的每一个元素先切分在压平
val rdd2 = rdd1.flatMap(_.split(' '))
rdd2.collect
练习3:交集、并集
val rdd1 = sc.parallelize(List(5, 6, 4, 3))
val rdd2 = sc.parallelize(List(1, 2, 3, 4))
//求并集
val rdd3 = rdd1.union(rdd2)
//求交集
val rdd4 = rdd1.intersection(rdd2)
//去重
rdd3.distinct.collect
rdd4.collect
练习4:join、groupbykey
val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2)))
val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))
//求jion
val rdd3 = rdd1.join(rdd2)
rdd3.collect
//求并集
val rdd4 = rdd1 union rdd2
//按key进行分组
rdd4.groupByKey
rdd4.collect
练习5:cogroup
val rdd1 = sc.parallelize(List(("tom", 1), ("tom", 2), ("jerry", 3), ("kitty", 2)))
val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))
//cogroup
val rdd3 = rdd1.cogroup(rdd2)
//注意cogroup与groupByKey的区别
rdd3.collect
练习6:reduce
val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5))
//reduce聚合
val rdd2 = rdd1.reduce(_ + _)
rdd2.collect
练习7:reducebykey、sort
val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2), ("shuke", 1)))
val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 3), ("shuke", 2), ("kitty", 5)))
val rdd3 = rdd1.union(rdd2)
//按key进行聚合
val rdd4 = rdd3.reduceByKey(_ + _)
rdd4.collect
//按value的降序排序
val rdd5 = rdd4.map(t => (t._2, t._1)).sortByKey(false).map(t => (t._2, t._1))
rdd5.collect
转载于:https://www.cnblogs.com/feifeicui/p/11002692.html
大数据学习——sparkRDD相关推荐
- 完整的大数据知识体系,大数据学习路线图
任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标.大数据所需学习的内容纷繁复杂,难度较大,有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要. 一.Java语言以jav ...
- 资源 | AI、神经网络、机器学习、深度学习以及大数据学习备忘单
向AI转型的程序员都关注了这个号☝☝☝ 以下是关于神经网络.机器学习.深度学习以及大数据学习的备忘单,其中部分内容和此前发布的<资源 | 值得收藏的 27 个机器学习的小抄>有所重复,大家 ...
- 大数据学习笔记二:Ubuntu/Debian 下安装大数据框架Hadoop
文章目录 安装Java 为Hadoop创建用户 安装Hadoop 配置Hadoop 配置环境变量 设置配置文件 格式化namenode 启动hadoop集群 访问hadoop集群 大数据学习系列文章: ...
- 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink
大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...
- 大数据学习,涉及的知识点
大数据技术都包括哪些,如何学习大数据技术.首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后. 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什 ...
- 大数据学习之路(七)——学习小结
个人目前学习的总结,如有问题,发现的时候会修正,用于个人回顾,有错误的地方欢迎留言指出 通过前几篇的学习 hadoop单节点伪分布式 hadoop完全分布式 hadoop完全分布式高可用(HA) zo ...
- 小白如何学习大数据开发,大数据学习路线是怎样的?
零基础的同学学习大数据开发不能急于求成,要分阶段分步骤来一步步完成,科多大数据给大家来分享一下大数据的学习路线是什么?小白该怎么学习大数据呢,大概可以分为四步: 大数据学习资料分享群142973723 ...
- 关于大数据学习,实战型的书籍
关于大数据学习,实战型的书籍,如果是基础性的学习和了解,在大量的书本中,我推崇这本书,这本书是理论和实践的结合,有代码,有项目,讲得透彻.适合初级入门也适合熟练
- hadoop 传感器数据_hadoop为什么是大数据学习的核心技术?
当今世界,科技进步日新月异,互联网.云计算.大数据等现代信息技术深刻改变着人类的思维.生产.生活.学习方式,深刻展示了世界发展的前景.未来的互联网就是大数据和云计算的天下,不管你是否认同,大数据时代已 ...
最新文章
- Callable、Future阻塞队列阻塞栈
- 架构师之路 — 数据库设计 — 数据库复制的类别
- 利用windows优化大师软件卸载一手和清理一招
- 窝里斗,只给微软看笑话
- python绘制pr曲线图_如何利用Python制作可以动的动态图表。
- mysql memcache redis_redis,mysql,memcache的區別與比較,redis兩種數據存儲持久化方式
- 他曾一举击败英伟达,却因坚持研发背负骂名
- metal分析是什么意思_GWAS数据如何做meta分析?
- 刘宇凡:我是一只特立独行的猪
- python 中文排序(按拼音)
- vulhub 8.1-backdoor漏洞复现
- 更改微信浏览器页面标题
- 计算机附录的相关文件,计算机化系统附录与计算机文件编制验证实际操作2.pptx...
- 全自动过滤器:全自动过滤器工作原理
- 解决Caused by: java.lang.NoClassDefFoundError: com/aliyun/oss/internal/OSSUdfOperation
- SqlServer中递归查询父节点及其所属子节点
- 解决spine升级3.8版本后与cocos不兼容。
- 控制PowerPoint课件中Flash歌曲的播放
- 赴美IPO后,美菜网还能在卖菜行业保持“低调”吗?
- 浏览器搜索框获取焦点快捷键 (edge)
热门文章
- 修改仓库如何修改本地仓库的存储位置
- 让VisualSVN Server支持匿名访问
- java仿真软件_一个简单的Java仿真程序
- lopa分析_HAZOP : 保护层分析之失效使能分析导则
- getHibernateTemplate()与getSession()的区别
- 什么是逻辑分析仪?逻辑分析仪的参数、使用步骤和优势
- 设计模式:外观模式(Facade)
- 前端一HTML:十一:其他选择器
- 汇编: 在代码中安排自己定义的数据,栈空间
- 七牛云:调用七牛OCR接口,几行代码识别身份证信息