RDD的创建

在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD;从外部存储创建RDD;从其他RDD创建。

1 从集合中创建

从集合中创建RDD,Spark主要提供了两种函数:parallelize和makeRDD

1)使用parallelize()从集合创建

scala> val rdd = sc.parallelize(Array(1,2,3,4,5,6,7,8))

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

2)使用makeRDD()从集合创建

scala> val rdd1 = sc.makeRDD(Array(1,2,3,4,5,6,7,8))

rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at makeRDD at <console>:24

2 由外部存储系统的数据集创建

包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等,我们会在第4章详细介绍。

scala> val rdd2= sc.textFile(“hdfs://hadoop102:9000/RELEASE”)

rdd2: org.apache.spark.rdd.RDD[String] = hdfs://hadoop102:9000/RELEASE MapPartitionsRDD[4] at textFile at <console>:24

想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。

大数据培训课程RDD的创建相关推荐

  1. 大数据培训课程RDD编程模型

    编程模型 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换.经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可 ...

  2. collect()案例和count()案例_大数据培训课程

    collect()案例 作用:在驱动程序中,以数组的形式返回数据集的所有元素. 需求:创建一个RDD,并将RDD内容收集到Driver端打印 (1)创建一个RDD scala> val rdd ...

  3. countByKey()案例和foreach(func)案例_大数据培训课程

    12 countByKey()案例 作用:针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数. 需求:创建一个PairRDD,统计每种key的个数 (1)创建一 ...

  4. first()案例和take(n)案例_大数据培训课程

    first()案例 作用:返回RDD中的第一个元素 需求:创建一个RDD,返回该RDD中的第一个元素 (1)创建一个RDD scala> val rdd = sc.parallelize(1 t ...

  5. 大数据培训课程Yarn资源调度器作业提交全过程

    作业提交全过程 1.作业提交过程之YARN,如图4-25所示. 大数据培训课程 图4-25 作业提交过程之Yarn 作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForC ...

  6. 大数据培训课程哪个好

    大数据在各行各业都有广泛的运用,如医药.零售.城市管理等都会用到大数据,鉴于现在国内专业性人才匮乏.大数据岗位薪酬高,许多人纷纷试图朝该方向发展,毕竟毕业就10k.3-5年就25k并非每个工种都能达到 ...

  7. 大数据培训课程内容介绍

    大数据是热门高薪岗位,初入职场的岗位薪酬在10k以上,毕业2-3年之后翻番属常态,高薪又高社会地位也难怪许多0基础的人也想要尝试着发展.如何才能完成0基础到优秀大数据分析师的蜕变?找专业机构报班学习是 ...

  8. Python大数据培训课程培训费用是多少

    前言 Python大数据培训课程培训费用是多少?很多公司对python开发工程师的需求都有所增加,因此参加python培训学习python开发技术的热情还在继续.那么,Python大数据培训课程培训费 ...

  9. 大数据培训课程数据清洗案例实操-简单解析版

    数据清洗(ETL) 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据.清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序.大数据培训 数据 ...

最新文章

  1. .NET 2.0防止同用户同时登陆实例
  2. C++阶段01笔记07【指针(基本概念、变量定义和使用、内存空间、空指针和野指针、const修饰指针、指针和数组、指针和函数)】
  3. dataset.filter
  4. Redis ops详解
  5. 孙鑫-MFC笔记九--菜单编程
  6. 2019年失业以后,他们都经历了什么?
  7. html+css实现淘宝右侧固定定位导航
  8. PhpSpreadsheet设置单元格常用操作汇总
  9. C/C++大数运算库介绍及安装
  10. 如何在 macOS 上使用 Verilog 模拟电气模型
  11. 基于知识图谱的智能问答项目
  12. C# 如何插入、编辑和删除Excel批注
  13. 亚马逊云计算业务上半年营收超过160亿美元 同比大增近40%
  14. plc和c语言和cnc,CNC是什么意思? CNC 和 PLC的区别?
  15. 网易乌镇咖荟综述 | 2018,AI行业的兴奋与焦虑
  16. 20050620 GNU Bison 中文手册翻译完成
  17. java liferay,用一个简单的Java code获取当前用户的Liferay
  18. 高通三款处理器齐发布 全面死磕联发科
  19. linux对电子信息工程专业的意义,电子信息工程专业的学生应该考哪些必要的资格证书? (1)...
  20. latch:cache buffers chains等待事件导致的latch争用的原理原因与检查

热门文章

  1. OpenCV中的混合高斯算法原理
  2. Halcon焊点检测例子解析
  3. 外贸软件之纯贸易外贸管理软件
  4. 暑期训练第二阶段 训练赛总结(一)
  5. java字符串转数组,吊打面试官
  6. 关于长途托运物流的选择
  7. cstring头文件(cstring头文件)
  8. Java8集合过滤操作
  9. AutoCAD在替换文字编辑器中设置多行文字的格式
  10. Python考点大全