rdd读取一个文件
val rdd = sc.textFile("hdfs://172.20.20.17:9000/tmp/wht/account/accounts.txt").map(_.split(","))

rdd读取多个文本文件
val rdd = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/accounts.txt,hdfs://172.20.20.17/tmp/wht/account/account02.txt").map(_.split(","))

rdd读取一个文件夹
val rdd1 = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/").map(_.split(","))

val rdd2 = sc.textFile("hdfs://172.20.20.17/tmp/wht/mix/").map(_.split(","))

rdd读取嵌套的文件夹下的文件
val rdd3 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*/*").map(_.split(","))

rdd读取本地文件
val rdd4 = sc.textFile("file:///root/Downloads/data/").map(_.split(","))

rdd使用通配符读取文件
val rdd5 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*.txt").map(_.split(","))

上述示例都是以文本方式读取文件,该方式下rdd中的数据是按行来组织的,即读取了多个文件时,rdd.count()的值即为多个文本文件中的行数之和。

当目录下存在非文本文件如orc文件时,会在使用rdd时报错,如下所示:
scala> rdd4.count()
java.io.IOException: Not a file: file:/root/Downloads/data/nameAndBanlance.orc

参考:https://blog.csdn.net/HeatDeath/article/details/81871651

spark rdd读取文件相关推荐

  1. Spark Core (TopN、mysql写入、读取文件通过RDD结合数据库中的表)练习3套

    pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="h ...

  2. Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战(二)...

    1.动手实战和调试Spark文件操作 这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...

  3. spark读取文件源码分析-2

    文章目录 1. job1产生时机源码分析 1. DataSoure.getOrInferFileFormatSchema() 2. ParquetFileFormat.inferSchema 1. 简 ...

  4. spark中读取json_【spark】文件读写和JSON数据解析

    1.读文件 通过 sc.textFile("file://")方法来读取文件到rdd中. val lines = sc.textFile("file://")/ ...

  5. spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案...

    1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...

  6. spark 读取ftp_scala – 使用ftp在Apache Spark中的远程计算机上读取文件

    我正在尝试使用ftp在Apache Spark( Scala版本)中的远程计算机上读取文件.目前,我在 GitHub上关注Databricks的Learning Spark回购中的一个例子.使用cur ...

  7. Spark RDD API:Map和Reduce

    参考文章: http://blog.csdn.net/jewes/article/details/39896301 http://homepage.cs.latrobe.edu.au/zhe/Zhen ...

  8. spark RDD官网RDD编程指南

    http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...

  9. Spark RDD并行度与分区设置

    默认情况下,Spark 可以将一个作业切分多个任务后,发送给 Executor 节点并行计算,而能 够并行计算的任务数量我们称之为并行度.这个数量可以在构建 RDD 时指定.记住,这里 的并行执行的任 ...

最新文章

  1. C# 条件语句 if else 、 switch case 及练习题解析
  2. 2019北京高考分数分布一览表(成绩分布统计)
  3. 青少年蓝桥杯_2020_steam考试_中级组_第三题
  4. 1.1 Java注解(Annotation)简介
  5. 前端学习(1665):前端系列实战课程之自定义右键菜单
  6. Idea和redis的坑
  7. TS Interface
  8. NYOJ 745 dp
  9. SQL:postgresql中将时间戳转换为字符串
  10. nagios介绍及Server安装(二)
  11. 关于Android 11(R)适配指南
  12. VS(Visual Studio2017)快速入门基础操作(运行结果一闪而过,找不到解决方案资源管理器)
  13. Taylor公式的证明
  14. 记录一下mac mini 2018 的折腾过程
  15. JavaScript实现效果——考试倒计时
  16. 新学期可以制定目标计划并提醒的便签软件是哪款?
  17. 幸运的人更幸运 - 节选
  18. 国家对五险一金的交纳说明,太有用了,找都找不到
  19. 黑盒测试简介和常用方法
  20. pyspark运行加速方法思考(一)

热门文章

  1. python闭包(一分钟读懂)
  2. c语言枚举常量,浅述C语言中枚举enum的用法
  3. python网络爬虫学习笔记(五):urllib.parse库
  4. 2018年第九届蓝桥杯【C++省赛B组】【第六题:递增三元组】——二分解法
  5. 方程求根(牛顿迭代法)
  6. 手把手教程 Sublime Text 删除重复行
  7. SQL_drop删除表、数据库
  8. 聊聊传说中的散列哈希Hash算法,以及Java中的HashTable,HashMap,HashSet,ConcurrentHashMap......
  9. 深度学习之学习率退火的六种调整策略
  10. PREV-55 小计算器 (进制转换)