spark rdd读取文件
rdd读取一个文件
val rdd = sc.textFile("hdfs://172.20.20.17:9000/tmp/wht/account/accounts.txt").map(_.split(","))
rdd读取多个文本文件
val rdd = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/accounts.txt,hdfs://172.20.20.17/tmp/wht/account/account02.txt").map(_.split(","))
rdd读取一个文件夹
val rdd1 = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/").map(_.split(","))
val rdd2 = sc.textFile("hdfs://172.20.20.17/tmp/wht/mix/").map(_.split(","))
rdd读取嵌套的文件夹下的文件
val rdd3 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*/*").map(_.split(","))
rdd读取本地文件
val rdd4 = sc.textFile("file:///root/Downloads/data/").map(_.split(","))
rdd使用通配符读取文件
val rdd5 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*.txt").map(_.split(","))
上述示例都是以文本方式读取文件,该方式下rdd中的数据是按行来组织的,即读取了多个文件时,rdd.count()的值即为多个文本文件中的行数之和。
当目录下存在非文本文件如orc文件时,会在使用rdd时报错,如下所示:
scala> rdd4.count()
java.io.IOException: Not a file: file:/root/Downloads/data/nameAndBanlance.orc
参考:https://blog.csdn.net/HeatDeath/article/details/81871651
spark rdd读取文件相关推荐
- Spark Core (TopN、mysql写入、读取文件通过RDD结合数据库中的表)练习3套
pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="h ...
- Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战(二)...
1.动手实战和调试Spark文件操作 这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...
- spark读取文件源码分析-2
文章目录 1. job1产生时机源码分析 1. DataSoure.getOrInferFileFormatSchema() 2. ParquetFileFormat.inferSchema 1. 简 ...
- spark中读取json_【spark】文件读写和JSON数据解析
1.读文件 通过 sc.textFile("file://")方法来读取文件到rdd中. val lines = sc.textFile("file://")/ ...
- spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案...
1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...
- spark 读取ftp_scala – 使用ftp在Apache Spark中的远程计算机上读取文件
我正在尝试使用ftp在Apache Spark( Scala版本)中的远程计算机上读取文件.目前,我在 GitHub上关注Databricks的Learning Spark回购中的一个例子.使用cur ...
- Spark RDD API:Map和Reduce
参考文章: http://blog.csdn.net/jewes/article/details/39896301 http://homepage.cs.latrobe.edu.au/zhe/Zhen ...
- spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...
- Spark RDD并行度与分区设置
默认情况下,Spark 可以将一个作业切分多个任务后,发送给 Executor 节点并行计算,而能 够并行计算的任务数量我们称之为并行度.这个数量可以在构建 RDD 时指定.记住,这里 的并行执行的任 ...
最新文章
- C# 条件语句 if else 、 switch case 及练习题解析
- 2019北京高考分数分布一览表(成绩分布统计)
- 青少年蓝桥杯_2020_steam考试_中级组_第三题
- 1.1 Java注解(Annotation)简介
- 前端学习(1665):前端系列实战课程之自定义右键菜单
- Idea和redis的坑
- TS Interface
- NYOJ 745 dp
- SQL:postgresql中将时间戳转换为字符串
- nagios介绍及Server安装(二)
- 关于Android 11(R)适配指南
- VS(Visual Studio2017)快速入门基础操作(运行结果一闪而过,找不到解决方案资源管理器)
- Taylor公式的证明
- 记录一下mac mini 2018 的折腾过程
- JavaScript实现效果——考试倒计时
- 新学期可以制定目标计划并提醒的便签软件是哪款?
- 幸运的人更幸运 - 节选
- 国家对五险一金的交纳说明,太有用了,找都找不到
- 黑盒测试简介和常用方法
- pyspark运行加速方法思考(一)
热门文章
- python闭包(一分钟读懂)
- c语言枚举常量,浅述C语言中枚举enum的用法
- python网络爬虫学习笔记(五):urllib.parse库
- 2018年第九届蓝桥杯【C++省赛B组】【第六题:递增三元组】——二分解法
- 方程求根(牛顿迭代法)
- 手把手教程 Sublime Text 删除重复行
- SQL_drop删除表、数据库
- 聊聊传说中的散列哈希Hash算法,以及Java中的HashTable,HashMap,HashSet,ConcurrentHashMap......
- 深度学习之学习率退火的六种调整策略
- PREV-55 小计算器 (进制转换)