spark rdd读取文件

rdd读取一个文件
val rdd = sc.textFile("hdfs://172.20.20.17:9000/tmp/wht/account/accounts.txt").map(_.split(","))

rdd读取多个文本文件
val rdd = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/accounts.txt,hdfs://172.20.20.17/tmp/wht/account/account02.txt").map(_.split(","))

rdd读取一个文件夹
val rdd1 = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/").map(_.split(","))

val rdd2 = sc.textFile("hdfs://172.20.20.17/tmp/wht/mix/").map(_.split(","))

rdd读取嵌套的文件夹下的文件
val rdd3 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*/*").map(_.split(","))

rdd读取本地文件
val rdd4 = sc.textFile("file:///root/Downloads/data/").map(_.split(","))

rdd使用通配符读取文件
val rdd5 = sc.textFile("hdfs://172.20.20.17/tmp/wht/*.txt").map(_.split(","))

上述示例都是以文本方式读取文件，该方式下rdd中的数据是按行来组织的，即读取了多个文件时，rdd.count()的值即为多个文本文件中的行数之和。

当目录下存在非文本文件如orc文件时，会在使用rdd时报错，如下所示：
scala> rdd4.count()
java.io.IOException: Not a file: file:/root/Downloads/data/nameAndBanlance.orc

参考：https://blog.csdn.net/HeatDeath/article/details/81871651

spark rdd读取文件相关推荐

Spark Core (TopN、mysql写入、读取文件通过RDD结合数据库中的表)练习3套
pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="h ...
Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战（二）...
1.动手实战和调试Spark文件操作这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...
spark读取文件源码分析-2
文章目录 1. job1产生时机源码分析 1. DataSoure.getOrInferFileFormatSchema() 2. ParquetFileFormat.inferSchema 1. 简 ...
spark中读取json_【spark】文件读写和JSON数据解析
1.读文件通过 sc.textFile("file://")方法来读取文件到rdd中. val lines = sc.textFile("file://")/ ...
spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案...
1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...
spark 读取ftp_scala – 使用ftp在Apache Spark中的远程计算机上读取文件
我正在尝试使用ftp在Apache Spark( Scala版本)中的远程计算机上读取文件.目前,我在 GitHub上关注Databricks的Learning Spark回购中的一个例子.使用cur ...
Spark RDD API：Map和Reduce
参考文章: http://blog.csdn.net/jewes/article/details/39896301 http://homepage.cs.latrobe.edu.au/zhe/Zhen ...
spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...
Spark RDD并行度与分区设置
默认情况下,Spark 可以将一个作业切分多个任务后,发送给 Executor 节点并行计算,而能够并行计算的任务数量我们称之为并行度.这个数量可以在构建 RDD 时指定.记住,这里的并行执行的任 ...

spark rdd读取文件

spark rdd读取文件相关推荐

最新文章

热门文章