RDD 文件读取与保存

Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。其中:
(1)文件格式分为:text 文件、csv 文件、sequence 文件以及Object 文件;
(2)文件系统分为:本地文件系统、HDFS、HBASE 以及数据库。
(这里只介绍常见的text 文件、sequence 文件以及Object 文件)

文件介绍

text文件: text文件是文本文件。

sequence 文件: SequenceFile 文件是Hadoop 用来存储二进制形式的key-value 对而设计的一种平面文件(Flat File)。
object文件: object文件是将对象序列化后保存的文件,采用Java 的序列化机制(注:序列化要指定类型)。

案例实操

文件保存

package com.atguigu.bigdata.spark.core.rdd.ioimport org.apache.spark.{SparkConf, SparkContext}object Spark01_RDD_IO_Save {def main(args: Array[String]): Unit = {val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark01_RDD_IO_Save ")val sc = new SparkContext(sparkConf)val rdd = sc.makeRDD(List(("a", 1),("b", 2),("c", 3),("d", 4)))//保存文件rdd.saveAsTextFile("output")rdd.saveAsObjectFile("output1")rdd.saveAsSequenceFile("output2")sc.stop()}}

文件读取

package com.atguigu.bigdata.spark.core.rdd.ioimport org.apache.spark.{SparkConf, SparkContext}object Spark02_RDD_IO_Load {def main(args: Array[String]): Unit = {val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark02_RDD_IO_Load ")val sc = new SparkContext(sparkConf)//读取文件的数据val rdd = sc.textFile("output")println(rdd.collect().mkString(","))val rdd1 = sc.objectFile[(String,Int)]("output1")println(rdd1.collect().mkString(","))val rdd2 = sc.sequenceFile[String,Int]("output2")println(rdd2.collect().mkString(","))sc.stop()}}

Spark的RDD 文件读取与保存相关推荐

  1. RDD文件读取与保存

    ​ Spark的数据读取以及数据保存可以从两个维度来作区分:文件格式以及文件系统. 文件格式为:text文件.csv文件.sequence文件以及Object文件: 文件系统为:本地文件系统.HDFS ...

  2. 2.Open3D教程——文件读取和保存

    文件读取和保存 本教程演示了Open3D如何读写基本数据结构. 1. 点云 下面的代码读取和写入点云. print("Testing IO for point cloud ..." ...

  3. python 常用文件读取和保存方式汇总

    python 常用文件读取和保存方式汇总 txt文件 open和close函数 文件对象的方法 读写示例理解rwa中的指针 w a r txt文件 open和close函数 fileObject = ...

  4. java文件读取与保存

    文件读取与保存 Long startTime=System.currentTimeMillis();String jsonStr = "";try {File jsonFile = ...

  5. Bitmap位图文件读取、保存、屏幕截图

    虽然现在网上已经有很多位图读取.保存的文章,很多写的都很详细,提供的源代码功能也很强大,但是我仍然要自己重写一个位图加载程序.主要是因为这些大牛们的文章写的太深奥了,代码功能太强大了,以至于像我这样的 ...

  6. PDS4格式文件读取与保存

    文章目录 前言 一.获取PDS4数据 二.PDS4格式图像读取 1.下载pds4-tools库 2.读入数据 三.保存PDS4格式数据 1.下载osgeo库 2.保存PDS4 参考文章 前言 在航天领 ...

  7. python使用opencv保存视频_Pythone OpenCV学习笔记之:视频文件读取与保存

    # -*- coding: utf-8 -*- # 读取和保存视频 import cv2 as cv import numpy as np def decode_fourcc(v): v = int( ...

  8. Spark学习笔记:数据读取和保存

    spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易. 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素. 也可以将多个完整的文本文件一次 ...

  9. TensorFlow学习笔记02:使用tf.data读取和保存数据文件

    TensorFlow学习笔记02:使用tf.data读取和保存数据文件 使用`tf.data`读取和写入数据文件 读取和写入csv文件 写入csv文件 读取csv文件 读取和保存TFRecord文件 ...

最新文章

  1. Oracle的视图与索引
  2. AI初创企业“考拉悠然”获3000万融资
  3. 深度学习算法_爱奇艺深度学习算法实习生面经
  4. 项目常用第三方库 Swift版
  5. HADOOP__PIG安装与配置
  6. Eclipse导出APK文件报错 android lint problem
  7. root用户安装的软件在普通用户不生效
  8. __str__和__repr__
  9. 3.4 方便快捷的魔棒工具 [Ps教程]
  10. r语言 与python r中python环境的创建
  11. fileZilla服务器登录密码展示
  12. 【异常处理】devcpp编译时 “源文件未编译”
  13. 找工作必做事项-剑指offer
  14. 事业单位工资计算机公积金计算,事业单位住房公积金基数怎么算?
  15. 电容外观检测(牛角电容瑕疵缺陷视觉检测系统)
  16. Shellshock Lab
  17. Android百度地图水波纹动画,高德地图实现水波纹扩散
  18. 教师资格证考试科目汇总
  19. Monster Card Game的设计与实现之客户端篇
  20. 2020牛客暑期多校训练营(第八场)E.Enigmatic Partition(差分+隔项差分/dp+暴力)

热门文章

  1. Matlab2013a安装简单教程以及遇到的问题解决(反复提示激活问题)
  2. 【Verilog HDL】设计硬件电路时,如何避免生成锁存器?
  3. Apache、php、mysql默认安装路径
  4. 从大数据技术参考模型角度梳理大数据标准
  5. MySQL 5.6通过MMM实现读写分离的高可用架构
  6. Oracle Advanced Security:Column Encryption Overhead
  7. Dump File Bat
  8. 数据库 1205 Error 'Lock wait timeout exceeded; try restarting transaction' on query
  9. Vim的行号、语法显示等设置(.vimrc文件的配置)以及乱码解决
  10. 【Android】入门级连接网络示例: 网页浏览和播放网络MP3