Spark的RDD 文件读取与保存
RDD 文件读取与保存
Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。其中:
(1)文件格式分为:text 文件、csv 文件、sequence 文件以及Object 文件;
(2)文件系统分为:本地文件系统、HDFS、HBASE 以及数据库。
(这里只介绍常见的text 文件、sequence 文件以及Object 文件)
文件介绍
text文件: text文件是文本文件。
sequence 文件: SequenceFile 文件是Hadoop 用来存储二进制形式的key-value 对而设计的一种平面文件(Flat File)。
object文件: object文件是将对象序列化后保存的文件,采用Java 的序列化机制(注:序列化要指定类型)。
案例实操
文件保存
package com.atguigu.bigdata.spark.core.rdd.ioimport org.apache.spark.{SparkConf, SparkContext}object Spark01_RDD_IO_Save {def main(args: Array[String]): Unit = {val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark01_RDD_IO_Save ")val sc = new SparkContext(sparkConf)val rdd = sc.makeRDD(List(("a", 1),("b", 2),("c", 3),("d", 4)))//保存文件rdd.saveAsTextFile("output")rdd.saveAsObjectFile("output1")rdd.saveAsSequenceFile("output2")sc.stop()}}
文件读取
package com.atguigu.bigdata.spark.core.rdd.ioimport org.apache.spark.{SparkConf, SparkContext}object Spark02_RDD_IO_Load {def main(args: Array[String]): Unit = {val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark02_RDD_IO_Load ")val sc = new SparkContext(sparkConf)//读取文件的数据val rdd = sc.textFile("output")println(rdd.collect().mkString(","))val rdd1 = sc.objectFile[(String,Int)]("output1")println(rdd1.collect().mkString(","))val rdd2 = sc.sequenceFile[String,Int]("output2")println(rdd2.collect().mkString(","))sc.stop()}}
Spark的RDD 文件读取与保存相关推荐
- RDD文件读取与保存
Spark的数据读取以及数据保存可以从两个维度来作区分:文件格式以及文件系统. 文件格式为:text文件.csv文件.sequence文件以及Object文件: 文件系统为:本地文件系统.HDFS ...
- 2.Open3D教程——文件读取和保存
文件读取和保存 本教程演示了Open3D如何读写基本数据结构. 1. 点云 下面的代码读取和写入点云. print("Testing IO for point cloud ..." ...
- python 常用文件读取和保存方式汇总
python 常用文件读取和保存方式汇总 txt文件 open和close函数 文件对象的方法 读写示例理解rwa中的指针 w a r txt文件 open和close函数 fileObject = ...
- java文件读取与保存
文件读取与保存 Long startTime=System.currentTimeMillis();String jsonStr = "";try {File jsonFile = ...
- Bitmap位图文件读取、保存、屏幕截图
虽然现在网上已经有很多位图读取.保存的文章,很多写的都很详细,提供的源代码功能也很强大,但是我仍然要自己重写一个位图加载程序.主要是因为这些大牛们的文章写的太深奥了,代码功能太强大了,以至于像我这样的 ...
- PDS4格式文件读取与保存
文章目录 前言 一.获取PDS4数据 二.PDS4格式图像读取 1.下载pds4-tools库 2.读入数据 三.保存PDS4格式数据 1.下载osgeo库 2.保存PDS4 参考文章 前言 在航天领 ...
- python使用opencv保存视频_Pythone OpenCV学习笔记之:视频文件读取与保存
# -*- coding: utf-8 -*- # 读取和保存视频 import cv2 as cv import numpy as np def decode_fourcc(v): v = int( ...
- Spark学习笔记:数据读取和保存
spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易. 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素. 也可以将多个完整的文本文件一次 ...
- TensorFlow学习笔记02:使用tf.data读取和保存数据文件
TensorFlow学习笔记02:使用tf.data读取和保存数据文件 使用`tf.data`读取和写入数据文件 读取和写入csv文件 写入csv文件 读取csv文件 读取和保存TFRecord文件 ...
最新文章
- Oracle的视图与索引
- AI初创企业“考拉悠然”获3000万融资
- 深度学习算法_爱奇艺深度学习算法实习生面经
- 项目常用第三方库 Swift版
- HADOOP__PIG安装与配置
- Eclipse导出APK文件报错 android lint problem
- root用户安装的软件在普通用户不生效
- __str__和__repr__
- 3.4 方便快捷的魔棒工具 [Ps教程]
- r语言 与python r中python环境的创建
- fileZilla服务器登录密码展示
- 【异常处理】devcpp编译时 “源文件未编译”
- 找工作必做事项-剑指offer
- 事业单位工资计算机公积金计算,事业单位住房公积金基数怎么算?
- 电容外观检测(牛角电容瑕疵缺陷视觉检测系统)
- Shellshock Lab
- Android百度地图水波纹动画,高德地图实现水波纹扩散
- 教师资格证考试科目汇总
- Monster Card Game的设计与实现之客户端篇
- 2020牛客暑期多校训练营(第八场)E.Enigmatic Partition(差分+隔项差分/dp+暴力)
热门文章
- Matlab2013a安装简单教程以及遇到的问题解决(反复提示激活问题)
- 【Verilog HDL】设计硬件电路时,如何避免生成锁存器?
- Apache、php、mysql默认安装路径
- 从大数据技术参考模型角度梳理大数据标准
- MySQL 5.6通过MMM实现读写分离的高可用架构
- Oracle Advanced Security:Column Encryption Overhead
- Dump File Bat
- 数据库 1205 Error 'Lock wait timeout exceeded; try restarting transaction' on query
- Vim的行号、语法显示等设置(.vimrc文件的配置)以及乱码解决
- 【Android】入门级连接网络示例: 网页浏览和播放网络MP3