完整代码如下:

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# @Author: appleyuchi
# @Date:   2018-07-19 14:59:02
# @Last Modified by:   appleyuchi
# @Last Modified time: 2018-07-20 14:59:51
import subprocess
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
conf = SparkConf(). setMaster( "local"). setAppName( "My App")
sc = SparkContext( conf = conf)
lines=sc.textFile("README.md")
def g(x):print xprint"-----------------Example 5-20书上代码有误,误用了scala----------------------------------------------------"
print"-----------------下面先是序列化,写入SequenceFile-------------------"
rdd = sc.parallelize(["2,Fitness", "3,Footwear", "4,Apparel"])
ret = subprocess.call(["rm", "-r","testSeq"], shell=False)
rdd.map(lambda x: tuple(x.split(",", 1))).saveAsSequenceFile("testSeq")
ret = subprocess.call(["rm", "-r","testSeqNone"], shell=False)
rdd.map(lambda x: (None, x)).saveAsSequenceFile("testSeqNone")#这的意思是保留整个字符串print"-----------------再是反序列化,读取SequenceFile-------------------"
Text = "org.apache.hadoop.io.Text"
print (sc.sequenceFile("./testSeq/part-00000", Text, Text).values().first())
print"------------------------------------"
result=sc.sequenceFile("./testSeqNone/part-00000", Text, Text).values()
print type(result)
print result.foreach(g)
print (sc.sequenceFile("./testSeqNone/part-00000", Text, Text).values().first())

pyspark读写SequenceFile相关推荐

  1. python应用中调用spark_在python中使用pyspark读写Hive数据操作

    1.读Hive表数据 pyspark读取hive数据非常简单,因为它有专门的接口来读取,完全不需要像hbase那样,需要做很多配置,pyspark提供的操作hive的接口,使得程序可以直接使用SQL语 ...

  2. 外部jar包_大数据系列之PySpark读写外部数据库

    本文以MySQL和HBASE为例,简要介绍Spark通过PyMySQL和HadoopAPI算子对外部数据库的读写操作 1.PySpark读写MySQL MySQL环境准备参考"数据库系列之M ...

  3. spark 读写SequenceFile

    DataFrame 没有相关API,df可以转为RDD然后再用,另外 也是只有pairRDD才能用 RDD def save3(): Unit = {val spark: SparkSession = ...

  4. pyspark汇总小结

    20220402 Spark报Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResult ...

  5. Spark编程指南V1.4.0(翻译)

    Spark编程指南V1.4.0 ·        简介 ·        接入Spark ·        Spark初始化 ·        使用Shell ·        在集群上部署代码 ·  ...

  6. iceberg问题小结

    20220402 pyspark读写iceberg# code:utf-8 import findspark findspark.init(r"D:\Python37\Lib\site-pa ...

  7. Hadoop入门(五)IO操作

    一.HadoopIO操作意义 Hadoop自带一套用于I/O的原子性的操作 (不会被线程调度机制打断,一直到结束,中间不会有任何context switch) 特点 基于保障海量数据集的完整性和压缩性 ...

  8. Hive 导入CSV文件

    SerDe 介绍 Hive 使用如下FileFormat 类读写 HDFS files: TextInputFormat/HiveIgnoreKeyTextOutputFormat: 读写普通HDFS ...

  9. 大数据常用文件格式介绍

    文章目录 一.SequenceFile 二.Avro 三.parquet 四.Orc 五.同为列式存储, orc和parquet的区别 列式存储的优化点 orc和parquet的一些区别和对比 六.一 ...

最新文章

  1. 设置IDEA编辑过程直接通过F5刷新网页就可以实时查看JSP文件更新结果,而非通过重新run
  2. 【操作系统】考研の处理机调度算法(看不懂你来打我~!)
  3. 阿里巴巴虾米的机器学习与深度学习进阶记
  4. 【线上分享】移动音视频SDK工程实践之数据采集和处理
  5. element ui封装 tree下拉框
  6. jQuery 页面载入进度条 (必有一款适合你----综合搜集版)
  7. Git笔记(31) 重置揭密
  8. 使用Java的MessageDigest实现MD5加密算法
  9. C++ 保存txt文本文件
  10. a12处理器怎么样_苹果新一代iPhone A12仿生处理器怎么样
  11. 闲谈IPv6-组播和广播
  12. dbf解析_JAVA解析DBF文件方案.pdf
  13. Redis 分布式锁笔记
  14. pydicom和simpleitk读写dicom图像元信息
  15. ILI9341的使用之【一】TFT-LCD原理(转载)
  16. java jcseg 官网_Jcseg轻量级Java中文分词器2.6.5最新版
  17. Go语言:字节流读写(io.Reader/io.Writer)的示例之redis读写
  18. geopandas拓扑检查(任意两个几何体不相交)
  19. 富士施乐DocuPrint m115b加粉后粉盒和硒鼓清零方法
  20. 【iMessage苹果相册日历推位置推送】软件安装deviceToken是由APNs生成的

热门文章

  1. 详细解读Spring2.5 +Struts1.3 框架(使用Spring声明式事物管理和springjjdbc模板)
  2. F# -- TCP/IP小测试
  3. js优化阿里云图片加载(一)
  4. hexo修改默认端口
  5. python中str函数_一文让你彻底搞懂Python中__str__和__repr__?
  6. 解决vscode之前好好的能连接上linux服务器,后来报错,窗口出现故障
  7. web.xml中servlet配置及其含义
  8. AI:PR的数学表示-传统方法PR
  9. Python批量添加库搜索路径
  10. C++调用matlab编程