今天在Windows10系统下,跑Spark Python脚本, 执行collect()时报下面的错误

births.select(s[0]) \
            .distinct() \
            .rdd \
            .map(lambda row: row[0]) \
            .collect()

尝试把csv文件编码改为utf-8也没有用,代码中加入编码格式也没有效果。

import sys
reload(sys)
sys.setdefaultencoding('ISO-8859-1')   #改成utf8也没有用。

原来我犯了一个错误,python脚本的名称包含中文导致的。(⊙ ︿ ⊙)

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Traceback (most recent call last):
  File "36-38(数据预处理_逻辑回归).py", line 83, in <module>
    print births.rdd.collect()
  File "e:\anaconda2\lib\site-packages\pyspark\rdd.py", line 815, in collect
    with SCCallSiteSync(self.context) as css:
  File "e:\anaconda2\lib\site-packages\pyspark\traceback_utils.py", line 72, in __enter__
    self._context._jsc.setCallSite(self._call_site)
  File "e:\anaconda2\lib\site-packages\py4j\java_gateway.py", line 1277, in __call__
    args_command, temp_args = self._build_args(*args)
  File "e:\anaconda2\lib\site-packages\py4j\java_gateway.py", line 1247, in _build_args
    [get_command_part(arg, self.pool) for arg in new_args])
  File "e:\anaconda2\lib\site-packages\py4j\protocol.py", line 292, in get_command_part
    command_part = STRING_TYPE + escape_new_line(parameter)
  File "e:\anaconda2\lib\site-packages\py4j\protocol.py", line 187, in escape_new_line
    return smart_decode(original).replace("\\", "\\\\").\
  File "e:\anaconda2\lib\site-packages\py4j\protocol.py", line 219, in smart_decode
    return unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode byte 0xca in position 17: invalid continuation byte

Spark 读 CSV格式文件 ,报错UnicodeDecodeError: 'utf8' codec can't decode byte 0xca in position 17: invalid c相关推荐

  1. pandas 读csv 报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 0: invalid cont

    UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 0: invalid continuation byte 解码 ...

  2. pandas读文件UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 17: invalid start byte

    @ 解决pandas读文件报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 17: invalid sta ...

  3. pandas读取数据时,报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 0: invalid contin

    1.我的代码: df_train=pd.read_csv("C:\\Users\\15520\\Desktop\\AI\\阿里天池\\幸福感挖掘\\happiness_train_compl ...

  4. 【pandas问题】UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xca in position 0: invalid continuati

    出错位置: data = pd.read_csv('../data/user.csv') print(data.head()) 报错信息: UnicodeDecodeError: 'utf-8' co ...

  5. 解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xca in position 0: invalid continuation byte

    英文字母,数字,符号都用特定的二进制编码方式计算机才能识别."UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in posi ...

  6. UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xca in position 24: invalid continuation byte

    Flask报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 24: invalid continuatio ...

  7. python 报错 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd3 in position 解决方法

    在使用urllib获取reqest的response的时候,还要进行解码 content = urllib.request.urlopen(request).read().decode() 当执行该语 ...

  8. (20200921Solved)UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xca in position 0: invalid cont

    问题描述 通过pandas.read_csv读取.csv.gz文件出现上述问题. 解决方案 encoding='ISO-8859-1' 但是这种编码会导致中文乱码,改用GB18030,顺利解决. Re ...

  9. python读取字符报错:‘utf-8‘ codec can‘t decode byte 0xbd in position 2: invalid start byte

    python读取字符报错:'utf-8' codec can't decode byte 0xbd in position 2: invalid start byte 原因 解决方法 原因 utf-8 ...

最新文章

  1. CSDN博客转载攻略
  2. Spring在web开发中的应用
  3. UDT协议实现分析——连接的建立
  4. Django讲课笔记07:设置路由分发规则
  5. Linux防止暴力破解密码脚本
  6. CodeBlocks(17.12) 代码调试基础方法快捷方式
  7. 实现Servlet接口来开发Servlet程序
  8. 数学建模算法python源码_如何使用python完成数学建模常见算法
  9. centos7安装tree命令
  10. java秒抢商品_Java秒杀系统实战系列~待秒杀商品列表与详情功能开发
  11. 硕飞烧录器、卓晶微烧录机使用
  12. Java教程——软件开发基础
  13. 我的Serverless实战—基于Serverless搭建一个简单的WordPress个人博客图文详解-JJZ
  14. 计算机基础:7、计算机的输入输出设备
  15. Tensorflow中实现leakyRelu操作(高效)
  16. 【论文阅读】Online Attention Accumulation for Weakly Supervised Semantic Segmentation
  17. 学生管理系统【Python】
  18. 张驰咨询:快速提高流程效率的5个关键精益生产工具
  19. 用PL/SQL Developer创建图书表
  20. 2021团体程序设计天梯赛题解

热门文章

  1. 用Python搭建简单自动化报表(漏斗模型)
  2. Java面向对象期末备考
  3. python编程入门视频教程-PYTHON编程从0到1(视频教学版)
  4. 360悬浮加速小火箭,内存清理,加速缓存
  5. html如何给header添加token,将Token添加到请求头Header中
  6. 离散数学在计算机科学中的应用
  7. 盛世昊通愿天下无拐,期待所有失孤家庭早日团圆
  8. McAfee刮起中国风 全资子公司拓展在华市场
  9. c语言中MAXINE,13岁高定设计师二度亮相北京时装周 Maxine WangGrace Chen高定系列发布...
  10. 幂律分布参数估计幂律分布公式计算