报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva

字符编码问题

1.ASCLL与GB2312

**国标码是汉字的国家标准编码,目前主要有GB2312、GBK、GB18030三种。
GB2312编码方案于1980年发布,收录汉字6763个,采用双字节编码。
GBK编码方案于1995年发布,收录汉字21003个,采用双字节编码。
GB18030编码方案于2000年发布第一版,收录汉字27533个;2005年发布第二版,收录汉字70000余个,以及多种少数民族文字。GB18030采用单字节、双字节、四字节分段编码。**斜体样式

2.Unicode

Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)

3.UTF-8

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。

结果办法

1.解决办法修改数据集的编码格式,重新读取即可。

txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8’)
print(txt)

结果如下:

2.写个小函数判断到底是个别数据编码还是整体数据集编码不对

测试python3
#以读入文件为例:
f = open("C:/Users/xxxx/Desktop/文本.txt","rb")#二进制格式读文件
i = 0
while True:i += 1print(i)line = f.readline()if not line:breakelse:try:line.decode('utf8')#为了暴露出错误,最好此处不printexcept:print(str(line))

结果如下:

注:显示中文部分无法解析。

读取时也可以用二进制模式打开的文件(包括模式参数中的’b’)将内容作为字节对象,而不进行任何解码。 然后使用line.decode(‘gbk’)解码,其中的errors参数: 修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。

python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin相关推荐

  1. python 读取数据出现UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin

    之前写程序时也出现过类似错误,每次解决了到第二次遇见又忘了具体方法,这次记录一下. 一.字符编码问题 先介绍一下字符编码问题 1.ASCLL与GB2312 由于计算机是美国人发明的,因此,最早只有12 ...

  2. python 读取数据出现UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin

    解决方法: 读取时也可以用二进制模式打开的文件(包括模式参数中的'rb')将内容作为字节对象,而不进行任何解码. 然后使用line.decode('utf-8',errors = 'ignore')解 ...

  3. 报错:UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin

    python读取数据时出现:UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid conti ...

  4. pd.read_csv报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin

    报错代码: data = pd.read_csv('90data.csv') # 读取数据 解决方案: data = pd.read_csv('90data.csv', encoding= 'ISO- ...

  5. 解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid continuation byte

    困扰了很久的问题今天终于解决了!!! 异步导入csv文件提示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0 ...

  6. blender导入c4d obj模型出现UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0:

    错误描述 blender导入c4d obj模型出现UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0 bal ...

  7. UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid continuation byte

    date=pd.read_csv('./apriori/date.csv')报错: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 i ...

  8. Python报错SyntaxError: (unicode error) ‘utf-8‘ codec can‘t decode byte 0xc5 in position 0: invalid

    python报错:SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid co ...

  9. Django 项目编码问题1UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 0: invalid contin

    Django 踩过的坑(一) 平台:win10 工具:cmd python3 刚刚学习Django搭建环境,网站还木有发布,就直接来了个大麻烦. 一切按着<Django 学习笔记(二)>这 ...

最新文章

  1. 阿里飞天大数据飞天AI平台“双生”系统正式发布,9大全新数据产品集中亮相
  2. NetBeans 时事通讯(刊号 # 109 - Jul 17, 2010)
  3. Python技巧之“is”对比“==”
  4. android关机菜单修改,Android4.4关机菜单添加重启系列选项
  5. mysql设置最大连接数为200_设置mysql最大连接数的方法
  6. OAuth2.0在项目中的应用
  7. python 2x可以打么_15分钟让你了解Python套路,看你能不能坚持的住
  8. 再赠邓超明(帮别人名字作诗)
  9. 查oracle事务超时时间,ORA-24756: 事务处理不存在 分析
  10. 人工智能ai 学习_人工智能中强化学习的要点
  11. 五.开发记录之ubuntu系统安装各个软件
  12. 王道考研——计算机网络------笔记
  13. 10M/s方法解决numpy下载太慢的问题!
  14. Eclipse连接小米手机无连接显示解决办法
  15. 关于程序员职业规划的思考
  16. 魔兽争霸lostTemple地图
  17. java 游戏打砖块_基于JAVA的打砖块游戏
  18. MIDAS:混频数据回归
  19. blender用视频做背景渲染动画节点设置
  20. UNICODE、GB18030、ASCII编码

热门文章

  1. 2020计算机科学第五轮评估,第五轮学科评估启动,这些非“双一流”建设高校可能获得A+学科...
  2. 计算机顶级会议Rankings
  3. java金额三位一撇方法_Java数据格式化问题
  4. linux下vim下光标下显示这一横杠
  5. linux底层把值传给上层,Android上层如何调用一个底层函数
  6. java计算机毕业设计Vue垃圾分类指南平台设计与实现源码+数据库+系统+lw文档
  7. 使用requests爬虫制作自己的天气预报“Api”
  8. Mac OS X 背后的故事(三)Mach之父Avie Tevanian 1
  9. 坚持#第369天~知道了惠普打印机和佳能打印机打印不清晰了怎么解决
  10. 发字的楷书写法图片_优秀的楷体书写作品高清图片