python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin
报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva
字符编码问题
1.ASCLL与GB2312
**国标码是汉字的国家标准编码,目前主要有GB2312、GBK、GB18030三种。
GB2312编码方案于1980年发布,收录汉字6763个,采用双字节编码。
GBK编码方案于1995年发布,收录汉字21003个,采用双字节编码。
GB18030编码方案于2000年发布第一版,收录汉字27533个;2005年发布第二版,收录汉字70000余个,以及多种少数民族文字。GB18030采用单字节、双字节、四字节分段编码。**斜体样式
2.Unicode
Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)
3.UTF-8
UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。
结果办法
1.解决办法修改数据集的编码格式,重新读取即可。
txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8’)
print(txt)
结果如下:
2.写个小函数判断到底是个别数据编码还是整体数据集编码不对
测试python3
#以读入文件为例:
f = open("C:/Users/xxxx/Desktop/文本.txt","rb")#二进制格式读文件
i = 0
while True:i += 1print(i)line = f.readline()if not line:breakelse:try:line.decode('utf8')#为了暴露出错误,最好此处不printexcept:print(str(line))
结果如下:
注:显示中文部分无法解析。
读取时也可以用二进制模式打开的文件(包括模式参数中的’b’)将内容作为字节对象,而不进行任何解码。 然后使用line.decode(‘gbk’)解码,其中的errors参数: 修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。
python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin相关推荐
- python 读取数据出现UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin
之前写程序时也出现过类似错误,每次解决了到第二次遇见又忘了具体方法,这次记录一下. 一.字符编码问题 先介绍一下字符编码问题 1.ASCLL与GB2312 由于计算机是美国人发明的,因此,最早只有12 ...
- python 读取数据出现UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
解决方法: 读取时也可以用二进制模式打开的文件(包括模式参数中的'rb')将内容作为字节对象,而不进行任何解码. 然后使用line.decode('utf-8',errors = 'ignore')解 ...
- 报错:UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
python读取数据时出现:UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid conti ...
- pd.read_csv报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
报错代码: data = pd.read_csv('90data.csv') # 读取数据 解决方案: data = pd.read_csv('90data.csv', encoding= 'ISO- ...
- 解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid continuation byte
困扰了很久的问题今天终于解决了!!! 异步导入csv文件提示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0 ...
- blender导入c4d obj模型出现UnicodeDecodeError:: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0:
错误描述 blender导入c4d obj模型出现UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0 bal ...
- UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid continuation byte
date=pd.read_csv('./apriori/date.csv')报错: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 i ...
- Python报错SyntaxError: (unicode error) ‘utf-8‘ codec can‘t decode byte 0xc5 in position 0: invalid
python报错:SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid co ...
- Django 项目编码问题1UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 0: invalid contin
Django 踩过的坑(一) 平台:win10 工具:cmd python3 刚刚学习Django搭建环境,网站还木有发布,就直接来了个大麻烦. 一切按着<Django 学习笔记(二)>这 ...
最新文章
- 阿里飞天大数据飞天AI平台“双生”系统正式发布,9大全新数据产品集中亮相
- NetBeans 时事通讯(刊号 # 109 - Jul 17, 2010)
- Python技巧之“is”对比“==”
- android关机菜单修改,Android4.4关机菜单添加重启系列选项
- mysql设置最大连接数为200_设置mysql最大连接数的方法
- OAuth2.0在项目中的应用
- python 2x可以打么_15分钟让你了解Python套路,看你能不能坚持的住
- 再赠邓超明(帮别人名字作诗)
- 查oracle事务超时时间,ORA-24756: 事务处理不存在 分析
- 人工智能ai 学习_人工智能中强化学习的要点
- 五.开发记录之ubuntu系统安装各个软件
- 王道考研——计算机网络------笔记
- 10M/s方法解决numpy下载太慢的问题!
- Eclipse连接小米手机无连接显示解决办法
- 关于程序员职业规划的思考
- 魔兽争霸lostTemple地图
- java 游戏打砖块_基于JAVA的打砖块游戏
- MIDAS:混频数据回归
- blender用视频做背景渲染动画节点设置
- UNICODE、GB18030、ASCII编码
热门文章
- 2020计算机科学第五轮评估,第五轮学科评估启动,这些非“双一流”建设高校可能获得A+学科...
- 计算机顶级会议Rankings
- java金额三位一撇方法_Java数据格式化问题
- linux下vim下光标下显示这一横杠
- linux底层把值传给上层,Android上层如何调用一个底层函数
- java计算机毕业设计Vue垃圾分类指南平台设计与实现源码+数据库+系统+lw文档
- 使用requests爬虫制作自己的天气预报“Api”
- Mac OS X 背后的故事(三)Mach之父Avie Tevanian 1
- 坚持#第369天~知道了惠普打印机和佳能打印机打印不清晰了怎么解决
- 发字的楷书写法图片_优秀的楷体书写作品高清图片