Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte
Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte,这个错误是做NLP的小伙伴常见的一个错误,报错原因是读取的文件中有中文。
核心思路:
将 with open(file) as f:
改成with open(file, ‘r’, encoding=‘utf-8’) as f:
例如:
def load_data(filename):D = []with open(filename,'r', encoding='utf-8') as f:for i, l in enumerate(f):l = json.loads(l)text, label = l['sentence'], l['label']D.append((text, labels.index(label)))return D
即将原始的
with open(filename) as f:
修改为
with open(filename,'r', encoding='utf-8') as f:
即可解决以上问题。
还有一种情况:不加encoding默认编码方式采用utf-8
,因为cvs文件的表头带中文汉字,所以报错。汉字采用的编码方式是gb2312
,一般都是表头带汉字引起的,更改为如下代码即可。
data = pd.read_csv(filename,encoding = 'gb2312')
Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte相关推荐
- 解决Python报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 658: illegal multibyte
解决Python报错–UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 658: illegal multibyte ...
- Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 10
Python报错(字节编码gbk) UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 10: illegal mul ...
- python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x97 in position的解决方法
在编写代码时,调用python解释器中的模块时出现 UnicodeDecodeError: 'gbk' codec can't decode byte 0x97 in position 20: ill ...
- python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte,文本乱码解决方法
原因分析: 读取文件时报错Unicode编码错误,一般这种情况较多是在国标码(GBK)和utf8之间选择出现了问题.这个异常报错是由于设置了参数errors默认为严格(strict)造成的,将其更改为 ...
- Python报错:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x8c in position 20: illegal multibyte...
非法的多字节序列,转换的时候发生错误. 如果你在直接读取txt文件: 代码是open(f,"r") f=r"H:\python_project\a.txt" f ...
- import configparser config.read(config_path) 报错 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x
import configparser config.read(config_path) 报错 UnicodeDecodeError: 'gbk' codec can't decode byte 0x ...
- python报错UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe8 in position 0 解决方案
python报错UnicodeDecodeError: 'ascii' codec can't decode byte 0xe8 in position 0 解决方案 参考文章: (1)python报 ...
- 解决Python打开文件报错UnicodeDecodeError: 'gbk' codec can't decode byte
用Python打开文件时报错: UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 10: illegal multi ...
- GBK解码报错-UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa1 in position 98: illegal multibyte seq
文章目录 背景 原因分析 解决办法 办法一 方法二 总结 背景 在PyCharm中,创建一个带有中文的html文件,进行读取的时候出现如下报错: UnicodeDecodeError: 'gbk' c ...
最新文章
- CVPR2020:点云分类的自动放大框架PointAugment
- 目标检测 | 盘点目标检测中的特征融合技巧(根据YOLO v4总结)
- linux脚本后台,后台实时分流文件的shell脚本
- [20140928]创建连接到MySQL的连接服务器
- java lambda 循环list_Java8--Lambda表达式对List集合操作(一)
- java loadlibrary_java – System.loadLibrary不起作用.链中的第二个lib的UnsatisfiedLinkError...
- win7装mysql一直未响应_求助啊 WIN7下安装mysql出问题 老是说未响应~!!
- 动态规划 —— 动态规划概述
- Microsoft.ACE.OLEDB.12.0' provider is not registered on the local machine
- HOWTO: 判断全角和半角
- 线性代数第九版pdf英文_《Linear Algebra Done Right》线性代数复习及部分习题解答(3.C)...
- JavaScript Array对象 知识点总结
- 为什么要用IOC和AOP
- kali linux下sqlmap使用教程
- LIBJPEG-TURBO库移植
- iOS图像处理——人脸识别
- 多线段几何图形—— 简单几何图形(从线段中搜索封闭图形)
- p5.js炫酷背景动态js特效代码
- kafka-生产者消息发送流程
- C语言中的switch语句
热门文章
- 数据结构和算法:火车进出站
- ROS 安装和环境配置
- hdu 1283 最简单的计算机
- 神经网络的整个过程包括,神经网络的实现过程
- BUG记录:Exception evaluating SpringEL expression
- 计算机基础知识形考 客观题,2015-电大形考-计算机应用基础---Windows-7操作系统-- -客观题(答案).pdf...
- 电大c语言形考作业网上作业,C语言程序设计电大形考作业
- 【STM32】F103C8T6 蓝牙遥控小车
- 【已解决】(uni-app)IOS 端 H5 应用无法发起请求,请求状态码为0,错误描述为request:fail
- PH测定仪、电导率测定仪、叶绿素荧光测定仪使用