python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin

报错的含义是:unicodedecodeerror:“utf-8”编解码器无法解码位置0中的字节0xce:inva

字符编码问题

1.ASCLL与GB2312

**国标码是汉字的国家标准编码，目前主要有GB2312、GBK、GB18030三种。
GB2312编码方案于1980年发布，收录汉字6763个，采用双字节编码。
GBK编码方案于1995年发布，收录汉字21003个，采用双字节编码。
GB18030编码方案于2000年发布第一版，收录汉字27533个；2005年发布第二版，收录汉字70000余个，以及多种少数民族文字。GB18030采用单字节、双字节、四字节分段编码。**斜体样式

2.Unicode

Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）

3.UTF-8

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

结果办法

1.解决办法修改数据集的编码格式，重新读取即可。

txt = pd.read_csv(‘C:/Users/xxx/Desktop/文本.txt’,sep = ‘\t’,encoding = ‘utf-8’)
print(txt)

结果如下：

2.写个小函数判断到底是个别数据编码还是整体数据集编码不对

测试python3
#以读入文件为例：
f = open("C:/Users/xxxx/Desktop/文本.txt","rb")#二进制格式读文件
i = 0
while True:i += 1print(i)line = f.readline()if not line:breakelse:try:line.decode('utf8')#为了暴露出错误，最好此处不printexcept:print(str(line))

结果如下：

注：显示中文部分无法解析。

读取时也可以用二进制模式打开的文件（包括模式参数中的’b’）将内容作为字节对象，而不进行任何解码。然后使用line.decode(‘gbk’)解码，其中的errors参数: 修改字符集参数，一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。出现异常报错是由于设置了decode()方法的第二个参数errors为严格（strict）形式造成的，因为默认就是这个参数，将其更改为ignore等即可。

python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin相关推荐

python 读取数据出现UnicodeDecodeError：: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin
之前写程序时也出现过类似错误,每次解决了到第二次遇见又忘了具体方法,这次记录一下. 一.字符编码问题先介绍一下字符编码问题 1.ASCLL与GB2312 由于计算机是美国人发明的,因此,最早只有12 ...
python 读取数据出现UnicodeDecodeError：: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
解决方法: 读取时也可以用二进制模式打开的文件(包括模式参数中的'rb')将内容作为字节对象,而不进行任何解码. 然后使用line.decode('utf-8',errors = 'ignore')解 ...
报错：UnicodeDecodeError：: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
python读取数据时出现:UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid conti ...
pd.read_csv报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
报错代码: data = pd.read_csv('90data.csv') # 读取数据解决方案: data = pd.read_csv('90data.csv', encoding= 'ISO- ...
解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid continuation byte
困扰了很久的问题今天终于解决了!!! 异步导入csv文件提示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0 ...
blender导入c4d obj模型出现UnicodeDecodeError：: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0:
错误描述 blender导入c4d obj模型出现UnicodeDecodeError:: 'utf-8' codec can't decode byte 0xc8 in position 0 bal ...
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid continuation byte
date=pd.read_csv('./apriori/date.csv')报错: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 i ...
Python报错SyntaxError: (unicode error) ‘utf-8‘ codec can‘t decode byte 0xc5 in position 0: invalid
python报错:SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid co ...
Django 项目编码问题1UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 0: invalid contin
Django 踩过的坑(一) 平台:win10 工具:cmd python3 刚刚学习Django搭建环境,网站还木有发布,就直接来了个大麻烦. 一切按着<Django 学习笔记(二)>这 ...

python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin

字符编码问题

1.ASCLL与GB2312

2.Unicode

3.UTF-8

结果办法

1.解决办法修改数据集的编码格式，重新读取即可。

2.写个小函数判断到底是个别数据编码还是整体数据集编码不对

python读取数据出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid contin相关推荐

最新文章

热门文章