Pandas读取中文文本文件报错:python ‘utf-8‘ codec can‘t decode byte 0xe3 in position 0: unexpected end of data

近日用pandas的read_csv读取中文文本文件时报错：python 'utf-8' codec can't decode byte 0xe3 in position 0: unexpected end of data。

看到错误以为是读取时encoding选择错误，某个二进制块无法用 'utf-8'读取，不应该选择 'utf-8'。于是将utf-8,gb2312,gb18030,gbk,utf-8-sig,cp936,big5等中文编码都试了一遍，还是没有解决错误。用编码ISO-8859-1读取没有报错，然而读取的是乱码。

要读取的文件，我事先知道是 'utf-8'。为了再次确认是否是 'utf-8'，用如下代码进行了判断，结果竟然是none。用文本编辑器打开文件，将文件编码转换为 'utf-8'，再次用如下代码进行判断，结果竟然还是none。

#方法一
import pandas as pd   import os  import chardetdef get_encoding(filename): """ 返回文件编码格式，因为是按行读取，所以比较适合小文件""" with open(filename,'rb') as f: return chardet.detect(f.read())['encoding']original_file = r"G:\data.txt"print(get_encoding(original_file))
#结果是None#方法二
from chardet.universaldetector import UniversalDetectororiginal_file = r"G:\data.txt"usock = open(original_file, 'rb')
detector = UniversalDetector()
for line in usock.readlines():detector.feed(line)if detector.done: break
detector.close()
usock.close()
print (detector.result)#返回结果竟然是{'encoding': None, 'confidence': 0.0, 'language': None}
#chardet不可能总是正确的猜测。如果你需要正确处理样本，你真的需要知道它们的编码#方法三
#notepad++右下角也能看到编码，结果是utf-8

说明，文件的部分数据有问题，在网上找了很多方法，都不能解决问题。

随后，用如下代码找到了错误出现的行，错误出现在最后一行。

f = open(r"G:\data.txt","rb")#二进制格式读文件
while True:line = f.readline()if not line:breakelse:try:line.decode('utf-8')except:print(str(line))

重新看报错原因，才发现“unexpected end of data”，这不也是在说最后一行吗？

观察了下最后一行的数据，文件有6列数据，然而最后一行只有3列数据，最后3列数据为空，手动将最后3列数据补全，问题解决。

总结：仔细读报错原因，报错原因其实已经告诉了解决思路。找出导致出错所在的代码行或数据行，不要瞎试。

Pandas读取中文文本文件报错:python ‘utf-8‘ codec can‘t decode byte 0xe3 in position 0: unexpected end of data相关推荐

python 读取文件报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb5 in position 0: invalid start
python 读取文件报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 0: invalid start ...
【pd读取csv文件踩坑】读取csv文件时报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb5 in position 0
写在前面: 由于CSDN的审查机制的原因,更多博客内容请访问我的个人博客或GitHub: 个人博客地址:个人博客 GitHub地址:GitHub 你是否有过之前用pd.read打开csv文件都正常,但 ...
pd.read_csv报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc8 in position 0: invalid contin
报错代码: data = pd.read_csv('90data.csv') # 读取数据解决方案: data = pd.read_csv('90data.csv', encoding= 'ISO- ...
因为编码产生的报错：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xbd in position 0: invalid start byte
发生此报错多半是因为编码. 我这里是在读取txt文本的时候发生的报错,如下: 修改编码为gbk后,就可以正常读取了:
gensim加载word2vec模型报错：UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid
这句话是一个很常见的错误,是在加载gensim预训练的word2vec模型时的报错, 当时查资料找到加载模型应该用 model = KeyedVectors.load_word2vec_format( ...
python打开xml文件报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xb7 in position 58: illegal multi
本篇文章主要讲解,python打开xml文件报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xb7 in position 58: ille ...
python报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa3 in position 48
python报错: UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 48: illegal multibyte s ...
python报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 解决方案
原代码 data_path = "sources/weibo_senti_100k.csv" data_list = open(data_path).readlines()[1:] ...
anaconda -spyder报错解决-UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 611: illegal
此文首发于我的个人博客:anaconda -spyder报错解决-UnicodeDecodeError 'gbk' codec can't decode byte 0x93 in position 6 ...

Pandas读取中文文本文件报错:python ‘utf-8‘ codec can‘t decode byte 0xe3 in position 0: unexpected end of data

Pandas读取中文文本文件报错:python ‘utf-8‘ codec can‘t decode byte 0xe3 in position 0: unexpected end of data相关推荐

最新文章

热门文章