python中文编码-python中文编码与json中文输出问题详解

前言

python2.x版本的字符编码有时让人很头疼，遇到问题，网上方法可以解决错误，但对原理还是一知半解，本文主要介绍 python 中字符串处理的原理，附带解决 json 文件输出时，显示中文而非 unicode 问题。首先简要介绍字符串编码的历史，其次，讲解 python 对于字符串的处理，及编码的检测与转换，最后，介绍 python 爬虫采取的 json 数据存入文件时中文输出的问题。

参考书籍：Python网络爬虫从入门到实践 by唐松

在python 2或者3 ，字符串编码只有两类：

（1）通用的Unicode编码；

（2）将Unicode转化为某种类型的编码，如UTF-8，GBK；

1、计算机历史：

计算机只处理数字，因此处理文本时，必须转换成数字才行。

8位（bit）=1字节（byte）=256种不同状态=从000000到111111；

1GB=1024M=1024（1024kb）=1024（1024（1024b））；

ASCII编码是对应英文字符与二进制数字之间的关系；ASCII一共规定了128种，如大写字母A是65，即01000001；可见一字母一字节；

GB2312编码简体中文常见的编码，两个字节代表一个中文汉字，理论上256*256个编码，即可表示65536种中文字；

各国编码不同，为了各国能扩平台进行文本的转换与处理，Unicode就被作为统一码或者单一码。Unicode编码通常是两个字节，unicode与ASCII编码的区别，在于unicode在ASCII编码前加了一个0，即字母A的ASCII编码为01000001，unicode编码即为0000000001000001;但英文字母其实只用一个字节就够了，unicode编码写英文时多了一个字节，浪费存储空间。因而unicode开发了通用转换格式（Unicode Transformation Format(UTF)）,常见的有utf-8或者utf-16；

要明白encode()和decode()的区别

encode()的作用是将Unicode编码的字符串转换为其他编码格式。

例如： st1.encode("utf-8")这句话的作用是将Unicode编码的st1编码为utf-8编码的字符串

decode()的作用是把其他编码格式的字符串转换成Unicode编码的字符串。

例如： st2.decode("utf-8")这句话的作用是将utf-8编码的字符串st2解码为Unicode编码的字符串

第二，除Unicode编码的字符串以外，任何一种编码的字符串要想转换为其他编码格式，必须先解码后编码

非Unicode编码--> Unicode编码-->非Unicode编码

例如，utf-8编码的字符串st想要转换为gbk编码的字符串，必须经过以下步骤：

st=st.decode("utf-8") #解码为Unicode编码

st=st.encode("gbk") #从Unicode编码编码为gbk编码

第三，我们经常使用的utf-8编码还分为有BOM的和无BOM的。

第四：关于json文件的中文编码。用Python读取Json文件时经常用到json.load()函数，该函数对json文件的格式是有要求的

1）json文件是utf-8 without BOM编码的，那么可以直接用json.load(filename)函数读取json文件的内容

2）json文件是utf-8 with BOM编码的，不能用json.load()函数读取，json.load()不能正确识别

3）json文件时其他编码的，比如gbk，要把json文件的编码格式作为一个参数传给json.load()：

eg. json.load(filename，"gbk")

第五，怎么查看并且设置自己文件的编码呢。

介绍一个个人比较喜欢的工具"Nodtepad++"，随便一个软件管家里就与一键安装。

用这个工具你可以方便的查看自己的文件的当前编码，并可以轻松转换成任意其他编码格式

2、python字符编码

参考地址：https://www.jb51.net/article/139878.htm

（1）encode的作用是，将unicode对象编码成其他编码的字符串，str.encode('utf-8'),编码成UTF-8；（2）decode的作用是将其他编码的字符串转换成Unicode编码，str.decode('UTF-8')；

import chardet 查阅具体的编码类型，chardet.detect(str)，但是str不能是unicode编码类型，但是该方法不接受本来已经是unicode的编码的参数，会有TypeError: Expected object of type bytes or bytearray, got: 错误；

作为统一标准，unicode不能再被解码，如果UTF-8想转至其他非unicode，则必须（2）先decode 到unicode，在encode到其他非unicode的编码。

爬取网页时，可在F12 elements meta中查看网页编码方式，如图：

(2)中文，Python中的字典能够被序列化到json文件中存入json

with open("anjuke_salehouse.json","w",encoding='utf-8') as f:

json.dump(all_house,f,ensure_ascii=False,sort_keys=True, indent=4);

print(u'加载入文件完成...');

存储数据如图：

dump()的第一个参数是要序列化的对象，第二个参数是打开的文件句柄，注意文件打开open()时加上以UTF-8编码打开，在dump()的时候也加上ensure_ascii=False,不然会变成ascii码写到json文件中json.dump(all_house,f,ensure_ascii=False,sort_keys=True, indent=4)

json.dumps()/json.loads()等用法

json_str = json.dumps(all_house,ensure_ascii=False); #all——books 为列表、字典等python自带的数据结构，将其写成json

#print json_str; #[{"brokername": "王东宇"},{},{}]

new_dict = json.loads(json_str);#主要是读json文件时，需要用到

#print new_dict; #{u'house_area': u'95', u'build_year': u'2005'}

json.dumps() 是将一个Python数据结构转换为一个JSON编码的字符串,

{"name": "xiaoming"}

json.loads() 是将一个JSON编码的字符串（字典形式）转换为一个Python数据结构,{u'name': u'xiaoming'}

dumps转化后键与值都变成了双引号，而在loads后变成python变量时，元素都变成了单引号，并且字符串前加多了个u。

一般要求当要字符串通过loads转为python数据类型时，得外层用单引号，里面元素key和value用双引号。

sort_keys：根据key排序

dump与dumps的区别

dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding='utf-8', default=None, sort_keys=False, **kw)；dump将一个对象序列化存入文件，dump需要一个类似于文件指针的参数（并不是真的指针，可称之为类文件对象），可以与文件操作结合，也就是说可以将dict转成str存入文件中，如json.dump(all_house,f,ensure_ascii=False,sort_keys=True, indent=4)中的f表示一个数据待写入的json文件句柄；

dump(obj, fp, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding='utf-8', default=None, sort_keys=False, **kw)；而dumps(str)直接给的是str，也就是直接将字典转成str，无需写入文件，类似一个数据格式的转换方法，将python字符串转成json字典。

所以dumps是将dict转化成str格式，loads是将str转化成dict格式。

dump和load也是类似的功能，只是与文件操作结合起来了。

（3）中文存入txt

f=open('net_saving_data.txt','w',encoding='utf-8');

for item in all_house:

# house_area=item['house_area'];

# price=item['price'];

output=' '.join([str(item['house_area']),str(item['price']),str(item['build_year']),str(item['house_title'])]);

f.write(output);

f.write(' ');

f.close();

在2.7.15版本的python中，提示错误TypeError: 'encoding' is an invalid keyword argument for this function,无法传入encoding的参数，但是在3.7版本可传入encoding='utf-8'参数，即可对 txt进行中文写入。

!!NOTE

中文写入txt、json文件是无非就是open()文件时，需要添加utf-8，dump()时，需要添加ensure_ascii=False，防止ascii编码，但是刚开始因为python版本是2.7.15，不是3.7，导致存储不成功的时候，一直以为是代码的问题。所以最后发现就是版本的问题，也挺伤的。网上关于中文这个编码问题有很多，但是他们都没有强调python版本的问题！！！其他3.xx的版本没有试过。

读取网页数据的时候，查看网页的charset，及chardet库对编码类型的查询，及时进行decode和encode的编码转化，应该就能避免很多编码问题了。其他的坑以后踩了再补吧。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

本文标题: python中文编码与json中文输出问题详解

本文地址: http://www.cppcns.com/jiaoben/python/238058.html

python中文编码-python中文编码与json中文输出问题详解相关推荐

[Python人工智能] 二十一.Word2Vec+CNN中文文本分类详解及与机器学习（RF\DTC\SVM\KNN\NB\LR）分类对比
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了Keras实现RNN和LSTM的文本分类算法,并与传统的机器学习分类算法进行对比实验.这篇文章我们将继续巩固 ...
python语言格式化输出_Python format()格式化输出方法详解
原标题:Python format()格式化输出方法详解 format() 方法的语法格式如下: str.format(args) 此方法中,str 用于指定字符串的显示样式:args 用于指定要进行 ...
python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析
#2018-04-06 13:52:30 April Friday the 14 week, the 096 day SZ SSMR python数据挖掘课程]二十一.朴素贝叶斯分类器详解及中文文本舆 ...
linux python乱码_linux下python中文乱码解决方案详解
linux下python中文乱码解决方案详解发布时间:2020-09-06 20:24:49 来源:脚本之家阅读:68 1. 场景描述 linux服务器下安装了Anaconda3,执行Pyhton ...
Python格式化字符输出用法详解
Python Print() 格式化输出用法详解 Python格式化有两种方式,一种利用%号格式输出,另一种利用Format: 建议利用Format格式,其具有较好的可扩展性 1.字符串格式化符号% ...
python url解码_对python中url参数编码与解码的实例详解
一.简介在python中url,对于中文等非ascii码字符,需要进行参数的编码与解码. 二.关键代码 1.url编码对字符串编码用urllib.parse包下的quote(string, saf ...
Python中第三方库Requests库的高级用法详解
Python中第三方库Requests库的高级用法详解虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人实在感觉不好.它已经不适合现在的时代, ...
python数组相减_对Python 中矩阵或者数组相减的法则详解
对Python 中矩阵或者数组相减的法则详解最近在做编程练习,发现有些结果的值与答案相差较大,通过分析比较得出结论,大概过程如下: 定义了一个计算损失的函数: def error(yhat,labe ...
站长在线python精讲：在Python中使用len()函数计算字符串的长度详解
欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是<在Python中使用len()函数计算字符串的长度详解>.本知识点主要内容有:在Python中使用len()函数计算字符串在 ...

python中文编码-python中文编码与json中文输出问题详解

python中文编码-python中文编码与json中文输出问题详解相关推荐

最新文章

热门文章