写这篇文章的缘由是我使用 reqeusts 库请求接口的时候, 直接使用请求参数里的 json 字段发送数据, 但是服务器无法识别我发送的数据, 排查了好久才知道 requests 内部是使用 json.dumps 将字符串转成 json 的, 而 json.dumps 默认情况下会将 非ASCII 字符转义, 也就是我发送数据中的中文被转义了, 所以服务器无法识别. 这篇文章虽然是 json.dumps 问题的总结, 但也会涉及到 字符编码 问题, 所以就简单先说一下 字符编码.

Python 中的字符编码

在 Python3 中, 字符 在内存中是使用 Unicode 存储的, 常规的字符使用 两个字节 表示, 一些很生僻的字符就需要 四个字节. 默认使用 Unicode 存储是什么意思呢, 那就是例子来解释一下, 在 Python Shell 中输入以下字符串 '\u4e2d\u6587', 观察其输出:

In [51]: '\u4e2d\u6587'

Out[51]: '中文'

输出的为 中文 两个字. 其实 \u4e2d 和 \u6587 分别表示 中 和 文 的 Unicode 编码(术语称为 码点)的 十六进制 表示, 在 Python3 中以 \u 开头的字符串被解析为 Unicode 字符, 然后通过其十六进制 码点 解析出具体的字符, 所以 中文 的内存表示即为 \u4e2d\u6587.

获取字符 Unicode 码点

标准库提供了 ord 函数输出一个字符的 Unicode 码点, 使用 chr 函数将 码点 转换成 字符, 下面是示例:

In [54]: ord('中')

Out[54]: 20013

In [56]: chr(20013)

Out[56]: '中'

输出的 码点 是使用 十进制 表示的, 可以使用以下代码将整数格式化成十六进制字符串:

'{0:04x}'.format(20013)

使用 json.dumps

有了前面的铺垫, 就可以来说说 json.dumps 了. 下面以一个例子展开:

In [121]: json.dumps('中文', ensure_ascii=True)

Out[121]: '"\\u4e2d\\u6587"'

In [122]: json.dumps('中文', ensure_ascii=False)

Out[122]: '"中文"'

可以看到, 在 ensure_ascii 为 True 的情况下, 中文 被编码成了 Unicode 码, 为 False 才能正常显示, 但是这跟 ASCII 有什么关系呢? 来看一下官方文档对这个参数的解释:

如果 ensure_ascii 是 true (即默认值),输出保证将所有输入的非 ASCII 字符转义。如果 ensure_ascii 是 false,这些字符会原样输出。

现在稍微明白了, 在 ensure_ascii 为 True 的情况下, 如果字符串中存在 非ASCII 字符就将其转义, 根据结果可以知道这个字符被转义为 Unicode 码并格式化成了一个字符串, 注意 "\\u4e2d\\u6587" 与 "\u4e2d\\u6587" 是不同的, 前者是长度为 12 的字符串, 后者会被 Python 直接解析为 中文, 长度为 2. 这也就是我一开始出现的问题, 直接将转义的字符串在网络上传输可能会无法被识别. 比如 中文 被转义成 \\u4e2d\\u6587, 而服务器如果不知道它是被转义过的字符串, 那它就是一个长度为 12 的普通字符串, 肯定会识别出错. 而将 ensure_ascii 设为 False 就不会进行转义, 使用原始字符.

识别转义字符

如果服务器收到数据后发现是被转化过的, 那怎么识别呢? 其实被转义字符串与使用 unicode_escape 对字符串进行编码再使用 utf-8 进行解码的结果一致, 代码如下:

In [129]: msg

Out[129]: '中文'

In [130]: msg.encode('unicode_escape').decode('utf-8')

Out[130]: '\\u4e2d\\u6587'

所以识别只要反过来使用 utf-8 编码再使用 unicode_escape 解码就可以了.

转义是如何进行的

现在来看一下 json 到底是怎么对字符进行转义的. 在 json.dumps 源码中仔细调试的话会发现, 它调用的是 JSONEncoder.encode 方法, 而 encode 中的代码片段如下:

if self.ensure_ascii:

return encode_basestring_ascii(o)

else:

return encode_basestring(o)

它会根据 ensure_ascii 的值选择调用函数. 而 encode_basestring_ascii 的值是 (c_encode_basestring_ascii or py_encode_basestring_ascii), 也就是默认是用 C 实现的版本, 其次使用 Python 实现的版本, 既然有 Python 版本, 当然要看一下是怎么实现的, py_encode_basestring_ascii 可以直接使用 from json.encoder import py_encode_basestring_ascii 导入, 直接在其内部就可以调试. 下面是其源码:

def py_encode_basestring_ascii(s):

"""Return an ASCII-only JSON representation of a Python string

"""

def replace(match):

s = match.group(0)

try:

return ESCAPE_DCT[s]

except KeyError:

n = ord(s)

if n < 0x10000:

return '\\u{0:04x}'.format(n)

#return '\\u%04x' % (n,)

else:

# surrogate pair

n -= 0x10000

s1 = 0xd800 | ((n >> 10) & 0x3ff)

s2 = 0xdc00 | (n & 0x3ff)

return '\\u{0:04x}\\u{1:04x}'.format(s1, s2)

return '"' + ESCAPE_ASCII.sub(replace, s) + '"'

从最后的 return 可以看到它实际上是 正则替换 最后在前后添加 双引号. ESCAPE_ASCII 的定义如下:

ESCAPE_ASCII = re.compile(r'([\\"]|[^\ -~])')

其中 ([\\"] 用于匹配 \\ 和 ", 而 [^\ -~] 表示 \ -~ 取反(这里的反斜杠貌似是对空格进行转义, 我不是很理解, 不进行转义依旧可以匹配到), 在 ASCII 表里, 空格字符 对应十进制是 40, ~ 是 176, 这是所有的可打印字符, 取反就是所有编码不在 40 ~ 176 的字符, 所以中文就会被匹配到, 下面为 ASCII表:

对于匹配到的字符, 会传入回调函数 replace 做转义. replace 函数中的 ESCAPE_DCT 为:

ESCAPE_DCT = {

'\\': '\\\\',

'"': '\\"',

'\b': '\\b',

'\f': '\\f',

'\n': '\\n',

'\r': '\\r',

'\t': '\\t',

}

会对常用字符进行转义, 如果失败就获取它的 Unicode 码点, 然后判断是否为小于 0x10000 即是否为 两字节 字符(两字节最大为0xFFFF) , 如果是就格式化为 Unicode 码, 如果不是就使用 四字节 表示.

总结

记得使用 requests 发送 JSON 数据时将中文编码.

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

python最早引入json的版本_详解Python在使用JSON时需要注意的编码问题相关推荐

  1. python函数中可变参数的传递方式_详解Python函数可变参数定义及其参数传递方式...

    Python函数可变参数定义及其参数传递方式详解 python中 函数不定参数的定义形式如下 1. func(*args) 传入的参数为以元组形式存在args中,如: def func(*args): ...

  2. python中heapq的库是什么_详解Python中heapq模块的用法

    详解Python中heapq模块的用法 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  详解Python中heapq模块的用法.txt ] (友情提示:右键点上行t ...

  3. python中get函数是什么意思_详解python中get函数的用法(附代码)_后端开发

    strncmp函数用法详解_后端开发 strncmp函数为字符串比较函数,其函数语法为"int strncmp ( const char * str1, const char * str2, ...

  4. python比较两个字符串相似度_详解Python 字符串相似性的几种度量方法

    字符串的相似性比较应用场合很多,像拼写纠错.文本去重.上下文相似性等. 评价字符串相似度最常见的办法就是:把一个字符串通过插入.删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种 ...

  5. python中groupby()函数讲解与示例_详解python中groupby函数通俗易懂

    一.groupby 能做什么? python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算! 对于数据的分组和分组运算主要是指groupby函数的应用,具体函数的规则如下: df[ ...

  6. python的装饰器迭代器与生成器_详解python中的生成器、迭代器、闭包、装饰器

    迭代是访问集合元素的一种方式.迭代器是一个可以记住遍历的位置的对象.迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束.迭代器只能往前不会后退. 1|1可迭代对象 以直接作用于 for ...

  7. python中字典和json的区别_详解python中的json和字典dict

    定义 python中,json和dict非常类似,都是key-value的形式,而且json.dict也可以非常方便的通过dumps.loads互转.既然都是key-value格式,为啥还需要进行格式 ...

  8. python中ifelifelse用在什么结构_详解Python if-elif-else知识点

    有的时候,一个 if - else - 还不够用.比如,根据年龄的划分:条件1:18岁或以上:adult 条件2:6岁或以上:teenager 条件3:6岁以下:kid Python if-elif- ...

  9. python爬取网易云歌单_详解python selenium 爬取网易云音乐歌单名

    目标网站: 首先获取第一页的数据,这里关键要切换到iframe里 打印一下 获取剩下的页数,这里在点击下一页之前需要设置一个延迟,不然会报错. 结果: 一共37页,爬取完毕后关闭浏览器 完整代码: u ...

最新文章

  1. docker es持久化_使用docker数据卷对容器数据持久化
  2. 怎样在linux中创建硬盘,在linux中添加新硬盘并创建LVM组
  3. react 访问后端_react前端用nginx怎么配置跨域访问后端restful api?
  4. JDBC秒变C3P0连接池——再加连接解耦
  5. 怎么安装python2.7_python2.7环境如何安装
  6. 机器学习与数据挖掘_线性模型 II
  7. JavaScript自定义滚动条
  8. 【TWVRP】基于matlab遗传算法求解带时间窗的含充电站车辆路径规划问题【含Matlab源码 1177期】
  9. 犀牛7基本训练学习教程 Rhino 7 Essential Training
  10. 2017 ACM-ICPC 亚洲区(青岛赛区)网络赛 HDU 6206 1001 Apple(三角形外接圆圆心和半径)
  11. spss26没有典型相关性分析_SPSS执行典型相关性分析,出现下面错误,怎么回事??...
  12. 最美的十大经典爱情句子{转}
  13. Java过滤敏感词汇算法(字典树)
  14. 12 如何用网格策略网住收益?——实操篇
  15. 微信分享到朋友圈的链接没有图片。开发工具中正常没有报错-解决方案
  16. 什么是 10x 程序员?
  17. hadoop dremel Caffeine Pregel
  18. 顶级程序员常用的 14 个开源框架,YYDS!
  19. Django个人博客开发练手demo笔记
  20. 使用python识别图像中的文字

热门文章

  1. 美国政府牵头6家公司开发新一代超算 与中国竞争
  2. 【micropython】用python来进行BadUSB的USB-HID测试(含无线控制)
  3. Processing--鼠标响应(1)
  4. android中可口的吐司,一种信息提示机制——Toast
  5. linux cut 命令(转)
  6. Mybatis 关于同一条SQL语句实现批量插入和更新(SaveOrUpdate)完整版
  7. reactjs组件的生命周期
  8. js小案例:使用location.href自动跳转页面
  9. Flink流计算WordCount代码示例
  10. 【收藏】最详细的cmder配置