python的string与Unicode转换,gbk字符串编码
问题一
字串前面少了u
。
当遇见以下情况。
返回字符串为’\u82f9\u679c’的unicode时候。
str1 = '\u82f9\u679c' # 这里没有u,当传入参数不是unicode的时候
print str1 # 结果是 : \u82f9\u679c
print u'\u82f9\u679c' # 结果是 : 苹果
解决方法:加上u
str1 = '\u82f9\u679c'
uni_result = str1.decode("unicode-escape")
print uni_result
# 结果是 : 苹果
问题二
字串前面多了u
。
aa.text的结果如下
In[190]: aa.text
Out[190]: u'\xe4\xb8\x8a\xe6\xb5\xb7A\xe8\x82\xa1'
In[191]: print aa.text
Out[191]: 上海A股
In[192]: print '\xe4\xb8\x8a\xe6\xb5\xb7A\xe8\x82\xa1'
Out[192]: 上海A股
使用utf-8编码时候,出问题。打印结果不对
In[191]: aa.text.encode('utf-8')
Out[191]: '\xc3\xa4\xc2\xb8\xc2\x8a\xc3\xa6\xc2\xb5\xc2\xb7A\xc3\xa8\xc2\x82\xc2\xa1'
In[192]: print aa.text.encode('utf-8')
上海A股
解决方案:去掉u
In[193]: aa.text.encode('raw_unicode_escape')
Out[193]: '\xe4\xb8\x8a\xe6\xb5\xb7A\xe8\x82\xa1'
In[194]: print aa.text.encode('raw_unicode_escape')
上海A股
或者使用
bb = eval(repr(aa.text).lstrip('u'))
print bb
上海A股
问题三
gbk的decode问题
gbk的编码有时候在是%C2%FA99%BC%F55
这种格式,需要将之转化为python里面的\xc2\xfa99\xbc\xf55
这种格式。
gbk的编码如下,(中文:满99减5):
tmp_a = r'%C2%FA99%BC%F55'
tmp_a = '%C2%FA99%BC%F55'
而在python中,编码应该如下:
\xc2\xfa99\xbc\xf55
可以看出差异为,需要将%
替换为\x
。使用如下函数:
def transGbk2Unicode(str_v):str_s = str_v.replace(r'%', r'\x')res = eval(repr(str_s).replace('\\\\', '\\'))return res.decode('gb2312')tmp_a = r'%C2%FA99%BC%F55'
tmp_a = '%C2%FA99%BC%F55'
m = transGbk2Unicode(tmp_a)
print m
python的string与Unicode转换,gbk字符串编码相关推荐
- 【JAVA编码】 JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换
http://blog.csdn.net/qinysong/article/details/1179489 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记 ...
- php 字符串编码方式转换,PHP 字符串编码的转换
GBK 和 UTF-8 编码的转换是一个非常恶心的事情,比如像 PHP 中的 json_encode 本身根本不支持 GBK 形式的编码.有两个库函数能够支持编码的转换,通常能够想到的就是 iconv ...
- python 字符串unicode编码_python的string与Unicode转换,gbk字符串编码
问题一 字串前面少了u. 当遇见以下情况. 返回字符串为'\u82f9\u679c'的unicode时候. str1 = '\u82f9\u679c' # 这里没有u,当传入参数不是unicode的时 ...
- 乱码问题引申 python 中string和unicode
HtmlTestRunner的乱码问题 1生成的报告中,对print打印的数据都记录下来,但是数据有些会存在乱码.如下面.有些又没有乱码. 这到底是怎么回事呢? str=t.encode('utf-8 ...
- python时间戳转换字符串_在Python中如何将时间戳转换成字符串
我对以下代码有问题.我得到一个错误"strTime()参数1必须是str,而不是Timestamp" 我想我应该做的是把日期从时间戳转换成字符串,但我不知道该怎么做.在class ...
- java 默认字符集 iso_第二篇:JAVA字符编码系列二:Unicode,ISO-8859-1,GBK,UTF-8编码及......
1.函数介绍 在Java中,字符串用统一的Unicode编码,每个字符占用两个字节,与编码有关的两个主要函数为: 1)将字符串用指定的编码集合解析成字节数组,完成Unicode-〉charsetNam ...
- 关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换
出处: https://www.cnblogs.com/haimishasha/p/6117968.html 目录 1.1. ISO-8859-1 通常叫做Latin-1 1.2. GB2312/GB ...
- 微课|中学生可以这样学Python(例5.10):字符串编码与加密
适用教材: 董付国,应根球.<中学生可以这样学Python>.清华大学出版社,2017. 第5章 Python序列及应用 5.5.6 精彩例题分析与解答 例5-10 使用字符串编码实 ...
- python实现中文和unicode转换
什么是Unicode? Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每 ...
- python中string数据库_python – 将字节字符串保存到数据库中的v...
以下是元组的内容: ('g\xba\xfc\x995m\x9a\xf0\x1d\x8b4f1\x05\xdel\xc8;\x10\xffl\xfd{\xc7MA!\x90\xe5N \xf9\x98\ ...
最新文章
- C语言中 sscanf 的用法
- css3整理--border-radius
- 试图用Session Administration删除某用户的session时报错
- 完了!CPU 一味求快出事儿了!| 原力计划
- 达摩院成立XG实验室!阿里官宣进军5G
- 想做影视“化妆师”,首先要知道影视后期调色的8个基本步骤!
- TOGAF 10 正式发布
- python图片验证码解决方案
- 双向循环链表解决约瑟夫问题
- python的十句名言_程序员的二十句励志名言,看看你最喜欢哪句?
- 微服务项目:尚融宝(38)(核心业务流程:申请借款额度(2))
- 今天过了淘宝商城的考试,嘿做点好事,公布些答案
- HTML常用颜色RGB值
- PARSEC使用与下载
- 19个GIS相关地理信息数据
- 安装Microsoft Visual Studio Installer Projects 2022
- github 遇到的问题
- 教育机构布局短视频,解决获客成本高问题
- android java 最新判断手机号码 包含虚拟号
- 数理逻辑蕴含_数理逻辑为什么犯傻?
热门文章
- 文字时钟罗盘动态html代码_文字时钟罗盘动态html代码工具-文字时钟APP最新版下载-游戏窝...
- 爬取CSDN博客文章,统计文章历史数据
- 微信小程序 java社区团购系统springboot
- windows下安装linux环境
- Unity3D 性能优化
- java poi读取word内容
- Mentor Expedition(EE)如何给我们的PCB铺铜?
- 幼儿园观察记录的目的和目标_幼儿园观察记录应该怎么写?
- Linux密码忘了怎么办!
- android 高德地图简书,Android高德之旅(4)我的位置