# tested under python3.4

def convert(s):

s = s.strip('') # 把'长'变成'957f'

s = bytes(r'\u' + s, 'ascii') # 把'957f'转换成b'\\u957f'

return s.decode('unicode_escape') # 调用bytes对象的decode,encoding用unicode_escape,把b'\\u957f'从unicode转义编码解码成unicode的'长'。具体参见codecs的文档

print(convert('长')) # => '长'

全篇替换

import re

print(re.sub(r'....;',

lambda match: convert(match.group()),

ss))

全文替换后的结果:

学科主题:长篇小说-中国-当代

中图法分类号:
I247.5
提要文摘附注:
小说中的主人公,正是因为当年盗墓的爷爷人赘杭州而身在杭州,开了一家小的古董铺子,守护着那群长沙土夫子从古墓不知名怪物捭中拼命抢出的战国帛书……

# for python2.7

def convert(s):

return ''.join([r'\u', s.strip('')]).decode('unicode_escape')

ss = unicode(ss, 'gbk') # convert gbk-encoded byte-string ss to unicode string

import re

print re.sub(r'....;', lambda match: convert(match.group()), ss)

python爬虫编码转换_Python 爬虫遇到形如 小说 的编码如何转换为中文? - SegmentFault 思否...相关推荐

  1. python程序执行完后重头开始做烧饼_下塘烧饼 的动态 - SegmentFault 思否

    一.背景 java8的垃圾回收器一般推荐的是parNew+CMS,分别针对新生代和老年代的垃圾回收器.实际生产上,有时需要分析GC日志,检查GC回收有没有引起过多的系统暂停,特别是full GC. 二 ...

  2. python爬虫post请求_Python爬虫之GET和POST请求

    爬虫--GET请求和POST请求 urllib.parse.urlencode()和urllib.parse.unquote() 编码工作使用urllib.parse的urlencode()函数,帮我 ...

  3. python unicode码转换_python实现unicode转中文及转换默认编码的方法

    本文实例讲述了python实现unicode转中文及转换默认编码的方法.分享给大家供大家参考,具体如下: 一.在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77e ...

  4. python urllib post请求_python爬虫(五)_urllib2:Get请求和Post请求

    本篇将介绍urllib2的Get和Post方法,更多内容请参考:python学习指南 urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urll ...

  5. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  6. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  7. python爬虫酷狗_python爬虫教程:爬取酷狗音乐,零基础小白也能爬取哦

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:python学习教程 ( 想要学习Python?Pyt ...

  8. python爬虫东方财富网_Python爬虫入门:以东方财富网为例

    网络爬虫(Web Spider),根据网页地址爬取网页内容,从而获取各类数据,实现多种多样的功能.下面就以爬取东方财富网的数据为例,谈谈最简单的爬虫的实现.爬虫的核心有三个:请求.解析.存储. 环境配 ...

  9. python爬虫文献综述_Python爬虫入门(1):综述

    首先爬虫是什么?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫, ...

最新文章

  1. oneinstack
  2. 机器视觉:图像与视频朝向检测
  3. CssSelector之selenium元素定位
  4. java for循环和数组--冒泡排序、二分查找法
  5. boost::sort模块实现spreadsort 键和数据排序示例
  6. 春运首日武警广东总队护航
  7. 虚拟机Linux图形界面配置NAT-桥接
  8. js立即执行函数_《JS 函数的执行时机》
  9. react同步请求_React中setState同步更新策略
  10. 听说你想当黑客,我只能帮你到这了
  11. 利用python实现词频统计
  12. UE4特效系列笔记①
  13. SSD和FTL概述:SSD主控维护FTL
  14. 小米5 android7.1 root,小米MIUI 7 ROOT工具(supersu root) V5.1 最新安卓版
  15. word表格删除空白行java_Java批量删除Word中的空白段落
  16. 安装 emoji 字体
  17. 三种数据结构总结(party_bid_core)
  18. 读书和不读书的人,最大的区别是什么?--林语堂
  19. 判断两个区间有无交集
  20. 打印机无法打印,配置端口显示错误?

热门文章

  1. Python中的错误处理
  2. 淮安掼蛋源码之--选牌与出牌
  3. VC++中的ADO宏
  4. 解析Windows 2000/XP进程工作集
  5. VC实现动画应用两则
  6. Python3基本数据类型快速入门
  7. 经典面试题(11):关于变量提升,以下代码将输出什么?
  8. 嵌入式开发板03---看门狗、编写启动代码
  9. Nat Genet | 杨俊/岳峰团队合作揭示GATA3的遗传性非编码变异增加儿童急性淋巴细胞白血病风险的新机制...
  10. 使用ssh公钥实现ssh免密码登录