python爬虫中文乱码_Python 爬虫过程中的中文乱码问题
python+mongodb
在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示
注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同
比如中文 “余年”,假设其为变量a
1. print a 结果如下:
使用type查询之后,显示的确是unicode编码(正常情况下讲unicode编码内容直接存入mongodb中是可以正常显示的)
2. print type(a) 结果如下:
3. print a.encode('utf-8') 结果如下:
然后查看a的unicode编码,是这种格式 u''\xe4\xbd\x99\xe5\xb9\xb4"
解决办法:
a = a.encode('ISO 8859-1')
这样将a的由unicode的type变成了str类型的type
然后就可以正确的保存到mongodb中了
Reference:
http://blog.csdn.net/myheadfirst/article/details/46635197
python爬虫中文乱码_Python 爬虫过程中的中文乱码问题相关推荐
- 爬虫过程中解决html乱码和获取的文本乱码问题
爬虫过程中解决html乱码和获取的文本乱码问题 response1 = requests.get(url=detail_url, headers=headers) responseText1 = re ...
- Python 爬虫中国知网论文过程中遇到的坑及解决办法
假期,老师给布置了 Python 爬虫中国知网论文的任务,目前实现了登录和搜索功能,先写一下遇到的坑和解决办法吧. Python 爬虫中国知网论文过程中遇到的坑及解决办法 一. selenium 模块 ...
- 正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码
目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...
- Java通过正则剔除乱码_正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码...
目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...
- python程序员工作怎样-python程序员怎样在面试过程中展现自己的基本功
原标题:python程序员怎样在面试过程中展现自己的基本功 当下我国人工智能招聘岗位需求不多,不过后期的发展潜力巨大,而且python程序员的薪资待遇并不比Java程序员的差,Python程序员往往都 ...
- python 利用pyinstaller 编译.exe文件过程中编写完的.exe文件执行过程中闪退
问题描述: python 利用pyinstaller 编译.exe文件过程中编写完的.exe文件执行过程中闪退,并提示no module named 'pyproj.datadir' 解决方法: 闪退 ...
- NC过程中遇到中文转拼音问题
NC过程中遇到中文转拼音问题 在对接接口时,遇到了中文要转拼音的问题,一开始还真没想明白,因为头一次遇到,经过一系列查阅,还是轻松解决了. 一.了解pinyin4j pin ...
- python爬虫面试问题_Python爬虫面试总结
## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...
- 数组乱码_python 爬虫随笔-土办法治乱码
在解析网页时,时常可以看到如下情景: 即在UTF-8编码显示下,网页文字以方块形式出现,防止直接复制. 而网页显示则正常如下: 这种情况下,我们需要的仅仅是数字,则需要找到相应的字体对应规则. 当然, ...
最新文章
- Linux那些事儿 之 戏说USB(7)不一样的core
- Developer Express控件组合中的GridControl控件,如何自动显示每一行的序号
- 使用UAA OAuth2授权服务器–客户端和资源
- js读取外部json指定字段值完整代码_前端工程化 剖析npm的包管理机制(完整版)...
- 您未被授权查看该页 您不具备使用所提供的凭据查看该目录或页的权限 HTTP 错误 401.1 - 未经授权:访问由于凭据无效被拒绝。...
- 最新PHP乐购社区源码+点卡购物系统
- PayPal支付功能实现
- 互联网行业中,哪些职位比较有前途?
- 严肃讨论:如何自给自足获取自主学习磁力种子?
- 背阔肌(05):史密斯机俯身划船
- 全国程序员【工资统计】, 你想去哪个城市工作?
- 老贾笔记--轻轻松松oracle之logmnr篇[吃顿饭的功夫学恢复误删除(delete)的数据]
- 前端中的hack是什么意思?常见的hack技术以及以及hack技术的利弊
- optifine下载_如何优化Optifine以获得流畅的Minecraft体验
- ALSA子系统(五)------XRUN排查
- 【中美技术专家分享实录】微服务的挑战
- 软件测试实验:接口测试
- 归并排序-小周的算法笔记
- mt6765原理图mt6765资料下载
- tomcat 启动总是 Unable to add the resource at
热门文章
- Oracle/PLSQL Case Statement
- 超大整数相加,超过了long的范围,你要怎么做
- 【BZOJ1597】【Tyvj2461】土地购买,第一次的斜率优化DP
- 会员编号生成规则_单据编号规则浅析
- 2017.8.10 树上染色 失败总结
- 2017.5.12 校门外的区间 思考记录
- python 3.7.732位安装步骤_Python3.7.0安装教程
- abaqus失效单元删除_Abaqus实例教学2-Failure Model
- 浏览器js 获取手机标识信息_手机软件多次要求获取手机信息,习惯性让其通过有安全隐患?...
- python35个关键字_Python关键字35个