python+mongodb

在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示

注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同

比如中文 “余年”,假设其为变量a

1. print a 结果如下:

使用type查询之后,显示的确是unicode编码(正常情况下讲unicode编码内容直接存入mongodb中是可以正常显示的)

2. print type(a) 结果如下:

3. print a.encode('utf-8') 结果如下:

然后查看a的unicode编码,是这种格式 u''\xe4\xbd\x99\xe5\xb9\xb4"

解决办法:

a = a.encode('ISO 8859-1')

这样将a的由unicode的type变成了str类型的type

然后就可以正确的保存到mongodb中了

Reference:

http://blog.csdn.net/myheadfirst/article/details/46635197

python爬虫中文乱码_Python 爬虫过程中的中文乱码问题相关推荐

  1. 爬虫过程中解决html乱码和获取的文本乱码问题

    爬虫过程中解决html乱码和获取的文本乱码问题 response1 = requests.get(url=detail_url, headers=headers) responseText1 = re ...

  2. Python 爬虫中国知网论文过程中遇到的坑及解决办法

    假期,老师给布置了 Python 爬虫中国知网论文的任务,目前实现了登录和搜索功能,先写一下遇到的坑和解决办法吧. Python 爬虫中国知网论文过程中遇到的坑及解决办法 一. selenium 模块 ...

  3. 正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码

    目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...

  4. Java通过正则剔除乱码_正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码...

    目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...

  5. python程序员工作怎样-python程序员怎样在面试过程中展现自己的基本功

    原标题:python程序员怎样在面试过程中展现自己的基本功 当下我国人工智能招聘岗位需求不多,不过后期的发展潜力巨大,而且python程序员的薪资待遇并不比Java程序员的差,Python程序员往往都 ...

  6. python 利用pyinstaller 编译.exe文件过程中编写完的.exe文件执行过程中闪退

    问题描述: python 利用pyinstaller 编译.exe文件过程中编写完的.exe文件执行过程中闪退,并提示no module named 'pyproj.datadir' 解决方法: 闪退 ...

  7. NC过程中遇到中文转拼音问题

              NC过程中遇到中文转拼音问题   在对接接口时,遇到了中文要转拼音的问题,一开始还真没想明白,因为头一次遇到,经过一系列查阅,还是轻松解决了. 一.了解pinyin4j   pin ...

  8. python爬虫面试问题_Python爬虫面试总结

    ## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...

  9. 数组乱码_python 爬虫随笔-土办法治乱码

    在解析网页时,时常可以看到如下情景: 即在UTF-8编码显示下,网页文字以方块形式出现,防止直接复制. 而网页显示则正常如下: 这种情况下,我们需要的仅仅是数字,则需要找到相应的字体对应规则. 当然, ...

最新文章

  1. Linux那些事儿 之 戏说USB(7)不一样的core
  2. Developer Express控件组合中的GridControl控件,如何自动显示每一行的序号
  3. 使用UAA OAuth2授权服务器–客户端和资源
  4. js读取外部json指定字段值完整代码_前端工程化 剖析npm的包管理机制(完整版)...
  5. 您未被授权查看该页 您不具备使用所提供的凭据查看该目录或页的权限 HTTP 错误 401.1 - 未经授权:访问由于凭据无效被拒绝。...
  6. 最新PHP乐购社区源码+点卡购物系统
  7. PayPal支付功能实现
  8. 互联网行业中,哪些职位比较有前途?
  9. 严肃讨论:如何自给自足获取自主学习磁力种子?
  10. 背阔肌(05):史密斯机俯身划船
  11. 全国程序员【工资统计】, 你想去哪个城市工作?
  12. 老贾笔记--轻轻松松oracle之logmnr篇[吃顿饭的功夫学恢复误删除(delete)的数据]
  13. 前端中的hack是什么意思?常见的hack技术以及以及hack技术的利弊
  14. optifine下载_如何优化Optifine以获得流畅的Minecraft体验
  15. ALSA子系统(五)------XRUN排查
  16. 【中美技术专家分享实录】微服务的挑战
  17. 软件测试实验:接口测试
  18. 归并排序-小周的算法笔记
  19. mt6765原理图mt6765资料下载
  20. tomcat 启动总是 Unable to add the resource at

热门文章

  1. Oracle/PLSQL Case Statement
  2. 超大整数相加,超过了long的范围,你要怎么做
  3. 【BZOJ1597】【Tyvj2461】土地购买,第一次的斜率优化DP
  4. 会员编号生成规则_单据编号规则浅析
  5. 2017.8.10 树上染色 失败总结
  6. 2017.5.12 校门外的区间 思考记录
  7. python 3.7.732位安装步骤_Python3.7.0安装教程
  8. abaqus失效单元删除_Abaqus实例教学2-Failure Model
  9. 浏览器js 获取手机标识信息_手机软件多次要求获取手机信息,习惯性让其通过有安全隐患?...
  10. python35个关键字_Python关键字35个