解决爬虫中文乱码问题

今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码,我研究了半天,终于找到了解决方法。

一开始,我是这样做的:

import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
print requests.get(url).content

这样做,如果用命令行去运行,得到的内容中文显示正常,但如果用pycharm运行得到的确实乱码。

这个问题我一时半会还不知道是为什么,如果有人知道,请告诉我,谢谢!

后来,我在网上查阅资料,发现可以通过下面这种方式解决中文乱码问题:

首先,我们在浏览器中打开网址,通过查看源代码可以发现这个网址采用的编码是GBK:

然后我们通过下面这段代码发现通过requests获取的编码不是GBK,而是ISO-8859-1。

import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9'
print requests.get(url).encoding

所以打印出来的就是乱码,我们需要将编码改为GBK才可以:

import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9' r = requests.get(url) r.encoding = 'GBK' print r.text

这样做,无论你是用pycharm还是命令行去运行,得到的都是正常的中文了。

posted on 2016-12-20 01:23 Kilichko 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/Yemilice/p/6201224.html

解决爬虫中文乱码问题相关推荐

  1. Python爬虫中文乱码问题(爬虫乱码)

    在输出内容时,出现如下图的情况: 解决爬虫中文乱码的步骤 网址编码为gbk 查看网页源代码的head部分的编码: <meta http-equiv="Content-Type" ...

  2. python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题

    当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...

  3. python爬虫中文乱码解决方法

    python爬虫中文乱码解决方法 参考文章: (1)python爬虫中文乱码解决方法 (2)https://www.cnblogs.com/surecheun/p/9694052.html 备忘一下.

  4. Python 爬虫 中文乱码一文通

    如果经常使用Python编程或者是其他语言编程,或者在前面的文章中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题.中文乱码问题经常难以理解,或者治标不治本,本文就是来解决这 ...

  5. 解决putty中文乱码并远程访问linux界面功能

    1,解决putty中文乱码 打开putty主程序,选择window-〉Appearance-〉Font settings-〉Change...,选择汉字字体为宋体或楷体 在window-〉Appear ...

  6. 解决Linux中文乱码

    解决Linux中文乱码 方法一:    修改/root/.bash_profile文件,增加export LANG=zh_CN.GB18030 对于其他用户,也必须相应修改该文件 使用该方法时putt ...

  7. elasticsearch解决控制台中文乱码问题

    elasticsearch解决控制台中文乱码问题 参考文章: (1)elasticsearch解决控制台中文乱码问题 (2)https://www.cnblogs.com/chenmz1995/p/1 ...

  8. 解决flask中文乱码的问题

    解决flask中文乱码的问题 参考文章: (1)解决flask中文乱码的问题 (2)https://www.cnblogs.com/qiumingcheng/p/11792846.html (3)ht ...

  9. 解决request中文乱码问题

    解决request中文乱码问题 参考文章: (1)解决request中文乱码问题 (2)https://www.cnblogs.com/wangguoning/p/6151517.html 备忘一下.

最新文章

  1. 微酷WeiKuCMS现赠送高速开发系统软件。公司、程序猿的福音呀!
  2. Vysor_v1.6.9
  3. Centos7中yum安装jdk及配置环境变量
  4. 安卓APP_ 控件(3)—— EditText
  5. Msys2 国内源(2017.3.30)
  6. linux安装grpc占用空间大,grpc linux安装-Go语言中文社区
  7. [渝粤教育] 中国地质大学 微积分(一) 复习题 (2)
  8. python整数转字节数组_【转】Python内置函数(7)——bytearray
  9. 程序员的自我修养——读《软技能-代码之外的生存指南》笔记
  10. 关于如何学好游戏3D引擎编程的一些经验
  11. cuda对应pytorh安装
  12. python初级爬虫工程师_如何入行爬虫工程师
  13. Trendmicro Officescan 服务器迁移
  14. GB28181的协议详解
  15. ubuntu mysql卸载教程_ubuntu下安装mysql及卸载mysql详细教程/方法
  16. 贴吧云签到php源码,求助帮忙把PHP的贴吧签到代码转换到云函数下
  17. vs2013 打开失败 未能完成操作,不支持此接口
  18. ics服务启动失败的一种解决方法
  19. 讨伐Cucumber行为驱动
  20. python中if brthon环境安装包_python-模块系列

热门文章

  1. VS2015 Cordova Ionic移动开发(五)
  2. 如何对数据库中的表以及表中的字段进行重命名
  3. zedboard--zynq使用自带外设IP让ARM PS访问FPGA(八) 转载
  4. jquery 实现智能炫酷的翻页相册效果
  5. MAC配置JCO,与找不到sapjco3异常
  6. Asix下日志包冲突
  7. Apache Lens —— 统计数据分析查询接口
  8. 使用手机游戏的新闻推送
  9. java的classpath
  10. pytorch回归_PyTorch:用岭回归检查泰坦尼克号下沉