解决爬虫中文乱码问题
今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码,我研究了半天,终于找到了解决方法。
一开始,我是这样做的:
import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9' print requests.get(url).content
这样做,如果用命令行去运行,得到的内容中文显示正常,但如果用pycharm运行得到的确实乱码。
这个问题我一时半会还不知道是为什么,如果有人知道,请告诉我,谢谢!
后来,我在网上查阅资料,发现可以通过下面这种方式解决中文乱码问题:
首先,我们在浏览器中打开网址,通过查看源代码可以发现这个网址采用的编码是GBK:
然后我们通过下面这段代码发现通过requests获取的编码不是GBK,而是ISO-8859-1。
import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9' print requests.get(url).encoding
所以打印出来的就是乱码,我们需要将编码改为GBK才可以:
import requestsurl = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=090200%2C00&funtype=0000&industrytype=00&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9' r = requests.get(url) r.encoding = 'GBK' print r.text
这样做,无论你是用pycharm还是命令行去运行,得到的都是正常的中文了。
转载于:https://www.cnblogs.com/Yemilice/p/6201224.html
解决爬虫中文乱码问题相关推荐
- Python爬虫中文乱码问题(爬虫乱码)
在输出内容时,出现如下图的情况: 解决爬虫中文乱码的步骤 网址编码为gbk 查看网页源代码的head部分的编码: <meta http-equiv="Content-Type" ...
- python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题
当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...
- python爬虫中文乱码解决方法
python爬虫中文乱码解决方法 参考文章: (1)python爬虫中文乱码解决方法 (2)https://www.cnblogs.com/surecheun/p/9694052.html 备忘一下.
- Python 爬虫 中文乱码一文通
如果经常使用Python编程或者是其他语言编程,或者在前面的文章中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题.中文乱码问题经常难以理解,或者治标不治本,本文就是来解决这 ...
- 解决putty中文乱码并远程访问linux界面功能
1,解决putty中文乱码 打开putty主程序,选择window-〉Appearance-〉Font settings-〉Change...,选择汉字字体为宋体或楷体 在window-〉Appear ...
- 解决Linux中文乱码
解决Linux中文乱码 方法一: 修改/root/.bash_profile文件,增加export LANG=zh_CN.GB18030 对于其他用户,也必须相应修改该文件 使用该方法时putt ...
- elasticsearch解决控制台中文乱码问题
elasticsearch解决控制台中文乱码问题 参考文章: (1)elasticsearch解决控制台中文乱码问题 (2)https://www.cnblogs.com/chenmz1995/p/1 ...
- 解决flask中文乱码的问题
解决flask中文乱码的问题 参考文章: (1)解决flask中文乱码的问题 (2)https://www.cnblogs.com/qiumingcheng/p/11792846.html (3)ht ...
- 解决request中文乱码问题
解决request中文乱码问题 参考文章: (1)解决request中文乱码问题 (2)https://www.cnblogs.com/wangguoning/p/6151517.html 备忘一下.
最新文章
- 微酷WeiKuCMS现赠送高速开发系统软件。公司、程序猿的福音呀!
- Vysor_v1.6.9
- Centos7中yum安装jdk及配置环境变量
- 安卓APP_ 控件(3)—— EditText
- Msys2 国内源(2017.3.30)
- linux安装grpc占用空间大,grpc linux安装-Go语言中文社区
- [渝粤教育] 中国地质大学 微积分(一) 复习题 (2)
- python整数转字节数组_【转】Python内置函数(7)——bytearray
- 程序员的自我修养——读《软技能-代码之外的生存指南》笔记
- 关于如何学好游戏3D引擎编程的一些经验
- cuda对应pytorh安装
- python初级爬虫工程师_如何入行爬虫工程师
- Trendmicro Officescan 服务器迁移
- GB28181的协议详解
- ubuntu mysql卸载教程_ubuntu下安装mysql及卸载mysql详细教程/方法
- 贴吧云签到php源码,求助帮忙把PHP的贴吧签到代码转换到云函数下
- vs2013 打开失败 未能完成操作,不支持此接口
- ics服务启动失败的一种解决方法
- 讨伐Cucumber行为驱动
- python中if brthon环境安装包_python-模块系列