在输出内容时,出现如下图的情况:

解决爬虫中文乱码的步骤 网址编码为gbk

  1. 查看网页源代码的head部分的编码:
    <meta http-equiv="Content-Type" content="text/html; charset=gb2312">,发现网页编码为gbk类型
  2. 利用requests库的方法查看默认输出的编码类型
import requestsurl = 'https://chengdu.chashebao.com/yanglao/19077.html'response = requests.get(url)
print(response.encoding)

输出结果为编码ISO-8859-1,并不是原网页的编码类型。

    3. 利用requests库改变输出结果的编码

import requestsurl = 'https://chengdu.chashebao.com/yanglao/19077.html'response = requests.get(url)
response.encoding = 'gbk'
print(response.encoding)

输出结果为编码gbk,与原网页保持一致。

基于以上三个步骤,即可解决爬虫中文乱码问题。

代码

import requestsdef get_html(url):try:response = requests.get(url)response.encoding = 'gbk'  # 改变编码print(response.encoding)html = response.textreturn htmlexcept:print('请求网址出错')url = 'https://chengdu.chashebao.com/yanglao/19077.html'
html = get_html(url)
print(html)

效果展示如下图所示:

解决爬虫中文乱码的步骤 网址编码为utf-8

对于有些网页编码为utf-8的网址,输出事发现中文为乱码,此时我们需要进行两次重编码。

response = requests.get(url, headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'

解决爬虫中文乱码的步骤 网址编码为gb2312

response.encoding = 'GBK'

Python爬虫中文乱码问题(爬虫乱码)相关推荐

  1. 在VS2017中用c#编写程序执行python遇到中文不能处理出现乱码的情况

    最近在做在.NET平台调用python文件. 使用的工具为IronPython,VS2017 使用的语言为C#,python(2.7) 怎么使用请看这里 这篇文章主要是说下遇到的处理中文字符时出现乱码 ...

  2. 永久解决python matplotlib 中文字体的显示乱码-Windows系统

    在python中使用matplotlib绘图时,新手通常会遇到中文字体无法显示或显示乱码的问题,这是因为matplotlib中默认没有中文字体.windows系统下的永久解决方法如下: 1.确定当前p ...

  3. python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题

    当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...

  4. python爬虫中文乱码解决方法

    python爬虫中文乱码解决方法 参考文章: (1)python爬虫中文乱码解决方法 (2)https://www.cnblogs.com/surecheun/p/9694052.html 备忘一下.

  5. 盘点3种Python爬虫 中文乱码 的处理方法

    人生苦短,快学Python! 给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助. 前言 前几天有个粉丝在Python交流群里问了一道关于使用Python网络爬虫过程中中文乱码的 ...

  6. Python 爬虫 中文乱码一文通

    如果经常使用Python编程或者是其他语言编程,或者在前面的文章中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题.中文乱码问题经常难以理解,或者治标不治本,本文就是来解决这 ...

  7. 解决爬虫中文乱码问题

    解决爬虫中文乱码问题 今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码,我研究了半天,终于找到了解决方法. 一开始,我是这样做的: import requestsurl = 'http://s ...

  8. node.js 爬虫中文乱码 处理

    爬虫中文乱码可做如下处理 import request from 'superagent'; import cheerio from 'cheerio';//类似jquery写法 const Icon ...

  9. python爬虫的数据如何解决乱码_写爬虫时如何解决网页乱码问题

    实战讲解,文章较长,对爬虫比较熟悉的浏览翻看章节 2.3 获取新闻文本内容. 写爬虫时经常对网址发起请求,结果返回的html数据除了标签能看懂,其他的全部是乱码.大家如果对爬虫感兴趣,请耐心阅读本文, ...

最新文章

  1. 2016设置方框的尺寸_四种模板脚手架分类、优缺点及参数设置对比
  2. 解放程序员双手之Supervisor
  3. 《安卓开发必知的50个技巧》读书笔记
  4. javafx 值对_我今天对JavaFX的了解
  5. 2006中国最令人失望的十所大学
  6. SQL Server 通过备份文件初始化复制
  7. 【转】sql语句优化工具LECCO SQL Expert
  8. centos6.5 安装mysql5.6_centos6.5 安装mysql5.6
  9. Struts2拦截器实现异常处理
  10. Pycharm破解(学习python的day01)
  11. matlab 对数回归,[线性模型] 对数几率回归(Logistic Regression)
  12. 基于C语言设计的唐诗三百首
  13. 塞班系统是如何没落的
  14. oracle判断除数为零,Oracle decode函数 除数为零
  15. 90%程序员是这样写注释的...网友:精辟
  16. 前端工程师之华为手机如何打开开发者模式并进行手机调试查看原生APP效果。
  17. 【早期笔记】java 开发环境搭建
  18. 最清晰易懂的Elasticsearch操作手册|收藏夹必备
  19. 图片转文字怎么转换?分享你个简单的方法
  20. 3DMAX、C4D、Maya导出fbx到Unity设置

热门文章

  1. 怎样挑选最健康的酸奶?
  2. 使用R语言的正确姿势,R包干货奉献
  3. R语言学习 - 图形设置中英字体
  4. Manuscript match— 找到最适合你文章的那个ta(之期刊杂志)
  5. P2911 [USACO08OCT]Bovine Bones G (python3实现)
  6. 招聘APP如何搭建信用体系以避免求职者被骗
  7. 如何确认自己的电脑是否可以更新到win11
  8. ERP(进纯销)系统如何开发,各类型系统都应该怎么做?
  9. php mssql_init,Php Mssql操作简单封装支持存储过程
  10. IM即时通讯结合mui 环信