环境:

python3.6

爬取网址:https://www.dygod.net/html/tv/hytv/

爬取代码:

import requestsurl = 'https://www.dygod.net/html/tv/hytv/'req = requests.get(url)print(req.text)

爬取结果:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<title>µçÊÓ¾ç / »ªÓïµçÊÓ¾ç_µçÓ°ÌìÌÃ-ѸÀ×µçÓ°ÏÂÔØ</title>
<meta name="keywords" content="ѸÀ×µçÓ°£¬Ñ¸À×ÏÂÔØ£¬Ãâ·ÑµçÓ°">
<meta name=description content="Ãâ·ÑѸÀ×µçÓ°ÏÂÔØ,ѸÀ×ÏÂÔØ£¬×îºÃµÄѸÀ×ÏÂÔØÕ¾£¬ÊÇÓ°ÃÔµÄÊ×Ñ¡">
<link href="/css/dygod.css" rel="stylesheet" type="text/css" />

如上,title内容出现乱码,自己感觉应该是编码的问题,但是不知道如何解决,于是上网查看

参考网址:

https://www.cnblogs.com/bw13/p/6549248.html

问题找到,原来是reqponse header只指定了type,但是没有指定编码(一般现在页面编码都直接在html页面中),查找原网页可以看到

在content-type属性中,未设置编码格式,正常设置如下

所以使用默认的编码格式

《HTTP权威指南》里第16章国际化里提到,如果HTTP响应中Content-Type字段没有指定charset,则默认页面是'ISO-8859-1'编码。

这处理英文页面当然没有问题,但是中文页面,就会有乱码了!

print(req.apparent_encoding)

结果为:GB2312

所以只需要加上

req.encoding = req.apparent_encoding

这个就可以了!

代码:

import requestsurl = 'https://www.dygod.net/html/tv/hytv/'req = requests.get(url)req.encoding = req.apparent_encodingprint(req.text)

结果中文就不会乱码了

转载于:https://www.cnblogs.com/bingchuan-study/p/11487164.html

python爬取html中文乱码相关推荐

  1. python爬取内容乱码_python爬取html中文乱码

    环境: python3.6 爬取代码: import requests url = 'https://www.dygod.net/html/tv/hytv/' req = requests.get(u ...

  2. Python 爬取生成中文词云以爬取知乎用户属性为例

    代码如下: # -*- coding:utf-8 -*-import requests import pandas as pd import timeimport matplotlib.pyplot ...

  3. python爬取小说出现乱码_详解Python解决抓取内容乱码问题(decode和encode解码)

    一.乱码问题描述 经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下 原因是源网页编码和爬取下来后的编码格式不一致 二.利用encode与decode解决乱码问题 字符串在Python内部的 ...

  4. 爬取网页中文乱码的问题

    基本知识 计算机只能处理数字,所以将一个数字对应一个符号,所以不同的数字对应不同符号的方式有不同为不同编码方式. ASCII码 :英文字符和二进制数字之间的关系.一个符号为一个字节(byte),一个字 ...

  5. python爬取网页有乱码怎么解决_Python爬取网页requests乱码

    **之前有在裁判文书上爬取数据,这段时间重新运行爬虫后发现无法获取网页数据, 找了一下发现requests网页源码返回的是乱码** (如下截取一部分返回的数据: 不知道是不是网站对网页内容进行了加密, ...

  6. python爬取小说出现乱码_Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)...

    从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说 ...

  7. python爬取 XKCD 中文站,包含多线程

    前些日子发现了一个xkcd的中文站,想把它们都爬下来. URL:https://xkcd.in/ 这里先给大家欣赏一幅: (图片来自:你最喜欢 xkcd 的哪一张? - 知乎 (zhihu.com)) ...

  8. python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...

    问 题 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import re import HTMLParser class WALLS ...

  9. 爬取html数据中文乱码,解决PHP中file_get_contents抓取网页中文乱码问题

    根据网上有朋友介绍说原因可能是服务器开了GZIP压缩. 下面是用firebug查看我的博客的头信息,Gzip是开了的. 请求头信息原始头信息 代码如下 复制代码 Accept text/html,ap ...

最新文章

  1. Delphi 正则表达式语法(3): 匹配范围
  2. 树转化为二叉树_森林转化为二叉树(详解版)
  3. 1.10 System类详解
  4. 【分享-EasyRecovery】删除的文件找不回?不存在的!
  5. JDK8新特性(二)之接口新增的两个方法
  6. python入门100例题-这 100 道 Python 题,拿去刷!!!
  7. 大数据安全分析需要关注哪些问题
  8. 记录一下我的游戏私服搭建(台服dnf)
  9. mysql实现axure协同工作_AxureUX CRM及协同办公APP高保真原型模板(带移动端实用元件库)...
  10. python判断成语是abac型_ABAC型成语大全
  11. 开发中的多线程ID检测工具(ESET_VC52_MCID)
  12. 基于内容的图像检索系统 【多媒体系统导论大作业】
  13. FastDb 简单编码运用
  14. Python构造树结构应用到城市层级编码
  15. vue文件上传(单文件以及多文件)
  16. Qt 的反射(Reflection)应用
  17. PDF怎么转换成Word文档呢?不妨试试这两种方法!
  18. 计算机专业跨考为什么考不了,浙江大学计算机专业考研,为什么这么多跨考计算机...
  19. chrome控制台设置网页自动刷新
  20. linux查看lv逻辑卷信息,Linux学习笔记(lvm pv物理卷—VG卷组—LV逻辑卷)

热门文章

  1. Jenkins配置阿里企业邮箱
  2. mac修改终端字体样式和大小
  3. Mysql 密码忘了怎么办?
  4. 第五章 动态规划法(必做题)
  5. 2.SSM之Spring整合、AOP及Spring事务
  6. UE4-如何做一个简单的TPS角色(二)-实现角色基础移动
  7. CYCADA: cycle-consistent adversaial domain adaption阅读笔记
  8. php wordpress 代码模板,wordpress模板代码详解
  9. Java算法学习:蓝桥杯——地宫寻宝(DFS+动态规划—记忆型递归)
  10. 计算机应用基础2004版,计算机应用基础2004年上半年全国试题