python爬取html中文乱码
环境:
python3.6
爬取网址:https://www.dygod.net/html/tv/hytv/
爬取代码:
import requestsurl = 'https://www.dygod.net/html/tv/hytv/'req = requests.get(url)print(req.text)
爬取结果:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<title>µçÊÓ¾ç / »ªÓïµçÊÓ¾ç_µçÓ°ÌìÌÃ-ѸÀ×µçÓ°ÏÂÔØ</title>
<meta name="keywords" content="ѸÀ×µçÓ°£¬Ñ¸À×ÏÂÔØ£¬Ãâ·ÑµçÓ°">
<meta name=description content="Ãâ·ÑѸÀ×µçÓ°ÏÂÔØ,ѸÀ×ÏÂÔØ£¬×îºÃµÄѸÀ×ÏÂÔØÕ¾£¬ÊÇÓ°ÃÔµÄÊ×Ñ¡">
<link href="/css/dygod.css" rel="stylesheet" type="text/css" />
如上,title内容出现乱码,自己感觉应该是编码的问题,但是不知道如何解决,于是上网查看
参考网址:
https://www.cnblogs.com/bw13/p/6549248.html
问题找到,原来是reqponse header只指定了type,但是没有指定编码(一般现在页面编码都直接在html页面中),查找原网页可以看到
在content-type属性中,未设置编码格式,正常设置如下
所以使用默认的编码格式
《HTTP权威指南》里第16章国际化里提到,如果HTTP响应中Content-Type字段没有指定charset,则默认页面是'ISO-8859-1'编码。
这处理英文页面当然没有问题,但是中文页面,就会有乱码了!
print(req.apparent_encoding)
结果为:GB2312
所以只需要加上
req.encoding = req.apparent_encoding
这个就可以了!
代码:
import requestsurl = 'https://www.dygod.net/html/tv/hytv/'req = requests.get(url)req.encoding = req.apparent_encodingprint(req.text)
结果中文就不会乱码了
转载于:https://www.cnblogs.com/bingchuan-study/p/11487164.html
python爬取html中文乱码相关推荐
- python爬取内容乱码_python爬取html中文乱码
环境: python3.6 爬取代码: import requests url = 'https://www.dygod.net/html/tv/hytv/' req = requests.get(u ...
- Python 爬取生成中文词云以爬取知乎用户属性为例
代码如下: # -*- coding:utf-8 -*-import requests import pandas as pd import timeimport matplotlib.pyplot ...
- python爬取小说出现乱码_详解Python解决抓取内容乱码问题(decode和encode解码)
一.乱码问题描述 经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下 原因是源网页编码和爬取下来后的编码格式不一致 二.利用encode与decode解决乱码问题 字符串在Python内部的 ...
- 爬取网页中文乱码的问题
基本知识 计算机只能处理数字,所以将一个数字对应一个符号,所以不同的数字对应不同符号的方式有不同为不同编码方式. ASCII码 :英文字符和二进制数字之间的关系.一个符号为一个字节(byte),一个字 ...
- python爬取网页有乱码怎么解决_Python爬取网页requests乱码
**之前有在裁判文书上爬取数据,这段时间重新运行爬虫后发现无法获取网页数据, 找了一下发现requests网页源码返回的是乱码** (如下截取一部分返回的数据: 不知道是不是网站对网页内容进行了加密, ...
- python爬取小说出现乱码_Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)...
从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说 ...
- python爬取 XKCD 中文站,包含多线程
前些日子发现了一个xkcd的中文站,想把它们都爬下来. URL:https://xkcd.in/ 这里先给大家欣赏一幅: (图片来自:你最喜欢 xkcd 的哪一张? - 知乎 (zhihu.com)) ...
- python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...
问 题 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import re import HTMLParser class WALLS ...
- 爬取html数据中文乱码,解决PHP中file_get_contents抓取网页中文乱码问题
根据网上有朋友介绍说原因可能是服务器开了GZIP压缩. 下面是用firebug查看我的博客的头信息,Gzip是开了的. 请求头信息原始头信息 代码如下 复制代码 Accept text/html,ap ...
最新文章
- Delphi 正则表达式语法(3): 匹配范围
- 树转化为二叉树_森林转化为二叉树(详解版)
- 1.10 System类详解
- 【分享-EasyRecovery】删除的文件找不回?不存在的!
- JDK8新特性(二)之接口新增的两个方法
- python入门100例题-这 100 道 Python 题,拿去刷!!!
- 大数据安全分析需要关注哪些问题
- 记录一下我的游戏私服搭建(台服dnf)
- mysql实现axure协同工作_AxureUX CRM及协同办公APP高保真原型模板(带移动端实用元件库)...
- python判断成语是abac型_ABAC型成语大全
- 开发中的多线程ID检测工具(ESET_VC52_MCID)
- 基于内容的图像检索系统 【多媒体系统导论大作业】
- FastDb 简单编码运用
- Python构造树结构应用到城市层级编码
- vue文件上传(单文件以及多文件)
- Qt 的反射(Reflection)应用
- PDF怎么转换成Word文档呢?不妨试试这两种方法!
- 计算机专业跨考为什么考不了,浙江大学计算机专业考研,为什么这么多跨考计算机...
- chrome控制台设置网页自动刷新
- linux查看lv逻辑卷信息,Linux学习笔记(lvm pv物理卷—VG卷组—LV逻辑卷)
热门文章
- Jenkins配置阿里企业邮箱
- mac修改终端字体样式和大小
- Mysql 密码忘了怎么办?
- 第五章 动态规划法(必做题)
- 2.SSM之Spring整合、AOP及Spring事务
- UE4-如何做一个简单的TPS角色(二)-实现角色基础移动
- CYCADA: cycle-consistent adversaial domain adaption阅读笔记
- php wordpress 代码模板,wordpress模板代码详解
- Java算法学习:蓝桥杯——地宫寻宝(DFS+动态规划—记忆型递归)
- 计算机应用基础2004版,计算机应用基础2004年上半年全国试题