网页编码_Python获取网页编码(apparent

点击上方“Python日记本”

未来有大量项目实操和自动化办公，欢迎关注！

爬虫的时候，时常被编码问题困扰

可以通过打开检查，查看网页的源代码

打开head标签，能看到苹果网页是用utf-8编码格式

电影天堂的编码是gb2312

假如说，我爬取电影天堂网页的时候，没去关心它是什么编码的

就习惯写成编码'utf-8'

但因为这个网页不是用utf-8编码的，所以爬取时就会出现乱码

import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)res.encoding = 'utf-8'print(res.text)

这时候，第一时间就是想到去网页，看看这个网页是用什么标准编码的

但还有一个方法，就是可以通过res.apparent_encoding查看是用什么标准编码的

import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)print(res.apparent_encoding)

可以看到电影天堂网页，是GB2312编码的

但是，并没必要把GB2312写去encoding那

我可以把请求的编码设置为原网页的编码(留意下方代码第四行)

import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)res.encoding = res.apparent_encodingprint(res.text)

这下，就能正确显示中文了

所以这也是为什么爬虫里大多数会写

res.encoding = res.apparent_encoding

就不用考虑网页文字编码的问题了

相关阅读利用python查询文件编码自动化办公 | docx模块简要介绍请求头快速加引号和用逗号隔开

(对文章有疑问或者有建议，可以在后台加微信聊聊哦！)

网页编码_Python获取网页编码(apparent_encoding)相关推荐

python获取网页图片_Python获取网页上图片下载地址的方法
本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: #!/user/bin/python3 i ...
爬取网页时自动获取网页编码信息，并对特殊的乱码页面（压缩过的网页内容）用gzip进行解码。...
gzip的命名空间引用如下:using System.IO.Compression; 获取网页编码和信息 /// <summary> /// create time 201 ...
header python 环境信息_python获取网页header头部信息（python小白学习笔记二）
方法一:代码查看通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...
python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...
page = urllib2.urlopen(url) contents = page.read() #获得了整个网页的内容也就是源代码 print(contents) url代表网址,content ...
python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法
压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...
python requests 动态加载_Python获取网页中动态加载的数据
Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...
python编码使用ascii编码_Python中的编码问题：ASCII码 Unicoden编码 UTF-8编码
编码字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节 ...
java 获取电脑唯一编码_java获取页面编码
最近研究抓取网页内容,发现要获取页面的编码格式,Java没有现成的实现方法..只能自己写了 codeimport info.monitorenter.cpdetector.io.CodepageDet ...
获取网页源代码 python_python 获取网页源代码
import re #正则表达式模块 import urllib.request import time #时间模块 import string #字符串模块 def getHtml(url):f=u ...
如何用php获取网页表格,PHP获取网页上任意表格中内容的通用程序的制作
在工作中,经常需要对网页上的表格内容进行处理,但是,由于表格内容制作过程中的随意性,跨行跨列经常发生,所以我作了这几个函数,以获取表格的内容,程序中重要的地方已作了注解,所以在此不再重复说明,经过测试 ...

网页编码_Python获取网页编码(apparent_encoding)

网页编码_Python获取网页编码(apparent_encoding)相关推荐

最新文章

热门文章