网页编码_Python获取网页编码(apparent_encoding)
点击上方“Python日记本”
未来有大量项目实操和自动化办公,欢迎关注!
爬虫的时候,时常被编码问题困扰
可以通过打开检查,查看网页的源代码
打开head标签,能看到苹果网页是用utf-8编码格式
电影天堂的编码是gb2312
假如说,我爬取电影天堂网页的时候,没去关心它是什么编码的
就习惯写成编码'utf-8'
但因为这个网页不是用utf-8编码的,所以爬取时就会出现乱码
import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)res.encoding = 'utf-8'print(res.text)
这时候,第一时间就是想到去网页,看看这个网页是用什么标准编码的
但还有一个方法,就是可以通过res.apparent_encoding查看是用什么标准编码的
import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)print(res.apparent_encoding)
可以看到电影天堂网页,是GB2312编码的
但是,并没必要把GB2312写去encoding那
我可以把请求的编码设置为原网页的编码(留意下方代码第四行)
import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)res.encoding = res.apparent_encodingprint(res.text)
这下,就能正确显示中文了
所以这也是为什么爬虫里大多数会写
res.encoding = res.apparent_encoding
就不用考虑网页文字编码的问题了
相关阅读 利用python查询文件编码自动化办公 | docx模块简要介绍请求头快速加引号和用逗号隔开
(对文章有疑问或者有建议,可以在后台加微信聊聊哦!)
网页编码_Python获取网页编码(apparent_encoding)相关推荐
- python获取网页图片_Python获取网页上图片下载地址的方法
本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: #!/user/bin/python3 i ...
- 爬取网页时自动获取网页编码信息,并对特殊的乱码页面(压缩过的网页内容)用gzip进行解码。...
gzip的命名空间引用如下:using System.IO.Compression; 获取网页编码和信息 /// <summary> /// create time 201 ...
- header python 环境信息_python获取网页header头部信息(python小白学习笔记二)
方法一:代码查看 通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...
- python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...
page = urllib2.urlopen(url) contents = page.read() #获得了整个网页的内容也就是源代码 print(contents) url代表网址,content ...
- python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法
压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...
- python requests 动态加载_Python获取网页中动态加载的数据
Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...
- python编码使用ascii编码_Python中的编码问题:ASCII码 Unicoden编码 UTF-8编码
编码 字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节 ...
- java 获取电脑唯一编码_java获取页面编码
最近研究抓取网页内容,发现要获取页面的编码格式,Java没有现成的实现方法..只能自己写了 codeimport info.monitorenter.cpdetector.io.CodepageDet ...
- 获取网页源代码 python_python 获取网页源代码
import re #正则表达式模块 import urllib.request import time #时间模块 import string #字符串模块 def getHtml(url):f=u ...
- 如何用php获取网页表格,PHP获取网页上任意表格中内容的通用程序的制作
在工作中,经常需要对网页上的表格内容进行处理,但是,由于表格内容制作过程中的随意性,跨行跨列经常发生,所以我作了这几个函数,以获取表格的内容,程序中重要的地方已作了注解,所以在此不再重复说明,经过测试 ...
最新文章
- xheditor的使用方法
- .Net NPOI 根据excel模板导出excel、直接生成excel
- 为什么大家都在抵制用定时任务实现「关闭超时订单」功能?
- 重写FileUpload控件让它可以显示上传后的文件名
- 设计递归算法,删除不带头结点的单链表L中所有值为X的结点
- SQL server2008 安装教程
- Python电子书教程汇总
- Android 讯飞语音合成、语音播报(详细步骤+源码)
- LeetCode-121. 买卖股票的最佳时机(java)
- BlowFish算法Java实现
- 幽默故事:1、小帅哥应聘;2、不交作业(木子家原创)
- hdu1877 又一版 A+B (栈)
- 网络安全绝地求生-面试题
- 安卓App生成签名证书,uniapp生成自有证书打包
- 关于我写了三万字博客后悔了好久这件事之第二个三万字GUI(swing)
- check the manual that corresponds to your MySQL server version for the right syntax to use near
- PageRank算法(二)
- C++设置音量合成器应用音量
- windowd 10 2016 LTS 激活方法
- mq消费者组_「架构师MQ进阶」RocketMQ源码分析(四)- 源代码包结构分析
热门文章
- hdu 1249 三角形 (递推)
- Net设计模式实例之享元模式( Flyweight Pattern)(1)
- 越南山寨QQ,我今天才知道,太山寨了!
- ubuntu 安装及相关软件安装(1)
- Android5.0 CheckBox颜色修改
- [译] 学习 Spring Security(四):使用邮箱激活新账户
- 阿里云2017财年:营收66.63亿 同比增长121%
- #HTTP协议学习# (六)代理
- nodejs通过later实现定时执行任务
- linux下NIS搭建(六)