点击上方“Python日记本

未来有大量项目实操和自动化办公,欢迎关注!

爬虫的时候,时常被编码问题困扰

可以通过打开检查,查看网页的源代码

打开head标签,能看到苹果网页是用utf-8编码格式

电影天堂的编码是gb2312

假如说,我爬取电影天堂网页的时候,没去关心它是什么编码的

就习惯写成编码'utf-8'

但因为这个网页不是用utf-8编码的,所以爬取时就会出现乱码

import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)res.encoding = 'utf-8'print(res.text)

这时候,第一时间就是想到去网页,看看这个网页是用什么标准编码的

但还有一个方法,就是可以通过res.apparent_encoding查看是用什么标准编码的

import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)print(res.apparent_encoding)

可以看到电影天堂网页,是GB2312编码的

但是,并没必要把GB2312写去encoding那

我可以把请求的编码设置为原网页的编码(留意下方代码第四行)

import requestsurl = 'https://www.dytt8.net/index.htm'res = requests.get(url)res.encoding = res.apparent_encodingprint(res.text)

这下,就能正确显示中文了

所以这也是为什么爬虫里大多数会写 

res.encoding = res.apparent_encoding

就不用考虑网页文字编码的问题了

相关阅读   利用python查询文件编码自动化办公 | docx模块简要介绍请求头快速加引号和用逗号隔开

(对文章有疑问或者有建议,可以在后台加微信聊聊哦!)

网页编码_Python获取网页编码(apparent_encoding)相关推荐

  1. python获取网页图片_Python获取网页上图片下载地址的方法

    本文实例讲述了Python获取网页上图片下载地址的方法.分享给大家供大家参考.具体如下: 这里获取网页上图片的下载地址是正在写的数据采集中的一段,代码如下: #!/user/bin/python3 i ...

  2. 爬取网页时自动获取网页编码信息,并对特殊的乱码页面(压缩过的网页内容)用gzip进行解码。...

    gzip的命名空间引用如下:using System.IO.Compression; 获取网页编码和信息 /// <summary>         /// create time 201 ...

  3. header python 环境信息_python获取网页header头部信息(python小白学习笔记二)

    方法一:代码查看 通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...

  4. python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...

    page = urllib2.urlopen(url) contents = page.read() #获得了整个网页的内容也就是源代码 print(contents) url代表网址,content ...

  5. python读取图片分辨率_python获取网页中所有图片并筛选指定分辨率的方法

    压测时,图片太少,想着下载网页中的图片,然后过滤指定分辨率,但网页中指定分辨率的图片太少了(见下) 后使用格式工厂转换图片 import urllib.request # 导入urllib模块 imp ...

  6. python requests 动态加载_Python获取网页中动态加载的数据

    Python获取网页中动态加载的数据 0.XHR 是什么? XHR是 XMLHttpRequest 对象.既Ajax功能实现所依赖的对象,在JQuery中的Ajax是对 XHR的封装. 1.查看异步加 ...

  7. python编码使用ascii编码_Python中的编码问题:ASCII码 Unicoden编码 UTF-8编码

    编码 字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节 ...

  8. java 获取电脑唯一编码_java获取页面编码

    最近研究抓取网页内容,发现要获取页面的编码格式,Java没有现成的实现方法..只能自己写了 codeimport info.monitorenter.cpdetector.io.CodepageDet ...

  9. 获取网页源代码 python_python 获取网页源代码

    import re #正则表达式模块 import urllib.request import time #时间模块 import string #字符串模块 def getHtml(url):f=u ...

  10. 如何用php获取网页表格,PHP获取网页上任意表格中内容的通用程序的制作

    在工作中,经常需要对网页上的表格内容进行处理,但是,由于表格内容制作过程中的随意性,跨行跨列经常发生,所以我作了这几个函数,以获取表格的内容,程序中重要的地方已作了注解,所以在此不再重复说明,经过测试 ...

最新文章

  1. xheditor的使用方法
  2. .Net NPOI 根据excel模板导出excel、直接生成excel
  3. 为什么大家都在抵制用定时任务实现「关闭超时订单」功能?
  4. 重写FileUpload控件让它可以显示上传后的文件名
  5. 设计递归算法,删除不带头结点的单链表L中所有值为X的结点
  6. SQL server2008 安装教程
  7. Python电子书教程汇总
  8. Android 讯飞语音合成、语音播报(详细步骤+源码)
  9. LeetCode-121. 买卖股票的最佳时机(java)
  10. BlowFish算法Java实现
  11. 幽默故事:1、小帅哥应聘;2、不交作业(木子家原创)
  12. hdu1877 又一版 A+B (栈)
  13. 网络安全绝地求生-面试题
  14. 安卓App生成签名证书,uniapp生成自有证书打包
  15. 关于我写了三万字博客后悔了好久这件事之第二个三万字GUI(swing)
  16. check the manual that corresponds to your MySQL server version for the right syntax to use near
  17. PageRank算法(二)
  18. C++设置音量合成器应用音量
  19. windowd 10 2016 LTS 激活方法
  20. mq消费者组_「架构师MQ进阶」RocketMQ源码分析(四)- 源代码包结构分析

热门文章

  1. hdu 1249 三角形 (递推)
  2. Net设计模式实例之享元模式( Flyweight Pattern)(1)
  3. 越南山寨QQ,我今天才知道,太山寨了!
  4. ubuntu 安装及相关软件安装(1)
  5. Android5.0 CheckBox颜色修改
  6. [译] 学习 Spring Security(四):使用邮箱激活新账户
  7. 阿里云2017财年:营收66.63亿 同比增长121%
  8. #HTTP协议学习# (六)代理
  9. nodejs通过later实现定时执行任务
  10. linux下NIS搭建(六)