在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。

代码运行结果:

从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。

----------相关阅读----------

1900页Python系列PPT分享一:基础知识(106页)

1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)

1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)

1900页Python系列PPT分享四:字符串与正则表达式(109页)

1900页Python系列PPT分享五:函数设计与应用(134页)

1900页Python系列PPT分享六:面向对象程序设计(86页)

1900页Python系列PPT分享七:文件操作(132页)

1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)

报告PPT(163页):基于Python语言的课程群建设探讨与实践

1000道Python题库系列分享一(17道)

1000道Python题库系列分享二(48道)

1000道Python题库系列分享三(30道)

1000道Python题库系列分享四(40道)

BeautifulSoup解析库select方法实例——获取企业信息

Python批量爬取微信公众号文章中的图片

Python裸奔也疯狂:批量爬取中国工程院院士信息

Python爬虫扩展库scrapy选择器用法入门(一)

Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文

Python不使用scrapy框架而编写的网页爬虫程序

Python爬虫扩展库BeautifulSoup4用法精要

又一个学期结束了,送给在校大学生几句话

淡定!不要因为纳入了高考和二级考试甚至极个别小学课程就盲目夸大Python!

全国计算机等级考试二级Python考试大纲预测和分析

大家都在学Python,你和别人的差距在哪?

大学生们颤抖吧,中学生已经开始学Python了!

祝所有程序员1024节日快乐

学会提问,你就成功了一大半!

盘点那些让人上火的提问方式(论如何让交流更高效)

----------喜大普奔----------

1、董付国老师Python系列教材:

《Python程序设计基础》(2018年2月第6次印刷)

《Python程序设计(第2版)》(2018年2月第5次印刷)

《Python可以这样学》(2018年2月第5次印刷)(本书已被引入台湾发行繁体版)

《Python程序设计开发宝典》(2018年2月第3次印刷)

《中学生可以这样学Python》

《Python程序设计基础(第2版)》(2018年3月隆重上市)

董付国老师6本Python系列图书阅读指南

董付国老师6本Python系列教材被北大、复旦等近百所高校选作教材

热烈庆祝《Python可以这样学》在台湾发行繁体版

2、董老师120课免费视频地址: https://pan.baidu.com/s/1jJeAs8Q 密码: px59

3、董老师CSDN学院9套“Python可以这样学”收费视频课程汇总地址:https://edu.csdn.net/search?keywords=%E8%91%A3%E4%BB%98%E5%9B%BD&type=0

Python爬虫系列:判断目标网页编码的几种方法相关推荐

  1. Python爬虫系列之MeiTuan网页美食版块商家数据爬取

    Python爬虫系列之MeiTuan网页美食版块商家数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代 ...

  2. Python爬虫系列:使用selenium+Edge查询指定城市天气情况

    首先发个福利,有个网店正在推出特价优惠<Python程序设计开发宝典>,原价69.0元,特价46.92元,详情查看:https://detail.tmall.com/item.htm?id ...

  3. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  4. 「Python爬虫系列讲解」八、Selenium 技术

    本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

  5. Python爬虫系列之爬取某社区团微信小程序店铺商品数据

    Python爬虫系列之爬取某社区团微信小程序店铺商品数据 如有问题QQ请> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流,请勿用于非法用途 数据库仅用于去重使用,数据主要存 ...

  6. 「Python爬虫系列讲解」十四、基于开发者工具 Network 的数据抓包技术

    本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

  7. 「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试

    本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

  8. 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取

    本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...

  9. python爬虫系列:xpath爬取图片讲解(零基础向)

    系列文章目录 python爬虫系列:BeautifulSoup爬取小说讲解(零基础向)(版权问题下架) python爬虫系列:requests下载酷我音乐讲解(零基础向)(版权问题下架) 文章目录 目 ...

最新文章

  1. python基础之协程,列表生成式,生成器表达式
  2. 恢复SQL Server被误删除的数据(再扩展)
  3. 【AC Saber】离散化
  4. MOBIUS:百度凤巢新一代广告召回系统
  5. gsonformat插件_吐血推荐珍藏的IDEA插件
  6. [Bzoj]5343: [Ctsc2018]混合果汁
  7. ubuntu9.10下如何安装php
  8. oracle and和or的执行顺序,Oraclewhere语句中and,or,not的执行顺序
  9. RedisTemplate清空所有键值对
  10. 普通人创业做生意,送你三千万
  11. 蓝彗星(差分+前缀和)
  12. win10 安装redis 解压版
  13. 拾色器 插件 html,Unity3D 插件开发教程 #3:制作拾色器 ColorPicker
  14. python画图入门——for循环及调色盘的应用
  15. 单位换算:存储容量单位bit(比特)、Byte(字节)、KB、GB、TB;速率单位b/s,Kb/s,Mb/s,Gb/s,Tb/s
  16. 解决eclipse mars2中不能设置tomcat8.5
  17. java 时间是24小时制吗_java时间24小时制
  18. Cannot open precompiled header file: 'Debug/****.pch': No such file or directory
  19. 项目经理需要的基本技能
  20. Iass、Psss、Sass、Dass快速记忆

热门文章

  1. delphi framerect 画透明_闭上眼睛一起进入彩色画的梦境,幻彩花精灵,彩铅手绘教程...
  2. mysql case 2个返回值_MySQL函数简介 2
  3. mac操作系统如何访问共享计算机,Mac系统访问Windows共享文件的详细步骤
  4. c# string 转 datetime_tesseract || PDF转PNG转txt
  5. html怎么隐藏y方向内容,如何隐藏scroll-Y纵向滚动条,并不影响内容滚动的方法...
  6. ilm 和dlm差异_Oracle 的信息生命周期管理工具(ILM assistant)
  7. httpservletresponse 重定向浏览器不变的原因_正确区分火狐浏览器(Firefox)中国版和国际版amp;下载方法...
  8. 【Rollo的Python之路】Python 多进程 学习笔记 multiprocessing
  9. Python学习之==装饰器
  10. python 进程 线程 协程