【Python3网络爬虫开发实战】3.1-使用urllib
【摘要】在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。
首先,了解一下urllib库,它是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。它包含如下4个模块。
request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。
error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。
parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。
robotparser:主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬,它其实用得比较少。
这里重点讲解一下前3个模块。
【快速入口】:3.1.1-发送请求
【快速入口】:3.1.2处理异常
【快速入口】:3.1.3解析链接
来源:华为云社区 作者:崔庆才丨静觅
【Python3网络爬虫开发实战】3.1-使用urllib相关推荐
- [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...
- 【Python3网络爬虫开发实战】3-基本库的使用 1.2-处理异常
前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的. urllib的error模块定义 ...
- 《Python3网络爬虫开发实战(第二版)》上市了!!!!
" 阅读本文大概需要 5 分钟. " 告诉大家一个好消息:我的好朋友崔庆才老师的<Python3网络爬虫开发实战(第二版)>现在正式上市了!!!! 没错,就是这本: 就 ...
- python3网络爬虫代码_《Python3网络爬虫开发实战代码》
<Python3网络爬虫开发实战代码>\appium\.git\COMMIT_EDITMSG, 7 , 2017-08-15 <Python3网络爬虫开发实战代码>\appiu ...
- 【Python3网络爬虫开发实战】4-解析库的使用-3 使用pyquery
在上一节中,我们介绍了Beautiful Soup的用法,它是一个非常强大的网页解析库,你是否觉得它的一些方法用起来有点不适应?有没有觉得它的CSS选择器的功能没有那么强大? 如果你对Web有所涉及, ...
- 【Python3网络爬虫开发实战】 1.7-App爬取相关库的安装
[摘要] 除了Web网页,爬虫也可以抓取App的数据.App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的.由于App没有浏览器这种可以比较直观地看到后台请求的工具 ...
- 《崔庆才Python3网络爬虫开发实战教程》学习笔记(3):抓取猫眼电影榜单TOP100电影,并存入Excel表格
本篇博文是自己在学习崔庆才的<Python3网络爬虫开发实战教程>的学习笔记系列,如果你也要这套视频教程的话,关注我公众号[小众技术],关注后回复[PYTHON],无套路免费送你一个学习大 ...
- 《崔庆才Python3网络爬虫开发实战教程》学习笔记(5):将爬虫爬取到的数据存储到TXT,Word,Excel,Json等文件中
本篇博文是自己在学习崔庆才的<Python3网络爬虫开发实战教程>的学习笔记系列,此套教程共5章,加起来共有34节课,内容非常详细丰富!如果你也要这套视频教程的话,关注我公众号[小众技术] ...
- 《Python3网络爬虫开发实战(第二版)》内容介绍
这是「进击的Coder」的第 505 篇分享 作者:崔庆才 大家好,本节首先来预告下即将出版的<Python3网络爬虫开发实战(第二版)>的主要内容. 由于我已经把书的总体的内容介绍写在了 ...
- python3网络爬虫开发实战学习笔记(二)------python3 XPATH爬 猫眼电影排名
我最近在看崔庆才老师的<python3 网络爬虫开发实战>觉得挺不错的,上面还有一个 用正则表达式爬取猫眼电影的电影排行榜 我练了一下,感觉不会很难,后来学到了xpath,就想用xpath ...
最新文章
- 三代测序数据分析之文献推荐
- 1202: [HNOI2005]狡猾的商人
- 计算机组装与维护教案_计算机组装与维护小课堂(1)
- 特斯拉车顶维权女车主称被恐吓 将公布特斯拉提供的不完整数据
- 第0课第2节_刚接触开发板之烧写裸板程序
- 浅析StackTrace
- “千脑智能理论”或颠覆AI,比尔·盖茨重磅推荐
- 计算机基础进制转换(二进制、八进制、十进制、十六进制)
- 昌航程序设计竞赛初赛(周五晚19点)
- go语言学习:go类型系统
- NFS nfs4_reclaim_open_state lock reclaim failed
- ECS 无法解析域名问题场景分析
- wps2016向程序发送命令_Excel:向程序发送命令时出现问题
- 创业失败欠债一千多万,身无分文、妻离子散,靠父母的工资过活,怎么翻身?
- 【观察】智能决策:从中国制造到中国智造的通关“金钥匙”
- 积分风控体系建设包含的四个内容
- cordova 调用蓝牙_ionic蓝牙插件(cordova-plugin-ble-central)(个人翻译转载请注明)
- group_concat函数详解
- 实训七:二层交换机VLAN划分及相同VLAN通信
- unity3d WayPoint路点寻路,AI
热门文章
- 载波恢复算法 Blind Phase Search 算法(盲相位搜索算法 BPS算法)
- python一加到二十等于多少_Python 3.1新变化之性能改善篇(转载)
- foreach输出mysql方法_mysql – “foreach”循环:使用R中的所有核心(特别是如果我们在foreach循环中发送sql查询)...
- list 增 删 改 查 及 公共方法
- 聚类算法_案例实战:聚类实战
- memcache 获取key的方法,查询session存储
- LA 4728 (旋转卡壳) Squares
- 存储过程 insert
- html映射共享文件夹,怎么在DOS下映射共享文件夹为本地磁盘
- C语言课后习题(39)