爬虫之urllib库的使用
UA
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统 及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等
常用API
urllib.request.urlopen()
模拟浏览器向服务器发送请求,返回数据的读取如下read()
字节形式读取二进制- 扩展:
read(5)
返回前几个字节
- 扩展:
readline()
读取一行readlines()
一行一行读取 直至结束getcode()
获取状态码geturl()
获取urlgetheaders()
获取headers
urllib.request.urlretrieve()
- 可用于爬取网页、图片、视频等
简单使用
from pprint import pprint
import urllib.requesturl = 'http://www.baidu.com'
# 得到HttpResponse对象
response = urllib.request.urlopen(url)
print(type(response))
# read 读取的数据为二进制,我们需要将他进行解码
content = response.read().decode('utf-8')
pprint(content)
通过打印我们可以看到百度首页的源码
下载
如果下载我们就需要
urlretrieve
的方法,点击
下载网页
当我们运行之后,就会发现网页被下载下来了
import urllib.request# 网页地址
url_page = 'http://www.baidu.com'
# 下载后的文件名
file_name = 'baidu.html'
urllib.request.urlretrieve(url_page,file_name)
下载资源
以下载网页为例,在下载图片、音乐等资源的时候,我们只需要把url和文件名进行相应的改变就行了
下载图片
import urllib.request# 图片地址
url_page = 'https://img1.baidu.com/it/u=3004965690,4089234593&fm=26&fmt=auto&gp=0.jpg'
# 下载后的文件名
file_name = '图片.jpg'
urllib.request.urlretrieve(url_page,file_name)
下载视频
import urllib.request# 视频地址
url_page = 'https://vd3.bdstatic.com/mda-mhkku4ndaka5etk3/1080p/cae_h264/1629557146541497769/mda-mhkku4ndaka5etk3.mp4?v_from_s=hkapp-haokan-tucheng&auth_key=1629687514-0-0-7ed57ed7d1168bb1f06d18a4ea214300&bcevod_channel=searchbox_feed&pd=1&pt=3&abtest='
# 下载后的文件名
file_name = '视频.mp4'
urllib.request.urlretrieve(url_page,file_name)
爬虫之urllib库的使用相关推荐
- python爬虫之urllib库详解
python爬虫之urllib库详解 前言 一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块 利用try-except,进行超时处理 ...
- 初学爬虫之 urllib 库的介绍与使用(一)
初学爬虫之 urllib 库的介绍与使用(一) 目录 初学爬虫之 urllib 库的介绍与使用(一) 简介 1.1 urllib.request.urlopen() 1.2 urllib.reques ...
- python urllib.request 爬虫 数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
- python urllib.request 爬虫 数据处理-Python网络爬虫(基于urllib库的get请求页面)
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
- 爬虫使用urllib库报错urllib.error.URLError: 「urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate veri
学习爬虫时,用urllib库,发现经常报错,查资料解决. 错误原因: 这是一个SSL证书验证错误,当请求一个https站点,但是证书验证错误时,就会报这样的错误. 解决办法: 只需在代码中加入如下两行 ...
- web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表 ...
- Python 爬虫之urllib库的使用
urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...
- python爬虫入门urllib库的使用
urllib库的使用,非常简单. import urllib2response = urllib2.urlopen("http://www.baidu.com") print re ...
- python3一爬虫库url_python3爬虫之Urllib库(一)
在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了,因为只有一个库了:Urllib. urllib库是python的标准库,简而言之就是 ...
- 爬虫 :urllib库的用法,关于 request,parse模块总结
urllib库 它是python内置的请求库,包括 request ,error ,parse,robotparse. 这里主要介绍request 和parse模块. request 它是HTTP请求 ...
最新文章
- Quartus II11.0安装教程
- 在sqlplus中操作blob和clob
- html插入flash代码_初学者必备Web开发APP,支持代码补全,一键插入代码,厉害了!...
- LeetCode 2000. 反转单词前缀
- Asp.net1.0 升级 ASP.NET 2.0 的几个问题总结
- php的关系数据库,php – 从关系数据库到非关系数据库的数据规范化的最佳实践...
- java stream Collectors
- GMM-HMM语音识别原理详解 - 全文
- 下一代终端保护六大支柱
- numpy 矩阵 秩_Python(NumPy):集合只能映射秩1数组
- 猫咪藏在哪个房间python作业_深度学习(可视化部分)-使用keras识别猫咪
- eclipse内存设置参数
- 微信app支付 服务器接口,iOS微信支付——APP调用微信支付接口
- java红宝石是哪本_以月/年红宝石显示帖子
- 工作小妙招之将Excel中不同sheet中的数据按照相同属性进行合并
- ueditor富文本编辑器使用百度地图自定义动态地图组件及兼容https及http协议
- 目标检测-ROI Pooling介绍
- 简易超声波雷达的arduino实现
- Rational 最新软件试用下载地址
- 上海域格LTE模块CLM920_JC3贴片SIM卡双卡切换