UA

User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等

常用API

urllib.request.urlopen()模拟浏览器向服务器发送请求，返回数据的读取如下
- read()字节形式读取二进制
  - 扩展：read(5)返回前几个字节
- readline() 读取一行
- readlines()一行一行读取直至结束
- getcode() 获取状态码
- geturl() 获取url
- getheaders() 获取headers
urllib.request.urlretrieve()
- 可用于爬取网页、图片、视频等

简单使用

from pprint import pprint
import urllib.requesturl = 'http://www.baidu.com'
# 得到HttpResponse对象
response = urllib.request.urlopen(url)
print(type(response))
# read 读取的数据为二进制，我们需要将他进行解码
content = response.read().decode('utf-8')
pprint(content)

通过打印我们可以看到百度首页的源码

下载

如果下载我们就需要urlretrieve的方法，点击

下载网页

当我们运行之后，就会发现网页被下载下来了

import urllib.request# 网页地址
url_page = 'http://www.baidu.com'
# 下载后的文件名
file_name = 'baidu.html'
urllib.request.urlretrieve(url_page,file_name)

下载资源

以下载网页为例，在下载图片、音乐等资源的时候，我们只需要把url和文件名进行相应的改变就行了

下载图片

import urllib.request# 图片地址
url_page = 'https://img1.baidu.com/it/u=3004965690,4089234593&fm=26&fmt=auto&gp=0.jpg'
# 下载后的文件名
file_name = '图片.jpg'
urllib.request.urlretrieve(url_page,file_name)

下载视频

import urllib.request# 视频地址
url_page = 'https://vd3.bdstatic.com/mda-mhkku4ndaka5etk3/1080p/cae_h264/1629557146541497769/mda-mhkku4ndaka5etk3.mp4?v_from_s=hkapp-haokan-tucheng&auth_key=1629687514-0-0-7ed57ed7d1168bb1f06d18a4ea214300&bcevod_channel=searchbox_feed&pd=1&pt=3&abtest='
# 下载后的文件名
file_name = '视频.mp4'
urllib.request.urlretrieve(url_page,file_name)

爬虫之urllib库的使用相关推荐

python爬虫之urllib库详解
python爬虫之urllib库详解前言一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块利用try-except,进行超时处理 ...
初学爬虫之 urllib 库的介绍与使用（一）
初学爬虫之 urllib 库的介绍与使用(一) 目录初学爬虫之 urllib 库的介绍与使用(一) 简介 1.1 urllib.request.urlopen() 1.2 urllib.reques ...
python urllib.request 爬虫数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
python urllib.request 爬虫数据处理-Python网络爬虫(基于urllib库的get请求页面)
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
爬虫使用urllib库报错urllib.error.URLError: 「urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate veri
学习爬虫时,用urllib库,发现经常报错,查资料解决. 错误原因: 这是一个SSL证书验证错误,当请求一个https站点,但是证书验证错误时,就会报这样的错误. 解决办法: 只需在代码中加入如下两行 ...
web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表 ...
Python 爬虫之urllib库的使用
urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...
python爬虫入门urllib库的使用
urllib库的使用,非常简单. import urllib2response = urllib2.urlopen("http://www.baidu.com") print re ...
python3一爬虫库url_python3爬虫之Urllib库（一）
在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了,因为只有一个库了:Urllib. urllib库是python的标准库,简而言之就是 ...
爬虫：urllib库的用法，关于 request，parse模块总结
urllib库它是python内置的请求库,包括 request ,error ,parse,robotparse. 这里主要介绍request 和parse模块. request 它是HTTP请求 ...

爬虫之urllib库的使用

UA

常用API

简单使用

下载

下载网页

下载资源

下载图片

下载视频

爬虫之urllib库的使用相关推荐

最新文章

热门文章