UA

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统 及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等

常用API

  1. urllib.request.urlopen()模拟浏览器向服务器发送请求,返回数据的读取如下

    • read()字节形式读取二进制

      • 扩展:read(5)返回前几个字节
    • readline() 读取一行
    • readlines()一行一行读取 直至结束
    • getcode() 获取状态码
    • geturl() 获取url
    • getheaders() 获取headers
  2. urllib.request.urlretrieve()
    • 可用于爬取网页、图片、视频等

简单使用

from pprint import pprint
import urllib.requesturl = 'http://www.baidu.com'
# 得到HttpResponse对象
response = urllib.request.urlopen(url)
print(type(response))
# read 读取的数据为二进制,我们需要将他进行解码
content = response.read().decode('utf-8')
pprint(content)

通过打印我们可以看到百度首页的源码

下载

如果下载我们就需要urlretrieve的方法,点击

下载网页

当我们运行之后,就会发现网页被下载下来了

import urllib.request# 网页地址
url_page = 'http://www.baidu.com'
# 下载后的文件名
file_name = 'baidu.html'
urllib.request.urlretrieve(url_page,file_name)

下载资源

以下载网页为例,在下载图片、音乐等资源的时候,我们只需要把url和文件名进行相应的改变就行了

下载图片

import urllib.request# 图片地址
url_page = 'https://img1.baidu.com/it/u=3004965690,4089234593&fm=26&fmt=auto&gp=0.jpg'
# 下载后的文件名
file_name = '图片.jpg'
urllib.request.urlretrieve(url_page,file_name)

下载视频

import urllib.request# 视频地址
url_page = 'https://vd3.bdstatic.com/mda-mhkku4ndaka5etk3/1080p/cae_h264/1629557146541497769/mda-mhkku4ndaka5etk3.mp4?v_from_s=hkapp-haokan-tucheng&auth_key=1629687514-0-0-7ed57ed7d1168bb1f06d18a4ea214300&bcevod_channel=searchbox_feed&pd=1&pt=3&abtest='
# 下载后的文件名
file_name = '视频.mp4'
urllib.request.urlretrieve(url_page,file_name)

爬虫之urllib库的使用相关推荐

  1. python爬虫之urllib库详解

    python爬虫之urllib库详解 前言 一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块 利用try-except,进行超时处理 ...

  2. 初学爬虫之 urllib 库的介绍与使用(一)

    初学爬虫之 urllib 库的介绍与使用(一) 目录 初学爬虫之 urllib 库的介绍与使用(一) 简介 1.1 urllib.request.urlopen() 1.2 urllib.reques ...

  3. python urllib.request 爬虫 数据处理-python 爬虫之 urllib库

    文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...

  4. python urllib.request 爬虫 数据处理-Python网络爬虫(基于urllib库的get请求页面)

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

  5. 爬虫使用urllib库报错urllib.error.URLError: 「urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate veri

    学习爬虫时,用urllib库,发现经常报错,查资料解决. 错误原因: 这是一个SSL证书验证错误,当请求一个https站点,但是证书验证错误时,就会报这样的错误. 解决办法: 只需在代码中加入如下两行 ...

  6. web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础

    在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表 ...

  7. Python 爬虫之urllib库的使用

    urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...

  8. python爬虫入门urllib库的使用

    urllib库的使用,非常简单. import urllib2response = urllib2.urlopen("http://www.baidu.com") print re ...

  9. python3一爬虫库url_python3爬虫之Urllib库(一)

    在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了,因为只有一个库了:Urllib. urllib库是python的标准库,简而言之就是 ...

  10. 爬虫 :urllib库的用法,关于 request,parse模块总结

    urllib库 它是python内置的请求库,包括 request ,error ,parse,robotparse. 这里主要介绍request 和parse模块. request 它是HTTP请求 ...

最新文章

  1. Quartus II11.0安装教程
  2. 在sqlplus中操作blob和clob
  3. html插入flash代码_初学者必备Web开发APP,支持代码补全,一键插入代码,厉害了!...
  4. LeetCode 2000. 反转单词前缀
  5. Asp.net1.0 升级 ASP.NET 2.0 的几个问题总结
  6. php的关系数据库,php – 从关系数据库到非关系数据库的数据规范化的最佳实践...
  7. java stream Collectors
  8. GMM-HMM语音识别原理详解 - 全文
  9. 下一代终端保护六大支柱
  10. numpy 矩阵 秩_Python(NumPy):集合只能映射秩1数组
  11. 猫咪藏在哪个房间python作业_深度学习(可视化部分)-使用keras识别猫咪
  12. eclipse内存设置参数
  13. 微信app支付 服务器接口,iOS微信支付——APP调用微信支付接口
  14. java红宝石是哪本_以月/年红宝石显示帖子
  15. 工作小妙招之将Excel中不同sheet中的数据按照相同属性进行合并
  16. ueditor富文本编辑器使用百度地图自定义动态地图组件及兼容https及http协议
  17. 目标检测-ROI Pooling介绍
  18. 简易超声波雷达的arduino实现
  19. Rational 最新软件试用下载地址
  20. 上海域格LTE模块CLM920_JC3贴片SIM卡双卡切换

热门文章

  1. 计算机网络DTE和DCE,什么叫DTE与DCE
  2. 巨人之后的史蒂夫·鲍尔默和蒂姆·库克
  3. prometheus学习3:告警Alertmanager
  4. 如何在Vs2019中启动installer工具
  5. 近红外荧光ICG-whey protein 吲哚菁绿标记乳清蛋白
  6. 2021.04.29删点成林
  7. Linux中#!表示什么意思?
  8. oracle rac 19c搭建步骤
  9. 大话Linux的历史与发展历程
  10. C语言fopen函数绝对路径相对路径