【urllib的使用(上)】
文章目录
- 一、urllib的基本用法
- 二、urllib类型和方法
- 类型
- 方法
- 三、urllib下载
- 下载网页
- 下载图片
- 下载视频
- 四、请求对象的定制
- 五、编解码
- 1.get请求方式
- urllib.parse
- urlencode
- 2.post请求方式
- 百度翻译
- 百度翻译之详细翻译
一、urllib的基本用法
获取百度首页的源码
1.定义一个url (要访问的地址)
url = 'http://www.baidu.com'
2.模拟浏览器向服务器发送请求(response响应)
response = urllib.request.urlopen(url)
3.获取响应中的页面源码
content = response.read()
4.打印数据
print(content)
输出:
read方法 返回的是字节形式的二进制数据,所以输出的是一堆看不懂的东西
我们这时候就要将二进制数据转换成字符串
二进制 ——>字符串 (这个过程叫做解码)
解码:decode(‘编码的格式’)
content = response.read().decode('utf-8')
这时候输出为:
总代码块:
import urllib.requesturl = 'http://www.baidu.com'response = urllib.request.urlopen(url)content = response.read().decode('utf-8')print(content)
二、urllib类型和方法
类型
输出response的类型
print(type(response))
输出结果:<class ‘http.client.HTTPResponse’>
response是HTTPResponse的类型
方法
1. 按照一个字节一个的去读
content = response.read()
print(content)
返回多少个字节,括号里就填多少
content = response.read(5)
print(content)
2. 读取一行
content = response.readline()
print(content)
3. 一行一行的读,直到读完为止
content = response.readlines()
print(content)
4. 返回状态码,可以查看写的有没有问题
print(response.getcode())
这里返回的是:200,那就证明我们的逻辑没有错
5. 返回url(http://www.baidu.com)
print(response.geturl())
6. 获取状态信息
print(response.getheaders())
总结:
- 一个类型:HTTPResponse
- 方法一:read
- 方法二:readline
- 方法三:readlines
- 方法四:getcode
- 方法五:geturl
- 方法六:getheaders
三、urllib下载
下载网页
url代表的下载路径 filename是文件的名字
在python中,可以写变量的名字,也可以直接写值
import urllib.requesturl_page = 'http://www.baidu.com'urllib.request.urlretrieve(url_page, 'baidu.html')
下载图片
先在网站上找到要下载的图片,并复制图片地址/链接
将地址写入代码中
url_img = 'https://ts1.cn.mm.bing.net/th/id/R-C.5859dafce1fb55e11b2b283d2fa9dc6b?rik=cUDFlghg9sfiBQ&riu=http%3a%2f%2f5b0988e595225.cdn.sohucs.com%2fimages%2f20200322%2f82948cdc4da74564a6968b471783444c.jpeg&ehk=d7X5lIX%2f%2fqEtF5OjxRKT9Hxm9cTlkLLocNXptXKPBg0%3d&risl=&pid=ImgRaw&r=0'urllib.request.urlretrieve(url=url_img, filename='lisa.jpg')
运行后会生成图片文件:
下载视频
先找到要下载视频的url
打开视频界面的开发者工具找到视频的src后面跟的就是视频地址
将地址写入代码中,并生成.mp4文件
url_video = 'blob:https://www.iqiyi.com/58d4730b-288a-44f0-bed5-38c494a1f6e5'
urllib.request.urlretrieve(url_video, '123.mp4')
四、请求对象的定制
用https的协议访问
import urllib.request
url = 'https://www.baidu.com'response = urllib.request.urlopen(url)content = response.read().decode('utf-8')print(content)
# 访问失败!!!
UA介绍:User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等
打开一个百度首页,找到UA所在位置
检查界面:
定义一个字典,将UA放入字典中
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0'
}
因为urlopen中不能存储字典类型的数据
所以headers不能传递进去
这时候就需要请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
注意:因为参数问题 不能直接写url和headers,中间还有data,所以我们需要关键字传参
五、编解码
1.get请求方式
urllib.parse
https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6
获取百度搜索周杰伦的页面
url = url = 'https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6'
定制请求对象
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0'
}
将周杰伦三个字变成unicode编码的格式(urllib.parse)
name = urllib.parse.quote('周杰伦')
请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
获取响应内容
content = response.read().decode('utf-8'
总代码:
import urllib.requesturl = 'https://www.baidu.com/s?wd='headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0'
}name = urllib.parse.quote('周杰伦')
url = url + namerequest = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')print(content)
urlencode
urlencode:适用于多个参数的时候
获取页面源码
https://www.baidu.com/s?wd=周杰伦&sex=男&location=中国台湾省
import urllib.parse
data = {'wd': '周杰伦','sex': '男'
}
a = urllib.parse.urlencode(data)
print(a)
# wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&sex=%E7%94%B7
多个参数需要变成encode的时候
import urllib.request
import urllib.parsebase_url = 'https://www.baidu.com/s?'data = {'wd': '周杰伦','sex': '男','location': '中国台湾省'
}
new_data = urllib.parse.urlencode(data)url = base_url + new_data
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0'
}request = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')
print(content)
2.post请求方式
百度翻译
先打开百度翻译的界面,输入一个词,打开开发者工具,找到post请求的sug文件
kw=spider
复制URL地址
开始编写代码:
请求路径的URL
url = 'https://fanyi.baidu.com/sug'
请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0'
}
请求参数
data = {'kw': 'spider'
}
post的请求参数 必须要进行编码(encode(‘utf-8’))
data = urllib.parse.urlencode(data).encode('utf-8')
post的请求参数,是不会拼接在url的后面的,而是需要放在请求对象定制的参数中
request = urllib.request.Request(url=url, data=data, headers=headers)
获取相应数据
content = response.read().decode('utf-8')
总代码块
import urllib.request
import urllib.parseurl = 'https://fanyi.baidu.com/sug'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0'
}data = {'kw': 'spider'
}data = urllib.parse.urlencode(data).encode('utf-8')request = urllib.request.Request(url=url, data=data, headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')print(content)
这里的content的类型是str
字符串——>json对象
import json
obj = json.loads(content)
print(obj)
百度翻译之详细翻译
1.先复制URL
https://fanyi.baidu.com/v2transapi?from=en&to=zh
2.请求头
在所有请求头中,找到起作用的一个——cookie
3.在表单数据中找到请求参数
4.代码实现:
import urllib.request
import urllib.parse
url = 'https://fanyi.baidu.com/v2transapi?from=en&to=zh'headers = {'Cookie': 'BAIDUID=12196FD75453346657491E87390AC35B:FG=1; BIDUPSID=12196FD7545334661F0AE8D4B062BE2E; PSTM=1666008285; BDUSS=FhRbk81OEFrZ1RFRFJrWUxCQ1dmRTZUQXp0VXA4ZGZtT0QyOUZ0T0hDRGYtSVpqRVFBQUFBJCQAAAAAAAAAAAEAAACS5FTMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAN9rX2Pfa19je; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; ZFY=M8B:A6gXyHZyKVBf:AqksGBg5jNPPKTmxNoclm:BgHpXzI:C; APPGUIDE_10_0_2=1; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1668256951; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BDSFRCVID=umLOJeC62ZlGj87jjNM7q-J69LozULrTH6_n1tn9KcRk7KlESLLqEG0PWf8g0KubzcDrogKKXeOTHiFF_2uxOjjg8UtVJeC6EG0Ptf8g0f5; H_BDCLCKID_SF=tJIe_C-atC-3fP36q4rVhP4Sqxby26ntamJ9aJ5nJDoADh3Fe5J8MxCIjpLLBjK8BIOE-lR-QpP-_nul5-IByPtwMNJi2UQgBgJDKl0MLU3tbb0xynoD24tvKxnMBMnv5mOnanTI3fAKftnOM46JehL3346-35543bRTLnLy5KJtMDcnK4-XjjOBDNrP; H_PS_PSSID=36554_37555_37518_37687_37492_34813_37721_36807_37662_37533_37720_37740_26350_22157; delPer=0; PSINO=1; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1668353828; ab_sr=1.0.1_MzJiYzJlNTg2MzQzZjE5NWQ4MDNkYTc1NjRhZWMyY2RhNjk2NGU4MWViYWU3NDUwNmFiNDU3MDQ1N2MzYWRmNTgwYjhhYjhmM2M2OTU3MDNkYTIyZjg0MmU1MTY1YjdiNGEyOTBjZTBjMjJmNjA1MzU2ZjViZmY0MzBiZTAwOWE3MGE2YjUyODExMWM2M2ZjNDhiNWFhZWQ0MDQ1NTVlMWZiNDMyMGVlMWQ3YjQ5ZWY4Y2M3M2Y1ZWJiMjcwZGNj'
}data = {'from': 'en','to': 'zh','query': 'love','simple_means_flag': '3','sign': '198772.518981','填写自己的token','domain': 'common'
}# post请求的参数必须进行编码 并且要调用
data = urllib.parse.urlencode(data).encode('utf-8')# 请求对象的定制
request = urllib.request.Request(url=url, data=data, headers=headers)# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)# 获取响应数据
content = response.read().decode('utf-8')import json
obj = json.loads(content)
print(obj)
获取到了数据:
【urllib的使用(上)】相关推荐
- python中urlLib的使用
urlLIb包使用来操作web网页的url,可以利用它来进行爬取网页数据 urlLib 包 包含以下几个模块: urllib.request - 打开和读取 URL. urllib.error - 包 ...
- python中的urllib库_Python2/3中的urllib库
介绍urllib库在不同版本的Python中的变动,并以Python3.X讲解urllib库的相关用法. urllib库对照速查表 Python2.X Python3.X urllib urllib. ...
- 解析:urllib.request(内附有官方文档)
解析:urllib.request(内附有官方文档) urllib.request - Extensible library for opening URLs import urllib.reques ...
- Python爬虫开发教程,一看就懂!
现在Python语言大火,在网络爬虫.人工智能.大数据等领域都有很好的应用.今天我向大家介绍一下Python爬虫的一些知识和常用类库的用法,希望能对大家有所帮助. 其实爬虫这个概念很简单,基本可以分成 ...
- python网络爬虫的学习
在上一篇博客我已经将python高级摘要的笔记分享完毕了,从这一篇博客开始写python网络爬虫的笔记. 我将网络爬虫的学习路线绘制了一个思维导图,在我后面的笔记也会按照这个思维导图进行分享. 模块的 ...
- python request 等待网页加载_用Python开发爬虫,看这篇文章就够了
现在Python语言大火,在网络爬虫.人工智能.大数据等领域都有很好的应用.今天我向大家介绍一下Python爬虫的一些知识和常用类库的用法,希望能对大家有所帮助. 其实爬虫这个概念很简单,基本可以分成 ...
- 相对舒适的爬虫入门系列(一):手快尝鲜【requests库】
一.实现爬虫命令的交互前,总是要经过环境配置的 (虽然不同系统操作层面上会有不同,本文主要讲方向性内容(配置环境)+一些具体实操代码上手,要问咱也先说咱的环境是win10哈) 1.请直接下载安装Ana ...
- Python的数据库
一.标准库: 1.turtle库: turtle(海龟)库是turtle绘图体系python的实现 turtle库绘制原理:有一只海龟在窗体正中心,在画布上游走,走过的轨迹形成了绘制的图形,海龟由程序 ...
- HTTP请求方式——GET请求
Requests简介及安装 Requests是Python的一个很实用的HTTP客户端库.Requests是在Urllib的基础上进一步封装的,具备Urllib的全部功能. Requests可通过pi ...
- 爬虫基础-requests库的使用
注:本文章为学习过程中对知识点的记录,供自己复习使用,也给大家做个参考,如有错误,麻烦指出,大家共同探讨,互相进步. 借鉴出处: 该文章的路线和主要内容:崔庆才(第2版)python3网络爬虫开发实战 ...
最新文章
- TFTP、RAM、NVRAM之间的关系
- 初学spring mvc
- 【转】窗口之间的主从关系与Z-Order
- Matlab 矩阵计算例子
- 递归时间/空间复杂度的分析(斐波那契为例)
- Dubbo爆出严重漏洞!可导致网站被控制、数据泄露!附解决方案
- 就linux学习的一点感受,学习linux的体会
- 【BZOJ1800】飞行棋,没有最好(ge pi)只有更好
- ESXi vSphere Client中copy paste如何启用
- 基于nagios网络监控平台的实现--具体事例
- Qt安装事件过滤器、过滤子控件事件、截获控件按键、鼠标事件
- mitmproxy抓包软件在mac上边的安装
- 驱动人生6网卡版 v6.1.19.90 官方版
- html盒子模型 正方形嵌套,div盒子模型实例
- 两个PDF怎么合并一个pdf
- 【论文阅读】Coupled Iterative Refinement for 6D Multi-Object Pose Estimation
- 倾斜摄影——三维建模软件ContextCapture (简体中文版安装教程-附软件下载)
- 如何提高自己的编码水平
- TURN协议(RFC5766详解)
- 借助MATLAB标定工具箱标定相机