中国大学MOOC·Python网络爬虫与信息提取_思考小结(一)
一、 关于requests库用法的几个辨析
1.requests库内分七个函数,分别为 request,get,head,post,put,patch,delete,
其中最经常使用的是:get/head 其它的几个例如post,put,patch,delete,由于服务器的限制不能够经常被使用到,因为其更改对象是服务器网址上的内容。
2.而根据requests库的封装方法我们克制,其实例如requests.get(url)的用法其实就==requests.request(‘get’,‘url’)
所以也可以认为整个的request库只有一个函数即request
2.get与head的使用区别
requests.get 获取网页的全部内容
requests。head获取网页的头部信息(即概要信息)
当内容很多很庞大时候,使用head可以有效的使得我们在短时间内获取一定的信息
二、requests库的request方法
前文提过,request即总成,是一种可以代替剩下六种使用方法的一个函数。
它的标准形式是requests.request(‘method’,‘url’,’**kwarg’)
**kwarg具体有十三种形式,
其中params可以用来改变url的部分参数
其中重点介绍headers的参数,因为这个参数对于隐藏自己访问一个网站的爬虫身份非常有用
headers代表了对某一个url进行HTTP访问时,本身带有的头部信息,因此通过这个参数可以更改自己的头部信息而使得服务器无法识别你的爬虫访问。具体见第二周爬取亚马逊网站的修改头部信息
介绍一个小用法:如何查看自己发出的访问的头部信息:
用到response对象(它包含了所有访问和返回的信息)
如果你设置的是:
r=requests.get(url)]#r即为返回的response对象
那么它有包含返回的信息如下:
同时我们也可以使用r.request.headers来查看它进行访问时的一些头部信息
如下:
[外链图片转存中…(img-RYIiEPuZ-1569659519707)]
这里我们就把r.request中的request看出我们构建的这个访问对象r中所包含的请求信息
三、一点小建议
如果平常没有用到特定功能就使用类似requests.get()的方法,这样比较方便快捷,而在使用到特定功能时,再使用requests.request()这个方法。可以简单记忆为使用request时候我就应该是要做一点不太普通的事情了(例如修改HTTP访问的agenrt)
同样的其实也可以直接在reques.method(url,‘**kargs’)中直接使用各种加上参数之后的用法,在本质上是一样,那么这样就直接忘掉request函数的用法而记下六个其它函数的用法即可。
只要理解了本质,那么方法的使用就也只是仁者见仁智者见智的不同了
一点浅薄理解,如果有前辈发现文章中的疏漏,望指教
关于reques库具体用法图片见 博文
中国大学MOOC·Python网络爬虫与信息提取(一)
http://blog.csdn.net/xiaotang_sama/article/details/77803521
中国大学MOOC·Python网络爬虫与信息提取_思考小结(一)相关推荐
- 中国大学MOOC·Python网络爬虫与信息提取(一)
一.第0周 网络爬虫工具 二.第1周 网络爬虫之规则 1.requests库的安装 打开cmd-输入pip3 install requests 博主遇到的问题:一开始提示不是内部命令也不是外部命令,在 ...
- python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取(一)
学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
- Python网络爬虫与信息提取笔记(续篇)(文末附教学视频)只供教学讲解,请勿对有robots协议的网站(如淘宝网)造成骚扰
接上篇博客:Python网络爬虫与信息提取笔记(文末附教学视频) 14:基于bs4库的HTML内容遍历方法 标签树的下行遍历: 用len(soup.body.contents)返回body标签的儿子节 ...
- MOOC《Python网络爬虫和信息提取》(第11次)网络爬虫之框架(第4周)
MOOC<Python网络爬虫和信息提取>(第11次)网络爬虫之框架(第4周) MOOC–Python网络爬虫和信息提取(第11次开课) 网络爬虫之框架 21.08.10 目录 文章目录 ...
- 【笔记】Python网络爬虫与信息提取
实战:总结知识点疫情爬虫 Re正则表达式 Re库的使用 scrapy爬虫框架介绍 Scrapy常用命令 网络爬虫 技术亮点: 1.采用requests发送请求,获取响应 2.采用BeautifulSo ...
- Python网络爬虫与信息提取(中国大学mooc)
目录 目录 Python网络爬虫与信息提取 淘宝商品比价定向爬虫 目标获取淘宝搜索页面的信息 理解淘宝的搜索接口翻页的处理 技术路线requests-refootnote 代码如下 股票数据定向爬虫 ...
- 嵩天《Python网络爬虫与信息提取》实例2:中国大学排名定向爬虫
在介绍完requests库和robots协议后,嵩天老师又重点介绍了如何通过BeautifulSoup库进行网页解析和信息提取.这一部分就是在前面内容的基础上,综合运用requests库和Beauti ...
- python 网页爬虫作业调度_第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...
- Python网络爬虫与信息提取
1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
最新文章
- a byte of python-《A Byte of Python》笔记
- unet训练自己的数据集_基于UNet网络实现的人像分割 | 附数据集
- webpack4配置基础
- 使用canvas绘制时钟
- 【NIPS2018】Spotlight及Oral论文汇总
- redis 命令别名_redis 命令、命令行根据前缀(通配符)批量删除redis存储的key
- Python运行时报错 ModuleNotFoundError: No module named ‘exceptions‘
- SimpleDateFormat多线程下的安全问题(解决方法)
- 智汇华云 | 集群自动化部署服务流程之自动化集群配置(上)
- 027:vue+openlayers加载远程shp数据(示例代码)
- 大数据hadoop组件下载、windows环境搭建、官方文档查看详细步骤
- ArcGIS发布地图服务--ArcMap
- php生成缩略图实例,(实用篇)PHP生成缩略图的方法实例
- python 删除指定目录_删除Python中除一个子目录外的目录
- ping命令 ——测试主机间网络连通性
- bootstrap table th内容太多表格撑破(自动换行)
- Python批量下载无版权图片
- java的无极分类,ThinkPHP菜单无极分类实例讲解
- 线性泛函分析之对偶基
- Mobileye在耶路撒冷启动自动驾驶测试,挑战极限路况