Python网络爬虫与信息提取[request库的应用](单元一)
---恢复内容开始---
注:学习中国大学mooc 嵩天课程 的学习笔记
request的七个主要方法
request.request() 构造一个请求用以支撑其他基本方法
request.get(url,params=None,**kwarg) 12个参数 获取html的主要方法,对应于http的GET
request.head(url,**kwargs) 13个参数 获取网页头信息的方法,对应于http的head
request.post(url,data=None,json=None,**kwarg)11个采纳数 向网页中提交post请求的方法,对应于http中的post
requset.put(url,data,**kwarg) 向网页中提交put请求的方法,对应于http中的put
request.patch(url,data,**kwarg) 向http网页中提交局部修改请求,对应于http中的patch
request.delete(url,**kwarg) 向http网页中提交局部修改请求,对应于http中的delete
1.request.get(url,parm,更多参数)
r=requests.get(rul)
先构造一个request对象
返回一个response对象(包含爬虫返回的内容)
response 对象的五个属性
1 r.status_code 状态码 200表示连接成功 404表示连接失败 不是200都是失败的
2 r.text 以字符串的形式返回url对应的网络内容
3 r.encoding 从http header 中猜测相应内容的编码方式// 从header 中的charset字段 中找编码方式 如果没有 认为是 ISO-8859-1(无法解析中文)
4 r.apparent_encoding 从内容中分析出相应内容的编码方式(备选编码方式)(更加准确)
5 r.content http 相应内容的二进制形式
6.r.headers 返回头部信息
#可以赋值 r.encoding="utf-8" 然后用 r.text 来读取
2 理解Request 库的异常
request.ConnnectionError DNS查询失败 拒绝链接
request.HTTPError HTTP错误异常
request.URLRequired URL缺失异常
request.TooManyRedirects 超过最大重定向次数。产生重定向异常
request.ConnectTimeout 连接服务器超市异常
request.Timeout 请求RUL超市 产生超时异常
r.raise_for_status() [response 对象的方法] 如果r状态码不是200 引发 HTTPError 异常
3.http 协议
http hypertest transfer Protocol
url格式 : URL格式
http://host[:port][path]
host 合法的internet主机域名或IP地址
port 端口号,缺省端口为80
path 请求资源的路径
http://www.bit.edu.cn
http://220.181.111.188/duty
URL 是通过HTTP协议存取资源的Internet路径
1 http 协议对资源的操作
GET 请求URL位置的资源
HEAD 请求获取URL位置资源的相应信息报告,即获得该资源的头部信息
POST 请求向URL位置的资源后附加新的信息
PUT 请求向URL位置存储一个资源,覆盖原URL位置的资源
PATCH 请求更新局部的URL位置资源,即改变该处的资源部分内容
DELETE 请求删除URL位置的资源
注:与request 的方法一一对应
2 一些简单操作
1 post 方法
payload={"key":"value1","key2":"value2"}
r=request.post("http://baabala.com",data=payload)
print(r.text)
{
}
使用post 一个字典 自动编码为form 表单
payload={"ACB"}
r=request.post("http://baabala.com",data=payload)
print(r.text)
{
}
使用post 一个字典 自动编码为data
使用post 一个字符串 自动编码为form 表单
put 方法也一样,但是会自动覆盖原先的内容
4 requests 详解
requset.requst(method,url,**kwargs)
method : 请求方式
url :获取页面的链接
**kwargs 其他的参数(13)
method(7种)就是操作
**kwargs
1.params 字典或者字节序列,作为参数增加到url中
例:kv={"key1":"value1","key2":value2"}
r=requests.requset("GET","http://pythonoo123.io/ws",params=kv)
print(r.url)
http://python123.io/ws?key1=value1&key2=value2
2.data 字典字节序列或者文件对象,作为request的内容
3.josn JSON格式的数据作为request的内容
4.header 字典 HTTP 定制头
例: hd={"user-agent":"Chrome/10"}
r=request.request("POST","http://pythonoo123.io/ws",headers=hd)
5.cookies :字典或Cookiejar
6.auth :元祖,支持HTTP认证功能
7.file 字典类型,传输文件
例:fs={"file":open(open(“data.xls”,"rb"))}
r=requests.request("post","http://pythonoo123.io/ws",files=fs)
8.timeout 超时时间,一秒为单位
9.proxies:字典类型,设定代理服务器,可以增加登录认证
例: pxs{"http":"http://user:pass@10.10.1.1234","https":"https://10.10.10.1:4321"}
r=request.request("GET",""http://pythonoo123.io/ws",proxies=pxs)利用其设置代理
10.allow_redirects: True/False,默认为True,重定向开关,是否允许对url重定向
11.stream: True/False,默认为True 获取内容立即下载开关
12.verify:True/False,默认为True,认证SSL 证书开关
13.cert 保存本地 SSL 路径字段
---恢复内容结束---
转载于:https://www.cnblogs.com/sfzyk/p/6512884.html
Python网络爬虫与信息提取[request库的应用](单元一)相关推荐
- Python网络爬虫与信息提取—requests库入门
requests的学习笔记 requests库自动爬取HTML页面,自动网络请求提交 此博客为中国大学MOOC北京理工大学<Python网络爬虫与信息提取>的学习笔记 requests库的 ...
- python网络爬虫与信息提取(笔记)【未完】
目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析 爬取网 ...
- Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案
前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...
- Python 网络爬虫笔记1 -- Requests库
Python 网络爬虫笔记1 – Requests库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pyt ...
- python 网页爬虫作业调度_第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...
- Python网络爬虫与信息提取
1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
- 北京理工大学·Python网络爬虫与信息提取·知识整理
学习目标: python爬虫部分的学习 学习内容: mooc北京理工大学·Python网络爬虫与信息提取 对Scrapy内核依然一知半解,但mooc内容已经学完整理 后续将对Scrapy继续进行学习 ...
- MOOC《Python网络爬虫和信息提取》(第11次)网络爬虫之框架(第4周)
MOOC<Python网络爬虫和信息提取>(第11次)网络爬虫之框架(第4周) MOOC–Python网络爬虫和信息提取(第11次开课) 网络爬虫之框架 21.08.10 目录 文章目录 ...
- python网络爬虫与信息提取_北京理工大学_Python网络爬虫与信息提取(一)
学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
最新文章
- Spark 调优之数据倾斜
- 给羊羔:学习web前端开发的路线(一)
- 利用优盘安装win2008r2系统
- #转载#记录:文献阅读第一利器:文献笔记法(Literature Notes)
- 一个简单的FreeMarker案例
- 8、linux上安装hbase
- 结业考试笔记 2014中超联赛项目笔记 0327
- HackPorts – Mac OS X 渗透测试框架与工具
- 【软件工程导论】可行性研究
- 用计算机算出增长比例公式,复合增长率excel公式(年均复合增长率计算器)
- 一个三维四翼混沌系统混沌吸引子——MATLAB实现
- 元白:欲买桂花同载酒,终不似,少年游。
- 职场干货 | 如何让你的自我介绍,快速打动面试官
- word 图片导入不翻转_如何在Microsoft Word中翻转图片
- iOS开发中关于微信朋友圈停留在上次浏览位置的实现思路
- leetcode_middle_2_406. Queue Reconstruction by Height
- 群体智能:新一代AI的重要方向
- 传奇服务器需要满足什么条件
- python新式类和经典类区别_Python中新式类和经典类的区别,钻石继承
- 服务器程序框架 - Linux C++网络编程(十三)
热门文章
- Oracle的tnsnames.ora配置(PLSQL Developer)
- 实现开发板与ubuntu的共享--根文件系统NFS--Samba共享【sky原创】
- 简单盘点手游开发引擎
- [转]将input file的选择的文件清空
- 总结:常用的通用数据处理指令
- 执行计划中各字段各模块描述
- 开源的人品测试机 (windows版)
- html让文本框左剧中对齐_Python—Text:功能强大的文本框
- 企业域名备案流程_2021境外投资备案申报流程(办理企业境外投资证书注意事项)...
- Adobe Acrobat Pro DC二次激活失败的解决方案