python爬虫学习-定制请求头
请求头Headers提供了关于请求、响应或其他发送实体的信息。
下面以某书上的教程为例,查找正确的请求头。
通过chrome浏览器的”检查“命令,单击Network选项,在左侧的资源中找到需要请求的网页,单击需要请求的网页,在Headers中可以看到Requests Headers的详细信息。
找不到的话,记得刷新网页 。标黄为有效信息
Request URL:
http://www.santostang.com/
Request Method:
GET
Status Code:
200 OK
Remote Address:
118.25.212.192:80
Referrer Policy:
strict-origin-when-cross-origin
- Response HeadersView source
Cache-Control:
no-store, no-cache, must-revalidate
Connection:
keep-alive
Content-Encoding:
gzip
Content-Type:
text/html; charset=UTF-8
Date:
Mon, 06 Dec 2021 11:35:17 GMT
Expires:
Thu, 19 Nov 1981 08:52:00 GMT
Pragma:
no-cache
Server:
nginx
Transfer-Encoding:
chunked
Vary:
Accept-Encoding
- Request HeadersView source
Accept:
text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Encoding:
gzip, deflate
Accept-Language:
zh-CN,zh;q=0.9
Cache-Control:
max-age=0
Connection:
keep-alive
Cookie:
trc_cookie_storage=taboola%2520global%253Auser-id%3Dbd60449e-17eb-4a23-8440-d31ae8024b66-tuct8a6187d; PHPSESSID=038ojd9o1c1fi0egnva0t29oc7; Hm_lvt_752e310cec7906ba7afeb24cd7114c48=1638699739,1638787830; Hm_lpvt_752e310cec7906ba7afeb24cd7114c48=1638790509
Host:
www.santostang.com
Upgrade-Insecure-Requests:
1
User-Agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36
提取请求头中的重要的部分,可以把代码修改为第一篇博文中的那样。
python爬虫学习-定制请求头相关推荐
- Python爬虫伪装,请求头User-Agent池,和代理IP池搭建使用
一.前言 在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可以找一些代理ip,和不用的浏览器来继续爬虫测试.下面就 ...
- python爬虫快速添加请求头、随机生成user-agent
一.快速添加请求头 import re # 下方引号内添加替换掉请求头内容 headers_str = """ accept: text/html,application ...
- python伪造请求头x-forwarded-for的作用_Pyspider中给爬虫伪造随机请求头的实例
Pyspider 中采用了 tornado 库来做 http 请求,在请求过程中可以添加各种参数,例如请求链接超时时间,请求传输数据超时时间,请求头等等,但是根据pyspider的原始框架,给爬虫添加 ...
- Python爬虫学习①:
Python爬虫学习①: 前言:本文系根据唐松<Python网络爬虫从入门到实践>书籍进行学习和整理 Python 爬虫的流程分为了三部分 ①:获取网页:给网址发送一个请求,该网址返回整个 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- Python爬虫学习框架介绍
对于初学者来说,摸索清楚一个领域的知识体系往往比单纯学习某个技术要重要得多,因为技术总会跟随时代发生快速变化,而知识体系往往变化较小,今天我们以自学的角度来了解一下Python爬虫的知识体系吧. 一. ...
- python爬虫学习14
python爬虫学习14 这里写目录标题 python爬虫学习14 get 请求 简单的GET请求 附加信息的GET请求 返回值的类型 抓取网页 抓取二进制数据 添加请求头 get 请求 简单的GET ...
- 铁憨憨的Python 爬虫学习 Python_Learn
通过网课和万能的B站学习 Python 和爬虫(本文基本是对视频内程序和内容的笔记内容) B站 Python 爬虫学习链接 Python 学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储 明 ...
- Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
最新文章
- ubantu 添加防火墙策略_企业环境下用脚本设置ubuntu防火墙
- 陈杰院士:多无人系统协同中的人工智能安全探索
- PHP标记风格,编码规范
- 剑指offer:扑克牌的顺子问题
- Tomcat中组件的生命周期管理(三)
- IIS识别Json文件
- 让你的Silverlight程序部署在任意服务器上
- 算法-排序-基数排序(对任意整数排序)
- 计算机原理课程设计 第二版pdf,计算机组成原理课程设计二.pdf
- [vscode] markdown_index----可以为你的markdown标题添加序号的插件
- php cookbook怎么样,《PHP Cookbook》学习笔记(三)
- Spring源码分析
- 现有Unity项目修改渲染管线
- PPT画成这样,述职答辩还能过吗?
- PHP实现牛津英汉词典
- .NET下使用snappy
- java斜体_设置标签字体用粗体和斜体
- 如何理解Redis中的事务
- python井字棋如何判断输赢_Python|找出井字棋的获胜者
- iOS 8 Change List版本说明 What's New