请求头Headers提供了关于请求、响应或其他发送实体的信息。

下面以某书上的教程为例,查找正确的请求头。

通过chrome浏览器的”检查“命令,单击Network选项,在左侧的资源中找到需要请求的网页,单击需要请求的网页,在Headers中可以看到Requests Headers的详细信息。

找不到的话,记得刷新网页 。标黄为有效信息

    1. Request URL:

      http://www.santostang.com/

    2. Request Method:

      GET

    3. Status Code:

      200 OK

    4. Remote Address:

      118.25.212.192:80

    5. Referrer Policy:

      strict-origin-when-cross-origin

  1. Response HeadersView source
    1. Cache-Control:

      no-store, no-cache, must-revalidate

    2. Connection:

      keep-alive

    3. Content-Encoding:

      gzip

    4. Content-Type:

      text/html; charset=UTF-8

    5. Date:

      Mon, 06 Dec 2021 11:35:17 GMT

    6. Expires:

      Thu, 19 Nov 1981 08:52:00 GMT

    7. Pragma:

      no-cache

    8. Server:

      nginx

    9. Transfer-Encoding:

      chunked

    10. Vary:

      Accept-Encoding

  2. Request HeadersView source
    1. Accept:

      text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9

    2. Accept-Encoding:

      gzip, deflate

    3. Accept-Language:

      zh-CN,zh;q=0.9

    4. Cache-Control:

      max-age=0

    5. Connection:

      keep-alive

    6. Cookie:

      trc_cookie_storage=taboola%2520global%253Auser-id%3Dbd60449e-17eb-4a23-8440-d31ae8024b66-tuct8a6187d; PHPSESSID=038ojd9o1c1fi0egnva0t29oc7; Hm_lvt_752e310cec7906ba7afeb24cd7114c48=1638699739,1638787830; Hm_lpvt_752e310cec7906ba7afeb24cd7114c48=1638790509

    7. Host:

      www.santostang.com

    8. Upgrade-Insecure-Requests:

      1

    9. User-Agent:

      Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36

提取请求头中的重要的部分,可以把代码修改为第一篇博文中的那样。

python爬虫学习-定制请求头相关推荐

  1. Python爬虫伪装,请求头User-Agent池,和代理IP池搭建使用

    一.前言 在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可以找一些代理ip,和不用的浏览器来继续爬虫测试.下面就 ...

  2. python爬虫快速添加请求头、随机生成user-agent

    一.快速添加请求头 import re # 下方引号内添加替换掉请求头内容 headers_str = """ accept: text/html,application ...

  3. python伪造请求头x-forwarded-for的作用_Pyspider中给爬虫伪造随机请求头的实例

    Pyspider 中采用了 tornado 库来做 http 请求,在请求过程中可以添加各种参数,例如请求链接超时时间,请求传输数据超时时间,请求头等等,但是根据pyspider的原始框架,给爬虫添加 ...

  4. Python爬虫学习①:

    Python爬虫学习①: 前言:本文系根据唐松<Python网络爬虫从入门到实践>书籍进行学习和整理 Python 爬虫的流程分为了三部分 ①:获取网页:给网址发送一个请求,该网址返回整个 ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. Python爬虫学习框架介绍

    对于初学者来说,摸索清楚一个领域的知识体系往往比单纯学习某个技术要重要得多,因为技术总会跟随时代发生快速变化,而知识体系往往变化较小,今天我们以自学的角度来了解一下Python爬虫的知识体系吧. 一. ...

  7. python爬虫学习14

    python爬虫学习14 这里写目录标题 python爬虫学习14 get 请求 简单的GET请求 附加信息的GET请求 返回值的类型 抓取网页 抓取二进制数据 添加请求头 get 请求 简单的GET ...

  8. 铁憨憨的Python 爬虫学习 Python_Learn

    通过网课和万能的B站学习 Python 和爬虫(本文基本是对视频内程序和内容的笔记内容) B站 Python 爬虫学习链接 Python 学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储 明 ...

  9. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

最新文章

  1. ubantu 添加防火墙策略_企业环境下用脚本设置ubuntu防火墙
  2. 陈杰院士:多无人系统协同中的人工智能安全探索
  3. PHP标记风格,编码规范
  4. 剑指offer:扑克牌的顺子问题
  5. Tomcat中组件的生命周期管理(三)
  6. IIS识别Json文件
  7. 让你的Silverlight程序部署在任意服务器上
  8. 算法-排序-基数排序(对任意整数排序)
  9. 计算机原理课程设计 第二版pdf,计算机组成原理课程设计二.pdf
  10. [vscode] markdown_index----可以为你的markdown标题添加序号的插件
  11. php cookbook怎么样,《PHP Cookbook》学习笔记(三)
  12. Spring源码分析
  13. 现有Unity项目修改渲染管线
  14. PPT画成这样,述职答辩还能过吗?
  15. PHP实现牛津英汉词典
  16. .NET下使用snappy
  17. java斜体_设置标签字体用粗体和斜体
  18. 如何理解Redis中的事务
  19. python井字棋如何判断输赢_Python|找出井字棋的获胜者
  20. iOS 8 Change List版本说明 What's New

热门文章

  1. Hdu 1877 又一版 A+B【水题+1】
  2. Centos配置CA(证书颁发机构)
  3. VMware三种网络模式
  4. 不用动脑的Maxent下载过程
  5. 头脑王者服务器维护,头脑王者服务器
  6. Anaconda下载simpleITK包和pytorch包
  7. 离开外包之后,花了10000小时,最后我走进字节跳动拿到了offer
  8. java httpClient使用代理实现互联网公网访问
  9. IBM P系列小型机更换电池步骤
  10. 云计算机基地有辐射吗,孕妇离电脑多远没有辐射