背景

一般我们进行网络资源的爬取操作时,通常需要把浏览器中的request header的内容复制出来,放在脚本中进行操作。

通常我们是手动在每个key和value的两边都加上'',但是这种方法比较麻烦,且比较耗时,以下为输入一段浏览器header内容字符串,自动格式化为字典类型的方法。

代码实现

def get_headers(input_headers_string):'''自动格式化爬虫浏览器请求头参数,输入一个从浏览器中复制过来的请求头,自动转换为字典格式内容,一键粘贴为headers即可:param input_headers_string:str,从浏览器中复制过来的请求头,例如:    headers = """Host: zhan.qq.comProxy-Connection: keep-aliveContent-Length: 799432Pragma: no-cacheCache-Control: no-cache""":return:'''# 使用三引号将浏览器复制出来的requests headers参数赋值给一个变量headers =str(input_headers_string)# 去除参数头尾的空格并按换行符分割headers = headers.strip().split('\n')# 使用字典生成式将参数切片重组,并去掉空格,处理带协议头中的://headers = {x.split(':')[0].strip(): ("".join(x.split(':')[1:])).strip().replace('//', "://") for x in headers}# 使用json模块将字典转化成json格式打印出来return_headers=json.dumps(headers, indent=1)print('headers={}'.format(return_headers))return

代码调用

if __name__ == '__main__':headers = """
accept-encoding: gzip, deflate, br
accept-language: zh-CN,zh;q=0.9
content-length: 14
content-type: application/x-www-form-urlencoded; charset=UTF-8
origin: https://www.2ppt.com
referer: https://www.2ppt.com/so/1.html
sec-ch-ua: " Not A;Brand";v="99", "Chromium";v="96", "Google Chrome";v="96"
sec-ch-ua-mobile: ?0
sec-ch-ua-platform: "Windows"
sec-fetch-dest: empty
sec-fetch-mode: cors
sec-fetch-site: same-origin
user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36
x-requested-with: XMLHttpRequest"""get_headers(headers)

运行结果

headers={"accept-encoding": "gzip, deflate, br","accept-language": "zh-CN,zh;q=0.9","content-length": "14","content-type": "application/x-www-form-urlencoded; charset=UTF-8","origin": "https://www.2ppt.com","referer": "https://www.2ppt.com/so/1.html","sec-ch-ua": "\" Not A;Brand\";v=\"99\", \"Chromium\";v=\"96\", \"Google Chrome\";v=\"96\"","sec-ch-ua-mobile": "?0","sec-ch-ua-platform": "\"Windows\"","sec-fetch-dest": "empty","sec-fetch-mode": "cors","sec-fetch-site": "same-origin","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36","x-requested-with": "XMLHttpRequest"
}

爬虫工具|输入浏览器header内容字符串,自动格式化为字典类型相关推荐

  1. html手机号输入框,手机号输入框自动格式化为344

    写在前面 相信大家已经看过某些手机号的输入框在输入的时候,手机号是3 4 4格式,即 输入一个手机号时,会隔成 159 8888 3333 这样的输入框.笔者也实现了一个这样的组件,这个组件的特点是: ...

  2. sscanf,sscanf_s及其相关用法(字符串格式化为其他类型)

    #include<stdio.h> 定义函数 int sscanf (const char *str,const char * format,........); 函数说明   sscan ...

  3. js将字符串 YYMMDDHHmmss 转化为 date类型

    微信支付的回调参数time_end为日期字符串. 需求:将20190523101156转化为转换为Date日期格式Thu May 23 2019 10:11:56 GMT+0800 (中国标准时间) ...

  4. 排名前20的网页爬虫工具,超多干货

    网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...

  5. Python程序员都在用的20个网页爬虫工具

    网络爬虫在许多领域都有广泛的应用,它的目标是从网站获取新的数据,并加以存储以方便访问.而网络爬虫工具越来越为人们所熟知,因为它能简化并自动化整个爬虫过程,使每个人都可以轻松访问网络数据资源. 1. O ...

  6. 菜鸟教程python3在线工具_3个非常实用的Python爬虫工具,你会几个?

    Xpath Helper 是一个面向 Xpath 初学者的 Google Chrome 插件.相对于人工找 Xpath 语法,Xpath Helper 可以实现自动分析.只要你打开一个网页,然后点击任 ...

  7. 怎么用python做一个解压缩小工具,以后再也不用下载各种格式的解压缩软件了...

    经常由于各种压缩格式的不一样用到文件的解压缩时就需要下载不同的解压缩工具去处理不同的文件,以至于桌面上的压缩工具就有三四种,于是使用python做了一个包含各种常见格式的文件解压缩的小工具. 阅读全文 ...

  8. json字符串和字典类型的相互转换(转载)

    转自:http://www.cnblogs.com/YUTOUYUWEI/p/5585863.html 在开发过程中,有时候需要将json字符串转为字典类型,反之亦然,通常采用.Net的开源类库New ...

  9. vba 删除 添加checkbox_如何设置EXCEL输入内容后自动添加边框?

    在Excel中我们经常需要对输入的表格内容添加边框,一般的操作步骤是,先输入内容,再设置边框.但这样的问题在于,如果我们下次还要继续输入内容,还要再次添加边框,如果删除内容,还要手动去除边框. 那有没 ...

最新文章

  1. nodejs 获取文件路径_Qunar 酒店 Nodejs 覆盖率收集实践
  2. 2021年春季学期-信号与系统-第八次作业参考答案-第二小题
  3. python设计模式整理
  4. 浏览器登陆时纪录自动登陆时限
  5. 水滴石穿之页面遮罩层实现、向window.open()打开的窗口POST数据
  6. 由sock引起的感想
  7. 基于二进制粒子群算法的配电网故障诊断- 附代码
  8. 2021~ 你好,加油 (ง •_•)ง
  9. 一步一步跟着杨中科.net视频学c#基础(1)
  10. XMLSpy使用流程
  11. 苹果手机投屏器 及如何使用设置连接电脑投屏教程
  12. Jmeter登录压力测试
  13. AtCoder Beginner Contest 240 D
  14. 边境的悍匪—机器学习实战:第十二章 使用TensorFlow自定义模型和训练
  15. 解决批改网写英语作文不能粘贴问题
  16. u盘自动挂载 树莓派_再推荐一个备份树莓派系统的脚本
  17. 十七点学完安全知识超级详细了解进程和病毒知识 转载
  18. 生产制造企业生产数据管理的四大原因
  19. webpack基本使用
  20. 创客学院 level1第一节学习完成(第一次写博客)

热门文章

  1. 海思SD3403/SS928开发(二)环境搭建
  2. 多目标优化算法:多目标大猩猩部队优化算法MOGTO(提供Matlab源码)
  3. Google Earth Engine(GEE)——全球JRC/GSW1_1/YearlyHistory数据集的批量下载(中国区域)
  4. 「Python海龟画图」利用海龟画笔绘制简易雪人
  5. 趣味C——如何用C语言编写猜数字小游戏
  6. 中富金石股票投资可信吗?智能大数据深度诊股,主力监测行情动向
  7. 基于Vue的响应式轮播插件|vue-owl-carousel
  8. mail.yeah.net
  9. RabbitMQ最全使用教程-小白也能看懂
  10. 在linux中如何修改保存gun文件_linux编辑文件后如何保存退出