python如何解决爬虫ip被封- - -“您操作太频繁,请稍后再访问“
描述
python 3.9.6
pycharm
问题
当我想爬取某招聘网站的信息的时候出现如下信息
{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"113.92.xxx.xxx","state":2402}
原因
招聘网站的反爬机制会识别访问的ip地址,没有携带hearders字段时,机制会认为是爬虫,将访问ip封了
解决方法
需要添加header,用来模拟用户登陆。
右键-》copy-》copy as cURL
将复制的url复制到此链接的curl command板块
将此hearders添加到代码里
再在请求里添加headers字段
req = requests.post(url,data=data,headers=headers)
即可成功获取
完整代码
import requestsdata = {'first': 'true','pn': '1','kd': 'devops'}headers = {'authority': 'www.lagou.com','sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"','x-anit-forge-code': '0','sec-ch-ua-mobile': '?0','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','content-type': 'application/x-www-form-urlencoded; charset=UTF-8','accept': 'application/json, text/javascript, */*; q=0.01','x-requested-with': 'XMLHttpRequest','x-anit-forge-token': 'None','origin': 'https://www.lagou.com','sec-fetch-site': 'same-origin','sec-fetch-mode': 'cors','sec-fetch-dest': 'empty','referer': 'https://www.lagou.com/jobs/list_devops?labelWords=&fromSearch=true&suginput=','accept-language': 'zh-CN,zh;q=0.9','cookie': 'user_trace_token=20210701180011-4072c9db-d003-4844-a073-736f42bf40d2; _ga=GA1.2.990750347.1625133612; LGUID=20210701180012-2e17d8bd-5ea4-44c5-8778-f1c7a1d55733; RECOMMEND_TIP=true; privacyPolicyPopup=false; _gid=GA1.2.1172577386.1625133628; index_location_city=%E5%85%A8%E5%9B%BD; __lg_stoken__=c464107bfc8c7699b4b9ab091a02b36fa0da7206bb819632fd3fd24aaa845416a2fedb45e6ce11b7c47e4caf7f6cdcb4148deec393528ad92441dded9e313ab97f29157b284b; JSESSIONID=ABAAAECAAEBABIICDEA3CABC2939F48693F2083DDF69F92; WEBTJ-ID=2021072%E4%B8%8A%E5%8D%8811:04:33110433-17a652cd0ed36b-005519fd181336-6373264-921600-17a652cd0eee17; sensorsdata2015session=%7B%7D; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1625133612,1625133614,1625133628,1625206020; PRE_UTM=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGSID=20210702140659-b01cbbaa-d692-4da4-8e24-f1f4d2d57725; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DiBegwdc5MIYG8VRAnt1Sl3KH1qai9frV%5FGMfPmg2wuO%26wd%3D%26eqid%3Defb6541e0006959b0000000660deacff; TG-TRACK-CODE=index_search; X_HTTP_TOKEN=6d7dc50382c24c1a0906025261711c7aa8b8ab0f8e; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2217a61833b30333-0d73eba337c105-6373264-921600-17a61833b31a06%22%2C%22first_id%22%3A%22%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24os%22%3A%22Windows%22%2C%22%24browser%22%3A%22Chrome%22%2C%22%24browser_version%22%3A%2291.0.4472.124%22%7D%2C%22%24device_id%22%3A%2217a61833b30333-0d73eba337c105-6373264-921600-17a61833b31a06%22%7D; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1625206091; LGRID=20210702140811-09ff2eee-5c0f-44d2-8501-2117d8d83d89; SEARCH_ID=29f013ed02e6461cb49f2da2573cf25a',
}url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false's = requests.session()
s.keep_alive = Falsesession=requests.session()
session.get('https://www.lagou.com/jobs/list_devops?labelWords=&fromSearch=true&suginput=',headers=headers)
cookies = session.cookiesreq = requests.post(url,data=data,headers=headers)
print(req.text)
python如何解决爬虫ip被封- - -“您操作太频繁,请稍后再访问“相关推荐
- 代理IP如何解决爬虫IP被封
网络爬虫在访问网站的时候,经常使爬虫IP被封.那遇到这种情况呢,大家都会想到用代理IP来解决这个苦恼.那么代理IP是如何解决爬虫IP被封的呢? 通常情况下,代理IP都是通过把真实的爬虫IP ...
- 不用重装解决抖音登录提示:访问太频繁,请稍候再试,亲测有效!!!
自己有一个抖音号在主力机安全中心远程下机后备用机不小心被下了导致一直登不上 一直提示:访问太频繁,请稍后再试 等了半天还是一样的提示,不管是切换WIFI还是改xposed应用变量参数甚至卸载重装都一样 ...
- 支付宝系统繁忙,请稍后再试的解决
我这边在扫码支付的时候其实一直是有一个问题的,就是一值说系统繁忙,请稍后再试,这是我遇到问题的解决,大家可以参考一下: 首先必须确认自己的公钥私钥和支付宝公钥的准确性,,订单号每一次是不能重复的,,最 ...
- 针对MacBook提示目前翻译不可用请稍后再试的解决方法
针对MacBook提示目前翻译不可用请稍后再试的解决方法 一.原因分析 二.解决办法 一.原因分析 最近Safari浏览器自带的翻译出现了"翻译暂时不可用"的情况,对于使用Clas ...
- Office for Mac版本 提示更新已在进行中,请稍后再试,更新异常的解决方法
Office for Mac版本 提示更新已在进行中,请稍后再试,更新异常的解决方法 参考文章: (1)Office for Mac版本 提示更新已在进行中,请稍后再试,更新异常的解决方法 (2)ht ...
- lol显示服务器正忙请稍后再试,LOL客户端报错崩溃怎么办_无法进入队列及服务器正忙提示解决方法一览_3DM网游...
LOL作为一款较为火热的电子竞技游戏,同时在线人数非常多,因此会突发各种游戏状况,例如匹配不能进入队列.无法登陆游戏大厅.游戏经常出现报错等问题,那么这些问题有办法解决吗?下面小编将带来LOL客户端常 ...
- 【问题解决】Origin显示“很抱歉,我们目前发生技术问题,请稍后再试一次”解决
问题 如图显示"很抱歉,我们目前发生技术问题,请稍后再试一次" 解决 我是直接关掉V就可以上了,上的CN的服务器(开V上的是HK的服务器) 总结 1.如果有挂了V的,把V关掉 2. ...
- MacOS更新提示“安装需要下载重要内容。该内容此时无法下载。请稍后再试。”解决方法
MacOS更新提示"安装需要下载重要内容.该内容此时无法下载.请稍后再试."解决方法 原因:下载时中断了,重新下载就会提示该错误. 解决方法:把临时下载文件删除就好 解决过程: 打 ...
- 新浪博客发博文老是提示系统繁忙、请稍后再试解决方法
新浪博客发博文 老是提示系统繁忙.请稍后再试解决方法: 微信关注 新浪客服 公众号 点击在线客服.选人工,博客其他问题 然后客服会让你提供博客登陆名 密码前三位 博客绑定的手机 联系邮箱 手机会受 ...
最新文章
- python常见的数据类型_Python中常见的数据类型总结
- linux系统下如何查看cpu能同时跑几个线程_探讨基于Linux的NUMA系统
- 在Git中,HEAD,工作树和索引之间有什么区别?
- Linux wget 命令详解
- MySQL-索引优化篇(1)_安装演示库 [前缀索引、联合索引、覆盖索引] explain参数
- 华硕主板X99-E WS/USB 3.1固件更新
- [XSY] 计数(DP,NTT,分治)
- Windows版nacos启动报错(nacos安装路径问题)
- python—while循环、字符串
- python__画图表可参考(转自:寒小阳 逻辑回归应用之Kaggle泰坦尼克之灾)
- autogen.sh 的使用
- wamp 403 禁止访问
- Eclipse 编码常用技巧【不断补充完善】
- springmuvc如何设置jsp的input跳转_小程序有链接吗?如何获取小程序的链接?
- 线性代数mit18.06读课本-D1-1.1
- 论文阅读《PatchMatchNet: Learned Multi-View Patchmatch Stereo》
- git中ssh keys配置
- Git教程之如何版本回退
- Fairplay流程
- 前端面试—html语义化
热门文章
- MSP430寄存器的设置与作用
- python建立空矩阵_创建空矩阵Python
- SpringBoot实现分布式锁
- Python 使用xlrd 读取 Excel 报错:xlrd.compdoc.CompDocError: Workbook corruption: seen[3] == 4
- 根据公式计算圆周率Π的值
- python中reduce函数用法_一文读懂reduce函数
- 那些年UNIX教我们的事
- 在Vista下删除EISA配置的隐藏分区
- 手把手教你使用cmake生成contrib扩展库,以windows 10+VS2015+opencv3.3+contrib3.3为例
- (软考中级--信息安全工程师)五、物理与环境安全技术