爬虫状态码412状态

问题

访问"https://www.pudong.gov.cn/zwgk/xqjy-jyjzdgz/2023/104/309147.html"，其中请求头也带上足够字段，但是还是访问还是报错412

状态码412含义为：Precondition Failed，服务器在验证在请求的头字段中给出先决条件时，没能满足其中的一个或多个。这个状态码允许客户端在获取资源时在请求的元信息（请求头字段数据）中设置先决条件，以此避免该请求方法被应用到其希望的内容以外的资源上。

这一般是zf网站防止爬虫做的限制，设置cookies，并且过期时间很短
下面就是访问网页的需要cookies。浏览器内部主动获取cookies，然后在请求带上，而我们爬虫使用request没法直接获取cookies

解决

1.使用模拟浏览器
selenium，playwright等模拟浏览器访问。这部分没确认，而且考虑模拟浏览器比较慢

2.request请求需要获取cookies
本质需要在请求头中带上cookies，但是分析相关请求，但是分析下没有找到获取cookies，底层中肯定是存在获取cookies方式，但是比较耗时

针对两种方式折中下
通过模拟浏览器方式获取cookies，保存缓存，然后在通过requests模块去请求。等cookies过期再次通过模拟获取cookies.这里使用playwright模拟获取cookies

 self.headers = {'content-type': 'application/json','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}# 模拟浏览器方式获取cookiesdef getCookies(url):with sync_playwright() as p:# 显示浏览器，每步操作等待100毫秒browser = p.firefox.launch(headless=True, slow_mo=100)context = browser.new_context()# context.add_init_script(js)page = context.new_page()page.goto(url, timeout=5000)  # 设置超时时间为5scookies = context.cookies()browser.close()runCookies = ""for data in cookies:runCookies += data['name'] + "=" + data['value'] + "; "return runCookies# 获取cookiesdef _setCookies(self):url = 'https://www.pudong.gov.cn/zwgk/zwgk_zfxxgkml_abmdr14_zfbm_jyj/index.html'cookies = getCookies(url)header = self.headerheader["Cookie"] = cookies# 获取页面def getPageInfo(self, url):try:if self.getCrawler.getHeader().get("Cookie", "") == "":self._setCookies()with requests.session() as req:response = req.get(url, headers=self.headers)self._handle(response, url)return response.textprint(page)except Response412Error:# 针对返回码412，重新获取cookiestry:self._setCookies()page = self.getCrawler.getBySession(url)return getDataPuDongGov(url, page, model=self.model, logger=self.logger)except Exception:print("再次执行报错:" + url)except Exception:print("报错:" + url)

爬虫状态码412状态相关推荐

python状态码409_HTTP状态码
HTTP各种相应的状态码 HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码.它由 RFC 2616 规范定义的,并得到RFC 2518.RFC 28 ...
302状态码_HTTP状态码status code详解
http状态码可以让我很方便的了解到请求的所在状态,所以很有必要总结一下,对今后的学习也是很有帮助的. 什么是HTTP状态码 HTTP状态码的作用是:web服务器用来告诉客户端,发生了什么事. 状态码 ...
状态码202_HTTP状态码大全
1xx消息这一类型状态码代表请求已被接收,需要继续处理.这类响应是临时响应,只包含状态行和某些可选的响应头信息,并以空行结束. 100 客户端应当继续发送请求.这个临时响应是用来通知客户端,它的部分 ...
状态码302_HTTP状态码 201,202,302,405 ... 傻傻分不清，看这一个项目就够啦
本期搬运 [github]http.cat,它是一款用于提供对应HTTP状态码界面模板的API,并且每次都会返回一张寓意如图的喵喵相片. 本篇文章大约需要3分钟来阅读,热衷吸猫人士可能会更久.届时你 ...
网页状态码(HTTP状态码)。
下面用表格列出了常见的错误代码及错误原因: 状态码说明详情 100 继续请求者应当继续提出请求.服务器已收到请求的一部分,正在等待其余部分. 101 切换协议请求者已要求 ...
什么是HTTP状态码常见状态码集合
什么是HTTP状态码? HTTP状态码:这是服务器和客户端之间交流信息的语言. 比如: 当客户端向服务器请求一个死链接时,服务器会返回"404"的信息. "404&quo ...
python网页查询然后返回结果_python（30）获取网页返回的状态码，状态码对应问题查询...
获取访问网页返回的状态码 html = requests.get(Url) respon= html.status_code 以下内容来自于维基百科:点击查看网页 1xx消息这一类型的状态码,代表请 ...
python requests 状态码_requests 状态码
# 信息性状态码 100: ('continue',), 101: ('switching_protocols',), 102: ('processing',), 103: ('checkpoint' ...
302状态码_http状态码是什么？301 302 404的SEO应用场景
什么是HTTP状态码?简单的讲,就是用以表示网页服务器HTTP响应状态的3位数字代码.其中1xx表示临时响应,2xx表示成功处理了请求,3xx代表重定向,4xx表示请求错误,而5xx表示服务器错误.除 ...

爬虫状态码412状态

问题

解决

爬虫状态码412状态相关推荐

最新文章

热门文章