一、问题发现

近期我在做代理池的时候,发现了一种以前没有见过的反爬虫机制。当我用常规的requests.get(url)方法对目标网页进行爬取时,其返回的状态码(status_code)为521,这是一种以前没有见过的状态码。再输出它的爬取内容(text),发现是一些js代码。看来是新问题,我们来探索一下。

状态码和爬取内容.png

二、原理分析

打开Fiddler,抓取访问网站的包,我们发现浏览器对于同一网页连续访问了两次,第一次的访问状态码为521,第二次为200(正常访问)。看来网页加了反爬虫机制,需要两次访问才可返回正常网页。

Fiddler抓包信息.png

下面我们来对比两次请求的区别:

521请求:

521请求.png

200请求:

200请求.png

通过对比两次请求头,我们发现第二次访问带了新的cookie值。再考虑上面程序对爬取结果的输出为js代码,可以考虑其操作过程为:第一次访问时服务器返回一段可动态生成cookie值的js代码;浏览器运行js代码生成cookie值,并带cookie重新进行访问;服务器被正常访问,返回页面信息,浏览器渲染加载。

三、解决流程

弄清楚浏览器的执行过程后,我们就可以模拟其行为通过python作网页爬取。操作步骤如下:

  1. 用requests.get(url)获取js代码

  2. 通过正则表达式对代码进行解析,获得JS函数名,JS函数参数和JS函数主体,并将执行函数eval()语句修改为return语句返回cookie值

  3. 调用execjs库的executeJS()功能执行js代码获得cookie值

  4. 将cookie值转化为字典格式,用requests.get(url, cookies = cookie)方法获取得到正确的网页信息

四、代码实现

实现程序所需要用到的库:

import re                  #实现正则表达式
import execjs              #执行js代码
import requests            #爬取网页

第一次爬取获得包含js函数的页面信息后,通过正则表达式对代码进行解析,获得JS函数名,JS函数参数和JS函数主体,并将执行函数eval()语句修改为return语句返回cookie值。

# js_html为获得的包含js函数的页面信息
# 提取js函数名
js_func_name = ''.join(re.findall(r'setTimeout\(\"(\D+)\(\d+\)\"', js_html))# 提取js函数参数
js_func_param = ''.join(re.findall(r'setTimeout\(\"\D+\((\d+)\)\"', js_html))# 提取js函数主体
js_func = ''.join(re.findall(r'(function .*?)</script>', js_html))

将执行函数eval()语句修改为return语句返回cookie值

# 修改js函数,返回cookie值
js_func = js_func.replace('eval("qo=eval;qo(po);")', 'return po')

调用execjs库的executeJS()功能执行js代码获得cookie值

# 执行js代码的函数,参数为js函数主体,js函数名和js函数参数
def executeJS(js_func, js_func_name, js_func_param):jscontext = execjs.compile(js_func)    # 调用execjs.compile()加载js函数主体内容func = jscontext.call(js_func_name,js_func_param)  # 使用call()通过函数名和参数执行该函数return func
cookie_str = executeJS(js_func, js_func_name, js_func_param)

将cookie值转化为字典格式

# 将cookie值解析为字典格式,方便后面调用
def parseCookie(cookie_str):cookie_str = cookie_str.replace("document.cookie='", "")clearance = cookie_str.split(';')[0]return {clearance.split('=')[0]: clearance.split('=')[1]}
cookie = parseCookie(cookie_str)

获得cookie后,采用带cookie的方式重新进行爬取,即可获得我们需要的网页信息了。

作者:欲摘桃花换酒钱
链接:https://www.jianshu.com/p/37d549a4bf44
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

解决python爬虫出现的521问题相关推荐

  1. 如何解决python爬虫requests.get()遇到的418问题

    如何解决python爬虫--遇到requests.get()访问得到418问题 在爬虫时候,通过requests.get()得到不正确的状态码: 4**:表示出错 403问题:服务器已经理解请求,但是 ...

  2. python爬虫网络中断_如何解决Python爬虫中的网络掉线问题?

    在学校里的时候,除了上课,还有一大幸福的事情,就是用着学校的网线网络.当然玩的时候很开心,就是没事关键词时刻掉链子.时不时地网络掉线让人非常恼火,什么团战在梦游啊,看剧卡住不动了,相信能引起很多小伙伴 ...

  3. 解决python爬虫AttributeError: ‘NoneType‘ object has no attribute ‘find_all‘

    网页上异地加密数据的python爬虫 这里特别感谢钟思哲大佬帮我找到了问题并帮助解决 要搞python大作业 想从https://www.endata.com.cn/BoxOffice/BO/Year ...

  4. python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题

    当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...

  5. 解决python爬虫requests.exceptions.SSLError: HTTPSConnectionPool(host=‘XXXXXXX‘, port=443)问题

    报错如下 Traceback (most recent call last):File "C:/Users/17653/Desktop/测试.py", line 23, in &l ...

  6. python爬虫--破解js加密:kankan登录破解

    这一系列文章旨在解决python 爬虫过程中遇到的各种反爬,从简单到复制,是个进阶的过程.如果对你有帮助,欢迎关注. 今天要破解的网站是天天看看(http://www.kankan.com/)的登录, ...

  7. python爬虫英文翻译_Python爬虫实现翻译功能

    前言 学了这么久的python理论知识,需要开始实战来练手巩固了. 准备 首先安装爬虫urllib库 pip install urllib 获取有道翻译的链接url 需要发送的参数在form data ...

  8. Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章

    原标题:解决Python爬虫爬不到数据 前言: 近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢! 文章目录 原 ...

  9. 【Python爬虫实例】Python解决521反爬方案

    参考文献:https://github.com/xiantang/Spider/blob/master/Anti_Anti_Spider_521/pass_521.py 写在前面的话:Python在爬 ...

最新文章

  1. 二叉树的非递归遍历(c/c++)
  2. Linux使用vsftpd搭建FTP服务
  3. monkey 真机测试步骤
  4. Linux中的权限管理命令-chmod
  5. android 子线程的网络请求为什么还会造成界面卡顿_京东数科mPaaS:深度解读京东金融App(Android)的秒开优化实践...
  6. Eurek自我保护机制
  7. 达摩院的地球云计算平台AI Earth使用体验
  8. 数显之家快讯:【SHIO世硕心语】华为内部考核尺度爆光!
  9. nginx做域名映射到指定端口(阿里云服务器、阿里域名服务)
  10. Bellman_Ford的负环
  11. 《GitHub详细教程》
  12. JAVA 系列——包装类
  13. Linux设备驱动编程第三版-笔记
  14. [python]python的引用(续)
  15. 爬虫(第一篇) IP代理池
  16. 洪荒开局鸿蒙绑定系统,洪荒开局绑定鸿钧
  17. 三方app跳转APN设置提示“此用户无权修改接入点名称设置”解决方案
  18. MacBook Pro运行深度学习代码——Tensorflow_macos
  19. 【5G核心网】 free5gc Handover procedures切换流程源码分析
  20. 智慧农贸市场管理系统的设计与实现

热门文章

  1. SQL Server—T-SQL编程
  2. 直方图均衡--对比度调整和去雾效果
  3. 访问2008服务器共享文件很慢,鲜为人知的win2008网络管理优化技巧
  4. 检测网页是否打开开发者工具(检测F12)
  5. pip版本更新的问题
  6. Python的格式化输出(炒鸡详细)
  7. lopatkin俄大神精简Windows 10 Enterprise 19041.331 20H1 Release x86-x64 EN-RU PIP
  8. 1688图片搜索API接口
  9. 循环-求一个数各位数字的和
  10. 数字电路和模拟电路-10时序逻辑电路的分析和设计