python3爬虫--反爬虫应对机制

内容来源于:

前言:

反爬虫更多是一种攻防战,网络爬虫一般有网页爬虫和接口爬虫的方式;针对网站的反爬虫处理来采取对应的应对机制,一般需要考虑以下方面:

①访问终端限制:这种可通过伪造动态的UA实现;

②访问次数限制:网站一般通过cookie/IP定位,可通过禁用cookie,或使用cookie池/IP池来反制;

③访问时间限制:延迟请求应对;

④盗链问题:通俗讲就是,某个网页的请求是有迹可循的,比如知乎的问题回答详情页,正常用户行为必然是先进入问题页,在进入回答详情页,有严格的请求顺序,如果之间跳过前面请求页面就有可能被判定为到了,通过伪造请求头可以解决这个问题;

具体的反爬虫策略:

①验证码

应对:简单的验证码可通过机器学习识别,准确率可高达,50-60%;复杂的可通过专门的打码平台人工打码(依据验证码的复杂度,打码工人平均每码收1-2分钱)

②封ip(容易误杀)

应对:通过ip代理池/vps拨号获取ip方式,可用低成本的获取几十万ip

③滑动验证码:相比常规的验证码易被机器学习识别,滑动验证有一定的优势

应对:模拟滑动来验证

④关联上下文/防盗链:利用token/cookie的记录能力,来关联请求的上下文,通过判断请求是否走了完整的流程来判定是否是爬虫;重而反爬虫(知乎,头条都有该机制)

应对:分析协议,进行全量模拟

⑤javascript 参与运算:利用简单爬虫无法进行json运算的特征,对中间结果进行js解析/运算

应对:可以通过自带 js 引擎模块或直接使用 phantomjs 等无端浏览器进行自动化解析

⑥session封禁:session请求超过阈值,从而封禁(容易导致误杀)

⑦UA封禁:ua请求超过阈值,从而封禁(容易导致误杀)

⑧web-fongt反爬虫机制:源代码不展示内容,而是提供字符集,在页面使用了font-face定义了字符集,并通过unicode去映射展示

⑨其他:比如代码混淆、动态加密方案、假数据等方式

https://www.52pojie.cn/thread-1288511-1-1.html

内容:

cookie池的实现及使用

IP池的实现及使用

python 反爬机制_python3爬虫--反爬虫应对机制相关推荐

  1. python爬虫反爬机制_浅谈爬虫及绕过网站反爬取机制之Python深度应用

    我们中公优就业的老师希望能给那些面临困境的朋友们带来一点帮助!(相关阅读推荐:Python学习就看这里!) 爬虫是什么呢,简单而片面的说,爬虫就是由计算机自动与服务器交互获取数据的工具.爬虫的最基本就 ...

  2. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  3. python爬虫进阶,突破反脚本机制(反爬机制)

    前言 相信大家在做爬虫或者自动化脚本时或多或少的都能遇到反爬机制(或者说反脚本机制),最常见的反脚本机制都是在登录时进行验证,据本人大量实战(帮粉丝写脚本)发现,基本上只要有点水平的网站都会有反脚本的 ...

  4. Python爬虫实战——反爬机制的解决策略【阿里】

    这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析 输入" ...

  5. 关于爬虫反爬机制处理方法(整合)

    常见得反爬机制及解决办法 1.针对请求头做出得反爬 简介:网站通过去检查headers中的User-Agent字段来反爬,如果我们没有设置请求头,那么headers默认是python这样就会出现访问失 ...

  6. url中能出现的字符_python爬虫,解决大众点评字符库反爬机制的经验

    刚开始写文章还希望大家可以喜欢,对于爬虫只是个人整理出的方法,爬虫大牛请嘴下留情.""仅限学术交流,如有冒犯请联系作者删除""话不多说,想分析天津地区餐饮行业的 ...

  7. 爬虫-网站地址及反爬机制

    爬虫-网站地址及反爬机制 1.安居客:https://cd.zu.anjuke.com/fangyuan/wuhou/x1/ - requests 2.贝壳找房:https://cd.zu.ke.co ...

  8. 爬虫反爬机制及反爬策略

    参考:https://www.cnblogs.com/LLBFWH/articles/10902533.html 爬虫是一种模拟浏览器对网站发起请求,获取数据的方法.简单的爬虫在抓取网站数据的时候,因 ...

  9. 爬虫--09:反爬机制

    Crawler--09: Anti-Crawling-Mechanismus 一.ua反爬 二.IP反爬 1.相关网址 2.ip反爬 三.图形验证码反扒 1.解决办法 2.tesseract 的使用 ...

最新文章

  1. Hdu 4920矩阵乘法(内存访问的讲究)
  2. 怎么判断ajax返回是否成功,如何判断jquery的ajax请求已经返回
  3. 搜索引擎Solr系列(二): Solr6.2.1 从MySql中导入数据
  4. 如何扩展Android富文本之Html标签
  5. java遍历Set集合
  6. 初学者也能看懂的 Vue2 源码中那些实用的基础工具函数
  7. em模型补缺失值_基于EM算法数据单变量缺失处理方法研究
  8. (pytorch-深度学习系列)pytorch构造深度学习模型-学习笔记
  9. java 磁盘空间_如何使用Java查找剩余的磁盘空间?
  10. Python+pickle读写二进制文件小案例
  11. GDB 命令详细解释
  12. Mac电脑卡在启动模式了怎么办?
  13. 黄聪:php实现关键词高亮
  14. pytorch模型初始化
  15. 无人机会飞丢及编程上的改进思路
  16. Thinking in java Java编程思想 该不该读
  17. RS485通信原理图及程序实例详解
  18. java jdom_java中JDOM的基本使用方法
  19. CCED,一个时代的落幕
  20. umoocs外语慕课答案_umoocs答案怎么查,中国高校外语慕课平台(UMOOCs)答案公众号

热门文章

  1. Android含文档server结束(client UI接口异步请求的一部分)三
  2. 推荐10款 好用的 Jquery 评分插件
  3. 结构体数组(C++)
  4. 知方可补不足~CSS中margin,padding,border-style有几种书写规范
  5. easyui-combobox
  6. linux的文件权限分析
  7. 毕设问题小记——No Dialect mapping for JDBC type:-1错误
  8. 接口测试人员需要掌握的知识技能
  9. glue | 关于胶水函数用法的几个例子
  10. ggplot2 | 坐标标度函数、坐标系统函数