反爬概述

网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。

但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。

于是,很多网站开始反网络爬虫,想方设法保护自己的内容。

他们根据ip访问频率,浏览网页速度,账户登录,输入验证码,flash封装,ajax混淆,js加密,图片等技术,来应对网络爬虫。

防的一方不惜成本,迫使抓的一方在考虑成本效益后放弃。

抓的一方不惜成本,防的一方在考虑用户流失后放弃。

反爬策略

一: User-Agent +Referer检测

User-Agent 是HTTP协议的中的一个字段, 其作用是描述发出HTTP请求的终端的一些信息。

使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

服务器通过这个字段就可以知道访问网站的是什么人。对于不是正常浏览器的用户进行屏蔽。

解决方案: 伪装浏览器的User-Agent,因为每个浏览器的User-Agent不一样,并且所有

的用户都能使用浏览器。所有每次请求的时候条件浏览器的User-Agent,就能解决UA检测

Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,

告诉服务器我是从哪个页面链接过来的。例如有一些图片网站在你请求图片的时候,就会检测

你的Referer值,如果Referer不符合,不会返回正常的图片。

解决方案:在检测referer的请求中,携带符合的referer值。

二: js混淆和渲染

所谓 JavaScript 混淆,基本就是:

1.去掉一些实际没有调用的函数。

2.将零散的变量声明合并。

3.逻辑函数的精简。

4.变量名的简化。具体要看不同的压缩工具的考虑优劣。常见的有UglifyJS、JScrambler等工具。

js渲染其实就是对HTML页面的修改。比如有一些网页本身没有返回数据,数据是经过js加载之后添加到HTML当中的。当遇到这种情况的时候,我们要知道爬虫是不会执行JavaScript操作。所以需要用其他的方法处理。

解决方案:

1.通过阅读网站js源码,找到关键的代码,并用python实现。

2.通过阅读网站js源码,找到关键的代码,用PyV8,execjs等库直接执行js代码。

3.通过selenium库直接模拟浏览器环境

三:IP限制频次

WEB系统都是走http协议跟WEB容器连通的,每次请求至少会产生一次客户端与服务器的tcp连接。

对于服务端来说可以很清楚的查看到,一个ip地址在单位时间内发起的请求。

当请求数超过一定的值之后,就可判断为非正常的用户请求。

解决方案:

1.自行设计ip代理池,通过轮换的方式,每次请求携带不同的代理地址。

2.ADSL动态拨号他有个独有的特点,每拨一次号,就获取一个新的IP。也就是它的IP是不固定的。

四:验证码

验证码(CAPTCHA)是“Completely Automated PublicTuring test to tell Computers and Humans

Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。

可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。

这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答

CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。

解决方案:

1.手动识别验证码

2.pytesseract识别简单的验证码

3.对接打码平台

4.机器学习

一篇文章让你了解什么是反爬相关推荐

  1. 用一篇文章说清楚如何写作

    专门讲写作的书就有一大堆,这事能用一篇文章说清楚吗? 答案是能的,不信你往下看. 写之前要先弄清楚文章属于什么类型,类型不同写法当然不一样.以沟通为目的的文章最好写,虚构类文章不好写,因为你还要先虚构 ...

  2. 一篇文章搞定GVIM(根据工作经验持续更新)

    文章目录 0.引言 1.在Linux下面安装VIM 2.基本操作 2.1三种模式 2.1 保存退出:wq没反应?! 2.2 解决鼠标不能用的问题 2.3 VIM上下左右移动hjkl 2.4 跳转到第n ...

  3. 8问8答,一篇文章读懂空间音效

    近日,第一届网易集团创新奖评选落下帷幕,网易智企"逼近人耳极限-音频通话"项目从众多参赛作品中脱颖而出,荣获"0-1创新奖"三等奖. 此次获奖的项目诞生于网易智 ...

  4. 一篇文章让你从JAVA零基础入门`OOP`编程12.19

    一篇文章让你从JAVA零基础入门OOP编程 前言: 此文为玄子,复习ACCP-S1课程后,整理的文章,文中对知识点的解释仅为个人理解. 配套PPT,站点源码,等学习资料 一.预科 1.1 JAVA 介 ...

  5. 一篇文章贯通wpf的本质(W我P佩F服)

    一篇文章贯通wpf的本质(W我P佩F服) WPF - 本质:数据和行为     简述: Windows Presentation Foundation  中文译为"Windows呈现基础&q ...

  6. 全面认识二极管,一篇文章就够了

    电子设计基础元器件 二极管,小小二极管,大大用途. ... 矜辰所致 目录 前言 一.二极管基础知识 1.1 什么是二极管 1.2 二极管的组成 1.3 二极管的原理 二.二极管特性 2.1 伏安特性 ...

  7. 一篇文章带你了解webscraper爬虫插件

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来. ...

  8. 2.3W字,这可能是把Nginx讲得最全面的一篇文章了,建议收藏备用

    前言 Nginx 概述 Nginx 特点 Nginx 作用 Nginx 安装 Nginx 常用命令 Nginx 核心配置 配置文件结构 配置文件 main 段核心参数 配置文件 events 段核心参 ...

  9. 一篇文章让你从JAVA零基础入门`OOP`编程12.20

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(QQ_3336392096.png)] 一篇文章让你从JAVA零基础入门OOP编程 前言: 此文为玄子,复习ACCP-S1课程后, ...

最新文章

  1. API 23之前的版本都是自动获取权限,而从 Android 6.0 开始添加了权限申请的需求,更加安全。
  2. Could not load type 'System.Web.Mvc.ViewPagedynamic' in asp.net mvc2 after publishing the website
  3. 中国反渗透膜产业竞争现状与投资战略决策报告2021-2027年版
  4. 【Python】判断字符串 str 是否为空
  5. python培训的课时是多久_如何快速学习python,学习python的最短时间是多久?
  6. centos配置ftp
  7. 408计算机先学哪个,408计算机统考各科难度分析
  8. 旧金山运输系统攻击者威胁将公布消费者和职工个人数据
  9. hdu 2243(poj2778的加强版!(AC自动机+矩阵))
  10. 20200724:力扣197周周赛上
  11. oppo手机解锁_oppo手机密码解锁大全【图文】
  12. 计算机主板运算放大器电路,常用运算放大器电路图 (全集)
  13. RouterOS 6.48.6 安装与配置
  14. 【mud】xyj450里的toy下的buwawa脚本问题
  15. Studio3T导入导出MongoDB数据
  16. [Python] 2的N次方
  17. 白杨SEO:SEO转型系列之四,SEO如何转型自媒体?转型方向有哪些?
  18. 更新3ds时和用读卡器读取传输文件操作不当导致的tf卡损坏无法读取需要格式化时出现的问题以及不想丢失文件并且修复的详细解决方法
  19. Matlab 用途(我的理解)
  20. 京东到家djencrypt和signKeyV1还原

热门文章

  1. 用户读书喜好推荐数据分析
  2. 遥感中常用的植被指数
  3. 还原杭州“8·4”保时捷撞人现场
  4. 除甲醛产品哪个好?除甲醛产品十大品牌第一名
  5. 2016年9月15日 星期四 --出埃及记 Exodus 17:11
  6. 新型环保纳米集成墙板原来有这么优点,你知道多少?
  7. 为什么说你一定要使用A/B测试?
  8. 大数据之路之Linux篇
  9. 香港大学MSc面试经验分享 | 2019.2.23北京场
  10. 第12期 《在路上》11月刊