一、什么是反爬虫

网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。于是,很多网站开始反网络爬虫,想方设法保护自己的内容。

他们根据ip访问频率,浏览网页速度,账户登录,输入验证码,flash封装,ajax混淆,js加密,图片,css混淆等五花八门的技术,来对反网络爬虫。

防的一方不惜工本,迫使抓的一方在考虑成本效益后放弃,抓的一方不惜工本,防的一方在考虑用户流失后放弃. 【百度百科】

二、反爬虫的原因

1. 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,服务器的压力上升,能力下降。

2018年2月24日晚,卓见云某客户网站公网出流量突然爆发性增长,导致带宽被占满,事故发现后紧急提升了SLB的带宽,但提升后的带宽仍然被流量占满(原带宽15M,提升至35M)。由于事故发生在非黄金访问时段,正常流量不会这么大,加上其他现象,怀疑是遭到了网络攻击。

再比如某节某动为了快速发展搜索业务派出爬虫四处暴力抓取网站内容,部分配置较低的网站已经直接瘫痪,给中小网站主们造成了很大的损失和困扰,严重影响了网站正常的用户访问。

某中小网站今年7月份,他突然发现公司的网站经常性打不开,网页加载极其缓慢,有时甚至直接瘫痪。经过一系列排查后,在服务器日志上发现了bytespider爬虫的痕迹。该爬虫抓取的频率每天达几百万次,高则上千万次,服务器带宽负载飙至100%,而且该爬虫在抓取时完全不遵守网站的robots协议。

有小网站主抱怨表示:某节某动的爬虫“一上午对网站发出46万次请求”,网站都瘫痪了,度娘也没有这么折腾的!

可能原因分析:

1) 商业对手,出于竞争需要,采用爬虫获取信息。

2) 搜素引擎抽风。

3)“三月份爬虫”,应届毕业生为交论文常在这个时间点在网上爬取数据,此类爬虫通常简单粗暴,不管服务器压力。

4)近期做的推广活动带来访问压力增加。

2. 公司可免费查询的资源被批量抓走,丧失竞争力。

数据可以在非登录状态下直接被查询,比如下方的招聘信息

也有网站想获取信息必须强制登陆,如果没有登陆是看不到任何信息的。但是如果不强制对方登录,争对手可以轻松批量抓到更多的信息,企业的竞争力就会大大减少。

3. 状告爬虫成功的几率小

爬虫在国内还是个擦边球,就是有可能可以起诉成功,也可能完全无效。近期引发关注的是淘宝被非法爬取案件,这是成功的案例,还有很多没有成功的案例。

所以还是需要用技术手段来做最后的保障。

三、反什么样的爬虫

新手兴趣爱好者或者是应届毕业生

新手兴趣爱好者、应届毕业生的爬虫通常简单粗暴,根本不管服务器压力,加上人数不可预测,很容易把站点弄挂。

创业小公司

现在的创业公司越来越多,觉得大数据比较热,就开始做大数据。发现自己手头没有数据。怎么办?只能通过写爬虫获取更多的数据。于是就有了不计其数的小爬虫,出于公司生死存亡的考虑,不断爬取数据维持公司的生计。

失控小爬虫

有些网站已经做了相应的反爬,但是爬虫依然孜孜不倦地爬取。虽然他们根本爬不到任何数据,或者一切数据都是不对的,可是爬虫依然不停止。

这可能是最全的反爬虫及应对方案,再也不怕爬不到数据了相关推荐

  1. 文末送书|可能是最全的反爬虫及应对方案

    点击上方"一行数据",选择"置顶星标"公众号 干货福利,第一时间送达 大家好,我是一行 今天分享的文章总结了全网最全的反爬虫方案,强烈建议收藏 爬虫是 Pyth ...

  2. 百万年薪大佬熬夜写作,Python高级编程之反爬虫及应对方案

    写在前面 爬虫是 Python 的一个常见应用场景,很多练习项目就是让大家去爬某某网站 爬取网页的时候,你大概率会碰到一些反爬措施 这种情况下,你该如何应对呢? 本文梳理了常见的反爬措施和应对方案 接 ...

  3. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  4. 爬虫系列4:Requests+Xpath 爬取动态数据

    爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

  5. 爬虫 与反爬虫 及其应对措施

    服务器反爬的原因 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,这样浪费钱(尤其是三月份爬虫). 三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期 ...

  6. python爬虫反爬 对方是如何丧心病狂的通过css_如何应对网站反爬虫策略?如何高效地爬大量数据?...

    爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCl ...

  7. python 反爬策略_如何应对网站反爬虫策略?如何高效地爬大量数据?

    爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCl ...

  8. python应对反爬虫策略_如何应对网站反爬虫策略?如何高效地爬大量数据?

    看了回答区,基本的反爬虫策略都提到了,下面说几个作为补充. 1.对于处理验证码,爬虫爬久了通常网站的处理策略就是让你输入验证码验证是否机器人,此时有三种解决方法:第一种把验证码down到本地之后,手动 ...

  9. 超全开源 Python 爬虫工具箱,走到哪里爬到哪里

    开源最前线 .数据管道综合整理 最近国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱--InfoSpider,一不小心就火了!!! 有多火呢?开源没几天就登上GitHub周榜第 ...

  10. python爬虫教程:实例讲解Python爬取网页数据

    这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧. 一.利用webbrowser.open()打开一个网站: >>> import w ...

最新文章

  1. 经济参考报:想哭病毒为中国网络安全敲警钟
  2. mysql5.7.20+初始化_MySQL5.7.28 初始化数据库
  3. Effective JavaScript Item 33 让构造函数不再依赖newkeyword
  4. Java_GUI创建单机版QQ聊天小程序并实现简单的小功能(附所有源码)
  5. 在linux下设置开机自动启动程序的方法
  6. Session销毁方式
  7. 路由器下一跳地址怎么判断_一篇文章,了解清楚路由器的各种组网
  8. Windows窗口程序
  9. node_modules删不掉
  10. 线程控制-客户端获取信息无反应
  11. 第51篇 Qt 5.5全新的开始
  12. CV/PR:模式识别与图像处理笔试题
  13. Java简单投票系统
  14. html 点击展开显示全部,多行溢出省略号显示及点击展开(css/js)实现!
  15. Python 爬虫小课 2-9 中国妖怪数据库,运行中竟然发现有个色(he)欲(xie)妖怪分类
  16. URL地址中的#符号
  17. [MATLAB学习]:Matlab生成滑动平均滤波算法文件并移植到STM32单片机上运行——基于CubeMX
  18. 做个小钢琴~利用AudioContext获取振荡器并封装成光遇钢琴的样子
  19. 小游戏进入增长快车道,行业变现模式分析
  20. Teradata和Exadata

热门文章

  1. 非科班学生党的2022秋招之路 -- 一路艰辛
  2. 网络历史之金融投资三剑客03
  3. 在Linux下实现一个使用键盘控制的虚拟鼠标
  4. 【每日一知】什么是TAOCP? (2021.02.07)
  5. SQL数据库置疑恢复
  6. Javascript分页:模拟后台返回数据方法
  7. 小米便签产品级的源码
  8. 世界记忆大师的记忆力训练方法
  9. ubuntu1804系统设置在哪里_Ubuntu 1804.4 server版本的安装及配置网络和图形化界面
  10. 身份证阅读器在国产操作系统Linux内核中的二次开发