这可能是最全的反爬虫及应对方案，再也不怕爬不到数据了

一、什么是反爬虫

网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。但是当网络爬虫被滥用后，互联网上就出现太多同质的东西，原创得不到保护。于是，很多网站开始反网络爬虫,想方设法保护自己的内容。

他们根据ip访问频率，浏览网页速度，账户登录，输入验证码，flash封装，ajax混淆，js加密，图片，css混淆等五花八门的技术，来对反网络爬虫。

防的一方不惜工本，迫使抓的一方在考虑成本效益后放弃,抓的一方不惜工本，防的一方在考虑用户流失后放弃. 【百度百科】

二、反爬虫的原因

1. 爬虫占总PV（PV是指页面的访问次数，每打开或刷新一次页面，就算做一个pv）比例较高，服务器的压力上升，能力下降。

2018年2月24日晚，卓见云某客户网站公网出流量突然爆发性增长，导致带宽被占满，事故发现后紧急提升了SLB的带宽，但提升后的带宽仍然被流量占满（原带宽15M，提升至35M）。由于事故发生在非黄金访问时段，正常流量不会这么大，加上其他现象，怀疑是遭到了网络攻击。

再比如某节某动为了快速发展搜索业务派出爬虫四处暴力抓取网站内容，部分配置较低的网站已经直接瘫痪，给中小网站主们造成了很大的损失和困扰，严重影响了网站正常的用户访问。

某中小网站今年7月份，他突然发现公司的网站经常性打不开，网页加载极其缓慢，有时甚至直接瘫痪。经过一系列排查后，在服务器日志上发现了bytespider爬虫的痕迹。该爬虫抓取的频率每天达几百万次，高则上千万次，服务器带宽负载飙至100%，而且该爬虫在抓取时完全不遵守网站的robots协议。

有小网站主抱怨表示：某节某动的爬虫“一上午对网站发出46万次请求”，网站都瘫痪了，度娘也没有这么折腾的！

可能原因分析：

1) 商业对手，出于竞争需要，采用爬虫获取信息。

2) 搜素引擎抽风。

3)“三月份爬虫”，应届毕业生为交论文常在这个时间点在网上爬取数据，此类爬虫通常简单粗暴，不管服务器压力。

4)近期做的推广活动带来访问压力增加。

2. 公司可免费查询的资源被批量抓走，丧失竞争力。

数据可以在非登录状态下直接被查询，比如下方的招聘信息

也有网站想获取信息必须强制登陆，如果没有登陆是看不到任何信息的。但是如果不强制对方登录，争对手可以轻松批量抓到更多的信息，企业的竞争力就会大大减少。

3. 状告爬虫成功的几率小

爬虫在国内还是个擦边球，就是有可能可以起诉成功，也可能完全无效。近期引发关注的是淘宝被非法爬取案件，这是成功的案例，还有很多没有成功的案例。

所以还是需要用技术手段来做最后的保障。

三、反什么样的爬虫

新手兴趣爱好者或者是应届毕业生

新手兴趣爱好者、应届毕业生的爬虫通常简单粗暴，根本不管服务器压力，加上人数不可预测，很容易把站点弄挂。

创业小公司

现在的创业公司越来越多，觉得大数据比较热，就开始做大数据。发现自己手头没有数据。怎么办？只能通过写爬虫获取更多的数据。于是就有了不计其数的小爬虫，出于公司生死存亡的考虑，不断爬取数据维持公司的生计。

失控小爬虫

有些网站已经做了相应的反爬，但是爬虫依然孜孜不倦地爬取。虽然他们根本爬不到任何数据，或者一切数据都是不对的，可是爬虫依然不停止。