恶意的蜘蛛行为不光会造成服务器的压力,并且对seo没有实质性用处,下面就拿SemrushBot蜘蛛为例来说明如何防止恶意爬取

SemrushBot蜘蛛原型

SemrushBot蜘蛛爬虫UA:"Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"

为什么要屏蔽SemrushBot蜘蛛抓取

1、SemrushBot蜘蛛抓取过多增加网站服务器负担

2、SemrushBot不会给网站带来实质性帮助

SemrushBot蜘蛛爬虫屏蔽:通过robots.txt

User-Agent: SemrushBot

Disallow: /

注意:但是很多爬虫对robots.txt视若罔闻,照样来爬取本站的内容,那我们就从服务器端来屏蔽爬取的爬取

apache服务器通过.htaccess来屏蔽

RewriteCond %{HTTP_USER_AGENT} ".*(SemrushBot|GoogleBot).*" [OR]

ngnix服务器通过伪静态来屏蔽

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Cont

网站服务器 如何防止恶意爬虫抓取相关推荐

  1. python网站数据写入mysql_python网络爬虫抓取动态网页并将数据存入数据库MySQL

    简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...

  2. python爬虫抓取网站技巧总结

    不知道为啥要说是黑幕了??哈哈哈-..以后再理解吧 python爬虫抓取网站的一些总结技巧 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛 ...

  3. python爬虫资源大全_Python爬虫抓取纯静态网站及其资源(基础篇)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:程序员宝库 **( 想要学习Python?Python ...

  4. Python爬虫抓取某音乐网站MP3(下载歌曲、存入Sqlite)

    Python爬虫抓取某音乐网站MP3(下载歌曲.存入Sqlite) 最近右胳膊受伤,打了石膏在家休息.为了实现之前的想法,就用左手打字.写代码,查资料完成了这个资源小爬虫.网页爬虫, 最主要的是协议分 ...

  5. 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据

    Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...

  6. 爬虫抓取糯米网上所有商家数据

    前段时间写了 爬取美团商家信息的博客 爬虫抓取美团网上所有商家信息 ,这次说说爬取糯米网,由于某些原因无法提供源代码,但是,代码不是关键,最关键的是思想,懂了思想,代码是很容易写的. 爬虫最重要的是分 ...

  7. 爬虫抓取网络数据时经常遇到的六种问题

    随着互联网时代的不断发展,爬虫采集已经成为了目前最为主流的数据获取方式.使用爬虫软件自动从网站中提取数据可以节省大量的时间和精力.但是,如果网站所有者发现了用户的真实IP地址,往往就会直接选择进行限制 ...

  8. 爬虫抓取58简历之字库解密

    爬虫抓取58同城 反反爬虫之字库解密 2019.03.01更新 前言 看不懂的字体 解密字库 字库自动解密API 2019.03.01更新 定制简历采集软件wechat联系13939147257. 解 ...

  9. 通过Python3 爬虫抓取漫画图片

    通过Python3 爬虫抓取漫画图片 引言: 最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码! 第一步: 准备环境 和类 ...

最新文章

  1. 使用Zabbix通过BMC管理口监控HP服务器
  2. Numpy入门教程:03.数组操作
  3. MPB:华中师大谢波组-​​​微生物非标记定量蛋白质组学样品制备方法
  4. jfinal linux 乱码,分享JFinal中renderFile方法中文文件名乱码问题的解决办法
  5. windos10下编译opencv_4.0.1+opencv-contrib_4.0.1
  6. Jeecg-Boot前后端分离,针对敏感数据,加密传递方案
  7. Linux Software RAID的rebuild速度。
  8. Ubuntu 15 安装Chromium浏览器并添加Flash插件Pepper Flash Player
  9. ARM全新Armv9架构:10年最大更新、增强AI和security能力
  10. Linux Linux常用命令二
  11. 摆摊神器五菱荣光爆红后,上汽大通房车又成夜市新晋网红
  12. 中国农业病虫害防治行业市场供需与战略研究报告
  13. linux能上ps吗,在linux上使用ps(转载)
  14. 编写程序把一个保存有二进制小数的字符数组转换为浮点数
  15. 为什么我得到javafx.fxml.LoadException甚至fxml文件的路径都是正确的
  16. 全球餐厅库存管理软件行业调研及趋势分析报告
  17. html5判断文字超过几行,判断文字数量超过2行 添加展开按钮 未超过两行则不显示按钮 溢出部分显示省略号...
  18. 数据可视化之美-动态图绘制【补充】(以Python为工具)
  19. 计算机无法读取配置文件,由于权限不足,无法读取配置文件
  20. 前端常用得CSS代码分享

热门文章

  1. 与世界顶级公关公司对话笔记
  2. DotNetBar(二)
  3. sigmoid函数和tanh函数和relu函数和leaky_relu函数
  4. Bean用@Autowire注解自动装配
  5. 京东最牛女助理:名下有427家企业 在195家担任法人
  6. C语言删除TXT文本文件最后一行
  7. html界面js自动适应页面,JS实现DIV高度自适应窗口示例
  8. 烧数亿美元、耗上万颗英伟达 GPU,微软揭秘构建 ChatGPT 背后超级计算机往事 !...
  9. 制作网页常见图片格式及特性介绍
  10. 关于亚马逊Neptune图形数据库简介