如何使用robots禁止各大搜索引擎爬虫爬取网站

一、总结

一句话总结:假如此网站禁止爬虫抓取,那么,只要在网站的根目录下,创建一个robots.txt文件

User-agent: *
Disallow: /
就可以了..

1、搜索引擎在爬取网站前会做什么?

一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面)

2、robots.txt文件的内容和结构是怎样的?

    1).robots.txt文件必须是放在文件根目录上:
      例如:

        ├─admin

        │  └─templates

        │          header.tpl.php

        │          task_add.tpl.php

        │   └─robots.txt

     2 ) .首先常用的命令为

        User-agent : 可以具体制定User-agent适用,即搜索引擎的名字,如果为 * 的话则为通配

        Disallow : 可以设定档案或文件夹,不允许被爬虫爬取,且为 / 时禁止爬取整站 ,也可以指定文件路径,不可爬取

        Crawl-delay: 延时爬取,防止爬虫短时间内爬取网站过快导致网站崩溃,则可以设置该延时

        Allow : 允许爬取指定页面, 为 / 时爬取整站

    3) 搜索引擎别称

        Googlebot 谷歌

        Baiduspider 百度

        等等

3、搜索引擎的好处和坏处是什么?

不好的地方会增加网站的访问负荷;有时,还会涉及到用户的隐私;

好的地方也是增加了访问流量;

4、一般彻底防止爬虫用什么方法?

如果需要防止的话,就需要监测网站,把一些不良网络爬虫的给堵止掉,一般是封IP。

robots.txt只能防止有品的爬虫来爬

二、如何使用robots禁止各大搜索引擎爬虫爬取网站

ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波

   1.原来一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面)

    2.下面我们就来说一说如何设置robots.txt文件

    1).robots.txt文件必须是放在文件根目录上:
      例如:

        ├─admin

        │  └─templates

        │          header.tpl.php

        │          task_add.tpl.php

        │   └─robots.txt

     2 ) .首先常用的命令为

        User-agent : 可以具体制定User-agent适用,即搜索引擎的名字,如果为 * 的话则为通配

        Disallow : 可以设定档案或文件夹,不允许被爬虫爬取,且为 / 时禁止爬取整站 ,也可以指定文件路径,不可爬取

        Crawl-delay: 延时爬取,防止爬虫短时间内爬取网站过快导致网站崩溃,则可以设置该延时

        Allow : 允许爬取指定页面, 为 / 时爬取整站

    3) 搜索引擎别称

        Googlebot 谷歌

        Baiduspider 百度

        等等

  类似我们测试环境就设置了

    User-agent : / 所有搜索引擎

    Disallow : / 禁止整站

参考:如何使用robots禁止各大搜索引擎爬虫爬取网站 - link_xjxj - 博客园
https://www.cnblogs.com/jjq-exchange/p/9549989.html

        

三、网站肉容如何避免被百度google爬虫抓取

什么是网络爬虫?
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

爬虫有好处也有坏处:

威胁主要是流量方面,包括爬虫的访问以及搜索引擎被使用带来的实际用户访问。

对网站有好有坏,

不好的地方会增加网站的访问负荷;有时,还会涉及到用户的隐私;

好的地方也是增加了访问流量;

如果搜索引擎收录了你的网站,你的网站的流量会增加,也就是有更多的用户访问量。

你想让更多用户知道的话,就允许网络爬虫,如果需要防止的话,就需要监测网站,把一些不良网络爬虫的给堵止掉,一般是封IP。 正常情况下,在网站的目录下放一个robots.txt的文件,里面可以声明禁止爬虫来爬,做为一个有品的爬虫程序,就不去爬了,当然没品的不在此列。
如何来配置一个robots.txt文件?

其实是比较简单的,
User-agent: * 表示所有的爬虫,即对所有的爬虫都有作用;
Allow: 表示允许爬虫访问,抓取的内容
Disallow: 禁止爬虫抓取的内容

假如此网站禁止爬虫抓取,那么,只要在网站的根目录下,创建一个robots.txt文件
User-agent: *
Disallow: /
就可以了..

关于爬虫的文章:
http://www.javaeye.com/topic/718874
http://robbin.javaeye.com/blog/451014

参考:网站肉容如何避免被百度google爬虫抓取 - CSDN博客
https://blog.csdn.net/wqdwin/article/details/47164889

转载于:https://www.cnblogs.com/Renyi-Fan/p/9711711.html

如何使用robots禁止各大搜索引擎爬虫爬取网站相关推荐

  1. python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址

    认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...

  2. JAVA爬取虎嗅网截图_java爬虫爬取网站使用多线程(虎嗅网站)

    java爬虫爬取网站使用多线程(虎嗅网站) java爬虫爬取网站使用多线程(虎嗅网站) 图解虎嗅爬虫优化方案 pom 如下: org.apache.httpcomponents httpclient ...

  3. Python网络爬虫——爬取网站图片小工具

    最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...

  4. Python爬虫爬取网站小漫画

    python爬取小漫画 最近在google冲浪的时候发现一个很有意思的漫画网站,可以看韩国的小漫画,但是只可以看很少的一部分,后面的需要付费观看,于是就想着怎么才能免费看到这个网站的所有漫画. 于是我 ...

  5. Python爬虫 爬取网站全部图片实战

    一.获得图片地址 和 图片名称 1.进入网址之后 按F12  打开开发人员工具点击elemnts 2.点击下图的小箭头 选择主图中的任意一个图片   那我们这里点击第一个 图片 3.显示控制台 为了验 ...

  6. python学习(二)爬虫——爬取网站小说并保存为txt文件(二)

    前面我们已经完成了单章小说的爬取,现在我们来爬取整本小说 一:获取小说章节列表 在小说网站里没不 小说都有自己的章节目录,里面记录了所有的小说章节地址. 我们要想获取整本小说就要先得到小说的章节列表 ...

  7. 爬虫——爬取网站上的图片

    1. 利用python request库爬取网站图片 爬取网站:http://www.pes-stars.co.ua/?page1/ 进入网站后,按F12,打开开发者模式,[元素],通过鼠标移动的方式 ...

  8. python爬取学校新闻_python爬虫爬取新闻的简单实现

    我们通常是使用爬虫爬取网站信息,其实网络爬虫是一种应用于搜索引擎的程序.使用python爬虫可以将一个网站的所有内容与链接进行阅读.例如我们每日都要获取新闻信息,利用python爬虫就可以帮助我们爬取 ...

  9. python爬去新浪微博_Python爬虫爬取新浪微博内容示例【基于代理IP】

    Python爬虫爬取新浪微博内容示例[基于代理IP] 发布时间:2020-09-07 10:08:14 来源:脚本之家 阅读:120 本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参 ...

最新文章

  1. 余承东:国内用华为P40 Pro+就能拍照测体温,还很精准
  2. Entropy Broker 2.0 发布,加密安全随机数
  3. Spring (1) 认识Spring、 介绍Spring特点、解答为什么学习Spring
  4. 数据库原理及应用【二】数据模型
  5. Makefile文件(四)_书写命令
  6. C语言进行CGI程序设计
  7. 在安卓手机上编写和运行Python 3.x程序
  8. 「 博客迁移声明 」迫于想折腾个人博客
  9. 戴尔电脑开机之后闪黄灯系统不能启动
  10. React Native : AsyncStorage 存储
  11. (转)拿到软银44亿美金巨资后,WeWork要这样布局中国市场
  12. SQL server2019安装教程
  13. Shiro面试题答案
  14. Android进阶之路(快速进阶第二天)RxAndroid使用
  15. 【摘抄】为什么要学C语言
  16. 怎样把c语言软件卸载干净,怎么把一个软件卸载干净_小编教你彻底卸载软件的方法-系统城...
  17. DDR的ZQ校准信号-翻译
  18. RN实现仿余额宝余额数字翻滚动画特效
  19. 【Linux入门指北】Linux实验综合训练
  20. Oracle 到 GP 部分函数转换

热门文章

  1. Java静态变量与静态方法与成员变量成员方法的区别
  2. JavaScript 技术篇-js获取iframe内的元素方法实例演示
  3. CTFshow 信息收集 web20
  4. [YTU]_2781( 重复字符串)
  5. Bag of Word
  6. 【Kaggle-MNIST之路】CNN+改进过的损失函数+多次的epoch(四)
  7. CSS设置样式时,鼠标移动到div上,发生抖动问题解决办法
  8. Windows下用PIP安装scipy出现 no lapack/blas resources found
  9. knn人脸识别判断_WEEK1_LRamp;KNN
  10. 修改Centos7的网卡ens32 改为eth0