如何使用robots禁止各大搜索引擎爬虫爬取网站
如何使用robots禁止各大搜索引擎爬虫爬取网站
一、总结
一句话总结:假如此网站禁止爬虫抓取,那么,只要在网站的根目录下,创建一个robots.txt文件
User-agent: *
Disallow: /
就可以了..
1、搜索引擎在爬取网站前会做什么?
一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面)
2、robots.txt文件的内容和结构是怎样的?
1).robots.txt文件必须是放在文件根目录上:
例如:
├─admin
│ └─templates
│ header.tpl.php
│ task_add.tpl.php
│ └─robots.txt
2 ) .首先常用的命令为
User-agent : 可以具体制定User-agent适用,即搜索引擎的名字,如果为 * 的话则为通配
Disallow : 可以设定档案或文件夹,不允许被爬虫爬取,且为 / 时禁止爬取整站 ,也可以指定文件路径,不可爬取
Crawl-delay: 延时爬取,防止爬虫短时间内爬取网站过快导致网站崩溃,则可以设置该延时
Allow : 允许爬取指定页面, 为 / 时爬取整站
3) 搜索引擎别称
Googlebot 谷歌
Baiduspider 百度
等等
3、搜索引擎的好处和坏处是什么?
不好的地方会增加网站的访问负荷;有时,还会涉及到用户的隐私;
好的地方也是增加了访问流量;
4、一般彻底防止爬虫用什么方法?
如果需要防止的话,就需要监测网站,把一些不良网络爬虫的给堵止掉,一般是封IP。
robots.txt只能防止有品的爬虫来爬
二、如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波
1.原来一般来说搜索引擎爬取网站时都会,先读取下robots.txt文件,并依照里面所设定的规则去爬取网站(当然是指没用登录限制的页面)
2.下面我们就来说一说如何设置robots.txt文件
1).robots.txt文件必须是放在文件根目录上:
例如:
├─admin
│ └─templates
│ header.tpl.php
│ task_add.tpl.php
│ └─robots.txt
2 ) .首先常用的命令为
User-agent : 可以具体制定User-agent适用,即搜索引擎的名字,如果为 * 的话则为通配
Disallow : 可以设定档案或文件夹,不允许被爬虫爬取,且为 / 时禁止爬取整站 ,也可以指定文件路径,不可爬取
Crawl-delay: 延时爬取,防止爬虫短时间内爬取网站过快导致网站崩溃,则可以设置该延时
Allow : 允许爬取指定页面, 为 / 时爬取整站
3) 搜索引擎别称
Googlebot 谷歌
Baiduspider 百度
等等
类似我们测试环境就设置了
User-agent : / 所有搜索引擎
Disallow : / 禁止整站
参考:如何使用robots禁止各大搜索引擎爬虫爬取网站 - link_xjxj - 博客园
https://www.cnblogs.com/jjq-exchange/p/9549989.html
三、网站肉容如何避免被百度google爬虫抓取
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
爬虫有好处也有坏处:
威胁主要是流量方面,包括爬虫的访问以及搜索引擎被使用带来的实际用户访问。
对网站有好有坏,
不好的地方会增加网站的访问负荷;有时,还会涉及到用户的隐私;
好的地方也是增加了访问流量;
如果搜索引擎收录了你的网站,你的网站的流量会增加,也就是有更多的用户访问量。
你想让更多用户知道的话,就允许网络爬虫,如果需要防止的话,就需要监测网站,把一些不良网络爬虫的给堵止掉,一般是封IP。 正常情况下,在网站的目录下放一个robots.txt的文件,里面可以声明禁止爬虫来爬,做为一个有品的爬虫程序,就不去爬了,当然没品的不在此列。
如何来配置一个robots.txt文件?
其实是比较简单的,
User-agent: * 表示所有的爬虫,即对所有的爬虫都有作用;
Allow: 表示允许爬虫访问,抓取的内容
Disallow: 禁止爬虫抓取的内容
假如此网站禁止爬虫抓取,那么,只要在网站的根目录下,创建一个robots.txt文件
User-agent: *
Disallow: /
就可以了..
关于爬虫的文章:
http://www.javaeye.com/topic/718874
http://robbin.javaeye.com/blog/451014
https://blog.csdn.net/wqdwin/article/details/47164889
转载于:https://www.cnblogs.com/Renyi-Fan/p/9711711.html
如何使用robots禁止各大搜索引擎爬虫爬取网站相关推荐
- python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
- JAVA爬取虎嗅网截图_java爬虫爬取网站使用多线程(虎嗅网站)
java爬虫爬取网站使用多线程(虎嗅网站) java爬虫爬取网站使用多线程(虎嗅网站) 图解虎嗅爬虫优化方案 pom 如下: org.apache.httpcomponents httpclient ...
- Python网络爬虫——爬取网站图片小工具
最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...
- Python爬虫爬取网站小漫画
python爬取小漫画 最近在google冲浪的时候发现一个很有意思的漫画网站,可以看韩国的小漫画,但是只可以看很少的一部分,后面的需要付费观看,于是就想着怎么才能免费看到这个网站的所有漫画. 于是我 ...
- Python爬虫 爬取网站全部图片实战
一.获得图片地址 和 图片名称 1.进入网址之后 按F12 打开开发人员工具点击elemnts 2.点击下图的小箭头 选择主图中的任意一个图片 那我们这里点击第一个 图片 3.显示控制台 为了验 ...
- python学习(二)爬虫——爬取网站小说并保存为txt文件(二)
前面我们已经完成了单章小说的爬取,现在我们来爬取整本小说 一:获取小说章节列表 在小说网站里没不 小说都有自己的章节目录,里面记录了所有的小说章节地址. 我们要想获取整本小说就要先得到小说的章节列表 ...
- 爬虫——爬取网站上的图片
1. 利用python request库爬取网站图片 爬取网站:http://www.pes-stars.co.ua/?page1/ 进入网站后,按F12,打开开发者模式,[元素],通过鼠标移动的方式 ...
- python爬取学校新闻_python爬虫爬取新闻的简单实现
我们通常是使用爬虫爬取网站信息,其实网络爬虫是一种应用于搜索引擎的程序.使用python爬虫可以将一个网站的所有内容与链接进行阅读.例如我们每日都要获取新闻信息,利用python爬虫就可以帮助我们爬取 ...
- python爬去新浪微博_Python爬虫爬取新浪微博内容示例【基于代理IP】
Python爬虫爬取新浪微博内容示例[基于代理IP] 发布时间:2020-09-07 10:08:14 来源:脚本之家 阅读:120 本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参 ...
最新文章
- 余承东:国内用华为P40 Pro+就能拍照测体温,还很精准
- Entropy Broker 2.0 发布,加密安全随机数
- Spring (1) 认识Spring、 介绍Spring特点、解答为什么学习Spring
- 数据库原理及应用【二】数据模型
- Makefile文件(四)_书写命令
- C语言进行CGI程序设计
- 在安卓手机上编写和运行Python 3.x程序
- 「 博客迁移声明 」迫于想折腾个人博客
- 戴尔电脑开机之后闪黄灯系统不能启动
- React Native : AsyncStorage 存储
- (转)拿到软银44亿美金巨资后,WeWork要这样布局中国市场
- SQL server2019安装教程
- Shiro面试题答案
- Android进阶之路(快速进阶第二天)RxAndroid使用
- 【摘抄】为什么要学C语言
- 怎样把c语言软件卸载干净,怎么把一个软件卸载干净_小编教你彻底卸载软件的方法-系统城...
- DDR的ZQ校准信号-翻译
- RN实现仿余额宝余额数字翻滚动画特效
- 【Linux入门指北】Linux实验综合训练
- Oracle 到 GP 部分函数转换
热门文章
- Java静态变量与静态方法与成员变量成员方法的区别
- JavaScript 技术篇-js获取iframe内的元素方法实例演示
- CTFshow 信息收集 web20
- [YTU]_2781( 重复字符串)
- Bag of Word
- 【Kaggle-MNIST之路】CNN+改进过的损失函数+多次的epoch(四)
- CSS设置样式时,鼠标移动到div上,发生抖动问题解决办法
- Windows下用PIP安装scipy出现 no lapack/blas resources found
- knn人脸识别判断_WEEK1_LRamp;KNN
- 修改Centos7的网卡ens32 改为eth0