拒绝搜索引擎抓取页面

怎么样拒绝搜索引擎抓取页面?有些时候，我们建立的一些网页，不希望被网友通过搜索引擎找到，该如何做呢?本文介绍了如何使用robots.txt防止搜索引擎抓取页面的一些技巧。

Robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的，在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话，robots.txt 是一个简单有效的工具。这里简单介绍一下怎么使用它。

怎么样拒绝搜索引擎抓取页面?如何放置 Robots.txt 文件

robots.txt自身是一个文本文件。它必须位于域名的根目录中并被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效，因为漫游器只在域名的根目录中查找此文件。例如，http://www.example.com/robots.txt 是有效位置，http://www.example.com/mysite/robots.txt 则不是。

这里举一个robots.txt的例子：

User-agent： *

Disallow： /cgi-bin/

Disallow： /tmp/

Disallow： /~name/

使用 robots.txt 文件拦截或删除整个网站

要从搜索引擎中删除您的网站，并防止所有漫游器在以后抓取您的网站，请将以下 robots.txt 文件放入您服务器的根目录：

User-agent： *

Disallow： /

要只从 Google 中删除您的网站，并只是防止 Googlebot 将来抓取您的网站，请将以下 robots.txt 文件放入您服务器的根目录：

User-agent： Googlebot

Disallow： /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候，这些协议都需要有各自的 robots.txt 文件。例如，要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引，应使用下面的 robots.txt 文件。

对于 http 协议 (http://yourserver.com/robots.txt)：

User-agent： *

Allow： /

对于 https 协议 (https：//yourserver.com/robots.txt)：

User-agent： *

Disallow： /

允许所有的漫游器访问您的网页

User-agent： *

Disallow：

(另一种方法：建立一个空的 "/robots.txt" 文件，或者不使用robot.txt。)

使用 robots.txt 文件拦截或删除网页

您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。例如，如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如，private)的所有网页，可使用以下 robots.txt 条目：

User-agent： Googlebot

Disallow： /private

要阻止 Googlebot 抓取特定文件类型(例如，.gif)的所有文件，可使用以下 robots.txt 条目：

User-agent： Googlebot

Disallow： /*.gif$

要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说，这种网址以您的域名开头，后接任意字符串，然后是问号，而后又是任意字符串)，可使用以下条目：

User-agent： Googlebot

Disallow： /*?

尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引，但如果我们在网络上的其他网页中发现这些内容，我们仍然会抓取其网址并编制索引。因此，网页网址及其他公开的信息，例如指向该网站的链接中的定位文字，有可能会出现在 Google 搜索结果中。不过，您网页上的内容不会被抓取、编制索引和显示。

怎么样拒绝搜索引擎抓取页面?作为网站管理员工具的一部分，Google提供了robots.txt分析工具。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件，并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。在创建一个 robots.txt 文件之前，有必要考虑一下哪些内容可以被用户搜得到，而哪些则不应该被搜得到。这样的话，通过合理地使用 robots.txt ，搜索引擎在把用户带到您网站的同时，又能保证隐私信息不被收录。

转载于:https://blog.51cto.com/29725649/498272

拒绝搜索引擎抓取页面相关推荐

SEO优化篇 - 搜索引擎抓取href=#!锚点
. 由于我们在处理单页应用的时候页面是不刷新的,所以会导致我们的网页记录和内容很难被搜索引擎抓取到. 搜索引擎抓取页面首先要遵循http协议,可是#不是协议内的内容. 而实际上也是这样,我们没有见过搜 ...
蜘蛛能抓取thinkphp的html页面,搜索引擎的蜘蛛是如何爬的，如何吸引蜘蛛来抓取页面...
搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛来抓取页面搜索引擎的工作过程大体可以分成三个阶段: (1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面HTML代码,存到数据库. (2)预处理: ...
服务器处理蜘蛛抓取网页的过程,搜索引擎蜘蛛抓取页面过程图解
学习seo的人经常在网上看到一句话:搜索引擎蜘蛛跟浏览器差不多,都是抓取页面.那么到底哪些一样哪些不一样?Ethan就通过浏览器帮助大家理解搜索引擎蜘蛛怎样抓取页面. 首先看一张图,是用firebug ...
如何让搜索引擎抓取AJAX内容
2019独角兽企业重金招聘Python工程师标准>>> 越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
Python之网络爬虫（验证码、代理IP、防反爬策略、封装一个抓取页面的函数）
文章目录一.使用tesseract做OCR验证码识别二.代理服务器设置三.反爬与防反爬四.封装一个抓取页面的函数一.使用tesseract做OCR验证码识别 1.cookie, sessio ...
Python利用requests抓取页面源代码（基础）
Python利用requests抓取页面源代码(基础) Requests模块是一个用于网络访问的模块. 由于使用到的requests库为第三方库,需要事先对其进行安装 1.1安装requests (1 ...
搜索引擎只能抓取html文件,通过robots屏蔽搜索引擎抓取网站内容
robots协议屏蔽搜索引擎抓取 Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Rob ...
php屏蔽蜘蛛,如何屏蔽垃圾蜘蛛抓取页面
在服务器日常维护过程中我们经常会发现日志中有很多网络蜘蛛爬取的记录,这些蜘蛛有些是知名的并对网站收录流量有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力, ...
阻止搜索引擎抓取网站的工具_使用PHP将抓取的网站转变为搜索引擎
阻止搜索引擎抓取网站的工具 In the previous part of this tutorial, we used Diffbot to set up a crawljob which woul ...

拒绝搜索引擎抓取页面

拒绝搜索引擎抓取页面相关推荐

最新文章

热门文章