在SEO优化网站结构时,控制网页抓取、索引是常用的技术。常用工具包括:

机器人文件。

网页noindex标签。

nofollow属性链接。

网页301转向。

页面的标签等。

这些工具各有特定的应用场景,但都是用来控制网站内部结构的,容易混淆,经常需要配合使用。SEO必须准确理解这些工具的机制和原理,否则容易出错。

这个帖子讨论了robots文件。

robots文件是放置在域名(或子域名)根目录下的,文件名固定在robots.txt上,UTF8编码,纯ASCII文本文件,用于通知搜索引擎,网站的哪些部分可以被抓取,哪些是禁止的。robots.txt适用于域名(或子域名)。

在抓取网站页面之前,搜索引擎蜘蛛会先看看robots.txt的内容,哪些页面可以抓取,哪些页面被站长禁止抓取。当然,是否遵守robots文件的规则取决于自觉,有些坏蜘蛛不遵守,站长也没办法,比如收集内容,克隆网站。

所有搜索引擎支持的机器人文件记录包括:

Disallow-告诉蜘蛛不要抓取某些文件或目录。以下代码将阻止蜘蛛抓取所有站点文件:

User-agent:*

Disallow:/

Allow——告诉蜘蛛应该抓取一些文件。Allow和Disallow可以一起使用,告诉蜘蛛在某个目录下,大部分不抓,只抓一部分。以下代码将使蜘蛛不抓取ab目录下的其他文件,而只抓取cd下的文件:

User-agent:*

Disallow:/ab/

Allow:/ab/cd。

$通配符-匹配URL末尾的字符。以下代码允许蜘蛛访问以.htm为后缀的URL:

User-agent:*

Allow:。htm$。

*通配符——告诉蜘蛛匹配任何一个字符。以下代码将禁止蜘蛛抓取所有htm文件:

User-agent:*

Disallow:/*.htm

位置-告诉蜘蛛你的网站地图在哪里,格式如下:

Sitemap:

此外提醒大家注意,robots.txt文件可以不存在,返回404错误意味着蜘蛛可以抓取所有内容。但是在抓取robots.txt文件时,会出现超时等错误,可能会导致搜索引擎不包含网站,因为蜘蛛不知道robots.txt文件是否存在,或者里面有什么,这和确认文件不存在是不一样的。

此外,如果404页面包含一些URL,可能会导致搜索引擎错误地将404页面的内容视为robots文件的内容,从而导致不可预测的后果。因此,即使所有搜索引擎蜘蛛都想打开,也最好放一个robots文件,即使是空的。

掌握robots文件的使用和写索引擎优化的基本技能。当页面没有被收录或急剧下降时,机器人文件也应该首先检查。

怎样写Robots文件?相关推荐

  1. 怎样写robots.txt实例

    资料一 1.robots.txt文件是什么 robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件.robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.每 ...

  2. tinyxml 读取文本节点_【C++】【TinyXml】xml文件的读写功能使用——写xml文件

    TinyXml工具是常用比较简单的C++中xml读写的工具 需要加载 #include "TinyXml\tinyxml.h" 在TinyXML中,根据XML的各种元素来定义了一些 ...

  3. OC中的数组,常使用的函数,怎样将字符串写到文件中,将数组写到文件中

    现在我要解决的问题是什么,怎样将字符串写到文件中 NSString *str1=@"Hello World";//首先是定义一个字符串,也就是要操作的字符串 NSString *f ...

  4. pymatgen读/写各种文件

    PS:请见文末的打赏选项 pymatgen读/写各种文件 pymatgen是材料大数据计算的必备程序包了,其也作为API与materials project对接,可以批量下载自己想要的材料结构.性质, ...

  5. Linux下使用tee既在屏幕上显示输出,又把输出写进文件

    Linux下的tee是一个很好用的工具,可以把重定向屏幕输出到文件的同时在屏幕上显示输出 使用示例如下: command | tee stdout.log 这里有一个需要注意的坑点,上面的命令只是把标 ...

  6. HDLBits 系列(40)如何写 TestBench 文件?

    目录 序言 变量定义 时钟设计 设计输入 模块例化 实战演练 序言 由于入门的测试文件很简单,所以一直以来也都是直接给出测试文件,直到今天才想着去总结一个测试文件的写法.这篇博客将根据HDLBits的 ...

  7. 使用python写Wave文件

    1.Wave文件   WAV是Microsoft开发的一种声音文件格式,虽然它支持多种压缩格式,不过它通常被用来保存未压缩的声音数据(PCM脉冲编码调制).WAV有三个重要的参数:声道数.取样频率和量 ...

  8. c中写汇编语言,将汇编程序写在一个文件里,能否直接在C中调用

    将汇编程序写在一个文件里,能否直接在C中调用 麻烦请问,我用C8051F121单片机实现AD采样,用C语言编主程序(AD采集到的数据要进行处理),其中调用以前汇编编的一段AD采数程序,也就是C中嵌套汇 ...

  9. 多进程同时写一个文件会怎样?分别用write和fwrite去观察现象

    一.问题还原 在多进程的环境下,父子进程同时去写一个文件,例如父进程每次写入aaaaa,子进程每次写入bbbbb,问题是会不会出现写操作被打断的现象,比如出现aabbbaaabb这样交替的情况? 二. ...

  10. python文件分发_python 写一个文件分发小程序

    一.概述 该小程序实现从源端到目标端的文件一键拷贝,源端和目标段都在一台电脑上面,只是目录不同而已 二.参数文件说明 1. settings.txt的说明 a. 通过配置settings.txt,填源 ...

最新文章

  1. 如何用asp.net向其他服务器post一条信息
  2. Linux数据库性能优化--文件系统相关优化
  3. LeetCode 1242. Web Crawler Multithreaded--Java 解法--网路爬虫并发系列--ConcurrentHashMap/Collections.synchroni
  4. 开发日记-20190612 关键词 读书笔记《鸟哥的Linux私房菜-基础学习篇》
  5. python 代码-你见过哪些令你瞠目结舌的 Python 代码技巧?
  6. 程序员修炼之道阅读笔记02
  7. 广东省二级计算机考试题目,广东省二级计算机考试题及答案
  8. 窥探JAVA WEB
  9. Linux:写一个简单的服务器
  10. 百度AI之身份证识别
  11. 车载多传感器融合定位方案:GPS +IMU+MM
  12. 怎样让超星图书浏览器不会过期 (转)
  13. 三丰三坐标编程基本步骤_smt工程师总结smt贴片机编程步骤
  14. su 无法切换账户(密码正确)一直提示Authentication failure(认证失败)
  15. CAN协议分析,120欧姆电阻原因
  16. Python进阶——自省
  17. [玩转UE4/UE5动画系统>技能系统(GAS)篇] 二 技能 Gameplay Ability(GA)
  18. linux程序图形关不了怎么办,ubuntu下卸载软件 linux关闭图形化界面
  19. 苹果app旧版本软件下载
  20. 视频转图像序列工具FreeVideoToJPGConverter(5.0.101.201版)下载安装及使用(Windows)

热门文章

  1. Cisco ASA 9.16(Adaptive Security Appliance (ASA) Software)
  2. openssl rand
  3. 总结谷歌身份验证器 Google Authenticator 的详细使用方法
  4. 各大AI开放平台汇总分析
  5. echart中饼图或者南丁格尔玫瑰图是否显示label或lableLine
  6. PHP中数组实际占用内存大小的分析
  7. 关于trycatchfinal返回值问题
  8. 优秀工程师应该具备哪些素质_优秀的工程师具有什么品质
  9. u邮件收件服务器密码是什么,U-Mail邮件服务器加密技术给邮件上安全锁
  10. SQL-Server笔记