robots.txt怎么写
  1、允许所有搜索引擎访问
  User-agent: *
  Disallow:
  或者
  User-agent: *
  Allow: /
  在这里大家要注意下,可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。
  2、禁止所有搜索引擎访问
  User-agent: *
  Disallow: /
  或者
  User-agent: *
  allow:
  3、禁止所有搜索引擎访问网站中的几个部分,在这里我用a、b、c目录来代替
  User-agent: *
  Disallow: /a/
  Disallow: /b/
  Disallow: /c/
  如果是允许,则是
  Allow: /a/
  Allow: /b/
  Allow: /c/
  4、禁止某个搜索引擎的访问,我用w来代替
  User-agent: w
  Disallow: /
  或
  User-agent: w
  Disallow: /d/*.htm
  在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。
  5、只允许某个搜索引擎的访问,我用e来代替
  User-agent: e
  Disallow:
  在Disallow:后面不加任何东西,意思是仅允许e访问该网站。
  6、使用”$”限制访问url
  User-agent: *
  Allow: .htm$
  Disallow: /
  意思是仅允许访问以”.htm”为后缀的URL
  7、禁止访问网站中所有的动态页面
  User-agent: *
  Disallow: /*?*
  8、禁止搜索引擎F抓取网站上所有图片
  User-agent: F
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .gif$
  Disallow: .png$
  Disallow: .bmp$
  意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)
  9、只允许搜索引擎E抓取网页和.gif格式图片
  User-agent: E
  Allow: .gif$
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .png$
  Disallow: .bmp$
  意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片

robots 协议介绍相关推荐

  1. 网络爬虫排除协议robots.txt介绍及写法详解.

    以上内容转载自:http://www.xgezhang.com/serach_engine_robots.html Robots协议的全称是"网络爬虫排除标准"(Robots Ex ...

  2. robots协议是什么?对网站SEO有什么好处?

    在网站优化中,robots协议一直是优化人员重视的细节,想要网站能够有更高的抓取和排名,此协议也起到很大的作用,那么robots协议是什么呢?它对网站的SEO有什么作用和好处呢?下面一起来了解一下. ...

  3. 【K哥爬虫普法】百度、360八年乱战,robots 协议之战终落幕

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知 ...

  4. Python爬虫——爬虫是什么都可以爬的吗?Robots协议!

    Python爬虫--爬虫是什么都可以爬的吗? 初识"爬虫"这个词时,想必大家都会和我一样,认为"爬虫"就是爬取网站上的各种内容,可以抓取网站的信息为我们所用. ...

  5. robots.txt介绍

    robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的. ...

  6. Robots协议基础

    Robots协议 前言 写这个robots协议的文章呢是因为我今天在攻防世界上做题的时候碰到一道关于robots协议的题目,当然这道题也是比较简单,我们先简单的写一个解题思路然后介绍robots协议. ...

  7. 2 爬虫 数据解析(bs4,XPath) robots协议 cookie反爬 代理反爬

    爬虫 1 数据解析 1.1 介绍 1.1.1 概念即作用 数据解析就是将一组数据中的局部数据进行提取,用于实现聚焦爬虫. 聚焦爬虫是建立在通用爬虫的基础上,从通用爬虫获取的整个源码数据中提取出指定的数 ...

  8. 网络爬虫信息提取的常识和Robots协议

    网络爬虫介绍 在浏览网站中,所能见到的数据可以通过爬虫程序保存下来. 网络爬虫,小规模可以爬取网页,大规模可以爬取网站,或一系列的网站,超大规模的像搜索引擎的这种难以完成,需要定制开发,爬取全网. 网 ...

  9. 芝麻HTTP:分析Robots协议

    2019独角兽企业重金招聘Python工程师标准>>> 利用urllib的robotparser模块,我们可以实现网站Robots协议的分析.本节中,我们来简单了解一下该模块的用法. ...

最新文章

  1. AI 能匹敌程序员了吗?OpenAI 新研究展​示 NLP 大模型的局限性
  2. android模拟器怎么与PC通信
  3. coreldraw 双层边框
  4. jQuery的Password Validation插件
  5. 成为一名JAVA高级工程师你需要学什么
  6. JavaScript原生对象常用方法总结
  7. 在Vim中上下移动整条线
  8. 超实用的JavaScript代码段 Item1 --倒计时效果
  9. thinkphp5项目--个人博客(八)
  10. 冰点还原精灵怎么卸载
  11. linux硬盘异响,完美解决Ubuntu Linux关机异响[SATA硬盘]
  12. LVGL8学习之msgbox
  13. cmd命令打开文本文档_win7定时关机命令 【处置技巧】
  14. 超详细的wireshark笔记(6)-UDP协议
  15. excel 锁定第一行
  16. 小程序设置渐变色背景
  17. 【Flutter实现表格上下左右滚动】
  18. C/C++ fstream
  19. RFID射频卡、IC卡、ID卡在称重系统中有什么作用
  20. Qt设置背景图片方法

热门文章

  1. 【Unity项目实战】主程进阶之路文章整理 自用记录
  2. ps入门第3天_ps抠图选区的几种方法
  3. HbuilderX连接手机模拟器实战记录
  4. android 行车记录仪分析,基于Android智能行车记录仪设计及实现.doc
  5. 中国目前的经济结构有什么问题
  6. MATLAB频域分析,奈氏图、伯德图、对数幅相图绘制
  7. 香港知名主持人梁继璋----给孩子的一封信
  8. 碎片化时间如何利用才最高效?
  9. 想了解漫画脸头像制作软件有哪些吗
  10. 震惊!图书编辑公开怼了500条读者评论~