搜索引擎只能抓取html文件,通过robots屏蔽搜索引擎抓取网站内容
robots协议屏蔽搜索引擎抓取
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
有时候有些页面访问消耗性能比较高不想让搜索引擎抓取,可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。
文件写法:
User-agent: 这里的代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /phpinc/ 这里定义是禁止爬寻phpinc目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)
Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件
Allow: /framework/ 这里定义是允许爬寻framework目录下面的目录
Allow: /temp 这里定义是允许爬寻temp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 允许所有的robots访问 (或者也可以建一个空文件 “/robots.txt” file):
User-agent: *
Allow: /
例3. 禁止某个搜索引擎的访问:
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问:
User-agent: Baiduspider
allow:/
Sitemap网站地图注意事项:
Sitemap:与https://www.hao-blog.com/sitemap.xml 之间的连接是英文冒号如下:
Sitemap:https://www.hao-blog.com/sitemap.xml
Sitemap:https://www.hao-blog.com/sitemap.txt
Sitemap:https://www.hao-blog.com/sitemap.html
以下是错误的书写形式:
Sitemap:https://www.hao-blog.com/sitemap.xml
Sitemap:https://www.hao-blog.com/sitemap.txt
Sitemap:https://www.hao-blog.com/sitemap.html
挡在浏览器中看到时错误的就会显示乱码状态
搜索引擎只能抓取html文件,通过robots屏蔽搜索引擎抓取网站内容相关推荐
- 屏蔽搜索引擎的无用蜘蛛,减轻服务器压力
现在有很多的未知蜘蛛,总是频繁抓取我们的网站,特别是服务器配置不高的情况下,那么如何屏蔽这些垃圾蜘蛛减轻服务器压力呢? 一般来说,屏蔽蜘蛛抓取有三种方法: Robots屏蔽 UA屏蔽 IP屏蔽 主机教 ...
- 搜索引擎只能抓取html文件,为什么有些明明存在的网页不能被搜索到?
可以在站点根目录下编辑robot.txt Robot是帮助搜索引擎搜集网页的一种自动化程序,它在访问一个Web站点时,会跟随网页中的链接提取出站点上的大部分内容,并为这些网页建立索引,放在搜索引擎的数 ...
- 美国服务器百度抓取耗时不稳定,百度或者其他搜索引擎抓取频次快慢的因素,还会受什么有影响?...
什么是搜索引擎的抓取频次? 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数. 对于百度搜索引擎来说非常智能: 如果百度搜索引擎对站点的抓取频次过高,就很有可能造成服务器不稳定(相对而言 ...
- 搜索引擎是如何抓取网站内容的
编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架.抓取中涉及的网络协议.抓取的基本过程三部分. ...
- 网曝百度不顾robots协议擅自抓取微信内容
搜狗合作了知乎和微信,乐视贾老板倾家荡产维护版权,大家都在努力创造独家资源,看到微信独家数据,百度这是眼红得坐不住了. 据@郭昂9爆料:百度不顾robots协议擅自抓取微信内容和应用,原 ...
- js和css被屏蔽了,是否屏蔽蜘蛛抓取JS和CSS文件
做网站的人都知道,在查看日志的时候,会发现JS.CSS文件被蜘蛛抓取的频率特别高,于是有人便考虑在robots.txt屏蔽蜘蛛抓取js和css文件,节省蜘蛛时间给其他页面.是否屏蔽蜘蛛抓取JS和CSS ...
- PHP蜘蛛抓取,百度蜘蛛频频抓取php文件怎么办(悬赏1元) - 搜外SEO问答
最近几天网站抓取频次大涨,但是有个头疼的问题,蜘蛛频频抓取一些php文件,该文件只是我程序的调用文件.我在robots文件里面已经禁止该文件的目录了,可还是抓取.导致网站内容抓取过少. , 贴上rob ...
- 自定义数码管IP核,并让NiosⅡ SBT for Eclipse自动抓取驱动文件
1.前言 在Platform Designer(原Qsys)中创建自定义六位七段独立数码管IP核并让NiosⅡ SBT for Eclipse自动抓取驱动文件. 开发环境:Quartus Prime ...
- 各大网站屏蔽搜索引擎抓取分析
2019独角兽企业重金招聘Python工程师标准>>> 前面转载了一篇关于淘宝屏蔽百度的文章,但是那是其他人的看法,还是想发表一下 自己的看法,当然由于本人对屏蔽爬虫内幕了解不是很多 ...
最新文章
- 连连看html游戏全代码js、jquery操作
- VC++动态链接库(DLL)编程(一)――理解库
- 怎么取消任意Windows窗口总在最前
- 深入理解java虚拟机(全章节完整)
- Android11vivox21刷机包,vivo x21旧版官方固件rom系统刷机包
- 如何在 go 中实现一个 worker-pool?
- 【转载】Scarbee Pre-Bass 贝司的使用教程
- 利用InfoPath生成XML资源文件
- Java方法 根据经纬度计算距离
- 一周企业财报 | 阿迪达斯、盖璞、Natura、舍弗勒、百世集团等11家企业发布业绩...
- 华为RH2288H V3服务器 从拆箱开始安装系统
- 深度学习基础----线性模型
- 51单片机模拟I2C读写M24LR04
- 等保三级收费-等保三级的办理流程
- eclipse的web项目中index.jsp文件出现The superclass was not found on the java build path
- struct sysinfo 用法
- SUN_Java程序员认证考试题库(一)
- BugReport:前端不能成功解析后端信息造成消息阻塞问题
- Poly-Yolo复现
- 国家授时中心 网络服务器时间,中国国家授时中心的时间服务器IP地址及时间同步方法...