每日 30 秒 ⏱ 漫游器法则
简介
SEO、robot.txt、搜索引擎优化
在浩海的互联网世界中:
- 互联网 宛如 宇宙
- 站点 宛如 星系
- 网页 宛如 星球
- 网页内容 宛如 生灵万物
而在互联网世界漫游的搜索引擎
爬虫小蜘蛛,就好比一搜穿梭在宇宙里的星际漫游器
,想想是不是还挺浪漫的。对于不同的星系有着自己的规则,如果不准守规则,小心自动防御功能把 漫游器
打坏哦~
小二幻想过这个世界如果是由代码组成的,还是挺有意思的,很多灵异事件都可以解释为
bug
,有次和同学脑洞大开聊了一晚上,有机会可以找个时间来构筑一个代码世界观
。
漫游器法则
每个星系的入口处即网站根目录
都会设置一个 robot.txt
又叫做漫游器法则
,记录漫游器应该准守的规则。漫游器法则
更多的是一个协定,并不是写了所有的爬虫都会准守这个规则。
很多公司或者个人在没有内容输出时,往往会通过 爬虫
去爬取别人站点的数据,如果准守规则也可以叫其 漫游器
,但是不准守规则肆无忌惮爬取的称之为 海盗船
。被爬取的站点,对于这些 海盗船
会做出一定的判断,或者访问评率
限制来保护自己。
名单法则
在 robot.txt
中通过 User-agent
来规定那些 漫游器
应该准守哪些规则,使用 *
星号表示允许所有 漫游器
都应该准守例如User-agent: *
。也可以对特定的漫游器做出限制,例如对 百度漫游器
做出限制 User-agent: Baiduspider
。在名单法则之下是与之对应的 允许法则
和 拒接法则
:
- 允许法则通过
Allow:
配合路径法则来告诉漫游器
哪些链接是应该
爬取访问的。 - 拒接法则通过
Disallow:
配合路径法则来告诉漫游器
哪些链接是不应该
爬取访问的。
路径法则
对 pathname
组成 query
的路径,配合上 *
和 $
符号可以拼凑出一条网站路径规则。下面给出几个例子:
- 用户列表
https://pushme.top/users
用路径表达/users
- 文章评论
https://pushme.top/posts/1/comments
用路径表达/posts/*/comments
- 样式文件
https://pushme.top/assets/styles/main.css
用路径表达/assets/styles/*.css$
更多 URL 详细内容可以查看 URL 大爆炸
星系推荐法则
在 投怀送抱 中介绍了 sitemap
网页地图,用于告诉漫游器
哪些网站哪些页面值得访问。通过 Sitemap:
来指定 Sitemap: https://pushme.top/sitemap.xml
。
单双号法则
网站和现实生活一样也有分 单双号
,漫游器
和 海盗船
爬取页面也会占用到服务器的资源。如果占用太多资源会导致 正常用户
无法访问网站,所以利用 单双号法则
来限制 漫游器
的访问频率:
Crawl-delay: n
每次抓取间隔n秒。Request-rate: x/n
抓取x个页面在n秒之内。
掘金漫游器法则
在讲完了整体的漫游器法则
构成,让我们一起阅读一下 掘金漫游器法则
。访问 https://juejin.im/robots.txt
就可以看到如下内容:
User-agent: *
Request-rate: 1/1
Crawl-delay: 5Disallow: /timeline
Disallow: /submit-entry
Disallow: /new-entry
Disallow: /edit-entry
Disallow: /notification
Disallow: /subscribe/subscribed
Disallow: /user/settings
Disallow: /reset-password
Disallow: /drafts
Disallow: /editor
Disallow: /user/invitation
Disallow: /user/wallet
Disallow: /entry/*/view$
Disallow: /auth
Disallow: /oauth
Disallow: /zhuanlan/*?sort=newest
Disallow: /zhuanlan/*?sort=comment
Disallow: /search
Disallow: /equation
复制代码
可以看到掘金漫游器法则
还是相对宽松的,限制了访问评率和不应该访问网页,没有对具体的 百度漫游器
和 谷歌漫游器
等作出限制,所以同学也可以写 漫游器
来爬取掘金的部分内容。比如今天的沸点中就看到了:
SEO 相关内容
- H1 の 小秘密
- SEO 初体验
- img の 小九九
- 千里姻缘一线牵
- 投怀送抱
- 漫游器法则
其他
关于 robot.txt
生成的工具这里推荐 robots文件生成 简单易用。
小二在这里只讨论了一些力所能及
且 容易做到
的 SEO 内容,关于 SEO 相关的内容就讨论到这里了。虽然 语义化标签
这部分内容也对 SEO 有所帮助,但是实践起来挺难做到的,如果小二有想简单且容易理解的方法到时候再补上这篇。
一起成长
在困惑的城市里总少不了并肩同行的
伙伴
让我们一起成长。
- 如果您想让更多人看到文章可以点个
点赞
。 - 如果您想激励小二可以到 Github 给个
小星星
。 - 如果您想与小二更多交流添加微信
m353839115
。
本文原稿来自 PushMeTop
转载于:https://juejin.im/post/5cadd1546fb9a06880143703
每日 30 秒 ⏱ 漫游器法则相关推荐
- 每日 30 秒 ⏱ 千里姻缘一线牵
简介 SEO.链接.a 标签.HTTP 状态码.link 标签.alternate.canonical 唐朝有个小伙叫韦固喜欢在河边玩,一天遇到一个老伯伯在月光下把两块石头系在一起.小伙看到很好奇便问 ...
- 每日 30 秒 ⏱ HTML Cosplay
简介 无障碍.WAI.ARIA.a11y.Accessibility.框架选择 如何向 视障用户 介绍兔子长什么样?有的同学可能会说: 毛茸茸的长耳朵. 短短圆圆的小尾巴. 红红的眼睛. 那如何向 视 ...
- 每日 30 秒 ⏱ 无障碍世界
简介 无障碍.DOM 小细节.前端开发.a11y.Accessibility 无障碍的英文为 Accessibility 由于单词拼写过长往往被缩写为 a11y 其中 11 指的是中间有11个字母. ...
- 每日 30 秒 ⏱ 强风吹拂
感悟.反思.重启 失眠 某天清晨没有原因的醒了,害怕时间被手机没收只能迷茫的盯着天花板.不知道过了多久隐隐约约听到打鸣声,还是克制不住拿起了手机.按照惯例一般刷刷掘金和知乎,可是在心中莫名的抗拒下打开 ...
- 每日 30 秒之 对海量数据进行切割
简介 把数组按指定大小进行分组,可以用于分页.数据切割.异步操作数据. // 该源码来自于 https://30secondsofcode.org const chunk = (arr, size) ...
- 每日 30 秒 ⏱ 唯一的数据集
简介 数组.对象.唯一.只出现一次.差集 取出两个对象数组中唯一的数据集,即差集. // 该源码来自于 https://30secondsofcode.org const filterNonUniqu ...
- 每日 30 秒 ⏱ 字符编码排雷录
简介 字符编码.字符长度错误.截取字符错误.UTF8.Unicode 计算机重重底层之下都是由 0 和 1 组合,但是你知道他们是怎么一步步变成字符串的嘛?在我们现实生活中最常见的例子可以通过 wo ...
- 每日 30 秒 ⏱ 复制内容到剪贴板
简介 剪贴板.复制.兼容 复制内容到剪贴板 是前端开发过程中会经常遇到的一个需求,大部分同学开发时往往会直接打开搜索框开始寻找别人写好的组件库,而聪明的同学会开始思考问题: 产品的使用场景是什么? 是 ...
- html音频从10秒播放至30秒,基于Arduino制作SD卡音乐播放器
一.项目介绍 前面用ATtiny85制作SD卡音乐播放器,本次主要利用Arduino UNO 和SD卡制作音乐播放器.这个播放器不需要添加多余的模块,只需要SD读卡器和Arduino UNO开发板就可 ...
最新文章
- c++静态成员变量成员函数
- centos6.5 tar安装mysql_centos6.6安装mysql5.7.9tar包
- 简易版jQuery——mQuery
- LeetCode 2002. 两个回文子序列长度的最大乘积(状态压缩+枚举状态子集+预处理)
- 海量数据 网站中用户积分排名问题
- 《Think Python》第15章学习笔记
- 【游戏开发指路】Unity学习路线,三万字大纲(面试题大纲 | 知识图谱 | Unity游戏开发工程师)
- Microsoft SQL Server 2008 R2官方下载地址
- OPENCV运动追踪研究和PYTHON及JAVA实现
- 好用的电台APP推荐|这些年,陪伴我上下班的声音
- 如何在VSCode配置PHP开发环境(详细版)
- db2 日期英式写法_英文日期写法 英文日期格式正确写法
- crash日志学习(初步)
- 【ArchSummit】社交元宇宙的技术挑战与探索
- Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读
- DW与JavaScript
- 用机器学习颠覆环法自行车赛传统体验 岱凯野心可不只有这一点!
- 网易云易盾朱浩齐:视听行业步入强监管和智能时代
- 第一篇图像处理论文审稿意见修改说明
- 如何自定义百度云常用服务器,经验分享:如何将百度云做成网站文件服务器