原文:http://www.52web-analytics.com/google-googlebot-gather.html

抓取工具”是一个通用名称,泛指通过跟踪从一个网页指向另一个网页的链接,从而自动发现并扫描网站的程序(如漫游器或“蜘蛛”程序)。Google 的主要抓取工具称为 Googlebot。此表格列出了在引用页日志中常能见到的 Google 抓取工具的相关信息,以及在 robots.txt、漫游器元标记和 X-Robots-Tag HTTP 指令中指定这些抓取工具应采用的方法。

抓取工具 用户代理 HTTP(S) 请求用户代理
Googlebot(Google 网页搜索) Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html ) 
或 
(较少使用): Googlebot/2.1 (+http://www.google.com/bot.html )
Googlebot 新闻 Googlebot-News 
(Googlebot )
Googlebot-News
Googlebot 图片 Googlebot-Image 
(Googlebot )
Googlebot-Image/1.0
Googlebot 视频 Googlebot-Video 
(Googlebot )
Googlebot-Video/1.0
Google 移动 Googlebot-Mobile [各种移动设备类型]( compatible; Googlebot-Mobile/2.1 ; +http://www.google.com/bot.html )
Google Mobile AdSense Mediapartners-Google

或 

Mediapartners
 
(Googlebot )
[各种移动设备类型]( compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html )
Google AdSense Mediapartners-Google 
Mediapartners 
(Googlebot )
Mediapartners-Google
Google AdsBot 目标网页质量检查 AdsBot-Google AdsBot-Google  ( +http://www.google.com/adsbot.html )

robots.txt

如果 Google 在 robots.txt 文件中识别出多个用户代理,则它会跟踪最具体的用户代理。如果您希望 Google 的所有抓取工具都能够抓取您的网页,则根本不需要 robots.txt 文件。如果您希望禁止或允许 Google 的所有抓取工具访问您的某些内容,则只需将 Googlebot 指定为用户代理即可。例如,如果您希望自己所有的网页都显示在 Google 搜索中,并希望在自己的网页上显示 AdSense 广告,则不需要 robots.txt 文件。同样,如果您不希望 Google 的所有抓取工具访问您的某些网页,则可禁止用户代理 Googlebot(系统会同时禁止 Google 的其他所有用户代理)。

但是,如果您希望进行更精确的控制,则可以设置地更加具体。例如,您可能希望自己所有的网页都显示在 Google 搜索的结果中,但又不希望 Google 抓取您个人目录中的图片。在这种情况下,您可以使用 robots.txt 禁止用户代理 Googlebot-image 抓取您 /personal 目录中的文件(同时允许 Googlebot 抓取所有文件),具体如下:

User-agent: Googlebot
Disallow:User-agent: Googlebot-Image
Disallow: /personal

再举个例子,假设您希望自己的所有网页上都显示广告,但不希望这些网页出现在 Google 搜索的结果中。这时,您可以禁止 Googlebot,同时允许 Mediapartners-Google,具体如下:

User-agent: Googlebot
Disallow: /User-agent: Mediapartners-Google
Disallow:

漫游器元标记

某些网页会使用多个漫游器 meta  标记针对不同的抓取工具指定不同的指令,例如:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

在此示例中,Google 会综合使用所有的否定指令,因而 Googlebot 会同时遵循 noindex  和  nofollow  指令。

原文转载自:Google站长工具帮助文档

原文链接: https://support.google.com/webmasters/answer/1061943?hl=zh-Hans

Google 抓取工具(Googlebot)汇总相关推荐

  1. hacker代码_如何仅用7行R代码构建Hacker News Frontpage抓取工具

    hacker代码 by AMR 通过AMR 如何仅用7行R代码构建Hacker News Frontpage抓取工具 (How to build a Hacker News Frontpage scr ...

  2. 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法

    halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...

  3. asp.net 获取全部在线用户_提取在线数据的9个最佳网页抓取工具

    Web Scraping工具专门用于从网站中提取信息.它们也被称为网络收集工具或Web数据提取工具. Web Scraping工具可以在各种场景中用于无限目的. 比如: 1.收集市场研究数据 网络抓取 ...

  4. 系统检测到您疑似使用网页抓取工具访问本_12款最常使用的网络爬虫工具推荐...

    网络爬虫在当今的许多领域得到广泛应用.它的作用是从任何网站获取特定的或更新的数据并存储下来.网络爬虫工具越来越为人所熟知,因为网络爬虫简化并自动化了整个爬取过程,使每个人都可以轻松访问网站数据资源.使 ...

  5. 谷歌地图商家抓取工具 G-Business Extractor 7.5

    G 业务提取器 | 谷歌地图抓取工具 G-Business Extractor是一款功能强大的工具,可帮助您从 Google 地图中寻找商机.它是最好的Google Maps Scraper工具,能够 ...

  6. 20個網頁抓取工具快速抓取網站

    網絡爬行(也稱為網絡抓取,屏幕抓取)已廣泛應用於當今的許多領域. 在網絡爬蟲工具進入公眾之前,對於沒有編程技能的普通人來說,這是一個神奇的詞. 它的高門檻阻礙了大數據門外的人們. 網絡抓取工具是自動爬 ...

  7. 电子邮件地址抓取工具

    从互联网上自动搜索电子邮件地址,电子邮件地址抓取工具是一款绿色软件,它将自动搜索网络并抓取电子邮件地址. 点击下载 转载于:https://www.cnblogs.com/JiangHuakey/ar ...

  8. 一个简单的网页抓取工具

    前两天遇到一个妹子,她说不会从拉网页,我想用node做个网页抓取工具是何尝的简单,于是装x之路开始了. 其实想法很简单,由网址得到html,由html解析css,js,image等,分别下载就行了, ...

  9. 开箱即用的高匿代理抓取工具

    golang-proxy v3.0 golang-proxy是一个开箱即用的高匿代理抓取工具, 它是语言无关的 项目地址: https://github.com/storyicon/golang-pr ...

  10. WebSpider蓝蜘蛛网页抓取工具5.1用户手册

    概述 关于网页抓取工具 本工具可以抓取互联网上的任何网页,包括需要登录后才能访问的页面.对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题.作者.来源.正文等.支持列表页的自动翻页抓取,支持正 ...

最新文章

  1. H5前端性能测试快速入门
  2. python能做软件开发吗-学习Python软件开发能做什么?
  3. 【2017-11-26】Linq表连接查询
  4. PHP中一些常用知识点
  5. opencvsharp打开相机并视频显示
  6. 用一个URL加一个JAVA壳做成一个安卓应用
  7. word手动设置编号起始值
  8. Hadoop大数据技术原理与应用课后习题答案汇总
  9. 有向图(3.基于十字链表的c++实现)
  10. C++游戏编程教程(三)
  11. 计算机闹铃音乐是什么歌,适合当闹铃的歌曲
  12. 【虚幻4】从U3D到UE4的转型之路
  13. class uesrfun.php,帝国cms教程:在列表页面批量添加Tags的方法
  14. 指南:情人节表白h5源码
  15. MinIO客户端(mc命令)实现数据迁移
  16. Linux系统之Xinetd服务
  17. 【树形DP】 HDOJ 5148 Cities
  18. 百度网盘不限速版正式推出,35M/S,附iOS/安卓双端下载
  19. 解决ERROR 1109 (42S02): Unknown table 'xxx' in MULTI DELETE
  20. Android 10 根文件系统和编译系统(十八):Android.bp语法

热门文章

  1. iOS-PingFangSC字体
  2. 无限弹窗(python)
  3. AndroidTV开发7实现仿小米电视和各种盒子TV焦点放大缩小效果
  4. UAT测试和SIT测试的区别
  5. Eclipse Java快捷键
  6. 如何用手机编程Python?
  7. ubuntu14 卸载 mysql_ubuntu14.04完全卸载mysql
  8. arduino流水灯代码
  9. node中封装MongoDB
  10. Delphi2010Excel导入数据库