Python爬虫——爬虫是什么都可以爬的吗?

初识“爬虫”这个词时,想必大家都会和我一样,认为“爬虫”就是爬取网站上的各种内容,可以抓取网站的信息为我们所用。

但事实并不是这么“简单”

也并不是网站上的所有内容你想爬就爬

在爬虫界有一种叫Robots协议来限制爬虫的范围。

Robots协议

Robots协议全程“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。

以下是淘宝网的robots.txt部分代码:

从这里的代码里我们可以看到,Robots协议是对搜索的搜索范围进行了限制的

并不是可以让爬虫在网站里“肆意妄爬”

细心的朋友还会发现淘宝网对于不同的搜索引擎所开放的程度是不一样的

淘宝网的产品页面,对谷歌是开放的,而对于百度是不允许的

这就是对于Robots协议的简单介绍

对于今后的爬虫,都应该遵守Robots协议

做一个“遵纪守法”的好爬虫

想看看淘宝网的Robots协议详细内容,戳下面的连接:
Robots协议

希望这篇文章能够帮助大家对Robots协议简单了解有所帮助

Python爬虫——爬虫是什么都可以爬的吗?Robots协议!相关推荐

  1. python基础爬虫的框架以及详细的运行流程

    网络爬虫是什么? 网络爬虫就是:请求网站并提取数据的自动化程序 网络爬虫能做什么? 网络爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和 ...

  2. python网络爬虫——使用selenium抓取东方财富网上市公司公告

    每日公告数量@TOC 一.数据获取与预处理 本文从东方财富网上市公司公告页面获取沪深A股1991-2019年公告数据,按照数据获取的先后顺序,将数据分为以下两个部分一是上市公司公告信息,包括:序号(i ...

  3. Python网络爬虫入门篇---小白必看

    1.  预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求 使用 ...

  4. python网络爬虫学习之入门篇

    预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblogs. ...

  5. python网络爬虫---selenium的使用

    selenium使用需要先安装chrome和chromedriver.exe 见:linux安装google chrome 和 selenium webdriver你使用的是不受支持的命令行标记 这两 ...

  6. python 网络爬虫介绍

    一.网络爬虫相关概念 网络爬虫介绍 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进 ...

  7. Python 网络爬虫从0到1 (2):网络爬虫的特性、问题与规范

      网络爬虫的发展为使用者了解和收集网络信息提供便利的同时,也带来了许多大大小小的问题,甚至对网络安全造成了一定危害.所以,在真正开始了解网络爬虫之前,我们也需要先了解一下网络爬虫的特性.带来的问题以 ...

  8. 网络爬虫信息提取的常识和Robots协议

    网络爬虫介绍 在浏览网站中,所能见到的数据可以通过爬虫程序保存下来. 网络爬虫,小规模可以爬取网页,大规模可以爬取网站,或一系列的网站,超大规模的像搜索引擎的这种难以完成,需要定制开发,爬取全网. 网 ...

  9. 小白都能看明白的Python网络爬虫、附上几个实用的爬虫小例子: 爬取豆瓣电影信息和爬取药监局

    文章目录 网络爬虫 爬虫的基础知识 爬虫分类 requests模块 爬虫的简单案例 简单的收集器 爬取豆瓣电影信息 爬取药监局 返回数据类型 数据解析 爬取糗事百科图片(正则表达式) xpath解析数 ...

最新文章

  1. JAVA IO - RandomAccessFile Seek学习
  2. 比利时皇家科学院院士Luc De Raedt:从统计关系人工智能到神经符号计算
  3. cropper.js 图像旋转问题_JavaScript开源良心插件,纯前端网页图片剪裁插件——cropperjs...
  4. 配置DATAGUARD 时关于 LOG_FILE_NAME_CONVERT配置错误的解决
  5. windows:QtCreator调用库的方式
  6. 【华为云技术分享】Batch Normalization (BN) 介绍
  7. Solr查询参数sort(排序)
  8. day7 地址 名片管理系统
  9. 让菜鸟飞上天,简单搞定linux服务器
  10. 表单组件_从0到1封装表单组件(TypeScript + Vue3.0 版)
  11. 游戏Java类图_java含类图五子棋小游戏
  12. 标准数独解题之旅(用一道数独题讲解最基本的5种解题技巧)
  13. mysql自定义函数的创建
  14. JAVA操作共享文件夹文件、下载、读取(windows、Linux通用)
  15. 散列算法比较:MD5、SHA1、SHA256有哪些区别
  16. js点击箭头旋转的实现
  17. 算法第一次作业(2.帐篷问题)
  18. 看图写英语作文关于计算机,看图说话 英语作文图片上是一个小女孩看着电脑发呆,要求120字~...
  19. PPT图片瘦身/图片提取
  20. Windows 安装 MySQL 8 zip版安装,及Windows MySQL多实例

热门文章

  1. uni-app获取元素节点信息
  2. 2023养老展|山东养老用品展|老年护理产品展|医养健康展
  3. 张益唐被曝已证明黎曼猜想相关问题,震动数学界
  4. 解答诸葛亮反思的七条内容
  5. 什么样的网站才可以算得上是高端网站设计
  6. 想进入IT行业,自学还是选择培训机构。
  7. springboot 动态数据源问题
  8. 按键精灵X学习笔记(二):键盘命令
  9. LL(1)文法中FIRST集和FOLLOW集的计算方法
  10. Dango Web 开发指南 学习笔记 3