Requests库
适用于爬取网页,小规模,数据量小,爬取速度不敏感。
Scrapy库
适用于爬取网站,中规模,数据规模较大,爬取速度敏感

爬虫的限制

来源审查:判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守

Robots协议(网络爬虫排除标准)

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件
基本语法:#注释 *代表所有 /代表根目录

比如百度的robots.txt长这样,user-agent表示允许的爬虫,disallow表示不允许,后面跟具体目录。

Robots.txt的使用

我们在编写爬虫工具的时候,需要自动或人工的识别网站的robots.txt协议内容,准守内容规定,友好的爬取页面内容。
那么这个robots.txt协议实际是企业一个建议性的文档,爬虫可以不遵守,但存在法律风险。所以不管是出于法律道德,我们所编写的程序都应该遵循这个协议。
原则:类人行为可以不遵守robots协议(程序像人一样正常访问,不会影响网站性能)

robots协议相关相关推荐

  1. python遵循什么协议_《Python网络爬虫》2.3 Robots协议的遵守方式

    在实际操作中我们这样的爬虫该如何遵守robots协议呢? Robots协议的使用 对于任何网络爬虫来讲,它应该能够自动或人工的识别robots.txt文件,根据文件的内容再进行爬取. 即使不写这样的代 ...

  2. 【K哥爬虫普法】百度、360八年乱战,robots 协议之战终落幕

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知 ...

  3. Robots协议基础

    Robots协议 前言 写这个robots协议的文章呢是因为我今天在攻防世界上做题的时候碰到一道关于robots协议的题目,当然这道题也是比较简单,我们先简单的写一个解题思路然后介绍robots协议. ...

  4. 爬虫Robots协议

    Robots协议是互联网爬虫的一项公认的道德规范,它的全称是"网络爬虫排除标准"(Robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的, ...

  5. (转)Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  6. Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  7. Robots协议写法教程

    Robots协议的约束力 "Robots的约束力固然仅限于自律,无强制性,但这不等于说它背后反映的精神,没有法律基础."中国社会科学院信息化研究中心秘书长姜奇平表示,美国的电子隐私 ...

  8. 2 爬虫 数据解析(bs4,XPath) robots协议 cookie反爬 代理反爬

    爬虫 1 数据解析 1.1 介绍 1.1.1 概念即作用 数据解析就是将一组数据中的局部数据进行提取,用于实现聚焦爬虫. 聚焦爬虫是建立在通用爬虫的基础上,从通用爬虫获取的整个源码数据中提取出指定的数 ...

  9. robots协议是什么?对网站SEO有什么好处?

    在网站优化中,robots协议一直是优化人员重视的细节,想要网站能够有更高的抓取和排名,此协议也起到很大的作用,那么robots协议是什么呢?它对网站的SEO有什么作用和好处呢?下面一起来了解一下. ...

最新文章

  1. B1054 求平均值 (20 分)
  2. thinkphp中出现unserialize(): Error at offset 533 of 1857 bytes如何解决
  3. 阿里云云服务器更新GCC是提示错误解决方案
  4. 何洁音乐会今晚开唱 大手笔打造pure show
  5. 在Linux中查看所有正在运行的进程
  6. 交换机接口trunk的配置和vlan的划分
  7. 作者:姚前(1970-),男,中国人民银行科技司教授级高级工程师
  8. 发表email所需要
  9. Codeforces Round #494 (Div. 3) D. Coins and Queries(贪心
  10. HBase简介及使用
  11. web前端项目实例网站_web前端网站性能优化方案
  12. 【开发日常】手动安装fastboot驱动(开发板连不上minitool)
  13. winrm java客户端_winrm service
  14. QT学习 实时显示时间
  15. solaris 命令大全
  16. 构造非支配解集(Python)
  17. (16)万能查询还是万恶查询?
  18. Go语言:go-redis客户端设置过期时间相关命令Expire,ExpireAt,TTL的用法示例
  19. 基于多视图几何的三维重建
  20. Win10开启和使用Hyper-V功能

热门文章

  1. 接入谷歌支付4.0(Kotlin)
  2. 牛客网阶乘怪物C语言,【题集】牛客网·2018年全国多校算法寒假训练营练习比赛(第二场)(示例代码)...
  3. drag 和drop? 来看这个详解吧!!
  4. RFID托盘管理,实现物流仓储全过程跟踪
  5. 你做过哪些勇敢的事?
  6. 计算机毕业设计ssm活动报名系统qp88u系统+程序+源码+lw+远程部署
  7. 《电路分析基础》第7章 正弦稳态电路 读书笔记
  8. 【电路分析基础】知识总结
  9. 大年初二 | 华章图书祝您福到旺到财运到
  10. 百度API实现音频识别