前言:网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。网络爬虫虽好,但也要遵守相关法律法规,维护网络环境!


目录

一、网络爬虫引发的问题

1.网络爬虫的“性能骚扰”

2.网络爬虫的法律风险

3.网络爬虫的隐私泄露

二、网络爬虫的限制

1.Robots协议

2.Robots协议的遵守方式

三、总结


一、网络爬虫引发的问题

首先我们先对网络爬虫的尺寸,进行分析

小规模,数据量小
爬取速度不敏感
Requests库
中规模,数据规模较大
爬取速度敏感
Scrapy库
大规模,搜索引擎
爬取速度关键
定制开发
爬取网页 玩转网页
爬取网站 爬取系列网站
爬取全网

1.网络爬虫的“性能骚扰”

        Web服务器默认接收人类访问,受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销

2.网络爬虫的法律风险

服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险
 

3.网络爬虫的隐私泄露

网络爬虫可能具备突破简单访问控制的能力,获得被保护数据,从而泄露个人隐私

二、网络爬虫的限制

有爬虫就有反爬虫,下面是两种常用的限制爬虫的方法
• 来源审查:判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
• 发布公告:Robots协议
告知所有爬虫网站的爬取策略,要求爬虫遵守

1.Robots协议

Robots协议是什么?
Robots Exclusion Standard,网络爬虫排除标准
作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行(如网页没有robots.txt文件,默认爬虫没有限制)
形式: 在网站根目录下的robots.txt文件
下面我们来看两个网站的Robots协议

淘宝的Robots协议
https://uland.taobao.com/robots.txt

User-agent: *
Disallow: /
百度的Robots协议
https://www.baidu.com/robots.txt
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: *
Disallow: /


2.Robots协议的遵守方式

实际操作中,该如何遵守Robots协议?
网络爬虫: 自动或人工识别robots.txt,再进行内容爬取
约束性: Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

对Robots协议的理解

访问量很小:可以遵守
访问量较大:建议遵守

访问量很小:可以遵守
访问量较大:建议遵守
必须遵守
爬取网页 玩转网页
爬取网站 爬取系列网站
爬取全网
原则:类人行为可不参考Robots协议

三、总结

网络爬虫虽好,但我们在使用时要遵守相关的法律法规

网络爬虫的“盗亦有道”相关推荐

  1. 【Python爬虫】网络爬虫的“盗亦有道”

  2. python sub 不区分大小写_Python网络爬虫入门篇

    1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...

  3. python网络爬虫与信息提取北京理工大学_Python网络爬虫与信息提取(一)

    Reference: 第一周 网络爬虫之规则 单元1:Requests库入门 1-1 Requests库的安装 1-2 Requests库的get()方法 1-3 爬取网页的通用代码框架 1-4 HT ...

  4. Python网络爬虫入门篇---小白必看

    1.  预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求 使用 ...

  5. python网络爬虫学习之入门篇

    预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblogs. ...

  6. 嵩天python爬虫百度云盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周:requests库...

    1.requests库入门 requests的get( )方法 在这里插入图片描述 爬取百度网页实例: import requests r = requests.get("http://ww ...

  7. Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫

    Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...

  8. python网络爬虫与信息提取嵩天百度网盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周:requests库...

    1.requests库入门 requests的get( )方法 爬取百度网页实例: import requests r = requests.get("http://www.baidu.co ...

  9. python网络爬虫初识_python爬虫(一)初识爬虫

    什么是爬虫? 中文名(网络爬虫) 外文名(web crawler) 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程 ...

最新文章

  1. 基于投票方式的机器人装配姿态估计
  2. MFC中MessageBox()用法
  3. 谈慎独2017-12-19
  4. specgram python
  5. JMS学习(2):ActiveMQ简单介绍以及安装
  6. sqlyog能连接oracle吗_真的能改变传统投影吗?支持各种无线连接,投影老巨头明基放大招...
  7. 【第七次JAVA课,java语法基础】课件总结
  8. IntelliJ IDEA恢复安装时的初始状态
  9. 力扣每日一刷-144,二叉树前序遍历-递归解法
  10. idea使用jrebel热部署插件
  11. apicloud 请删除手机中的apploader后在尝试
  12. java中长整形怎么定义_java中长整型定义
  13. abap --MOVE-CORRESPONDING
  14. 什么是P=NP问题?
  15. 学人工智能可以干什么?AI岗位有哪些?
  16. 第八届蓝桥杯B组国赛总结
  17. ffmpeg命令行视频剪辑与拼接
  18. 红米1联通版_标注:2013023_官方线刷包_救砖包_解账户锁
  19. linux 进程rt,RTLinux进程调度策略总结
  20. 【历史上的今天】5 月 18 日:微软反垄断诉讼;携程旅行网上线;谷歌首次公布 TPU

热门文章

  1. dva的用法_dva入门讲解
  2. 多金的ToG项目总结——数字人民币
  3. 计算机学硕报考院校人数,2020考研报考人数:这些学校人数过万!
  4. 一步一步实现中后台管理平台模板-13-解决IE浏览器兼容性问题
  5. 【图像分割】基于FCM+KFCM MRI图像分割matlab源码含GUI
  6. Hyper-V自定义专用网络网段
  7. Docker 的新变化你知道多少?
  8. 更换一寸照片底色蓝色底,红色底白底一寸照怎么做ps教程简单快速快捷方法办法ps学习ps教学ps教程
  9. 无线充电设计(二)-方案设计
  10. 2、Class和Subclass