网络爬虫的“盗亦有道”
前言:网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。网络爬虫虽好,但也要遵守相关法律法规,维护网络环境!
目录
一、网络爬虫引发的问题
1.网络爬虫的“性能骚扰”
2.网络爬虫的法律风险
3.网络爬虫的隐私泄露
二、网络爬虫的限制
1.Robots协议
2.Robots协议的遵守方式
三、总结
一、网络爬虫引发的问题
首先我们先对网络爬虫的尺寸,进行分析
小规模,数据量小
爬取速度不敏感
Requests库
|
中规模,数据规模较大
爬取速度敏感
Scrapy库
|
大规模,搜索引擎
爬取速度关键
定制开发
|
爬取网页 玩转网页
|
爬取网站 爬取系列网站
|
爬取全网 |
1.网络爬虫的“性能骚扰”
2.网络爬虫的法律风险
3.网络爬虫的隐私泄露
二、网络爬虫的限制
有爬虫就有反爬虫,下面是两种常用的限制爬虫的方法• 来源审查:判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问• 发布公告:Robots协议告知所有爬虫网站的爬取策略,要求爬虫遵守
1.Robots协议
Robots协议是什么?Robots Exclusion Standard,网络爬虫排除标准作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行(如网页没有robots.txt文件,默认爬虫没有限制)形式: 在网站根目录下的robots.txt文件
淘宝的Robots协议
https://uland.taobao.com/robots.txtUser-agent: * Disallow: /
百度的Robots协议https://www.baidu.com/robots.txtUser-agent: Baiduspider Disallow: /baidu Disallow: /s? Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Googlebot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: MSNBot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Baiduspider-image Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: YoudaoBot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Sogou web spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Sogou inst spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Sogou spider2 Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Sogou blog Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Sogou News Spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Sogou Orion spider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: ChinasoSpider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: Sosospider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: yisouspider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: EasouSpider Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro Disallow: /ulink? Disallow: /link? Disallow: /home/news/data/ Disallow: /bhUser-agent: * Disallow: /
2.Robots协议的遵守方式
网络爬虫: 自动或人工识别robots.txt,再进行内容爬取约束性: Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
对Robots协议的理解
访问量很小:可以遵守
访问量较大:建议遵守
|
访问量很小:可以遵守
访问量较大:建议遵守
|
必须遵守
|
爬取网页 玩转网页
|
爬取网站 爬取系列网站
|
爬取全网
|
三、总结
网络爬虫虽好,但我们在使用时要遵守相关的法律法规
网络爬虫的“盗亦有道”相关推荐
- 【Python爬虫】网络爬虫的“盗亦有道”
- python sub 不区分大小写_Python网络爬虫入门篇
1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...
- python网络爬虫与信息提取北京理工大学_Python网络爬虫与信息提取(一)
Reference: 第一周 网络爬虫之规则 单元1:Requests库入门 1-1 Requests库的安装 1-2 Requests库的get()方法 1-3 爬取网页的通用代码框架 1-4 HT ...
- Python网络爬虫入门篇---小白必看
1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求 使用 ...
- python网络爬虫学习之入门篇
预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblogs. ...
- 嵩天python爬虫百度云盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周:requests库...
1.requests库入门 requests的get( )方法 在这里插入图片描述 爬取百度网页实例: import requests r = requests.get("http://ww ...
- Python网络爬虫与信息提取笔记08-实例2:淘宝商品比价定向爬虫
Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...
- python网络爬虫与信息提取嵩天百度网盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周:requests库...
1.requests库入门 requests的get( )方法 爬取百度网页实例: import requests r = requests.get("http://www.baidu.co ...
- python网络爬虫初识_python爬虫(一)初识爬虫
什么是爬虫? 中文名(网络爬虫) 外文名(web crawler) 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程 ...
最新文章
- 基于投票方式的机器人装配姿态估计
- MFC中MessageBox()用法
- 谈慎独2017-12-19
- specgram python
- JMS学习(2):ActiveMQ简单介绍以及安装
- sqlyog能连接oracle吗_真的能改变传统投影吗?支持各种无线连接,投影老巨头明基放大招...
- 【第七次JAVA课,java语法基础】课件总结
- IntelliJ IDEA恢复安装时的初始状态
- 力扣每日一刷-144,二叉树前序遍历-递归解法
- idea使用jrebel热部署插件
- apicloud 请删除手机中的apploader后在尝试
- java中长整形怎么定义_java中长整型定义
- abap --MOVE-CORRESPONDING
- 什么是P=NP问题?
- 学人工智能可以干什么?AI岗位有哪些?
- 第八届蓝桥杯B组国赛总结
- ffmpeg命令行视频剪辑与拼接
- 红米1联通版_标注:2013023_官方线刷包_救砖包_解账户锁
- linux 进程rt,RTLinux进程调度策略总结
- 【历史上的今天】5 月 18 日:微软反垄断诉讼;携程旅行网上线;谷歌首次公布 TPU