无敌python爬虫教程学习笔记(一)
python爬虫系列文章目录
无敌python爬虫教程学习笔记(一)
无敌python爬虫教程学习笔记(二)
无敌python爬虫教程学习笔记(三)
无敌python爬虫教程学习笔记(四)
本文目录
- python爬虫系列文章目录
- 前言
- 一、爬虫概述
- 二、爬虫和python
- 三、爬虫合法吗?
- 什么样的爬虫是非法的?
- 什么样的爬虫是合法的?
- 四、爬虫的矛与盾
- 五、教程使用软件
前言
本文会对爬虫进行一个概述
一、爬虫概述
爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
这里只做简介,更多的介绍可以去百科。
二、爬虫和python
用什么语言写爬虫?
C,C++。高效率,快速,适合通用搜索引擎做全网爬取。缺点,开发慢,写起来又臭又长,例如:天网搜索源代码。
脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取
C#?(貌似信息管理的人比较喜欢的语言)
为什么最终选择Python?
跨平台,对Linux和windows都有不错的支持。
科学计算,数值拟合:Numpy,Scipy
可视化:2d:Matplotlib(做图很漂亮), 3d: Mayavi2
复杂网络:Networkx
统计:与R语言接口:Rpy
交互式终端
网站的快速开发
三、爬虫合法吗?
- 善意的爬虫:不破坏被爬取的网站的资源,正常访问,频率不高,不窃取用户隐私。
- 恶意的爬虫:影响网站的正常运行,抢票,秒杀,疯狂solo网站资源造成网站宕机
什么样的爬虫是非法的?
爬虫不能涉及个人隐私!
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。也就是说你爬虫爬取信息没有问题,但不能涉及到个人的隐私问题,如果涉及了并且通过非法途径收益了,那肯定是违法行为。
另外,还有下列三种情况,爬虫有可能违法,严重的甚至构成犯罪:
爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”
爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。
现在网上有很多付费的课程,比如极客时间、Gitchat、慕课网、知识星球等等,这些付费内部信息如果被非法爬取手法出售获利,一种违法行为。
什么样的爬虫是合法的?
1、 遵守 Robots 协议
Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
2、不能造成对方服务器瘫痪
但不是说只要遵守 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫导致对方服务器瘫痪,这等于网络攻击。
2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制:
网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
3、不能非法获利
恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。
举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。
一般情况下,爬虫都是为了企业获利的,因此需要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。
综上,为了避免进
无敌python爬虫教程学习笔记(一)相关推荐
- 无敌python爬虫教程学习笔记(二)
系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 手刃一个小爬虫 系列文章目 ...
- Python基础教程学习笔记:第一章 基础知识
Python基础教程 第二版 学习笔记 1.python的每一个语句的后面可以添加分号也可以不添加分号:在一行有多条语句的时候,必须使用分号加以区分 2.查看Python版本号,在Dos窗口中输入&q ...
- 【python爬虫】学习笔记1-爬取某网站妹子图片
最近刚刚学习爬虫,看了视频之后准备自己写一个爬虫练习,爬妹子图 这次准备爬取的网站是:http://www.umei.cc/p/gaoqing/xiuren_VIP/ 接下来先说一下我的思路: 首先我 ...
- 【莫烦Python】Python 基础教程——学习笔记
文章目录 本笔记基于p1-p29[莫烦Python]Python 基础教程 大家可以根据代码内容和注释进行学习. 安装 我的:python3.8+anaconda+VS code print() pr ...
- python爬虫个人学习笔记
1.URI 是统一资源标识符(Universal Resource Identifier),URL 是统一资源定位符(Universal Resource Locator),URI 是用字符串来标识某 ...
- python笔记基础-Python基础教程学习笔记-1
今天学习了第9章的八皇后问题,Python简洁的语法令我叹服.现总结如下: Python实现程序如下: def conflict(state,nextX): nextY=len(state) for ...
- Python爬虫(学习笔记)
Python基础 文章目录 Python基础 pip指令 注释 变量类型 命名规范 类型转换 运算符 算数运算符 赋值运算符 复合赋值运算符 比较运算符 逻辑运算符 输入输出 输出 输入 流程控制语句 ...
- python基础课程第12章,Python基础教程学习笔记 | 第12章 | 图形用户界面
Python支持的工具包很多,但没有一个被认为标准的工具包,用户选择的自由度大些.本章主要介绍最成熟的跨平台工具包wxPython.官方文档: ------ 丰富的平台: Tkinter实际上类似于标 ...
- python基础教程学习笔记十二
图形用户界面 Tkinter Wxpython Pythonwin Java swing PyGTK pyQt 第五章 数据库支持 一python数据库api 1 全局变量 Apilevel 版本 ...
最新文章
- Android开发之Dialog的三种列表显示(解读谷歌官方API)
- php ios视频文件上传,iOS实现视频和图片的上传思路
- 蓝桥杯- 图形显示(java)
- 客户服务器结构的数据库系统,客户服务器结构的数据库的例子
- 一个感染型木马病毒分析(二)
- 在CentOS Linux上安装oracle11g之二 安装oracle11g
- iPhone 13有搞头,经典功能或将回归!
- 五大维度深掘工业互联网数据价值
- 服务器宕机可能的原因以及服务器宕机解决办法
- LeetCode 翻转字符串里的单词
- 敏捷软件质量保证的方法与实践
- php 注销session_php中如何删除和销毁Session
- 完成网络传真,网络扫描。
- html中搜索框提示语,请输入您要搜索的内容(自定义Win10搜索框提示语的技巧)...
- LCD带字符液晶显示I LOVE YOU
- CentOS安装sox音频处理器
- 联想台式计算机光驱启动,联想电脑怎么设置光驱启动【图文】
- cmake的-G 参数
- 蓝牙无法连接手机解决大全(转)
- 基于python高仿探迹源码