爬虫基础(一)之概念、作用、分类和流程
爬虫基础(一)之概念、作用、分类和流程
1. 爬虫的概念
模拟浏览器,发送请求,获取响应
浏览器相当于客户端
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(如网易云音乐)(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
- 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做(只要在浏览器能看到的,都可以通过爬虫爬下来)
- 爬虫也只能获取客户端(浏览器)所展示出来的数据
2. 爬虫的作用
爬虫在互联网世界中有很多的作用,比如:
数据采集
- 抓取微博评论(机器学习舆情监控)
- 抓取招聘网站的招聘信息(数据分析、挖掘)
- 新浪滚动新闻
- 百度新闻网站
软件测试
- 爬虫之自动化测试
- 虫师
12306抢票
网站上的投票
- 投票网
网络安全
短信轰炸
- 注册页面1(输入手机号)
- 注册页面2
- 注册页面3
web漏洞扫描
3. 爬虫的分类
3.1 根据被爬取网站的数量不同,可以分为:
- 通用爬虫,如 搜索引擎(通过链接爬取所有关联的)
- 聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据
3.2 根据是否以获取数据为目的,可以分为:
- 功能性爬虫,给你喜欢的明星投票、点赞(还如手机轰炸等)
- 数据增量爬虫,比如招聘信息
3.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:(以下两者内容都是变化的)
基于url地址变化、内容也随之变化的数据增量爬虫
url地址不变、内容变化的数据增量爬虫
4. 爬虫的流程
爬虫的基本流程如图所示
- 获取一个url
- 向url发送请求,并获取响应(需要http协议)
- 如果从响应中提取url,则继续发送请求获取响应
- 如果从响应中提取数据,则将数据进行保存
爬虫基础(一)之概念、作用、分类和流程相关推荐
- 一、scrapy爬虫框架——概念作用和工作流程 scrapy的入门使用
scrapy的概念和流程 学习目标: 了解 scrapy的概念 了解 scrapy框架的作用 掌握 scrapy框架的运行流程 掌握 scrapy中每个模块的作用 1. scrapy的概念 Scrap ...
- python爬虫基础(一)~爬虫概念和架构
目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...
- 【Python 爬虫】 1、爬虫基础概念
爬虫基础概念 网络爬虫的定义 网络爬虫(Crawler)又被成为网络蜘蛛(Spider),网络机器人,网页追逐者,它是一种按照一定规则,自动的抓取万维网信息的程序或者脚本. [狭义与广义定义] 狭义上 ...
- python网络爬虫基础day01
2019.5.13,今天在"小猿圈"跟着波波老师学习了爬虫开发的第一章和第二章,总结下今天学的知识: 爬虫基础介绍: 什么是爬虫? - 通过编写程序,模拟浏览器上网,然后让其去互联 ...
- Python网络爬虫(一):爬虫基础
Python网络爬虫(一)爬虫基础 一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...
- 小白必学的爬虫基础(二)
爬虫基础知识 网络爬虫 爬虫可以解决的问题 爬虫工程师的进阶之路 搜索引擎 搜索引擎的主要组成 搜索引擎的工作流程 搜索引擎的局限性 聚焦爬虫 爬虫准备工作 robots协议 sitemap–网站地图 ...
- python爬虫基础-requests库
python爬虫基础-requests库 python爬虫 1.什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程. 注意:浏览器抓取的数据对应的页面是一个完整的页面. 为什 ...
- 倚天剑第一式——爬虫基础
博主简介:博主是一个大二学生,主攻人工智能领域研究.感谢缘分让我们在CSDN相遇,博主致力于在这里分享关于人工智能,C++,python,爬虫等方面的知识分享.如果有需要的小伙伴,可以关注博主,博主会 ...
- 【爬虫笔记】爬虫基础
文章目录 一.技术选型 二.网页分类 三.正则表达式 四.深度优先和广度优先 1.网站的树结构 2.深度优先算法和实现 3.广度优先算法和实现 五.爬虫去重策略 六.字符串编码 1.发展 2.转换 爬 ...
最新文章
- 域名端口自己电脑做服务器续,用默认端口,自动跳转到默认项目 【直接用域名访问我们本机的项目】...
- 对于基础太模糊下一步需要清晰 几个目标
- html+单选+回显,VUE+elementUI表格多选框实现单选以及数据回显时toggleRowSelection失效问题...
- jQuery Css方法
- 蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构
- Python常用模块集锦
- C# 窗体全透明,控件不透明
- “工业革命4.0”时代,智能汽车应是什么样?
- Linux教程学习笔记1
- latex linux 安装,Linux 安装LaTeX
- 2018年华北五省计算机应用大赛参赛作品--战拖儿app
- Multisim14基本介绍(上)
- iframe 防止挂马的问题
- php 图形库 锯齿,PHP imageantialias - 是否使用抗锯齿(antialias)功能
- 变上限积分求导公式(通用公式)
- 怎么注册微软云服务器,如何创建和部署云服务(经典) | Microsoft Docs
- 免费的配音软件有哪些?手机上就能操作的
- java创建Shape类,求子类circle,圆形rectangle矩形,rhombus菱形的周长和面积
- 引导魔女之力,征服星辰大海 主线篇: 重要事情说三遍: 推主线!推主线!!推主线!!! 简述: 1.本篇仅主线,涉及到的技巧全职业都可以参考; 2.考虑到萌新刚玩没有护卫者系统,故禁护
- 梦在远方,而你在心上
热门文章
- 超越Google,快手落地业界首个万亿参数推荐精排模型
- 针对《评人工智能如何走向新阶段》一文,继续发布国内外的跟贴留言439-448条如下:
- 免费公开课 | 基于定制数据流技术的AI计算加速
- 链式比较、奇怪的字母、有趣的import...Python冷知识(六)
- 渡鸦创始人离职百度后的下一个“真相”
- 上班第一天公司要你用Spring Boot 实现万能文件在线预览
- 理解 Linux 的虚拟内存
- 服务被干爆了!竟然是日志的锅!!
- 漫画:7 种编程语言的学习曲线
- 跟我学Springboot开发后端管理系统7:Matrxi-Web权限设计