爬虫基础(一)之概念、作用、分类和流程

1. 爬虫的概念

模拟浏览器,发送请求,获取响应

       浏览器相当于客户端

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(如网易云音乐)(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

  • 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做(只要在浏览器能看到的,都可以通过爬虫爬下来)
  • 爬虫也只能获取客户端(浏览器)所展示出来的数据

2. 爬虫的作用

爬虫在互联网世界中有很多的作用,比如:

  1. 数据采集

    1. 抓取微博评论(机器学习舆情监控)
    2. 抓取招聘网站的招聘信息(数据分析、挖掘)
    3. 新浪滚动新闻
    4. 百度新闻网站
  2. 软件测试

    1. 爬虫之自动化测试
    2. 虫师
  3. 12306抢票

  4. 网站上的投票

    1. 投票网
  5. 网络安全

    1. 短信轰炸

      1. 注册页面1(输入手机号)
      2. 注册页面2
      3. 注册页面3
    2. web漏洞扫描

3. 爬虫的分类

3.1 根据被爬取网站的数量不同,可以分为:

  • 通用爬虫,如 搜索引擎(通过链接爬取所有关联的)
  • 聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据

3.2 根据是否以获取数据为目的,可以分为:

  • 功能性爬虫,给你喜欢的明星投票、点赞(还如手机轰炸等)
  • 数据增量爬虫,比如招聘信息

3.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:(以下两者内容都是变化的)

  • 基于url地址变化、内容也随之变化的数据增量爬虫

  • url地址不变、内容变化的数据增量爬虫

4. 爬虫的流程

爬虫的基本流程如图所示

  1. 获取一个url
  2. 向url发送请求,并获取响应(需要http协议)
  3. 如果从响应中提取url,则继续发送请求获取响应
  4. 如果从响应中提取数据,则将数据进行保存

爬虫基础(一)之概念、作用、分类和流程相关推荐

  1. 一、scrapy爬虫框架——概念作用和工作流程 scrapy的入门使用

    scrapy的概念和流程 学习目标: 了解 scrapy的概念 了解 scrapy框架的作用 掌握 scrapy框架的运行流程 掌握 scrapy中每个模块的作用 1. scrapy的概念 Scrap ...

  2. python爬虫基础(一)~爬虫概念和架构

    目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...

  3. 【Python 爬虫】 1、爬虫基础概念

    爬虫基础概念 网络爬虫的定义 网络爬虫(Crawler)又被成为网络蜘蛛(Spider),网络机器人,网页追逐者,它是一种按照一定规则,自动的抓取万维网信息的程序或者脚本. [狭义与广义定义] 狭义上 ...

  4. python网络爬虫基础day01

    2019.5.13,今天在"小猿圈"跟着波波老师学习了爬虫开发的第一章和第二章,总结下今天学的知识: 爬虫基础介绍: 什么是爬虫? - 通过编写程序,模拟浏览器上网,然后让其去互联 ...

  5. Python网络爬虫(一):爬虫基础

    Python网络爬虫(一)爬虫基础 一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...

  6. 小白必学的爬虫基础(二)

    爬虫基础知识 网络爬虫 爬虫可以解决的问题 爬虫工程师的进阶之路 搜索引擎 搜索引擎的主要组成 搜索引擎的工作流程 搜索引擎的局限性 聚焦爬虫 爬虫准备工作 robots协议 sitemap–网站地图 ...

  7. python爬虫基础-requests库

    python爬虫基础-requests库 python爬虫 1.什么是爬虫? 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程. 注意:浏览器抓取的数据对应的页面是一个完整的页面. 为什 ...

  8. 倚天剑第一式——爬虫基础

    博主简介:博主是一个大二学生,主攻人工智能领域研究.感谢缘分让我们在CSDN相遇,博主致力于在这里分享关于人工智能,C++,python,爬虫等方面的知识分享.如果有需要的小伙伴,可以关注博主,博主会 ...

  9. 【爬虫笔记】爬虫基础

    文章目录 一.技术选型 二.网页分类 三.正则表达式 四.深度优先和广度优先 1.网站的树结构 2.深度优先算法和实现 3.广度优先算法和实现 五.爬虫去重策略 六.字符串编码 1.发展 2.转换 爬 ...

最新文章

  1. 域名端口自己电脑做服务器续,用默认端口,自动跳转到默认项目 【直接用域名访问我们本机的项目】...
  2. 对于基础太模糊下一步需要清晰 几个目标
  3. html+单选+回显,VUE+elementUI表格多选框实现单选以及数据回显时toggleRowSelection失效问题...
  4. jQuery Css方法
  5. 蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构
  6. Python常用模块集锦
  7. C# 窗体全透明,控件不透明
  8. “工业革命4.0”时代,智能汽车应是什么样?
  9. Linux教程学习笔记1
  10. latex linux 安装,Linux 安装LaTeX
  11. 2018年华北五省计算机应用大赛参赛作品--战拖儿app
  12. Multisim14基本介绍(上)
  13. iframe 防止挂马的问题
  14. php 图形库 锯齿,PHP imageantialias - 是否使用抗锯齿(antialias)功能
  15. 变上限积分求导公式(通用公式)
  16. 怎么注册微软云服务器,如何创建和部署云服务(经典) | Microsoft Docs
  17. 免费的配音软件有哪些?手机上就能操作的
  18. java创建Shape类,求子类circle,圆形rectangle矩形,rhombus菱形的周长和面积
  19. 引导魔女之力,征服星辰大海 主线篇: 重要事情说三遍: 推主线!推主线!!推主线!!! 简述: 1.本篇仅主线,涉及到的技巧全职业都可以参考; 2.考虑到萌新刚玩没有护卫者系统,故禁护
  20. 梦在远方,而你在心上

热门文章

  1. 超越Google,快手落地业界首个万亿参数推荐精排模型
  2. 针对《评人工智能如何走向新阶段》一文,继续发布国内外的跟贴留言439-448条如下:
  3. 免费公开课 | 基于定制数据流技术的AI计算加速
  4. 链式比较、奇怪的字母、有趣的import...Python冷知识(六)
  5. 渡鸦创始人离职百度后的下一个“真相”
  6. 上班第一天公司要你用Spring Boot 实现万能文件在线预览
  7. 理解 Linux 的虚拟内存
  8. 服务被干爆了!竟然是日志的锅!!
  9. 漫画:7 种编程语言的学习曲线
  10. 跟我学Springboot开发后端管理系统7:Matrxi-Web权限设计