1、爬虫是什么

网络爬虫本质上就是一个程序 或者 脚本, 网络爬虫按照一定规则获取互联网中信息(数据), 一般来说爬虫被分为三大模块: 获取数据 解析数据 保存数据

2、爬虫的价值

爬虫的价值本质就是获取数据的价值. 数据的价值越高, 爬虫的价值越高

  • 数据的价值: 一切皆为数据
  • 例如: 获取到了大量的用户信息(基本信息, 购物信息, 浏览信息):
    • 广告推荐 用户行为分析(用户画像)
  • 例如: 获取到了大量的商品的信息(基本信息, 价格):
    • 比价网

3、爬虫的分类

常见分类有两种:

  • 通用爬虫: 指的获取互联网中所有的数据, 不局限于网站, 行业, 分类
  • 百度 谷歌
  • 垂直爬虫: 指的获取互联网中某一个网站, 某一个行业, 某一个分类下的数据
  • 慢慢买 笔趣阁

实际开发中: 一般书写那种爬虫

​ 垂直爬虫(数据分析处理)

4、爬虫的开发流程

爬虫的执行流程:

  • 确定首页URL
  • 发送请求, 获取数据
  • 解析数据
  • 保存数据

爬虫 spider01——基本概念相关推荐

  1. Python爬虫==入门基础概念

    HTTP请求 1.首先需要了解一下http请求,当用户在地址栏中输入网址,发送网络请求的过程是什么? 可以参考我之前学习的时候转载的一篇文章一次完整的HTTP事务过程–超详细 2.还需要了解一下htt ...

  2. python爬虫基础(一)~爬虫概念和架构

    目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...

  3. Python网络爬虫的概念和基本原理

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  4. 爬虫文档学习 xpath bs4 selenium scrapy...

    爬虫 一.介绍 1.什么是爬虫 1.1 爬虫(Spider)的概念 爬虫用于爬取数据, 又称之为数据采集程序. 爬取的数据来源于网络,网络中的数据可以是由Web服务器(Nginx/Apache).数据 ...

  5. python如何爬虫网页数据-python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  6. 【杂谈】爬虫基础与快速入门指南

    今天给大家分享一下网络爬虫的基础知识,以及一些优秀的开源爬虫项目.网络爬虫主要是我们在面对新的任务,但自己又没有数据的时候,获取自己想要的数据的一种手段.因此我们有必要掌握一定的爬虫知识,从而更好的准 ...

  7. python爬虫 小白轻松从0到1_小白学 Python 爬虫(1):开篇

    人生苦短,我用 Python 引言 各位同学大家好,好久不见(可能只有一两天没见:囧)~~~ 先讲一件事情,昨天为啥没更新. emmmmmmmmm,当然是因为加班啦,快到年底了,公司项目比较忙,最近的 ...

  8. 基础网络爬虫(Web crawler)相关技术浅析

    文章目录 前言 基本概念 Robots协议 基本原理 现状概况 爬虫软件 跨语言 Selenium Python urllib requests Scrapy Pyspider Java WebMag ...

  9. 开源 Python网络爬虫框架 Scrapy

    开源 Python 网络爬虫框架 Scrapy:http://blog.csdn.net/zbyufei/article/details/7554322 介绍 所谓网络爬虫,就是一个在网上到处或定向抓 ...

最新文章

  1. 公司Joomla项目笔记1
  2. 体外反搏做_体外反搏治疗的原理
  3. MIT中国博士生开发出第一套保护自动驾驶车辆的感知算法
  4. Windows内存的一些知识点
  5. 对话王晶:音频人才亟待培养,高水平研究人员尤其欠缺
  6. 【AC自动机】前缀匹配(ybtoj AC自动机-3)
  7. Mac 安装virtualbox 虚拟机用移动硬盘遇到的VERR_WRITE_PROTECT
  8. UITableview高度计算
  9. JAVA学习-JAVA实现一元二次方程求解
  10. 【编译工具系列】之GCC文件关联
  11. JavaScript权威指南笔记 - 1
  12. [CLR via C#]1.6 Framework类库~1.9与非托管代码的互操作性
  13. 机器学习之监督学习(一)——决策树
  14. hadoop 2.6 伪分布式的安装
  15. 关于计算机的内存的一点常识
  16. elasticsearch5.0.0中的percolator类型和percolate查询
  17. 中国石油大学《计算机应用基础》第三次在线作业
  18. 软件测试 前置条件是什么意思,软件测试用例生成中前置条件分析.doc
  19. 图片怎么变成html链接,HTML图片怎么超链接
  20. 【100 种语言速成】第 6 节:Tcl/Tk

热门文章

  1. 牛客 - 二分(差分)
  2. CodeForces - 1326D2 Prefix-Suffix Palindrome (Hard version)(马拉车/回文自动机)
  3. POJ - 1958 Strange Towers of Hanoi(线性dp)
  4. CodeForces - 520C DNA Alignment(思维)
  5. POJ - 1190 生日蛋糕(dfs+剪枝)
  6. 甘肃农业大学计算机基础A,2021甘肃农业大学计算机基础专业研究生考试大纲
  7. python自动化常用模块_Python自动化 【第五篇】:Python基础-常用模块
  8. mysql 定时同步数据_MySQL数据同步之otter
  9. python3之协程(1)---协程简介
  10. C++虚继承(三) --- C++ 对象的内存布局(下)(陈皓)