1. 获取初始的URL。初始的URL地址可以人为地指定,也可以由用户指定的某个或某几个初始爬取网页决定。
  2. 根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后,先爬取当前URL地址中的网页信息,然后解析网页信息内容,将网页存储到原始数据库中,并且在当前获得的网页信息里发现新的URL地址,存放到一个URL队列里面。
  3. 从URL队列中读取新的URL,从而获得新的网页信息,同时在新网页中获取新的URL,并重复上述的爬取过程。
  4. 满足爬虫系统设置的停止条件时,停止爬取。在编写爬虫的时候,一般会设置相应的停止条件,爬虫则会在停止条件满足时停止爬取。如果没有设置停止条件,爬虫就会一直爬取下去,一直到无法获取新的URL地址为止。

(画的有点糙,但是意思到位)

还有一个是聚焦爬虫的实现原理,跟通用爬虫大致上都相同,只不过多了两个步骤:定义爬取目标和筛选过滤URL。

通用爬虫实现的原理及过程相关推荐

  1. 网络爬虫--1.通用爬虫和聚焦爬虫

    文章目录 一.前言 二.通用爬虫 1.工作原理 2.通用爬虫的局限性 三.聚焦爬虫 一.前言 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 其中通用网络爬虫是捜索引擎抓取系统(Baid ...

  2. Python爬虫(2.网络爬虫的实现原理及技术)

    网络爬虫的实现原理及技术 1.   网络爬虫实现原理 以两种爬虫为例,讲解网络爬虫的实现原理. 1)       通用网络爬虫 图1 通用网络爬虫实现原理及过程 见图1,通用网络爬虫的实现原理及过程可 ...

  3. 【爬虫学习笔记day03】1.1. (了解)通用爬虫和聚焦爬虫+通用搜索引擎(Search Engine)工作原理+聚焦爬虫

    文章目录 1.1. (了解)通用爬虫和聚焦爬虫 通用爬虫和聚焦爬虫 通用爬虫 通用搜索引擎(Search Engine)工作原理 第一步:抓取网页 搜索引擎如何获取一个新网站的URL: 1. 新网站向 ...

  4. 爬虫—01-爬虫原理与数据抓取

    爬虫的更多用途 12306抢票 网站上的头票 短信轰炸 关于Python网络爬虫,我们需要学习的有: Python基础语法学习(基础知识) 对HTML页面的内容抓取(数据抓取) 对HTML页面的数据提 ...

  5. python通用爬虫和聚焦爬虫的区别

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联 ...

  6. 爬虫(一):爬虫的基础知识 ---通用爬虫和聚焦爬虫,http和https协议,常见的响应状态码

    一.爬虫的定义 网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 二.爬虫可以解决的问题 解决冷启动问题 搜索引擎的根基. -通用爬虫 帮助机器学习建立知识图谱 制作各种比价软件 三 ...

  7. 什么是网络爬虫以及通用爬虫和聚焦爬虫的介绍

    什么是网络爬虫 1.为什么要学习爬虫技术? 2.爬虫的定义 3.爬虫的更多用途 4.爬虫怎么抓取网页上的数据? 1.网页三大特征: 2.爬虫的设计思路: 5.为什么要选择Python做爬虫? 6.通用 ...

  8. Scrapy 通用爬虫爬取广西人才网数据记录(上,企业信息)

    2019独角兽企业重金招聘Python工程师标准>>> 背景 这一次的通用爬虫跟以往默认的spider不一样,它的爬取可以通过正则将范围扩大,而且它也不注重那么细的内容,能爬尽量爬. ...

  9. 聚焦爬虫与通用爬虫详解

    根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用爬虫:搜索引擎用的爬虫系统.搜索引擎和web服务商提供的爬虫. 目标: 就是尽可能的:把互联网上的所有的网页下载下来,放到本 ...

最新文章

  1. Android实战技巧之三十七:图片的Base64编解码
  2. servlet——请求乱码问题解决
  3. 大咖分享 | 产品经理如何成长进阶?
  4. Springcloud配置中心客户端启动时Could not resolve placeholder ‘version‘ in value “${version}“报错原因
  5. Index of c#
  6. OpenJudge NOI 1.7 14:大小写字母互换
  7. python卸载清理注册表_使用Python操作注册表
  8. 基于jsp+mysql+Spring+mybatis的SSM健身房管理系统
  9. 对外汉语偏误语料库_对外汉语偏误汇总
  10. oracle cmd命令导入,oracle使用cmd命令导入数据库
  11. Web答辩问题整合一
  12. Python3教程@hikali
  13. c语言灵异事件之“字符串被吞”
  14. 关闭Windows Defender实时保护,暂时关闭和永久关闭方法
  15. Opencv之图像矩(晦涩难懂,用到再看吧)
  16. java合并时间点为时间段(时间区间)
  17. js调用身份证读卡器(HX-FDX3S)
  18. 汇编语言随笔(4)-数据段和栈段与mov,add,sub,div,mul、adc、sbb指令
  19. 如何使用html+Chart画甜甜圈图
  20. 必看!决定蓝领薪酬高低的因素

热门文章

  1. android静音模式,android静音模式下仍可以播放媒体声音以及调节其大小。。。。...
  2. Android SwipeRefreshAndLoadLayout,下拉刷新,上拉更多,使用SwipeRefreshLayout自带的Progress
  3. 火狐浏览器获取flash上传文件的
  4. QQ幻想成功的简单分析
  5. 艾永亮:四条打造超级产品的基本原则,吸引用户注意力
  6. python open读写文件
  7. 官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目
  8. linux 4k对齐设置步骤,linux查看硬盘4K对齐方法
  9. StrictMode引发的惨案
  10. between and的用法