网络爬虫按照系统结构和实现技术,大致可分为4类,即通用网络爬虫、聚焦网络爬虫、增量网络爬虫和深层次网络爬虫。
通用网络爬虫:又称为全网网络爬虫,其在采集数据时,由部分种子URL扩展到整个网络的全部页面,主要应用于搜索引擎数据的采集。这类网络爬虫的数据采集范围比较广,数据采集量巨大,对数据采集的速度和存储空间有较高的要求,通常需要深度遍历网站的资源。例如,Apache的子项目Nutch便是一个高效的通用网络爬虫框架,其使用分布式的方式采集数据。有兴趣详细学习Nutch框架的读者,可参考书籍Web Crawling and Data Mining with Apache Nutch。
聚焦网络爬虫:又称为主题网络爬虫,是指选择性地采集那些与预先定义好的主题相关的页面。相比于通用网络爬虫,聚焦网络爬虫采集的网络资源少,主要用于满足特定人群对特定领域信息的需求。在聚焦网络爬虫中,需要设计过滤策略,即过滤与所定主题无关的页面。
增量网络爬虫:是指对已下载网页采取增量式更新,只采集新产生的或者已经发生变化网页的爬虫。增量网络爬虫能够在一定程度上保证所爬取的页面尽可能是新的页面,历史已经采集过的页面不需要重复采集。增量网络爬虫避免了重复采集数据,可以减少时间和空间上的耗费。针对小规模特定网站的数据采集,在设计网络爬虫时,可构建一个基于时间戳判断是否更新的数据库,通过判断时间戳的先后,判断程序是否继续采集,同时更新数据库中的时间戳信息。
深度网络爬虫:即Deep Web爬虫,指对大部分内容不能通过静态链接获取,只有用户提交表单信息才能获取Web页面的爬虫。

1.2 网络爬虫分类相关推荐

  1. 第一章 爬虫(认识网络爬虫)

    第一章      认识网络爬虫 1.1 什么是网络爬虫 网络爬虫: 一种按规则,自动请求网站并提取网页数据的程序或脚本 网络爬虫分类(按照系统结构和技术划分): 1.通用网络爬虫 2.聚焦网络爬虫 3 ...

  2. Python网络爬虫入门(一)入门

    Python网络爬虫(一)入门 使用到的库:requestspip+BeautifulSoup4pip+tqdmpip+html5lib python版本:3.8 编译环境:Jupyter Noteb ...

  3. 网络爬虫框架Scrapy简介

    作者: 黄进(QQ:7149101) 一. 网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本:它是一个自动提取网页的程序,它为搜索引擎从万维 ...

  4. Python网络爬虫:爬取并下载个性化签名图片 附GUI窗体版

    Hello,大家好,我是wangzirui32,最近我开了个新的系列,是"Python网络爬虫"分类,还请大家多多支持! 今天,我们来学习如何爬取并下载个性化签名图片,开始学习吧! ...

  5. 网络爬虫原理(概要了解)

    一.网络爬虫原理 1.1 等同于浏览器访问网页的原理 (1)真人行为驱动 (2)浏览器自动执行人为的动作,即将动作自动程序化. 1.2 网络爬虫就是将浏览器访问网页的过程,再次抽像成程序. 二.网络爬 ...

  6. 爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫

    爬虫分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫.聚焦网络爬虫.增量式网络爬虫.深层网络爬虫. 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 通用网络爬虫 通用网络 ...

  7. 网络爬虫的作用和简单分类

    1.4.1知识概述 一般会用来做数据分析,先通过对数据的清洗,抽取,转换,将数据做成标准化的数据,然后进行数据分析和挖掘,得到数据的商业价值. 数据分为内部数据和外部数据 在互联网公司,不管内部数据还 ...

  8. (二)python网络爬虫(理论+实战)——爬虫分类和基本流程

     小白都能学会的python网络爬虫专栏: https://blog.csdn.net/c1007857613/category_12127982.html 序言 本人从事爬虫相关工作已8年以上,从一 ...

  9. 一篇文章教会你利用Python网络爬虫获取分类图片

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 博海拾贝是一支互联网从业者在线教育的团队,扎根于中国教育行业以及互 ...

最新文章

  1. 第6周小组作业:软件测试和评估
  2. svn服务器搭建及使用 二
  3. 【自动化__持续集成】___java___重载
  4. 为什么kafka性能非常高
  5. 谈谈产品开发团队的配置管理规则
  6. 结构体字节大小计算方法
  7. 计算机网络protocol,北邮高级计算机网络课件1-protocol.pdf
  8. 洛谷 题解 P1135 【奇怪的电梯】
  9. Nsight Compute Profile Kernel无法定位源码问题
  10. 如何查计算机版本,如何查看电脑ie浏览器版本呢
  11. shapefile(.shp,.dbf,.prj)导入导出
  12. 最健康的饮料--茶的杂谈
  13. 测试专业相机快门软件,检测快门次数软件 快门数量检测
  14. JavaSE基础(21) 打印数组
  15. docker看远程仓库镜像_Docker 镜像使用
  16. 网络编程0:网络基础知识
  17. 伙伴系统之避免碎片--Linux内存管理(十六)
  18. 数风流人物还看今朝|前后端分离微服务项目常用中间件以及指令
  19. 走进VR开发世界(4)——走进VR游戏开发的世界
  20. 802协议族太网帧格式

热门文章

  1. java后端研发经典面试题总结二
  2. APP软件开发的步骤
  3. 微信小程序 09 前后端交互
  4. echarts默认高亮省市区联动
  5. 关于杂质过滤的一点研究
  6. windows使用WiFi-direct连接手机等设备
  7. 了解Nape 2d物理引擎 第一天
  8. java.sql.SQLException: Incorrect Integer value:‘****‘ for column ‘id‘ at row 1 解决方案
  9. 关于4月2号OpenAI大面积封停亚洲(中国大陆)帐号的问题和应对策略
  10. omf多路径 oracle_Oracle数据库使用OMF来简化数据文件的管理