一.前言

根据使用场景，网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种。

其中通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

二.通用爬虫

1.工作原理

通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

（1）抓取网页：通过搜索引擎将待爬取的url加入到通用爬虫的url队列中，进行网页内容的爬取

（2）数据存储：将爬取下来的网页保存到本地，这个过程会有一定的去重操作，如果某个网页的内容大部分内容都会重复，搜索引擎可能不会保存。

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

但搜索引擎还不能处理图片、视频、Flash 这类非文字内容，也不能执行脚本和程序。
（4）设置网站排名，为用户提供服务。

同时会根据页面的PageRank值（链接的访问量排名）来进行网站排名，这样Rank值高的网站在搜索结果中会排名较前，当然也可以直接使用 Money 购买搜索引擎网站排名，简单粗暴。

2.通用爬虫的局限性

但是，这些通用性搜索引擎也存在着一定的局限性：

通用搜索引擎所返回的结果都是网页，而大多情况下，网页里90%的内容对用户来说都是无用的。
不同领域、不同背景的用户往往具有不同的检索目的和需求，搜索引擎无法提供针对某个用户的搜索结果。
万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎对这些文件无能为力，不能很好地发现和获取。
通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询，无法准确理解用户的具体需求。

三.聚焦爬虫

针对这些情况，聚焦爬虫技术得以广泛使用。

聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

而我们今后要学习的网络爬虫，就是聚焦爬虫。

网络爬虫--1.通用爬虫和聚焦爬虫相关推荐

python通用爬虫和聚焦爬虫的区别
通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联 ...
【爬虫学习笔记day03】1.1. (了解)通用爬虫和聚焦爬虫+通用搜索引擎（Search Engine）工作原理+聚焦爬虫
文章目录 1.1. (了解)通用爬虫和聚焦爬虫通用爬虫和聚焦爬虫通用爬虫通用搜索引擎(Search Engine)工作原理第一步:抓取网页搜索引擎如何获取一个新网站的URL: 1. 新网站向 ...
爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫
爬虫分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫.聚焦网络爬虫.增量式网络爬虫.深层网络爬虫. 实际的网络爬虫系统通常是几种爬虫技术相结合实现的通用网络爬虫通用网络 ...
什么是网络爬虫以及通用爬虫和聚焦爬虫的介绍
什么是网络爬虫 1.为什么要学习爬虫技术? 2.爬虫的定义 3.爬虫的更多用途 4.爬虫怎么抓取网页上的数据? 1.网页三大特征: 2.爬虫的设计思路: 5.为什么要选择Python做爬虫? 6.通用 ...
爬虫（一）：爬虫的基础知识 ---通用爬虫和聚焦爬虫，http和https协议，常见的响应状态码
一.爬虫的定义网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 二.爬虫可以解决的问题解决冷启动问题搜索引擎的根基. -通用爬虫帮助机器学习建立知识图谱制作各种比价软件三 ...
聚焦爬虫与通用爬虫详解
根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用爬虫:搜索引擎用的爬虫系统.搜索引擎和web服务商提供的爬虫. 目标: 就是尽可能的:把互联网上的所有的网页下载下来,放到本 ...
Python网络爬虫与聚焦爬虫，如何用爬虫爬取段子
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
【通用技术】2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫，包教包会...
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...
实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
分类网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler).聚焦网络爬虫(Focused Web Crawler).增量式网 ...

网络爬虫--1.通用爬虫和聚焦爬虫

文章目录