文章目录

  • 一.前言
  • 二.通用爬虫
    • 1.工作原理
    • 2.通用爬虫的局限性
  • 三.聚焦爬虫

一.前言

根据使用场景,网络爬虫可分为 通用爬虫聚焦爬虫 两种。

其中通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

二.通用爬虫

1.工作原理

通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。

(1)抓取网页:通过搜索引擎将待爬取的url加入到通用爬虫的url队列中,进行网页内容的爬取

(2)数据存储:将爬取下来的网页保存到本地,这个过程会有一定的去重操作,如果某个网页的内 容大部分内容都会重复,搜索引擎可能不会保存。

(3)预处理:提取文字,中文分词,消除噪音(比如版权声明文字,导航条,广告等)。

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
(4)设置网站排名,为用户提供服务。

同时会根据页面的PageRank值(链接的访问量排名)来进行网站排名,这样Rank值高的网站在搜索结果中会排名较前,当然也可以直接使用 Money 购买搜索引擎网站排名,简单粗暴。

2.通用爬虫的局限性

但是,这些通用性搜索引擎也存在着一定的局限性:

  1. 通用搜索引擎所返回的结果都是网页,而大多情况下,网页里90%的内容对用户来说都是无用的。

  2. 不同领域、不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对某个用户的搜索结果。

  3. 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎对这些文件无能为力,不能很好地发现和获取。

  4. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询,无法准确理解用户的具体需求。

三.聚焦爬虫

针对这些情况,聚焦爬虫技术得以广泛使用。

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

而我们今后要学习的网络爬虫,就是聚焦爬虫。

网络爬虫--1.通用爬虫和聚焦爬虫相关推荐

  1. python通用爬虫和聚焦爬虫的区别

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联 ...

  2. 【爬虫学习笔记day03】1.1. (了解)通用爬虫和聚焦爬虫+通用搜索引擎(Search Engine)工作原理+聚焦爬虫

    文章目录 1.1. (了解)通用爬虫和聚焦爬虫 通用爬虫和聚焦爬虫 通用爬虫 通用搜索引擎(Search Engine)工作原理 第一步:抓取网页 搜索引擎如何获取一个新网站的URL: 1. 新网站向 ...

  3. 爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫

    爬虫分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫.聚焦网络爬虫.增量式网络爬虫.深层网络爬虫. 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 通用网络爬虫 通用网络 ...

  4. 什么是网络爬虫以及通用爬虫和聚焦爬虫的介绍

    什么是网络爬虫 1.为什么要学习爬虫技术? 2.爬虫的定义 3.爬虫的更多用途 4.爬虫怎么抓取网页上的数据? 1.网页三大特征: 2.爬虫的设计思路: 5.为什么要选择Python做爬虫? 6.通用 ...

  5. 爬虫(一):爬虫的基础知识 ---通用爬虫和聚焦爬虫,http和https协议,常见的响应状态码

    一.爬虫的定义 网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 二.爬虫可以解决的问题 解决冷启动问题 搜索引擎的根基. -通用爬虫 帮助机器学习建立知识图谱 制作各种比价软件 三 ...

  6. 聚焦爬虫与通用爬虫详解

    根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用爬虫:搜索引擎用的爬虫系统.搜索引擎和web服务商提供的爬虫. 目标: 就是尽可能的:把互联网上的所有的网页下载下来,放到本 ...

  7. Python网络爬虫与聚焦爬虫,如何用爬虫爬取段子

    一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...

  8. 【通用技术】2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会...

    网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...

  9. 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

    分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler).聚焦网络爬虫(Focused Web Crawler).增量式网 ...

最新文章

  1. php session_start() 非常慢,PHP session_start()很慢问题分析与解决办法
  2. 当AI黑科技撞上大数据日:清华大学第四届大数据日成功举办
  3. 思科防火墙nat-control的作用
  4. 20211005 Hermite矩阵及几个性质
  5. Android是否会因低价打败iPhone
  6. STM8S103 PB4和PB5
  7. 如何搭建Electron开发环境
  8. 【转】先说IEnumerable,我们每天用的foreach你真的懂它吗?
  9. java html entity encoding,实体“HTML.Version”的声明必须以''结尾
  10. 帝国cms listinfo.php,帝国CMS动态列表应用之在列表中显示指定的会员组会员发布的信息...
  11. echarts map 点击地图区域变色_pyecharts 地图可视化
  12. 算法:指定位置翻转链表 rotate-list
  13. Web基础配置篇(八): 远程操作工具、命令的介绍、安装及基本使用
  14. 鼎捷ERP易飞9.0.8实战课程-卓致羽-专题视频课程
  15. new一个对象的过程中发生了什么?
  16. 在国产系统(Linux)上,安装运行Steam游戏详解
  17. linux键盘输入空格失效,电脑键盘空格键失灵不能用如何修复
  18. Matlab数字图像处理学习记录【9】——表示与描述
  19. java增删改查 jsp生成_jsp+servlet实现最简单的增删改查代码分享
  20. 【问题解决】springboot启动后一小会就自动停止,提示Process finished with exit code 0

热门文章

  1. Android 进程监控(top命令)
  2. 深入剖析C++中的string类
  3. 30分钟,让你成为一个更好的程序员
  4. 超详细 图解 : IntelliJ IDEA 逆向生成 JAVA 实体类
  5. jackson 的注解:@JsonProperty、@JsonIgnore、@JsonFormat 用法说明
  6. yii2 migrate 数据库迁移的简单分享
  7. 剑指Offer-正则表达式匹配(Python)
  8. tkinter拦截关闭事件
  9. Datawhale MySQL 训练营 Task2 查询语句
  10. ASP.NET MVC中controller和view相互传值的方式