一般的,我们想抓取一个网站所有的URL,首先通过起始URL,之后通过网络爬虫提取出该网页中所有的URL链接,之后再对提取出来的每个URL进行爬取,提取出各个网页中的新一轮URL,以此类推。整体的感觉就是自上而下进行抓取网页中的链接,理论上来看,可以抓取整站所有的链接。但是问题来了,一个网站中网页的链接是有环路的。

举个栗子,在网站首页中我们可以看到首页这个链接,之后我们在子网页中也有可能会看到有个链接是指向首页的,可能子子网页还会有对应的链接指向首页。按照我们之前的逻辑,抓取每个网页中的所有链接,之后对所有的链接继续抓取。就拿首页来说,我们首先抓取的就是它,尔后子网页中又有个链接指向首页,子子网页还有链接指向首页,如此进行抓取,岂不是会导致网页重复抓取,其他的网页根本就没有机会去抓取了,简直不敢想象~~要解决这个问题并不难,此时就需要用到网络爬虫中了一个重要的知识点,就是网页去重。

首先介绍一个简单的思路,也是经常用的一个通用思路。我们将已经爬取过的网页放到一个列表中去,以首页为例,当首页被抓取之后,将首页放到列表中,之后我们抓取子网页的时候,如果再次碰到了首页,而首页已经被抓取过了,此时就可以跳过首页,继续往下抓取其他的网页,而避开了将首页重复抓取的情况,这样下来,爬取整站就不会出现一个环路。以这个思路为出发点,将访问过的URL保存到数据库中,当获取下一个URL的时候,就去数据库中去查询这个URL是否已经被访问过了。虽然数据库有缓存,但是当每个URL都去数据库中查询的话,会导致效率下降的很快,所以这种策略用的并不多,但不失为最简单的一种方式。

第二种方式是将访问过的URL保存到set中去,通过这样方式获取URL的速度很快,基本上不用做查询。但是这种方法有一个缺点,将URL保存到set中,实际上是保存到内存中,当URL数据量很大的时候(如1亿条),会导致内存的压力越来越大。对于小型的爬虫来说,这个方法十分可取,但是对于大型的网络爬虫,这种方法就难以企及了。

第三种方式是将字符进行md5编码,md5编码可以将字符缩减到固定的长度。一般来说,md5编码的长度约为128bit,约等于16byte。在未缩减之前,假设一个URL占用的内存大小为50个字节,一个字节等于2byte,相当于100byte。由此可见,进行md5编码之后,节约了大量的内存空间。通过md5的方式可以将任意长度的URL压缩到同样长度的md5字符串,而且不会出现重复的情况,达到去重的效果。通过这种方式很大程度上节约了内存,scrapy框架采取的方式同md5方式有些类似,所以说scrapy在正常情况下,即使URL的数量级达到了上亿级别,其占用的内存比起set方式也要少得多。

第四种方式是使用bitmap方法将字符进一步压缩。这种方式的意思是在计算机中申请8个bit,即8个位,每个位由0或者1表示,这是计算机中最小的单元。8个位组成1个byte,一个位代表一个URL的话,为什么一个位可以确定一个URL呢?因为我们可以将一个URL进行一个哈希函数,然后将其映射到位上面去。举个栗子,假设我们有8个URL,分别对应8个位,然后通过位上面的0和1的状态,便可以表明这个URL是否存在,通过这种方法便可以进一步的压缩内存。

但是bitmap方法有一个非常大的缺点,就是它的冲突会非常高,因为同用一个哈希函数,极有可能将两个不同的URL或者多个不同的URL映射到一个位置上来。实际上这种哈希的方法,它也是set方式的一种实现原理,它将URL进行一种函数计算,然后映射到bit的位置中去,所以这种方式对内存的压缩是非常大的。简单的来计算一下,还是以一亿条URL来进行计算,相当于一亿个bit,通过计算得到其相当于12500000byte,除以1024之后约为12207KB,大概是12MB的空间。在实际过程中内存的占用可能会比12MB大一些,但是即便是如此,相比于前面三种方法,这种方式以及大大的减少了内存占用的空间了。但是与此同时,该方法产生冲突的可能性是非常大的,所以这种方法也不是太适用的。那么有没有方法将bitmap这种对内存浓重压缩的方法做进一步优化,让冲突的可能性降下来呢?答案是有的,就是第五种方式。

第五种方式是bloomfilter,该方法对bitmap进行改进,它可以通过多个哈希函数减少冲突的可能性。通过这种方式,一方面它既可以达到bitmap方法减少内存的作用,另一方面它又同时起到减少冲突的作用。关于bloomfilter原理及其实现,后期肯定会给大家呈上,今天先让大家有个简单的认识。Bloomfilter适用于大型的网络爬虫,尤其是数量级超级大的时候,采用bloomfilter方法可以起到事半功倍的效果,其也经常和分布式爬虫共同配合,以达到爬取的目的。

关于网络爬虫过程中去重策略的五种方式的介绍就先到这里了,不懂的就当了解一下了,科普一下下,问题不大,希望对小伙伴们的学习有所帮助。

有个小伙伴提到上面的5种方法只是适用于在单进程的条件下,如果是多进程下,需要设置管道来进行信息交换,同时也可以直接设置管道来代替set这种集合,感谢这位不愿露面的大佬~~

python网络爬虫的方法有几种_Python网络爬虫过程中5种网页去重方法简要介绍相关推荐

  1. python excel处理重复行并统计个数_python统计一个文本中重复行数的方法

    python统计一个文本中重复行数的方法 这篇文章主要介绍了python统计一个文本中重复行数的方法,涉及针对Python中dict对象的使用及相关本文的操作,具有一定的借鉴价值,需要的朋友可以参考下 ...

  2. matlab换挡程序,一种基于MATLAB换挡过程中快速锁定分析数据的方法与流程

    本发明涉及汽车变速器数据分析,特别的,涉及一种基于matlab换挡过程中快速锁定分析数据的方法. 背景技术: 自动变速器的核心功能是能根据驾驶员意图进行自动换挡,解放驾驶员的左脚:在自动变速器的使用过 ...

  3. java string 连续字符_Java中字符串中连续相同字符去重方法

    导读 正文 最近参加了一个面试,问到了如何在一个字符串中连续相同字符去重,想了想用正则表达式应该可以轻松实现.可是由于长时间没有编码了,而且由于原先的工作用到的比较少.具体的自己就不会写正则表达式用到 ...

  4. Linux下C/C++程序编译链接加载过程中的常见问题及解决方法

    Linux下C/C++程序编译链接加载过程中的常见问题及解决方法 1 头文件包含的问题 报错信息 该错误通常发生在编译时,常见报错信息如下: run.cpp:2:10: fatal error: dl ...

  5. java 相同字符不连续_Java中字符串中连续相同字符去重方法

    搜索热词 最近参加了一个面试,问到了如何在一个字符串中连续相同字符去重,想了想用正则表达式应该可以轻松实现.可是由于长时间没有编码了,而且由于原先的工作用到的比较少.具体的自己就不会写正则表达式用到的 ...

  6. cad2020安装1603错误_解决CAD安装过程中出现1603致命错误的方法

    原标题:解决CAD安装过程中出现1603致命错误的方法 安装AutoCAD的时候,出现致命错误,提示1603错误,如下图所示,应该如何解决 出现这个问题,可尝试一下方法解决 1.删除安装程序,找到一下 ...

  7. 《炬丰科技-半导体工艺》化学清洗过程中重金属污染的监测方法

    书籍:<炬丰科技-半导体工艺> 文章:化学清洗过程中重金属污染的监测方法 编号:JFKJ-21-809 作者:炬丰科技 摘要 本文通过绘制少数载流子扩散长度.体中铁浓度和表面污染(表面电荷 ...

  8. 操作系统中进程并发运行的过程_三种电磁流量计运行过程中常见故障解决详情!...

    原标题:三种电磁流量计运行过程中常见故障解决详情! 昨天给大家介绍了电磁流量计的一些典型故障,今天我们继续来谈电磁流量计的故障问题!电磁流量计在正常的保养与维护之后,在正常使用的过程中依旧是会因为当时 ...

  9. PCB抄板过程中反推原理图的方法

    PCB抄板过程中反推原理图的方法 在PCB设计行业中,有PCB文件想要原理图该怎么办呢?在PCB反向技术研究中,反推原理图是指依据PCB文件图反推出或者直接根据产品实物描绘出PCB电路图,旨在说明线路 ...

最新文章

  1. 记一次数据库崩溃的恢复
  2. 囚犯学会编程之后会发生什么?
  3. Linux Shell脚本编程 --split命令
  4. 动态代理之Cglib浅析
  5. CSS3实战开发: 纯CSS实现图片过滤分类显示特效
  6. 一行Java代码实现游戏中交换装备
  7. PAT甲级1023 大整数加法
  8. centos7 挂载磁盘_Linux磁盘管理之LVM
  9. Springboot+Thymeleaf《药品管理系统》
  10. PPT图片虚化效果要怎样实现?
  11. 传真机使用方法,使用说明
  12. 如何写出高分IB TOK Essay?
  13. 微信小程序电子签名及图片生成
  14. 全球四大卫星导航系统年鉴
  15. MyOS 之 键盘鼠标
  16. linux卸载kodi,在Ubuntu 18.04上,如何安装Kodi
  17. 关于思科CCIE重认证的方式,留给有需要的网络工程师
  18. 计算机科学与技术有关参考文献,计算机科学与技术毕业论文参考文献示例
  19. 云之讯手机号短信验证
  20. Anyconnect Server 搭建

热门文章

  1. 微信获取token服务器处理,微信硬件平台(九) 自己的服务器从微信获取token并保存txt...
  2. android 5.0.1 libdvm.so,Android逆向进阶—— 脱壳的奥义(基ART模式下的dump)
  3. activity 点击后传递数据给fragment_Fragment 新特性 : Fragment Result API 使用以及源码分析
  4. Java学习笔记—生产者和消费者模式
  5. python导出dxf图_在PDMS中使用python直接生成管口方位图(开源分享第三集)
  6. 载波聚合或双连接的方式进行_智能电表常用远程抄表方式,您想知道吗?--老兵聊电之...
  7. 高斯投影坐标系为什么是六七八位数
  8. 【转】c#数字图像处理(三)灰度直方图
  9. 【转】深入浅出图解C#堆与栈 C# Heap(ing) VS Stack(ing) 第六节 理解垃圾回收GC,提搞程序性能****
  10. 【转】状态机思路在程序设计中的应用