什么是防采集?

用大白话来说,就是我们想利用工具采集某个网站的数据(前提当然是公开合法数据),但网站不想给你采集而设置的技术阻挡措施。

网站常见的防采集套路有哪些?

防采套路1:输入验证码框验证

采集难度:★☆☆☆☆

常见网站:搜狗微信

在采集某些网站过程中,爪子们是不是经常会遇到这样的情况,要求你输入验证码,否则就卡住进行不下去?

对的,这是网站最常用且最基础的防采措施之一,它要求你必须你手动输入验证码里的数字和字母,才能继续看到更多信息或者进行下一步,以此来判断你是机器人还是真人。

防采套路2:滑动拼图进行验证

采集难度:★★☆☆☆

常见网站:拉勾、B站

验证码防采套路升级版,也是网站最常用来验证当前浏览用户是机器人还是人工的方式之一。

它要求你必须滑动拼图到它指定的位置,才能通过验证进行下一步操作。

防采套路3:登录验证

采集难度:★★★☆☆

常见网站:新浪微博、新榜

这类网站通常需要登录才能看到更丰富的信息,否则只会展现非常有限的内容。放在八爪鱼采集器里,只要一启动,这类网站就立即弹出登录窗口,才能进行下一步,有时候还会出现在采集的过程当中。如果不懂的如何设置登录流程的爪子,很快会提醒“采集终止”。

防采套路4:数据加密

采集难度:★★★★☆

常见网站:大众点评

有些网站通过对数据加密进行防采集。如大众点评(上图),我们在网页上看到的内容是这家餐厅的“地址”,但我们打开源代码看,这段文字被已经被加密分离,这会导致什么结果?

这将导致即便你将它采集下来,文字也是乱码或支离破碎的,无法整合成一段完整的文字。

防采套路5:反馈虚假数据

采集难度:★★★★★

常见网站:携程网

最近看到一个携程开发写的帖子,关于他们是如何给爬虫反馈“假数据”的。看完觉得携程太“可怕了”!

当你发现辛辛苦苦采集下来的数据居然是假的,请问你心累不心累?!所谓道高一尺,魔高一丈,遇到这种给你“投毒”的网站就请绕道吧,除非你想到更好的破解方法!

防采套路6:禁止访问

 

采集难度:★★★★★

常见网站:个别网站

小八目前还没怎么遇到过这种情况。当然,我们没事也不会故意“以身试法”,去试探网站的防采底线。

这种情况,主要还是看网站的防采机制设计,如果触发了,通常的结果就是全面封锁和禁止。比如封你的账号、封你的IP地址。一旦被封锁,网站会自动给你错误页面或无法让你正常浏览。

几种最容易触发防采集的情况。

1、采集速度过快、频次过高

嗯?这个用户怎么会1分钟浏览几十个页面呢?而且还是一天24小时不休息?有问题,我要去查查!啊,绝对是机器,封掉~!

采集速度过快、频次过快很容易引起对方网站注意,对方人员很容易就识别出你是机器在爬取它的内容,不是人类。毕竟正常人是无法像机器人那样不休不眠地高速运转。

2、采集数据量过大

当你速度和频次上来了,你采集的数据量将会很庞大,小八曾遇到爪子一天采集几百万条数据的情况,如果对方官网防采严格,则容易触发防采集机制。

3、一直使用同一个IP或账户

一旦对方网站发现你的IP/账户为机器爬虫,那么很有可能你的IP/账户就会被列入他们的黑名单,以后不允许你访问或者给你展示一个错误页面,让你无从下手。

针对防采集八爪鱼推出了一系列智能防封解决方法!

解决方法1:自动识别输入验证码

八爪鱼提供验证码识别控件,目前支持自动识别8种类型智能识别,包括字母、数字、汉字,还包括混合算数计算!

解决方法2:自动滑动拼图验证

遇到滑块?别担心,八爪鱼支持自动识别滑块验证,并且让机器自动拖动到指定位置,网站验证妥妥滴。

八爪鱼自动通过滑块验证

解决方法3:设置自动登录

八爪鱼提供以下2种登录模式:

1)文本+点击登录

在八爪鱼里设计登录流程,在采集过程中八爪鱼将自动输入用户和密码进行登录(PS,八爪鱼不会获取任何用户个人隐私)

2)Cookie登录

在八爪鱼中进行登录,通过记住登录后的Cookie,下次直接以登录后的状态打开网页进行采集。

解决方法4:放慢采集速度

1)Ajax加载

AJAX:延时加载、异步更新的一种脚本技术。简单来说就是,我们可以通过Ajax技术让网页加载的时间更长一些(可以设置0-30秒),让浏览速度变慢一点点避免查封。

2)执行前等待

执行前等待是指在进行采集操作之前,八爪鱼会自动默认等待一段时间,确保要采集的数据已经加载出来。这个方法同样适用于防采比较严格的网站,通过放慢采集速度来躲避反爬虫的追踪。

解决方案5:优质代理IP

八爪鱼提供了优质的代理IP池,在采集过程中支持智能定时切换IP,避免同个IP采集被网站追踪封锁。

关注公众号“八爪鱼大数据”获取更多数据采集信息~

最常见6大防采集套路及解决方法,建议收藏!相关推荐

  1. mysql 错误问题_Mysql常见的几个错误问题及解决方法:

    Mysql常见的几个错误问题及解决方法: 1.问题: mysql DNS反解:skip-name-resolve 错误日志有类似警告: 点击(此处)折叠或打开 120119 16:26:04 [War ...

  2. 计算机系统故障常用检测及排除方法有哪些,常见电脑故障有哪些 电脑故障解决方法介绍【详解】...

    电脑是我们生活工作中不可缺少的工具,在日常使用过程中,难免会出现各种各样的电脑故障,影响我们的正常使用,电脑故障出现的原因很多,如何解决呢?下面小编给大家介绍5种常见的电脑故障的原因及解决方法,以供参 ...

  3. ATS线上报告个别日志过大无法写入问题的解决方法

    访问日志是分析CDN线上问题的重要参考依据,但是我们在实际运维中发现很多部署点日志记录出现一些小问题,会造成相应的日志条目丢失.我们发现线上一些服务器上时常会报告如下问题: diags.log中经常报 ...

  4. grafana导入json文件没有数据_XAMPP客户端环境无法导入较大Mysql数据库文件的解决方法...

    一般我们本地的网站环境是使用的PHPSTUDY软件客户端,但是一般的MacOS下会使用XAMPP客户端,以前我在MAC上也是有使用过的,总感觉没有国产的软件好用所以就没有使用. 今天遇到有网友出现XA ...

  5. Java常见的几种内存溢出及解决方法

    Java常见的几种内存溢出及解决方法[情况一]: java.lang.OutOfMemoryError:Javaheapspace:这种是java堆内存不够,一个原因是真不够(如递归的层数太多等),另 ...

  6. Android APP常见的5类内存泄露及解决方法

    Android APP常见的5类内存泄露及解决方法 参考文章: (1)Android APP常见的5类内存泄露及解决方法 (2)https://www.cnblogs.com/genggeng/p/7 ...

  7. sql脚本过大,无法打开的解决方法

    sql脚本过大,无法打开的解决方法 参考文章: (1)sql脚本过大,无法打开的解决方法 (2)https://www.cnblogs.com/stevenjson/p/3705588.html (3 ...

  8. 球球大作战显示短信服务器出错,球球大作战常见问题汇总及解决方法

    原标题:球球大作战常见问题汇总及解决方法 下面为大家带来球球大作战新版本的问题汇总,大版本更新以来,球球大作战的玩家们遇到了各种各样的小问题,下面就来看看要如何解决吧. 球球大作战问题汇总 1.为什么 ...

  9. 大文件上传的解决方法

    大文件上传的解决方法 一.使用分片上传的方法 二.进度条使用浏览器XMLHttpRequest的onprogress方法对进度进行监视 三.断点续传核心方法:通过xhr的abort方法,主动放弃当前请 ...

最新文章

  1. python进程间通信 listener_python进程间通信之Queue
  2. go语言高性能缓存组件ccache分析
  3. Android如何使用API
  4. 关于激励函数的一些思考
  5. Oracle错误代码:ORA-28002导致密码消失
  6. Random Forest 资源汇总(待续)
  7. 年薪50万,他们招180名博士
  8. dom4j添加节点的父节点_HTML DOM节点介绍
  9. iOS开发Assertion failure in -[AFJSONRequestSerializer requestWithMethod:URLString:parameters:error:]
  10. cboard 图表类型及其配置项扩展
  11. 发改委交通运输部印发《推进“互联网+”便捷交通 促进智能交通发展的实施方案》(全文)...
  12. DDR 参数 内存延迟时序“CL-tRCD-tRP-tRAS”
  13. RocketMQ如何维持心跳
  14. uni-app开发中的#ifdef MP是什么意思?条件编译
  15. linux 硬盘满了如何处理
  16. java面试被虐记录
  17. Redis 线程模型
  18. RFID标签的安全机制——LCAP协议的C++代码实现
  19. 遍历对象Object的两类方法
  20. git 的批量克隆 批量切换分支 批量pull

热门文章

  1. 2019.08.12【NOIP提高组】模拟 A 组
  2. Coding and Paper Letter(五十)
  3. 增量迭代模型,瀑布模型,螺旋模型,快速原型模型
  4. 腾讯一面+二面+三面+HR面
  5. u盘内存怎么测试软件,U盘下的内存检测软件
  6. 平台软件每日构建总结
  7. ios修改apn的插件_iPhone手机APN修改方案
  8. 阿里云同步gcr.io的镜像
  9. 使用宏定义写出swap(x,y)
  10. Python爬取码市项目