概念定义

  ► 网络爬虫:使用任意技术手法批量获取网站站点网页信息的1种方法。

  ► 反网络爬虫:是指使用任意技术手法,阻止别人批量获取自己网站站点网页信息的1种方法。

  (主讲重点强调了“批量”二字,如果一次只获取几百条数据不能称之为网络爬虫,因为人工去复制粘贴的效率可能更高)

  ► 误伤:在反网络爬虫过程中,错误地将一般正常用户识别为网络爬虫的行为。

  ► 拦截:成功阻止网络爬虫访问。

  反网络爬虫原理

  形形×××的假币有一个共同的特征,就是和真币不一样。同理,形形×××的网络爬虫也有一个共同的特征,那就是它们的行为和真实的正常用户不一样。

  对于每一天大批量的访问,反网络爬虫工程师需要根据访问行为的特征,鉴定哪些访问是网络爬虫所为,然后采取一些措施阻止其获取数据。但是也有一定概率将真实正常用户判定为网络爬虫,而导致该正常用户无法继续访问网站站点或者无法看到真实的数据,影响了正常用户体验,这就是误伤。

  反网络爬虫策略的演变

  最初反网络爬虫的思路的是阻止对方拿到数据,但是在博弈中工程师们逐渐发现,网络爬虫是无法完全拦截的。因此现在更多的策略变成提供假数据,降低对方数据分析的可信性。

  主讲人给大家举一个例子把这个策略具体化。A企业和B企业进行价格竞争,双方都希望自己的定价低于对方来吸引正常用户。假设A企业定价200元,而B企业想要通过爬取A企业的价格数据制定更低的价格。此时A企业的反网络爬虫策略是对识别为网络爬虫的访问并提供220元的价格。这样一来,B企业就很可能基于这个假数据给相同商品定了一个210元的价格,以为可以在自己利润损失较少的情况下吸引客户。但事实上,这个价格比A企业的真实定价要高,正常用户一笔价,还是会选择购买A企业的产品。在这种情况下,B企业通过网络爬虫获得的数据就无法产生经济效益,A企业的“反网络爬虫数据保卫战”取得了胜利。

  当这种策略成了业内的共同知识,不少企业都会对爬取到的数据进行检查。目前,业界对所爬数据的处理方式主要有以下三种:

  ① 不验证

  ② 多次爬取验证

  ③ 人工抽检

  网络爬虫与反网络爬虫岗位对比

  一般企业都会对外声称自己做反网络爬虫,而隐瞒自己做网络爬虫。因为做网络爬虫就像在偷别人的数据,而做反网络爬虫则像在维护自己的资源,同时标榜自己的技术。但是招聘网站站点的数据是诚实的,在招聘网站站点上能搜到的反网络爬虫工程师岗位屈指可数,而网络爬虫工程师却非常多。

  企业一般很难招到反网络爬虫工程师,因为会网络爬虫的很多,会反爬的工程师很少。人才以稀为贵,反网络爬虫工程师的薪资也通常会比网络爬虫工程师高很多。因为人员缺乏,反网络爬虫的工作通常是由非专业团队来做的。一般都是在对企业网站站点常常遭遇网络爬虫的时期,管理人员以升职加薪为“诱饵”,调一部分前端的技术人员去做艰苦的反网络爬虫工作。

  反网络爬虫工程师的工作比较稳定,而网络爬虫工程师则比较容易离职。这是因为企业对网络爬虫工程师的绩效考核非常严格(比如抽查3000条数据,只要有一条是假的数据就全部重爬),容易造成压力。当然,被竞争对手的反网络爬虫工程师劝退也是离职率高背后一个比较重要的原因。关于这点先卖个关子,之后再展开来讲。

  网络爬虫和反网络爬虫的战争

  网络爬虫和反网络爬虫的战争耗费了很多资源,非常无聊,而且常常无法产生经济效益。他们之间的战争就像游戏和外挂的战争一样。游戏发布→外挂横行→游戏修补→漏洞外挂失效→新外挂出现→游戏再修补……反反复复,直到一方撑不下去,网络爬虫与反爬也是如此。

  一个情节跌宕起伏的实例:反网络爬虫工程师为了等待对方网络爬虫工程师下班,静静忍到晚上11点才更新策略,但第二天一觉醒来却发现自己的反网络爬虫系统竟然在凌晨3点被破解、数据也被对方获取,下定决心以后睁着大眼睛等到凌晨3点之后再对策略进行更新。

  对弈是煎熬的,但在这双方来来去去的过程中也发生了不少趣事。反网络爬虫工程师有时会在网站站点的代码中添加一些注释,这些注释一般正常用户看不到,但是网络爬虫工程师可以看到。他们会在这些注释里写一些让对方放弃的话语。甚至在一层层反网络爬虫策略靠后的位置放一些招聘网页信息,策反对面网络爬虫工程师,因为能通过前面的重重关卡来到这里的,技术都是有保证的。

转载于:https://blog.51cto.com/14059916/2340182

【太阳软件】动态换ip软件:反爬虫对抗对数据分析的影响相关推荐

  1. 佳博网络打印机改ip工具_换IP软件为什么是网络工作者首选工具?

    科技的不断发展也在促使着网络技术的进步,而网络对于我们日常工作生活来说是不可或缺的,太多事情都需要在网络中完成,对于互联网从业者深知其重要性,常常会因为项目的不同需要切换不同的IP地址来进行工作,一般 ...

  2. 换IP软件的功能和原理?

    随着Internet发展水平的提高,换ip软件在互联网营销中的作用越来越重要.IP全称互联网协议地址,是指IP地址,意思是分配给用户上网使用的网际协议(英语:InternetProtocol,IP)的 ...

  3. 如何选择一款适合自己的换IP软件呢?

    目前市场上换IP的软件提供商多如牛毛,不同品牌的换IP软件,商家提供的产品和服务差不多,并且都是需要收费才能使用的,那么这么多付费的软件里,哪一款的性价比最高,IP质量最好呢? 哪款换IP软件的性价比 ...

  4. 电脑换ip软件_如何使用爱加速换iP软件

    如今很多人因为工作.生活需要切换自己的ip地址,如何简单快速的切换ip成为这些用户关心的事情同时也是工作生活中所必不可少掌握的技巧.今天将给大家分享爱加速换ip软件的安装和使用的方法. 工具 电脑 爱 ...

  5. 换IP软件能否实现定时切换IP?一起来验证

    有时候,因工作原因需要不同的IP,这个时候我们应该如何来切换电脑IP呢?许多人会说使用换IP软件啊,那么换IP软件真的可以实现自动切换电脑IP地址吗?让我们一起来验证下. 1.首先,我们先查看一下本机 ...

  6. 换ip_手动更换ip与换ip软件的优劣对比

    随着科技发达以及技术革新,越来越多新奇古怪的软件已经走进人们的生活,尤其是在市场营销方面,许许多多能够促进市场营销方面以及高效的软件也逐渐进入人们的视野.换ip软件就是其中之一.但是随着科技的发达,还 ...

  7. 怎样选择换ip软件,什么样的软件比较好?

    在这个社会经济发展迅速,网络遍及人们的生产生活的时代,代理ip这种新兴名词逐步变成了我们生产生活中难以避免接触到的领域.选取一个优秀的代理ip,有品质服务的保障和诚信服务的基础,需要我们慧眼识金,大浪 ...

  8. 一起来验证!换IP软件真的有用嘛?

    技术牛的程序员会自己搭建IP代理池,不过对于刚入门的小白或者工作时间很紧凑的人来说,花费力气去搭建一个IP代理池,有些得不偿失了.于是,市面上就出现了很多改ip软件,可以百度一下,有很多,我们随便选一 ...

  9. 简单几步设置电脑动态换ip

    现在的网络环境多样复杂,有的是路由器,有的是交换机,有的是WIFI,又有的是局域网.那么,在这些网 络环境下,如何实现电脑动态换IP? 今天就简单的介绍两种方法换电脑IP. 第一种方法:修改本地(TC ...

最新文章

  1. Vertica 高可用性测试
  2. 盘点几个值得你借鉴的Java学习方法
  3. python系统-python 系统相关操作
  4. spring使用回顾
  5. Rust 编程语言极简教程 --- 实例学习
  6. vue 2个方法先后执行_有效快速制作工资条的2个方法
  7. SYBASE数据导入技巧
  8. 创业,一定要咬牙坚持吗?屁,该放就放
  9. 如果降低sbus总线的传输速率/帧率,sbus怎样转UART,sbus接到4G
  10. Julia: readcsv和 readdlm
  11. 米克科技 - 全新开发悬赏任务APP系统源码平台
  12. 档案管理系统,项目总结
  13. java7 pc6_GitHub - ShingmoYeung/oss-sdk-java at ec7c09757dcbcb2b934f46b12ab71f3e14d2df72
  14. 伴风网易博客linux,网易博客链接
  15. 大数据综合实验(一)
  16. hystrix 熔断器
  17. 让div在屏幕中居中(水平居中+垂直居中)的几种方法
  18. 以太坊模拟器Ganache v7重磅发布!
  19. ibm tivoli_在Tivoli Access Manager v6.1 / WebSEAL和Tivoli Integrated Portal v1.1.x之间配置单点登录...
  20. 那些爆火的小游戏你都玩过吗?

热门文章

  1. hive(让我凌乱的一天)
  2. 树莓派进阶之路 (002) - 系统烧录及系统使用(多平台)
  3. [转]安卓开发startservice 和bindservice详解
  4. MA5680T跨板聚合
  5. 现状,疑问,思考,探索,选择
  6. cpu上下文切换(下)
  7. 协议类接口 - LCD
  8. ActiveMQ消息的延时和定时投递
  9. Linux虚拟化介绍
  10. iOS 新浪微博-5.2 首页微博列表_转发微博/工具栏