一、为什么要反爬虫

1、爬虫占总PV比例较高,这样浪费钱(尤其是三月份爬虫)。

三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期。

最初我们百思不得其解。直到有一次,四月份的时候,我们删除了一个url,然后有个爬虫不断的爬取url,导致大量报错,测试开始找我们麻烦。我们只好特意为这个爬虫发布了一次站点,把删除的url又恢复回去了。

但是当时我们的一个组员表示很不服,说,我们不能干掉爬虫,也就罢了,还要专门为它发布,这实在是太没面子了。于是出了个主意,说:url可以上,但是,绝对不给真实数据。

于是我们就把一个静态文件发布上去了。报错停止了,爬虫没有停止,也就是说对方并不知道东西都是假的。这个事情给了我们一个很大的启示,也直接成了我们反爬虫技术的核心:变更。

后来有个学生来申请实习。我们看了简历发现她爬过携程。后来面试的时候确认了下,果然她就是四月份害我们发布的那个家伙。不过因为是个妹子,技术也不错,后来就被我们招安了。现在已经快正式入职了。

后来我们一起讨论的时候,她提到了,有大量的硕士在写论文的时候会选择爬取OTA数据,并进行舆情分析。因为五月份交论文,所以嘛,大家都是读过书的,你们懂的,前期各种DotA,LOL,到了三月份了,来不及了,赶紧抓数据,四月份分析一下,五月份交论文。

就是这么个节奏。

2、公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。

OTA的价格可以在非登录状态下直接被查询,这个是底线。如果强制登陆,那么可以通过封杀账号的方式让对方付出代价,这也是很多网站的做法。但是我们不能强制对方登录。那么如果没有反爬虫,对方就可以批量复制我们的信息,我们的竞争力就会大大减少。

竞争对手可以抓到我们的价格,时间长了用户就会知道,只需要去竞争对手那里就可以了,没必要来携程。这对我们是不利的。

3、爬虫是否涉嫌违法? 如果是的话,是否可以起诉要求赔偿?这样可以赚钱。

这个问题我特意咨询了法务,最后发现这在国内还是个擦边球,就是有可能可以起诉成功,也可能完全无效。所以还是需要用技术手段来做最后的保障。

二、反爬虫

1、网站不同地方的文本内容添加不同的自带标签,增加对方数据清理难度。

2、关键数据由文本转图片,甚至添加水印等。目前市场上图片ocr识别无法有效转文字,让对方即使获取了图片也无法有效使用。

3、网站相关页面的列表查询,限制总页数的展示。比如数据一共1K页,相关接口却只对外展示前十页。对方找不到入口最多爬取10页数据。

4、间接关闭网站核心数据查看入口,比如内容的查看像百度文库一样改为word、pdf或者ppt下载模式,高频下载需要验证码或者账号积分。

5、网站不提供注册入口,或者注册需要内部推荐或者评审,加大爬虫方获取账号的难度。

6、网站的请求url复杂化,比如弄的像淘宝一样没有规律,id改为UUID等。

7、前端页面尽可能不暴露数据的唯一键,对唯一键如主键id等进行伪装,可以增加对方爬取后的去重成本。因为对方爬数据可能是在你的多个模块页面进行多维度爬取,会有大量的重复数据。

8、前端html页面别一次性加载列表,根据用户点击js动态加载。即查询页面源码时,只能看到列表的第一条数据。

9、当确定访问异常时,大量返回虚假数据。爬虫几乎没有判断数据真假的能力,只有人才有。对方发现的越晚,我们的处理应对时间就越充裕。

10、核心数据提高安全等级,单独加密等。

python反爬虫策略ppt_关于反爬虫策略相关推荐

  1. Python爬虫六:字体反爬处理(猫眼+汽车之家)-2018.10

    环境:Windows7 +Python3.6+Pycharm2017 目标:猫眼电影票房.汽车之家字体反爬的处理 ---全部文章: 京东爬虫 .链家爬虫.美团爬虫.微信公众号爬虫.字体反爬.Djang ...

  2. python学习笔记分享(四十)网络爬虫(7)反爬虫问题,解决中文乱码,登陆和验证码处理

    网络爬虫深度知识 一.反爬虫问题 (一)反爬虫原因 1.网络爬虫浪费了网站的流量 2.数据是私有资源 3.爬虫协议与原则 (二)反爬虫方式 (三)反反爬虫 1.原理 2.三种方法 二.解决中文乱码 ( ...

  3. 一次Python爬虫实战,解决反爬问题!

    人生苦短,快学Python! 随着互联网的发展,Python的崛起,很多网站经常被外面的爬虫程序骚扰,有什么方法可以阻止爬虫吗? 阻止爬虫也就称之为反爬虫,反爬虫涉及到的技术比较综合,说简单也简单,说 ...

  4. 常见的一些反爬虫策略(下篇)-Java网络爬虫系统性学习与实战系列(10)

    常见的一些反爬虫策略(下篇)-Java网络爬虫系统性学习与实战系列(10) 文章目录 联系方式 反爬虫策略 文本混淆 SVG映射 CSS文字偏移 图片混淆伪装 字体反爬 Referer字段反爬 数据分 ...

  5. Python爬虫学习第九天---反爬与反反爬

    反爬与反反爬 一.常见反爬手段和解决思路 1.服务器反爬原因 1.爬虫占总PV比例较高,这样浪费钱. 2.三月份爬虫:每年的三月份我们会迎接一次爬虫高峰期,有大量的硕士在写论文的时候会选择爬取一些往网 ...

  6. 爬虫与反爬虫系统的设计思路与策略

    爬虫与反爬虫系统的设计思路与策略 常用的爬虫工具 01 封IP 02 封User-Agent 03 封Cookie 04 javascript渲染 05 验证码验证 06 ajax异步传输 07 图片 ...

  7. 爬虫需谨慎!那些你不知道的爬虫反爬虫套路,学起来!

    目录 前言 一.爬虫反爬虫运行现状 1.真实世界的爬虫比例 2.哭笑不得的决策思路 二.爬虫反爬虫技术现状 1.为python平反 2.无法绕开的误伤率 3.前端工程师的逆袭 4.误伤,还是误伤 三. ...

  8. 爬虫之常见的反爬手段和解决思路

    1 服务器反爬的原因 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,这样浪费钱(尤其是三月份爬虫). 三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高 ...

  9. 爬虫中常见的反爬手段和解决方法

    每日分享: 欲成大树,莫与草争:将军有剑,不斩草蝇:遇烂入及时止损,遇烂事及时抽身.格局小的人喜欢诋毁和嫉妒,因为我不好,我也不想让你好.格局大的人都懂得一个道理,强者互帮,弱者互撕.人性最大的愚蠢就 ...

  10. 反爬虫兵法演绎04 _ 爬虫的首轮攻势:如何低调地拿到自己想要的数据?

    本资源由 Java学习者论坛 收集整理 04 | 爬虫的首轮攻势:如何低调地拿到自己想要的数据? 你好啊,我是DS Hunter.又见面了. 前面我和你聊了聊爬虫和反爬虫的历史,感觉这是一个内卷的死结 ...

最新文章

  1. python多进程队列性能测试
  2. 【PC工具】录屏软件,必须好用无广告!
  3. iptables中关于limit和limit-burst的解释
  4. IP层:尽力交付,可能丢包,可能重包,可能无序
  5. 工作实践之 try-with-resource 资源关闭
  6. 2012.4.16总结(三)
  7. VMware Cloud Director 10.3 发布(下载) - 云计算调配和管理平台
  8. ssh远程连接Ubuntu 20.04
  9. android horizontalscrollview属性,Android中HorizontalScrollView使用方法详解
  10. JanusGraph基础知识
  11. java 数组 重复数据结构_Java数据结构和算法( 二 ) ## 数组
  12. 软件测试工程师必须要了解的4个证书
  13. iOS 字体pt和px的转换
  14. 3580整数配对---20210527
  15. 用夜神模拟器+GPA分析Android游戏
  16. 基于深度学习的推荐系统(一)
  17. WarGame bandit
  18. Column 'id' in where clause is ambiguous
  19. 产品原则和产品评审团
  20. java如何接收十六进制_JAVA十六进制数据接收与传输

热门文章

  1. 网络历史之金融投资三剑客03
  2. 【Linux 操作系统】vim编辑器配置及常用命令
  3. macOS HBuilderX 使用安卓模拟器调试项目
  4. DiskGenius 强行拆分黑苹果HFS硬盘分区以给Windows扩容
  5. 四种超实用的超级记忆法-数字定桩法,借助语句定桩法,标题定桩法,记忆宫殿法
  6. EFResume 一个普通的 Swift 简历模板
  7. MySQL基础(2)----DDL DML DQL语言完成数据库的增删改查操作 数据备份(导入导出sql包) 单表查询
  8. 收文和发文管理流程分析
  9. Xshell6 Xftp6 官方永久免费版下载
  10. 华为认证HCIP是什么?有什么用?