常见的反爬策略及解决方案

常见的反爬策略及解决方案

网络爬虫技术是指按照一定的规则,自动地抓取万维网信息的技术。爬虫一般分为数据采集,处理,储存三个部分。

一般网站从三个方面反爬虫:a.用户请求的Headers;b.用户行为;c.网站目录和数据加载方式。大多数网站都从a、b来反爬虫。一些应用ajax的网站会采用c,增大了爬取的难度(防止静态爬虫使用ajax技术动态加载页面)。

1.最常见的反爬虫策略——用户请求的Headers。

解决方法:伪装header。

大部分网站都会对用户请求头Headers的User-Agent进行检测,部分网站会对Referer进行检测。对于这类反爬可以直接在代码中添加Headers,将浏览器的User-Agent复制到代码的Headers中;

或者将Referer值修改为目标网站域名。修改或者添加Headers就能很好地绕过检测Headers的反爬。

2.基于用户行为反爬虫

部分网站是通过检测用户行为反爬,例如同一IP短时间内多次访问某个页面,或者同一账户短时间内进行多次相同操作。

解决方法:

  1. 对于“同一IP短时间内多次访问某个页面”的情况,使用IP代理就可以解决。也可以先爬取网上免费的代理ip,检测后将可用的ip全部保存起来。这样以后可以有规律地更换ip进行爬虫(如:每请求几次更换一个ip);

  2. 对于“同一账户短时间内进行多次相同操作”的情况,可以在每次请求后随机间隔一定时间再进行下一次请求。

爬虫推荐:
私密代理 规格丰富,覆盖爬虫工作者需求场景;

隧道代理 自动转发IP,无需手动提取代理IP,多个转发周期供您选择。

另外个人中心可以实时监控IP使用情况(IP使用统计、并发、带宽、报错分析等等);

联系客服了解详情并领取4小时免费试用。

3.动态页面的反爬虫

上述的几种情况多是静态页面,对于另一部分网站是需要通过ajax请求得到我们需要爬取的数据。

解决方法:Selenium+PhantomJS

Selenium:自动化web测试解决方案,完全模拟真实的浏览器环境,完全模拟基本上所有的用户操作;

PhantomJS :一个没有图形界面的浏览器。

常见的反爬策略及解决方案相关推荐

  1. 5种常见反爬策略及解决方案

    随着互联网的发展,越来越多的公司需要爬取各种数据来分析出自己公司业务的发展方向.而目前许多目标网站也有各种各样的措施来反爬虫,越是数据价值高的网站反爬做得也就越复杂.给大家列举了几个常见的反爬措施以及 ...

  2. python网络爬虫系列(八)——常见的反爬手段和解决方法

    常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...

  3. 【爬虫进阶】常见的反爬手段和解决方法(建议收藏)

    爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...

  4. 爬虫中常见的反爬手段和解决方法

    每日分享: 欲成大树,莫与草争:将军有剑,不斩草蝇:遇烂入及时止损,遇烂事及时抽身.格局小的人喜欢诋毁和嫉妒,因为我不好,我也不想让你好.格局大的人都懂得一个道理,强者互帮,弱者互撕.人性最大的愚蠢就 ...

  5. Python 常见的反爬手段和解决思路

    学习目标: 1.了解 服务器反爬的原因: 2.了解 服务器常反什么样的爬虫: 3.了解 反爬虫领域常见的一些概念: 4.了解 反爬的三个方向: 5.了解 常见基于身份识别进行反爬: 6.了解 常见基于 ...

  6. python爬虫反爬策略_用Python语言做爬虫有哪些策略可以对抗反爬虫?

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 作为爬虫工程师,时常要为不断更新的反爬虫策略而苦恼,究竟是魔高一尺还是道高一丈,从来就没有真正的分出过胜负,一个为了完成爬虫工作,一个为了保卫网站不被爬虫 ...

  7. 爬虫反爬机制及反爬策略

    参考:https://www.cnblogs.com/LLBFWH/articles/10902533.html 爬虫是一种模拟浏览器对网站发起请求,获取数据的方法.简单的爬虫在抓取网站数据的时候,因 ...

  8. python爬虫常见反爬措施_爬虫常见的反爬措施有哪些

    爬虫常见的反爬措施有三种: 1.header头部信息 解决方法: 加User-Agent值: 如果不加header头,部分网站服务器判断不到用户的访问来源,所以会返回一个404错误来告知你是一个爬虫, ...

  9. Python | 常见的反爬及解决方法,值得收藏

    我们都知道Python用来爬数据,为了不让自家的数据被别人随意的爬走,你知道怎么反爬吗?今天播妞带着大家一起见识见识常见的反爬技术. 很多人学习python,不知道从何学起. 很多人学习python, ...

  10. 常见的反爬措施:UA反爬和Cookie反爬

    本文分享自华为云社区<Python爬虫反爬,你应该从这篇博客开启,UA反爬,Cookie 特定参数反爬>,作者:梦想橡皮擦. 通过前面的爬虫程序,你或许已经注意到,对于目标站点来说,爬虫程 ...

最新文章

  1. 数博前沿 | 企业数据应用:聚焦场景,打通“最后一公里”
  2. mysql could not create connection_mysql8.0 Could not create connection to database server.解决办法...
  3. Python内置函数查询表——总结篇
  4. HttpServletRequest常用获取URL的方法
  5. 阻塞、非阻塞、同步与异步
  6. java即时聊天系统毕业_(完整版)基于Java即时聊天系统的设计与实现毕业论文设计...
  7. 学安全工程用不用计算机,上重点大学的末流专业,不如上普通大学的重点专业,你赞成吗?...
  8. (操作系统题目题型总结)第三章:同步与互斥
  9. python assert_python assert使用说明
  10. 区块链共识机制优缺点对比都是什么
  11. 内存瓶颈和计算负载问题一举突破?韩松团队提出MUCNetV2:解锁MCU端新纪录!...
  12. nero10 序列号
  13. Angular国际化中ngx-translate使用
  14. 【Gym - 101350M Make Cents?】 STL - map
  15. katacontainers启动分析
  16. Jeanjack旗舰店 “Jeanjack官网   Jeanjack男装”
  17. 浅谈 Web 网站架构演变过程
  18. 幼儿教师计算机word知识点,幼儿园教师计算机培训计划
  19. 来自国外高级Java架构师的采访总结
  20. apche的AB测试详解

热门文章

  1. 慕课版软件质量保证与测试(第五章.课后作业)
  2. 华三交换机dhcp 保留地址
  3. vmware虚拟机安装,网络配置,与xshell和xftp的连接(图文)
  4. iOS 模拟器调试web/h5代码
  5. 学习笔记——meta analysis
  6. python基础之应用场景
  7. Python数据处理及分析详解
  8. ssm项目搭建(tomcat配置)详解
  9. 二元函数连续性知识点总结
  10. 第3关:HTML表格:日常消费账单表格展示网页